Statistica multivariata Donata Rodi SAS: Statistical Analysis System • Software per analisi dati. Composto di: • Un linguaggio per la manipolazione dei dati • Una libreria di procedure già impostate per uso generale • • • • • • • Leggere i dati Trasformarli, manipolarli (con strutture di concatenazione e ordinamento) Aggiornare i dati Stampare oggetti Generare grafici Ridurre e sintetizzare i dati Effettuare analisi statistiche Rodi, 2016 Rodi, 2016 Accesso Gestione Dati Presentazione Analisi Rodi, 2016 Data set Rodi, 2016 Data Step • Gruppo di comandi con cui vengono letti, manipolati e organizzati i dati • Per creare Data set SAS partendo da file esistenti non SAS (dati grezzi, in excel, txt) o SAS • In questa fase SAS viene usato come linguaggio di programmazione Rodi, 2016 Data Step • Lettura e scrittura degli archivi in SAS Rodi, 2016 Data Step Questo passo di data crea il dataset temporaneo di nome pippo inputando direttamente i dati. data pippo; input codice sesso $ età; cards; 1 maschio 23 2 femmina 44 3 femmina 55 ; run; L’istruzione data associa il nome pippo al dataset che verrà creato. L’istruzione input dichiara il tipo (numerico o alfanumerico) e il nome delle variabili che saranno contenute nel dataset. L’istruzione cards dichiara che la lina successiva conterrà i dati. L’istruzione run chiude il passo di data. Rodi, 2016 Data Step Da un file esterno Da un altro data set Rodi, 2016 Data Proc Rodi, 2016 Data Step Rodi, 2016 Data Step Viene creata una variabile di classe Rodi, 2016 Data Step • Da un elenco di valori numerici, si estrae il valore assoluto, l’esponenziale, l’intero, il logaritmo naturale, l’arrotondamento alla seconda cifra decimale, la radice quadrata Rodi, 2016 Data Proc • Procedure di ordinamento e analisi, già implementate che hanno azione sui dati • Operano su dati già in formato DATA SET di SAS • Ogni STEP deve iniziare con DATA o PROC, ma senza un ordine preciso Rodi, 2016 Data PROC • Statistiche descrittive • Analisi di regressione • Analisi di varianza • Analisi multivariate • Analisi di clustering • Analisi di dati categoriali • Analisi di discriminanti • Analisi di sopravvivenza • Scoring Rodi, 2016 Data PROC Rodi, 2016 Funzioni vs Proc Le funzioni producono statistiche per ogni osservazione (riga) Le procedure producono statistiche per le variabili (colonne) Rodi, 2016 Funzioni vs Proc Rodi, 2016 Valori mancanti Rodi, 2016 Valori mancanti Le funzioni ignorano i valori missing SUM: i missing sono considerai zero MEAN: somma dei valori non missing / numero dei valori non missing Rodi, 2016 Selezione di Variabili Rodi, 2016 Proc Sort Esegue l’ordinamento di valori numerici o carattere Rodi, 2016 Proc Print Rodi, 2016 ARRAY Trasformazione dei gradi centigradi in farhenait Rodi, 2016 ARRAY • Struttura logica non conservata nel data set, ma usabile nel Data Step • Per operazioni su un numero di variabili elevato Rodi, 2016 Proc Means Rodi, 2016 Esempio Rodi, 2016 Esempio Rodi, 2016 Proc Means Rodi, 2016 Proc Means Rodi, 2016 Proc Means Rodi, 2016 Proc Freq Conteggia le frequenze, frequenze cumulate, % e cumulate % Rodi, 2016 Proc Freq Per costruire tabelle di contingenza Rodi, 2016