Statistica multivariata
Donata Rodi
SAS: Statistical Analysis System
• Software per analisi dati. Composto di:
• Un linguaggio per la manipolazione dei dati
• Una libreria di procedure già impostate per uso generale
•
•
•
•
•
•
•
Leggere i dati
Trasformarli, manipolarli (con strutture di concatenazione e ordinamento)
Aggiornare i dati
Stampare oggetti
Generare grafici
Ridurre e sintetizzare i dati
Effettuare analisi statistiche
Rodi, 2016
Rodi, 2016
Accesso
Gestione
Dati
Presentazione
Analisi
Rodi, 2016
Data set
Rodi, 2016
Data Step
• Gruppo di comandi con cui vengono letti, manipolati e organizzati i dati
• Per creare Data set SAS partendo da file esistenti non SAS (dati grezzi, in
excel, txt) o SAS
• In questa fase SAS viene usato come linguaggio di programmazione
Rodi, 2016
Data Step
• Lettura e scrittura degli archivi in SAS
Rodi, 2016
Data Step
Questo passo di data crea il dataset temporaneo di
nome pippo inputando direttamente i dati.
data pippo;
input codice sesso $ età;
cards;
1 maschio 23
2 femmina 44
3 femmina 55
;
run;
L’istruzione data associa il nome pippo al dataset
che verrà creato.
L’istruzione input dichiara il tipo (numerico o
alfanumerico) e il nome delle variabili che saranno
contenute nel dataset.
L’istruzione cards dichiara che la lina successiva
conterrà i dati.
L’istruzione run chiude il passo di data.
Rodi, 2016
Data Step
Da un file esterno
Da un altro data set
Rodi, 2016
Data Proc
Rodi, 2016
Data Step
Rodi, 2016
Data Step
Viene creata una variabile di classe
Rodi, 2016
Data Step
• Da un elenco di valori numerici, si estrae il valore assoluto, l’esponenziale,
l’intero, il logaritmo naturale, l’arrotondamento alla seconda cifra decimale,
la radice quadrata
Rodi, 2016
Data Proc
• Procedure di ordinamento e analisi, già implementate che hanno azione sui
dati
• Operano su dati già in formato DATA SET di SAS
• Ogni STEP deve iniziare con DATA o PROC, ma senza un ordine preciso
Rodi, 2016
Data PROC
• Statistiche descrittive
• Analisi di regressione
• Analisi di varianza
• Analisi multivariate
• Analisi di clustering
• Analisi di dati categoriali
• Analisi di discriminanti
• Analisi di sopravvivenza
• Scoring
Rodi, 2016
Data PROC
Rodi, 2016
Funzioni vs Proc
Le funzioni producono statistiche
per ogni osservazione (riga)
Le procedure producono statistiche
per le variabili (colonne)
Rodi, 2016
Funzioni vs Proc
Rodi, 2016
Valori mancanti
Rodi, 2016
Valori mancanti
Le funzioni ignorano i valori missing
SUM: i missing sono considerai zero
MEAN: somma dei valori non missing / numero dei valori non missing
Rodi, 2016
Selezione di Variabili
Rodi, 2016
Proc Sort
Esegue l’ordinamento di
valori numerici o carattere
Rodi, 2016
Proc Print
Rodi, 2016
ARRAY
Trasformazione dei gradi centigradi
in farhenait
Rodi, 2016
ARRAY
• Struttura logica non conservata nel data set, ma usabile nel Data Step
• Per operazioni su un numero di variabili elevato
Rodi, 2016
Proc Means
Rodi, 2016
Esempio
Rodi, 2016
Esempio
Rodi, 2016
Proc Means
Rodi, 2016
Proc Means
Rodi, 2016
Proc Means
Rodi, 2016
Proc Freq
Conteggia le frequenze, frequenze
cumulate, % e cumulate %
Rodi, 2016
Proc Freq
Per costruire tabelle di contingenza
Rodi, 2016