Analisi preliminari dei dati

annuncio pubblicitario
Analisi preliminari dei dati
1. Errori di immissione dei dati
• Gli errori di immissione pregiudicano
irrimediabilmente i risultati delle ricerche e
sono purtroppo molto frequenti. Verificare
sempre che i dati siano stati correttamente
immessi (Min.-Max, Range, Distribuzione di
frequenza, Media e DS).
2. Dati mancanti
• I dati mancanti in genere non vanno
eliminati dato che esistono semplici o
sofisticate procedure di sostituzione
3. Outliers
• Gli outliers univariati (valori estremi
presenti nella distribuzione) e multivariati
(anomali combinazioni dei punteggi delle
singole variabili) possono distorcere i
risultati. Nel caso di outliers univariati è
possibile ricorrere ad alcune statistiche più
robuste di quelle utilizzate normalmente
(ad esempio la più semplice è la media
trimmed che si calcola eliminando il 5%
dei casi dei casi più elevati e più bassi)
4. Livello di misura delle variabili
• Il livello di misura delle variabili deve
essere almeno degli intervalli equivalenti e
deve essere presente un numero
appropriato di categorie ordinabili (ad es.
Likert con 5 o più categorie).
5. Valutazione della normalità della
distribuzione univariata e multivariata
• Quando si hanno dei dati a disposizione per
prima cosa è opportuno verificare se la
distribuzione è normale perché se non lo è si
hanno delle distorsioni delle stime più o meno
gravi a seconda del grado di non normalità.
• In modo elementare una distribuzione è normale
quando:
• -Media = Mediana = Moda
• -Forma della distribuzione a campana
a. Per verificare se la distribuzione è
normale univariata
• -Istogramma (forma a campana)
• -Indici di Asimmetria (Skewness) e Curtosi (Kurtosis).
Asimmetria Negativa i dati si concentrano nella parte
destra della distribuzione (“guardano verso i valori
negativi”), Asimmetria Positiva i dati si concentrano nella
parte sinistra della distribuzione (“guardano verso i valori
positivi”)
• Ottenuti i valori di Asimmetria e Curtosi è necessario
effettuare il Test di Verifica delle Ipotesi che consiste nel
dividere tali valori per il proprio Errore Standard. La
distribuzione si considera distribuita normalmente se i
risultati ottenuti hanno un valore compreso tra –1 e 1
(devono comunque avvicinarsi il più possibile allo 0) in
funzione del livello di significatività scelto (almeno .01).
• a1. Rappresentazione grafica dei Quantili o Q-QPlot o Cumulative
Normal Plot
• La distribuzione è normale se i punti si addensano lungo la diagonale
positiva degli assi.
• a2. Box Plot
• Si tratta di una rappresentazione grafica di 5 indici (Minimo, Massimo,
Mediana e i due Quartili intermedi). Il rettangolo (box) di solito colorato
indica la Differenza Interquartilica e fornisce indicazioni sulla simmetria
della distribuzione.
• a3. Test statistici per la verifica della normalità (KolmogorovSmirnov o Shapiro-Wilk)
• Si tratta di test molto potenti che confrontano la differenza tra la
distribuzione cumulata attesa e quella osservata. Risentono
dell’ampiezza campionaria Se i valori sono significativi (p<.01) esiste
una differenza significativa rispetto alla normale.
• a4. Trasformazioni
• E’ possibile normalizzare la distribuzione ma occorre procedere con
molta cautela specialmente nei casi di forti violazioni della normalità
della distribuzione
• b. Per verificare se la distribuzione è
normale multivariata
• La distribuzione normale multivariata rappresenta
una generalizzazione della normale univariata. Nel
caso in cui tutte le distribuzioni univariate siano
normali è probabile che anche quella multivariata
lo sia. E’ possibile utilizzare un test grafico, il Q-Q
Chi-quadrato della Distanza di Mahalanobis
basato sull’utilizzo dei quantili della distribuzione
del Chi quadrato. La Distanza di Mahalanobis può
essere utilizzata anche per rilevare la presenza di
outliers multivariati
6. Linearità della relazione tra le variabili
verificabile con un diagramma di dispersione
• La linearità della relazione tra le variabili è
verificabile con un diagramma di
dispersione
7. Fattorializzabilità della matrice dei dati
• E’ possibile verificare la grandezza delle correlazioni tra le
variabili (che deve essere elevata) mediante due test
implementati in molti package statistici:
• a. Test di Sfericità di Bartlett (Bartlett, 1954) indica se la
matrice di correlazione è una matrice identità (1 sulla
diagonale e 0 fuori). Se il test è significativo e il campione
è sufficientemente ampio è possibile effettuate l’AFE
• b. Test di Adeguatezza Campionaria o Kaiser-Meyer-Olkin
(KMO) (Kaiser, 1970, 1974) indice che permette di
confrontare la grandezza delle correlazioni osservate
rispetto alle correlazioni parziali. I valori devono essere
>.70
Scarica