Elementi di Psicometria con Laboratorio di SPSS 1 03-Medie, variabilità e dispersione vers. 1.0 (15 ottobre 2014) Germano Rossi1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2014-2015 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 1 / 47 Introduzione I dati della tabella 3.1 (del libro) rappresentati graficamente. Possiamo vedere che 13 valori sono su 4 valori e 11 su 8. Possiamo descrivere numericamente questi dati? G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 2 / 47 Introduzione Ci sono almeno due informazioni che possiamo raccogliere su dati quantitativi: la tendenza centrale: un valore che meglio rappresenta tutta la distribuzione la variabilità: quanto i valori si disperdono attorno al valore centrale Un ulteriore blocco di informazioni si chiamano indici di posizione. G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 3 / 47 Tendenza centrale Tendenza centrale La tendenza centrale è un’indicazione generica di come sta andando la distribuizione della variabile Ci sono diversi indici che “misurano” la tendenza centrale, alcuni poco informativi, altri molto informativi Livello nominale: Moda Livello ordinale: Mediana Livello intervallo/rapporto: Media Ricordiamo che ogni livello “eredita” dai livelli precedenti G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 4 / 47 Tendenza centrale Moda Tendenza centrale: Moda La Moda (Mo) è la frequenza più elevata di una distribuzione Se c’è una sola moda, la distribuzione si dice Unimodale Se sono 2, Bimodale Se sono più di 2, Multimodale (ma non si utilizza) Esempio M=17, F=13 ⇒ Maschi perché ha frequenza 17 Se ci sono molte categorie, oppure poche categorie tutte con frequenze simili, la moda non ha molto senso. Esempio 1112222333 G. Rossi (Dip. Psicologia) Mo=2 (ma non ha molto senso) ElemPsico 2014-2015 5 / 47 Tendenza centrale Moda Spss: moda Tramite Analizza | Statistiche descrittive | Frequenze... pulsante Statistiche , possiamo far calcolare la moda. poi Continua e OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 6 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana La mediana (Mdn) divide la distribuzione a metà (corrisponde, ma non è sempre uguale, a Q2 ) Se N è dispari, la Mdn è il valore in posizione centrale, corrispondente a (N + 1)/2 Esempio Dati grezzi Ordinati 5 1 2 1 1 1 3 2 5 3 1 3 ⇑ 4 4 4 4 3 5 1 5 5 5 (11 + 1)/2 = 6 ⇒ Mdn=3 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 7 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Se N è pari, la Mdn è il valore fra le 2 posizioni centrali (se esiste) cioè fra N/2 e (N/2) + 1 Se i due valori sono uguali, quello è il valore della mediana Esempio Dati grezzi Ordinati 5 1 5 1 3 3 ⇑ ⇑ (N/2) + 1 = 5 + 1 = 6 ⇒ Mdn=3 G. Rossi (Dip. Psicologia) 2 1 1 1 3 2 4 4 ElemPsico 4 4 3 5 1 5 N/2 = 10/2 = 5 e 2014-2015 8 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Se i due valori sono diversi se la scala è ordinale: entrambi costituiscono la mediana se è quantitativa: si fa la media fra i due valori Esempio Dati grezzi Ordinati 5 1 2 1 1 1 4 2 5 1 4 4 3 1 3 4 4 4 5 5 N/2 = 10/2 = 5 e ⇑ ⇑ (N/2) + 1 = 5 + 1 = 6 ⇒ Mdn=3;4 (ORD) ⇒ 3,5 (I/R) Attenzione Spss (e la maggior parte dei software statistici) fanno sempre la media fra i due valori! G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 9 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) 2 Soluzione 1 N=5; pos=3; Mdn=7 Mdn (2,3,5,7,9,11,12) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) 2 Mdn (2,3,5,7,9,11,12) 3 Mdn (3,4,5,5,6,7) Soluzione 1 N=5; pos=3; Mdn=7 2 N=7; pos=4; Mdn=7 Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) Soluzione 1 N=5; pos=3; Mdn=7 2 Mdn (2,3,5,7,9,11,12) 2 N=7; pos=4; Mdn=7 3 Mdn (3,4,5,5,6,7) 3 N=6; pos=3 e 4; Mdn=5 4 Mdn (3,4,5,6,7,8) Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) Soluzione 1 N=5; pos=3; Mdn=7 2 Mdn (2,3,5,7,9,11,12) 2 N=7; pos=4; Mdn=7 3 Mdn (3,4,5,5,6,7) 3 N=6; pos=3 e 4; Mdn=5 4 Mdn (3,4,5,6,7,8) 4 N=6; pos=3 e 4; Mdn=5;6 (5,5) 5 Mdn (4,5,7,9,13) Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) Soluzione 1 N=5; pos=3; Mdn=7 2 Mdn (2,3,5,7,9,11,12) 2 N=7; pos=4; Mdn=7 3 Mdn (3,4,5,5,6,7) 3 N=6; pos=3 e 4; Mdn=5 4 Mdn (3,4,5,6,7,8) 4 N=6; pos=3 e 4; Mdn=5;6 (5,5) 5 Mdn (4,5,7,9,13) 5 N=5; pos=3; Mdn=7 6 Mdn (1,5,7,9,25) Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Mediana Tendenza centrale: Mediana Esercizio 1 Mdn (3,5,7,9,11) Soluzione 1 N=5; pos=3; Mdn=7 2 Mdn (2,3,5,7,9,11,12) 2 N=7; pos=4; Mdn=7 3 Mdn (3,4,5,5,6,7) 3 N=6; pos=3 e 4; Mdn=5 4 Mdn (3,4,5,6,7,8) 4 N=6; pos=3 e 4; Mdn=5;6 (5,5) 5 Mdn (4,5,7,9,13) 5 N=5; pos=3; Mdn=7 6 Mdn (1,5,7,9,25) 6 N=5; pos=3; Mdn=7 Se aggiungiamo lo stesso numero di valori all’inizio e alla fine di una distribuzione, la Mdn non cambia Se cambiano i valori estremi della distribuzione, la Mdn non cambia G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 47 Tendenza centrale Media Tendenza centrale: media Se 4 amici escono a mangiare la pizza e poi pagano in parti uguali. . . stanno usando la media Ovvero: (18 + 16.5 + 22 + 17.5)/4 Ovvero: 18.5 ∗ 4 Qualcuno paga di più e qualcuno di meno, ma, alla fine, il “di più” si annulla con il “di meno” G. Rossi (Dip. Psicologia) pizza, bibita e dessert Marco 18.0 Clara 16.5 Daniela 22.0 Andrea 17.5 Totale 74.0 a testa 18.5 Marco 18.0 − 18.5 = Clara 16.5 − 18.5 = Daniela 22.0 − 18.5 = Andrea 17.5 − 18.5 = Totale 74.0 − 74.0 = ElemPsico 0.5 2.0 −3.5 1.0 0 2014-2015 11 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] X La media aritmetica (X̄, Md, M) è la somma ( ) di tutti i valori di una distribuzione, divisa per la numerosità (N) PN X= i=1 Xi N P = X N Esempio M(10, 15, 16, 18, 20, 24, 32, 35, 38, 40) = 24.8 10 + 15 + 16 + 18 + 20 + 24 + 32 + 35 + 38 + 40 248 = 10 10 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 12 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) G. Rossi (Dip. Psicologia) Soluzione ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) 2 Soluzione 1 (1+2+3+4+5)/5=15/5=3 M(3,4,5,6,7) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) 2 M(3,4,5,6,7) 3 M(2,4,6,8,10) G. Rossi (Dip. Psicologia) Soluzione 1 (1+2+3+4+5)/5=15/5=3 2 (3+4+5+6+7)/5=25/5=5 ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) Soluzione 1 (1+2+3+4+5)/5=15/5=3 2 M(3,4,5,6,7) 2 (3+4+5+6+7)/5=25/5=5 3 M(2,4,6,8,10) 3 (2+4+6+8+10)/5=30/5=6 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) 1 Soluzione 1 (1+2+3+4+5)/5=15/5=3 2 M(3,4,5,6,7) 2 (3+4+5+6+7)/5=25/5=5 3 M(2,4,6,8,10) 3 (2+4+6+8+10)/5=30/5=6 i numeri da 1 a 5 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) Soluzione 1 (1+2+3+4+5)/5=15/5=3 2 M(3,4,5,6,7) 2 (3+4+5+6+7)/5=25/5=5 3 M(2,4,6,8,10) 3 (2+4+6+8+10)/5=30/5=6 1 i numeri da 1 a 5 2 i numeri della prima serie sommati a 2 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) Soluzione 1 (1+2+3+4+5)/5=15/5=3 2 M(3,4,5,6,7) 2 (3+4+5+6+7)/5=25/5=5 3 M(2,4,6,8,10) 3 (2+4+6+8+10)/5=30/5=6 1 i numeri da 1 a 5 2 i numeri della prima serie sommati a 2 3 i numeri della prima serie moltiplicati per 2 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Tendenza centrale: Media [aritmetica] Esercizio 1 M(1,2,3,4,5) Soluzione 1 (1+2+3+4+5)/5=15/5=3 2 M(3,4,5,6,7) 2 (3+4+5+6+7)/5=25/5=5 3 M(2,4,6,8,10) 3 (2+4+6+8+10)/5=30/5=6 1 i numeri da 1 a 5 2 i numeri della prima serie sommati a 2 3 i numeri della prima serie moltiplicati per 2 Proprietà della media 1: Aggiungendo, sottraendo, moltiplicando o dividendo una costante a tutti i dati della distribuzione, anche la media subisce la stessa trasformazione Proprietà della media 2: Gli scarti dalla media sommano a 0 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 47 Tendenza centrale Media Spss: media La media viene visualizzata da Spss in molte procedure. Quelle specifiche sono: Analizza | Statistiche descrittive | Frequenze... (fra le varie statistiche che è possibile stampare vi è anche la media) Analizza | Statistiche descrittive | Descrittive... (è la procedura specifica per le statistiche descrittive) Analizza | Statistiche descrittive | Esplora... (stampa la media come una delle diverse statistiche per capire l’andamento e la distribuzione di una variabile) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 14 / 47 Tendenza centrale Media Spss: Media con Frequenze. . . Dopo aver scelto le variabili, click-are su Statistiche... e selezionare Media Quindi, click-are su Continua Con variabili quantitative conviene de-selezionare anche oppure in Poi Formato... OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 15 / 47 Tendenza centrale Media Spss: Media con Descrittive. . . Dopo aver scelto le variabili, click-are su Opzioni... Normalmente Media è già selezionato Potete ordinare i risultati in vari modi Poi OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 16 / 47 Tendenza centrale Media Tendenza centrale: Media con dati dicotomici Se una variabile è dicotomica (D) ed è stata categorizzata con 0 e 1, la media di D equivale alla proporzione della categoria 1. Infatti, possiamo pensare a D come la somma di tutti gli 0 e la somma di tutti gli 1. P di 0 · f0 + 1 · f1 D= = N N Ma la somma degli 0 è 0 e la somma degli 1 è uguale alla frequenza degli 1. f1 Quindi la media di una variabile dicotomica è D = N L’equivalenza non vale se categorizziamo con numeri diversi da 0 e 1. G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 17 / 47 Tendenza centrale Media Confronto fra statistiche Moda (Nominale): è il peggior indice Mediana (Ordinale): non è per nulla sensibile ai valori estremi Media (Intervallo/Rapporto): è il miglior indice di tendenza centrale ma è molto sensibile ai valori estremi della distribuzione In una distribuzione simmetrica normale, media, mediana e moda coincidono Se la media è minore della mediana la distribuzione è asimmetrica a sinistra Se la media è maggiore della mediana, la distribuzione è asimmetrica a destra G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 18 / 47 Misure di posizione Indici di posizione - Quantili Dopo aver ordinato i valori di una distribuzione, possiamo suddividere l’intera distribuzione di frequenza in n parti uguali. Se divisa in 100 parti, Centili (C1 , C2 . . . , C99 ) o Percentili (P1 , P2 . . . ) se divisa in 10 parti, Decili (D1 , D2 . . . , D9 ) se divisa in 4 parti, Quartili (Q1 , Q2 , Q3 ) se divisa in 3 parti, Terzili Notate che D1 = P10 , e così via Q1 = P25 , Q2 = P50 = D5 è anche chiamato “Mediana”, Q3 = P75 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 19 / 47 Misure di posizione Quartili I quartili suddividono la distribuzione in 4 parti uguali Q1 Q2 Q3 Si usano solitamente il primo e il terzo quartile (Q1 e Q3) Q1 ha sotto di sé il 25% dei dati 25% Q2 ha sotto di sé il 50% dei dati 50% Q3 ha sotto di sé il 75% dei dati 75% G. Rossi (Dip. Psicologia) ElemPsico 75% 50% 25% 2014-2015 20 / 47 Misure di posizione Quartili: formule La posizione in cui cadono i quartili si trova con: Q1 = Q2 = Q3 = 1 (N + 1) (N + 1) = 4 4 2 2(N + 1) N +1 (N + 1) = = 4 4 2 3 3(N + 1) (N + 1) = 4 4 Se la posizione trovata non è un intero, si tronca (ovvero si usa l’intero inferiore) Una volta trovata la posizione si identifica il valore del quartile (il valore che corrisponde alla posizione) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 21 / 47 Misure di posizione Quartili Esempio 2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8 Q2 = (15+1)/2 = 8 ⇒ Q2=16 Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24 Esercizio 2 4 5 9 10 12 1 Q1 = ? 2 Q2 = ? 3 Q3 = ? G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 22 / 47 Misure di posizione Quartili Esempio 2 4 6 8 10 12 14 16 18 21 22 24 26 28 30 Q1 = (1/4)*(15+1)=16/4=4 ⇒ Q1=8 Q2 = (15+1)/2 = 8 ⇒ Q2=16 Q3 = (3/4)*(15+1)=48/4=12 ⇒ Q3=24 Esercizio 2 4 5 9 10 12 Soluzione 2 4 5 9 10 12 1 Q1 = ? 1 N=6; pos=1.75; Q1=2 2 Q2 = ? 2 N=6; pos=3.5; Q2=5 3 Q3 = ? 3 N=6; pos=5.25; Q3=10 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 22 / 47 Misure di posizione Spss: n-tili (Frequenze) In Statistiche... Quartili calcola i quartili Punti di divisione divide in n parti uguali Percentili: scrivete il percentile che volete e aggiungete Qui abbiamo chiesto: i quartili, i terzili e il 45esimo percentile G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 23 / 47 Misure di posizione Spss: Esplora. . . Dopo aver scelto le variabili, metterle in Variabili dipendenti poi click-are su Statistiche... e scegliere Percentili Quindi, click-are su Continua Poi OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 24 / 47 Misure di posizione Spss: Esplora. . . Esplora non permette di scegliere, ma fornisce alcuni n-tili notevoli I tre quartili e i valori corrispondenti al 5% e 10% su entrambi i lati. Questi valori hanno particolarmente senso con variabili “normali” (capiremo più avanti). G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 25 / 47 Misure di variabilità Misure di variabilità Gli indici di variabilità ci dicono quanto i valori sono dipersi attorno alla tendenza centrale. Esempio valori 77654443 10 10 9 7 5 4 3 2 0 0 P X/N = M 40/8=5 50/10=5 A livello di scala intervallo/rapporto ci sono diversi indici di variabilità: Campo di variazione o gamma (di oscillazione) o range Differenza interquartilica (IQR) Deviazione media o scostamento semplice medio Varianza e deviazione standard G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 26 / 47 Misure di variabilità Misure di variabilità: campo di variazione Il campo di variazione o gamma (di oscillazione) o range o intervallo (per SPSS) è la differenza fra il valore massimo e quello minimo gamma = max − min Esempio valori 77654443 10 10 9 7 5 4 3 2 0 0 G. Rossi (Dip. Psicologia) campo var. 7-3=4 10-0=10 ElemPsico 2014-2015 27 / 47 Misure di variabilità Misure di variabilità: differenza interquartilica La differenza interquartilica (DI, IQR) è la differenza fra il terzo e il primo quartile IQR = Q3 − Q1 e corrisponde al 50% centrale dei valori centrali della distribuzione Esempio valori 77654443 10 10 9 7 5 4 3 2 0 0 Q3-Q1 6-4 7-0 IQR 2 7 La semi-differenza interquartilica è la metà dell’IQR e corrisponde al 25% dei valori sopra o sotto la mediana G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 28 / 47 Misure di variabilità Misure di variabilità Gli scarti dalla media potrebbero essere una misura di variabilità, sennonché abbiamo visto che la somma degli scarti dalla media è sempre pari a 0 (zero) Alcune soluzioni sono: Deviazione media (DM) o scostamento semplice medio (SSM): considerare gli scarti senza il segno (in valore assoluto) e fare la loro media PN |Xi − X| DM = i=1 N Varianza (var): elevare gli scarti a quadrato e fare la loro media PN var = G. Rossi (Dip. Psicologia) i=1 (Xi ElemPsico − X)2 N 2014-2015 29 / 47 Misure di variabilità Misure di variabilità La scelta generale è caduta sulla varianza, perché minimizza le piccole differenze e massimizza le grandi differenze Però la varianza è un quadrato (un’area) e quindi si introduce anche una versione lineare (che è una distanza), lo scarto quadratico medio. Lo scarto quadratico medio (sqm) o deviazione standard (ds) è la radice quadrata della varianza s P √ (Xi − X)2 ds = var = N G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 30 / 47 Misure di variabilità Misure di variabilità Esempio Var(1,2,3,4,5) = [(1 − 3)2 + (2 − 3)2 + (3 − 3)2 + (4 − 3)2 + (5 − 3)2 ] = 5 4+1+0+1+4 [(−2)2 + (−1)2 + (0)2 + (1)2 + (2)2 ] = = 5 5 10 =2 5 √ DS(1,2,3,4,5)= 2 = 1.41 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 31 / 47 Misure di variabilità Misure di variabilità la varianza finora vista è calcolata sul campione PN var = i=1 (Xi − X)2 N possiamo però usare il campione per stimare la varianza della popolazione, in tal caso la formula diventa: PN varstimata = G. Rossi (Dip. Psicologia) ElemPsico − X)2 N −1 i=1 (Xi 2014-2015 32 / 47 Misure di variabilità Misure di variabilità: formula alternativa Calcolare gli scarti dalla media, nella maggior parte dei casi, produce valori decimali che possono generare imprecisioni nei calcoli. Esiste quindi una formula alternativa da usare con i dati grezzi: Somma Media X 2 2 3 3 4 14 2,8 X −M -0,8 -0,8 0,2 0,2 1,2 (X − M )2 0,64 0,64 0,04 0,04 1,44 2,8 0,56 X2 4 4 9 9 16 42 8,4 V ar = 42 − 2.82 5 = 8.4 − 7.84 = = = 0.56 P 2 X 2 = −X N La varianza è quindi uguale a. . . la media dei quadrati meno il quadrato della media G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 33 / 47 Misure di variabilità Misure di variabilità: formula alternativa X2 2 −X = N P var = P X2 P (X)2 − N N Con N − 1 la formula non è così semplice, ma bisogna “aggiustarla” P P 2 (X)2 P 2 P 2 X − X X N 2 2 N −X = −X = var stimata = N −1 N N N −1 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 34 / 47 Misure di variabilità Proprietà della varianza (e dev. st) Esercizio 1 var(1,2,3,4,5) Soluzione 1 5/4 ∗ (55/5 − 32 ) = 2.5, s = 1.58 2 var(3,4,5,6,7) 2 5/4 ∗ (135/5 − 52 ) = 2.5, s = 1.58 3 var(2,4,6,8,10) 3 5/4 ∗ (220/5 − 62 ) = 10, s = 3.16 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 35 / 47 Misure di variabilità Proprietà della varianza (e dev. st) Esercizio 1 var(1,2,3,4,5) Soluzione 1 5/4 ∗ (55/5 − 32 ) = 2.5, s = 1.58 2 var(3,4,5,6,7) 2 5/4 ∗ (135/5 − 52 ) = 2.5, s = 1.58 3 var(2,4,6,8,10) 3 5/4 ∗ (220/5 − 62 ) = 10, s = 3.16 1 i numeri da 1 a 5 2 i numeri della prima serie sommati a 2 3 i numeri della prima serie moltiplicati per 2 Proprietà della var 1: Aggiungendo, sottraendo, una costante a tutti i dati della distribuzione, la varianza non subisce trasformazioni Proprietà della var 2: Moltiplicando o dividendo per una costante, la varianza cambia ma la dev. st. subisce la stessa trasformazione G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 35 / 47 Misure di variabilità Spss: Variabilità Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) in molte procedure. Quelle specifiche sono: Analizza | Statistiche descrittive | Frequenze... (fra le varie statistiche vi è anche quelle di variabilità) Analizza | Statistiche descrittive | Descrittive... (è la procedura specifica per le statistiche descrittive) Analizza | Statistiche descrittive | Esplora... (stampa le misure di variabilità come parte delle diverse statistiche per capire l’andamento e la distribuzione di una variabile) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 36 / 47 Misure di variabilità Spss: Variabilità con Frequenze. . . Dopo aver scelto le variabili, click-are su selezionare quelle che servono Quindi, click-are su Statistiche... e Continua Con variabili quantitative conviene selezionare anche oppure in Poi Formato... OK G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 37 / 47 Misure di variabilità Spss: Variabilità con Descrittive. . . Dopo aver scelto le variabili, click-are su Poi Continua G. Rossi (Dip. Psicologia) e Opzioni... OK ElemPsico 2014-2015 38 / 47 Misure di variabilità Confronto fra statistiche Campo di variazione (Intervallo/Rapporto): è l’indice più grossolano Differenza interquartilica (Intervallo/Rapporto): poco usato in psicologia Semi-differenza interquartilica (Intervallo/Rapporto): pochissimo usato in psicologia Deviazione media (Intervallo/Rapporto): per nulla usato Varianza, Deviazione standard (Intervallo/Rapporto): i più usati G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 39 / 47 Valori anomali (Outlier) Valori anomali Alcuni indici non sono influenzati dai valori estremi (Mediana) Altri sono influenzati (Media, Varianza) C’è la necessità (non sempre) di identificare questi valori estremi, chiamati valori anomali o outlier La rappresentazione grafica (istogrammi) può aiutare, ma dipende molto dall’abilità di chi guarda il grafico Un indice che viene usato è basato su (IQR) ∗ 1.5 Anche un grafico è basato su (IQR) ∗ 1.5 variabile A ordinata: 22 22 24 24 24 24 24 27 27 27 27 30 30 31 31 32 33 33 33 33 34 35 35 36 36 36 37 39 39 41 42 42 42 44 45 45 45 46 46 54 54 Mediana=34 Q1 =27 Q3 =42 IGR=(42-27)=15 IGR∗1.5=(4.5; 64.5) Siccome minimo e massimo sono più ampi dei limiti di outlier, questa variabile non ha anomali G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 40 / 47 Valori anomali (Outlier) Diagramma a scatola e baffi max 45 50 55 Tukey's Boxplot 35 40 Q3 Mdn 30 Il diagramma a scatola e baffi (box-and-whiskers) è stato ideato da Tukey nell’ambito della EDA (Exploratory data analysis). È più spesso chiamato “box-plot” 25 Q1 La scatola è formata dai valori corrispondenti al primo e al terzo quartile min La linea spessa dentro la scatola corrisponde alla mediana I baffi rappresentano cose diverse in base ai software: come primo approccio useremo i valori minimo e massimo G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 41 / 47 Valori anomali (Outlier) Grafico a scatola [Box-plot] (I/R) max 45 50 55 Tukey's Boxplot Mdn 30 35 40 Q3 N=41; min=22; Q1(10)=27; Mdn(21)=34; Q3(31)=42; max=54 25 Q1 variabile A ordinata: 22 22 24 24 24 24 24 27 27 27 27 30 30 31 31 32 33 33 33 33 34 35 35 36 36 36 37 39 39 41 42 42 42 44 45 45 45 46 46 54 54 min G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 42 / 47 Valori anomali (Outlier) Grafico a scatola In realtà i box-plot di SPSS ed R non visualizzano i valori minimo e massimo Al loro posto viene usata la semi-differenza interquartilica moltiplicata per 1,5; in una distribuzione normale, questo valore è quasi sempre oltre il massimo e oltre il minimo (quindi si visualizzano max e min) inoltre visualizzano i singoli valori anomali (i valori oltre i baffi), evidenziando quindi le code asimmetriche L’utilità dei box-plot è più evidente se si incrociano con una variabile categoriale, perché si possono fare confronti sulle distribuzioni dei sotto-campioni G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 43 / 47 Valori anomali (Outlier) variabile Gross ordinata: 172 173 173 174 175 176 176 177 177 178 180 180 181 181 181 181 183 183 183 184 184 184 185 188 190 191 192 194 197 199 199 202 202 205 206 207 211 213 215 216 217 218 219 226 228 229 233 234 235 239 241 242 242 246 250 251 256 257 260 260 262 268 286 290 294 306 309 311 313 318 329 330 339 357 404 431 435 461 601 IQR: (260 − 184) ∗ 1.5 = 114 baffi: 70 e 374 ● ● ● 300 400 ● ● 200 Vendita biglietti cinema 500 600 Grafico a scatola (I/R) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 44 / 47 Valori anomali (Outlier) Grafico a scatola (I/R) suddiviso (N/O) Per ogni valore della variabile di raggruppamento, viene prodotto un box-plot ● 150 ● ● ● In questo modo si possono vedere le differenze di distribuzione 100 50 Fondamentalismo ● ● ● CrNPr CrPr NCrNPr NCrPr Credente G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 45 / 47 Valori anomali (Outlier) Spss: Box-plot (Esplora) Spss produce i box-plot tramite Analizza | Statistiche descrittive | Esplora... e dal pulsante Grafici... assicuratevi di aver attivato una delle prime due opzioni di Grafici a scatola Se avete selezionato più variabili, “Un grafico ogni dipendente” produce grafici separati ”Dipendenti insieme” produce un unico grafico G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 46 / 47 Valori anomali (Outlier) Spss: Box-plot Esempio di box-plot di Spss G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 47 / 47