Descrivere i dati Strumenti di indagine per la valutazione psicologica Dovendo scegliere un esame opzionale, uno studente ha intenzione di seguire le lezioni del prof. Nepero. Il prof. Nepero, tuttavia, ha fama di non essere particolarmente generoso con le valutazioni: sarà davvero conveniente scegliere il suo corso come opzionale? 1.2 - Richiami di statistica descrittiva Davide Massidda [email protected] Popolazione: tutti gli studenti del prof. Nepero. Campione: trenta studenti distribuiti tra le sessioni degli ultimi due anni. Università di Cagliari, a.a. 2013/2014 Descrivere i dati Voti = { 22, 27, 27, 26, 28, 30, 25, 23, 24, 26, 26, 24, 28, 22, 26, 25, 30, 26, 21, 30, 23, 18, 25, 23, 25, 24, 23, 27, 25, 26 } Come fare a capire se c'è qualche tendenza nascosta dietro i numeri? Frequenze ● ● Numero di osservazioni registrato per ciascuno dei valori di una variabile (utile per variabili qualitative). Numero di osservazioni registrato per ciascun intervallo di valori (classe) in cui una variabile è stata suddivisa (utile per variabili quantitative). Dei buoni punti di partenza potrebbero essere: Di che natura è la variabile voti? 1. Studio della distribuzione di frequenza della variabile. 2. Calcolo di indici riassumere i dati. descrittivi che permettono 3. Visualizzare gli indici utilizzando dei grafici. di Istogramma Indicatori di tendenza centrale Visualizza la frequenza di ciascun intervallo e permette di studiare come le frequenze si distribuiscono attraverso i valori assunti dalla variabile. Consentono di sintetizzare un insieme di dati tramite un unico valore “rappresentativo” che riassume e descrive i dati e dipende dalla loro scala di misura. Classe Frequenza ≤ 20 1 21-22 3 23-24 7 25-26 11 27-28 5 29-30 3 I più importanti: ● Moda ● Mediana ● Media aritmetica Moda Mediana È il valore che si presenta più spesso. Nella variabile “Voti”, la moda è 5: Valore che occupa la posizione centrale in una sequenza di dati ordinati. È il valore al di sopra o al di sotto del quale si trova il 50% dei casi (o un uguale numero di casi). ● ● ● ● 18 21 22 23 24 25 1 1 2 4 3 5 26 6 27 28 30 3 2 3 Calcolo della mediana: Per individuare la moda si parte dalle frequenze. 1. Disporre i dati in ordine crescente. È un indice che può essere utilizzato su dati misurati su qualsiasi scala. 2. Individuare la posizione occupata all’interno della serie numerica dal valore che si trova in posizione mediana. Su variabili quantitative la moda non è un indice molto informativo. 3. Individuare il valore che si trova in posizione mediana. È l'unico indice di tendenza centrale che può essere utilizzato per variabili misurate su scala nominale. Mediana La mediana dei voti del campione di 30 studenti del prof. Nepero: [...] 23 24 24 24 25 25 25 8 9 10 11 12 13 14 25 15 25 16 26 26 26 26 26 26 27 17 18 19 20 21 22 23 Peculiarità: ● [...] N +1 30+1 PosMdn= = =15.5 2 2 Mdn= Mediana ● ● È un indice che può essere utilizzato per descrivere dati su scala di misura ordinale, a intervalli, a rapporti. Insieme alla moda, è l’indice di tendenza centrale che può essere usato per descrivere dati qualitativi misurati su scala ordinale. La mediana corrisponde al 2° quartile e al 50° percentile. 25+25 =25 2 Quantili Indicatori di posizione (quantili) La mediana spacca in due la sequenza ordinata di dati ed equivale a quel valore che si lascia sia alla sinistra che alla destra il 50% dei dati. Per esempio, i quartili spaccano in quattro la sequenza ordinata di dati e ognuno si lascia alla propria sinistra il 25% dei dati. min(x) Mdn 50% dei dati max(x) 50% dei dati La distribuzione può essere spaccata non solo in due ma anche in più parti: si parla di quantili. I principali quantili sono i quartili, i decili e i (per)centili. min(x) Q1 Q2 Q3 Q4 = max(x) 25% dei dati 25% dei dati 25% dei dati 25% dei dati PosQk = N +1 k Q Indicatori di posizione (quantili) Se la posizione risultante è un numero con la virgola: si moltiplica la differenza tra i due valori dell’intervallo per la quantità che eccede l’intero della posizione. Il quantile sarà la somma tra il risultato di questa operazione e l’estremo inferiore dell’intervallo. Media aritmetica Può essere usata su variabili quantitative misurate su scale a intervalli o a rapporti. n ∑ xi ̄x = Esempio: 90° percentile del vettore voti: PosP90 = 30 +1 90=27.9 100 x 27=28 x 28=30 P90 =28+0.9(30−28)=29.8 n ∑ ( x i− x̄ )=0 i=1 La somma dei quadrati degli scarti di ciascun valore dalla è minore della somma degli scarti degli stessi valori dax un qualsiasi altro numero k (proprietà dei minimi i i quadrati). 1 media =∑ n n ∑ ( x i− x̄ ) < ∑ ( x i−k )2 i=1 2 i=1 n = 755 =25.17 30 Rispetto alla mediana, la media è più sensibile ai valori estremi e anomali (outliers). Questi valori anomali sono tanto più influenti quanto più piccolo è il valore di n. Proprietà della media La somma degli scarti dei singoli valori dalla media è sempre uguale a zero. i=1 Tutto converge (più o meno) ● Classe con frequenza più elevata: (25,26] ● Moda: 26 ● Mediana: 25 ● Media: 25.17 …ma queste informazioni sono sufficienti per decidere se affrontare o meno il corso del prof. Nepero? Quando la media non basta La media dei voti di 30 studenti dei professori A e B è uguale: 25.8. Possiamo accontentarci di questo dato per dire che i due giudicano nello stesso modo? Quando la media non basta ● ● ● ● Indicatori di dispersione Per far fronte al problema della perdita d'informazione, agli indici di tendenza centrale vengono associati degli altri indici che permettono di recuperare, almeno parzialmente, l'informazione perduta nel processo di sintesi. Gli indicatori di dispersione sono in grado di quantificare la variabilità di un fenomeno. ● Mediana → Scarto inter-quartile (IQR) ● Media → Varianza (s2), deviazione standard (s) Il problema è che la media (o moda o mediana che sia) è pur sempre un'approssimazione. Usare la media per descrivere i dati significa ricondurre tutte le n osservazioni a un unico indice riassuntivo: stiamo perdendo della preziosa informazione. La necessità di scartare informazione per comprendere un fenomeno deriva da un limite umano: non possiamo tenere contemporaneamente a mente tutti i valori osservati. L'uomo ha bisogno della sintesi: si scarta informazione per ottenere informazione! Indicatori di dispersione Sarà banale ma... meglio sottolinearlo! La varianza assume valore minimo 0 quando tutti i dati sono uguali tra loro e aumenta all’aumentare della dispersione dei dati rispetto alla media. Scarto inter-quartile È la differenza tra terzo e primo quartile: Varianza e deviazione standard Varianza: sommatoria degli scarti dalla media al quadrato diviso n-1. IQR = Q3 – Q1 n Q3 voti = 27 2 s= Q1voti = 23 Limite: non tiene in considerazione cosa accade all’interno della distribuzione (casi centrali) e agli estremi. 2 s= ● ● ● i=1 n−1 Deviazione standard: radice quadrata della varianza. IQRvoti = 27 – 23 = 4 n ∑ ( x i− ̄x )2 s= √ s 2 Rispetto a s2, s è misurata sulla stessa scala di misura dei dati osservati (è quindi più immediata da interpretare). I gradi di libertà I gradi di libertà Conte S. (2010) pag. 85 Conte S. (2010) pag. 85 n ∑ (x i− ̄x ) 2 i=1 2 s= n−1 La somma degli scarti dalla media è zero. Una volta che abbiamo calcolato n-1 scarti dalla media, il valore dell'n-esimo scarto dovrà necessariamente assumere quel valore per cui si dovrà ottenere zero se tutti gli scarti venissero sommati. Se i primi n-1 scarti sono fra loro indipendenti, il valore dell'n-esimo è vincolato al risultato delle precedenti operazioni. ● ● ● ● ∑ ( x i− ̄x )2 i=1 n−1 Insomma: l'ultimo scarto non è libero di assumere il valore che vuole, ma dipende da tutti gli altri. L'informazione relativa al valore dell'n-esimo scarto è già contenuta negli altri scarti, per cui è superflua. I gradi di libertà sono il numero di valori indipendenti necessari al calcolo della statistica. (Nota bene: questo discorso vale per la varianza ma non per la media). Pochi indici per descrivere il campione I voti dei prof. Nepero: mdn=25 IQR=4 ̄x =25.17 s=2.70 Mediamente, i voti oscillano tra 25.17-2.70 = 22.47 e 25.17+2.70 = 27.87. Boxplot Outliers min(max( x),Q 3 +1.5×IQR) Q3 25% Q2 Q1 25% max (min( x) ,Q 1−1.5×IQR) Outliers Boxplot