Nozioni di statistica Distribuzione di Frequenza Una distribuzione di frequenza è un insieme di dati raccolti in un campione (Es. occorrenze di errori in seconda elementare). Una distribuzione può essere rappresentata sinteticamente mediante “numeri” (statistiche o parametri). Come descriviamo una distribuzione di frequenza? Tendenza centrale Forma della distribuzione Dispersione Misure di tendenza centrale Ci permettono di calcolare dove si colloca il centro di una distribuzione di frequenza. Tipi di misure di tendenza centrale: Media Mediana Moda Quartili La media M La somma di tutti i punteggi diviso per il numero totale delle osservazioni. È il modello statistico più semplice. Può essere influenzata dai dati più estremi di una distribuzione. N X Slide 6 x i 1 N i La media come modello 6 osservazioni (5, 5, 5, 5, 5) Quanto sarà la media? 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Perchè un modello? Mi dite quanti amici avete su FB? Media come modello matematico Statistica ricorre a modelli matematici per rappresentare i nostri dati. La media è un valore ipotetico (i.e. può anche essere un valore che non esiste nel data-set). Ergo… Media è il più semplice modello statistico che possiamo applicare ai nostri dati. Mediana Quel valore che, nella serie ordinata dei dati, si lascia alla destra il 50% delle osservazioni e alla sinistra il 50% delle osservazioni. Se l’ampiezza del campione è un numero dispari, la mediana coincide con l’osservazione che occupa la posizione (n+1)/2 nella serie ordinata delle osservazioni. Se l’ampiezza del campione è un numero pari, la mediana coincide con la media dei valori corrispondenti alle due osservazioni centrali. Moda La moda è il valore più frequente in un insieme di dati. Ma… un insieme di dati può non avere moda, se nessun valore è “più tipico”. Quartili quartili sono misure che dividono i dati ordinati in quattro parti. Q1: valore tale che 25% osservazioni è più piccolo di Q1, 75% delle osservazioni è più grande di Q1. Q3: valore tale che 75% osservazioni è più piccolo di Q3, 25% delle osservazioni è più grande di Q3. Misure esplorative di una distribuzione Valore min Q1 Mediana Q3 Valore max Boxplot 80,00 Valore massimo 75 %centile (terzo quartile) 70,00 Mediana 60,00 25 %centile (primo quartile) 50,00 40,00 Valore minimo 30,00 voti Forma della distribuzione Confrontiamo la media con la mediana. Se media = mediana distribuzione simmetrica. Se media < mediana asimmetria negativa (negatively skewed) media > mediana: asimmetria positiva (positively skewed) Nozioni da ricordare Skewness: asimmetria dei valori rispetto alla media. Kurtosis: quanto è «a punta»/ appiattita una distribuzione? Se a punta -> curtosi positiva Se appiattita -> curtosi negativa Forma della distribuzione: skewness Skewness Se il coefficiente di asimmetria è: > 0 la curva è asimmetrica e spostata verso destra < 0 La curva è asimmetrica e spostata verso sinistra = 0 la curva si definisce simmetrica Forma della distribuzione: kurtosis Curtosi Se il coefficiente di curtosi è: > 0 la curva si definisce leptocurtica, cioè più "appuntita di una normale. < 0 la curva si definisce platicurtica, cioè più "piatta" di una normale. = 0 la curva si definisce normocurtica, cioè "piatta" come una normale. Indici di dispersione Varianza sintetizza la dispersione dei valori osservati attorno alla media. (xX ) 2 s 2 i i (N 1 ) Varianza: in questo caso? 6 osservazioni (5, 5, 5, 5, 5) Quanto sarà la media? E la varianza? 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Varianza = 0 Caso di «Fit» perfetto: La media cattura (rappresenta) perfettamente la variabilità dei dati. E qui? Deviazione Standard (DS) Altrimenti definita scarto quadratico medio Radice della varianza. Radice dello «Scarto» di ogni punto dalla media/numero totale di osservazioni ( x X ) 2 ss 2 i i ( N 1 ) A che serve la DS? ci aiuta a stabilire se e quanto i dati sono concentrati o dispersi intorno alla loro media. Nota bene: In alcune distribuzioni, la maggior parte dei valori osservati si trovano nell’intervallo dalla media a ± 1 DS. Cosa vuol dire? Come si distribuiscono i valori osservati in termini di DS? Dipende dalla distribuzione… Stessa media, diversa DS Gamma Gamma (range): misura della distanza fra il valore più alto e il più basso nella distribuzione. Gamma (range) interquartile: la differenza tra il terzo e il primo quartile in un insieme di dati. un limite della gamma consiste nel fatto che non tiene conto di come i dati si distribuiscono effettivamente. Per es. osservazioni estreme. Cosa ci dicono le misure di dispersione? • Quanto maggiori sono questi indici, tanto più sono dispersi i valori osservati; • Quanto minori, tanto più sarà concentrata e omogenea la distribuzione dei valori osservati. Nota bene Finora ci siamo riferiti a parametri propri di un campione; Parametri di una popolazione sono indicati con lettere greche. = Media della popolazione; 2 = Varianza; 2 ( X ) N 2 Attenzione! Ulteriore misura di varianza è STANDARD ERROR ≠ Deviazione standard. Distribuzione campionaria = 10 = 10 M = 10 M=9 M = 11 M = 10 M=9 M=8 M = 12 M = 11 M = 10 Distribuzione campionaria Frequenza con cui si distribuiscono le medie dei campioni estratti da una stessa popolazione. Frequenza Come si distribuiscono? Medie dei campioni Standard Error Lo «scarto» (la deviazione standard) che c’è tra la media di ogni singolo campione e la media della popolazione. È una misura di quanto è rappresentativo un campione della popolazione. s X N Standard Error Deviazione standard di una distribuzione campionaria. EXCEL: Principali funzioni statistiche •MEDIA (num1, num2,…) •MEDIANA (num1, num2,…) •MODA (num1, num2,…) •DEV.ST (num1, num2,…) •VAR (num1, num2,…) •MAX (num1, num2,…) •MIN (num1, num2,…)