Statistica descrittiva Come descrivere una variabile in un insieme di osservazioni 1. Utilizzare rappresentazioni grafiche dei dati 2. Sintetizzare i dati con degli indici Tendenza centrale Variabilità 1 Rappresentazione grafica di una variabile quantitativa Esempio: misura dell’altezza di 400 alberi 15.1, 17.2, 18, 21, 22, 25, 24, 15, 25.5, 16, 25, 24, 14, 26, 24.3, 27, 23, 22 ,22.3 ,25, 20, 18, 21.4, 24, 24, 28, 26, 22, 27.3, 21, 26 ,18 ,25, 20.4, 14, 25, 24, 19, 17, 15.4, 24, 27, 23.7, 19 ,18 ,15, 25.3, 18, 13.1, 24, 26, 22... 2 Rappresentazione grafica di una variabile quantitativa Esempio: misura dell’altezza di 400 alberi 15.1, 17.2, 18, 21, 22, 25, 24, 15, 25.5, 16, 25, 24, 14, 26, 24.3, 27, 23, 22 ,22.3 ,25, 20, 18, 21.4, 24, 24, 28, 26, 22, 27.3, 21, 26 ,18 ,25, 20.4, 14, 25, 24, 19, 17, 15.4, 24, 27, 23.7, 19 ,18 ,15, 25.3, 18, 13.1, 24, 26, 22... Posso creare delle classi di altezze: 13-14: 14-15: 15-16: 17-18: ... Frequenze assolute 3 20 40 60 80 Numero di individui con altezza 19-20 m 0 Frequenza assoluta Frequenza Istogramma delle frequenze assolute 14 16 18 20 22 24 26 Altezza (m) Altezza 4 40 20 0 0 20 40 60 80 100 assoluta Frequenza Frequenza Posso variare la dimensione delle classi di frequenza 60 80 140 Istogramma delle frequenze assolute -40 -20 0 20 40 60 80 14 16 18 22 24 26 Dimensione 15 5 10 Frequenza 30 20 0 10 0 Frequenza assoluta 40 Altezza 20 16 18 20 22 24 26 16 Altezza (m) 18 20 22 24 26 5 400 300 200 0 100 Frequenza cumulata 80 60 40 20 0 Frequenza assoluta Istogramma delle frequenze assolute 14 16 18 20 22 24 26 14 16 18 20 22 24 26 Altezza (m) Altezza (m) Se sommo le frequenza assolute ottengo un frequenza cumulata 6 Rappresentazione grafica di una variabile quantitativa Distribuzione di frequenza La frequenza assoluta rappresenta il numero di osservazioni ottenute per un certo valore della variabile La frequenza relativa (%) rappresenta il numero di osservazioni ottenute per un certo valore della variabile diviso per il numero totale di osservazioni 7 80 60 0 20 40 Frequenza 60 40 20 0 Frequenza assoluta 80 Istogramma delle frequenze 0 2 4 6 8 10 14 16 18 20 22 24 26 Altezza (m) La forma dell’istogramma descrive la forma della distribuzione della variabile altezza albero 8 Asimmetria dell’istrogramma Indici di tendenza centrale Indici di tendenza centrale e dispersione Indici di posizione: Descrivono il valore centrale di un gruppo di osservazioni Indici di dispersione o variabilità: quanto si discostano le singole osservazione dal valore centrale? Altezza (m) 25 20 Ogni popolazione presenta un certo grado di variabilità!!! 15 Abete Larice 11 Indici di tendenza centrale: min a max Intervallo dei valori Massimo 50 Altezza (m) 40 30 20 Minimo 10 12 Indici di tendenza centrale: media La media aritmetica Intera popolazione x i N Campione x x i n 40 Uso della media: quando i valori si distribuiscono in modo più o meno simmentrico attorno ad un valore centrale Numero di alberi 35 30 25 20 15 10 5 0 10 15 20 25 30 35 Altezza 40 45 50 13 Indici di tendenza centrale: moda La moda rappresenta il valore della variabile a cui è associata la frequenza più alta MODA 40 Nel caso in cui la classe non è discreta si prende il valore centrale della classe Numero di alberi 35 30 25 20 15 10 5 0 10 15 20 25 30 35 40 45 50 Altezza 14 Indici di tendenza centrale: mediana La mediana: la mediana costituisce il valore centrale di una serie di misure Serie di 19 misure di altezza 50 9 misure sopra Si usa quando la distribuzione dei valori non è simmetrica 30 10° valore 30 20 9 misure sotto 25 Numero di alberi Altezza (m) 40 20 15 10 5 0 10 10 15 20 25 30 35 40 45 50 Altezza 15 Indici di tendenza centrale: mediana Se il numero di osservazione è pari la mediana è la media dei due valori centrali Serie di 12 misure di altezza 50 Altezza (m) 40 30 20 10 Ranking 1° 2° 3° 4° 5° 6° 7° 8° 9° 10° 11° 12° Valore 10 12 19 27 29 32 Mediana=33.5 35 38 39 40 51 16 52 Indici di tendenza centrale: quantili Quantili: la mediana costituisce un caso specifico di quantile 50 Q75 (Q3) Altezza (m) 40 Q50 (MEDIANA) 30 20 Q25 (Q1) Il quantile è un valore qα che divide le osservazioni in due parti, proporzionali ad α e (1-α) e caratterizzate da valori rispettivamente minori e maggiori di qα 10 17 Indici di tendenza centrale: quantile 25% (primo quartile) q25 È il valore che divide la serie in due parti: la prima contiene il 25% delle osservazioni mentre la seconda il restante 75% 50 Altezza (m) 40 100-25% 30 20 q25 25% 10 18 Indici di tendenza centrale: quantile 75% (terzo quartile) q75 È il valore che divide la serie in due parti: la prima contiene il 75% delle osservazioni mentre la seconda il restante 25% 50 Altezza (m) 40 100-75% 30 20 q75 75% 10 19 Formule per i quartili (Q1 e Q3) Formule per ottenere le posizioni di Q1 E Q3 Q1 n 1 4 Q3 3( n 1) 4 Le tre regole: 1. Se Q1 o Q3 sono un numero intero: OK 2. Se Q1 o Q3 sono ...,5: media dei due valori 3. Se Q1 o Q3 è ...,XX: si approssima al più vicino Esempio con Q1 Q1=4 si prende il 4° valore Q1=3.5 si media il 3° e 4° valore Q1=3.45 si prende il 3° valore Q1=3.89 si prende il 4° valore 20 Box-plot MAX 75% quantile (Q3) Mediana Range interquartile (IQR) 25% quantile (Q1) MIN 21 Box-plot 22 MAX Q3 MEDIANA Q1 MIN Altezza (m) I 5 valori di sintesi + MEDIA ARITMETICA Abete Larice 23 Indici di tendenza di dispersione Indici di variabilità Altezza (m) Tutte le popolazioni hanno un grado più o meno alto di variabilità! 25 20 15 Abete Larice 25 Indici di variabilità Gli indici di posizione non sono sufficienti per descrivere una variabile quantitativa 50 Altezza (m) 40 30 Gli indici di variabilità misurano il grado di dispersione dei dati attorno al valore centrale 20 10 Foresta A Foresta B 26 Indici di variabilità: Intervallo di variazione L’intervallo di variazione è la più cruda misura di variabilità 50 Intervallo =Max-Min Max Altezza (m) Intervallo 40 30 Maggiore l’intervallo maggiore la variabilità Min 20 10 Foresta A Foresta B 27 Indici di variabilità: Deviazione standard (I) La deviazione standard si basa sulla misura degli scarti Media Osservazione (xi) 50 Scarto o residuo=xi-media 30 20 Scarto Altezza (m) 40 Maggiori gli scarti maggiore la variabilità 10 Foresta A 28 Indici di variabilità: Deviazione standard (II) Posso sommare gli scarti per misurare la variabilità? Media Osservazione (xi) 50 + Qual è il problema di questa misura? 30 20 Scarto Altezza (m) 40 Somma dei quadrati=∑(xi-media)2 - 10 Foresta A 29 Indici di variabilità: Deviazione standard (III) VARIANZA Media Osservazione (xi) CAMPIONE s2 2 ( x media ) i n 1 50 + 30 20 Scarto Altezza (m) 40 - POPOLAZIONE 2 2 ( x media ) i N 10 Foresta A 30 Indici di variabilità: Deviazione standard (IV) Media Osservazione (xi) CAMPIONE s ( x media) 2 i n 1 50 + 30 20 Scarto Altezza (m) 40 - POPOLAZIONE 2 ( x media ) i N 10 Foresta A 31 Indici di variabilità: Coefficiente di variazione La deviazione standard misura la variabilità di una popolazione o campione La deviazione standard dipende dal valore assoluto delle media Il coefficiente di variazione ci permette di valutare la variabilità fra popolazioni con medie molto diverse s 100 CV x 32 Indici di variabilità: Coefficiente di variazione È più variabile l’altezza o l’etá degli studenti? Altezza media=1.70 (s=0.20) 11.7% Età media=22 anni (s=1) 4.5% s 100 CV x 33