10/03/2015 Le misure numeriche La media aritmetica Indice centrale dei dati: somma dei valori numerici presi in considerazione diviso la numerosità. Per variabili quantitative: scala intervallare o rapporto. Per il suo calcolo vengono usati tutti i valori. Un insieme di dati ha una sola media. La media risente di valori anomali. Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante. La somma delle distanze dei dati dalla media è zero. Esempio: Per i dati (3;4;5) la media è 4; inoltre (3-4)+(4-4)+(5-4)=0 è 0. Esempio: Per i dati (3;4;5) la media è 4. Per i dati (4;5;6) la media è 5=4+1. Esempio: il valore della media per i dati relativi al secondo dataset sulle ore di studio (capitolo precedente) è 21,76. (25,8 + 23,2 + 10,1 + … + 21,1)/26 = 21,76 1 10/03/2015 Significato della media: Il sistema nella figura risulta in equilibrio: Secondo dataset: media 21,76 Per i dati relativi al primo dataset sulle ore di studio (capitolo precedente), il valore della media risulta 19,01. Gli studenti del primo dataset dedicano un minor numero di ore allo studio. La media è detta statistica. Una statistica è una funzione del campione casuale. La media è una statistica non robusta 1 2 3 4 5 1 2 3 4 15 1 2 La media è 5 La media è 3 3 4 100 La media è 22 La media per classi di modalità Supponiamo che i dati relativi al numero di ore, siano stati forniti in tabella, secondo le classi di modalità (ad esempio quelle usate per l’istogramma). Come si calcola la media? Classi [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) Centri 12 16 20 24 28 32 Freq. Assolute 5 9 9 3 3 1 ∑ . =19,1 Simile a 19! Anche per il secondo dataset? Classi [10;14) [14;18) [18;22) [22;26) [26;30) Freq. Assolute 1 2 10 11 2 ∑ . =18,8 E’ diverso! 2 10/03/2015 La media pesata La media pesata (o ponderata) di un insieme di numeri, secondo degli assegnati coefficienti (=pesi), è data dalla seguente formula: ∑ ∑ Se i pesi sono pari a 1… Esempio: Voto medio di uno studente alla fine del primo anno del corso di Laurea in Economia Materia CFU Voto Materia CFU Voto Materia CFU Voto Matematica generale 6 21 Diritto privato 10 26 Economia aziendale 10 27 Economia politica 10 25 Economia e gestione delle imprese 10 23 Geografia Economica 6 27 6 21 & 10 Media Pesata = !" Media = + 25 & 10 26 & 10 23 & 10 21 & 25 & 26 & 23 & 27 & 27 = 24,83 27 & 6 27 = 24,96 Rientra nel caso della media pesata, la media di una distribuzione di frequenza di forma: Media Pesata = +,!- # stanze # appartamenti 1 300 2 500 3 2.000 4 3.000 5 150 6 100 7 300 1 300 & 2 500 & ⋯ & 7 Osservazione: Si noti che indicata con / & /" & ⋯ & / & 300 = 3,58 la media aritmetica, si ha & ⋯& volte 3 10/03/2015 La media geometrica La media geometrica di un insieme di numeri è la radice n-esima del loro prodotto: 0 / /" ⋯ / La media geometrica viene utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo, per esempio il tasso di variazione dei prezzi o i tassi di rendimento di capitali. Esempio: Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2012 e un 15% di aumento nell’anno successivo. Quanto vale la percentuale di crescita media? Un 5% di aumento nel salario = da 100 a 105 Un 15% di aumento nel salario = da 100 a 115 In percentuale 1,05 e 1,15 2 1,15 1,05=1,09886 L’aumento medio è di 9,89% L’impiegato che all’inizio del 2012 aveva 1 euro, alla fine del 2012, per effetto dell’aumento, ha 1,05 euro = 1 × 1,05 euro. All’inizio del 2013 l’impiegato ha un 1,05 euro che, per effetto dell’aumento, diventa 1,05×1,15 alla fine del 2013. La media geometrica c è tale che c × c= 1,05×1,15 La media armonica La media armonica di un insieme di numeri è l’inverso della media aritmetica degli inversi. Serve a ricavare un valore centrale sul tempo per dati che si riferiscono a intervalli temporali diversi. ∑ 4 13/ Esempio: Tempo in secondi di 4 impiegati per produrre un singolo pezzo: 32, 28, 35, 31 Gli inversi ," 0,03, "5 0,036, 0,029, ,! , 0,032 rappresentano il no. di pezzi prodotti per unità di tempo (per sec.) /,"8 /"58 /,!8 /, =0,032 9 rappresenta il no. medio di pezzi prodotti per unità di tempo (per sec.) La media: L’inverso della media -,-," =31,25 rappresenta il tempo medio (in secondi) per produrre un singolo pezzo La media armonica c è tale che ," & "5 & ,! & , & & & 4 10/03/2015 Mediana La mediana è il valore centrale dei dati. Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22. 1. Campione ordinato: 19; 20; 21; 22; 25. 2. La mediana è: 19; 20; 21; 22; 25. Esempio: L’altezza (in cm) di 4 giocatori di basket è 186; 189; 190; 185 La mediana è…. 185; 186; ? 189; 190 5+8 5; " Una possibile scelta: : Un metodo alternativo è determinare il rango: &1 Rango 0,5 La mediana si colloca tra l’elemento di rango 2 e 3 187,5 Proprietà Per variabili qualitative ordinali. 2,5 Per variabili quantitative: scala intervallare o rapporto. Un insieme di dati ha una sola mediana. M= 186 & 0,5 =189 > 186? =187,5 La mediana non risente di valori anomali. La mediana è una statistica robusta. 1 2 3 4 5 1 2 1 2 La mediana è 3 3 4 15 3 4 100 La mediana è 3 La mediana è 3 Procedimento per il calcolo della mediana a) Se / , /" , … , / rappresenta l’insieme di dati, il campione casuale deve essere ordinato: L’insieme /= ? , / " (NB: la notazione , … , /= = ? ? /= ? A/ " A … A /= ? rappresenta il campione di dati ordinato. indica il rango del dato nel campione ordinato) . b) Determinare il rango: &1 0,5 Primo esempio: 19; 20; 21; 22; 25. c) Se è dispari, il rango sarà un numero intero e la mediana è l’elemento /= Se è pari, il rango è & 0,5 pertanto : " / /" & B/ 8 3 " Secondo esempio: 185; 186; 187.5 189; 190 >/ " C 0,5 ?. 5 10/03/2015 La mediana per distribuzioni di frequenze # stanze # appartamenti Freq.Cum. 1 300 300 2 500 800 3 2.000 2.800 4 3.000 5.800 5 150 5.950 6 100 6.050 7 300 6.350 1,1,………..,1 2,2,………..,2 3,3,………..,3 300 Il rango è +.,! " = 3.175,5 La mediana è :=/ ,. E! + / ,. E+ … /=".5--) = 3 /(".5- … . /(!.5--) =4 /(!.5- −/ ,. E! ) = 4… ) =5… × 0,5 La mediana è 4 4,4,………..,4 2.000 500 + 1 × 0,5 = L’elemento di rango 3.175 è 4 3.000 L’elemento di rango 3.176 è 4 800 2.800 5.800 Moda E’ l’elemento che appare più spesso nel campione. Nominali Colore capelli (carattere) Neri N° persone (frequenza assoluta) 10 Può essere calcolata per tutti i tipi di variabili. Moda Castani 6 Rossi 1 # stanze # appartamenti biondi 5 1 300 22 2 500 3 2.000 4 3.000 5 150 6 100 7 300 totale Ordinali Moda 6 10/03/2015 Per dati di tipo intervallare o rapporto, bisogna in genere far riferimento alle classi di modalità. Unimodale Bimodale Può essere una sola (unimodale), possono essere due (bimodale), più di tre (multimodale). Può non essere significativa. La moda è il punto medio della classe con frequenza più elevata. Moda Il valore della moda è 3.200 Multimodale Peso (in grammi) # neonati 1.800-2.200 10 2.200-2.600 32 2.600-3.000 120 3.000-3.400 254 3.400-3.800 134 3.800-4.200 40 4.200-4.600 10 Asimmetria Un poligono di frequenza simmetrico ha questa forma: Media=Moda=Mediana Indici di posizione Coda sinistra Coda destra Poligoni asimmetrici hanno questa forma: Asimmetria Positiva Asimmetria Negativa Moda Moda Coda Sinistra Coda destra Media Mediana Regola: Coda destra se Media > Mediana. Media Mediana Coda sinistra se Media < Mediana. 7 10/03/2015 Possibile indice: Asimmetria = media - mediana Modalità Frequenza 1 1 E’ un metodo robusto? Coda sinistra 8 7 Media = 5 6 2 2 3 3 4 4 5 5 1 6 6 0 7 7 5 4 3 2 1 2 3 4 5 6 7 Modalità Frequenza 1 7 2 6 5 3 5 4 4 4 3 5 3 6 2 7 1 Coda destra 8 Media = 3 7 6 2 1 0 1 2 3 4 5 6 7 Per le mediane risulta: Rango: Modalità Frequenza Freq. cumulata 1 1 1 2 2 3 3 3 6 4 4 10 5 5 15 6 6 21 7 7 28 :=/ 9 9 =/ + / ! :=/ −/ 9 = 14,5 9 + / ! −/ 9 × 0,5= 5 Asimmetria = media – mediana = 0 Mediana = 3 si ha: ! "; " La mediana si colloca tra l’elemento di rango 14 e 15. Poiché / 9 = / ! = 5 si ha: Mediana Poiché / + 1 × 0,5 = × 0,5= 3 Asimmetria = media – mediana = 0 Modalità Frequenza 1 7 Freq.cum. 7 2 6 13 3 5 18 4 4 22 5 3 25 6 2 27 7 1 28 8 10/03/2015 Asimmetria=(Max-M)-(M-Min) dove Max e Min sono i valori in cui sono collocati i baffi Per il box-plot rosso Asim=(7-5)-(5-1)=-2 (asimmetria negativa) Per il box-plot blue Asim=(7-3)-(3-1)=2 (asimmetria positiva) Da 1 a 7 Da 7 a 1 Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. o Il primo quartile può appartenere al campione casuale oppure no. Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22. 1. Il campione va ordinato: 19; 20; 21; 22; 25. 2. Il primo quartile è: 19; →Determinare il rango: ? 20; 21; 22; 25. + 1 ×0,25 = 1,5 Il primo quartile si colloca tra l’elemento di rango 1 e 2 F1 = 19 + 0,5 × (20 − 19) =19,5 Esempio: L’altezza di 4 giocatori di basket è 186; 189; 190; 185 Il primo quartile è…. 185; ? 186; 189; 190 →Determinare il rango: + 1 ×0,25 = 1,25 Il terzo quartile si colloca tra l’elemento di rango 1 e 2 F1 = 185 + 0,25 × (186 − 185) =185,25 9 10/03/2015 Quartili Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati. o Il terzo quartile può appartenere al campione casuale oppure no. Esempio: L’età per un campione di 5 studenti è 21; 25; 19; 20; 22. 1. Il campione va ordinato: 19; 20; 21; 22; 25. 2. Il terzo quartile è: 19; 20; 21; 22; ? 25. →Determinare il rango: + 1 ×0,75 = 4,5 Il terzo quartile si colloca tra l’elemento di rango 4 e 5 F3 = 22 + 0,5 × (25 − 22) = 23,5 Esempio: L’altezza di 4 giocatori di basket è 186; 189; 190; 185 Il terzo quartile è…. 185; 186; 189; ? 190 →Determinare il rango: + 1 ×0,75 = 3,75 Il terzo quartile si colloca tra l’elemento di rango 3 e 4 Il secondo quartile vale…? F3 = 189 + 0,75 × (190 − 189) =189,75 Esempio: Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 Mediana: 30 + 1 ×0, 5 = 15,5 La mediana si colloca tra gli elementi di rango 15 e 16. La mediana è il punto medio tra 18,3 e 18,3, ossia 18,3. Primo Quartile: 30 + 1 ×0, 25 = 7,75 Il primo quartile si trova tra l’elemento di rango 7 e 8, ossia tra 14,2 e 15,0: 14,2+0,75*(15,0-14,2)=14,8 Terzo Quartile: 30 + 1 ×0, 75 = 23,25 Il terzo quartile si trova tra l’elemento di rango 23 e 24, ossia tra 21,4 e 23,0: 21,4+0,25*(23,0-21,4)=21,8 10 10/03/2015 Outliers Sono valori del campione casuale troppo «distanti» dal resto del campione casuale. Regola del pollice: Si dicono outliers quei valori che distano dal primo e dal terzo quartile più di 1,5*(Q3-Q1). Q3-Q1=7 quindi 1,5*7 = 10,5 Sono considerati outliers i valori inferiori a Q1- 10,5=14,8-10,5=4,3 Poiché il min=10,3 > 4,3, allora il baffo inferiore è collocato in corrispondenza del minimo. Sono considerati outliers i valori superiori a Q3+10,5=21,8+10,5=32,3 Poiché il max=33,8 > 32,3, allora 33,8 è un outlier e il baffo superiore è collocato in corrispondenza di 32,3. I quartili per distribuzioni di frequenze # stanze # appartamenti Freq.Cum. 1 300 300 2 500 800 3 2.000 2800 4 3.000 5800 5 150 5950 6 100 6050 7 300 6350 1,1,………..,1 Per calcolare Q1: a) rango: (6350+1)*0,25=1587,75 b) pertanto Q1 si colloca tra /( !5E) e /( c) /( !5E) = /( !55) = 3 !55) Per calcolare Q3: a) rango: (6350+1)*0,75=4763,25 b) pertanto Q3 si colloca tra /(9E+,) e /(9E+9) c) /(9E+,) = /(9E+9) = 4 2,2,………..,2 3,3,………..,3 4,4,………..,4 800 2000 2800 5800 11 10/03/2015 Torniamo all’esempio con distribuzioni speculari e calcoliamo i quartili Modalità Frequenza Freq.cum. 1 1 1 2 2 3 3 3 6 4 4 10 5 5 15 6 6 21 7 7 28 Per calcolare Q1: a) rango: (28+1)*0,25=7,25 b) pertanto Q1 si colloca tra /(E) = /(5) = 4 + Mediana = 5 Per calcolare Q3: a) rango: (28+1)*0,75=21,75 b) pertanto Q3 si colloca tra /(" ) = 6 e /("") = 7 6+0,75*(2-1)=6,75 Per calcolare Q1: a) rango: (28+1)*0,25=7,25 b) pertanto Q1 si colloca tra /(E) = 1 /(5) = 2 1+0,25*(2-1)=1,25 Per calcolare Q3: a) rango: (28+1)*0,75=21,75 b) pertanto Q3 si colloca tra /(" ) = /("") = 4 Modalità Frequenza Freq. cum. 1 7 7 2 6 13 3 5 18 4 4 22 5 3 25 6 2 27 7 1 28 + Mediana = 3 Percentili Andando da un medico per fare una visita di controllo a vostro cugino, dopo aver misurato l’altezza, vedrete che farà uso di un grafico tipo quello della figura sottostante: Poi rivolgendosi alla mamma sentenzierà con aria preoccupata qualcosa del tipo: “Signora, suo figlio è al 95-esimo percentile….” Cosa significa percentile? Un percentile x è quel valore (non necessariamente del campione) che lascia a sinistra x% dei dati. E allora dire che il proprio figlio ha un peso al 95-esimo percentile, vuole dire che il 95% della popolazione maschile della stessa età ha un peso inferiore. 12 10/03/2015 Esempio: Calcolo dei percentili 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 0, 90 27,9 p=0,90: 30 & 1 Il 90-esimo percentile si colloca tra gli elementi di rango 27 e 28, ossia tra 26,1 e 27,1: 26,1+0,90*(27,1-26,1)=27 0,90 Il 90% degli intervistati dedica allo studio non più di 27 ore. Se volessi avere l’informazione inversa… Quale percentuale di studenti studia non più di 27 ore? H. H A 27 IJ 27 30 27 0,90 Calcolo dei percentili per le classi di modalità Se non si conoscono i valori del campione, ma un suo riassunto in forma tabellare… [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) 5 Estremi classi 10 9 9 3 3 1 Ad esempio per il calcolo della mediana: a) Si individua la coppia di estremi consecutivi a, b tali Freq. cum. che la freq. cumulata in a è inferiore alla taglia/2 e la freq. cumulata in b è superiore alla taglia/2. 0 14 5 18 14=5+9 22 23=14+9 26 26 30 29 34 30 NB: in 18 la freq. cum. è 14 <30/2=15, 23 mentre in 22 la freq.cum. è 23>30/2. 14 ? Pertanto la classe [18,22) contiene la mediana 18 22 13 10/03/2015 b) Si calcolano le frequenze cumulate relative Estremi classi Freq. cum. relative 10 0 14 0,17 18 0,47 22 0,77 26 0,87 30 0,97 34 1 NB: Tra gli estremi 18 e 22, si passa da un valore inferiore a 0,50 a un valore superiore a 0,50. y=0,50 c) Risolvere il sistema: L > 0,47 / > 18 K0,77 > 0,47 22 > 18 L 0,50 Mediana 18,4 Mediana / 18 & M M 22 > 18 dove -,!-N-,9E =0,1 -,EEN-,9E Esempio: Calcolare i quartili Q1 e Q3. Per semplicità, è possibile considerare la tabella delle frequenze cumulate relative. Estremi classi Freq. cum. relative 10 0 14 0,17 18 0,47 … … Per Q1: Il valore della frequenza cumulata relativa passa da un valore inferiore a 0,25 (ossia 0,17 in 14) a un valore superiore a 0,25 (ossia 0,47 in 18) a) La classe di riferimento per Q1 è [14,18) 18 > 14 dove b) F1 14 & M M Per Q3: Il valore della frequenza cumulata relativa passa da un valore inferiore a 0,75 (ossia 0,47 in 18) a un valore superiore a 0,75 (ossia 0,77 in 22) a) La classe di riferimento per Q3 è [18,22) b) F3 M 18 & M 22 > 18 dove O,RQN-,9E =0,93 -,EEN-,9E F3 21,72 F1 O,PQN-, E =0,27 -,9EN-, E 15,08 Estremi classi Freq. cum. relative … ... 18 0,47 22 0,77 26 0,87 30 0,97 34 1 Il box plot va costruito con min=10, max = 34 e i valori dei quartili che sono stati calcolati con questa procedura. 14 10/03/2015 Dataset tabella Dataset esatto Indici di dispersione Si dicono indici di dispersione quegli indici che misurano la variabilità del campione casuale. Campo di variazione (CV) = max - min Intervallo interquartile (IQR)= Q3 – Q1 Deviazione standard (campionaria) = S T =U H ? Esempio: La media campionaria è 19,01 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 La varianza è la media aritmetica dei quadrati delle distanze dei singoli elementi del campione dalla media: " 1 / > >1 " & /" > " & ⋯& / > " 1 V / > >1 4 " 15 10/03/2015 10,3 12,9 12,9 13,5 13,7 " 1 10,3 > 19,01 29 " 19,01 & 2 12,9 > 19,01 " 19,7 20,3 20,7 20,8 21,4 & 13,5 > 19,01 28,7 (è il quadrato di una distanza) → 2 28,7 " & ⋯ & 33,8 > 19,01 5,36 " La deviazione standard fornisce una misura della «concentrazione» dei dati attorno alla media. Il I dataset ha una variabilità maggiore del II dataset. La deviazione standard non è una statistica robusta. 1 2 3 4 5 1 2 1 2 C.V. = 4 IQR = 2 s = 1,58 3 4 3 4 100 15 C.V. = 14 IQR = 2 s = 5,07 C.V. = 99 IQR = 2 s = 43,62 Per variabili quantitative: scala intervallare o rapporto. Per il suo calcolo vengono usati tutti i dati. Un insieme di dati ha una sola deviazione standard. 2 3 4 5 101 C.V. = 99 IQR = 2 s = 43,62 Assume valore sempre positivo. Vale zero quando tutti i dati assumono lo stesso valore (variabile statistica degenere) (Esempio: (2,2,2), media =2, s=0) Invariante per traslazione: ossia se ad ogni dato viene aggiunta una quantità costante, la deviazione standard non cambia. 16 10/03/2015 Regola di Chebyshev Circa il 68% dei dati appartiene a un intervallo centrato nella media campionaria e di semiampiezza la deviazione standard > ; & =[13,65;24,37] Circa il 95% dei dati appartiene a un intervallo centrato nella media campionaria e di semiampiezza 2 volte la deviazione standard. 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 >2 ; & 2 =[8,29;29,72] Quale percentuale cade al di fuori 23 di questo intervallo? H 30 0,07 Se consideriamo il secondo insieme di dati: 10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3; 22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3 21,77 3,78 La deviazione standard del II dataset è inferiore al I dataset II dataset Per misurare il grado di dispersione all’interno di uno stesso campione si può confrontare la deviazione standard con la metà dell’intervallo centrale che comprende circa il 70% dei dati. 17 10/03/2015 15% 15-esimo percentile 0, 15 4,65 p=0,15: 30 & 1 Il 15-esimo percentile si colloca tra gli elementi di rango 4 e 5, ossia tra 13,5 e 13,7: 13,5+0,65*(13,7-13,5)=13,63 0, 85 26,35 p=0,85: 30 & 1 Il 85-esimo percentile si colloca tra gli elementi di rango 26 e 27, ossia tra 23,7 e 26,1: 23,7+0,35*(26,1-23,7)=24,54 15% 85-esimo percentile 70% 24,54 > 13,63 2 5,46 X 5,36 Esempio: 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8 15% 15-esimo percentile 0, 15 4,05 p=0,15: 26 & 1 Il 15-esimo percentile si colloca tra gli elementi di rango 4 e 5, ossia tra 18,2 e 19,3: 18,2+0,05*(19,3-18,2)=18,26 0, 85 22,95 p=0,85: 26 & 1 L’85-esimo percentile si colloca tra gli elementi di rango 22 e 23, ossia tra 25,1 e 25,7: 25,1+0,95*(25,7-25,1)=25,67 15% 85-esimo percentile 70% 25,67 > 18,26 2 3,71 Y 3,78 Per il II dataset 10,1; 15,1; 17,7; 18,2; 19,3; 19,8; 20,9; 20,9; 21,0; 21,1; 21,1; 21,4; 21,5; 22,3; 22,3; 22,4; 23,2; 23,3; 23,9; 24,2; 24,3; 25,1; 25,7; 25,8; 27,0; 28,3 18 10/03/2015 La deviazione standard per classi di modalità Supponiamo che i dati relativi al numero di ore, siano stati forniti in tabella, secondo le classi di modalità (ad esempio quelle usate per l’istogramma). Per il calcolo della varianza (e quindi della deviazione standard) si usa lo stesso procedimento visto per la media, ossia Classi s² [10;14) [14;18) [18;22) [22;26) [26;30) [30;34) Centri 12 16 20 24 28 32 Freq. Assolute 5 9 9 3 3 1 ∑= N[ N ?² . = "; 12 > 19,1 ² 5 & ⋯ & 32 > 19,1 ² 1 =28,34 → 5,32 Un caso particolare: stessa media 0, stessa varianza 1. Per variabili qualitative, è opportuno usare un indice di dispersione di natura diversa: Indice di eterogeneità (di Gini) \ 1 > ] " & ⋯ & ]^ " Minimo: quando vi è una sola modalità con frequenza relativa 1 \ 0 Massimo: quando tutte le k modalità sono equifrequenti ⁄^. \ 1> # stanze # appartamenti Freq.rel. 1 300 0,047 2 500 0,079 3 2.000 0,315 4 3.000 0,472 5 150 0,024 6 100 0,016 7 300 0,047 1 1 & ⋯& " " ` ` 1> ` `" Assume sempre valori positivi. Esempio: \ `>1 ` 1 > 0,047² & 0,079² & ⋯ & 0,047² =0,67 Poiché (k-1)/k=6/7=0,86 la tabella è piuttosto etereogenea. 19 10/03/2015 Il coefficiente di variazione Una proprietà desiderabile per un indice di variabilità è che non dipenda dalla unità di misura in cui è espresso il carattere. Questa proprietà consente di effettuare confronti tra grandezze con misure diverse. E non solo. Esempio: L’altezza di 5 studenti (in cm) è: 172, 175, 176, 178, 180. La media risulta essere 176,2 cm e la deviazione standard risulta essere 3,033 cm. In metri, la media diviene 1,762 m e la deviazione standard è 0,030!! Non possiamo concludere che nel secondo caso la variabilità è inferiore. Si definisce coefficiente di variazione il rapporto tra deviazione standard e media campionaria (presa con il segno positivo). Nell’esempio è: 0,0172 Esempio: L’ altezza di 5 neonati (in cm) è: 52, 50, 46, 51, 53. La media risulta essere 50,4 cm e la deviazione standard risulta essere 2,70 cm. Il coefficiente di variazione è 0,053. Anche quando le unità di misure sono le stesse, l’uso del coefficiente di variazione può tornare utile. Esempio: Regione DC PLI Regione DC PLI Regione DC PLI Piemonte Lombardia Veneto Liguria Friuli V.G. Trentino A.A. Emilia R. 27,6 33,4 42,6 27,3 34,5 27,6 22,8 6,6 3,8 2,8 4,7 2,2 1,6 2,3 Toscana Umbria Marche Lazio Abruzzo Molise Campania 25,3 26,2 33,4 31,1 42,2 55,5 36,2 1,4 1,2 1,6 2,7 1,7 2,2 2,4 Puglia Basilicata Calabria Sardegna Sicilia 36,3 46,0 36,8 31,7 26,9 2,1 0,8 0,9 1,5 1,7 Distribuzione delle percentuali di voto nel 1983. La percentuale media è pari al 33,9% per la DC, mentre per il PLI è notevolmente inferiore, pari al 2,3%. Le differenze tra una regione e l’altra saranno maggiori, in punti percentuali, nella DC: infatti tra la Basilicata e l’Emilia vi è una differenza di 23,2 punti. Nel PLI la differenza massima è pari a solo 5,8 punti. La deviazione standard della percentuale di voti è 8,23 per la DC mentre è 1,41 nel PLI. CV-DC=8,23/33,9=0,24 CV-PLI=1,41/2,3=0,61 Se si confrontano i coefficienti di variazione, il risultato si rovescia: la distribuzione del voto alla DC appare più omogenea rispetto a quella del PLI. 20 10/03/2015 Il coefficiente di variazione consente di valutare anche la «correttezza» della media campionaria. Infatti la media campionaria si ritiene un indice corretto se assume valori inferiori a 0,5. Esempio: CV-DC=8,23/33,9=0,24 CV-PLI=1,41/2,3=0,61 La media è un indice corretto per la percentuale di voto relativa alla DC, ma non è così per il PLI. Perché? Precisione della media campionaria Si definisce precisione della media campionaria il rapporto tra la deviazione campionaria e la radice quadrata della taglia. a\: b 1,5 → de =c 0,27 → fgh Al crescere della taglia, SEM diminuisce e quindi la media campionaria è più precisa. End https://www.youtube.com/watch?v=LQ8gtqz1WYg 21