Variabilità (o dispersione) media diversa, stessa variabilità Indici di variabilità Cicchitelli Cap. 5 Seconno le statistiche d'adesso risurta che te tocca un pollo all'anno: e, se nun entra nelle spese tue, t'entra ne la statistica lo stesso perché c'è un antro che ne magna due. Trilussa stessa media, diversa variabilità (infatti la media da sola non basta, occorre aggiungere una misura di variabilità) 51 L. Grilli - Statistica 2013/2014 Scostamento semplice medio 52 L. Grilli - Statistica 2013/2014 Varianza e deviazione standard Scostamento dalla media xi Devianza D xi N Scostamento dalla media (val. assoluto) xi Scostamento semplice medio S 1 N N i 1 i 1 xi 2 Varianza xi 53 L. Grilli - Statistica 2013/2014 Calcolo della varianza (distribuzione disaggregata) alimento energia kcal x 1 N x i 1 N i 1 2 i 2 i 54 L. Grilli - Statistica 2013/2014 Calcolo della varianza (distribuzione di frequenze) xj (xi-M)^2 nj fj xj*fj xj-M (xj-m)^2 fj(xj-m)^2 1 5 0.083 0.083 -2.5 6.25 0.520833 pane 276 -90.25 8145.06 grissini 433 66.75 4455.56 2 10 0.167 0.333 -1.5 2.25 0.375 crackers 428 61.75 3813.06 fette 410 43.75 1914.06 3 15 0.25 0.75 -0.5 0.25 0.0625 biscotti 418 51.75 2678.06 4 15 0.25 1 0.5 0.25 0.0625 pasta 356 -10.25 105.06 5 10 0.167 0.833 1.5 2.25 0.375 riso 362 -4.25 18.06 6 5 0.083 0.5 2.5 6.25 0.520833 247 -119.25 14220.56 60 1 3.5 pizza Totale 2 xi-M N 1 N Deviazione standard (Scostamento - o Scarto Quadratico Medio) xi 2 1 N 2930 N (x ) i 1 i 2 366.25 totale 0.00 35349.50 2 1.916667 1.384437 ds 1 35349.5 4418.688 8 L. Grilli - Statistica 2013/2014 M 2 55 1 N J (x j 1 J j )2 n j ( x j )2 f j j 1 L. Grilli - Statistica 2013/2014 56 Media e varianza con dati raggruppati Calcolo della varianza: formula alternativa Ipotesi istogramma: equidistribuzione frequenze all’interno delle classi 2 M 22 M 2 Tabella di frequenza Mod.tà x0-x1 Freq. Fr.rel. n1 f1 x1-x2 n2 f2 … … … Valore centrale di classe: nj fj … … … xk-1-xk nk fk N 1 Totale cj= (xj+ xj-1 )/2 1 xi2 i 1 N N xi i 1 N 2 Varianza = (media quadratica al quadrato) – (media aritmetica al quadrato) k cj f j j 1 xj-1-xj 1 N Approssima la vera media, a volte per difetto, a volte per eccesso J 2 (c j ) 2 f j j 1 Approssima la vera varianza, quasi sempre per difetto L. Grilli - Statistica 2013/2014 Nell’esempio delle kcal degli alimenti M 22 138557.8 M 366.25 2 138557.8 (366.25) 2 4418.688 57 58 L. Grilli - Statistica 2013/2014 Interpretare la deviazione standard divisore N varianza della popolazione divisore N-1 varianza campionaria Deviazione standard: media quadratica degli scostamenti dalla media Es. se =3.2 cm significa che le osservazioni distano mediamente 3.2 cm dalla media aritmetica Dati A Es. in Excel 13 14 15 16 17 18 19 20 21 = 15.5 = 3.338 13 14 15 16 17 18 19 20 21 = 15.5 = 0.926 14 15 16 17 18 19 20 21 = 15.5 = 4.570 VAR.P() divisore N 11 VAR.C() divisore N-1 12 Dati B Attenzione: in molti software la varianza di default è quella campionaria 11 12 Dati C 11 L. Grilli - Statistica 2013/2014 2. 3. Invarianza rispetto a traslazioni a X X con ( X ) 0 X degenere M(x) M(x+a) a Invarianza rispetto a traslazioni a X X 4. bX Omogeneità bX b X Omogeneità bX b X L. Grilli - Statistica 2013/2014 60 L. Grilli - Statistica 2013/2014 Invarianza e omogeneità Stessa unità di misura di X Non negatività ( X ) 0, 13 59 Proprietà della deviazione standard 1. 12 X 61 (in questo esempio 0<b<1) L. Grilli - Statistica 2013/2014 62 Riepilogo: effetto di una traslazione x1 , x2 ,, xn Riepilogo: effetto di un cambiamento di scala x1 , x2 ,, xn 2 x1 a, x2 a,, xn a bx1 , bx2 , , bxn a 2 b Es. Altezze in cm, media 172 e Dev.Std. 8 Prelievo 30 euro ognuno (a= 30) media 920 e Dev.Std. 70 Trasformazione in metri (b=1/100) media 1.72 e Dev.Std. 0.08 63 Intervalli di variazione L. Grilli - Statistica 2013/2014 Campo di variazione (range): R= xmax-xmin Differenza interquartile: DI=Q3-Q1 Q3 Q1 La deviazione standard è molto sensibile ai valori anomali (ancor più della media aritmetica!) ‐0.55 ‐0.55 ‐0.55 ‐0.55 xmin 64 Robustezza degli indici di variabilità 50% Differenza interquartile xmax L. Grilli - Statistica 2013/2014 5.45 54.50 545.00 5450.00 media dev.std. 2.45 2.45 18.80 25.27 182.30 256.47 1817.30 2568.71 Alternativa robusta: lo scarto interquartile In termini di robustezza … 65 Quale coppia di indici? L. Grilli - Statistica 2013/2014 66 Indici di variabilità relativi Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano questi indici Se l’obiettivo è meramente descrittivo, e la variabile è quantitativa, gli indici più informativi sono: Utili per confrontare la variabilità di due distribuzioni quando: Unità di misura diverse (es. kg e cm) Stessa unità di misura, ma intensità media molto diversa la media aritmetica e la deviazione standard se la Possibili soluzioni relativizzare rispetto ad una media (es. il CV) distribuzione è simmetrica unimodale la mediana e lo scarto interquartile se la distribuzione presenta valori anomali o è fortemente asimmetrica relativizzare rispetto al valore massimo L. Grilli - Statistica 2013/2014 2.45 2.45 2.45 2.45 la deviazione std sta allo scarto interquartile come la media aritmetica sta alla mediana Campo di variazione b b 2 2 Es. Reddito in euro, media 950 e Dev.Std. 70 L. Grilli - Statistica 2013/2014 2 67 Sono numeri puri, cioè senza unità di misura L. Grilli - Statistica 2013/2014 68 Esempio CV Coefficiente di variazione (CV) CV 100 ( xi 0, 0) Azione A: Prezzo medio scorso anno = $50 Dev.Std. = $5 CV 100% È un numero puro (espresso in % ma non ha massimo) Consente il confronto tra la variabilità di fenomeni: in unità di misura non omogenee (es. in una popolazione di bambini c’è più variabilità nel peso o nell’altezza?) con diverso ordine di grandezza (es. riguardo al peso, c’è più variabilità tra i neonati o tra gli adulti?) Azione B: Prezzo medio scorso anno = $100 Dev.Std. = $5 CV 100% 69 L. Grilli - Statistica 2013/2014 $5 100% 10% $50 Indici di eterogeneità $5 100% 5% $100 L. Grilli - Statistica 2013/2014 Cap. 3-70 Consideriamo la lingua madre di 48 persone Minima eterogeneità (= massima omogeneità) Minima eterogeneità Modalità x1 x2 … xi … xk Totale Modalità Turco Greco Freq. ass. 0 0 … N … 0 N Freq. ass. 0 0 0 48 48 Freq. rel. 0 0 … 1 … 0 1 Freq. rel. 0 0 0 1 1 Modalità x1 x2 … xi … xk Totale Freq. ass. N/k N/k … N/k … N/k N 1/k … 1/k … 1/k 1 Indici di eterogeneità G 0, i 1 k H 0, log k Dividendo per il massimo si ottengono le versioni normalizzate: G k 1 Gnorm [0,1] 12 48 Freq. rel. 1/4 1/4 1/4 1/4 1 Una vera Babele! 72 L. Grilli - Statistica 2013/2014 H norm k L. Grilli - Statistica 2013/2014 H log k INDICE DI GINI: fJ^2 di frequenza relativa per corso A B C A B C 0.030 0.200 0.056 0.001 0.040 0.003 0.194 0.311 0.361 0.038 0.097 0.130 0.463 0.356 0.569 0.214 0.126 0.324 0.313 0.133 0.014 0.098 0.018 0.000 1.000 1.000 1.000 0.351 0.281 0.458 G 0.649 0.719 0.542 G norm 0.866 0.959 0.723 INDICE DI ENTROPIA: A -0.105 -0.318 -0.357 -0.364 -1.143 H 1.143 H norm 0.825 i 1 Gnorm 12 Distribuzione Modalità decisam. no +no/sì +sì/no decisam. sì TOT Indice di entropia H fi log fi 12 Indici di eterogeneità per la valutazione di tre corsi universitari Domanda: Complessivamente quanto sei soddisfatto del corso? k 1 k G 1 fi 2 Totale 12 Calcolo indici di eterogeneità Indice di Gini k Totale Freq. ass. 71 L. Grilli - Statistica 2013/2014 Ebraico Italiano Massima eterogeneità (o massima entropia) Modalità Turco Greco Ebraico Italiano Massima eterogeneità 1/k l’azione B è meno variabile rispetto al suo prezzo Esempio Carattere di qualunque natura: si usano solo le frequenze Freq. rel. Le azioni hanno lo stesso scarto quadratico medio, ma H norm [0,1] 73 fj*logfj (log base e) B C -0.322 -0.161 -0.363 -0.368 -0.368 -0.321 -0.269 -0.059 -1.321 -0.909 1.321 0.909 0.953 0.655 L. Grilli - Statistica 2013/2014 INDICE DISPERSIONE DI LETI : F A B C 0.029 0.160 0.053 0.174 0.250 0.243 0.215 0.116 0.014 0.000 0.000 0.000 0.418 0.525 0.309 D 0.836 1.051 0.619 d 0.557 0.701 0.412 74