Corso di Statistica Variabilità ed eterogeneità Prof.ssa T. Laureti a.a. 2014-2015 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 1 Variabilità • Il calcolo di una media non esaurisce la descrizione sintetica di un fenomeno osservato in un collettivo • Due insiemi di valori o due distribuzioni di frequenza, pur avendo lo stesso valore medio, possono essere molto differenti tra di loro • Gli indici di variabilità forniscono informazioni complementari a quelle degli indici medi Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 2 La variabilità • VARIABILITA’: attitudine di un carattere ad assumere diverse modalità Varianza (σ2); Indici di variabilità Deviazione standard (σ); Coefficiente di variazione (CV); - Un indice di variabilità deve assumere il valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere; - Un indice di variabilità deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità; Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 3 La variabilità (distribuzioni teoriche) unità 1 2 3 4 5 Reddito Reddito Reddito A (000) B (000) C (000) 40 20 100 15 20 0 10 20 0 30 20 0 5 20 0 100 100 100 X A X B X C 20 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 4 Riprendiamo la nostra matrice dei dati Punti vendita Ricavi Costi addetti ubicazione Genere respons. Vendit a On-line R.O 1 350 205 5 centro maschio si 145 2 200 100 3 periferia maschio si 100 3 600 350 10 semicentro femmina no 250 4 500 270 10 periferia femmina no 230 5 270 200 6 centro maschio no 70 6 180 120 3 centro maschio no 60 7 205 105 3 periferia maschio no 100 8 340 210 5 semicentro femmina no 120 9 280 140 4 centro femmina si 140 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 5 Variabilità Distribuzioni teoriche Ricavi Ricavi (A) Ricavi (C) 325 Ricavi (B) 300 350 200 325 350 270 600 325 400 830 500 325 200 605 270 325 300 120 180 325 325 200 205 325 300 190 340 325 400 200 280 325 350 370 140 Le 3 distribuzioni teoriche hanno la stessa media della distribuzione osservata x 325 La sintesi con la media aritmetica porta allo stesso risultato Eppure le distribuzioni sono molto diverse tra di loro Distribuzione osservata n=9 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 6 Indici di variabilità: il campo di variazione o range Ricavi Ricavi (A) Ricavi (C) 325 Ricavi (B) 300 350 200 325 350 270 600 325 400 830 500 325 200 605 270 325 300 120 180 325 325 200 205 325 300 190 340 325 400 200 280 325 350 370 xmin 180 325 200 120 xmax 600 325 400 830 Range=xmax-xmin 420 0 200 710 140 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti Distr. A Variabilità nulla Tutti i valori uguali Passando da AaB e da B a C, aumenta la variabilità perché i valori cadono in un range sempre più ampio 7 Misure di variabilità come ampiezza di un intervallo Il range (o campo di variazione) range xmax xmin è l’ampiezza dell’intervallo che contiene tutti i valori La differenza interquartile dQ Q3 Q1 è l’ampiezza dell’intervallo che contiene il 50% dei valori (quelli centrali) La variabilità aumenta al crescere di questi indici Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 8 Misure di variabilità come dispersione dalla media Si considerano le distanze dei termini xi della distribuzione dalla media aritmetica: Media = 325 100 200 300 400 x1 x , x2 x ,, xn x 500 600 700 x1 x , x2 x ,, xn x 2 2 Queste quantità indicano il grado di diversità dei termini della distribuzione rispetto alla media aritmetica Facendo una sintesi di tali distanze tramite una media si ottiene un indice di variabilità 2 Misure di variabilità come dispersione dalla media La varianza σ2 è funzione delle differenze (scarti) tra ogni valore xi e la media x 1 n 2 xi x n 11 2 2 0 La devianza è il numeratore della varianza Dev(X) n x i1 x 2 i Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 10 Misure di variabilità come dispersione dalla media La deviazione standard (o scarto quadratico medio) è la radice quadrata della varianza 1 n 2 xi x n i 1 Il coefficiente di variazione CV è il rapporto tra la dev. standard e la media moltiplicato per 100 CV x 100 x0 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 11 Variabilità-esempio Ricavi xj 350 Scarti dalla media (xj-μ) 25 Quadrato degli scarti (xj-μ)2 625 200 -125 15.625 600 275 75.625 500 175 30.625 270 -55 3.025 180 -145 21.025 205 -120 14.400 340 15 225 280 -45 2.025 0 163.200 media x 325 n xi x 0 i1 n 2 x x i i1 Per la proprietà della media Dev(X) 163200 Devianza=163200 1 n Dev(X) 2 2 x x i n i1 n 163200 18133,3 9 Varianza=18133,3 1 n 2 x x i n i1 Dev.std.=134,7 12 18133,3 134,7 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 12 Variabilità dei ricavi dei punti vendita • Un basso grado di variabilità indica che i punti vendita realizzano performance simili (i ricavi si discostano poco tra di loro) • Viceversa un alto grado di variabilità fa capire che c’è una certa eterogeneità nei risultati delle vendite ottenuti nei diversi negozi Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 13 Confronto tra due distribuzioni in termini di variabilità CV si calcola per confrontare la variabilità della distribuzione del carattere X con quella del carattere Y quando sono espressi o con diversa unità di misura o con diverso ordine di grandezza Se CVX>CVy allora la variabilità del carattere X è maggiore di quella del carattere Y Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 14 Varianza di una distribuzione di frequenza Addetti (xj) Numero punti vendita 3 2 19,34 4 1 4,45 6 3 0,04 7 1 0,79 10 2 30,26 totale 9 (nj) (xj-μ)2*nj x 6,11 1 K 54,88 2 x j x nj 6,10 n j1 9 2,47 CV 100 40,43% 6,10 2,47 6,11 2 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 15 Formula alternativa per il calcolo della varianza 1 n 2 xi x 2 n i1 2 da un insieme di n valori 1 K 2 x j nj x 2 n j1 2 da una distribuzione di frequenza con K valori distinti Varianza di una trasformazione lineare La varianza di un carattere Y ottenuto dalla trasformazione Y X di un carattere X con media x e varianza 2 2 è: 2 Var Y Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 16 Box plot L’altezza del box indica la dispersione del 50% delle osservazioni centrali intorno alla mediana. Si evidenzia una certa simmetria nella parte centrale, dato che la differenza Q2-Q1 non è molto diversa da Q3-Q2 max Q3 Q2 Q1 Ricavi min I segmenti esterni al box indicano la dispersione dei valori estremi. Si nota una maggiore dispersione del 25% dei valori più grandi, dato che la differenza max-Q3 è molto maggiore di Q1-min Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 17 Box plot: ricavi e costi Ricavi Costi Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 18 Box plot con valori anomali Al fine di identificare la presenza di osservazioni anomale si fa generalmente riferimento ad un intervallo di valori ritenuti “nella norma” . Una regola empirica consiste nel considerare come limite inferiore del rettangolo (LIR) il primo quartile e limite superiore del rettangolo (LSR) il secondo quartile. Quindi i valori anomali sono i valori che eccedono l’intervallo definito da X Q1 l LSR LIR X Q3 l LSR LIR Usualmente si fissa l=1,5 e per i valori eccedenti l=2 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 19 40 30 20 reddito 50 60 70 Box plot con valori anomali Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 20 Teorema di Chebyshev Nell’intervallo x k , x k cade una proporzione (freq. rel.) di valori almeno pari a 1 qualunque sia la forma della distribuzione 1 2 k k Proporzione minima di osservazioni che cadono tra x k e x k 1 1-1/12=0 2 1-1/22=0,75 3 1-1/32=0,89 4 1-1/42=0,94 Almeno il 75% dei valori è compreso nell’intervallo centrato intorno alla media di ampiezza pari a due volte la deviazione standard Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 21 Applicazione del Teorema di Chebyshev Riguardo alle spese sostenute per la protezione dell’ambiente nell’ultimo trimestre da un gruppo di imprese estrattive, si è osservato x 2390€ e 780€ Senza avere altre informazioni su come sono distribuite le spese, posso concludere che almeno il 75% delle imprese ha speso un ammontare compreso tra 830€ e 3950€ (si applica il Teorema con k=2) x k 2390 2 780 830 x k 2390 2 780 3950 Alternativamente concludo che non più del 25% delle imprese ha sostenuto spese ambientali inferiori a 830€ o superiori a 3950€ Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 22 La standardizzazione La standardizzazione è una particolare trasformazione lineare che applicata ai dati originali riconduce qualsiasi variabile X con media x e deviazione standard a una nuova variabile con media nulla e varianza unitaria. Ogni osservazione xi viene trasformata in un nuovo valore: xi x yi La distribuzione risultante ha media nulla e varianza unitaria. Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti La standardizzazione-Esempio Punti vendita Addetti 1 6 2 6 3 10 4 10 5 7 6 3 7 3 8 6 9 4 x 6,111 Addetti standardizzata -0,04496 y1 -0,04496 1,57513 1,57513 0,36006 -1,26002 -1,26002 -0,04496 -0,85500 6,10 2,469 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 6 6,111 2,469 Confronto del rendimento di due investimenti (uguale media) F1 F2 2003 7,7 6,4 2004 6,1 5,9 2005 0,4 3,2 2006 9,8 7,1 2007 3,5 4,9 media 5,5 5,5 var 10,7 1,8 Negli ultimi cinque anni, due fondi di investimento F1 e F2 hanno avuto lo stesso rendimento medio annuo, ma le varianze sono molto diverse Var(F1)>Var(F2) Una varianza maggiore indica che rendimenti molto diversi dalla media sono più frequenti Maggiore volatilità Maggior rischio A parità di rendimento medio, il cliente che è disposto ad accettare un rischio più alto sceglierà di investire in F1 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 25 Confronto del rendimento di due investimenti (media diversa) F1 F2 2003 9,7 1,4 2004 7,1 1,9 2005 0,9 2,2 2006 9,9 2,1 2007 7,5 4,9 media 7,0 2,5 var 10,6 1,5 CV 46,5 49,3 Il rendimento di F1 ha registrato una media e una varianza superiore a quello di F2 Si può concludere che F1 rappresenta un investimento più rischioso rispetto a F2? Le due medie hanno un ordine di grandezza diverso la variabilità si confronta con CV A F1 è associata una variabilità (volatilità) più bassa Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 26 Omogeneità ed eterogeneità Sono aspetti della variabilità di un carattere qualitativo • Eterogeneità nulla (o massima omogeneità) → Il carattere assume un’unica modalità (tutte le unità del collettivo presentano quella modalità) • Eterogeneità massima (o minima omogeneità) → Il carattere presenta tutte le modalità e a ciascuna di esse è associata la stessa frequenza Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 27 Eterogeneità Eterogeneità nulla (tutte le unità hanno la stessa modalità) Eterogeneità massima (a ciascuna modalità è associata la stessa frequenza) Mod. Freq. rel. a 1 Mod. Freq. rel. a1 1/k a2 1/k … ak Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 1/k 28 Indice di eterogeneità Mod. Freq. a1 n1 Freq. rel. f1 a2 n2 f2 aj nj fj aK nK fK Indice di eterogeneità di Gini K E1 1 fj2 j1 0 E1 K 1 K Indice relativo di eterogeneità di Gini E1 K e1 E1 K 1 K 1 K 0 e1 1 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 29 Eterogeneità dell’ubicazione dei punti vendita Ubicazione del p.v. Centro F. ass. (nj) 4 F. rel. (fj) 0,45 Semicentro Periferia 2 3 0,22 0,33 Totale 9 1,00 K E1 1 fj2 1 0,36 0,64 j1 0,64 e1 0,96 0,67 fj2 0,20 0,05 0,11 0,36 K 1 2 0 E1 0,67 K 3 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 30 Eterogeneità dell’ubicazione dei punti vendita C’è un elevato grado di eterogeneità La distribuzione osservata si avvicina a quella che si avrebbe nella situazione di massima eterogeneità Distr. osservata Ubicazione del p.v. Distr. con la max eterog. F. ass. (nj) F. rel. (fj) F. ass. (nj) F. rel. (fj) Centro 4 0,45 3 0,33 Semicentro 2 0,22 3 0,33 Periferia 3 0,33 3 0,33 Totale 9 1,00 9 1,00 Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti 31