Anno accademico 2016-’17 Corso di Germana Scepi Lezione: 4 Argomento: Statistica [email protected] Gli indici di variabilità Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Gli indici sintetici Posizione Variabilità Forma La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità. Un indice di variabilità è una misura di tale attitudine, e dovrebbe possedere almeno le seguenti caratteristiche: E’ nullo se e solo se tutte le unità presentano la stessa modalità del carattere; Aumenta all’aumentare della diversità tra le unità. Rispetto a un centro La variabilità può essere misurata Come misura delle differenze tra tutte le possibili coppie di unità osservate (Variabilità reciproca) 2 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La variabilità rispetto a un centro 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 x = 0 x i i i i x i 2 9 10 11 12 13 14 15 16 17 18 19 20 9 10 11 12 13 14 15 16 17 18 19 20 devianza Distribuzioni di frequenza x Distribuzioni di frequenza xi ni n varianza X2 ni 0 2 i 2 i i i X1 Distribuzioni di frequenza x i ni 2 i n 3 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza Var X Gli occupati in Italia (fonte: Istat) Anno Numero occupati (x i ) 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20.207 20.435 20.692 21.080 21.604 21.913 22.241 22.404 22.563 22.988 23.417 23.170 23.025 Media Devianza Varianza 21.980 14.322.307 1.101.716 xi- -1.773 -1.545 -1.288 -900 -376 -67 261 424 583 1.008 1.437 1.190 1.045 0 x i ni 2 i n (x i - ) 2 3.143.256 2.386.787 1.658.746 809.862 141.318 4.479 68.161 179.841 339.979 1.016.219 2.065.190 1.416.283 1.092.186 14.322.307 4 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza Var X x i 2 i n Gli occupati in Italia (fonte: Istat) Anno Numero occupati (x i ) 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20.207 20.435 20.692 21.080 21.604 21.913 22.241 22.404 22.563 22.988 23.417 23.170 23.025 Media Devianza Varianza 21.980 14.322.307 1.101.716 xi- -1.773 -1.545 -1.288 -900 -376 -67 261 424 583 1.008 1.437 1.190 1.045 0 ni (x i - ) 2 3.143.256 2.386.787 1.658.746 809.862 141.318 4.479 68.161 179.841 339.979 1.016.219 2.065.190 1.416.283 1.092.186 14.322.307 Distribuzione semplice: n Var X xi 2 i 1 n 14.322.307 13 1.101.716 5 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza Var X Gli occupati in Italia (fonte: Istat) Anno Numero occupati (x i ) 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20.207 20.435 20.692 21.080 21.604 21.913 22.241 22.404 22.563 22.988 23.417 23.170 23.025 Media Devianza Varianza 21.980 14.322.307 1.101.716 xi- -1.773 -1.545 -1.288 -900 -376 -67 261 424 583 1.008 1.437 1.190 1.045 0 x i ni 2 i n (x i - ) 2 3.143.256 2.386.787 1.658.746 809.862 141.318 4.479 68.161 179.841 339.979 1.016.219 2.065.190 1.416.283 1.092.186 14.322.307 6 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza Età studenti del Corso Var X Frequenze assolute (x i - )n i (ni) 18 19 20 21 22 23 24 25 Totale 2 44 66 32 18 13 9 6 190 Età media 20,6579 -5,32 -72,95 -43,42 10,95 24,16 30,45 30,08 26,05 0,00 x i ni 2 i n (x i - ) 2 n i 14,13 120,94 28,57 3,75 32,42 71,31 100,53 113,12 484,76 7 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza Età studenti del Corso Var X Frequenze assolute (x i - )n i (ni) 18 19 20 21 22 23 24 25 Totale 2 44 66 32 18 13 9 6 190 Età media 20,6579 -5,32 -72,95 -43,42 10,95 24,16 30,45 30,08 26,05 0,00 x i ni 2 i n (x i - ) 2 n i 14,13 120,94 28,57 3,75 32,42 71,31 100,53 113,12 484,76 8 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio Età studenti del Corso Frequenze assolute (x i - )n i (ni) 18 19 20 21 22 23 24 25 Totale 2 44 66 32 18 13 9 6 190 Età media 20,6579 Var X 484,76 2,55 190 -5,32 -72,95 -43,42 10,95 24,16 30,45 30,08 26,05 0,00 Var X x i ni 2 i n (x i - ) 2 n i 14,13 120,94 28,57 3,75 32,42 71,31 100,53 113,12 484,76 Il problema dell’unità di misura Lo Scarto quadratico medio Sqm X x i ni 2 i n Sqm X 2,55 1, 60 anni 9 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio Var X x i ni 2 i n Gli occupati in Italia (fonte: Istat) Anno Numero occupati (x i ) 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20.207 20.435 20.692 21.080 21.604 21.913 22.241 22.404 22.563 22.988 23.417 23.170 23.025 Media Devianza Varianza Sqm 21.980 14.322.307 1.101.716 1.050 xi- -1.773 -1.545 -1.288 -900 -376 -67 261 424 583 1.008 1.437 1.190 1.045 0 (x i - ) 2 3.143.256 2.386.787 1.658.746 809.862 141.318 4.479 68.161 179.841 339.979 1.016.219 2.065.190 1.416.283 1.092.186 14.322.307 10 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio Età studenti del Corso Frequenze assolute (x i - )n i (ni) 18 19 20 21 22 23 24 25 Totale 2 44 66 32 18 13 9 6 190 Età media 20,6579 Max 2 -5,32 -72,95 -43,42 10,95 24,16 30,45 30,08 26,05 0,00 (x i - ) 2 n i Sqm X 14,13 120,94 28,57 3,75 32,42 71,31 100,53 113,12 484,76 i ni 2 i n x i ni 2 i n Situazione di massima variabilità n-1 unità hanno nulla; 1 unità ha l’intero ammontare 1 2 1 2 2 x n 0 n 1 n i i n i n 1 n 2 2 n2 2 2 2n 2 n Var X x Max 2 2 n 1 1 2 2 n n 2 n Max n 1 1 n 2 n 1 2 n 1 n 11 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio Situazione di massima variabilità Var X Sqm X n-1 unità hanno nulla; x i ni 2 i n x i ni 2 i n 1 unità ha l’intero ammontare Max 2 2 n 1 Max n 1 Se volessimo costruire un indice di variabilità normalizzato, potremmo dunque dividere lo sqm per il suo massimo. Nella pratica, quest’indice normalizzato viene utilizzato raramente, anche perché il massimo è, in realtà, un valore assolutamente teorico. Si utilizza, dunque, lo scarto quadratico medio, che ha, comunque, una propria interpretabilità, oppure un indice normalizzato ottenuto ricorrendo a massimi “empirici”. Regola empirica per la maggior parte delle situazioni reali: Per distribuzioni unimodali: Max 2 2 xmin x max 3 Max xmax xmin 3 12 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio Var X Sqm X x i ni 2 i n x i ni 2 i n Un metodo alternativo per il calcolo di 2 M X 2 2 M X 2 13 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio 2 M X 2 M X Un metodo alternativo per il calcolo di 2 Anno Numero occupati (x i ) X2 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 20.207 20.435 20.692 21.080 21.604 21.913 22.241 22.404 22.563 22.988 23.417 23.170 23.025 408.322.849 417.589.225 428.158.864 444.366.400 466.732.816 480.179.569 494.662.081 501.939.216 509.088.969 528.448.144 548.355.889 536.848.900 530.150.625 Media Devianza Varianza Sqm 21.980 14.322.307 1.101.716 1.050 484.218.734 14 2 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio 2 M X 2 M X 2 Un metodo alternativo per il calcolo di 2 Anno 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 Numero occupati (x i ) 20.207 20.435 20.692 21.080 21.604 21.913 22.241 22.404 22.563 22.988 23.417 23.170 23.025 n X2 408.322.849 417.589.225 428.158.864 444.366.400 466.732.816 480.179.569 494.662.081 501.939.216 509.088.969 528.448.144 548.355.889 536.848.900 530.150.625 M X2 X i 1 2 i n 484.218.734 M X 2 21.979,9231 2 483.117.015 Var X 484.218.734 483.117.019 Media Devianza Varianza Sqm 21.980 14.322.307 1.101.716 1.050 484.218.734 1.101.715 15 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio 2 M X 2 M X Un metodo alternativo per il calcolo di 2 Età studenti del Corso 18 19 20 21 22 23 24 25 M(X) Varianza Frequenze assolute (ni) 2 44 66 32 18 13 9 6 190 X2 X 2n i 324 361 400 441 484 529 576 625 648 15884 26400 14112 8712 6877 5184 3750 81567 20,66 2,5514 16 2 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio 2 M X 2 M X Un metodo alternativo per il calcolo di 2 Età studenti del Corso 18 19 20 21 22 23 24 25 M(X) Varianza Frequenze assolute (ni) 2 44 66 32 18 13 9 6 190 X2 X 2n i 324 361 400 441 484 529 576 625 648 15884 26400 14112 8712 6877 5184 3750 81567 M X2 81567 429,30 190 M X 20,662 426,75 2 X2 429,30 426,75 2,55 20,66 2,5514 17 2 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La varianza e lo Scarto quadratico medio Il confronto fra misure di variabilità X Y Mamme Neonati Peso (Kg.) n Peso (Kg.) n 45 - 50 4 1,5 - 2,0 5 50 - 55 12 2,0 - 2,5 12 55 - 60 22 2,5 - 3,0 25 60 - 65 40 3,0 - 3,5 35 65 - 70 19 3,5 - 4,0 18 70 - 75 3 4,0 - 4,5 5 100 100 M X 60, 85 M Y 3,07 Var X 31,528 Var Y 0,358 Sqm X 5, 615 Sqm Y 0,598 CV X 0, 092 CV Y 0,195 Var X Sqm X x i ni 2 i n x i ni 2 i n Coefficiente di variazione CV .) Non è definito per <0 .) Tende ad “esplodere”per ≈0 18 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Altri indici di variabilità .) Scostamento semplice dalla mediana: S Me .) Differenza interquartile: Q3 Q1 n .) Differenza semplice media: (Indice di mutua variabilità) 0 D i j 1 1 xi Me ni n i xi x j n n 1 D 2 Indice normalizzato: D 2 R Rapporto di concentrazione del Gini 19 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La variabilità reciproca Modificato da Borra, Di Ciaccio, Statistica, 2004 TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9 Media Varianza Sqm Introiti pubblicitari (in milioni di euro) 1.889 1.857 1.524 697 1.994 1.798 1.320 461 339 11.879 X2 3.568.321 3.448.449 2.322.576 485.809 3.976.036 3.232.804 1.742.400 212.521 114.921 19.103.837 1.319,89 380.541,88 616,88 20 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La variabilità reciproca Modificato da Borra, Di Ciaccio, Statistica, 2004 TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9 Media Varianza Sqm Introiti pubblicitari (in milioni di euro) 1.889 1.857 1.524 697 1.994 1.798 1.320 461 339 11.879 1.319,89 380.541,88 616,88 X2 3.568.321 3.448.449 2.322.576 485.809 3.976.036 3.232.804 1.742.400 212.521 114.921 19.103.837 Var X M X 2 M X 19.103.837 2 1.319,89 9 2 2.122.649 1.742.110 380.539 Sqm X 380.539 617 mln € 21 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La variabilità reciproca Modificato da Borra, Di Ciaccio, Statistica, 2004 TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9 Media Varianza Sqm Introiti pubblicitari (in milioni di euro) 1.889 1.857 1.524 697 1.994 1.798 1.320 461 339 11.879 X2 3.568.321 3.448.449 2.322.576 485.809 3.976.036 3.232.804 1.742.400 212.521 114.921 19.103.837 1.319,89 380.541,88 616,88 22 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La variabilità reciproca Modificato da Borra, Di Ciaccio, Statistica, 2004 TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9 Media Varianza Sqm Introiti pubblicitari (in milioni di euro) 1.889 1.857 1.524 697 1.994 1.798 1.320 461 339 11.879 X2 3.568.321 3.448.449 2.322.576 Indice di485.809 mutua variabilità 3.976.036 3.232.804 Differenza semplice media: 1.742.400 212.521 114.921 19.103.837 n D i j 1 xi x j n n 1 1.319,89 380.541,88 616,88 23 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi La variabilità reciproca TV Rete 1 Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 Rete 7 Rete 8 Rete 9 TV Introiti pubblicitari (in milioni di euro) 1.889 1.857 1.524 697 1.994 1.798 1.320 461 339 11.879 Rete 1 n 1.319,9 D i j 1 xi x j n n 1 0 D 2 R Rete 2 Rete 3 Rete 4 Rete 5 Rete 6 54.808 761,22 9 8 D 2 Rete 7 761,22 0,289 2.639,8 Rete 8 Rete 9 Rete 1 0 32 365 1.192 -105 91 569 1.428 1.550 Rete 2 -32 0 333 1.160 -137 59 537 1.396 1.518 Rete 3 -365 -333 0 827 -470 -274 204 1.063 1.185 Rete 4 -1.192 -1.160 -827 0 -1.297 -1.101 -623 236 358 Rete 5 105 137 470 1.297 0 196 674 1.533 1.655 Rete 6 -91 -59 274 1.101 -196 0 478 1.337 1.459 Rete 7 -569 -537 -204 623 -674 -478 0 859 981 Rete 8 -1.428 -1.396 -1.063 -236 -1.533 -1.337 -859 0 122 Rete 9 -1.550 -1.518 -1.185 -358 -1.655 -1.459 -981 -122 0 24 54.808 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Esercizio di riepilogo Si riporta di seguito la distribuzione della durata (in secondi) di 1185 brani musicali trasmessi il mese scorso da una emittente radiofonica. Classi di valori (secondi) Frequenze Si determini: • la durata media 30 - 60 5 60 - 150 135 • la durata mediana 150 - 180 150 180 - 300 570 • la classe modale 300 - 450 280 450 - 950 45 • il primo e il terzo quartile • la varianza (nei due modi studiati) • lo scarto quadratico medio • il coefficiente di variazione 25 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Esercizio di riepilogo Esempio Calcolare: Media, Mediana, Devianza, Varianza, Sqm, CV 26 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Esercizio di riepilogo Esempio 21,03 20,85 107,68 10,77 3,3 39,80 34,70 Dev X x i 2 i Var X x i 2 i n ( ) ( ) Sqm X = Var 27 X Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Esercizio di riepilogo Esempio 21,03 20,85 107,68 10,77 3,3 39,80 34,70 Var X M X 2 M X 2 453, 03 442,26 10,73 28 Università di Napoli Federico II, DISES, A.a. 2016’17, Corso di Statistica Lezione 4 – Gli indici di variabilità G. Scepi Esercizio di riepilogo Esempio 21,03 20,85 107,68 10,77 3,3 39,80 34,70 5346,08 534,61 23,1 29