Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" La variabilità { { L’attitudine di un carattere quantitativo X ad assumere valori differenti tra le unità componenti un insieme statistico è chiamata variabilità Essa costituisce una caratteristica degli insiemi statistici e può essere descritta mediante indicatori che godano di particolari proprietà Le misure di variabilità Una misura di variabilità deve: { { annullarsi quando, e solo quando, tutte le unità del collettivo presentano il medesimo stato di grandezza del carattere assumere valori crescenti all’aumentare della variabilità 1 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Le misure di variabilità Sia x1≤ x2≤ …≤ xn l’insieme delle osservazioni del carattere X • Intervallo di variabilità o campo di variazione (range) Iv= xn – x1 • Differenza interquartile Iq= Q3– Q1 Box - plot max + 3° quartile IQR mediana − 1° quartile min 2 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Intervallo di variabilità per il numero di componenti e per il reddito Differenza interquartile per il numero di componenti e per il reddito 3 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Varianza Misura la dispersione attorno alla media aritmetica E’ la media dei quadrati delle distanze dalla media aritmetica 1 n 2 xj − x 2 σ =V X = n j =1 ∑( ( ) 1 = n ) n ∑ x j2 − x 2 j =1 Varianza Per una distribuzione di frequenza: 1 σ = V (X ) = n 2 1 = n k ∑ (xi − x )2 ni i =1 k ∑ xi 2 ni − x 2 i =1 4 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Popolazione residente nella provincia di Bologna al 01-01-2005 Varianza italiani: 512,68 anni2 Varianza stranieri: 245,49 anni2 Popolazione in eta’ lavorativa residente nella provincia di Bologna al 01-01-2005 Varianza italiani: 170,79 anni2 Varianza stranieri: 102.563 anni2 Distribuzione delle famiglie per numero di componenti e sesso del capofamiglia N° Componenti M F 1 2 3 4 5 6 3 5 2 8 1 1 20 1.89 2 6 1 1 0 0 10 0.69 Totale varianza V (X ) = 5 11 3 9 1 1 30 1.71 V ( M x ) ⋅ nM + V ( F x ) ⋅ nF 1.89 ⋅ 20 + 0.69 ⋅ 10 = = 1.49 ≠ 1.71 30 nM + nF Non vale la proprietà di associatività 5 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Devianza E’ il numeratore della varianza Dev ( X ) = V ( X ) ⋅ n = ∑ (x j − x )2 n j =1 Dev( X ) = V ( X ) ⋅ n = k ∑ (xi − x )2 ni i =1 Scarto quadratico medio È la radice quadrata della varianza, è detto anche Deviazione Standard 1 S (X ) = V ( X ) = n ∑ (x j − x )2 n j =1 Per una distribuzione di frequenza: 1 S (X ) = V ( X ) = n k ∑ (xi − x )2 ⋅ ni i =1 6 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Popolazione residente nella provincia di Bologna al 01-01-2005 Deviazione standard italiani: 22,64 anni Deviazione standard stranieri: 15,67 anni Popolazione in eta’ lavorativa residente nella provincia di Bologna al 01-01-2005 Deviazione standard italiani: 13,07 anni Deviazione standard stranieri: 10.13 anni Distribuzione delle aziende agricole per classe di superficie (in migliaia di ettari) al 4° censimento generale dell’agricoltura (1990) - Fonte: Istat Classe di superficie xj-1 |-- xj Numero di aziende (in migliaia) nj x*j x*jnj (x*j - M(X))2·nj Fino a 1 0,5 997 498,5 50569,28 1 |-- 2 1,5 591 886,5 22149,29 2 |-- 3 2,5 336 840 8814,57 3 |-- 5 4 374 1496 4906,19 5 |-- 10 10 |- 20 20 |- 50 50 e oltre Totale Media 7,5 354 2655 5,26 15 201 3015 10941,71 35 115 4025 86199,45 55 9625 1540848,58 23041 1724434,33 175 3023 7,62 570,44 7 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Distribuzione delle aziende agricole per classe di superficie (in migliaia di ettari) al 4° censimento generale dell’agricoltura (1990) - Fonte: Istat Dev (X) = 1724434,33 σ2 = Dev (X) / n = 570,44 σ = σ 2 = 570,44 = 23,88 Misure di variabilità relativa Non è possibile avvalersi degli indicatori fin qui trattati per confrontare la variabilità di caratteri diversi, o quella di un medesimo carattere espresso in metriche differenti Per superare queste difficoltà si ricorre a misure di variabilità relativa Coefficiente di Variazione CV ( X ) = S(X ) M (X ) 8 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" È maggiormente variabile il reddito medio annuo familiare o il numero di componenti della famiglia? CV (ncomp) = 1.31 = 0.47 2.77 CV (reddito) = 24636 = 0.74 33364 Il reddito medio annuo è maggiormente variabile nell’insieme delle famiglie con 2 o con 4 componenti? A) famiglie con 2 componenti M ( X ) = 24451 S ( X ) = 21218 21218 CV ( X ) = = 0.864 24451 B) famiglie con 4 componenti M ( X ) = 49260 S ( X ) = 26050 CV ( X ) = 26050 = 0.529 49260 9 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" Popolazione residente nella provincia di Bologna al 01-01-2005 Coefficiente di variazione italiani: 0,49 Coefficiente di variazione stranieri: 0,50 Popolazione in età lavorativa residente nella provincia di Bologna al 01-01-2005 Coefficiente di variazione italiani: 0,31 Coefficiente di variazione stranieri: 0,29 La concentrazione { { Il concetto di concentrazione riguarda il modo in cui l’ammontare totale di un carattere quantitativo trasferibile si ripartisce tra n unità statistiche: tanto più tale ammontare è addensato in un sottoinsieme di unità, tanto più si dice che il carattere è concentrato La concentrazione è nulla se il carattere è equidistribuito, ed è massima se una sola unità possiede l’intero ammontare 10 Marilena Pillati - Seminari di Statistica (SVIC) "Le misure di variabilità e concentrazione" La concentrazione Avendo ordinato le osservazioni x1≤ x2≤ …≤ xn, si misura la concentrazione di X confrontando (per differenza) la frazione delle unità che possiedono il carattere in misura inferiore al livello xj, cioè pj=j/n, con la frazione dell’ammontare totale del carattere che ad esse compete, ovvero j qj = ∑ xh h =1 n ∑ xh h =1 Misura della concentrazione Rapportando la somma delle differenze pj – qj al suo massimo (raggiunto nel caso di massima concentrazione) si ottiene il Rapporto di concentrazione di Gini n −1 ∑(pj − qj) R= j =1 n −1 ∑ pj h =1 11