Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” La variabilità { { L’attitudine di un carattere quantitativo X ad assumere valori differenti tra le unità componenti un insieme statistico è chiamata variabilità Essa costituisce una caratteristica degli insiemi statistici e può essere descritta mediante indicatori che godano di particolari proprietà Le misure di variabilità Una misura di variabilità deve: { { annullarsi quando, e solo quando, tutte le unità del collettivo presentano il medesimo stato di grandezza del carattere assumere valori crescenti all’aumentare della variabilità 1 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Le misure di variabilità Si possono ottenere dal confronto: { { { tra due particolari termini delle distribuzione o tra due quartili (Æ intervalli di variazione) tra tutti i termini della distribuzione tra di loro (Æ differenze medie) tra ogni termine della distribuzione e un valore costante (Æ scostamenti medi) Le misure di variabilità Sia x1≤ x2≤ …≤ xn l’insieme delle osservazioni del carattere X • Intervallo di variabilità o campo di variazione (range) Iv= xn – x1 • Differenza interquartile Iq= Q3– Q1 2 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Box - plot max + 3° quartile IQR mediana − 1° quartile min Intervallo di variabilità per il numero di componenti e per il reddito 3 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Differenza interquartile per il numero di componenti e per il reddito Varianza Misura la dispersione attorno alla media aritmetica E’ la media dei quadrati delle distanze dalla media aritmetica σ 2 1 = V (X ) = n = 1 n n ∑x j 2 n ∑ (x j −x )2 j =1 − x2 j =1 4 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Varianza Per una distribuzione di frequenza: σ 2 1 = V (X ) = n = 1 n k ∑x i 2 k ∑ (x i − x ) ni 2 i =1 ni − x 2 i =1 Popolazione residente nella provincia di Bologna al 01-01-2005 Varianza italiani: 512,68 anni2 Varianza stranieri: 245,49 anni2 Popolazione in eta’ lavorativa residente nella provincia di Bologna al 01-01-2005 Varianza italiani: 170,79 anni2 Varianza stranieri: 102.563 anni2 5 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Distribuzione delle famiglie per numero di componenti e sesso del capofamiglia N° Componenti M F 1 2 3 4 5 6 3 5 2 8 1 1 20 1.89 2 6 1 1 0 0 10 0.69 Totale varianza V (X ) = 5 11 3 9 1 1 30 1.71 V ( M x ) ⋅ nM + V ( F x ) ⋅ nF 1.89 ⋅ 20 + 0.69 ⋅ 10 = = 1.49 ≠ 1.71 30 nM + nF Non vale la proprietà di associatività Devianza E’ il numeratore della varianza Dev ( X ) = V ( X ) ⋅ n = ∑ (x j − x )2 n j =1 Dev( X ) = V ( X ) ⋅ n = k ∑ (xi − x )2 ni i =1 6 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Scarto quadratico medio dalla media aritmetica È la radice quadrata della varianza, è detto anche Deviazione Standard 1 S (X ) = V ( X ) = n ∑ (x j − x )2 n j =1 Per una distribuzione di frequenza: 1 S (X ) = V ( X ) = n k ∑ (xi − x )2 ⋅ ni i =1 Popolazione residente nella provincia di Bologna al 01-01-2005 Deviazione standard italiani: 22,64 anni Deviazione standard stranieri: 15,67 anni Popolazione in eta’ lavorativa residente nella provincia di Bologna al 01-01-2005 Deviazione standard italiani: 13,07 anni Deviazione standard stranieri: 10.13 anni 7 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Distribuzione delle aziende agricole per classe di superficie (in migliaia di ettari) al 4° censimento generale dell’agricoltura (1990) - Fonte: Istat Classe di superficie xj-1 |-- xj Numero di aziende (in migliaia) nj x*j x*jnj (x*j - M(X))2·nj Fino a 1 0,5 997 498,5 50569,28 1 |-- 2 1,5 591 886,5 22149,29 2 |-- 3 2,5 336 840 8814,57 4906,19 3 |-- 5 5 |-- 10 10 |- 20 20 |- 50 50 e oltre Totale 4 374 1496 7,5 354 2655 5,26 15 201 3015 10941,71 35 115 4025 86199,45 55 9625 1540848,58 23041 1724434,33 175 3023 Media 7,62 570,44 Distribuzione delle aziende agricole per classe di superficie (in migliaia di ettari) al 4° censimento generale dell’agricoltura (1990) - Fonte: Istat Dev (X) = 1724434,33 σ2 = Dev (X) / n = 570,44 σ = σ 2 = 570,44 = 23,88 8 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Misure di variabilità relativa Non è possibile avvalersi degli indicatori fin qui trattati per confrontare la variabilità di caratteri diversi, o quella di un medesimo carattere espresso in metriche differenti Per superare queste difficoltà si ricorre a misure di variabilità relativa Coefficiente di Variazione Cv( X ) = S (X ) M (X ) È maggiormente variabile il reddito medio annuo familiare o il numero di componenti della famiglia? Cv (ncomp) = 1.31 = 0.47 2.77 Cv (reddito) = 24636 = 0.74 33364 9 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Il reddito medio annuo è maggiormente variabile nell’insieme delle famiglie con 2 o con 4 componenti? A) famiglie con 2 componenti M (X ) = 24451 Cv (X ) = S (X ) = 21218 21218 = 0.864 24451 B) famiglie con 4 componenti M (X ) = 49260 Cv (X ) = S (X ) = 26050 26050 = 0.529 49260 Popolazione residente nella provincia di Bologna al 01-01-2005 Coefficiente di variazione italiani: 0,49 Coefficiente di variazione stranieri: 0,50 Popolazione in età lavorativa residente nella provincia di Bologna al 01-01-2005 Coefficiente di variazione italiani: 0,31 Coefficiente di variazione stranieri: 0,29 10 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” La concentrazione { { Il concetto di concentrazione riguarda il modo in cui l’ammontare totale di un carattere quantitativo trasferibile si ripartisce tra n unità statistiche: tanto più tale ammontare è addensato in un sottoinsieme di unità, tanto più si dice che il carattere è concentrato La concentrazione è nulla se il carattere è equidistribuito, ed è massima se una sola unità possiede l’intero ammontare La concentrazione Avendo ordinato le osservazioni x1≤ x2≤ …≤ xn, si misura la concentrazione di X confrontando (per differenza) la frazione delle unità che possiedono il carattere in misura inferiore al livello xj, cioè Pj=j/n, con la frazione dell’ammontare totale del carattere che ad esse compete, ovvero j Qj = ∑x h ∑x h h =1 n h =1 11 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” La concentrazione In qualunque situazione si ha sempre che Q n = Pn = 1 0 ≤ Qi ≤ Pi ≤ 1 Inoltre, in caso di EQUIDISTRIBUZIONE: Qi = Pi In caso di MASSIMA CONCENTRAZIONE: Q1 = Q2 = … = Q n-1 = 0 Misura della concentrazione Per misurare la concentrazione si può considerare la somma delle differenze Pj – Qj rapportata al suo massimo (raggiunto nel caso di massima concentrazione). Si ottiene così il Rapporto di concentrazione di Gini n −1 ∑( p j − q j) R= j =1 n −1 ∑ pj h =1 12 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Esempio Quanto erano concentrati gli alberghi in EmiliaRomagna nel 1998? ANNO 1998 Emilia-Romagna Alberghi 5.134 Piacenza 106 Parma 301 Reggio nell'Emilia 147 Modena 243 Bologna 347 Ferrara 93 Ravenna 596 Forli'-Cesena 615 Rimini 2.686 13 Marilena Pillati - Elementi di Statistica e Informatica (SVIC) “Misure di variabilità e concentrazione” Esempio Pi Qi Pi - Qi Ferrara 93 0,111 =1/9 93 =93 0,018 =93/5134 0,093 Piacenza 106 0,222 =2/9 199 =93+106 0,039 =199/5134 0,183 Reggio E. 147 0,333 =3/9 346 =93+106+147 0,067 =346/5134 0,266 Modena 243 0,444 =4/9 589 … 0,115 … 0,330 Parma 301 0,556 =5/9 890 … 0,173 … 0,382 Bologna 347 0,667 =6/9 1.237 … 0,241 … 0,426 Ravenna 596 0,778 =7/9 1.833 … 0,357 … 0,421 615 0,889 =8/9 2.448 … 0,477 … 0,412 2.686 1,000 =9/9 5.134 … 1,000 … 0,000 ForlìCesena Rimini 4,000 2,513 R = 2,513/4,000 = 0,628 14