Le misure di variabilità e concentrazione

Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
La variabilità
{
{
L’attitudine di un carattere quantitativo X ad
assumere valori differenti tra le unità
componenti un insieme statistico è chiamata
variabilità
Essa costituisce una caratteristica degli insiemi
statistici e può essere descritta mediante
indicatori che godano di particolari proprietà
Le misure di variabilità
Una misura di variabilità deve:
{
{
annullarsi quando, e solo quando, tutte le
unità del collettivo presentano il medesimo
stato di grandezza del carattere
assumere valori crescenti all’aumentare
della variabilità
1
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Le misure di variabilità
Sia x1≤ x2≤ …≤ xn l’insieme delle osservazioni
del carattere X
• Intervallo di variabilità o campo di
variazione (range)
Iv= xn – x1
•
Differenza interquartile
Iq= Q3– Q1
Box - plot
max
+
3° quartile
IQR
mediana
−
1° quartile
min
2
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Intervallo di variabilità
per il numero di
componenti
e per il reddito
Differenza
interquartile
per il numero di
componenti
e per il reddito
3
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Varianza
Misura la dispersione attorno alla media
aritmetica
E’ la media dei quadrati delle distanze dalla
media aritmetica
1 n
2
xj − x 2
σ =V X =
n j =1
∑(
( )
1
=
n
)
n
∑ x j2 − x 2
j =1
Varianza
Per una distribuzione di frequenza:
1
σ = V (X ) =
n
2
1
=
n
k
∑ (xi − x )2 ni
i =1
k
∑ xi 2 ni − x 2
i =1
4
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Popolazione residente nella provincia
di Bologna al 01-01-2005
Varianza italiani:
512,68 anni2
Varianza stranieri: 245,49 anni2
Popolazione in eta’ lavorativa residente nella
provincia di Bologna al 01-01-2005
Varianza italiani:
170,79 anni2
Varianza stranieri: 102.563 anni2
Distribuzione delle famiglie per numero di
componenti e sesso del capofamiglia
N° Componenti
M
F
1
2
3
4
5
6
3
5
2
8
1
1
20
1.89
2
6
1
1
0
0
10
0.69
Totale
varianza
V (X ) =
5
11
3
9
1
1
30
1.71
V ( M x ) ⋅ nM + V ( F x ) ⋅ nF
1.89 ⋅ 20 + 0.69 ⋅ 10
=
= 1.49 ≠ 1.71
30
nM + nF
Non vale la proprietà di associatività
5
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Devianza
E’ il numeratore della varianza
Dev ( X ) = V ( X ) ⋅ n =
∑ (x j − x )2
n
j =1
Dev( X ) = V ( X ) ⋅ n =
k
∑ (xi − x )2 ni
i =1
Scarto quadratico medio
È la radice quadrata della varianza, è detto
anche Deviazione Standard
1
S (X ) = V ( X ) =
n
∑ (x j − x )2
n
j =1
Per una distribuzione di frequenza:
1
S (X ) = V ( X ) =
n
k
∑ (xi − x )2 ⋅ ni
i =1
6
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Popolazione residente nella provincia
di Bologna al 01-01-2005
Deviazione standard italiani:
22,64 anni
Deviazione standard stranieri: 15,67 anni
Popolazione in eta’ lavorativa residente nella
provincia di Bologna al 01-01-2005
Deviazione standard italiani:
13,07 anni
Deviazione standard stranieri: 10.13 anni
Distribuzione delle aziende agricole per classe di
superficie (in migliaia di ettari) al 4° censimento generale
dell’agricoltura (1990) - Fonte: Istat
Classe di
superficie
xj-1 |-- xj
Numero di aziende
(in migliaia)
nj
x*j
x*jnj
(x*j - M(X))2·nj
Fino a 1
0,5
997
498,5
50569,28
1 |-- 2
1,5
591
886,5
22149,29
2 |-- 3
2,5
336
840
8814,57
3 |-- 5
4
374
1496
4906,19
5 |-- 10
10 |- 20
20 |- 50
50 e oltre
Totale
Media
7,5
354
2655
5,26
15
201
3015
10941,71
35
115
4025
86199,45
55
9625
1540848,58
23041
1724434,33
175
3023
7,62
570,44
7
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Distribuzione delle aziende agricole per classe di
superficie (in migliaia di ettari) al 4° censimento generale
dell’agricoltura (1990) - Fonte: Istat
Dev (X) = 1724434,33
σ2 = Dev (X) / n = 570,44
σ = σ 2 = 570,44 = 23,88
Misure di variabilità relativa
Non è possibile avvalersi degli indicatori fin qui
trattati per confrontare la variabilità di caratteri
diversi, o quella di un medesimo carattere
espresso in metriche differenti
Per superare queste difficoltà si ricorre a misure
di variabilità relativa
Coefficiente di Variazione
CV ( X ) =
S(X )
M (X )
8
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
È maggiormente variabile il reddito medio annuo
familiare o il numero di componenti della famiglia?
CV (ncomp) =
1.31
= 0.47
2.77
CV (reddito) =
24636
= 0.74
33364
Il reddito medio annuo è maggiormente variabile
nell’insieme delle famiglie con 2 o con 4
componenti?
A) famiglie con 2 componenti
M ( X ) = 24451 S ( X ) = 21218
21218
CV ( X ) =
= 0.864
24451
B) famiglie con 4 componenti
M ( X ) = 49260 S ( X ) = 26050
CV ( X ) =
26050
= 0.529
49260
9
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
Popolazione residente nella provincia
di Bologna al 01-01-2005
Coefficiente di variazione italiani:
0,49
Coefficiente di variazione stranieri: 0,50
Popolazione in età lavorativa residente
nella provincia di Bologna al 01-01-2005
Coefficiente di variazione italiani:
0,31
Coefficiente di variazione stranieri: 0,29
La concentrazione
{
{
Il concetto di concentrazione riguarda il
modo in cui l’ammontare totale di un
carattere quantitativo trasferibile si
ripartisce tra n unità statistiche: tanto più
tale ammontare è addensato in un
sottoinsieme di unità, tanto più si dice che
il carattere è concentrato
La concentrazione è nulla se il carattere è
equidistribuito, ed è massima se una sola
unità possiede l’intero ammontare
10
Marilena Pillati - Seminari di Statistica (SVIC)
"Le misure di variabilità e concentrazione"
La concentrazione
Avendo ordinato le osservazioni x1≤ x2≤ …≤ xn, si
misura la concentrazione di X confrontando (per
differenza) la frazione delle unità che possiedono il
carattere in misura inferiore al livello xj, cioè
pj=j/n, con la frazione dell’ammontare totale del
carattere che ad esse compete, ovvero
j
qj =
∑ xh
h =1
n
∑ xh
h =1
Misura della concentrazione
Rapportando la somma delle differenze
pj – qj al suo massimo (raggiunto nel caso di
massima concentrazione) si ottiene il
Rapporto di concentrazione di Gini
n −1
∑(pj − qj)
R=
j =1
n −1
∑ pj
h =1
11