Le misure di variabilità e concentrazione

Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
La variabilità
{
{
L’attitudine di un carattere quantitativo X
ad assumere valori differenti tra le unità
componenti un insieme statistico è
chiamata variabilità
Essa costituisce una caratteristica degli
insiemi statistici e può essere descritta
mediante indicatori che godano di
particolari proprietà
Le misure di variabilità
Una misura di variabilità deve:
{
{
annullarsi quando, e solo quando,
tutte le unità del collettivo
presentano il medesimo stato di
grandezza del carattere
assumere valori crescenti
all’aumentare della variabilità
1
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Le misure di variabilità
Si possono ottenere dal confronto:
{
{
{
tra due particolari termini delle
distribuzione o tra due quartili (Æ
intervalli di variazione)
tra tutti i termini della distribuzione
tra di loro (Æ differenze medie)
tra ogni termine della distribuzione e
un valore costante (Æ scostamenti
medi)
Le misure di variabilità
Sia x1≤ x2≤ …≤ xn l’insieme delle
osservazioni del carattere X
• Intervallo di variabilità o campo di
variazione (range)
Iv= xn – x1
•
Differenza interquartile
Iq= Q3– Q1
2
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Box - plot
max
+
3° quartile
IQR
mediana
−
1° quartile
min
Intervallo di variabilità
per il numero di
componenti
e per il reddito
3
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Differenza
interquartile
per il numero di
componenti
e per il reddito
Varianza
Misura la dispersione attorno alla media
aritmetica
E’ la media dei quadrati delle distanze
dalla media aritmetica
σ
2
1
= V (X ) =
n
=
1
n
n
∑x
j
2
n
∑ (x
j
−x
)2
j =1
− x2
j =1
4
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Varianza
Per una distribuzione di frequenza:
σ
2
1
= V (X ) =
n
=
1
n
k
∑x
i
2
k
∑ (x i
− x ) ni
2
i =1
ni − x 2
i =1
Popolazione residente nella provincia
di Bologna al 01-01-2005
Varianza italiani: 512,68 anni2
Varianza stranieri: 245,49 anni2
Popolazione in eta’ lavorativa residente nella
provincia di Bologna al 01-01-2005
Varianza italiani: 170,79 anni2
Varianza stranieri: 102.563 anni2
5
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Distribuzione delle famiglie per numero di
componenti e sesso del capofamiglia
N° Componenti
M
F
1
2
3
4
5
6
3
5
2
8
1
1
20
1.89
2
6
1
1
0
0
10
0.69
Totale
varianza
V (X ) =
5
11
3
9
1
1
30
1.71
V ( M x ) ⋅ nM + V ( F x ) ⋅ nF
1.89 ⋅ 20 + 0.69 ⋅ 10
=
= 1.49 ≠ 1.71
30
nM + nF
Non vale la proprietà di associatività
Devianza
E’ il numeratore della varianza
Dev ( X ) = V ( X ) ⋅ n =
∑ (x j − x )2
n
j =1
Dev( X ) = V ( X ) ⋅ n =
k
∑ (xi − x )2 ni
i =1
6
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Scarto quadratico medio dalla media aritmetica
È la radice quadrata della varianza, è detto
anche Deviazione Standard
1
S (X ) = V ( X ) =
n
∑ (x j − x )2
n
j =1
Per una distribuzione di frequenza:
1
S (X ) = V ( X ) =
n
k
∑ (xi − x )2 ⋅ ni
i =1
Popolazione residente nella provincia
di Bologna al 01-01-2005
Deviazione standard italiani: 22,64 anni
Deviazione standard stranieri: 15,67 anni
Popolazione in eta’ lavorativa residente nella
provincia di Bologna al 01-01-2005
Deviazione standard italiani:
13,07 anni
Deviazione standard stranieri: 10.13 anni
7
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Distribuzione delle aziende agricole per classe di
superficie (in migliaia di ettari) al 4° censimento generale
dell’agricoltura (1990) - Fonte: Istat
Classe di
superficie
xj-1 |-- xj
Numero di aziende
(in migliaia)
nj
x*j
x*jnj
(x*j - M(X))2·nj
Fino a 1
0,5
997
498,5
50569,28
1 |-- 2
1,5
591
886,5
22149,29
2 |-- 3
2,5
336
840
8814,57
4906,19
3 |-- 5
5 |-- 10
10 |- 20
20 |- 50
50 e oltre
Totale
4
374
1496
7,5
354
2655
5,26
15
201
3015
10941,71
35
115
4025
86199,45
55
9625
1540848,58
23041
1724434,33
175
3023
Media
7,62
570,44
Distribuzione delle aziende agricole per classe di
superficie (in migliaia di ettari) al 4° censimento generale
dell’agricoltura (1990) - Fonte: Istat
Dev (X) = 1724434,33
σ2 = Dev (X) / n = 570,44
σ = σ 2 = 570,44 = 23,88
8
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Misure di variabilità relativa
Non è possibile avvalersi degli indicatori fin qui
trattati per confrontare la variabilità di caratteri
diversi, o quella di un medesimo carattere
espresso in metriche differenti
Per superare queste difficoltà si ricorre a misure
di variabilità relativa
Coefficiente di Variazione
Cv( X ) =
S (X )
M (X )
È maggiormente variabile il reddito medio annuo
familiare o il numero di componenti della famiglia?
Cv (ncomp) =
1.31
= 0.47
2.77
Cv (reddito) =
24636
= 0.74
33364
9
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Il reddito medio annuo è maggiormente variabile
nell’insieme delle famiglie con 2 o con 4
componenti?
A) famiglie con 2 componenti
M (X ) = 24451
Cv (X ) =
S (X ) = 21218
21218
= 0.864
24451
B) famiglie con 4 componenti
M (X ) = 49260
Cv (X ) =
S (X ) = 26050
26050
= 0.529
49260
Popolazione residente nella provincia
di Bologna al 01-01-2005
Coefficiente di variazione italiani:
0,49
Coefficiente di variazione stranieri: 0,50
Popolazione in età lavorativa residente
nella provincia di Bologna al 01-01-2005
Coefficiente di variazione italiani:
0,31
Coefficiente di variazione stranieri: 0,29
10
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
La concentrazione
{
{
Il concetto di concentrazione riguarda il
modo in cui l’ammontare totale di un
carattere quantitativo trasferibile si
ripartisce tra n unità statistiche: tanto più
tale ammontare è addensato in un
sottoinsieme di unità, tanto più si dice che
il carattere è concentrato
La concentrazione è nulla se il carattere è
equidistribuito, ed è massima se una sola
unità possiede l’intero ammontare
La concentrazione
Avendo ordinato le osservazioni x1≤ x2≤ …≤ xn, si
misura la concentrazione di X confrontando (per
differenza) la frazione delle unità che possiedono il
carattere in misura inferiore al livello xj, cioè
Pj=j/n, con la frazione dell’ammontare totale del
carattere che ad esse compete, ovvero
j
Qj =
∑x
h
∑x
h
h =1
n
h =1
11
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
La concentrazione
In qualunque situazione si ha sempre che
Q n = Pn = 1
0 ≤ Qi ≤ Pi ≤ 1
Inoltre, in caso di EQUIDISTRIBUZIONE:
Qi = Pi
In caso di MASSIMA CONCENTRAZIONE:
Q1 = Q2 = … = Q n-1 = 0
Misura della concentrazione
Per misurare la concentrazione si può
considerare la somma delle differenze
Pj – Qj rapportata al suo massimo (raggiunto
nel caso di massima concentrazione).
Si ottiene così il
Rapporto di concentrazione di Gini
n −1
∑( p j − q j)
R=
j =1
n −1
∑ pj
h =1
12
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Esempio
Quanto erano concentrati gli alberghi in EmiliaRomagna nel 1998?
ANNO 1998
Emilia-Romagna
Alberghi
5.134
Piacenza
106
Parma
301
Reggio nell'Emilia
147
Modena
243
Bologna
347
Ferrara
93
Ravenna
596
Forli'-Cesena
615
Rimini
2.686
13
Marilena Pillati - Elementi di Statistica e Informatica (SVIC)
“Misure di variabilità e concentrazione”
Esempio
Pi
Qi
Pi - Qi
Ferrara
93
0,111
=1/9
93
=93
0,018
=93/5134
0,093
Piacenza
106
0,222
=2/9
199
=93+106
0,039
=199/5134
0,183
Reggio E.
147
0,333
=3/9
346
=93+106+147
0,067
=346/5134
0,266
Modena
243
0,444
=4/9
589
…
0,115
…
0,330
Parma
301
0,556
=5/9
890
…
0,173
…
0,382
Bologna
347
0,667
=6/9
1.237
…
0,241
…
0,426
Ravenna
596
0,778
=7/9
1.833
…
0,357
…
0,421
615
0,889
=8/9
2.448
…
0,477
…
0,412
2.686
1,000
=9/9
5.134
…
1,000
…
0,000
ForlìCesena
Rimini
4,000
2,513
R = 2,513/4,000 = 0,628
14