Indici di variabilità ed
eterogeneità
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano
Statistica
1
Obiettivi dell’unità didattica
•  Definire i concetti di base sulla variabilità ed eterogeneità
•  Richiamare l’attenzione su alcune proprietà della varianza
Contenuti
• 
• 
Indici di variabilità
–  Campo di variazione
–  Varianza, Scarto quadratico medio, Devianza
–  Coefficiente di variazione
–  Differenza interquartile
Indici di eterogeneità
–  Indice del Gini
–  Indice di entropia
Prof. Roberta Siciliano
Statistica
2
1
Generalità sulla variabilità
•  La variabilità è espressione dell’attitudine di
un carattere quantitativo ad assumere
diverse modalità
•  L’uso congiunto di indici di posizione ed
indici di variabilità permette di
comprendere la dispersione dei dati rispetto
alla centralità della distribuzione
•  Variabilità assoluta e relativa
Prof. Roberta Siciliano
Statistica
3
Variabilità e Dispersione
Consideriamo il seguente esempio di tre studenti
che hanno superato ciascuno tre esami:
È facile vedere che se calcoliamo il voto
medio e quello mediano per ciascun studente
esso è pari a 24
Prof. Roberta Siciliano
Statistica
4
2
Variabilità e Dispersione (cont.)
Possiamo dire che i tre studenti hanno uno stesso
comportamento agli esami?
Dall’esempio risulta evidente che da soli gli
indici di posizione non riescono a svelare
esaustivamente il “segreto” delle
distribuzioni!!
Prof. Roberta Siciliano
Statistica
5
Caratteristiche di un indice di variabilità
•  Assume valori maggiori o uguali a zero
•  E’ pari a zero quando il carattere si presenta con
una sola modalità distinta (assenza di variabilità)
•  E’ invariante (ossia non modifica il suo valore)
quando si aggiunge una costante a ciascun valore
della distribuzione
•  Assume valori crescenti all’aumentare della
variabilità
Prof. Roberta Siciliano
Statistica
6
3
Campo di variazione
V = max(X) − min(X) = x( N ) − x(1)
E’ un indice di variabilità assoluta
€
Prof. Roberta Siciliano
Statistica
7
Varianza
N
2
1
2
σ = ∑ ( x l − µ)
N l =1
K
2
1
2
σ = ∑ ( x i − µ) n i
N i=1
E’ un indice di variabilità assoluta
Prof. Roberta Siciliano
€
Statistica
8
4
Caratteristiche principali
•  È una media
•  Vale sempre che:
2
0 ≤σ ≤ ∞
Prof. Roberta Siciliano
Statistica
9
€
Consideriamo la distribuzione massimizzante la
variabilità
Ipotizziamo (come caso limite) che nella nostra
distribuzione abbiamo N-1 unità distinte con
modalità pari a 0 ed una sola unità con modalità
pari all’intero ammontare del carattere, ossia
Nµ
perché
1 N
µ = ∑ xl
N l =1
Tale assunzione presuppone che il carattere quantitativo
sia additivo e trasferibile, ossia è ipotizzabile distribuire
in maniera diversa l’ammontare complessivo del carattere
(i.e., il reddito, il numero di addetti, etc.)
€
Prof. Roberta Siciliano
€
Statistica
10
5
Determiniamo il massimo della varianza
Allora abbiamo:
σ
2
=
1
(0 − µ) 2 (N −1) + (Nµ − µ) 2 ] =
[
N
1 2
µ (N −1) + µ 2 (N −1) 2 ] =
[
N
1
= [ µ 2 (N −1)(1+ N −1)] =
N
1
= Nµ 2 (N −1) = µ 2 (N −1)
N
=
Prof. Roberta Siciliano
MAX
Statistica
11
€
La varianza può essere anche scritta come ….
σ
€
σ
2
2
N
N
2
1
1
= ∑ ( x l − µ) = ∑ x l2 − µ 2
N l =1
N l =1
2
1 N
1 N 2
= ∑ ( x l − µ) = ∑ ( x l − 2x l µ + µ 2 ) =
N l =1
N l =1
1 N 2
1 N
1
= ∑ x l − 2 µ ∑ x l + Nµ 2 =
N l =1
N l =1
N
1 N 2
1 N 2
2
2
= ∑ x l − 2µ + µ = ∑ x l − µ 2
N l =1
N l =1
Prof. Roberta Siciliano
Statistica
12
€
6
Scarto Quadratico Medio
σ=
2
1 N
∑ ( x − µ)
N l =1 l
σ=
2
1 K
x
−
µ
ni
(
)
∑
i
N i=1
E’ un indice di variabilità assoluta
€
Prof. Roberta Siciliano
Statistica
13
Perché è utile lo s.q.m.
Il problema principale della varianza è che
è espressa nell’unità di misura del fenomeno
al quadrato!!!!
Lo scarto quadratico medio risolve questo
problema!!!!
Prof. Roberta Siciliano
Statistica
14
7
Coefficiente di Variazione
σ
CV =
µ
E’ un indice di variabilità relativa
€
Prof. Roberta Siciliano
Statistica
15
Determiniamo il massimo del coefficiente di
variazione nell’ipotesi di distribuzione
massimizzante la variabilità
Sappiamo che:
0 ≤ σ 2 ≤ µ 2 (N −1) ⇒ 0 ≤ σ ≤ µ N −1
0≤
€
σ
≤ N −1
µ
€
€
Prof. Roberta Siciliano
Statistica
16
8
Coefficiente di Variazione
normalizzato
CVnorm
CV
=
N −1
con 0 ≤ CVN ≤ 1
E’ un indice normalizzato
€
€
Prof. Roberta Siciliano
Statistica
17
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente
trasformazione lineare:
abbiamo che:
σY2 = β 2σX2
Prof. Roberta Siciliano
Statistica
18
€
9
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente
trasformazione lineare:
Y = βX + α
abbiamo che:
σY2 = β 2σX2
€ ossia, aggiungendo o sottraendo una costante fissa a ciascun
termine della distribuzione non modifica la variabilità della
distribuzione stessa
Prof. Roberta Siciliano
Statistica
19
€
Altri indici di variabilità
Median Absolute Deviation (MAD)
[
(
MAD = 1.8426 median x l − Me l = 1,...,N
)]
Differenza Interquartile
D = Q3 − Q1
€
Prof. Roberta Siciliano
Statistica
20
€
10
Eterogeneità e omogeneità
•  Indici di eterogeneità o di omogeneità
possono essere calcolati per dati qualitativi
e quantitativi quantitativi operando
unicamente sulle frequenze.
•  Eterogeneità per dati qualitativi: mutabilità
•  Omogeneità per dati quantitativi:
concentrazione
Prof. Roberta Siciliano
Statistica
21
Omogeneità vs. eterogeneità
•  Massima omogeneità:
tutte le unità presentano
la stessa modalità di X
f i* = 1
fi = 0 i ≠ i *
fi =
1
K
i = 1,…,K
•  Massima eterogeneità:
le unità si distribuiscono
uniformemente tra
€
le K modalità distinte di X
Prof. Roberta Siciliano
€Statistica
22
11
L’indice di eterogeneità di Gini
K
H = 1 − ∑ f i2
i=1
•  In presenza di massima omogeneità
•  In presenza di massima eterogeneità
€
H max
⎛ 1 ⎞ 2
⎛ 1 ⎞ K −1
= 1 − ∑ f i = 1 − ∑⎜ ⎟ = 1 − K ⎜ 2 ⎟ =
⎝ K ⎠
⎝ K ⎠
K
2
Prof. Roberta Siciliano
Statistica
23
€
L’indice “normalizzato” di Gini
1 − ∑ fi
H
H norm =
=
K −1
H max
K
con 0 ≤ H norm ≤ 1
€
Prof. Roberta Siciliano
Statistica
2
24
12
Indice di Entropia di Shannon
H S = −∑ f i log( f i )
Indice normalizzato di Entropia di Shannon
H S norm =
€
Prof. Roberta Siciliano
−∑ f i log( f i )
log(K )
Statistica
25
€
13