Variabilità (o dispersione)
media diversa,
stessa variabilità
Indici di variabilità
Cicchitelli Cap. 5
Seconno le statistiche d'adesso risurta che te tocca un pollo
all'anno: e, se nun entra nelle spese tue, t'entra ne la statistica lo
stesso perché c'è un antro che ne magna due.
Trilussa
stessa media,
diversa variabilità
(infatti la media da sola non basta, occorre aggiungere una misura di variabilità)
51
L. Grilli - Statistica 2013/2014
Scostamento semplice medio
52
L. Grilli - Statistica 2013/2014
Varianza e deviazione standard
Scostamento dalla media
xi  
Devianza
D    xi   
N
Scostamento dalla media (val. assoluto)
xi  
Scostamento semplice medio
S 
1
N
N

i 1
i 1
xi  
2 
Varianza
xi

53
L. Grilli - Statistica 2013/2014
Calcolo della varianza (distribuzione disaggregata)
alimento energia kcal
x   
1
N
x  
i 1
N
i 1
2
i
2
i

54
L. Grilli - Statistica 2013/2014
Calcolo della varianza (distribuzione di frequenze)
xj
(xi-M)^2
nj
fj
xj*fj
xj-M
(xj-m)^2 fj(xj-m)^2
1
5
0.083
0.083
-2.5
6.25
0.520833
pane
276 -90.25
8145.06
grissini
433
66.75
4455.56
2
10
0.167
0.333
-1.5
2.25
0.375
crackers
428
61.75
3813.06
fette
410
43.75
1914.06
3
15
0.25
0.75
-0.5
0.25
0.0625
biscotti
418
51.75
2678.06
4
15
0.25
1
0.5
0.25
0.0625
pasta
356
-10.25
105.06
5
10
0.167
0.833
1.5
2.25
0.375
riso
362
-4.25
18.06
6
5
0.083
0.5
2.5
6.25
0.520833
247 -119.25
14220.56
60
1
3.5
pizza
Totale
2 
xi-M
N
1
N
Deviazione standard

(Scostamento - o Scarto Quadratico Medio)
xi
2
1
N
2930
N
 (x  )
i 1
i
2
  366.25
totale
0.00 35349.50
2 1.916667
 1.384437
ds
1
 35349.5  4418.688
8
L. Grilli - Statistica 2013/2014
M
2 
55
1
N
J
 (x
j 1
J
j
  )2 n j   ( x j   )2 f j
j 1
L. Grilli - Statistica 2013/2014
56
Media e varianza con dati raggruppati
Calcolo della varianza: formula alternativa
Ipotesi istogramma:
equidistribuzione frequenze all’interno delle classi
 2  M 22  M 2 
Tabella di frequenza
Mod.tà
x0-x1
Freq.
Fr.rel.
n1
f1
x1-x2
n2
f2
…
…
…
Valore centrale di classe:
nj
fj
…
…
…
xk-1-xk
nk
fk
N
1
Totale
cj= (xj+ xj-1 )/2
1
xi2  

i 1
N
N

xi 

i 1

N
2
Varianza = (media quadratica al quadrato) – (media aritmetica al quadrato)
k
  cj f j
j 1
xj-1-xj
1
N
Approssima la vera
media, a volte per difetto,
a volte per eccesso
J
 2   (c j   ) 2 f j
j 1
Approssima la vera
varianza, quasi sempre
per difetto
L. Grilli - Statistica 2013/2014
Nell’esempio delle kcal degli alimenti
M 22  138557.8
M  366.25
 2  138557.8  (366.25) 2  4418.688
57
58
L. Grilli - Statistica 2013/2014
Interpretare la deviazione standard
divisore N  varianza
della popolazione
divisore N-1  varianza
campionaria
Deviazione standard: media quadratica degli scostamenti dalla media
Es. se =3.2 cm significa che le osservazioni distano mediamente 3.2 cm dalla media aritmetica
Dati A
Es. in Excel
13
14
15
16
17
18
19
20 21
 = 15.5
 = 3.338
13
14
15
16
17
18
19
20 21
 = 15.5
 = 0.926
14
15
16
17
18
19
20 21
 = 15.5
 = 4.570
VAR.P()  divisore N
11
VAR.C()  divisore N-1
12
Dati B
Attenzione: in molti
software la varianza di
default è quella
campionaria
11
12
Dati C
11
L. Grilli - Statistica 2013/2014
2.
3.
Invarianza rispetto a
traslazioni
 a  X     X 
con  ( X )  0  X degenere
M(x) M(x+a)
a
Invarianza rispetto a traslazioni
 a  X     X 
4.
bX
Omogeneità
  bX   b   X 
Omogeneità
  bX   b   X 
L. Grilli - Statistica 2013/2014
60
L. Grilli - Statistica 2013/2014
Invarianza e omogeneità
Stessa unità di misura di X Non negatività  ( X )  0,
13
59
Proprietà della deviazione standard
1.
12
X
61
(in questo esempio 0<b<1)
L. Grilli - Statistica 2013/2014
62
Riepilogo: effetto di una traslazione
 x1 , x2 ,, xn 
Riepilogo: effetto di un cambiamento di scala
 x1 , x2 ,, xn 
  2 
 x1  a, x2  a,, xn  a 
 bx1 , bx2 , , bxn 
  a 2 
b
Es. Altezze in cm, media 172 e Dev.Std. 8
Prelievo 30 euro ognuno (a= 30)  media 920 e Dev.Std. 70
Trasformazione in metri (b=1/100)  media 1.72 e Dev.Std. 0.08
63
Intervalli di variazione


L. Grilli - Statistica 2013/2014
Campo di variazione (range): R= xmax-xmin
Differenza interquartile: DI=Q3-Q1

Q3
Q1
La deviazione standard è molto sensibile ai valori anomali (ancor più della media aritmetica!)
‐0.55
‐0.55
‐0.55
‐0.55

xmin
64
Robustezza degli indici di variabilità
50%
Differenza interquartile

xmax
L. Grilli - Statistica 2013/2014
5.45
54.50
545.00
5450.00
media dev.std.
2.45
2.45
18.80
25.27
182.30
256.47
1817.30 2568.71
Alternativa robusta: lo scarto interquartile
In termini di robustezza …
65
Quale coppia di indici?
L. Grilli - Statistica 2013/2014
66
Indici di variabilità relativi

Quale indice di posizione e dispersione utilizzare dipende anche dall’obiettivo con cui si calcolano questi indici
Se l’obiettivo è meramente descrittivo, e la variabile è quantitativa, gli indici più informativi sono:
Utili per confrontare la variabilità di due distribuzioni quando:
 Unità di misura diverse (es. kg e cm)
 Stessa unità di misura, ma intensità media molto diversa

 la media aritmetica e la deviazione standard se la Possibili soluzioni
 relativizzare rispetto ad una media (es. il CV)
distribuzione è simmetrica unimodale
 la mediana e lo scarto interquartile se la distribuzione presenta valori anomali o è fortemente asimmetrica
 relativizzare rispetto al valore massimo

L. Grilli - Statistica 2013/2014
2.45
2.45
2.45
2.45
la deviazione std sta allo scarto interquartile
come
la media aritmetica sta alla mediana
Campo di variazione

 b b 2 2
Es. Reddito in euro, media 950 e Dev.Std. 70
L. Grilli - Statistica 2013/2014

  2 
67
Sono numeri puri, cioè senza unità di misura
L. Grilli - Statistica 2013/2014
68
Esempio CV
Coefficiente di variazione (CV)


CV  100

( xi  0,   0)
Azione A:
 Prezzo medio scorso anno = $50
 Dev.Std. = $5


CV 100% 


È un numero puro (espresso in % ma non ha massimo)
Consente il confronto tra la variabilità di fenomeni:
 in unità di misura non omogenee (es. in una popolazione di bambini c’è più variabilità nel peso o nell’altezza?)
 con diverso ordine di grandezza (es. riguardo al peso, c’è più variabilità tra i neonati o tra gli adulti?)

Azione B:
 Prezzo medio scorso anno = $100
 Dev.Std. = $5


CV 100% 
69
L. Grilli - Statistica 2013/2014
$5
100% 10%
$50
Indici di eterogeneità
$5
100%  5%
$100
L. Grilli - Statistica 2013/2014
Cap. 3-70
Consideriamo la lingua madre di 48 persone
Minima eterogeneità (= massima omogeneità)
Minima eterogeneità
Modalità
x1
x2
…
xi
…
xk
Totale
Modalità
Turco
Greco
Freq. ass.
0
0
…
N
…
0
N
Freq. ass.
0
0
0
48
48
Freq. rel.
0
0
…
1
…
0
1
Freq. rel.
0
0
0
1
1
Modalità
x1
x2
…
xi
…
xk
Totale
Freq. ass.
N/k
N/k
…
N/k
…
N/k
N
1/k
…
1/k
…
1/k
1
Indici di eterogeneità
G  0,
i 1
k
H   0, log k 
Dividendo per il massimo si ottengono le versioni normalizzate:
G
k 1
Gnorm  [0,1]
12
48
Freq. rel.
1/4
1/4
1/4
1/4
1
Una vera
Babele!
72
L. Grilli - Statistica 2013/2014
H norm 
k
L. Grilli - Statistica 2013/2014
H
log k
INDICE DI GINI: fJ^2
di frequenza relativa per corso
A
B
C
A
B
C
0.030 0.200 0.056
0.001 0.040 0.003
0.194 0.311 0.361
0.038 0.097 0.130
0.463 0.356 0.569
0.214 0.126 0.324
0.313 0.133 0.014
0.098 0.018 0.000
1.000 1.000 1.000
0.351 0.281 0.458
G
0.649 0.719 0.542
G norm
0.866 0.959 0.723
INDICE DI ENTROPIA:
A
-0.105
-0.318
-0.357
-0.364
-1.143
H
1.143
H norm
0.825
i 1
Gnorm 
12
Distribuzione
Modalità
decisam. no
+no/sì
+sì/no
decisam. sì
TOT
Indice di entropia
H   fi log fi
12
Indici di eterogeneità per la valutazione di tre corsi universitari
Domanda: Complessivamente quanto sei soddisfatto del corso?
 k  1
 k 
G  1   fi 2
Totale
12
Calcolo indici di eterogeneità
Indice di Gini
k
Totale
Freq. ass.
71
L. Grilli - Statistica 2013/2014
Ebraico Italiano
Massima eterogeneità (o massima entropia)
Modalità
Turco
Greco Ebraico Italiano
Massima eterogeneità
1/k
l’azione B è
meno variabile
rispetto al suo
prezzo
Esempio
Carattere di qualunque natura: si usano solo le frequenze
Freq. rel.
Le azioni hanno
lo stesso scarto
quadratico
medio, ma
H norm  [0,1]
73
fj*logfj (log base e)
B
C
-0.322 -0.161
-0.363 -0.368
-0.368 -0.321
-0.269 -0.059
-1.321 -0.909
1.321 0.909
0.953 0.655
L. Grilli - Statistica 2013/2014
INDICE DISPERSIONE DI LETI : F
A
B
C
0.029 0.160 0.053
0.174 0.250 0.243
0.215 0.116 0.014
0.000 0.000 0.000
0.418 0.525 0.309
D
0.836 1.051 0.619
d
0.557 0.701 0.412
74