Corso di Statistica
Variabilità ed eterogeneità
Prof.ssa T. Laureti
a.a. 2014-2015
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
1
Variabilità
• Il calcolo di una media non esaurisce la
descrizione sintetica di un fenomeno
osservato in un collettivo
• Due insiemi di valori o due distribuzioni di
frequenza, pur avendo lo stesso valore
medio, possono essere molto differenti tra
di loro
• Gli indici di variabilità forniscono
informazioni complementari a quelle degli
indici medi
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
2
La variabilità
• VARIABILITA’: attitudine di un carattere
ad assumere diverse modalità
Varianza (σ2);
Indici di variabilità
Deviazione standard (σ);
Coefficiente di variazione (CV);
- Un indice di variabilità deve assumere il valore minimo se e solo se tutte
le unità della distribuzione presentano uguale modalità del carattere;
- Un indice di variabilità deve aumentare all’aumentare della diversità tra le
modalità assunte dalle varie unità;
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
3
La variabilità (distribuzioni teoriche)
unità
1
2
3
4
5
Reddito Reddito Reddito
A (000) B (000) C (000)
40
20
100
15
20
0
10
20
0
30
20
0
5
20
0
100
100
100
X A  X B  X C  20
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
4
Riprendiamo la nostra matrice dei dati
Punti
vendita
Ricavi
Costi
addetti
ubicazione
Genere
respons.
Vendit
a
On-line
R.O
1
350
205
5
centro
maschio
si
145
2
200
100
3
periferia
maschio
si
100
3
600
350
10
semicentro
femmina
no
250
4
500
270
10
periferia
femmina
no
230
5
270
200
6
centro
maschio
no
70
6
180
120
3
centro
maschio
no
60
7
205
105
3
periferia
maschio
no
100
8
340
210
5
semicentro
femmina
no
120
9
280
140
4
centro
femmina
si
140
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
5
Variabilità
Distribuzioni teoriche
Ricavi
Ricavi
(A)
Ricavi
(C)
325
Ricavi
(B)
300
350
200
325
350
270
600
325
400
830
500
325
200
605
270
325
300
120
180
325
325
200
205
325
300
190
340
325
400
200
280
325
350
370
140
Le 3 distribuzioni
teoriche hanno la stessa
media della
distribuzione osservata
x  325
La sintesi con la media
aritmetica porta allo
stesso risultato
Eppure le distribuzioni
sono molto diverse tra
di loro
Distribuzione osservata n=9
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
6
Indici di variabilità:
il campo di variazione o range
Ricavi
Ricavi
(A)
Ricavi
(C)
325
Ricavi
(B)
300
350
200
325
350
270
600
325
400
830
500
325
200
605
270
325
300
120
180
325
325
200
205
325
300
190
340
325
400
200
280
325
350
370
xmin
180
325
200
120
xmax
600
325
400
830
Range=xmax-xmin
420
0
200
710
140
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
Distr. A
Variabilità
nulla
Tutti i valori
uguali
Passando da
AaB
e da B a C,
aumenta la
variabilità
perché i
valori cadono
in un range
sempre più
ampio
7
Misure di variabilità come
ampiezza di un intervallo
Il range (o campo di variazione) range  xmax  xmin
è l’ampiezza dell’intervallo che contiene tutti i
valori
La differenza interquartile dQ  Q3  Q1
è l’ampiezza dell’intervallo che contiene il
50% dei valori (quelli centrali)
La variabilità aumenta al crescere di questi
indici
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
8
Misure di variabilità come dispersione
dalla media
Si considerano le distanze dei termini xi della distribuzione dalla
media aritmetica:
Media = 325
100
200
300
400
x1  x , x2  x ,, xn  x 
500
600
700
x1  x  , x2  x  ,, xn  x 
2
2
 Queste quantità indicano il grado di diversità dei termini
della distribuzione rispetto alla media aritmetica
 Facendo una sintesi di tali distanze tramite una media si
ottiene un indice di variabilità
2
Misure di variabilità come
dispersione dalla media
La varianza σ2 è funzione delle differenze
(scarti) tra ogni valore xi e la media x
1 n
2
   xi  x 
n 11
2
2  0
La devianza è il numeratore della varianza
Dev(X) 
n
 x
i1
 x
2
i
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
10
Misure di variabilità come
dispersione dalla media
La deviazione standard (o scarto quadratico
medio) è la radice quadrata della varianza
1 n
2
xi  x 


n i 1
Il coefficiente di variazione CV è il rapporto
tra la dev. standard e la media moltiplicato
per 100
CV 

x
100
x0
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
11
Variabilità-esempio
Ricavi
xj
350
Scarti
dalla
media
(xj-μ)
25
Quadrato
degli
scarti
(xj-μ)2
625
200
-125
15.625
600
275
75.625
500
175
30.625
270
-55
3.025
180
-145
21.025
205
-120
14.400
340
15
225
280
-45
2.025
0
163.200
media   x  325
n
 xi  x   0
i1
n
2


x

x
 i
i1
Per la proprietà
della media
 Dev(X)  163200
Devianza=163200
1 n
Dev(X)
2
2


x

x





i
n i1
n
163200

 18133,3
9
Varianza=18133,3
1 n
2


 
x

x


i
n i1
Dev.std.=134,7
12
 18133,3  134,7
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
12
Variabilità dei ricavi dei punti
vendita
• Un basso grado di variabilità indica che i
punti vendita realizzano performance
simili (i ricavi si discostano poco tra di
loro)
• Viceversa un alto grado di variabilità fa
capire che c’è una certa eterogeneità nei
risultati delle vendite ottenuti nei diversi
negozi
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
13
Confronto tra due distribuzioni
in termini di variabilità
CV si calcola per confrontare la variabilità
della distribuzione del carattere X con quella
del carattere Y quando sono espressi o con
diversa unità di misura o con diverso ordine
di grandezza
Se CVX>CVy allora la variabilità del carattere
X è maggiore di quella del carattere Y
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
14
Varianza di una
distribuzione di frequenza
Addetti
(xj)
Numero
punti vendita
3
2
19,34
4
1
4,45
6
3
0,04
7
1
0,79
10
2
30,26
totale
9
(nj)
(xj-μ)2*nj
  x  6,11
1 K
54,88
2
   x j  x  nj 
 6,10
n j1
9
2,47
CV 
100  40,43%
  6,10  2,47
6,11
2
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
15
 Formula alternativa per il calcolo della
varianza
1 n 2
   xi  x 2
n i1
2
da un insieme di n valori
1 K 2
   x j nj  x 2
n j1
2
da una distribuzione di frequenza
con K valori distinti
 Varianza di una trasformazione lineare
La varianza di un carattere Y ottenuto dalla trasformazione
Y  X  
di un carattere X
con media x e varianza
2 2
 è:
2
Var Y    
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
16
Box plot
L’altezza del box indica la
dispersione del 50% delle
osservazioni centrali intorno alla
mediana.
Si evidenzia una certa simmetria
nella parte centrale, dato che la
differenza Q2-Q1 non è molto
diversa da Q3-Q2
max
Q3
Q2
Q1
Ricavi
min
I segmenti esterni al box
indicano la dispersione dei valori
estremi.
Si nota una maggiore dispersione
del 25% dei valori più grandi,
dato che la differenza max-Q3 è
molto maggiore di Q1-min
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
17
Box plot: ricavi e costi
Ricavi
Costi
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
18
Box plot con valori anomali
Al fine di identificare la presenza di osservazioni
anomale si fa generalmente riferimento ad un
intervallo di valori ritenuti “nella norma” .
Una regola empirica consiste nel considerare come
limite inferiore del rettangolo (LIR) il primo quartile e
limite superiore del rettangolo (LSR) il secondo
quartile. Quindi i valori anomali sono i valori che
eccedono l’intervallo definito da
X  Q1  l   LSR  LIR 
X  Q3  l   LSR  LIR 
Usualmente si fissa l=1,5
e per i valori eccedenti l=2
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
19
40
30
20
reddito
50
60
70
Box plot con valori anomali
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
20
Teorema di Chebyshev
Nell’intervallo x  k , x  k  cade una
proporzione (freq. rel.) di valori almeno pari a
1 qualunque sia la forma della distribuzione
1 2
k
k
Proporzione minima di osservazioni
che cadono tra x  k e x  k
1
1-1/12=0
2
1-1/22=0,75
3
1-1/32=0,89
4
1-1/42=0,94
Almeno il 75% dei
valori è compreso
nell’intervallo
centrato intorno alla
media di ampiezza
pari a due volte la
deviazione standard
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
21
Applicazione del Teorema di
Chebyshev
Riguardo alle spese sostenute per la protezione
dell’ambiente nell’ultimo trimestre da un gruppo di
imprese estrattive, si è osservato
x  2390€ e   780€
Senza avere altre informazioni su come sono
distribuite le spese, posso concludere che almeno il
75% delle imprese ha speso un ammontare
compreso tra 830€ e 3950€
(si applica il Teorema con k=2)
x  k  2390  2  780  830
x  k  2390  2  780  3950
Alternativamente concludo che non più del 25% delle imprese
ha sostenuto spese ambientali inferiori a 830€ o superiori a
3950€
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
22
La standardizzazione
La
standardizzazione
è
una
particolare
trasformazione lineare che applicata ai dati originali
riconduce qualsiasi variabile X con media x e
deviazione standard  a una nuova variabile con
media nulla e varianza unitaria.
Ogni osservazione xi viene trasformata in un nuovo
valore:
xi  x
yi 

La distribuzione risultante ha media nulla e varianza
unitaria.
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
La standardizzazione-Esempio
Punti vendita
Addetti
1
6
2
6
3
10
4
10
5
7
6
3
7
3
8
6
9
4
  x  6,111
Addetti
standardizzata
-0,04496
y1 
-0,04496
1,57513
1,57513
0,36006
-1,26002
-1,26002
-0,04496
-0,85500
  6,10  2,469
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
6  6,111
2,469
Confronto del rendimento di due
investimenti (uguale media)
F1
F2
2003
7,7
6,4
2004
6,1
5,9
2005
0,4
3,2
2006
9,8
7,1
2007
3,5
4,9
media
5,5
5,5
var
10,7
1,8
Negli ultimi cinque anni, due fondi
di investimento F1 e F2 hanno
avuto lo stesso rendimento medio
annuo, ma le varianze sono molto
diverse Var(F1)>Var(F2)
Una varianza maggiore indica che rendimenti molto
diversi dalla media sono più frequenti
Maggiore volatilità
Maggior rischio
A parità di rendimento medio, il cliente che è disposto ad
accettare un rischio più alto sceglierà di investire in F1
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
25
Confronto del rendimento di due
investimenti (media diversa)
F1
F2
2003
9,7
1,4
2004
7,1
1,9
2005
0,9
2,2
2006
9,9
2,1
2007
7,5
4,9
media
7,0
2,5
var
10,6
1,5
CV
46,5 49,3
Il rendimento di F1 ha registrato
una media e una varianza
superiore a quello di F2
Si può concludere che F1
rappresenta un investimento più
rischioso rispetto a F2?
Le due medie hanno un ordine di
grandezza diverso
la variabilità si confronta con CV
A F1 è associata una variabilità (volatilità) più bassa
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
26
Omogeneità ed eterogeneità
Sono aspetti della variabilità di un carattere
qualitativo
• Eterogeneità nulla (o massima
omogeneità) → Il carattere assume
un’unica modalità (tutte le unità del
collettivo presentano quella modalità)
• Eterogeneità massima (o minima
omogeneità) → Il carattere presenta tutte
le modalità e a ciascuna di esse è
associata la stessa frequenza
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
27
Eterogeneità
Eterogeneità nulla
(tutte le unità hanno la
stessa modalità)
Eterogeneità massima
(a ciascuna modalità è
associata la stessa
frequenza)
Mod.
Freq.
rel.
a
1
Mod.
Freq.
rel.
a1
1/k
a2
1/k
…
ak
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
1/k
28
Indice di eterogeneità
Mod. Freq.
a1
n1
Freq.
rel.
f1
a2
n2
f2
aj
nj
fj
aK
nK
fK
Indice di
eterogeneità di Gini
K
E1  1   fj2
j1
0  E1 
K 1
K
Indice relativo di
eterogeneità di Gini
E1
K
e1 
 E1
K 1
K 1
K
0  e1  1
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
29
Eterogeneità dell’ubicazione
dei punti vendita
Ubicazione
del p.v.
Centro
F. ass.
(nj)
4
F. rel.
(fj)
0,45
Semicentro
Periferia
2
3
0,22
0,33
Totale
9
1,00
K
E1  1   fj2  1  0,36  0,64
j1
0,64
e1 
 0,96
0,67
fj2
0,20
0,05
0,11
0,36
K 1 2
0  E1 
  0,67
K
3
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
30
Eterogeneità dell’ubicazione
dei punti vendita
C’è un elevato grado di eterogeneità
La distribuzione osservata si avvicina a quella che si
avrebbe nella situazione di massima eterogeneità
Distr. osservata
Ubicazione
del p.v.
Distr. con la max eterog.
F. ass.
(nj)
F. rel. (fj)
F. ass.
(nj)
F. rel.
(fj)
Centro
4
0,45
3
0,33
Semicentro
2
0,22
3
0,33
Periferia
3
0,33
3
0,33
Totale
9
1,00
9
1,00
Corso di Statistica a.a. 2014-2015 – DEIM, Univ.TUSCIA - Prof.ssa Laureti
31