Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Esercitazione 6
Statistica
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Alfonso Iodice D’Enza
[email protected]
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
Università degli studi di Cassino
A. Iodice ()
Esercitazione 6
Statistica
1 / 19
Outline
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
1
La forma di una distribuzione
2
Indici di asimmetria
3
Il box-plot
4
box-plot e valori anomali
5
Confronto grafico istogramma/ box-plot
6
Indice di asimmetria per variabili qualitative ordinate
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
2 / 19
La forma di una distribuzione
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
Due distribuzioni aventi stessa posizione e variabilità possono
differire per forma. In altre parole, la forma dipende dal valore
delle modalità più piccole (o più grandi) del valore centrale
della distribuzione.
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
3 / 19
La forma di una distribuzione
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Due distribuzioni aventi stessa posizione e variabilità possono
differire per forma. In altre parole, la forma dipende dal valore
delle modalità più piccole (o più grandi) del valore centrale
della distribuzione.
Aspetti che caratterizzano la forma di una distribuzione sono
asimmetria
Confronto
grafico
istogramma/
box-plot
curtosi
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
3 / 19
La forma di una distribuzione
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Due distribuzioni aventi stessa posizione e variabilità possono
differire per forma. In altre parole, la forma dipende dal valore
delle modalità più piccole (o più grandi) del valore centrale
della distribuzione.
Aspetti che caratterizzano la forma di una distribuzione sono
asimmetria
Confronto
grafico
istogramma/
box-plot
curtosi
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
3 / 19
Asimmetria
Esercitazione
6
distribuzione simmetrica rettangolare
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
4 / 19
Asimmetria
Esercitazione
6
distribuzione simmetrica campanulare
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
4 / 19
Asimmetria
Esercitazione
6
distribuzione asimmetrica positiva
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
4 / 19
Asimmetria
Esercitazione
6
distribuzione asimmetrica negativa
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
4 / 19
Esercizio: confronto tra distribuzioni
Esercitazione
6
A. Iodice
Si considerino tre studenti, X, Y e Z che nei primi 9 esami hanno riportato i
seguenti voti:
X
18
20
21
23
25
26
27
27
30
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
Y
22
23
24
24
25
27
29
29
30
Z
21
22
23
24
25
26
27
28
29
misurare la tendenza centrale, la variabilità e la forma della distribuzione
dei voti di ciascun studente;
utilizzare un opportuno strumento grafico per confrontare le tre
distribuzioni.
A. Iodice ()
Esercitazione 6
Statistica
5 / 19
Indici di asimmetria
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
indice normalizzato di asimmetria A
Tale indice la versione normalizzata della differenza tra media e
mediana, dal momento che σ risulta essere in qualunque caso
tale che σ ≥ µ − M e
Il box-plot
A=
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
µ − Me
σ
Tale indice varia nell’intervallo [−1, 1].
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
6 / 19
Indici di asimmetria
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
indice normalizzato di asimmetria A
Tale indice la versione normalizzata della differenza tra media e
mediana, dal momento che σ risulta essere in qualunque caso
tale che σ ≥ µ − M e
Il box-plot
A=
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
µ − Me
σ
Tale indice varia nell’intervallo [−1, 1].
se A > 0 allora la distribuzione asimmetrica positiva
Indice di
asimmetria
per variabili
qualitative
ordinate
se A < 0 allora la distribuzione asimmetrica negativa
se A = 0 allora la distribuzione simmetrica
A. Iodice ()
Esercitazione 6
Statistica
6 / 19
Indici di asimmetria
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Standardizzazione di una variabile
L’operazione di standardizzazione consiste nel sottrarre a
ciascuna modalita xi la media µ, dividendo poi per lo scarto
quadratico medio σ. Tale operazione consente il confronto tra
distribuzioni con medie e varianze diverse.
Confronto
grafico
istogramma/
box-plot
zi =
xi − µ
σ
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
7 / 19
Indici di asimmetria
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
indice di asimmetria di Fisher γ
n
n
i=1
i=1
1X
1X
γ=
(zi )3 =
n
n
Indici di
asimmetria
Il box-plot
xi − µ
σ
3
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
8 / 19
Indici di asimmetria
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
indice di asimmetria di Fisher γ
n
n
i=1
i=1
1X
1X
γ=
(zi )3 =
n
n
Indici di
asimmetria
Il box-plot
xi − µ
σ
3
box-plot e
valori anomali
se γ > 0 allora la distribuzione asimmetrica positiva
Confronto
grafico
istogramma/
box-plot
se γ < 0 allora la distribuzione asimmetrica negativa
se γ = 0 allora la distribuzione simmetrica
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
8 / 19
Esercizio: confronto tra distribuzioni
Esercitazione
6
Si considerino tre studenti, X, Y e Z che nei primi 9 esami hanno riportato i seguenti voti:
misurare la tendenza centrale, la variabilità e la forma della distribuzione dei voti di ciascun studente;
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
xi
18
20
21
23
25
26
27
27
30
217
Confronto
grafico
istogramma/
box-plot
yi
22
23
24
24
25
27
29
29
30
233
P
µx =
Indice di
asimmetria
per variabili
qualitative
ordinate
zi
21
22
23
24
25
26
27
28
29
225
(xi )
n
rP
σx =
rP
σy =
rP
σz =
A. Iodice ()
scxi = (xi − µx )2
37.346
16.901
9.679
1.235
0.790
3.568
8.346
8.346
34.679
120.89
= 217
= 24.11, µy =
9
(xi −µx )2
n
(yi −µy )2
n
(zi −µz )2
n
=
=
=
q
120.89
9
q
68.89
9
q
60
9
=
=
=
√
scyi = (yi − µy )2
15.123
8.346
3.568
3.568
0.790
1.235
9.679
9.679
16.901
68.89
P
(yi )
n
√
√
sczi = (zi − µz )2
16
9
4
1
0
1
4
9
16
60
= 233
= 25.89, µz =
9
P
(zi )
n
= 225
= 25
9
13.43 = 3.66,
7.65 = 2.76,
6.67 = 2.58
Esercitazione 6
Statistica
9 / 19
Indici di asimmetria
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
calcolo dell’indice normalizzato di asimmetria A
A=
Indici di
asimmetria
µ − Me
σ
Il box-plot
box-plot e
valori anomali
Ax =
Confronto
grafico
istogramma/
box-plot
Ay =
Az =
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
µx −M ex
σx
µy −M ey
σy
µz −M ez
σz
=
24.11−25
3.66
25.89−25
2.76
=
25−25
2.58
=
= −0.242
= 0.321
=0
Esercitazione 6
Statistica
10 / 19
Indice di asimmetria di Fisher γ
Esercitazione
6
calcolo indice γ
A. Iodice
γ =
La forma di
una
distribuzione
Sx
-1.67
-1.12
-0.85
-0.30
0.24
0.52
0.79
0.79
1.61
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
P
γz =
A. Iodice ()
Sz
-1.55
-1.16
-0.77
-0.39
0.00
0.39
0.77
1.16
1.55
= −1.41
= −0.156
9
(yi −µy )
n
= 1.604
= 0.178
9
(zi −µz )
n
= 0
=0
9
P
P
Sy
-1.41
-1.04
-0.68
-0.68
-0.32
0.40
1.12
1.12
1.49
(xi −µx )
n
γx =
γy =
n
n 1 X
xi − µ 3
1 X
3
(zi ) =
n i=1
n i=1
σ
Esercitazione 6
3
Sx
-4.64
-1.41
-0.61
-0.03
0.01
0.14
0.49
0.49
4.15
-1.41
3
Sy
-2.78
-1.14
-0.32
-0.32
-0.03
0.06
1.42
1.42
3.28
1.6
3
Sz
-3.72
-1.57
-0.46
-0.06
0.00
0.06
0.46
1.57
3.72
0
Statistica
11 / 19
Il box-plot
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Il grafico a scatola (box-plot) è una particolare rappresentazione
di una distribuzione: gli elementi utilizzati per costruire la
scatola sono i quantili e gli estremi della distribuzione.
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
12 / 19
Confronto grafico tra distribuzioni: box-plot
Esercitazione
6
confrontare graficamente le tre distribuzioni
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
minx = 18, maxx = 30, Q1 = 21, Q2 = 25, Q3 = 27
miny = 22, maxy = 30, Q1 = 24, Q2 = 25, Q3 = 27
minz = 21, maxz = 29, Q1 = 23, Q2 = 25, Q3 = 29
A. Iodice ()
Esercitazione 6
Statistica
13 / 19
Costruzione di un box plot
Esercitazione
6
A. Iodice
Si consideri la seguente distribuzione di frequenze
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
14 / 19
Costruzione di un box plot
Esercitazione
6
La rappresentazione evidenzia la presenza di un valore anomalo
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
14 / 19
Costruzione di un box plot
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
14 / 19
Costruzione di un box plot
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
14 / 19
Costruzione di un box plot
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
I valori anomali, che quindi non parteciano alla costruzione
della scatola, vengono determinati dal confronto con il campo
di variazione interquartile. In particolare vengono considerate
due soglie:
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
15 / 19
Costruzione di un box plot
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
I valori anomali, che quindi non parteciano alla costruzione
della scatola, vengono determinati dal confronto con il campo
di variazione interquartile. In particolare vengono considerate
due soglie:
Q1 − 1, 5 × (Q3 − Q1 )
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
rappresenta il valore al di sotto del quale una modalità
considerata outlier
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
15 / 19
Costruzione di un box plot
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
I valori anomali, che quindi non parteciano alla costruzione
della scatola, vengono determinati dal confronto con il campo
di variazione interquartile. In particolare vengono considerate
due soglie:
Q1 − 1, 5 × (Q3 − Q1 )
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
rappresenta il valore al di sotto del quale una modalità
considerata outlier
Q3 + 1, 5 × (Q3 − Q1 )
rappresenta il valore al di sopra del quale una modalità
considerata outlier
A. Iodice ()
Esercitazione 6
Statistica
15 / 19
Box plot e istogramma
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
16 / 19
Box plot e istogramma
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
16 / 19
Box plot e istogramma
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
16 / 19
Box plot e istogramma
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
16 / 19
Box plot e istogramma
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Indici di
asimmetria
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Indice di
asimmetria
per variabili
qualitative
ordinate
A. Iodice ()
Esercitazione 6
Statistica
16 / 19
Indice di asimmetria per variabili qualitative ordinate
Esercitazione
6
A. Iodice
La forma di
una
distribuzione
Nel caso di variabili qualitative ordinali, è possibile misurare l’asimmetria attraverso un indice costruito sulla
base della dispersione D.
L’indice D
L’indice D per il calcolo della dispersione in variabili qualitative ordinali si basa sulle frequenze cumulate Fj
e retrocumulate RFj , con j = 1, . . . , k, dove k è il numero di modalità della variabile. Ricordando che la
frequenza relativa cumulata Fj e quella retrocumulata RFj della j-esima modalità sono date
rispettivamente da:
Indici di
asimmetria
Il box-plot
Fj = f1 + f2 + . . . + fj e RFj = fj + fj+1 + . . . + fK ;
L’indice D è il seguente:
box-plot e
valori anomali
D=
k
X
Fj (1 − Fj ) + RFj (1 − RFj )
j=1
Confronto
grafico
istogramma/
box-plot
indice di asimmetria A
Indice di
asimmetria
per variabili
qualitative
ordinate
Tale indice si basa sul confronto tra la dispersione che caratterizza la distribuzione delle modalità che si
trovano alla sinistra di quella centrale e quella delle variabili alla destra di quelle centrali.
A=
Dd − Ds
Dd + Ds
dove Dd è la dispersione a dx e Ds quella a sx
A. Iodice ()
Esercitazione 6
Statistica
17 / 19
Indice di asimmetria per variabili qualitative ordinate
Esercitazione
6
t.studio
analf abeta
lic.elementare
lic.media
diploma
laurea
tot
A. Iodice
La forma di
una
distribuzione
absF reqs
5
5
3
3
4
20
relF reqs
0.25
0.25
0.15
0.15
0.2
1.00
Fj
0.25
0.50
0.65
0.80
1.00
RFj
1.00
0.75
0.50
0.35
0.20
Indici di
asimmetria
Il box-plot
Esempio di calcolo dell’indice A
box-plot e
valori anomali
Per effettuare il calcolo dell’indice bisogna individuare le modalità della parte destra della distribuzione e
quelle della parte sinistra. Poichè N è pari, N
= 10. Dunque le modalità della parte sinistra sono {1, 2},
2
quelle della parte destra sono {3, 4, 5}.
2
X
Ds =
Fj (1 − Fj ) + RFj (1 − RFj ) =
Confronto
grafico
istogramma/
box-plot
j=1
= [0.25(1 − 0.25) + 1(1 − 1)] + [0.5(1 − 0.5) + 0.75(1 − 0.75)] = 0.625
Indice di
asimmetria
per variabili
qualitative
ordinate
Dd =
5
X
Fj (1 − Fj ) + RFj (1 − RFj ) =
j=3
= [0.65(1 − 0.65) + 0.5(1 − 0.5)] + [0.8(1 − 0.8) + 0.35(1 − 0.35)] +
+ [1(1 − 1) + 0.2(1 − 0.2)] = 1.025
A. Iodice ()
Esercitazione 6
Statistica
18 / 19
Indice di dispersione per variabili qualitative ordinate
Esercitazione
6
A. Iodice
t.studio
analf abeta
lic.elementare
lic.media
diploma
laurea
tot
La forma di
una
distribuzione
Indici di
asimmetria
absF reqs
5
5
3
3
4
20
relF reqs
0.25
0.25
0.15
0.15
0.2
1.00
Fj
0.25
0.50
0.65
0.80
1.00
RFj
1.00
0.75
0.50
0.35
0.20
Il box-plot
box-plot e
valori anomali
Confronto
grafico
istogramma/
box-plot
Esempio di calcolo dell’indice A
Per effettuare il calcolo dell’indice bisogna individuare le modalità della parte destra della distribuzione e
= 10. Dunque le modalità della parte sinistra sono {1, 2},
quelle della parte sinistra. Poichè N è pari, N
2
quelle della parte destra sono {3, 4, 5}.
Indice di
asimmetria
per variabili
qualitative
ordinate
A=
A. Iodice ()
Dd − Ds
Dd + Ds
=
1.025 − 0.625
1.025 + 0.625
Esercitazione 6
=
0.4
1.65
= 0.24
Statistica
19 / 19