Statistica Descrittiva
20
16
frequenza relativa
Obiettivi della lezione:
Media
Mediana, Moda
Asimmetria, kurtosi
Quantili e percentili
• devianza
• varianza
• deviazione standard
• intervallo interquartile
dispersione di una
distribuzione
12
8
dispersione
4
posizione
0
45
46.5
48
49.5
51
52.5
54
55.5
57
cm
dispersione di una distribuzione
Ore di
frequenza
sonno Maschi Femmine
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
3
3
7
11
8
4
2
1
-
3
6
7
8
5
3
1
1
1
1
1
1
1
1
Usando SOLO le medie possiamo
ingannarci nel confrontare i caratteri
di due gruppi di individui.
Diamo un'occhiata alla distribuzione
di frequenza della durata di sonno
indotto da un anestetico in un
campione di 40+40 pazienti.
Ad esempio , sappiamo che le donne
sono notoriamente diverse dagli uomini
sotto molti aspetti
dispersione di una distribuzione
Il periodo medio di sonno per le donne
risulta di 5 ore così come per gli uomini
Se ci soffermiamo solo sulle medie potremmo concludere che le
donne hanno una durata di sonno uguale a quello dei maschi.
Per facilitare i confronti riportiamo i dati in grafico.
15
14
13
Maschi
frequenza assoluta
12
11
Femmine
10
9
8
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10
11
DURATA DEL SONNO INDOTTO
12
13
14
15
calcolo della media e della varianza ( dati in classi )
Nell'esempio della lunghezza dei neonati:
xi
f(xi)
45.0
46.5
48.0
49.5
51.0
52.5
54.0
55.5
57.0
2
5
7
14
16
9
5
1
1
60
xi f(xi)
( xi  x ) ( xi  x )2
90.0
232.5
336.0
693.0
816.0
472.5
270.0
55.5
57.0
3022.5
-5.375
-3.875
-2.375
-0.875
0.625
2.125
3.625
5.125
6.625
28.891
15.016
5.641
0.766
0.391
4.516
13.141
26.266
43.890
( xi  x )2 f ( xi )
57.781
75.078
39.484
10.719
6.250
40.641
65.703
26.266
43.890
365.812
xi 2
2025.00
2162.25
2304.00
2450.25
2601.00
2756.25
2916.00
3080.25
3249.00
xi 2 f ( xi )
4050.00
10811.25
16128.00
34303.50
41616.00
24806.25
14580.00
3080.25
3249.00
152624.25
Media = 3022.5/60 = 50.375
D = (45.0-50.375)2 2 + (46.5-50.375)25+...+ (57.0-50.375)2 1 = 365.812
D = 152624.25 - (3022.5)2/60 = 152624.25 - 152258.44
Var= 365.812/59 =6.2
Deviazione standard = 2.49
= 365.813
Istogramma dei dati
20
20
frequenza relativa
ISTOGRAMMA
16
16
12
12
centro della
classe
8
8
4
4
0
0
45
•
POLIGONO DI
FREQUENZA
46.5
48
49.5
esempio della lunghezza dei neonati:
51
52.5
54
55.5
57
cm
Torniamo all’esempio del sonno
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Σ
f(xi)
4
9
10
15
16
11
5
3
2
0
1
1
1
1
1
80
xi 2
1
4
9
16
25
36
49
64
81
100
121
144
169
196
225
xi  f ( xi )
4
18
30
60
80
66
35
24
18
0
11
12
13
14
15
400
xi 2  f ( xi )
4
36
90
240
400
396
245
192
162
0
121
144
169
196
225
2620
( xi  x ) ( xi  x )2  f ( xi )
-4
64
-3
81
-2
40
-1
15
0
0
1
11
2
20
3
27
4
32
5
0
6
36
7
49
8
64
9
81
10
100
620
Media = 400/80 = 5
Devianza= 620 ; Varianza=Devianza/(N-1)= 620/79 = 7.848
Deviazione standard= 2.801
Media
5
18
Varianza
7.848101
16
dev. Stand.
2.801446
asimm.
1.456178
Kurtosi
2.897833
Mediana
5
quartile 1
3
quartile 3
6
0.25
0.2
0.1875
14
0.2
12
0.15
10
0.1375
soggetti
0.125
0.1125
8
percent
0.1
6
0.0625
4
0.05
0.05
2
0.0375
0.025
0
0
1
2
3
4
5
6
7
8
9
ore di sonno
10
0.0125
0.0125
0.0125
0.0125
0.0125
0
11
12
13
14
15
scarto semplice medio
Dato un insieme di n valori:
x1 , x2 ,  xn
detta
x
la loro media aritmetica e
| x1  x | | x2  x |
...
| xn  x |
i valori assoluti degli scarti,
si chiama scarto semplice medio (assoluto) la media
aritmetica dei valori assoluti degli scarti semplici di ciascun
dato x dalla media aritmetica x
la varianza
Si definisce varianza di una distribuzione statistica la media
aritmetica dei quadrati degli scarti dalla media.
x1     x 2  


2

2
2
 ...   x N  
N
2
Si definisce scarto quadratico medio la radice quadrata
della varianza.
 
2
la deviazione standard
N
Per i dati singoli =>
 (xi   )
2
i=1
N
Questo numero rappresenta una misura della deviazione dei valori
dalla media. Esso ci dice come i valori tendano a disperdersi intorno
alla loro media: se la deviazione standard è piccola, indica un fitto
addensamento dei valori intorno alla loro media; se è grande indica la
presenza di valori molto lontani dalla media.
m
 (xi   )2  f ( xi )
Per i dati raggruppati in classe =>
i=1
m
 f ( xi )
i 1
Stima della Deviazione standard
N
stima in un campione =>
 (xi  x )
2
i=1
N-1
m
 (xi  x )2  f ( xi )
Per dati raggruppati in classe =>
i=1
m
 f ( xi )  1
i 1
m
dove
 f ( xi )  N
i 1
Deviazione standard
ds=5.5
media
IV = 15-1 = 14
IV = 15-1 = 14
d.s = 3.6
media
IV = 15-1 = 14
d.s = 4.4
d.s = 2.7
IV = 15-1 = 14
l'intervallo interquartile
Un indice di dispersione di uso comune è l'intervallo interquartile, dato
dalla differenza tra 3° e 1° quartile (cioè tra 75° e 25° centile): tale
intervallo contiene la metà dei valori inclusi nel campione,
indipendentemente dalla forma della distribuzione della variabile.
100
3° quartile
F(x)
75
mediana
50
intervallo
interquartile
1° quartile
25
0
47.25
48.75
50.25
51.75
53.25
54.75
56.25
57.75
59.25
cm
60.75
Sommario della statistica descrittiva
Obiettivi della lezione:
• media
• mediana
• moda
• percentili
• intervallo di variazione
• devianza
• varianza
• deviazione standard
• intervallo interquartile
• Indice di simmetria
• Coefficiente di variazione
La deviazione standard è una quantità utile per effettuare
confronti.
ESEMPIO: Come confrontare il vostro peso con quello di altre persone
della vostra età?
Supponiamo che uno di voi pesi 4 kg oltre la media dei soggetti della
sua età: ci sono molti altri, della stessa età, con un peso maggiore,
oppure egli è un piccolo gigante?
Bisogna conoscere la deviazione standard dei pesi dei ragazzi di quella
età, prima di fare un confronto con il peso degli altri.
Supponiamo che il peso medio dei ragazzi di quell'età sia 45 kg e che
la deviazione standard sia 2 kg:
… allora un peso di 49 kg è sopra la media di due deviazioni standard.
Approfondimento:
rivediamo alcune formule ed
introduciamo le nozioni
• di asimmetria (skewness) e
• di curtosi
Principali indici statistici
I grafici finora analizzati ci danno informazioni qualitative; possiamo
quantificarle ricorrendo ai seguenti indici.
Siano x1 , x2 ,..., xn n osservazioni numeriche
MODA
di posizione
MEDIANA
MEDIA
SCARTO QUADRATICO MEDIO
INDICI
di dispersione
VARIANZA
RANGE
di forma
ASIMMETRIA (SKEWNESS)
CURTOSI ( KURTOSIS)
Indici di posizione:
moda
media
E' definita come il valore che ha la frequenza più alta.
E' quel valore che corrisponde alla somma di tutti i
valori diviso il numero dei valori stessi.
n
X
mediana
X
i 1
n
i
dove:
Xi = esito i-ma misura
n = numero dei dati
(dimensione del campione)
E' quel valore al di sotto del quale cadono la metà dei
valori campionari.
Gli indici di posizione indicano il valore attorno al quale i dati del campione
sono posizionati
Mi interessa la dispersione dei dati intorno a tale valore
N.B. NELLA DISTRIBUZIONE NORMALE
MEDIA= MODA = MEDIANA
Indici di dispersione:
xmax -xmin
n
1
| xi -  |

1
n
n
1
2
(
x

)
1 i
n
1
n
2
( xi - x )

1
n 1
1
n
2
(
x
x
)
 i
n 1 1
range (intrevallo di variazione)
scarto medio assoluto
media dei quadrati degli scarti
varianza campionaria
deviazione standard campionaria
p_esimo quantile: si considera np
per [ 0 ≤ p ≤1 ]
Se np non è intero, considero k l’intero successivo e il p_esimo quantile è xk
Se np = k è intero, il p_esimo quantile è (xk+ xk+1)/2
Q1=primo quartile
Q2=secondo quartile
Q3=terzo quartile
=25° percentile
=50° percentile =mediana
=75° percentile
Media e varianza:
Media uguale
Deviazione Standard Diversa
Istogramma
80
70
60
50
40
30
20
10
0
Frequenza
Frequenza
200
150
100
Frequenza
50
9
6
3
0
8
3,
Media=2
Varianza=4
-3
2
3,
Classe
-6
6
4
1,
2,
8
0,
2
2
0
0,
Frequenza
Istogramma
Classe
Media=2
Varianza=1.33
Indici di forma
 ( xi   )
n
3
3
INDICE DI ASIMMETRIA (Skewness)
>0 coda a destra
<0 coda a sinistra
=0 simmetrica
n
(x
i 1
i
 )
n
4
4
CURTOSI
Misura il grado di ripidezza della distribuzione
>3 leptocurtica
=3 distribuzione normale (mesocurtica)
<3 platicurtica
N.B. In molti software il coefficiemte di curtosi viene confrontato con il valore 0
di di forma
di dispersione
di posizione
•media:
Indici: Schema riassuntivo
x

x
i
i
N
•moda: punto di max della distribuzione
•mediana: valore sotto al quale cadono la metà dei valori campionari. Si
dispongono i dati in ordine crescente e si prende quello che occupa la posizione
centrale (N dispari) o la media dei 2 valori in posizione centrale (N pari)
•varianza
•deviazione standard
•range
s2 
i 
s
xi  x

2
N 1
>0 coda a ds
R  xmax  xmin
•skewness (coeff. di asimmetria)
 xi  x 
i   


N
<0 coda a sin
3
=0 simmetrica
 x x
•curtosi: misura quanto la distribuzione è appuntita i  i 
  
<3 poco appuntita
>3 molto appuntita
N
4