MISURE DI SINTESI
54
MISURE DESCRITTIVE DI SINTESI
1. MISURE DI TENDENZA CENTRALE
2. MISURE DI VARIABILITÀ
30
0
µ
Le due distribuzioni hanno uguale tendenza centrale, ma
diversa variabilità.
30
0
Le due distribuzioni hanno diversa tendenza centrale, ma
uguale variabilità.
55
MISURE DI TENDENZA
CENTRALE
56
MISURE DI TENDENZA CENTRALE
Un insieme di dati numerici può essere
sintetizzato da alcuni valori tipici, che indicano la
posizione sull’asse orizzontale di punti importanti
della distribuzione studiata
“Punti centrali”
MISURE di TENDENZA
CENTRALE
MEDIA (coordinata orizzontale del baricentro)
MODA (coordinata orizzontale del punto più alto)
MEDIANA
57
MEDIA CAMPIONARIA
n
x=
∑x
i =1
i
n
SOMMA delle osservazioni di una variabile
divisa per il numero totale di osservazioni.
NB:
x indica la media campionaria;
µ indica la media della popolazione.
Esempio
Date le età, in anni, di 5 soggetti si calcoli l’età
media.
19 21 18 22 28
19 + 21 + 18 + 22 + 28 108
x=
=
= 21 .6 anni
5
5
58
MEDIA PESATA
Età (anni) = xi
18
19
20
21
22
23
24
25
fi
xifi
18 · 2 = 36
19 · 25 = 475
20 · 30 = 600
21 · 22 = 462
22 · 20 = 440
23 · 12 = 276
24 · 10 = 240
25 · 8 = 200
2729
2
25
30
22
20
12
10
8
129
n
x=
∑x
i =1
i
fi
n
n
x=
∑x
i =1
n
i
fi
2729
=
= 21 . 155 anni
129
59
MEDIA PER DATI RAGGRUPPATI
IN CLASSI
Età (anni)
[15-20)
[20-25)
[25-30)
[30-35)
[35-40)
xk
17.5
22.5
27.5
32.5
37.5
fk
10
15
30
12
11
78
xkfk
17.5 · 10 = 175
22.5 · 15 = 337.5
27.5 · 30 = 825
32.5 · 12 = 390
37.5 · 11 = 412.5
2140
K
x=
∑x f
k =1
k
k
n
xk = valore centrale della classe =
= media degli estremi di classe
Si assume che i soggetti appartenenti alla stessa classe
abbiano tutti uguale altezza, calcolata come media degli
estremi di classe.
fk
= frequenza di classe
K
x =
∑ x f
k
k =1
n
k
2140
=
78
= 27 . 44 anni
60
PROPRIETÀ DELLA MEDIA
• Non corrisponde necessariamente ad un valore
che la variabile studiata può assumere;
• è unica: per un dato insieme di dati vi è una sola
media;
• è facile da calcolare;
• usa tutta l’informazione contenuta nei dati (tutti
i dati concorrono al calcolo della media);
• è molto sensibile agli OUTLIERS*;
• è impiegata in molti test statistici inferenziali.
*Outlier = valore estremo, che giace molto perifericamente
rispetto alla restante distribuzione dei dati.
61
MEDIANA
È l’osservazione che divide a metà la serie
ordinata delle osservazioni.
Per individuare la mediana occorre:
• ordinare (in senso crescente o decrescente) le
osservazioni;
• determinare la posizione della mediana con la
seguente formula:
posizione della mediana = (n+1)/2
n = no di osservazioni
• individuare la mediana come l’osservazione che
occupa la posizione precedentemente calcolata.
62
Distinguiamo 2 casi:
1. Le osservazioni sono in numero dispari
Età (in anni) di 9 soggetti:
42 28 28 61 31 23 50 34 32
Posizione della mediana
(n+1)/2=10/2=5
Ordino le osservazioni
23 28 28 31 32 34 42 50 61
La mediana è 32 anni perché occupa la 5a posizione.
2. Le osservazioni sono in numero pari
Età (in anni) di 10 soggetti:
42 28 28 61 31 23 50 34 32 37
Posizione della mediana
(n+1)/2=11/2=5.5
Ordino le osservazioni
23 28 28 31 32 34 37 42 50 61
La mediana è 33 anni (media aritmetica dei valori
che occupano la 5a e la 6a posizione).
63
Esempio
Calcolare la mediana dei dati in tabella:
Età (anni) = xi
18
19
20
21
22
23
24
25
fi
Frequenza cumulata
2
25
30
22
20
12
10
8
2
27
57
79
99
111
121
129
129
Posizione della mediana
(129+1)/2=65
La mediana occupa la 65a posizione.
Dalla colonna delle frequenze cumulate risulta
che:
18 anni → 1a-2a osservazione
19 anni → 3a-27a osservazione
20 anni →28a-57a osservazione
21 anni→58a-79a osservazione
La mediana è 21 anni, perché quando tutti i 129 dati
vengono ordinati, 21 anni occupa la posizione
centrale.
64
DATI RAGGRUPPATI IN CLASSI:
LA CLASSE MEDIANA
Età (anni)
[15-20)
[20-25)
[25-30)
[30-35)
[35-40)
fk Frequenza cumulata
10
10
15
25
30
55
12
67
11
78
78
Posizione della mediana (n+1)/2=(78+1)/2 = 39,5
consideriamo la 39a e la 40a posizione
La classe che contiene la 39a e la 40a
osservazione è la classe mediana.
Dalla colonna delle frequenze cumulate risulta
che:
1a classe: [15-20)→ 1a-10a osservazione
2a classe: [20-25)→11a-25a osservazione
3a classe: [25-30)→26a-55a osservazione
La classe [25-30) anni contiene la 39a e la 40a
osservazione e quindi è la classe mediana.
65
PROPRIETÀ DELLA MEDIANA
• È unica: per un dato insieme di dati vi è una
sola mediana;
• è facile da calcolare;
• non è influenzata dai valori estremi (stima
“robusta” di localizzazione).
66
MODA
È l’osservazione che si presenta con la massima
frequenza.
Esempio
Età (in anni) di 9 soggetti:
42 28 28 61 31 23 50 34 32
La moda è 28, perché è l’osservazione che si
presenta più frequentemente.
DATI RAGGRUPPATI IN CLASSI:
LA CLASSE MODALE
Età (anni)
[15-20)
[20-25)
[25-30)
[30-35)
[35-40)
fk
10
15
30
12
11
78
La classe modale è [25-30) anni, perché con essa
si registra la massima frequenza.
67
PROPRIETÀ DELLA MODA
• Semplicità concettuale;
30
0
10
20
30
40
50
60
70
Può essere letta direttamente dal grafico: la moda è il valore
che ha massima frequenza, cioè il valore corrispondente alla
colonna più alta.
In questo caso la moda è 40.
• a differenza di media e mediana è determinabile
anche per variabili qualitative;
• può non esistere;
• ne può esistere più di una:
1 valore modale → distribuzione unimodale;
2 valori modali → distribuzione bimodale.
68
Distribuzione unimodale
moda = 40
30
0
10
20
30
40
50
Distribuzione bimodale
60
70
moda1 = 60 moda2 = 100
60
30
0
10 40 50 60 70 80 90 100 110 120 130 140
Esempio
Distribuzione del peso in un campione casuale di 100 studenti di
cui 50 femmine e 50 maschi.
La distribuzione può essere bimodale:
2 picchi
peso più frequente nelle ♀
peso più frequente nei ♂
69
FORMA DI UNA DISTRIBUZIONE
Come la forma di una distribuzione influenza le
misure di tendenza centrale
DISTRIBUZIONE UNIMODALE
SIMMETRICA
µ= moda=mediana
Distribuzione SIMMETRICA:
le “code” hanno uguale lunghezza.
MEDIA, MODA E MEDIANA COINCIDONO
La curva è definita “a campana”.
70
DISTRIBUZIONI ASIMMETRICHE
Nelle distribuzioni ASIMMETRICHE, le cui “code”
hanno diversa lunghezza MEDIA, MODA E
MEDIANA NON COINCIDONO: in particolare, la
media tende ad essere spinta verso la coda.
La misura di tendenza centrale più appropriata per
distribuzioni molto asimmetriche è la mediana (non
influenzata dai valori estremi).
Asimmetria positiva
Asimmetria negativa
• La distribuzione è “tirata”
verso destra, verso i valori
positivi.
• La media (M) è maggiore
della mediana (Me).
• Esempio: distribuzione dei
punteggi di un test difficile.
• La distribuzione è “tirata”
verso sinistra, verso i valori
negativi.
• La media (M) è minore
della mediana (Me)
• Esempio: distribuzione dei
punteggi di un test facile.
71
MEDIA, MEDIANA E MODA sono definite sia
misure di tendenza centrale sia
MISURE DI POSIZIONE
individuano la posizione della distribuzione
sull’asse orizzontale quando questa viene
rappresentata graficamente.
Altre misure di posizione sono i QUANTILI.
72
QUANTILI
Sono un’estensione del concetto di MEDIANA
(ricordiamo che la mediana divide la serie ordinata di dati
in 2 parti, ciascuna contenente il 50% delle osservazioni).
QUARTILI sono 3 (Q1, Q2, Q3).
Dividono la serie ordinata di dati in 4 parti,
ciascuna contenente il 25% delle osservazioni.
25%
Q1
25%
Q2
25%
Q3
25%
MEDIANA
DECILI
sono 9 (D1, D2, D3, …, D9).
Dividono la serie ordinata di dati in 10 parti,
ciascuna contenente il 10% delle osservazioni.
PERCENTILI
sono 99 (P1, P2, P3,…, P99).
Dividono la serie ordinata di dati in 100 parti,
ciascuna contenente l’1% delle osservazioni.
Il calcolo dei percentili risente della limitatezza del campione:
vengono normalmente calcolati per grandi insiemi di dati.
73
QUARTILI
25%
Q1
25%
Q2
25%
Q3
25%
Q1 → Primo quartile
Valore che, nella serie ordinata dei dati, lascia prima
di sé il 25% delle osservazioni e dopo di sé il 75%.
Q2 → Secondo quartile
Valore che, nella serie ordinata dei dati, lascia sia
prima che dopo di sé il 50% delle osservazioni (vedi
mediana).
Q3 → Terzo quartile
Valore che, nella serie ordinata dei dati, lascia prima
di sé il 75% delle osservazioni e dopo di sé il 25%.
74
POSIZIONE DEI QUARTILI
Q1 = (n+1)/4
Q2 = 2(n+1)/4 =(n+1)/2
n = no di osservazioni
Q3 = 3(n+1)/4
COME INDIVIDUARE I QUARTILI
Esempio
Daniel pag.45 es. 2.6.2
I dati seguenti riportano i diametri (in cm) di neoplasie
mammarie di 20 soggetti con sarcoma:
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0
5,0 6,0 6,5 7,0 8,0 9,5 13,0
Individuare il primo, il secondo (mediana) e il terzo
quartile.
Q1
Posizione di Q1 = (20+1)/4 = 5.25
Q1 = osservazione situata in 5a posizione + 0,25 della differenza
tra le osservazioni situate in 6a e 5a posizione
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0
5,0 6,0 6,5 7,0 8,0 9,5 13,0
Q1 = 2,5 + (3-2,5)·0,25 = 2,5 + 0,5·0,25 = 2,625
75
Q2 (Mediana)
Posizione di Q2 = (20+1)/2 = 10,5
Q2 = osservazione situata in 10a posizione + 0,5 della differenza
tra le osservazioni situate in 10a e 11a posizione
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0
5,0 6,0 6,5 7,0 8,0 9,5 13,0
Q2 = 4,5 + (5-4,5)·0,5 = 4,5 + 0,5·0,5 = 4,75
Q3
Posizione di Q3=3·(20+1)/4=15.75
Q3 = osservazione situata in 15a posizione + 0,75 della differenza
tra le osservazioni situate in 15a e 16a posizione
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0
5,0 6,0 6,5 7,0 8,0 9,5 13,0
Q3= 6 + (6,5-6)·0,75 =6 + 0,5·0,75 = 6,375
76
PERCENTILI
77