Università del Piemonte Orientale Corsi di Laurea Triennale di Area

Università del Piemonte Orientale
Corsi di Laurea Triennale di Area Tecnica
Corso di Statistica e Biometria
Statistica descrittiva:
Dati numerici: statistiche di tendenza centrale e di
variabilità
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
1
In questa lezione parleremo di:
Misure di tendenza centrale e di variabilità
Media
Deviazione Standard
Coefficiente di Variazione
Media geometrica
Trasformazione logaritmica
Media calcolata su dati raggruppati
Mediana
Percentili
Diagrammi a scatola e baffi (Box Plot)
Diagrammi a punti
Moda
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
2
Media: è la più comune misura di tendenza centrale. Può
essere calcolata per variabili numeriche.
Il valore medio di una variabile in un gruppo di
osservazioni si calcola sommando il valore della variabile
per ciascuna osservazione e dividendo il risultato per il
numero di osservazioni.
n
Media = X =
∑x
i =1
i
n
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
3
sommatoria
n
Media = X =
∑x
i =1
n
i
numero di
osservazioni
La sommatoria è un operatore matematico che abbrevia in
una notazione sintetica, la somma di un certo numero (n) di
addendi.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
4
n
Media = X =
∑x
i =1
n
i
Limite superiore
della sommatoria
Limite inferiore
della sommatoria
Indice della
sommatoria
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
5
n
Media = X =
∑x
i =1
i
i-esima
osservazione
n
n
Il simbolo
∑
i =1
indica quindi la sommatoria di tutte le
osservazioni, dalla prima (i=1) all’ultima (i=n)
n
∑
= x1 + x2+ x3+ x4+ x5+…+ xn-1 + xn
i =1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
6
Quanti decimali?
Quando presentate il risultato di una media usate un
decimale in più della precisione dei dati.
Nei calcoli e nei risultati intermedi mantenete una
precisione maggiore (almeno 2 o 3 decimali in più rispetto
ai dati).
Se utilizzate un calcolatore usate la massima precisione nei
calcoli e arrotondate solo il risultato finale.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
7
Misure di dispersione e variabilità
La Devianza (dev) è la somma dei quadrati delle differenze
tra il valore della variabile e la media (scarti).
n
dev = ∑
i =1
(x − X )
2
i
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
8
La Varianza (var) è la devianza divisa per il numero di
osservazioni – 1
n
var = dev /(n − 1) =
(
∑ xi − X
i =1
)
2
(n − 1)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
9
Deviazione Standard: misura la variabilità delle
osservazioni intorno alla Media.
La Deviazione Standard (DS) è la radice quadrata della
varianza.
n
DS =
(
∑ xi − X
i =1
)
2
(n − 1)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
10
Coefficiente di Variazione (CV)
E’ il rapporto tra deviazione standard e media.
Viene espresso in percentuale.
DS
CV % =
∗ 100
x
Si usa per confrontare la variabilità in campioni di popolazioni
con medie differenti
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
11
Con XLSTATS possiamo calcolare la Media (Mean), la
Deviazione Standard (St Dev), il coefficiente di variazione
(Coeff of Var) per una variabile che si manifesta su un certo
numero (Number) di osservazioni.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
12
Media e deviazione standard Variabile = altezza - Campione = 20 soggett
xi
xi − x
1,64
1,74
1,65
1,8
1,58
1,76
1,55
1,72
1,6
1,69
1,75
1,81
1,58
1,76
1,57
1,72
1,7
1,77
1,71
1,87
-0,05850
0,04150
-0,04850
0,10150
-0,11850
0,06150
-0,14850
0,02150
-0,09850
-0,00850
0,05150
0,11150
-0,11850
0,06150
-0,12850
0,02150
0,00150
0,07150
0,01150
0,17150
33,98
(x
−x
i
)
2
0,00342
0,00172
0,00235
0,01030
0,01404
0,00378
0,02205
0,00046
0,00970
0,00007
0,00265
0,01243
0,01404
0,00378
0,01651
0,00046
0,00000
0,00511
0,00013
0,02941
Media=
33,98 / 20 =
1,699
Varianza= 0,152 / 19 = 0,008
DS=
CV%
0,008 =
0,008 *100=
0,090
5,2%
1,699
Σ (x − x) = 0,152
2
i
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
13
Media geometrica e trasformazione logaritmica
Talora la distribuzione dei dati originali è fortemente asimmetrica. Può
essere utile (i motivi saranno approfonditi in seguito) calcolare una funzione
dei dati originali tale che la sua distribuzione sia simmetrica. La funzione
usata più comunemente è il logaritmo.
Il logaritmo della media geometrica corrisponde alla media aritmetica dei
logaritmi dei dati, quindi la media geometrica coincide con l’antilogaritmo
della media aritmetica dei logaritmi dei dati.
Πxi
MG
= X1*X2*…*Xn
= (Πxi )1/n
Ln(MG)= Σ(lnxi)/ n
Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre
definire il valore da assegnare alle osservazioni con valore 0 (se ne
esistono).
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
14
Esempio
Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372
casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è
marcatamente asimmetrica.
FREQUENCY
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
0
2
5
0
5
0
0
7
5
0
Corsi di
1 1 1 1 2 2
0 2 5 7 0 2
0 5 0 5 0 5
0 0 0triennale
0 0 0
laurea
2 2 3 3 3
5 7 0 2 5
0 5 0 5 0
0 0tecnica
0 0
di0 area
3
7
5
0-
4 4 4
0 2 5
0 5 0
0 0 0di
Corso
4 5 5 5 5 6 6
7 0 2 5 7 0 2
5 0 5 0 5 0 5
0 0 0 0 Medica
0 0 0
Statistica
CORPUSCOLI
MIDPOINT
6 6 7 7
5 7 0 2
0 5 0 5
0 0 0
-0Statistica
7 7 8 8
5 7 0 2
0 5 0 5
0 0 0 0
descrittiva
8
5
0
0
8
7
5
0
9
0
0
0
9
2
5
0
9
5
0
0
9
7
5
0
15
1
0
0
0
0
Anche se in linea di principio i logaritmi possono essere calcolati in
qualunque base (diversa da 1), quelle più utilizzate sono due:
• Base 10 (logaritmi decimali o volgari); li si indica con log10 oppure più
genericamente con log
• Base e (logaritmi naturali o neperiani); li si indica con ln, più raramente
con log (quando, dal contesto, la base a cui ci si riferisce è chiara)
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
16
Esempio: calcolo dei logaritmi delle misure del dolore valutate
utilizzando una scala visiva analogica
Punteggio dolore
Frequenza
6
12
8
22
10
31
14
52
16
68
18
78
20
80
25
70
30
56
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
17
Punteggio dolore
ln(punteggio dolore)
Log(punteggio dolore)
f
6
1,79
1,26
12
8
2,08
0,90
22
10
2,30
1,00
31
14
2,64
1,15
52
16
2,77
1,20
68
18
2,89
1,26
78
20
3,00
1,30
80
25
3,22
1,40
70
30
3,40
1,48
56
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
18
Esempio
Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372
casi di tumore polmonare positivi per la ricerca dei corpuscoli. La distribuzione è
marcatamente asimmetrica.
FREQUENCY
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
0
2
5
0
5
0
0
7
5
0
Corsi di
1 1 1 1 2 2
0 2 5 7 0 2
0 5 0 5 0 5
0 0 0triennale
0 0 0
laurea
2 2 3 3 3
5 7 0 2 5
0 5 0 5 0
0 0tecnica
0 0
di0 area
3
7
5
0-
4 4 4
0 2 5
0 5 0
0 0 0di
Corso
4 5 5 5 5 6 6
7 0 2 5 7 0 2
5 0 5 0 5 0 5
0 0 0 0 Medica
0 0 0
Statistica
CORPUSCOLI
MIDPOINT
6 6 7 7
5 7 0 2
0 5 0 5
0 0 0
-0Statistica
7 7 8 8
5 7 0 2
0 5 0 5
0 0 0 0
descrittiva
8
5
0
0
8
7
5
0
9
0
0
0
9
2
5
0
9
5
0
0
9
7
5
0
19
1
0
0
0
0
Distribuzione di frequenza del logaritmo della concentrazione di
corpuscoli dell’amianto in 372 casi di tumore polmonare positivi per
tale indicatore. La distribuzione è simmetrica.
FR
EQ
U
EN
C
Y
50
40
30
20
10
0
0
.
0
0
00
. .
25
50
01
. .
70
50
11
. .
25
50
12
. .
70
50
22
. .
25
50
23
. .
70
50
33
. .
25
50
34
. .
70
50
44
. .
25
50
45
. .
70
50
55
. .
25
50
56
. .
70
50
66
. .
25
50
67
. .
70
50
77
. .
25
50
78
. .
70
50
88
. .
25
50
89
. .
70
50
99
. .
25
50
91
. 0
7.
50
0
11
00
. .
25
50
11
01
. .
70
50
11
11
. .
25
50
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
L_c M
ID
PO
IN
T
11
12
. .
70
50
11
22
. .
25
50
11
23
. .
70
50
11
33
. .
25
50
20
11
34
. .
70
50
Media per dati raggruppati
Possiamo calcolare una media partendo da una distribuzione di
frequenza?
Colesterolo (mg/100ml)
f
80<=x<120
13
120<=x<160
150
160<=x<200
442
200<=x<240
299
240<=x<280
115
280<=x<320
34
320<=x<360
9
360<=x<400
5
frequenza assoluta della
classe, cioè numero di
osservazioni che ricadono
all’interno dell’intervallo
considerato
Possiamo calcolare un valore medio se possiamo stimare la
distribuzione dei soggetti compresi in ciascuna classe di valori.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
21
Se le classi non sono troppo ampie, è ragionevole pensare che il
valor medio in ciascuna classe sia collocato al centro dell’intervallo
che la costituisce
Colesterolo (mg/100ml)
Valore centrale della classe
f
80<=x<120
100
13
120<=x<160
140
150
160<=x<200
180
442
200<=x<240
220
299
240<=x<280
260
115
280<=x<320
300
34
320<=x<360
340
9
360<=x<400
380
5
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
22
Con questa assunzione, si possono considerare gli f soggetti
in una data classe come soggetti con lo stesso valore x della
variabile e quindi applicare una semplice estensione della
formula della media.
n
Media = X =
∑fx
i =1
n
i i
∑f
i =1
i
valore centrale della
classe i-esima
Frequenza assoluta
della classe i-esima
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
23
Colesterolo (mg/100ml)
Valore x (centrale
della classe)
f
x*f
80<=x<120
100
13
1300
120<=x<160
140
150
21000
160<=x<200
180
442
79560
200<=x<240
220
299
65780
240<=x<280
260
115
29900
280<=x<320
300
34
10200
320<=x<360
340
9
3060
360<=x<400
380
5
1900
Totale
1067 212700
Media = 212700 / 1067 = 199,3
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
24
Mediana
Dato un insieme di osservazioni ordinate per valori crescenti
della variabile, la mediana corrisponde al valore
dell’osservazione che occupa la posizione centrale della
distribuzione.
Se il numero delle osservazioni è dispari la mediana
corrisponderà al valore che occupa la posizione centrale della
distribuzione.
Se il numero di osservazioni è pari abbiamo due osservazioni
centrali: la mediana sarà ottenuta calcolando la media del
valore di tali (due) osservazioni centrali.
Media dei valori corrispondenti alle POSIZIONI: N/2; N/2 +1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
25
La media e la mediana coincidono nel caso di
distribuzioni simmetriche.
Se la distribuzione è asimmetrica la media è
maggiormente influenzata dall’asimmetria e dai valori
estremi.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
26
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
27
Esempio di calcolo della mediana
Variabile = altezza
1
1,55
2
1,57
3
1,58
4
1,58
5
1,60
6
1,64
7
1,65
8
1,69
9
1,70
10
1,71
11
1,72
12
1,72
13
1,74
14
1,75
15
1,76
16
1,76
17
1,77
18
1,80
19
1,81
20
1,87
Campione = 20 soggetti
Mediana= (1,71 + 1,72) /2 = 1,715
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
28
Percentili:
valori della variabile che delimitano specificate frazioni
della distribuzione cumulativa dei dati ordinati in senso
crescente.
Alcuni sinonimi
1° quartile = 25° percentile
2° quartile = 50° percentile = mediana
3° quartile = 75° percentile
Range interquartile = 75° percentile - 25° percentile
La procedura più semplice per il calcolo dei percentili si
basa sull’uso della distribuzione cumulativa percentuale.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
29
.Cumulative Cumulative
ETA
Frequency
Percent
Frequency
Percent
32
2
0.5
2
0.5
41
2
0.5
4
0.9
42
6
1.4
10
2.3
44
6
1.4
16
3.7
45
4
0.9
20
4.7
46
8
1.9
28
6.5
47
4
0.9
32
7.4
49
8
1.9
40
9.3
50
4
0.9
44
10.2
10° percentile=50
51
6
1.4
50
11.6
52
4
0.9
54
12.6
54
12
2.8
66
15.3
55
6
1.4
72
16.7
56
8
1.9
80
18.6
57
8
1.9
88
20.5
58
8
1.9
96
22.3
59
14
3.3
110
25.6
25° percentile=59
60
12
2.8
122
28.4
61
20
4.7
142
33.0
62
20
4.7
162
37.7
63
22
5.1
184
42.8
64
38
8.8
222
51.6
Mediana= 64
65
20
4.7
242
56.3
66
32
7.4
274
63.7
67
18
4.2
292
67.9
68
8
1.9
300
69.8
69
22
5.1
322
74.9
70
22
5.1
344
80.0
75° percentile=70
71
8
1.9
352
81.9
72
18
4.2
370
86.0
73
24
5.6
394
91.6
74
14
3.3
408
94.9
75
4
0.9
412
95.8
76
6
1.4
418
97.2
77
4
0.9
422
98.1
79
4
0.9
426
99.1
83
2
0.5
428
99.5
92 Corsi di laurea
2 triennale
0.5di area tecnica
430 - Corso100.0
di Statistica Medica - Statistica descrittiva
totale
430
100.0
430
100.0
30
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
31
Formule per il calcolo dei percentili
n = numero di osservazioni
k = percentile di interesse
• Se (n*k)/100 è un numero intero allora:
Il percentile corrisponde alla media dei valori associati
alle seguenti posizioni:
(n*k)/100 e (n*k/100)+1
• Se (n*k)/100 non è un numero intero allora:
Il percentile corrisponde al valore associato alla
seguente posizione:
int((n*k)/100)+1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
32
Esempio
Calcolare il 30° percentile di una serie di 80 osservazioni:
xi
Frequenza
assoluta
Frequenza
assoluta cumulata
26
20
20
33
12
32
37
15
47
43
22
69
58
11
80
(n*k)/100 = (80*30)/100 = 24 è intero quindi:
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
33
Le due posizioni da considerare sono:
(n*k)/100 = 24 e (n*k/100)+1 = 25
Il 30° percentile è uguale a 33
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
34
Calcolare il 20° percentile di una serie di 79 osservazioni:
xi
Frequenza
assoluta
Frequenza
assoluta cumulata
26
20
20
33
12
32
37
15
47
43
22
69
58
10
79
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
35
(n*k)/100 = (79*20)/100 = 15,8 non è intero quindi:
la posizione da considerare è:
int(n*k/100)+1 = 16
20°percentile = 26
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
36
Esempio: livello di emoglobina in un campione di 20 donne.
Calcolare :
• valore minimo
• valore massimo
• media
• mediana
• primo quartile
• terzo quartile
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
37
Dati originali (sono riportate anche altre
variabili)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Hb
111
107
124
140
131
105
96
125
135
139
151
139
162
163
168
171
166
169
157
165
PCV%
35
45
47
50
31
30
25
33
35
40
45
47
49
42
40
50
46
55
42
46
Età_anni
20
22
25
28
28
31
32
35
38
40
45
49
54
55
57
60
62
63
65
67
menopausa
0
0
0
0
0
0
0
0
0
0
1
0
1
1
1
1
1
1
1
1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
38
Ordiniamo le osservazioni secondo i valori crescenti della
variabile Hb
n
Hb
PCV%
Età_anni
menopausa
7
6
2
1
3
8
5
9
10
12
4
11
19
13
14
20
17
15
18
16
96
105
107
111
124
125
131
135
139
139
140
151
157
162
163
165
166
168
169
171
25
30
45
35
47
33
31
35
40
47
50
45
42
49
42
46
46
40
55
50
32
31
22
20
25
35
28
38
40
49
28
45
65
54
55
67
62
57
63
60
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
39
Valore minimo: 96
Valore massimo: 171
Media: X =(96 + 105 +…. +169 + 171)/20=141,2
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
40
Mediana = secondo quartile: (20 * 50)/100=10 intero quindi
la mediana è determinata dalla media tra i valori che
occupano le posizioni 10 e 11. (139+140)/2=139,5
Primo quartile: (20 * 25)/100=5 intero quindi il primo quartile
è determinato dalla media tra i valori che occupano le
posizioni 5 e 6. (124+125)/2=124,5
Terzo quartile: (20 * 75)/100=15 intero quindi il terzo quartile
è determinato dalla media tra i valori che occupano le
posizioni 15 e 16. (163+165)/2=164
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
41
La rappresentazione grafica di dati/variabili numeriche
Box plot (diagramma a scatola e baffi)
Fornisce una rappresentazione grafica che presenta i valori di
mediana e quartili (25% e 75% percentile), sotto forma di una
scatola
I ‘baffi’ indicano il minimo e massimo dei 'valori tipici' oppure il
range (valore minimo e valore massimo).
Altri autori, ad es. Pagano e Gauvreau (p.19) usano invece i ‘valori
tipici’, definiti come
- Max [Val. minimo osservato e (1°quartile – 1,5 * range interquartile)]
- Min [Val. massimo osservato < (3°quartile + 1,5 * range interquartile)]
Altri testi propongono il 5° e 95° percentile.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
42
Per costruire un box plot è necessario:
1.
2.
3.
4.
5.
Rappresentare la variabile di interesse sull’asse
verticale
Disegnare una scatola sull’asse verticale in modo che
l’estremità inferiore della scatola sia allineata con il 1°
quartile e l’estremità superiore con il 3°quartile
Dividere la scatola in due parti con una linea orizzontale
che sia allineata con la mediana
Disegnare una linea verticale chiamata “baffo”
dall’estremità inferiore della scatola fino al punto che
risulta allineato con il valore minimo nell’insieme dei dati
Disegnare un altro “baffo” dall’estremità superiore della
scatola fino al punto che risulta allineato con il valore
massimo nell’insieme dei dati
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
43
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
44
Esempio di box plot in XLSTATS:
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
45
Rappresentazione grafica di dati definiti da 2 variabili quantitative
SOMMINISTRAZIONE GENERAL HEALTH QUESTIONNAIRE (GHQ)
25
20
2° TEST
15
10
5
0
0
5
10
15
20
25
1° TEST
diagramma a punti: è adatto quando il numero di osservazioni in ciascuna categoria non è troppo grande.
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
46
Moda
Valore che ricorre con maggior frequenza in una distribuzione.
Quando i valori sono raggruppati in classi, la classe
modale è quella che contiene il maggior numero di
osservazioni rispetto alle altre
Un insieme di valori può avere più di una moda (2 mode=
bimodale) come nell’esempio che segue
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
47
Se tutti i valori sono diversi tra loro, l’insieme delle
osservazioni non ha moda.
Esempio
Consideriamo le età di 10 impiegati di un laboratorio:
20, 21, 20, 20, 34, 22, 24, 27, 27, 27
La variabile è bimodale: 20 e 27
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
48
Esercizi consigliati
da: Fowler et al, ed Edises.
•
•
•
•
•
•
Cap 7 (p 220) es 1
Cap 7 (p 220) es 2
Cap 7 (p 221) es 7
Cap 7 (p 222) es 9
Cap 8 (p 222) es 4
Cap 9 (p 226) es 14
Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Statistica descrittiva
49