L_2_Statistica_descrittiva_variabili numeriche

Università del Piemonte Orientale
Corso di Laurea in Biotecnologie
Corso di Statistica Medica
Statistica Descrittiva: Variabili numeriche
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
1
In questa lezione parleremo di:
Misure di tendenza centrale e di variabilità
Media
Deviazione Standard
Coefficiente di Variazione
Mediana
Percentili
Diagrammi a scatola e baffi (Box Plot)
Diagrammi a punti
Media geometrica
Trasformazione logaritmica
Media calcolata su dati raggruppati
Moda
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
2
Misure di tendenza centrale
Misure di variabilità
Media (aritmetica)
• Deviazione Standard
• Coefficiente di variazione
Mediana
• Range
• Percentili
• Range interquartile
Media geometrica
Moda
Queste statistiche possono essere calcolate solo per variabili numeriche!
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
3
Media: è la più comune misura di tendenza centrale. Può essere calcolata per
variabili numeriche.
• Media aritmetica: Il valore medio di una variabile in un gruppo di osservazioni si
calcola sommando il valore della variabile per ciascuna osservazione e
dividendo il risultato per il numero di osservazioni.
n
Media = X =
= (x1 + x2+ x3+ x4+ x5+
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
∑x
i =1
i
n
+ xn-1 + xn) / n
4
Simboli:
Σ
= sommatoria
= (x1 + x2+ x3+ x4+ x5+
+ xn-1 + xn)
xi
= i-esima osservazione
n
= numero totale di osservazioni
n
∑
i =1
Indica la sommatoria di tutte le osservazioni, dalla prima (i=1) all’ultima (i=n)
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
5
Esempio = Calcolo di media
Variabile = altezza; variabile numerica; Campione = 20 soggetti
x
1,64
1,74
1,65
1,80
1,58
1,76
1,55
1,72
1,60
1,69
1,75
1,81
1,58
1,76
1,57
1,72
1,70
1,77
1,71
1,87
Totale = 33,97
Media= 33,97 / 20 = 1,699
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
6
Quanti decimali?
Quando presentate il risultato di una media usate un decimale in più di
quanti ne sono stati usati per i dati.
Nei calcoli e nei risultati intermedi mantenete una precisione maggiore ( almeno 2
o 3 decimali in più di quanti ne sono stati usati per i dati).
Se utilizzate un calcolatore arrotondate solo il risultato finale.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
7
2
1,8
1,6
Altezza
1,4
1,2
1
0,8
0,6
0,4
0,2
0
0
5
10
15
20
25
Case Number
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
8
0,2
0,15
Residual
0,1
0,05
0
-0,05
0
5
10
15
20
25
-0,1
-0,15
-0,2
Case Number
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
9
Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media.
Per spiegare la deviazione standard è utile esaminare prima le statistiche Devianza e
Varianza.
La Devianza è la somma dei quadrati delle differenze (scarti) tra il valore della variabile e la
media.
n
dev = ∑
i =1
(x − X )
2
i
La Varianza è la devianza divisa per (numero di osservazioni – 1)
(si può definire anche come la media degli scarti quadratici).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
10
n
var = dev /(n − 1) =
(
∑ xi − X
i =1
)
2
(n − 1)
La Deviazione Standard è la radice quadrata della varianza.
∑ (xi − X )
n
DS =
2
i =1
(n − 1)
Deviazione standard calcolata su un campione -> il denominatore è (n-1).
Deviazione standard calcolata sulla popolazione -> il denominatore è (n).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
11
Esempio di due distribuzioni di frequenza calcolate su un numero infinito di osservazioni e caratterizzate dalla stessa
media ma da due diverse deviazioni standard.
y
0 .4 0
0 .3 8
0 .3 6
0 .3 4
0 .3 2
DS=1
0 .3 0
0 .2 8
0 .2 6
0 .2 4
0 .2 2
0 .2 0
0 .1 8
0 .1 6
0 .1 4
DS=2
0 .1 2
0 .1 0
0 .0 8
0 .0 6
0 .0 4
0 .0 2
0 .0 0
-9
-8
-7
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
10
x
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
12
Coefficiente di Variazione
E’ il rapporto tra deviazione standard e media.
Viene espresso in percentuale.
DS
CV % =
∗ 100
x
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
13
Esempio = Calcolo di media e deviazione standard
Variabile = altezza - Campione = 20 soggetti
(x
)
xi
xi − x
1,64
-0,05850
0,00342
1,74
0,04150
0,00172
1,65
-0,04850
0,00235
1,8
0,10150
0,01030
1,58
-0,11850
0,01404
1,76
0,06150
0,00378
1,55
-0,14850
0,02205
1,72
0,02150
0,00046
1,6
-0,09850
0,00970
1,69
-0,00850
0,00007
1,75
0,05150
0,00265
1,81
0,11150
0,01243
1,58
-0,11850
0,01404
1,76
0,06150
0,00378
1,57
-0,12850
0,01651
1,72
0,02150
0,00046
1,7
0,00150
0,00000
1,77
0,07150
0,00511
1,71
0,01150
0,00013
1,87
0,17150
0,02941
i
−x
2
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
15
Media=
1,699
Varianza=
0,008
DS=
0,090
CV%
5,2%
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
16
Mediana
Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la
mediana corrisponde al valore dell’osservazione che occupa la posizione centrale
della distribuzione.
Se il numero di osservazioni è pari abbiamo due osservazioni centrali: la mediana
sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali.
N/2; N/2 +1
La media e la mediana coincidono nel caso di distribuzioni simmetriche.
Se la distribuzione è asimmetrica la media è maggiormente influenzata
dall’asimmetria e dai valori estremi.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
17
Esempio = Calcolo di mediana
Variabile = altezza - Campione = 20 soggetti
1
1,55
2
1,57
3
1,58
4
1,58
5
1,60
6
1,64
7
1,65
8
1,69
9
1,70
10
1,71
11
1,72
12
1,72
13
1,74
14
1,75
15
1,76
16
1,76
17
1,77
18
1,80
19
1,81
20
1,87
Mediana= (1,71 + 1,72) /2 = 1,715
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
18
Percentili:
valori della variabile che delimitano specificate frazioni della distribuzione
cumulativa dei dati ordinati in senso crescente.
Alcuni sinonimi
1° quartile = 25° percentile
mediana = 50° percentile
3° quartile = 75° percentile
Range interquartili = 75° percentile - 25° percentile
La procedura più semplice per il calcolo dei percentili si basa sull’uso della
distribuzione cumulativa.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
19
ETA
Frequency
32
2
41
2
42
6
44
6
45
4
46
8
47
4
49
8
50
4
51
6
52
4
54
12
55
6
56
8
57
8
58
8
59
14
60
12
61
20
62
20
63
22
64
38
65
20
66
32
67
18
68
8
69
22
70
22
71
8
72
18
73
24
74
14
75
4
76
6
77
4
79
4
83
2
92
2
totale
430
Percent
0.5
0.5
1.4
1.4
0.9
1.9
0.9
1.9
0.9
1.4
0.9
2.8
1.4
1.9
1.9
1.9
3.3
2.8
4.7
4.7
5.1
8.8
4.7
7.4
4.2
1.9
5.1
5.1
1.9
4.2
5.6
3.3
0.9
1.4
0.9
0.9
0.5
0.5
100.0
.Cumulative
Frequency
2
4
10
16
20
28
32
40
44
50
54
66
72
80
88
96
110
122
142
162
184
222
242
274
292
300
322
344
352
370
394
408
412
418
422
426
428
430
430
Cumulative
Percent
0.5
0.9
2.3
3.7
4.7
6.5
7.4
9.3
10.2
11.6
12.6
15.3
16.7
18.6
20.5
22.3
25.6
28.4
33.0
37.7
42.8
51.6
56.3
63.7
67.9
69.8
74.9
80.0
81.9
86.0
91.6
94.9
95.8
97.2
98.1
99.1
99.5
100.0
100.0
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
10° percentile=50
25° percentile=59
Mediana= 64
75° percentile=70
20
35
75° percentile
25° percentile
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
21
Formule per il calcolo di percentili, data una sequenza ordinata
n: numero di osservazioni
k: percentile di interesse
se n*k /100 è un intero il percentile cercato sarà la media del valore della variabile delle due osservazioni che
occupano le seguenti posizioni nella sequenza ordinata:
-
n
k
100
e
 k

+ 1
n
 100 
es. calcolate il 30° percentile in una serie di 250 osservazioni.
250 * 30 /100 = 75
30esimo percentile = media _ delle _ osservazioni _ in _ posizione : 250
30 
30

e 250
+ 1 = media tra il valore della osservazione che
100 
100 
occupa la 75 posizione ed il valore della osservazione che occupa la 76 posizione.
se n*k /100 non è intero

 k 
k - esimo percentile = int ero n
 + 1
 100 

es. calcolate il 25° percentile in una serie di 130 osservazioni.
130 * 25 /100 = 32,5
25° percentile = valore della osservazione che occupa la 33 posizione (32+1=33).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
22
Un esempio di output di un programma di calcolo
Numero osservazioni
430
Mean
63.4325581
Std Deviation
8.79997142
Variance
77.4394969
Coeff Variation
13.8729568
Median
64.00000
Quantile (percentile)
99%
79
95%
75
90%
73
75%
70
50% Mediana
64
25%
59
10%
50
5%
46
1%
42
Interquartile Range
11.00000
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
23
La rappresentazione grafica di dati/variabili numeriche
Box plot (diagramma a scatola e baffi)
Fornisce una rappresentazione grafica che presenta i valori di mediana e quartili (25% e 75% percentile), sotto forma
di una scatola ed altri valori di dispersione, indicati come ‘baffi’.
La definizione della ‘scatola’ (mediana e range interquartile) è universale.
Non esiste invece una definizione universale per quanto riguarda i ‘baffi’.
L’esempio seguente costruito usando il package statistico SPSS si usa il range (valore minimo e valore massimo).
Il testo di Pagano e Gauvreau (p.19) usa invece i ‘valori adiacenti’, definiti come
- Valore minimo osservato > (1° quartile – 1,5 * range interquartile)
- Valore massimo osservato < (3° quartile + 1,5 * range interquartile)
Altri autori hanno proposto definizioni ancora diverse (es. 5° e 95° percentile).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
24
Dati originali (sono riportate anche altre variabili)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Hb
111
107
124
140
131
105
96
125
135
139
151
139
162
163
168
171
166
169
157
165
PCV%
35
45
47
50
31
30
25
33
35
40
45
47
49
42
40
50
46
55
42
46
Età_anni
20
22
25
28
28
31
32
35
38
40
45
49
54
55
57
60
62
63
65
67
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
menopausa
0
0
0
0
0
0
0
0
0
0
1
0
1
1
1
1
1
1
1
1
25
Esempio: livello di emoglobina in un campione di 20 donne.
Dati elaborati con SPSS
Hb
Min:
96.00000
1st Qu.: 124.75000
Median: 139.50000
3rd Qu.: 163.50000
Max: 171.00000
Total N:
20.00000
NA's :
0.00000
numero di val mancanti
Mean: 141.20000
Std Dev.:
24.01885
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
26
Box plot del livello di emoglobina in un campione di 20 donne.
Dati elaborati con SPSS
160
Quartili
140
Mediana
Media
H
b
120
Range
100
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
27
Rappresentazione grafica di dati definiti da 2 variabili, di cui:
Una variabile quantitativa/numerica
e l’altra nominale / ordinale
Attenzione, alle variabili numeriche possono essere applicati i metodi descrittivi
visti durante la lezione precedente (frequenze, frequenze cumulative, istogrammi)
Questi metodi possono essere usati anche per confrontare diversi gruppi di
soggetti, ad esempio disegnando diversi istogrammi.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
28
Diagramma a punti. Distribuzione di frequenza di una variabile continua (Concentrazione di Emoglobina), separatamente per i due
sottogruppi definiti dalla variabile Menopausa (0= no, 1= si).
160
140
Singola
osservazione
Hb
120
100
0
1
menopausaaa
Diagramma a punti: è adatto quando il numero di osservazioni in ciascuna categoria non è troppo
grande.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
29
Rappresentazione grafica di dati definiti da 2 variabili quantitative
SOMMINISTRAZIONE GENERAL HEALTH QUESTIONNAIRE (GHQ)
25
20
2° TEST
15
10
5
0
0
5
10
15
20
25
1° TEST
r = 0.90 (Coefficiente di regressione, sarà spiegato successivamente)
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
30
Media geometrica e trasformazione logaritmica
Talora la distribuzione dei dati originali è fortemente asimmetrica. Può essere utile (i motivi
saranno approfonditi in seguito) calcolare una funzione dei dati originali tale che la sua
distribuzione sia simmetrica. La funzione usata più comunemente è quella logaritmica.
Il logaritmo della media geometrica corrisponde alla media aritmetica dei logaritmi dei dati,
quindi la media geometrica coincide con l’antilogaritmo della media aritmetica dei logaritmi
dei dati.
MG
= (Πxi )1/n
Log(MG)= Σ(logxi)/ n
Attenzione: il logaritmo di 0 e dei numeri negativi è indefinito. Occorre definire il valore da assegnare
alle osservazioni con valore 0 (se ne esistono).
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
31
Media geometrica
Distribuzione di frequenza della concentrazione di corpuscoli dell’amianto in 372 casi di tumore
polmonare positivi per la ricerca dei corpuscoli. La distribuzione è marcatamente asimmetrica.
Q
U
E
N
C
Y
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
0 2 5
5 0
0 0
7 1
5 0
0 0
0
1
2
5
0
1
5
0
0
1
7
5
0
2
0
0
0
2
2
5
0
2
5
0
0
2
7
5
0
3
0
0
0
3
2
5
0
3
5
0
0
3
7
5
0
4
0
0
0
4
2
5
0
4
5
0
0
4
7
5
0
5
0
0
0
5
2
5
0
5
5
0
0
5
7
5
0
6
0
0
0
6
2
5
0
6
5
0
0
6
7
5
0
7
0
0
0
7
2
5
0
7
5
0
0
7
7
5
0
8
0
0
0
8
2
5
0
8
5
0
0
8
7
5
0
9
0
0
0
9
2
5
0
9
5
0
0
9
7
5
0
1
0
0
0
0
C
O
R
P
U
S
C
OM
ID
P
O
IN
T
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
32
Distribuzione di frequenza del logaritmo della concentrazione di corpuscoli dell’amianto in 372 casi
di tumore polmonare positivi per tale indicatore. La distribuzione è simmetrica.
R
E
Q
U
E
N
C
Y
50
40
30
20
10
0
0
.
0
0
00
. .
25
50
01
. .
70
50
11
. .
25
50
12
. .
70
50
22
. .
25
50
23
. .
70
50
33
. .
25
50
34
. .
70
50
44
. .
25
50
45
. .
70
50
55
. .
25
50
56
. .
70
50
66
. .
25
50
67
. .
70
50
77
. .
25
50
78
. .
70
50
88
. .
25
50
89
. .
70
50
99
. .
25
50
91
. 0
7.
50
0
11
00
. .
25
50
11
01
. .
70
50
11
11
. .
25
50
11
12
. .
70
50
11
22
. .
25
50
11
23
. .
70
50
11
33
. .
25
50
11
34
. .
70
50
L_c M
I D
P
O
I N
T
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
33
Possiamo calcolare una media partendo da una distribuzione di frequenza?
Colesterolo (mg/ 100 ml)
n
80-119
13
120-159
150
160-199
442
200-239
299
240-279
115
280-319
34
320-359
9
360-399
5
Possiamo calcolare un valore medio se possiamo stimare la distribuzione dei soggetti
compresi in ciascuna classe di valori.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
34
Se le classi non sono troppo ampie, è ragionevole pensare che il valor medio in ciascuna
classe si collocato al centro dell’intervallo che la costituisce.
Colesterolo (mg/
Valore centrale
n
100 ml)
della classe
80-119
100
13
120-159
140
150
160-199
180
442
200-239
220
299
240-279
260
115
280-319
300
34
320-359
340
9
360-399
380
5
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
35
Data questa assunzione, si possono considerare gli f soggetti in una data classe come
soggetti con lo stesso valore x della variabile e quindi applicare una semplice estensione
della formula della media.
n
Media = X =
∑fx
i =1
n
i i
∑f
i =1
i
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
36
Colesterolo
Valore x centrale della classe
f
x*f
80-119
100
13
1300
120-159
140
150
21000
160-199
180
442
79560
200-239
220
299
65780
240-279
260
115
29900
280-319
300
34
10200
320-359
340
9
3060
360-399
380
5
1900
1067
212700
Totale
Media= 212700 / 1067 = 199,3
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
37
Moda
Valore o classe di valori (in questo secondo caso si parla più correttamente di Classe
Modale) che ricorrono con maggior frequenza in una distribuzione.
Possono essere presenti più mode, come nell’esempio seguente.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
38
Riepilogo
Metodi statistici descrittivi
Tipo di variabile
Categoriche
Numeriche
Nominale
Ordinale
Distribuzione di Frequenza
SI
SI
SI
Distrib. di Freq. cumulativa
NO
SI
SI
Diagramma a barre /
SI
SI
SI
Media
NO
NO
SI
Deviazione standard
NO
NO
SI
Mediana
NO
NO
SI
Percentili
NO
NO
SI
Istogramma
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
39
Esercizi consigliati, tratti da: M.Pagano & K.Gauvreau. Biostatistica (II edizione italiana). ed. Idelson
Gnocchi, Napoli 2003.
1. Svolgere i seguenti esercizi tratti dalle pag.48-51: 1, 2, 3, 4, 6, 7
2. Svolgere l’esercizio 8. Oltre alle domande presenti sul testo disegnate anche:
a. i due box plot (uno per le adolescenti bulimiche l’altro per le adolescenti sane)
b. i due istogrammi (id), da disegnarsi con classi di 5 Kcal/kg, partendo dalla prima classe da15 Kcal/kg.
3. Calcolate la media geometrica e la media dopo trasformazione logaritmica partendo dai dati forniti per l’esercizio
8, limitatamente alle adolescenti bulimiche.
4. Svolgere l’esercizio 14, limitatamente alla media. Oltre alle domande presenti sul testo disegnate anche
l’istogramma che descrive la distribuzione di frequenza.
Corso triennale biotecnologie–- Statistica Medica – Statistica descrittiva Dati numerici
40