Statistica esplorativa dei dati

annuncio pubblicitario
Statistica Medica
Sez. 1 - Analisi esplorativa dei dati
Statistica Medica – p.1/39
La sommatoria
Il simbolo
P
è noto come sommatoria.
n
X
xi = x1 + x2 + . . . + xn−1 + xn
i=1
Proprietà fondamentali sono
n
X
i=1
b
X
i=a
cxi = c
Ã
n
X
xi
i=1
xi = xa se a = b e
!
n
X
c = nc
i=1
Statistica Medica – p.2/39
Unità e variabili statistiche
Il soggetto su cui vengono misurate le variabili di
interesse è l’unità statistica dello studio
Le variabili possono essere
•
•
Continue
Discrete
• Binarie
• Categoriche
• Conteggio
Statistica Medica – p.3/39
Descrizione di una variabile
•
•
Misure di centralità
Misure di dispersione (variabilità)
Statistica Medica – p.4/39
Centralità: media aritmetica
Data una variabile x, misurata su n soggetti, la media
aritmetica campionaria è pari a
n
X
1
x̄ =
xi
n
i=1
È molto sensibile ai valori estremi, e in tal caso non è
una buona misura di centralità.
È un operatore lineare, valendo
se yi = c1 xi + c2 ∀i allora ȳ = c1 x̄ + c2
Statistica Medica – p.5/39
DataSet 1 - Peso alla nascita
Si è osservato il peso alla nascita dei bambini (20) nati
vivi in una data settimana in un ospedale privato di
San Diego (California)
VAR/CASE
BW
CASE:1 3265.00
CASE:2 3260.00
CASE:3 3245.00
CASE:4 3484.00
CASE:5 4146.00
CASE:6 3323.00
CASE:7 3649.00
CASE:8 3200.00
CASE:9 3031.00
CASE:10 2069.00
CASE:11
CASE:12
CASE:13
CASE:14
CASE:15
CASE:16
CASE:17
CASE:18
CASE:19
CASE:20
2581.00
2841.00
3609.00
2838.00
3541.00
2759.00
3248.00
3314.00
3101.00
2834.00
Statistica Medica – p.6/39
DataSet 1 - Media artimetica
• x̄ = 3265
•
sostituendo il peso #1 con 500g si ottiene
x̄ = 3028.7
Statistica Medica – p.7/39
Misure di centralità: mediana
Si supponga che le n osservazioni siano ordinate. La
mediana campionaria è
•
la ( n+1
2 )-ma osservazione se n è dispari
•
la media aritmetica della ( n2 )-ma e la ( n2 + 1)-ma
osservazione se n è pari
Statistica Medica – p.8/39
DataSet 1 - Mediana
Siccome n è pari, la mediana è la media della 10-ma e
11-ma osservazione ordinata
3245 + 3248
= 3246.5
Mediana =
2
Statistica Medica – p.9/39
DataSet 2 - Globuli bianchi
Conteggio dei globuli (x1000) bianchi all’ammissione
di 9 pazienti in Allentown (Pennsylvania)
VAR/CASE
CASE:1
CASE:2
CASE:3
CASE:4
CASE:5
CASE:6
CASE:7
CASE:8
CASE:9
WB
7.00
35.00
5.00
9.00
8.00
3.00
10.00
12.00
8.00
La mediana è pari a 8.
Statistica Medica – p.10/39
Confronto media-mediana
Statistica Medica – p.11/39
Confronto media-mediana (cont.)
Si ha quindi l’indice di skewness
Skewness = M edia − M ediana
e la distribuzione sarà
•
•
•
simmetrica se Skewness ' 0
asimmetrica a sinistra se Skewness > 0
asimmetrica a destra se Skewness < 0
Statistica Medica – p.12/39
La moda
La moda è il valore di una variabile che si osserva con
maggiore frequenza in un determinato campione
Una distribuzione può essere unimodale, bimodale,
trimodale, ...
Giorni tra due periodi mestruali consecutivi in un
campione di donne giovani (18-25 anni)
GG
n
GG
n
GG
n
24
5
29
96
34
7
25
10
30
63
35
3
26
28
31
24
36
2
27
64
32
9
37
1
28
185
33
2
38
1
Statistica Medica – p.13/39
La media geometrica
La media geometrica è pari a
x̄g = e
1
n
Pn
i=1
log xi
utile nel caso di distribuzioni molto asimmetriche, con
regolarità del tipo
log(2k+1 c) − log(2k c) = log(2)
Statistica Medica – p.14/39
La media geometrica (cont.)
Distribuzione della minima concentrazione inibitoria
(MIC) di penicillina G per N. gonorrhoeae (JAMA, 220,
205-208, 1972)
Conc.
n
Conc.
n
0.03125=20 c
21
0.250=23 c
19
0.0625=21 c
6
0.50=24 c
17
0.125=22 c
8
1.0=25 c
3
dove c = 0.03125 e
x̄g = e
21 log(0.03125)+...+3 log(1.0)
74
= e−0.846 = 0.143
Statistica Medica – p.15/39
Misure di variabilità
Si considerino due campioni di misurazioni del
colesterolo eseguite con due tecniche, una
autoanalitica e l’altra microenzimatica
Autoanalitica
177, 193, 195, 209, 226
mg/ml
Microenzimatica
192, 197, 200, 202, 209
mg/ml
x̄ = 200
Statistica Medica – p.16/39
Il range
Il range è la differenza tra l’osservazione con il valore
più grande e quella con il valore più piccolo. In simboli
è pari a
range = max(xi ) − min(xi )
Per la tecnica autoanalitica è pari a 49 mg/ml, per la
tecnica microenzimatica a 17 mg/ml
È molto semplice da calcolare ma molto sensibile ai
valori estremi e dipende dall’ampiezza campionaria n.
Statistica Medica – p.17/39
Percentili
Il percentile p-esimo è un lavore Vp tale che il p% del
campione assume valori inferiori ad esso.
Il percentile p-esimo è deFInito come
•
la (k + 1)-ma osservazione (ordinata) se np/100 non
è un intero. k è l’intero più grande inferiore a np/100
•
la media delle osservazioni np/100-ma e
np/100 + 1-ma osservazione (ordinata) se np/100 è
un intero
Statistica Medica – p.18/39
Percentili - Dataset 1
Si calcoli il 10-mo e 90-mo percentile del campione di
pesi neonatali
CASE:10
CASE:11
CASE:16
CASE:20
CASE:14
CASE:12
•
•
•
2069.00
2581.00
2759.00
2834.00
2838.00
2841.00
CASE:9
CASE:19
CASE:8
CASE:3
CASE:17
CASE:2
3031.00
3101.00
3200.00
3245.00
3248.00
3260.00
CASE:1
CASE:18
CASE:6
CASE:4
CASE:15
CASE:13
3265.00
3314.00
3323.00
3484.00
3541.00
3609.00
CASE:7 3649.00
CASE:5 4146.00
Si calcola np/100, pari a 20 × 0.1 = 2 e 20 × 0.9 = 18
Si calcola la media tra l’osservazione ordinata n. 2
e 3 (2759 + 2581)/2 = 2670
Si calcola la media tra l’osservazione ordinata n.
18 e 19 (3609 + 3649)/2 = 3629
Statistica Medica – p.19/39
Percentili - Dataset 2
Si calcoli il 20-mo percentile del campione di globuli
bianchi
CASE:6
CASE:3
CASE:1
•
•
•
3.00
5.00
7.00
CASE:5
CASE:9
CASE:4
8.00
8.00
9.00
CASE:7
CASE:8
CASE:2
10.00
12.00
35.00
Si calcola np/100, pari a 9 × 0.2 = 1.8
Si trova il k -mo intero inferiore a 1.8 (ovvero 1)
Il percentile è il k + 1 = 1 + 1-mo valore ordinato,
ovvero 5
Statistica Medica – p.20/39
La varianza campionaria
La varianza campionaria è deFInita come
s2 =
Pn
2
(x
−
x̄)
i
i=1
n−1
La deviazione standard campionaria è deFInita come
s=
Si noti che
Pn
i=1 (xi −x̄)
n
sP
n
i=1 (xi
− x̄)2
n−1
=0
Statistica Medica – p.21/39
Misurazioni di colesterolo
•
Tecnica autoanalitica
s2 = [(177 − 200)2 + . . . + (226 − 200)2 ]/4 = 1360/4 = 340
s=
•
√
340 = 18.4
Tecnica microenzimatica
s2 = [(192 − 200)2 + . . . + (209 − 200)2 ]/4 = 158/4 = 39.5
s=
√
39.5 = 6.3
Statistica Medica – p.22/39
Varianza - formula alternativa
Se la media è già calcolata, allora può essere utile
usare
P
s2 =
n
2
x
i=1 i
− nx̄2
n−1
Per la tecnica microanalitica si ha
5
X
x2i = 1772 + . . . + 2262 = 201360
i=1
2
201360
−
5
×
200
s2 =
= 1360/4 = 340
4
Statistica Medica – p.23/39
Varianza - proprietà I
Si supponga di avere due campioni y1 , . . . , yn e
x1 , . . . , xn , dove
yi = xi + c ∀i = 1, . . . , n
Se le due varianze campionarie sono indicate come s2x
e s2y , si ha che
s2x = s2y
Statistica Medica – p.24/39
Varianza - proprietà II
Si supponga di avere due campioni y1 , . . . , yn e
x1 , . . . , xn , dove
yi = cxi ∀i = 1, . . . , n c > 0
Se le due varianze campionarie sono indicate come s2x
e s2y , si ha che
s2y = c2 s2x
Statistica Medica – p.25/39
Il coefFIciente di variazione
Il coefFIciente di variazione CV è deFInito come
s
CV = × 100
x̄
che è insensibile alla scala (ovvero a trasformazioni
del tipo cx)
Per i pesi neonatali espressi in grammi si ha
CV = 445.3/3166.9 × 100 = 14.1%
e per gli stessi pesi espressi in once (∼ 28.3)
CV = 15.7/111.71 × 100 = 14.1%
Statistica Medica – p.26/39
Caso di studio - BHS 78-79
Dati provenienti dal Bougalusa Heart Study (J Chron
Dis, 1987), sulla riproducibilità dei fattori di rischio
cardiovascolari nei bambini
Misurazioni prese per lo stesso bambino in due
momenti successivi, ogni 3 anni
Fattore
n
Media
sd
CV(%)
Altezza (cm)
364
142.6
0.31
0.2
Peso (cm)
365
39.5
0.77
1.9
Pliche (mm)
362
15.2
0.51
3.4
PAS (mm Hg)
337
104.0
4.97
4.8
PAD (mm Hg)
337
64.0
4.57
7.1
Col. totale
395
160.4
3.44
2.1
Col. HDL
349
56.9
5.89
10.4
Statistica Medica – p.27/39
Dati raggruppati
La struttura generale dei dati raggruppati è simile a
Gruppi
≥ y1 , < y 2
..
.
≥ yk , < yk+1
Val. Centrali Frequenza
y1 +y2
2
f1
yk +yk+1
2
fk
m1 =
..
.
mk =
..
.
Statistica Medica – p.28/39
Dataset 4 - Pesi alla nascita
Pesi alla nascita (once) di n = 100 bambini consecutivi
in un ospedale di Boston
58 120 123 104 121 111 91 104 128 133 118 86 134 132 68
121 122 115 106 115 92 115 94 98 107 124 138 138 125 127
108 118 67 146 122 104 99 105 108 135 132 95 124 132 126
125 115 144 98 89 32 83 155 93 88 102 104 87 133 121 140
112 105 85 89 122 98 88 104 112 138 128 100 94 108 137 89
103 122 135 96 127 112 116 115 110 119 108 124 115 161
124 141 113 85 101 109 109 110 64
Statistica Medica – p.29/39
Dataset 4 - Pesi alla nascita
Pesi
alla
G
nascita
m
f
[29.5, 69.5)
49.5
5
[69.5, 89.5)
79.5
10
[89.5, 99.5)
94.5
11
[99.5, 109.5)
104.5
19
[109.5, 119.5)
114.5
17
[119.5, 129.5)
124.5
20
[129.5, 139.5)
134.5
12
[139.5, 169.5)
154.5
6
(once)
di
100
bambini
Statistica Medica – p.30/39
Media artimetica ponderata
La media aritmetica campionaria ponderata è pari a
x̄g =
Per il dataset 4 è pari a
Pk
i=1 fi mi
Pk
i=1 fi
5(49.5) + . . . + 6(154.5)
x̄g =
= 11045/100 = 110.45
5 + ... + 6
Statistica Medica – p.31/39
Varianza ponderata
La varianza campionaria ponderata è pari a
s2g =
Pk
s2g =
Pk
2
f
(m
−
x̄
)
g
i
i
i=1
Pk
( i=1 fi ) − 1
ovvero
Per il dataset 4 è pari a
s̄2g
2 − nx̄2
f
m
i
g
i=1
i
n−1
[5(49.5)2 + . . . + 6(154.5)2 ] − 100(110.452 )
=
= 5443475/99 = 549.85
100 − 1
Statistica Medica – p.32/39
Istogramma
Per il calcolo dell’istogramma, la tabella deve essere
estesa
Gruppi
≥ y1 , < y2
..
.
≥ yk , < yk+1
Val. Centrali
m1 =
y1 +y2
2
..
.
mk =
yk +yk+1
2
Frequenza
Ampiezza
f1
..
.
a1 = y 2 − y 1
..
.
fk
ak = yk+1 − yk
Densità
h1 =
..
.
hk =
f1
a1
fk+1
ak
L’istogramma è uno stimatore della distribuzione
Statistica Medica – p.33/39
Dataset 4 - Istogramma
Calcolo
G
dell’ampiezza
m
f
a
h
[29.5, 69.5)
49.5
5
40
0.125
[69.5, 89.5)
79.5
10
20
0.5
[89.5, 99.5)
94.5
11
10
1.1
[99.5, 109.5)
104.5
19
10
1.9
[109.5, 119.5)
114.5
17
10
1.7
[119.5, 129.5)
124.5
20
10
2
[129.5, 139.5)
134.5
12
10
1.2
[139.5, 169.5)
154.5
6
30
0.2
e
della
densità
Statistica Medica – p.34/39
0.0
0.005
0.010
0.015
0.020
Dataset 4 - Istogramma (Cont.)
40
60
80
100
120
140
160
BW
Statistica Medica – p.35/39
Box Plot
Il BoxPlot è un modo per rappresentare graFIcamente una distribuzione rispetto a
centralità e variabilità
Per un campione di ampiezza n
•
•
•
la profondità della mediana (m) è pari a n/2 se n è pari, a (n + 1)/2 se n è dispari
il baffo superiore (H) è pari a l’osservazione (m + 1)/2-ma se m è dispari, alla
media tra l’osservazione m/2-ma e quella m/2 + 1 se m è pari
un valore estremo è un valore tale per cui
x > H + 1.5 × (H − h) o x < h − 1.5 × (H − h)
•
un outlier è un valore tale per cui
x > H + 3 × (H − h) o x < h − 3 × (H − h)
Statistica Medica – p.36/39
Dataset 4 - Ordinato
I simboli * indicano i BAFFI, mentre # i valori estremi
e ## gli outliers
## 32 58 # 64 67 68 83 85 85 86 87 88 88 89 89 89 91 92 93 94
94 95 96 98 98 *98 99* 100 101 102 103 104 104 104 104 104
105 105 106 107 108 108 108 108 109 109 110 110 111 112
112 112 113 115 115 115 115 115 115 116 118 118 119 120
121 121 121 122 122 122 122 123 124 124 124 *124 125* 125
126 127 127 128 128 132 132 132 133 133 134 135 135 137
138 138 138 140 141 144 146 155 161 # ##
Statistica Medica – p.37/39
Dataset 4 - Boxplot
Siccome n = 100, si ha che m = 50
è la media dell’osservazione più grande 50/2 e
50/2 + 1, ovvero (125+124)/2=124.5
• H
è la media dell’osservazione più piccola 50/2 e
50/2 + 1, ovvero (98+99)/2=98.5
• h
•
i limiti per i valori estremi sono quindi
x > 124.5 + 1.5(124.5 − 98.5) = 163.5 x < 59.5
e per gli outliers
x > 124.5 + 3(124.5 − 98.5) = 202.5 x < 20.5
Statistica Medica – p.38/39
40
60
80
100
120
140
160
Dataset 4 - Boxplot (Cont.)
Statistica Medica – p.39/39
Scarica