Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco

Esercizi di Statistica ∼ Laurea in Biologia Molecolare
Francesco Caravenna
Foglio 8. (31 maggio – 4 giugno 2010)
Esercitazione del 3 giugno 2010 (1 ora)
Esercizio 1. Vogliamo stabilire se un dado sia regolare. Lo lanciamo 1000 volte,
ottenendo i seguenti risultati:
Punteggio
1
2
3
4
5
6
Frequenza Ok 140 183 161 181 159 176
Si verifichi, al 5% di significatività, l’ipotesi che il dado sia regolare.
[Le frequenze attese valgono ek = n π(k) = 1000 · 16 ' 166.67 per ogni k = 1, . . . , 6.
1
La statistica del test vale dunque T = 166.67
(140 − 166.67)2 + (183 − 166.67)2 + (161 −
166, 67)2 + (181 − 166, 67)2 + (159 − 166, 67)2 + (176 − 166, 67)2 ≈ 1361.33
≈ 8.17.
166.67
2
2
Dato che χα,m−1 = χ0.05,5 ≈ 11.07, l’ipotesi H0 : “il dado è regolare” è accettata al
5%.]
Esercizio 2. Consideriamo le registrazioni di un rilevatore di particelle in un periodo
di 50 ore:
Numero di particelle rilevate nell’ora 0 1 2 3 4 5 6 7 o più
Frequenze osservate Ok
5 13 11 10 5 5 1
0
Questi dati sono compatibili all’1% con l’ipotesi che il numero di particelle che in
un’ora incidono sul rilevatore sia distribuito come una Poisson?
[La media empirica dei dati vale x = 0·5+1·13+2·11+3·10+4·5+5·5+6·1+7·0
= 2.32. Le
50
k
−2.32 (2.32)
frequenze teoriche sono date da ek = n π(k) = 50 · e
· k! per k = 0, . . . , 6
mentre e7 = n − (f0 + f1 + . . . + f6 ), da cui si ottiene la tabella
Numero
0
1
2
3
4
5
6 7 o più
Frequenze attese ek 4.91 11.40 13.22 10.22 5.93 2.75 1.06 0.51
Raggruppiamo le classi da 4 in su, ottenendo
Numero
0
1
2
3
4 o più
Frequenze attese ek 4.91 11.40 13.22 10.22 10.25
Ora siamo nelle condizioni di applicare il test. Raggruppiamo anche le frequenze
osservate:
Numero
0 1 2 3 4 o più
Frequenze osservate Ok 5 13 11 10
11
P4 (Ok −ek )2
2
2
2
2
La statistica vale T = k=0 ek
= (5−4.91)
+ (13−11.40)
+ (11−13.22)
+ (10−10.22)
+
4.91
11.40
13.22
10.22
(11−10.25)2
10.25
≈ 0.70. Dato che χ2α,m−1 = χ20.01,3 = 11.34, i dati sono compatibili con
l’ipotesi all’1%.]
1
2
Esercitazione del 4 giugno 2010
Esercizio 3. Si esamini la seguente tabella, relativa a 181 individui:
Oh,k
Non fumatori Fumatori moderati Grandi fumatori
Ipertensione
20
38
28
No ipertensione
50
27
18
Y
Ok
70
65
46
OhX
86
95
181
Si può concludere, al 5% di significatività, che vi sia dipendenza tra il fumo e
l’ipertensione?
[Le frequenze attese stimate sono date da êh,k = n1 OhX OkY , da cui la tabella
êh,k
Non fumatori Fumatori moderati Grandi fumatori OhX
Ipertensione
33.26
30.88
21.86
86
No ipertensione
36.74
34.11
24.14
95
Y
Ok
70
65
46
181
P
Pr (Oh,k −êh,k )2
La statistica del test è data da T = m
. Essendo m = 2 e r = 3
h=1
k=1
êh,k
P2 P3 (Oh,k −êh,k )2
2
2
otteniamo T =
= (20−33.26)
+ . . . + (18−24.14)
≈ 16.48 >
h=1
k=1
êh,k
33.26
24.14
χ2α,(m−1)(r−1) = χ20.05,2 = 5.991. Quindi l’ipotesi H0 : “il fumo e l’ipertensione sono
indipendenti” è rifiutata al 5%.]
Esercizio 4 (Esempio 13.10 dal libro di Ross). Due gruppi casuali di 20000 non
fumatori e 10000 fumatori vengono seguiti per 10 anni, rilevando quanti di essi
contraggono tumori ai polmoni.
Oh,k
Fumatori Non fumatori
Tumore ai polmoni
62
14
Nessun tumore ai polmoni
9938
19986
OkY
10000
20000
OhX
76
29924
30000
Si può concludere, all’1% di significatività, che vi sia dipendenza tra il fumo e la
probabilità di contrarre un tumore i polmoni?
[Le frequenze attese stimate sono date da êh,k = n1 OhX OkY , da cui la tabella
êh,k
Fumatori Non fumatori OhX
Tumore ai polmoni
25.33
50.67
76
Nessun tumore ai polmoni 9974.67
19949.33
29924
OkY
10000
20000
30000
P
Pr (Oh,k −êh,k )2
La statistica del test è data da T = m
. Essendo m = r = 2
h=1
k=1
êh,k
P2 P2 (Oh,k −êh,k )2
2
(62−25.33)
(14−50.67)2
(9938−9974.67)2
otteniamo T =
=
+
+
+
h=1
k=1
êh,k
25.33
50.67
9974.67
(19986−19949.33)2
19949.33
≈ 79.83 > χ2α,(m−1)(r−1) = χ20.01,1 = 6.635. I dati mostrano fortemente
che c’è correlazione tra l’essere fumatori e il contrarre un tumore ai polmoni.]
3
Esercizio 5 (Esempio 10.10 dal libro di Ross). Si vuole verificare se il fatto che un
giudice sentenzi il carcere per un imputato giudicato colpevole sia influenzato dal fatto
che l’imputato si fosse dichiarato colpevole. Si esaminano due campioni di individui
pregiudicati, condannati per rapina di secondo grado: di un primo campione di 142
individui che si erano dichiarati colpevoli ne sono stati incarcerati 74, mentre di un
secondo campione di 72 individui che si erano dichiarati non colpevoli ne sono stati
incarcerati 61. Quali conclusioni si possono trarre da questi dati? Si calcoli il p-value.
[Siano p1 e p2 le probabilità di essere incarcerati rispettivamente per un individuo
che si sia dichiarato colpevole e per un individuo che si sia dichiarato non colpevole (poi
giudicato colpevole). Sottoponiamo a verifica l’ipotesi H0 : p1 = p2 contro H0 : p1 6= p2 .
Si tratta di un test per l’uguaglianza di proporzioni di popolazione. I dati danno n1 =
74
1
2
142, n2 = 72, X1 = 74, X2 = 61 da cui p̂1 = X
= 142
= 0.52, p̂2 = X
= 61
= 0.85.
n1
n2
72
n1 p̂1 +n2 p̂2
X1 +X2
74+61
Si ottiene dunque lo stimatore combinato p̂ = n1 +n2 = n1 +n2 = 142+72 = 0.63.
p̂√
0.52−0.85
1 −p̂2
La statistica del test vale ν = √
= √
≈ −4.67. Il
p̂(1−p̂)
1/n1 +1/n2
0.63·0.37·(1/142+1/72)
p-value vale P (|Z| > ν) = 2(1 − Φ(|ν|)) ≈ 0: i dati mostrano dunque ogni ragionevole
dubbio che la decisione di un giudice di incarcerare un imputato giudicato colpevole
è influenzata dal fatto che l’imputato si sia dichiarato non colpevole.]
Esercizio 6 (Compito a casa). Durante la seconda guerra mondiale, la parte meridionale di Londra fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione
geografica dei punti di impatto, tale area è stata suddivisa in 576 regioni di pari
superficie, registrando quante bombe sono cadute in ciascuna regione. I dati sono
riportati nella seguente tabella:
Bombe ricevute
0
1
2 3 4 5 6 o più
Numero di regioni (Ok ) 229 211 93 35 7 1
0
Si può affermare che il numero di bombe cadute in una regione segua una distribuzione
di Poisson? Si esegua un test al 5%.
[Dobbiamo eseguire un test χ2 di adattamento a una distribuzione P o(λ). Stimiamo
λ dai dati: x = 535
= 0.929. Le frequenze attese sono date da ek = n π(k) =
576
k
−0.929 (0.929)
576 · e
per k ∈ {0, . . . , 5}, mentre per l’ultima classe e6 = n (1 − (π(0) +
k!
. . . + π(5))) = n − (e0 + . . . + e5 ). Essendo n = 576, si ottiene la seguente tabella:
Bombe ricevute
0
1
2
3
4
5 6 o più
Frequenze attese (ek ) 227.5 211.3 98.2 30.4 7.1 1.3
0.2
Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte:
Bombe ricevute
0
1
2
3
4 5 o più
Frequenze osservate (Ok ) 229
211
93
35
7
1
Frequenze attese (ek )
227.5 211.3 98.2 30.4 7.1
1.5
P5 (Oi −ei )2
2
(229−227.5)
(1−1.5)2
La statistica del test vale t =
=
+
.
.
.
+
= 1.17.
k=0
ei
227.5
1.52
2
2
Dato che χα,m−2 = χ0.05,4 = 9.49 (m = 6 è il numero di classi e “−2” è perché è
stato stimato un parametro) l’ipotesi H0 è accettata: i dati sono compatibili con una
distribuzione di Poisson.]