Esercizi di Statistica ∼ Laurea in Biologia Molecolare Francesco Caravenna Foglio 8. (31 maggio – 4 giugno 2010) Esercitazione del 3 giugno 2010 (1 ora) Esercizio 1. Vogliamo stabilire se un dado sia regolare. Lo lanciamo 1000 volte, ottenendo i seguenti risultati: Punteggio 1 2 3 4 5 6 Frequenza Ok 140 183 161 181 159 176 Si verifichi, al 5% di significatività, l’ipotesi che il dado sia regolare. [Le frequenze attese valgono ek = n π(k) = 1000 · 16 ' 166.67 per ogni k = 1, . . . , 6. 1 La statistica del test vale dunque T = 166.67 (140 − 166.67)2 + (183 − 166.67)2 + (161 − 166, 67)2 + (181 − 166, 67)2 + (159 − 166, 67)2 + (176 − 166, 67)2 ≈ 1361.33 ≈ 8.17. 166.67 2 2 Dato che χα,m−1 = χ0.05,5 ≈ 11.07, l’ipotesi H0 : “il dado è regolare” è accettata al 5%.] Esercizio 2. Consideriamo le registrazioni di un rilevatore di particelle in un periodo di 50 ore: Numero di particelle rilevate nell’ora 0 1 2 3 4 5 6 7 o più Frequenze osservate Ok 5 13 11 10 5 5 1 0 Questi dati sono compatibili all’1% con l’ipotesi che il numero di particelle che in un’ora incidono sul rilevatore sia distribuito come una Poisson? [La media empirica dei dati vale x = 0·5+1·13+2·11+3·10+4·5+5·5+6·1+7·0 = 2.32. Le 50 k −2.32 (2.32) frequenze teoriche sono date da ek = n π(k) = 50 · e · k! per k = 0, . . . , 6 mentre e7 = n − (f0 + f1 + . . . + f6 ), da cui si ottiene la tabella Numero 0 1 2 3 4 5 6 7 o più Frequenze attese ek 4.91 11.40 13.22 10.22 5.93 2.75 1.06 0.51 Raggruppiamo le classi da 4 in su, ottenendo Numero 0 1 2 3 4 o più Frequenze attese ek 4.91 11.40 13.22 10.22 10.25 Ora siamo nelle condizioni di applicare il test. Raggruppiamo anche le frequenze osservate: Numero 0 1 2 3 4 o più Frequenze osservate Ok 5 13 11 10 11 P4 (Ok −ek )2 2 2 2 2 La statistica vale T = k=0 ek = (5−4.91) + (13−11.40) + (11−13.22) + (10−10.22) + 4.91 11.40 13.22 10.22 (11−10.25)2 10.25 ≈ 0.70. Dato che χ2α,m−1 = χ20.01,3 = 11.34, i dati sono compatibili con l’ipotesi all’1%.] 1 2 Esercitazione del 4 giugno 2010 Esercizio 3. Si esamini la seguente tabella, relativa a 181 individui: Oh,k Non fumatori Fumatori moderati Grandi fumatori Ipertensione 20 38 28 No ipertensione 50 27 18 Y Ok 70 65 46 OhX 86 95 181 Si può concludere, al 5% di significatività, che vi sia dipendenza tra il fumo e l’ipertensione? [Le frequenze attese stimate sono date da êh,k = n1 OhX OkY , da cui la tabella êh,k Non fumatori Fumatori moderati Grandi fumatori OhX Ipertensione 33.26 30.88 21.86 86 No ipertensione 36.74 34.11 24.14 95 Y Ok 70 65 46 181 P Pr (Oh,k −êh,k )2 La statistica del test è data da T = m . Essendo m = 2 e r = 3 h=1 k=1 êh,k P2 P3 (Oh,k −êh,k )2 2 2 otteniamo T = = (20−33.26) + . . . + (18−24.14) ≈ 16.48 > h=1 k=1 êh,k 33.26 24.14 χ2α,(m−1)(r−1) = χ20.05,2 = 5.991. Quindi l’ipotesi H0 : “il fumo e l’ipertensione sono indipendenti” è rifiutata al 5%.] Esercizio 4 (Esempio 13.10 dal libro di Ross). Due gruppi casuali di 20000 non fumatori e 10000 fumatori vengono seguiti per 10 anni, rilevando quanti di essi contraggono tumori ai polmoni. Oh,k Fumatori Non fumatori Tumore ai polmoni 62 14 Nessun tumore ai polmoni 9938 19986 OkY 10000 20000 OhX 76 29924 30000 Si può concludere, all’1% di significatività, che vi sia dipendenza tra il fumo e la probabilità di contrarre un tumore i polmoni? [Le frequenze attese stimate sono date da êh,k = n1 OhX OkY , da cui la tabella êh,k Fumatori Non fumatori OhX Tumore ai polmoni 25.33 50.67 76 Nessun tumore ai polmoni 9974.67 19949.33 29924 OkY 10000 20000 30000 P Pr (Oh,k −êh,k )2 La statistica del test è data da T = m . Essendo m = r = 2 h=1 k=1 êh,k P2 P2 (Oh,k −êh,k )2 2 (62−25.33) (14−50.67)2 (9938−9974.67)2 otteniamo T = = + + + h=1 k=1 êh,k 25.33 50.67 9974.67 (19986−19949.33)2 19949.33 ≈ 79.83 > χ2α,(m−1)(r−1) = χ20.01,1 = 6.635. I dati mostrano fortemente che c’è correlazione tra l’essere fumatori e il contrarre un tumore ai polmoni.] 3 Esercizio 5 (Esempio 10.10 dal libro di Ross). Si vuole verificare se il fatto che un giudice sentenzi il carcere per un imputato giudicato colpevole sia influenzato dal fatto che l’imputato si fosse dichiarato colpevole. Si esaminano due campioni di individui pregiudicati, condannati per rapina di secondo grado: di un primo campione di 142 individui che si erano dichiarati colpevoli ne sono stati incarcerati 74, mentre di un secondo campione di 72 individui che si erano dichiarati non colpevoli ne sono stati incarcerati 61. Quali conclusioni si possono trarre da questi dati? Si calcoli il p-value. [Siano p1 e p2 le probabilità di essere incarcerati rispettivamente per un individuo che si sia dichiarato colpevole e per un individuo che si sia dichiarato non colpevole (poi giudicato colpevole). Sottoponiamo a verifica l’ipotesi H0 : p1 = p2 contro H0 : p1 6= p2 . Si tratta di un test per l’uguaglianza di proporzioni di popolazione. I dati danno n1 = 74 1 2 142, n2 = 72, X1 = 74, X2 = 61 da cui p̂1 = X = 142 = 0.52, p̂2 = X = 61 = 0.85. n1 n2 72 n1 p̂1 +n2 p̂2 X1 +X2 74+61 Si ottiene dunque lo stimatore combinato p̂ = n1 +n2 = n1 +n2 = 142+72 = 0.63. p̂√ 0.52−0.85 1 −p̂2 La statistica del test vale ν = √ = √ ≈ −4.67. Il p̂(1−p̂) 1/n1 +1/n2 0.63·0.37·(1/142+1/72) p-value vale P (|Z| > ν) = 2(1 − Φ(|ν|)) ≈ 0: i dati mostrano dunque ogni ragionevole dubbio che la decisione di un giudice di incarcerare un imputato giudicato colpevole è influenzata dal fatto che l’imputato si sia dichiarato non colpevole.] Esercizio 6 (Compito a casa). Durante la seconda guerra mondiale, la parte meridionale di Londra fu colpita da 535 bombe volanti V1. Per analizzare la distribuzione geografica dei punti di impatto, tale area è stata suddivisa in 576 regioni di pari superficie, registrando quante bombe sono cadute in ciascuna regione. I dati sono riportati nella seguente tabella: Bombe ricevute 0 1 2 3 4 5 6 o più Numero di regioni (Ok ) 229 211 93 35 7 1 0 Si può affermare che il numero di bombe cadute in una regione segua una distribuzione di Poisson? Si esegua un test al 5%. [Dobbiamo eseguire un test χ2 di adattamento a una distribuzione P o(λ). Stimiamo λ dai dati: x = 535 = 0.929. Le frequenze attese sono date da ek = n π(k) = 576 k −0.929 (0.929) 576 · e per k ∈ {0, . . . , 5}, mentre per l’ultima classe e6 = n (1 − (π(0) + k! . . . + π(5))) = n − (e0 + . . . + e5 ). Essendo n = 576, si ottiene la seguente tabella: Bombe ricevute 0 1 2 3 4 5 6 o più Frequenze attese (ek ) 227.5 211.3 98.2 30.4 7.1 1.3 0.2 Raggruppando le ultime due classi, le condizioni per eseguire il test sono soddisfatte: Bombe ricevute 0 1 2 3 4 5 o più Frequenze osservate (Ok ) 229 211 93 35 7 1 Frequenze attese (ek ) 227.5 211.3 98.2 30.4 7.1 1.5 P5 (Oi −ei )2 2 (229−227.5) (1−1.5)2 La statistica del test vale t = = + . . . + = 1.17. k=0 ei 227.5 1.52 2 2 Dato che χα,m−2 = χ0.05,4 = 9.49 (m = 6 è il numero di classi e “−2” è perché è stato stimato un parametro) l’ipotesi H0 è accettata: i dati sono compatibili con una distribuzione di Poisson.]