UNIVERSITÀ di ROMA TOR VERGATA Corso di Laurea in Biotecnologie Corso di Statistica, anno 2010-11 P.Baldi Secondo esonero, 25 maggio 2011 Esercizio 1 Un uomo politico, A, spera che più del 50% della popolazione sia a favore della sua candidatura. Per verificarlo viene effettuato un sondaggio. L’azienda che conduce il sondaggio estrae dalla popolazione un campione casuale di individui e chiede a ciascuno se sia favorevole o no. a) Supponiamo che il campione sia composto da 100 elettori di cui 54 si dichiarano favorevoli ad A. Qual è la proporzione di elettori favorevoli ad A nel campione ? Il nostro candidato può respingere al livello α = 5% l’ipotesi che i cittadini a lui favorevoli siano meno del 50% ? b) Supponiamo che il campione sia composto da 200 elettori di cui 108 si dichiarano favorevoli ad A. Qual è la proporzione di elettori favorevoli ad A nel campione ? Il nostro candidato può respingere l’ipotesi al livello α = 5% che gli elettori a lui favorevoli siano meno del 50% ? c) Supponiamo che il campione sia composto da 500 elettori di cui 270 si dichiarano favorevoli ad A. Qual è la proporzione di elettori favorevoli ad A nel campione ? Il nostro politico può respingere al livello α = 5% l’ipotesi che gli elettori a lui favorevoli siano meno del 50% ? d) Supponendo che la vera proporzione di elettori favorevoli ad A sia del 52%, quanto grande dovrebbe essere la numerosità del campione, n, perché anche nel campione A abbia la maggioranza con la probabilità del 95% ? (Per questo punto si potrà trascurare la correzione di continuità). Esercizio 2 Si vuole stimare la vita media dei componenti elettronici prodotti dalla ditta Y &Y . Viene osservato un campione di 50 componenti e si trova una vita media di 9000h con una varianza S 2 = 1600. a) Qual è l’intervallo di confidenza al 95% per la vita media di un componente prodotto dalla ditta Y &Y ? b) Quale sarebbe invece questo intervallo se sapessimo a priori che la varianza del tempo di vita dei componenti è σ 2 = 1600 ? c) Sempre supponendo di sapere che la varianza del tempo di vita di un componente è 2 σ = 1600, quante dovrebbero essere le osservazioni, se volessimo che la semi-ampiezza dell’intervallo di confidenza al 95% fosse minore di 30h? Esercizio 3 La cittadina di *** venne popolata nell’800 da coloni inglesi ed è tuttora abitata dai loro discendenti. Si vuole verificare se nei 200 anni che sono intercorsi vi siano stati mutamenti nel profilo genetico della popolazione. Si sa che le proporzioni dei 4 gruppi sanguigni nella popolazione britannica sono O 0.44 A 0.42 B 0.1 AB 0.04 Viene scelto un campione di n abitanti della nostra cittadina e vengono trovate le seguenti proporzioni O A B AB 0.49 0.38 0.1 0.03 a) Supponiamo n = 200. Le osservazioni permettono di affermare che le proporzioni osservate sono significativamente diverse da quelle della popolazione britannica, almeno al livello α = 0.05? b) E se le proporzioni osservate si riferissero ad un campione di numerosità n = 800 ? E se considerassimo un livello α = 0.01? Soluzioni 54 Esercizio 1. a) La proporzione d’individui favorevoli ad A nel campione è p̄ = 100 = 0.54. 1 Se la proporzione di elettori favorevoli ad A nella popolazione è = 2 , la probabilità di avere più )≥) di 54 elettori favorevoli ad A si può ottenere con l’approssimazione normale. Indicando Xi = 1 se lo i-esimo elettore è a favore di A e Xi = 0 altrimenti, allora il numero d’individui per A nel campione si può scrivere S = X1 + . . . + X100 e dunque 53.5 − 50 = 1 − 8(0.7) = P(S ≥ 54) = 1 − P(S ≤ 53) ≃ 8 1 √ 100 2 = 1 − 0.758 = 0.242 = 24.2% . L’ipotesi p ≤ 21 non può quindi essere respinta al livello α = 0.05. b) La proporzione d’individui favorevoli ad A nel campione è ancora p̄ = Ora l’approssimazione normale dà 108 200 = 0.54. 107.5 − 100 P(S ≥ 108) = 1 − P(S ≤ 107) ≃ 8 = 1 − 8(1.06) = √ 1 200 2 = 1 − 0.855 = 0.145 = 14.5% . L’ipotesi p ≤ 21 non può quindi essere respinta al livello α = 0.05. c) La proporzione d’individui favorevoli ad A nel campione è sempre p̄ = Ora l’approssimazione normale dà 270 500 = 0.54. 269.5 − 250 = 1 − 8(1.74) = P(S ≥ 270) = 1 − P(S ≤ 269) ≃ 8 √ 1 2 500 = 1 − 0.958 = 0.042 = 4.2% . L’ipotesi p ≤ 21 è quindi respinta al livello α = 0.05, ma non al livello α = 0.01. d) Sempre usando l’approssimazione normale si ha n · 0.5 − n · 0.52 P(X̄ > 0.5) = P(S > n · 0.5) = 1 − P(S ≤ n · 0.5) ≃ 1 − 8 √ n · 0.52 · 0.48 Se vogliamo che questa probabilità sia più grande del 95% dovrà quindi risultare n · 0.5 − n · 0.52 8 √ ≤ 0.05 n · 0.52 · 0.48 e dunque n · 0.5 − n · 0.52 ≤ φ0.05 = −1.64 . √ n · 0.52 · 0.48 Deve dunque essere √ n · (0.5 − 0.52) ≤ −1.64 · ovvero n≥ √ 1.64 · √0.52 · 0.48 2 0.02 0.52 · 0.48 = 1678.31 Deve dunque essere n ≥ 1679. • L’errore più comune è stato di confondere la media della popolazione con la media empirica: nel punto a), ad esempio, il valore 0.54 è la proporzione d’individui del campione favorevoli ad A e non la probabilità (incognita) che un individuo scelto a caso sia favorevole ad A. Esercizio 2. a) L’intervallo di fiducia al livello 95% è h i S S X̄ − √ t0.975 (n − 1), X̄ + √ t0.975 (n − 1) n n Prendiamo per t0.95 (49) = 2.01 un valore a metà tra quelli di t0.975 (40) e di t0.975 (60) che si trovano sulle tavole. Sostituendo troviamo √Sn 2.01 = 11.37 40 40 9000 − √ 2.01, 9000 + √ 2.01 = [8988.63, 9011.37] 50 50 b) Se sapessimo che la varianza del tempo di vita dei componenti è σ 2 = 1600, allora l’intervallo di fiducia diviene i h σ σ X̄ − √ φ0.975 , X̄ + √ φ0.975 . n n , Dato che φ0.975 = 1.96 e dunque h √σ n φ0.975 = 11.09, l’intervallo di fiducia diviene i 40 40 9000 − √ 1.96, 9000 + √ 1.96 = [8988.91, 9011.09] . 50 50 c) Dobbiamo determinare n in maniera che σ √ φ0.975 ≤ 30 n ovvero 40 2 = 6.83 n ≥ 1.96 · 30 Deve dunque essere n ≥ 683. Esercizio 3. a) La statistica di Pearson vale T = 200 (0.49 − 0.44)2 0.44 (0.38 − 0.42)2 (0.1 − 0.1)2 (0.03 − 0.04)2 + + + = 2.4 . 0.42 0.1 0.04 2 (3) = 7.81. Poiché T ≤ Questa quantità deve essere confrontata con il quantile χ0.95 2 (3) il test del chi-quadrato non permette di respingere l’ipotesi che per i cittadini della χ0.95 colonia le proporzioni dei quattro gruppi sanguigni siano le stesse che quelli della Gran Bretagna al livello α = 0.05. b) Ora il valore della statistica di Pearson è 4·2.4 = 9.6. Dunque il test del chi-quadrato permette di respingere l’ipotesi che che per i cittadini della colonia le proporzioni dei quattro gruppi sanguigni siano le stesse che quelli della Gran Bretagna al livello α = 0.05. Poiché 2 (3) = 11.34 il test invece non permette di rigettare l’ipotesi anche al livello il quantile χ0.99 α = 0.01. • In questo esercizio molti hanno calcolato i valori della statistica e li hanno confrontati con i quantili della legge del chi-quadrato, ma non hanno capito che si respinge quando la statistica è più grande del quantile e non viceversa. Intuitivamente la statistica di Pearson è una misura della discrepanza tra i valori osservati e quelli teorici: si respinge l’ipotesi quando la discrepanza è grande e non quando è piccola.