UNIVERSITÀ di ROMA TOR VERGATA Corso di Laurea in

UNIVERSITÀ di ROMA TOR VERGATA
Corso di Laurea in Biotecnologie
Corso di Statistica, anno 2010-11
P.Baldi
Secondo esonero, 25 maggio 2011
Esercizio 1 Un uomo politico, A, spera che più del 50% della popolazione sia a favore della
sua candidatura. Per verificarlo viene effettuato un sondaggio. L’azienda che conduce il
sondaggio estrae dalla popolazione un campione casuale di individui e chiede a ciascuno se
sia favorevole o no.
a) Supponiamo che il campione sia composto da 100 elettori di cui 54 si dichiarano
favorevoli ad A. Qual è la proporzione di elettori favorevoli ad A nel campione ? Il nostro
candidato può respingere al livello α = 5% l’ipotesi che i cittadini a lui favorevoli siano
meno del 50% ?
b) Supponiamo che il campione sia composto da 200 elettori di cui 108 si dichiarano
favorevoli ad A. Qual è la proporzione di elettori favorevoli ad A nel campione ? Il nostro
candidato può respingere l’ipotesi al livello α = 5% che gli elettori a lui favorevoli siano
meno del 50% ?
c) Supponiamo che il campione sia composto da 500 elettori di cui 270 si dichiarano
favorevoli ad A. Qual è la proporzione di elettori favorevoli ad A nel campione ? Il nostro
politico può respingere al livello α = 5% l’ipotesi che gli elettori a lui favorevoli siano
meno del 50% ?
d) Supponendo che la vera proporzione di elettori favorevoli ad A sia del 52%, quanto
grande dovrebbe essere la numerosità del campione, n, perché anche nel campione A abbia la
maggioranza con la probabilità del 95% ? (Per questo punto si potrà trascurare la correzione
di continuità).
Esercizio 2 Si vuole stimare la vita media dei componenti elettronici prodotti dalla ditta
Y &Y . Viene osservato un campione di 50 componenti e si trova una vita media di 9000h
con una varianza S 2 = 1600.
a) Qual è l’intervallo di confidenza al 95% per la vita media di un componente prodotto
dalla ditta Y &Y ?
b) Quale sarebbe invece questo intervallo se sapessimo a priori che la varianza del
tempo di vita dei componenti è σ 2 = 1600 ?
c) Sempre supponendo di sapere che la varianza del tempo di vita di un componente è
2
σ = 1600, quante dovrebbero essere le osservazioni, se volessimo che la semi-ampiezza
dell’intervallo di confidenza al 95% fosse minore di 30h?
Esercizio 3 La cittadina di *** venne popolata nell’800 da coloni inglesi ed è tuttora abitata
dai loro discendenti. Si vuole verificare se nei 200 anni che sono intercorsi vi siano stati
mutamenti nel profilo genetico della popolazione. Si sa che le proporzioni dei 4 gruppi
sanguigni nella popolazione britannica sono
O
0.44
A
0.42
B
0.1
AB
0.04
Viene scelto un campione di n abitanti della nostra cittadina e vengono trovate le seguenti
proporzioni
O
A
B
AB
0.49 0.38 0.1 0.03
a) Supponiamo n = 200. Le osservazioni permettono di affermare che le proporzioni
osservate sono significativamente diverse da quelle della popolazione britannica, almeno al
livello α = 0.05?
b) E se le proporzioni osservate si riferissero ad un campione di numerosità n = 800 ?
E se considerassimo un livello α = 0.01?
Soluzioni
54
Esercizio 1. a) La proporzione d’individui favorevoli ad A nel campione è p̄ = 100
= 0.54.
1
Se la proporzione di elettori favorevoli ad A nella popolazione è = 2 , la probabilità di
avere più )≥) di 54 elettori favorevoli ad A si può ottenere con l’approssimazione normale.
Indicando Xi = 1 se lo i-esimo elettore è a favore di A e Xi = 0 altrimenti, allora il numero
d’individui per A nel campione si può scrivere S = X1 + . . . + X100 e dunque
53.5 − 50 = 1 − 8(0.7) =
P(S ≥ 54) = 1 − P(S ≤ 53) ≃ 8 1 √
100
2
= 1 − 0.758 = 0.242 = 24.2% .
L’ipotesi p ≤ 21 non può quindi essere respinta al livello α = 0.05.
b) La proporzione d’individui favorevoli ad A nel campione è ancora p̄ =
Ora l’approssimazione normale dà
108
200
= 0.54.
107.5 − 100 P(S ≥ 108) = 1 − P(S ≤ 107) ≃ 8
= 1 − 8(1.06) =
√
1
200
2
= 1 − 0.855 = 0.145 = 14.5% .
L’ipotesi p ≤ 21 non può quindi essere respinta al livello α = 0.05.
c) La proporzione d’individui favorevoli ad A nel campione è sempre p̄ =
Ora l’approssimazione normale dà
270
500
= 0.54.
269.5 − 250 = 1 − 8(1.74) =
P(S ≥ 270) = 1 − P(S ≤ 269) ≃ 8
√
1
2 500
= 1 − 0.958 = 0.042 = 4.2% .
L’ipotesi p ≤ 21 è quindi respinta al livello α = 0.05, ma non al livello α = 0.01.
d) Sempre usando l’approssimazione normale si ha
n · 0.5 − n · 0.52 P(X̄ > 0.5) = P(S > n · 0.5) = 1 − P(S ≤ n · 0.5) ≃ 1 − 8 √
n · 0.52 · 0.48
Se vogliamo che questa probabilità sia più grande del 95% dovrà quindi risultare
n · 0.5 − n · 0.52 8 √
≤ 0.05
n · 0.52 · 0.48
e dunque
n · 0.5 − n · 0.52
≤ φ0.05 = −1.64 .
√
n · 0.52 · 0.48
Deve dunque essere
√
n · (0.5 − 0.52) ≤ −1.64 ·
ovvero
n≥
√
1.64 · √0.52 · 0.48 2
0.02
0.52 · 0.48
= 1678.31
Deve dunque essere n ≥ 1679.
• L’errore più comune è stato di confondere la media della popolazione con la media
empirica: nel punto a), ad esempio, il valore 0.54 è la proporzione d’individui del campione
favorevoli ad A e non la probabilità (incognita) che un individuo scelto a caso sia favorevole
ad A.
Esercizio 2. a) L’intervallo di fiducia al livello 95% è
h
i
S
S
X̄ − √ t0.975 (n − 1), X̄ + √ t0.975 (n − 1)
n
n
Prendiamo per t0.95 (49) = 2.01 un valore a metà tra quelli di t0.975 (40) e di t0.975 (60) che
si trovano sulle tavole. Sostituendo troviamo √Sn 2.01 = 11.37
40
40
9000 − √ 2.01, 9000 + √ 2.01 = [8988.63, 9011.37]
50
50
b) Se sapessimo che la varianza del tempo di vita dei componenti è σ 2 = 1600, allora
l’intervallo di fiducia diviene
i
h
σ
σ
X̄ − √ φ0.975 , X̄ + √ φ0.975 .
n
n
, Dato che φ0.975 = 1.96 e dunque
h
√σ
n
φ0.975 = 11.09, l’intervallo di fiducia diviene
i
40
40
9000 − √ 1.96, 9000 + √ 1.96 = [8988.91, 9011.09] .
50
50
c) Dobbiamo determinare n in maniera che
σ
√ φ0.975 ≤ 30
n
ovvero
40 2
= 6.83
n ≥ 1.96 ·
30
Deve dunque essere n ≥ 683.
Esercizio 3. a) La statistica di Pearson vale
T = 200
(0.49 − 0.44)2
0.44
(0.38 − 0.42)2
(0.1 − 0.1)2
(0.03 − 0.04)2 +
+
+
= 2.4 .
0.42
0.1
0.04
2 (3) = 7.81. Poiché T ≤
Questa quantità deve essere confrontata con il quantile χ0.95
2 (3) il test del chi-quadrato non permette di respingere l’ipotesi che per i cittadini della
χ0.95
colonia le proporzioni dei quattro gruppi sanguigni siano le stesse che quelli della Gran
Bretagna al livello α = 0.05.
b) Ora il valore della statistica di Pearson è 4·2.4 = 9.6. Dunque il test del chi-quadrato
permette di respingere l’ipotesi che che per i cittadini della colonia le proporzioni dei quattro
gruppi sanguigni siano le stesse che quelli della Gran Bretagna al livello α = 0.05. Poiché
2 (3) = 11.34 il test invece non permette di rigettare l’ipotesi anche al livello
il quantile χ0.99
α = 0.01.
• In questo esercizio molti hanno calcolato i valori della statistica e li hanno confrontati
con i quantili della legge del chi-quadrato, ma non hanno capito che si respinge quando la
statistica è più grande del quantile e non viceversa. Intuitivamente la statistica di Pearson
è una misura della discrepanza tra i valori osservati e quelli teorici: si respinge l’ipotesi
quando la discrepanza è grande e non quando è piccola.