Statistica Inferenziale Soluzioni 3. Verifica di ipotesi

ISTITUZIONI DI STATISTICA – A. A. 2007/2008
Marco Minozzo e Annamaria Guolo
Laurea in Economia del Commercio Internazionale
Laurea in Economia e Amministrazione delle Imprese
Università degli Studi di Verona (sede di Vicenza)
Statistica Inferenziale
Soluzioni 3. Verifica di ipotesi
Introduzione.
Siano X1 , . . . , Xn v.a. indipendenti e con identica distribuzione. Sia f (x1 , . . . , xn ; θ) la densità o
la distribuzione di probabilità congiunta di X1 , . . . , Xn , con parametro incognito θ, appartenente
allo spazio parametrico Θ ⊆ IRp . Sia {Θ0 , Θ1 } una partizione di Θ e sia dato in corrispondenza il
sistema di verifica d’ipotesi, H0 : θ ∈ Θ0 (ipotesi nulla) contro H1 : θ ∈ Θ1 (ipotesi alternativa).
Data una statistica T , condurre la verifica d’ipotesi per valutare l’appartenenza o meno di θ a Θ0
consiste nella divisione dello spazio campionario in una zona di rifiuto R (nella quale H0 viene
rifiutata) ed in una zona di accettazione A (nella quale H0 viene accettata).
Nel condurre la procedura si possono compiere due tipi di errore:
• errore di primo tipo: si rifiuta H0 quando in realtà è vera. La probabilità di compiere l’errore
di primo tipo si indica solitamente con α, livello di significatività;
• errore di secondo tipo: si accetta H0 quando in realtà è falsa. La probabilità di compiere
questo errore si indica solitamente con β. La quantità (1 − β) è nota come potenza del test.
Non è possibile annullare le probabilità di commettere entrambi gli errori. Solitamente, si procede
cercando la regione di rifiuto (o la soglia critica che la definisce) in modo che l’errore di primo tipo
(il livello di significatività del test) sia pari ad un valore prefissato, spesso 0,05.
Esemplificazioni.
• Verifica d’ipotesi sulla media di una popolazione normale con varianza nota - ipotesi semplici. Siano X1 , . . . , Xn v.a. indipendenti ed identicamente distribuite come N(µ, σ 2 ). Sia
dato il sistema di verifica d’ipotesi H0 : µ = µ0 contro H1 : µ = µ1 (ipotesi semplici),
con µ0 < µ1 . Consideriamo la statistica X che, sotto H0 , vale a dire quando µ = µ0 , ha
distribuzione
X ∼ N(µ0 , σ 2 /n).
Il test rifiuta H0 in favore di H1 per valori grandi della statistica X, vale a dire che la regione
di rifiuto è formata dai valori di X tali che x > k, R = {x : x > k}. Il valore k si determina
in modo che il livello del test sia pari ad α, vale a dire in modo che
P X > k; µ = µ0 = α.
q
Considerando la distribuzione di X sotto H0 si ha che k = µ0 + zα σ 2 /n, dove zα è il
quantile di una normale standard che lascia alla propria destra una probabilità pari a α.
• Verifica d’ipotesi sulla media di una popolazione normale con varianza nota - ipotesi alternativa composta. Si considerino le v.a. distribuite come N(µ, σ 2 ) del punto precedente. Sia
ora H0 : µ = µ0 contro H1 : µ 6= µ0 (ipotesi alternativa composta). Il test in questione è un
test bilaterale o a due code. Consideriamo la statistica test
X − µ0
Z= q
,
σ 2 /n
1
2
M. Minozzo e A. Guolo – Statistica Inferenziale: Soluzioni 3
che sotto H0 ha distribuzione normale standard. Allora la regione di rifiuto è R = {z : |z| >
zα/2 }, ovvero
q
q
R = {x : x < µ0 − zα/2 σ 2 /n} ∪ {x : x > µ0 + zα/2 σ 2 /n}.
Nel caso di ipotesi H0 : µ = µ0 contro H1 : µ < µ0 (test unilaterale o ad una coda), si
ha R = {z : z < −zα }. Nel caso di ipotesi H0 : µ = µ0 contro H1 : µ > µ0 si ha
R = {z : z > z1−α }.
• Verifica d’ipotesi sulla media di una popolazione normale con varianza incognita - ipotesi
alternativa composta. Nelle ipotesi dei casi precedenti, sia dato il sistema di verifica d’ipotesi
H0 : µ = µ0 contro H1 : µ 6= µ0 . Consideriamo la statistica test
X − µ0
t= q
,
S 2 /n
che sotto H0 ha distribuzione tn−1 . Allora la regione di rifiuto è R = {t : |t| > tn−1;α/2 },
dove tn−1;α/2 è il quantile di una tn−1 che lascia alla propria destra una probabilità pari a α/2.
Nel caso di ipotesi H0 : µ = µ0 contro H1 : µ < µ0 , si ha R = {t : t < −tα }. Nel caso di
ipotesi H0 : µ = µ0 contro H1 : µ > µ0 si ha R = {t : t > tα }.
• Verifica d’ipotesi sulla varianza di una popolazione normale con media incognita - ipotesi
alternativa composta. Nelle ipotesi dei casi precedenti, sia dato il sistema di verifica d’ipotesi
H0 : σ 2 = σ02 contro H1 : σ 2 6= σ02 . Consideriamo la statistica test
χ2c =
S 2 (n − 1)
,
σ02
che sotto H0 ha distribuzione χ2n−1 . Allora la regione di rifiuto risulta pari a
R = {χ2c : χ2c < χ2n−1;1−α/2 } ∪ {χ2c : χ2c > χ2n−1;α/2 }.
• Verifica d’ipotesi sull’uguaglianza delle medie di due popolazioni normali con uguale varianza incognita. Siano X1 , . . . , Xn v.a. indipendenti ed identicamente distribuite come
2
N(µX , σX
) e siano Y1 , . . . , Ym v.a. indipendenti ed identicamente distribuite come N(µY , σY2 ).
Si considerino un campione di dimensione n da X1 , . . . , Xn e un campione di dimensione m
da Y1 , . . . , Ym . Sia dato il sistema di verifica d’ipotesi H0 : µX = µY contro H1 : µX 6=
2
2
µY . Si supponga che le due varianze siano uguali, σX
= σY2 . Siano SX
e SY2 le varianze
campionarie corrette di X e Y . Consideriamo la statistica test
D=r
X −Y
Sx2 (n−1)+SY2
(m−1)
(1/n
n+m−2
,
+ 1/m)
che sotto H0 ha distribuzione tn+m−2 . La regione di rifiuto è R = {d : |d| > tn+m−2;α/2 }.
• Verifica d’ipotesi sull’uguaglianza delle varianze di due popolazioni normali con medie igno2
te. Nelle ipotesi del punto precedente, si consideri il sistema di verifica d’ipotesi H0 : σX
=
2
2
2
σY contro H1 : σX 6= σY . Consideriamo la statistica test F data dal rapporto tra le varianze
campionarie corrette
S2
F = X2 .
SY
Allora, sotto H0 , F ∼ Fn−1,m−1 . La regione di rifiuto del test è R = {F : |F | > Fn−1,m−1;α/2 },
dove Fn−1,m−1;α/2 è il quantile di una Fn−1,m−1 che lascia alla propria destra una probabilità
2
2
pari a α/2. Nel caso di ipotesi H0 : σX
= σY2 contro H1 : σX
< σY2 , si ha R = {F : F <
2
2
2
2
−Fα }. Nel caso di ipotesi H0 : σX = σY contro H1 : σX > σY si ha R = {F : F > Fα }.
M. Minozzo e A. Guolo – Statistica Inferenziale: Soluzioni 3
3
• Verifica d’ipotesi per il confronto di proporzioni. Si considerino due campioni casuali da
X1 , . . . , Xn v.a. indipendenti distribuite come Ber(p1 ) e Y1 , . . . , Ym distribuite come Ber(p2 ).
Siano p̂1 e p̂2 le frequenze relative derivate dai due campioni. Supponendo che n e m siano
sufficientemente grandi si ha che
p̂1 − p̂2 ≈ N (p1 − p2 , p̂(1 − p̂)(1/n + 1/m)) ,
dove p̂ = (np̂1 + mp̂2 )/(n + m). Allora, per la verifica d’ipotesi H0 : p1 = p2 contro
H1 : p1 6= p2 , facciamo riferimento alla statistica test
p̂1 − p̂2
Z=q
,
p̂(1 − p̂)(1/n + 1/m)
che sotto H0 tende ad una normale standard. Allora la regione di rifiuto è R = {z : |z| >
zα/2 }. Nel caso di ipotesi H0 : p1 = p2 contro H1 : p1 < p2 , si ha R = {z : z < −zα/2 }. Nel
caso di ipotesi H0 : p1 = p2 contro H1 : p1 > p2 , si ha R = {z : z > zα/2 }.
4
M. Minozzo e A. Guolo – Statistica Inferenziale: Soluzioni 3
Esercizio A.
a) Dai 10 valori campionari osservati si ottiene una media campionaria pari a x̄ = 14, 2 e una
varianza campionaria corretta pari a S 2 = 112, 63. Si rifiuta H0 per valori di X̄ maggiori di x̄α dove
x̄α√
−8
) dove T ha distribuzione t di Student con 9
x̄α è tale che P (X̄ ≥ x̄α ; H0 ) = α = P (T ≥ S/
n
x̄α√
−8
g.d.l. Dalle tavole si trova che S/ n = 2, 821 da cui x̄α = 2, 821 · 3, 356 + 8 = 17, 467. Essendo
x̄ = 14, 2 minore del valore soglia, si accetta H0 .
b) La probabilità richiesta è data da
!
15, 59 − 8
P (X̄ > 15, 59; µ = 8) = P T > q
; µ = 8 = P (T > 2, 262) = 0, 025,
112, 63/10
q
dove T = (X̄ − 8)/ 112, 63/10 ha distribuzione t di Student con 9 g.d.l.
c) Si rifiuta l’ipotesi
di S 2 maggiori di s2α , dove s2α è tale che P (S 2 ≥
nulla per valori osservati
s2α ; H0 ) = α = P
(n−1)S 2
σ02
≥
(n−1)s2α
; H0
σ02
, dove σ02 è il valore di σ 2 sotto l’ipotesi nulla e
si distribuisce come una χ2 con 9 g.d.l. Dalle tavole si trova che
16, 919 · 10/9 = 18, 8, ed essendo S 2 pari a 112, 63, si rifiuta H0 .
(n−1)s2α
σ02
(n−1)S 2
σ02
= 16, 919, da cui s2α =
Esercizio B.
La v.a. media campionaria X risulta distribuita come una normale di media µ e varianza σ 2 /n.
Sulla base del test di verifica d’ipotesi indicato, si ha che
α = 0, 05 = P X > 147 ,
da cui si ricava che
x − 145
√
Φ
σ/ 30
!
= 0, 05.
Da qui risulta che σ 2 = 44, 6.
b) La potenza del test è data
P
147 − 150
X − 150
√
√
>
σ/ 20
σ/ 20
!
= 0, 993.
Esercizio C.
a) Si rifiuta l’ipotesi nulla per valori osservati della differenza D = X̄ − Ȳ superiori a Dα/2 oppure
inferiori a −Dα/2 , dove Dα/2 è tale che P (|D| ≥ Dα/2 ; H0 ) = α = P |Z| ≥
Sp
√ Dα/2
1/n1 +1/n2
,
2
e dove Sp2 = (SX
(n1 − 1) + SY2 (n2 − 1))/(n1 + n2 − 2) e Z ha approssimativamente distribuD
= 2, 576, da cui Dα/2 =
zione normale standardizzata. Dalle tavole si trova che √ α/2
Sp
1/n1 +1/n2
q
2, 576 · Sp 1/n1 + 1/n2 . Ed essendo Sp = 1, 12, si ha che Dα/2 = 0, 178. Per cui avendo ossevato
un valore di D pari a −0, 2, si rifiuta H0 . Si noti che mancando l’assunzione di normalità dei dati
di partenza, ed essendo n1 e n2 sufficientemente grandi, abbiamo assunto che Z fosse approssimativamente distribuita come una normale standardizzata in base all’estensione del teorema del limite
centrale.
b) Per questa verificaqdi ipotesi, si rifiuta l’ipotesi nulla H0 : µX = µY per valori di D maggiori di Dα = zα σ 1/n1 + 1/n2 = 0, 16027, dove zα = 2, 326. Quindi, la potenza del test
è data da P (D > Dα ; H1 ) = P Z > √
0,16027−0,5
1,25(1/n1 +1/n2 )
approssimativamente distribuzione normale standardizzata.
= P (Z > −4, 93) = 1, dove Z ha
M. Minozzo e A. Guolo – Statistica Inferenziale: Soluzioni 3
5
c) Si rifiuta l’ipotesi nulla per valori osservati
della differenza
D = p̂95 − p̂96
r inferioria Dα , con
Dα
Dα tale che P (D ≤ Dα ; H0 ) = α = P Z ≤ Sp̂ −p̂ , dove Sp̂95 −p̂96 = p̂(1 − p̂) n11 + n12 ,
95
96
p̂ = (p̂95 n1 + p̂96 n2 )/(n1 +n2 ), n1 = 80, n2 = 90 e Z ha approssimativamente distribuzione normale
standardizzata. Dalle tavole si trova che il percentile che lascia alla sua destra una probabilità del
95% è pari a −1, 645, per cui Sp̂ D−αp̂ = −1, 645, ed essendo p̂95 = 0, 624, p̂96 = 0, 645, p̂ = 0, 635,
95
96
Sp̂95 −p̂96 = 0, 0740, Dα = −1, 645 · 0, 0740 = −0, 12. Perciò avendo osservato un valore di D pari
a −0, 021, si accetta H0 .
Esercizio D.
2
Sia X ∼ N(µX , σX
) la v.a. che descrive il peso dei prodotti del macchinario A e sia Y ∼
2
2
N(µY , σY ) la v.a. che descrive il peso dei prodotti del macchinario B. L’interesse è su H0 : σX
= σY2
2
contro H1 : σX
6= σY2 . Sia n = 8 la numerosità del campione da X e m = 6 la numerosità del
campione da Y . Consideriamo la statistica F data dal rapporto tra le varianza campionarie corrette
n
S2
(Xi − X)2 /(n − 1)
F = X2 = Pi=1
,
m
2
SY
i=1 (Yi − Y ) /(m − 1)
P
che sotto H0 ha distribuzione Fn−1,m−1 .
Sulla base dei dati campionari, si ha che F = 0.8260. Tale valore risulta essere minore del quantile Fn−1,m−1;α , pari a 4,876 e ciò conduce all’accettazione dell’ipotesi nulla di uguaglianza tra le
2
e σY2 .
varianze σX