Foglio 8 Struttura di un Test di ipotesi ed esempi Un test di ipotesi

annuncio pubblicitario
Matematica ed Elementi di Statistica
Appunti - Foglio 8
Struttura di un Test di ipotesi ed esempi
Un test di ipotesi è una procedura che serve a verificare se i dati rilevati sperimentalmente
sono in accordo con un’ipotesi teorica su un fenomeno o la smentiscono con un certo grado di
affida bilità.
La struttuta comune ai test di ipotesi è la seguente:
Si sceglie l’ipotesi da verificare, detta ipotesi nulla.
Si individua il test da usare, che dipende dal tipo di fenomeno.
Ad ogni test è associata una quantità Q, detta quantità pivotale, che ha una distribuzione di
probabilità nota.
Il test consiste nel calcolare tale quantità in base ai dati rilevati e confrontarla con un valore
di soglia k ∗ che dipende dal livello di affidabilità α che richiediamo al test.
Valori tipici del livello di affidabilità α sono 0.1, 0.05, 0.01 e costituiscono dei valori di pro babilità.
Smentire un’ipotesi con affidabilità α = 0.01 vorrà dire che i dati rilevati hanno una probabilità al
più pari a 0.01 (cioè una probabilità dell’1%, ovvero molto bassa) di essere coerenti con l’ipotesi
nulla.
Il valore di soglia è definito come quel numero k ∗ per cui la probabilità che Q valga più di k ∗
assumendo che l’ipotesi nulla sia vera è α, ovvero p(Q > k ∗ ) = α.
Dunque, scelto α, si determina il valore di soglia k ∗ che dipende dalla distribuzione di probabilità
di Q, si calcola il valore di Q sui dati e lo si confronta con k ∗ .
- se Q > k ∗ , diremo che il test ha esito negativo: in tal caso possiamo respingere l’ipotesi
nulla con livello di affidabilità pari ad α
- se Q ≤ k ∗ , diremo che il test ha esito positivo; in tal caso, potremo affermare che i dati sono
coerenti con l’ipotesi nulla con livello di affidabilità 1 − α.
In Statistica esistono decine di test diversi. Vediamo solo qualche esempio a titolo esplicativo.
Test Z
Scopo del test : Testare l’ipotesi nulla che un certo campione di n eventi sia coerente con un
fenomeno di media µ e varianza σ 2 supposte note.
Ipotesi: occorre che n sia abbastanza grande (ad es. se il fenomeno teorico di riferimento è un
fenomeno di Bernoulli B(1, p), si riterrà n abbastanza grande non appena min{np, n(1−p)} > 5).
Quantità pivotale da considerare:
|Mn − µ| √
n
σ
dove Mn è la media calcolata sul campione. La quantità Z, come conseguenza del Teorema del
Limite Centrale, ha una distribuzione normale standard. Infatti, per n grande Mn approssima
Mn − µ √
n è approssiuna normale di media µ e varianza σ 2 /n, dunque la sua standardizzata
σ
mativamente normale di media 0 e varianza 1.
|Z| =
Riportiamo i valori di soglia k ∗ per il test Z a due code , ovvero per la quantità pivotale |Z|,
ricavati dalle tavole della normale standard.
α
k∗
0.1 1.645
0.05 1.960
0.001 2.576
Esempio di applicazione: ”Moneta truccata?”
Lanciando 25 volte una moneta si osservano 30 teste. Stabilire se questi dati confermano l’ipotesi
che la moneta non sia truccata, con livello di affidabilità α = 0.05.
L’ipotesi nulla è: la moneta non è truccata.
Nel caso di moneta non truccata ci aspettiamo che la frequenza relativa del numero di teste
su n lanci (nel nostro caso 25/30) non disti troppo dalla frequenza teorica attesa p = 1/2. Il
fenomeno teorico di riferimento è dunque una binomiale B(1, p) che, come sappiamo, ha media
µ = p e σ 2 = p(1 − p). Dunque,
|M − p| √
25/30 − 1/2 √
|Z| = p
n=
30 ' 3.65 > 1.960
1/2
p(1 − p)
Quindi il test ha esito negativo: possiamo respingere l’ipotesi nulla che la moneta non sia truccata
con livello di affidabilità 0.05. In realtà, essendo anche 3.65 > 2.576, possiamo respingere
l’ipotesi anche con livello di affidabilità 0.01. Questo vuol dire che i dati ottenuti potrebbero
essere coerenti con l’ipotesi di moneta non truccata solo con probabilità dell’1%; quindi possiamo
rigettare l’ipotesi nulla con una sicurezza del 99%.
Ripetiamo, ora, il test nel caso che si siano ottenute 10 teste su 30 lanci. Otteniamo:
|Z| =
√
1/3 − 1/2 √
30 = 53 ' 1.826 < 1.960
1/2
dunque il test ha esito positivo, ovvero i dati sono coerenti con l’ipotesi di moneta non truccata
con affidabilità del 95%. Attenzione: questo non vuol dire che abbiamo dimostrato che la moneta
non sia truccata con affidabilità del 95%. Infatti gli stessi dati potrebbero essere coerenti anche
con ipotesi di moneta truccata. Ad esempio, si può vedere che essi sono coerenti anche con
l’ipotesi di moneta truccata con p = 2/5. Infatti, in tal caso:
√
|M − p| √
|1/3 − 2/5| √
p
Z=p
n=
30 = 5/3 ' 0.745
p(1 − p)
6/5
valore anch’esso minore di 1.960.
Test T di Student
Il test Z si applica solo a fenomeni di cui supponiamo di conoscere a priori sia la media che la
varianza. A volte, però, la varianza non è nota. In questi casi, l’idea è quella di sostituire la
varianza con la sua stima data dal campione, ovvero la varianza campionaria s2 . Il test che si
ottiene in questo modo si chiama test T di Student.
Scopo: Testare l’ipotesi nulla che un certo campione di n eventi sia coerente con un fenomeno
di media µ supposta nota.
Ipotesi: occorre che il fenomeno (la popolazione da cui è estratto il campione) abbia una distribuzione normale, oppure che n sia abbastanza grande (n > 120).
Gradi di libertà: ν = n − 1 (è un parametro da cui dipende la distribuzione della quantità pivotale)
Quantità pivotale da considerare:
|Tn−1 | =
|Mn − µ| √
n
s2n
dove Mn è la media calcolata sul campione e s2n la deviazione standard campionaria.
La quantità Tn−1 non ha distribuzione normale, ma ha una distribuzione detta distribuzione
T di Student con ν = n − 1 gradi di libertà. Tale distribuzione dipende, attraverso il parametro
ν, dalla numerosità del campione. I valori della ditribuzione Tν si leggono su opportune tavole,
al pari di quelli della normale.
Esempio di applicazione.
Il proprietario di un’azienda di vini teme che il tasso alcolico medio del suo
vino quest’anno possa non essere più pari al 12.5% come indicato nell’etichetta.
Ese guendo una verifica su un campione di 6 bottiglie, si trovano i seguenti valori
11.5 11 12.5 13.1 12.7 12.4.
Supponendo che il tasso alcolico del vino segua una legge normale, verifica o smentisci il timore del proprietario.
Ipotesi nulla: ”il tasso alcolemico medio del vino è 12.5%.
Il valore teorico di µ è noto e vale 12.5. Possiamo applicare il test T di Student con ν = 6−1 = 5
gradi di libertà. Calcoliamo la media sul campione M6 = 12.2, da confrontare con la media teorica µ = 12.5, e la deviazione standard campionaria s6 ' 0.79. Il valore del test è
|T5 | ='
|12.2 − 12.5| √
6 ' 0.93.
0.79
Tale valore risulta inferiore al valore soglia k∗ della T di Student con 5 gradi di libertà per
α = 0.1, che vale 2.015. Quindi i dati sono compatibili con l’ipotesi che il valore sull’etichetta
sia corretto.
Scarica