Appunti test di Ipotesi - Dipartimento di Matematica

Matematica ed Elementi di Statistica
a.a. 2014/15
Appunti
Struttura di un Test di ipotesi ed esempi
Un test di ipotesi è una procedura che serve a verificare se i dati rilevati sperimentalmente
sono in accordo con un’ipotesi teorica su un fenomeno o la smentiscono con un certo grado di
affida bilità.
La struttuta comune ai test di ipotesi è la seguente:
Si sceglie l’ipotesi da verificare, detta ipotesi nulla.
Si individua il test da usare, che dipende dal tipo di fenomeno.
Ad ogni test è associata una quantità Q, detta quantità pivotale, che ha una distribuzione di
probabilità nota.
Il test consiste nel calcolare tale quantità in base ai dati rilevati e confrontarla con un valore
di soglia k ∗ che dipende dal livello di affidabilità α che richiediamo al test.
Valori tipici del livello di affidabilità α sono 0.1, 0.05, 0.01 e costituiscono dei valori di pro babilità.
Smentire un’ipotesi con affidabilità α = 0.01 vorrà dire che i dati rilevati hanno una probabilità al
più pari a 0.01 (cioè una probabilità dell’1%, ovvero molto bassa) di essere coerenti con l’ipotesi
nulla.
Il valore di soglia è definito come quel numero k ∗ per cui la probabilità che Q valga più di k ∗
assumendo che l’ipotesi nulla sia vera è α, ovvero p(Q > k ∗ ) = α.
Dunque, scelto α, si determina il valore di soglia k ∗ che dipende dalla distribuzione di probabilità
di Q, si calcola il valore di Q sui dati e lo si confronta con k ∗ .
- se Q > k ∗ , diremo che il test ha esito negativo: in tal caso possiamo respingere l’ipotesi
nulla con livello di affidabilità pari ad α
- se Q ≤ k ∗ , diremo che il test ha esito positivo; in tal caso, potremo affermare che i dati sono
coerenti con l’ipotesi nulla con livello di affidabilità 1 − α.
In Statistica esistono decine di test diversi. Vediamo solo qualche esempio a titolo esplicativo.
Test Z
Scopo del test : Testare l’ipotesi nulla che un certo campione di n eventi sia coerente con un
fenomeno di media µ e varianza σ 2 supposte note.
Ipotesi: occorre che n sia abbastanza grande (ad es. se il fenomeno teorico di riferimento è un
fenomeno di Bernoulli B(1, p), si riterrà n abbastanza grande non appena min{np, n(1−p)} > 5).
Quantità pivotale da considerare:
|Mn − µ| √
n
σ
dove Mn è la media calcolata sul campione. La quantità Z, come conseguenza del Teorema
del Limite Centrale, ha una distribuzione normale standard. Infatti, per n grande, Mn apMn − µ √
n è
prossima una normale di media µ e varianza σ 2 /n, dunque la sua standardizzata
σ
approssimativamente normale di media 0 e varianza 1.
|Z| =
Riportiamo i valori di soglia k ∗ per il test Z a due code , ovvero per la quantità pivotale |Z|,
ricavati dalle tavole della normale standard. Si osservi che tali valori k ∗ sono i quantili gaussiani
di ordine 1 − α/2.
α
k∗
0.1 1.645
0.05 1.960
0.001 2.576
Esempio di applicazione: ”Moneta truccata?”
Lanciando 25 volte una moneta si osservano 30 teste. Stabilire se questi dati confermano l’ipotesi
che la moneta non sia truccata, con livello di affidabilità α = 0.05.
L’ipotesi nulla è: la moneta non è truccata.
Nel caso di moneta non truccata ci aspettiamo che la frequenza relativa del numero di teste
su n lanci (nel nostro caso 25/30) non disti troppo dalla frequenza teorica attesa p = 1/2. Il
fenomeno teorico di riferimento è dunque una binomiale B(1, p) che, come sappiamo, ha media
µ = p e σ 2 = p(1 − p). Dunque,
|25/30 − 1/2| √
|M − p| √
n=
30 ' 3.65 > 1.960
|Z| = p
1/2
p(1 − p)
Quindi il test ha esito negativo: possiamo respingere l’ipotesi nulla che la moneta non sia truccata
con livello di affidabilità 0.05. In realtà, essendo anche 3.65 > 2.576, possiamo respingere
l’ipotesi anche con livello di affidabilità 0.01. Questo vuol dire che i dati ottenuti potrebbero
essere coerenti con l’ipotesi di moneta non truccata solo con probabilità dell’1%; quindi possiamo
rigettare l’ipotesi nulla con una sicurezza del 99%.
Ripetiamo, ora, il test nel caso che si siano ottenute 10 teste su 30 lanci. Otteniamo:
|Z| =
√
|1/3 − 1/2| √
30 = 53 ' 1.826 < 1.960
1/2
dunque il test ha esito positivo, ovvero i dati sono coerenti con l’ipotesi di moneta non truccata
con affidabilità del 95%. Attenzione: questo non vuol dire che abbiamo dimostrato che la moneta
non sia truccata con affidabilità del 95%. Infatti gli stessi dati potrebbero essere coerenti anche
con ipotesi di moneta truccata. Ad esempio, si può vedere che essi sono coerenti anche con
l’ipotesi di moneta truccata con p = 2/5. Infatti, in tal caso:
√
|M − p| √
|1/3 − 2/5| √
p
Z=p
n=
30 = 5/3 ' 0.745
p(1 − p)
6/5
valore anch’esso minore di 1.960.
Test T di Student
Il test Z si applica solo a fenomeni di cui supponiamo di conoscere a priori sia la media che la
varianza. A volte, però, la varianza non è nota. In questi casi, l’idea è quella di sostituire la
varianza con la sua stima data dal campione, ovvero la varianza campionaria s2 . Il test che si
ottiene in questo modo si chiama test T di Student.
Scopo: Testare l’ipotesi nulla che un certo campione di n eventi sia coerente con un fenomeno
di media µ supposta nota.
Ipotesi: occorre che il fenomeno (la popolazione da cui è estratto il campione) abbia una distribuzione normale, oppure che n sia abbastanza grande (n > 120).
Gradi di libertà: ν = n − 1 (è un parametro da cui dipende la distribuzione della quantità pivotale)
Quantità pivotale da considerare:
|Tn−1 | =
|Mn − µ| √
n
sn
dove Mn è la media calcolata sul campione e sn la deviazione standard campionaria.
La quantità Tn−1 non ha distribuzione normale, ma ha una distribuzione detta distribuzione
T di Student con ν = n − 1 gradi di libertà. Tale distribuzione dipende, attraverso il parametro
ν, dalla numerosità del campione. I valori della ditribuzione Tν si leggono su opportune tavole,
al pari di quelli della normale (vedi Tavola 2 ).
Esempio di applicazione.
Il proprietario di un’azienda di vini teme che il tasso alcolico medio del suo
vino quest’anno possa non essere più pari al 12.5% come indicato nell’etichetta.
Ese guendo una verifica su un campione di 6 bottiglie, si trovano i seguenti valori
11.5 11 12.5 13.1 12.7 12.4.
Supponendo che il tasso alcolico del vino segua una legge normale, verifica o smentisci il timore del proprietario.
Ipotesi nulla: ”il tasso alcolemico medio del vino è 12.5%.
Il valore teorico di µ è noto e vale 12.5. Possiamo applicare il test T di Student con ν = 6−1 = 5
gradi di libertà. Calcoliamo la media sul campione M6 = 12.2, da confrontare con la media teorica µ = 12.5, e la deviazione standard campionaria s6 ' 0.79. Il valore del test è
|T5 | ='
|12.2 − 12.5| √
6 ' 0.93.
0.79
Tale valore risulta inferiore al valore soglia k∗ della T di Student con 5 gradi di libertà per
α = 0.1, che vale 2.015. Quindi i dati sono compatibili con l’ipotesi che il valore sull’etichetta
sia corretto.