Appunti test di Ipotesi - Dipartimento di Matematica

Matematica ed Elementi di Statistica
a.a. 2014/15
Appunti
Struttura di un Test di ipotesi ed esempi
Un test di ipotesi è una procedura che serve a verificare se i dati rilevati sperimentalmente
sono in accordo con un’ipotesi teorica su un fenomeno o la smentiscono con un certo grado di
affida bilità.
La struttuta comune ai test di ipotesi è la seguente:
Si sceglie l’ipotesi da verificare, detta ipotesi nulla.
Si individua il test da usare, che dipende dal tipo di fenomeno.
Ad ogni test è associata una quantità Q, detta quantità pivotale, che ha una distribuzione di
probabilità nota.
Il test consiste nel calcolare tale quantità in base ai dati rilevati e confrontarla con un valore
di soglia k ∗ che dipende dal livello di affidabilità α che richiediamo al test.
Valori tipici del livello di affidabilità α sono 0.1, 0.05, 0.01 e costituiscono dei valori di pro babilità.
Smentire un’ipotesi con affidabilità α = 0.01 vorrà dire che i dati rilevati hanno una probabilità al
più pari a 0.01 (cioè una probabilità dell’1%, ovvero molto bassa) di essere coerenti con l’ipotesi
nulla.
Il valore di soglia è definito come quel numero k ∗ per cui la probabilità che Q valga più di k ∗
assumendo che l’ipotesi nulla sia vera è α, ovvero p(Q > k ∗ ) = α.
Dunque, scelto α, si determina il valore di soglia k ∗ che dipende dalla distribuzione di probabilità
di Q, si calcola il valore di Q sui dati e lo si confronta con k ∗ .
- se Q > k ∗ , diremo che il test ha esito negativo: in tal caso possiamo respingere l’ipotesi
nulla con livello di affidabilità pari ad α
- se Q ≤ k ∗ , diremo che il test ha esito positivo; in tal caso, potremo affermare che i dati sono
coerenti con l’ipotesi nulla con livello di affidabilità 1 − α.
In Statistica esistono decine di test diversi. Vediamo solo qualche esempio a titolo esplicativo.
Test Z
Scopo del test : Testare l’ipotesi nulla che un certo campione di n eventi sia coerente con un
fenomeno di media µ e varianza σ 2 supposte note.
Ipotesi: occorre che n sia abbastanza grande (ad es. se il fenomeno teorico di riferimento è un
fenomeno di Bernoulli B(1, p), si riterrà n abbastanza grande non appena min{np, n(1−p)} > 5).
Quantità pivotale da considerare:
|Mn − µ| √
n
σ
dove Mn è la media calcolata sul campione. La quantità Z, come conseguenza del Teorema
del Limite Centrale, ha una distribuzione normale standard. Infatti, per n grande, Mn apMn − µ √
n è
prossima una normale di media µ e varianza σ 2 /n, dunque la sua standardizzata
σ
approssimativamente normale di media 0 e varianza 1.
|Z| =
Riportiamo i valori di soglia k ∗ per il test Z a due code , ovvero per la quantità pivotale |Z|,
ricavati dalle tavole della normale standard. Si osservi che tali valori k ∗ sono i quantili gaussiani
di ordine 1 − α/2.
α
k∗
0.1 1.645
0.05 1.960
0.001 2.576
Esempio di applicazione: ”Moneta truccata?”
Lanciando 25 volte una moneta si osservano 30 teste. Stabilire se questi dati confermano l’ipotesi
che la moneta non sia truccata, con livello di affidabilità α = 0.05.
L’ipotesi nulla è: la moneta non è truccata.
Nel caso di moneta non truccata ci aspettiamo che la frequenza relativa del numero di teste
su n lanci (nel nostro caso 25/30) non disti troppo dalla frequenza teorica attesa p = 1/2. Il
fenomeno teorico di riferimento è dunque una binomiale B(1, p) che, come sappiamo, ha media
µ = p e σ 2 = p(1 − p). Dunque,
|25/30 − 1/2| √
|M − p| √
n=
30 ' 3.65 > 1.960
|Z| = p
1/2
p(1 − p)
Quindi il test ha esito negativo: possiamo respingere l’ipotesi nulla che la moneta non sia truccata
con livello di affidabilità 0.05. In realtà, essendo anche 3.65 > 2.576, possiamo respingere
l’ipotesi anche con livello di affidabilità 0.01. Questo vuol dire che i dati ottenuti potrebbero
essere coerenti con l’ipotesi di moneta non truccata solo con probabilità dell’1%; quindi possiamo
rigettare l’ipotesi nulla con una sicurezza del 99%.
Ripetiamo, ora, il test nel caso che si siano ottenute 10 teste su 30 lanci. Otteniamo:
|Z| =
√
|1/3 − 1/2| √
30 = 53 ' 1.826 < 1.960
1/2
dunque il test ha esito positivo, ovvero i dati sono coerenti con l’ipotesi di moneta non truccata
con affidabilità del 95%. Attenzione: questo non vuol dire che abbiamo dimostrato che la moneta
non sia truccata con affidabilità del 95%. Infatti gli stessi dati potrebbero essere coerenti anche
con ipotesi di moneta truccata. Ad esempio, si può vedere che essi sono coerenti anche con
l’ipotesi di moneta truccata con p = 2/5. Infatti, in tal caso:
√
|M − p| √
|1/3 − 2/5| √
p
Z=p
n=
30 = 5/3 ' 0.745
p(1 − p)
6/5
valore anch’esso minore di 1.960.
Test T di Student
Il test Z si applica solo a fenomeni di cui supponiamo di conoscere a priori sia la media che la
varianza. A volte, però, la varianza non è nota. In questi casi, l’idea è quella di sostituire la
varianza con la sua stima data dal campione, ovvero la varianza campionaria s2 . Il test che si
ottiene in questo modo si chiama test T di Student.
Scopo: Testare l’ipotesi nulla che un certo campione di n eventi sia coerente con un fenomeno
di media µ supposta nota.
Ipotesi: occorre che il fenomeno (la popolazione da cui è estratto il campione) abbia una distribuzione normale, oppure che n sia abbastanza grande (n > 120).
Gradi di libertà: ν = n − 1 (è un parametro da cui dipende la distribuzione della quantità pivotale)
Quantità pivotale da considerare:
|Tn−1 | =
|Mn − µ| √
n
sn
dove Mn è la media calcolata sul campione e sn la deviazione standard campionaria.
La quantità Tn−1 non ha distribuzione normale, ma ha una distribuzione detta distribuzione
T di Student con ν = n − 1 gradi di libertà. Tale distribuzione dipende, attraverso il parametro
ν, dalla numerosità del campione. I valori della ditribuzione Tν si leggono su opportune tavole,
al pari di quelli della normale (vedi Tavola 2 ).
Esempio di applicazione.
Il proprietario di un’azienda di vini teme che il tasso alcolico medio del suo
vino quest’anno possa non essere più pari al 12.5% come indicato nell’etichetta.
Ese guendo una verifica su un campione di 6 bottiglie, si trovano i seguenti valori
11.5 11 12.5 13.1 12.7 12.4.
Supponendo che il tasso alcolico del vino segua una legge normale, verifica o smentisci il timore del proprietario.
Ipotesi nulla: ”il tasso alcolemico medio del vino è 12.5%.
Il valore teorico di µ è noto e vale 12.5. Possiamo applicare il test T di Student con ν = 6−1 = 5
gradi di libertà. Calcoliamo la media sul campione M6 = 12.2, da confrontare con la media teorica µ = 12.5, e la deviazione standard campionaria s6 ' 0.79. Il valore del test è
|T5 | ='
|12.2 − 12.5| √
6 ' 0.93.
0.79
Tale valore risulta inferiore al valore soglia k∗ della T di Student con 5 gradi di libertà per
α = 0.1, che vale 2.015. Quindi i dati sono compatibili con l’ipotesi che il valore sull’etichetta
sia corretto.