Test delle Ipotesi – Parte I
• Test delle Ipotesi sulla media
– Introduzione
– Definizioni basilari
– Teoria per il caso di varianza nota
– Rischi nel test delle ipotesi
– Teoria per il caso di varianza non nota
• Test delle Ipotesi sui coefficienti di regressione
1
Test delle Ipotesi
Introduzione
• Un’ipotesi statistica è un’assunzione che noi facciamo su una
distribuzione di una variabile aleatoria
• Per
P esempio
i possiamo
i
assumere che
h una variabile
i bil aleatoria
l
i di
tipo gaussiano sia caratterizzata da una media μ = 20.3.
• Un test statistico di un’ipotesi è una procedura in cui si conclude
se è possibile non rigettare l’ipotesi (cioè non si può escludere
che essa sia vera) oppure rigettare l’ipotesi.
Le sorgenti delle ipotesi possono essere:
•
•
•
•
L’ipotesi può provenire da una richiesta di qualità
L’ipotesi è basata su valori noti da esperienze precedenti
L’ipotesi risulta da una teoria che si vuole verificare.
Altro
2
M. Grosso - Statistica
Test delle ipotesi - Parte 1
1
Test delle Ipotesi
Introduzione
• In ogni test si usa un campione e cerchiamo di trarre delle
conclusioni sulla popolazione corrispondente.
• Una conclusione non può mai essere completamente certa.
• Ogni test può comportare un certo rischio di errore
3
Test delle Ipotesi
Introduzione
Esempio:
• Una fabbrica p
produce tubi di acciaio con una data tensione di
snervamento
• Tale proprietà del materiale non è costante per il singolo
prodotto ma risulta soggetto a fluttuazioni all’interno della
produzione. Uno studio della produzione nell’arco degli anni ha
portato a concludere che la tensione di snervamento può essere
vista come una variabile aleatoria di tipo Gaussiano di media
μ=110 MPa e deviazione standard σ = 30 MPa
Y~N(110, 900)
4
M. Grosso - Statistica
Test delle ipotesi - Parte 1
2
Test delle Ipotesi
Introduzione
• Esempio/Continua
• Un’altra fabbrica p
produce (con
(
un’altra procedura)
p
) lo stesso tipo
p
di tubi di acciaio.
• Un campione di 100 prodotti ha rilevato una tensione di
snervamento:
y = 115.5 MPa
• È possibile che la nuova fabbrica produca acciaio di qualità
migliore, oppure la differenza è legata semplicemente alle
inevitabili fluttuazioni presenti nel processo?
5
Test delle Ipotesi - Ipotesi nulla
• Si vuole testare l’ipotesi che i risultati di questo campionamento
sperimentale
p
siano delle variabili aleatorie che abbiano media μ =
115.5
• Questa affermazione implica l’introduzione di una ipotesi che noi
battezziamo ipotesi nulla
H0 :
μ = μ0 = 115.5
6
M. Grosso - Statistica
Test delle ipotesi - Parte 1
3
Test delle Ipotesi - Ipotesi alternativa
• Una altra possibilità (plausibile) è che il nuovo catalizzatore sia
effettivamente più reattivo della vecchia produzione
• Questa ipotesi, in contrasto con l’ipotesi nulla, è battezzata
ipotesi alternativa:
H1 :
μ > μ0
• Tutti i test delle ipotesi statistici richiedono la formulazione di
un’ipotesi nulla e di un’ipotesi alternativa
• L’ipotesi nulla e l’ipotesi alternativa sono esaustive e mutuamente
esclusive.
7
Test delle Ipotesi
Significatività del test
• Ogni test delle ipotesi implica una scelta di livello di
significatività del test
• Il livello di significatività del test è la probabilità di rigettare
l’ipotesi nulla nonostante essa sia vera
• Questa probabilità prende il nome di errore di tipo I e si indica
con la lettera α
8
M. Grosso - Statistica
Test delle ipotesi - Parte 1
4
Test delle Ipotesi sulla media
Teoria
Caso in cui la varianza
σ2 sia nota
• Se l’ipotesi nulla
H0 :
μ = μ0
• fosse vera, allora la variabile aleatoria media del campione di
dati sperimentali
∑ Yi
Y =
n
• ha una funzione densità di probabilità che è una distribuzione
gaussiana di media μ0 e varianza σ2 /n
9
Test delle Ipotesi sulla media
Teoria
Caso in cui la varianza
σ2 sia nota
• Se si assume vera l’ipotesi nulla, la probabilità che Y assuma
valori prossimi a μ0 è molto elevata, ma non si possono escludere
valori diversi
• Fissare un livello di significatività del test equivale a calcolare
quale è il valore di Y al di sopra del quale la probabilità risulti
molto bassa
10
M. Grosso - Statistica
Test delle ipotesi - Parte 1
5
Test delle Ipotesi sulla media
Teoria
Caso in cui la varianza
σ2 sia nota
α = 5%
c
Non rigetto l’ipotesi nulla H0
Rigetto l’ipotesi nulla H0
• Al di sopra di c è poco plausibile che la variabile aleatoria
⎛
σ2 ⎞
Y = N ⎜ μ0 , ⎟
⎜
assuma valori
n ⎟⎠
⎝
11
Test delle Ipotesi sulla media
Ricetta 1/3
• Fissare un livello di significatività α
• Stab
Stabilire
l re l’ipotesi
l potes nulla
nulla:
H0 :
μ = μ0
• Contro l’ipotesi alternativa:
H1 :
μ > μ0
• Calcolare il valore stimato per la media (che corrisponde ad un
valore osservato della VA):
y=
∑ yi
n
12
M. Grosso - Statistica
Test delle ipotesi - Parte 1
6
Test delle Ipotesi sulla media
Ricetta 2/3
• Dato che la media di Y è supposta essere una gaussiana di media
μ0 e varianza σ2/n, la variabile aleatoria
Y − μ0
Z= n
σ
• è una distribuzione normale di tipo standard
• Quindi
c − μ0 ⎞
c − μ0 ⎞
⎛
⎛
P(Y < c )μ = μ = P⎜ Z < n
⎟ =1−α
⎟ = F⎜ n
σ ⎠
σ ⎠
⎝
⎝
0
• dove F è la distribuzione cumulativa della gaussiana di tipo
standard
• Determinato il valore della distribuzione normale che mi soddisfa
l’eguaglianza è possibile determinare c
13
Test delle Ipotesi sulla media
Ricetta 3/3
• Se
y >c
• La probabilità che il risultato ottenuto appartenga alla variabile
aleatoria ipotizzata è molto bassa, quindi rigettiamo l’ipotesi
nulla ed accettiamo l’ipotesi alternativa.
• Se
y<c
• non rigettiamo ll’ipotesi
ipotesi nulla
nulla.
• La regione contenente i valori per cui rigettiamo l’ipotesi nulla si
chiama regione di rigetto dell’ipotesi nulla
14
M. Grosso - Statistica
Test delle ipotesi - Parte 1
7
Test delle ipotesi sulla media - Esempio
• Si consideri di nuovo il caso dei tubi di acciaio.
• Il test delle ipotesi
p
è sul valore medio:
H0 :
H1 :
μ = μ0
μ > μ0
• Con un livello di significatività α = 5 %
15
Test delle ipotesi sulla media - Esempio
• Si valuta innanzitutto il valore c tale che P(Z>c) = α = 0.05:
F (c ) = 1 − α ⇒
c = 1.6449
• Inoltre, se l’ipotesi nulla fosse esatta, la variabile
z=
y − μ0
σ
n=
115.5 − 110
10 = 1.833
30
• sarebbe un valore osservato di una variabile aleatoria normale di
tipo standard.
16
M. Grosso - Statistica
Test delle ipotesi - Parte 1
8
Test delle ipotesi sulla media - Esempio
• La probabilità che la variabile aleatoria normale di media μ0 e
varianza σ2/n in questione assuma un valore eguale a 1.833
rientra nella zona di rigetto
Il valore osservato
rientra nella regione
0.5
in cui la variabile
aleatoria ha poche
0.4
probabilità di cadere
0.3
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
C’è un 5% di
probabilità che il
valore osservato
appartenga alla VA
supposta nell’ipotesi
nulla H0 e sia
comunque rigettata
17
Test delle ipotesi sulla media - Esempio
• Si consideri ora il caso in cui si scelga un livello di significatività
α = 1 %.
• Si valuta innanzitutto il valore c tale che P(Z>c) = α.
F (c ) = 1 − α ⇒
c = 2.3263
• Nel caso in esame, il valore osservato della variabile aleatoria
non rientra nella regione di rigetto dell’ipotesi.
• Si conclude che, per il livello di significatività scelto, non ci sono
evidenze sufficienti per rigettare l’ipotesi nulla.
18
M. Grosso - Statistica
Test delle ipotesi - Parte 1
9
Test delle ipotesi sulla media - Esempio
0.5
α = 0.01
0.4
0.3
0.2
0.1
0.0
-3
-2
-1
0
1
2
3
Valore osservato della variabile aleatoria di tipo standard
19
Test delle ipotesi sulla media
Ipotesi alternative 1/4
• Nel problema in esame si assume che il nostro campione di dati
sperimentali sia caratterizzato da una variabile aleatoria che
abbia una funzione densità di probabilità che coinvolge un
parametro ignoto θ e si assume l’ipotesi nulla che
H0 :
θ = θ0
• L’ipotesi alternativa era che
H1 :
θ > θ0
• Ma non è l’unica alternativa che possiamo considerare
20
M. Grosso - Statistica
Test delle ipotesi - Parte 1
10
Test delle ipotesi sulla media
Ipotesi alternative 2/4
• In altri casi la natura può suggerire altri tipi di alternative:
• Oppure
H1 :
θ < θ0
(1)
H1 :
θ ≠ θ0
(2)
• Le prime 2 alternative si chiamano one-sided. L’ultima two-sided
21
Test delle ipotesi sulla media
Ipotesi alternative 3/4
• Nel caso della ipotesi alternativa H1: θ < θ0, si deve determinare
il valore critico c1 tale che tutti i valori inferiori a c1 abbiano
una probabilità di verificarsi pari a α
• Dobbiamo escludere i valori per cui la distribuzione assuma valori
inferiori a c tali che
P(Y<μ0-c) =
α
Insieme dei valori per i
quali rigettiamo
l’ipotesi nulla
5%
μ0-c1 μ0
M. Grosso - Statistica
Test delle ipotesi - Parte 1
22
11
Test delle ipotesi sulla media
Ipotesi alternative 4/4
• Nel caso in cui l’ipotesi alternativa H1 è two-sided, ovvero μ ≠ μ0,
dobbiamo escludere sia i valori p
per cui la distribuzione assuma
valori inferiori a μ0-c, sia i valori per cui la distribuzione assuma
valori superiori a μ0 +c
5%
Insieme dei valori per i
quali non accettiamo
l’ipotesi nulla
μ0-c
μ0
μ0+c
23
Test delle ipotesi sulla media –
Caso Varianza non nota
• Si consideri di nuovo il caso del catalizzatore in cui stavolta la
varianza non sia nota e sia invece nota la sua stima s
H0 :
μ = μ0
H1 :
μ > μ0
• Se l’ipotesi nulla fosse vera, allora la variabile aleatoria
Z= n
Y − μ0
s
• Sarebbe una distribuzione ad (n-1) gradi di libertà.
24
M. Grosso - Statistica
Test delle ipotesi - Parte 1
12
Test delle ipotesi sulla media –
Caso Varianza non nota
• Fissare un livello di significatività del test (es: α= 5%)
• Calcolare s:
s2 =
1
2
∑ ( yi − y )
n −1
• Calcolare il valore di c per cui:
P (T ≤ c ) = F (c ) = 1 − α
• Dove T è la distribuzione di student ad n-1 gradi di libertà.
• Come valore osservato della variabile T possiamo calcolare
y − μ0
t= n
s2
• se t > c, rigettare l’ipotesi nulla ed accettare l’ipotesi alternativa
H1: μ>μ0
25
• se t< c non rigettare l’ipotesi nulla.
Test delle ipotesi sulla media –
Caso Varianza non nota
• La costruzione del test delle ipotesi nel caso di ipotesi
alternative di tipo differente è assolutamente equivalente al
caso approcciato con le distribuzioni di tipo gaussiano.
• Nel caso in cui:
H 0 : μ = μ0
H1 :
μ < μ0
• Dobbiamo escludere i valori per cui la T di student assuma valori
inferiori a c tali che P(c) = α
Insieme dei valori per i
quali non accettiamo
l’ipotesi nulla
5%
-k
M. Grosso - Statistica
Test delle ipotesi - Parte 1
26
13
Test delle ipotesi sulla media –
Caso Varianza non nota
• Nel caso in cui:
H0 :
μ = μ0
H1 :
μ ≠ μ0
• Dobbiamo escludere sia i valori per cui la T di student assuma
valori inferiori a c, sia i valori per cui la T di student assuma
valori superiori a c
5%
Insieme dei valori per i
quali non accettiamo
l’ipotesi nulla
-k
k
27
Test delle ipotesi sui coefficienti di
regressione
• Con una filosofia analoga ai casi precedenti, è possibile proporre
test delle ipotesi anche per lo studio della regressione lineare.
• Ricordando che, in presenza di N osservazioni yi, effettuate al
variare di una variabile regressore xi, è possibile valutare la
migliore retta di regressione
yi = β 0 + β1 xi + ε i
• si ha che:
⎛ σ2 ⎞
⎟⎟
~ N ⎜⎜ β1 ,
S xx
⎝ S xx ⎠
⎛
⎛ 1 x 2 ⎞⎞
⎟⎟ ⎟
βˆ0 = y − βˆ1 x ~ N ⎜⎜ β 0 , σ 2 ⎜⎜ +
⎟
N
S
xx ⎠ ⎠
⎝
⎝
βˆ1 =
M. Grosso - Statistica
Test delle ipotesi - Parte 1
ε i ~ N (0, σ 2 )
S xy
14
Test delle ipotesi sui coefficienti di
regressione
• Le stime di pendenza ed intercetta della retta di regressione
sono affette da incertezza
• Può pertanto essere utile stabilire se tali stime possano essere
compatibili con dei valori puntuali ipotizzati per β0 e/o β1, oppure
no
Test delle ipotesi sui coefficienti di
regressione
Test delle Ipotesi sulla pendenza - Assunzioni:
• Gli errori εi nelle osservazioni sono normalmente distribuiti ed
indipendenti
ε i ~ N (0, σ 2 )
• Si vuole testare l’ipotesi
H0:
β1 = β10
• Contro ll’ipotesi
ipotesi alternativa
alternativa:
H1:
β1 ≠ β10
• Ipotesi alternativa di tipo bilaterale (ma può anche essere “onesided”)
30
M. Grosso - Statistica
Test delle ipotesi - Parte 1
15
Test delle ipotesi sui coefficienti di
regressione
•
Test sulla pendenza:
Se l’ipotesi nulla fosse vera, la stima della pendenza della retta di
regressione sarebbe un esito di una variabile aleatoria di tipo Gaussiano:
⎛
βˆ1 N ⎜ β10 ,
⎝
•
•
•
⎟
S XX ⎠
Essendo β10 il valore supposto nel test delle ipotesi.
La distribuzione:
ˆ
Z=
•
σ2 ⎞
β1 − β10
σ 2 / S XX
È una distribuzione normale di tipo Standard nel caso in cui l’ipotesi
nulla fosse vera.
Se σ2 fosse nota potremmo usare la Z per testare l’ipotesi nulla.
31
Test delle ipotesi sui coefficienti di
regressione
• Si può comunque dimostrare che, nel caso in cui fosse nota solo
una stima s2 della varianza, la variabile aleatoria:
t=
βˆ1 − β10
s2
S xx
• è una distribuzione di tipo t di Student ad (n-2) gradi di libertà.
• Il test è quindi
i di effettuato
ff
confrontando
f
d il valore
l
osservato di t0
con il limite superiore della t di Student, per la soglia di errore
stabilito.
32
M. Grosso - Statistica
Test delle ipotesi - Parte 1
16
Test delle ipotesi sui coefficienti di
regressione
•
•
Test delle ipotesi sull’intercetta
In modo analogo è possibile ricavare una t di Student per un test
sull’intercetta
sull
intercetta b0:
H0:
β0 = β00
•
Contro l’ipotesi alternativa:
H1:
•
Se l’ipotesi nulla fosse vera, allora la distribuzione:
t=
•
β0 ≠ β00
βˆ0 − β 00
⎛ 1 x2 ⎞
⎟⎟
s 2 ⎜⎜ +
⎝ N S xx ⎠
È una t di Student ad (n-2) gradi di libertà
33
Test delle ipotesi sui coefficienti di
regressione – Caso particolare
• Un caso speciale molto importante è:
H0:
H1:
•
•
β1 = 0
β1 ≠ 0
Questo test delle ipotesi è legato al concetto di significatività della
regressione.
Il fallimento del rigetto dell’ipotesi nulla H0 implica che ci potrebbe non
essere dipendenza lineare tra la variabile dipendente e la variabile
regressore
regressore.
34
M. Grosso - Statistica
Test delle ipotesi - Parte 1
17
Test delle ipotesi –
Significatività della regressione
Situazioni in cui l’ipotesi nulla β1 = 0
non è rigettata
Situazioni in cui l’ipotesi nulla β1 = 0
è rigettata
35
M. Grosso - Statistica
Test delle ipotesi - Parte 1
18