Test delle ipotesi e intervallo di confidenza
(sw, cap. 5)
Avendo definito la distribuzione campionaria per 1 e 0
possiamo costruire
- la statistica t (t-statistic) nel test di ipotesi
- un intervallo di confidenza per 1 e 0
5-1
Di seguito il nostro oggetto di interesse sara’ 1 , ma gli stessi
risultati valgono per 0 .
Yi = 0 + 1Xi + ui,
i = 1,…, n osservazioni campionarie
1 = Y/X (effetto causale)
Assunzioni per la stima OLS
1. E(u|X = x) = 0 la media degli altri fattori rappresentati da
u, non inclusi nel modello, e’ pari a zero. Questi altri
fattori non sono legati alla X.
5-2
2. (Xi,Yi),
i =1,…,n, sono i.i.d. Campionati casualmente.
3. Grandi outliers sono rari
Sotto queste assunzioni esiste la distribuzione campionaria
per ˆ distribuita come una normale (N grande)
1
ˆ1  N ( 1 ; 2 )
1
5-3
Test delle ipotesi
ed errori standard (Standard Error) per ˆ1
(Section 5.1)
L’ errore standard avra’ a che fare vedremo con la
varianza campionaria dei parametri ad esempio di ˆ1 :

2
1
Ricordiamo la stima
AWE = 696.7 + 9.6 AGE
5-4
1. Potrei voler testare la significativita’ statistica del
coefficiente ˆ , ovvero l’ ipotesi ˆ = 0. Se questa ipotesi
1
1
fosse vera avrei che X non influenza Y.
NB: a fronte di una stima puntuale che pare diversa da zero,
ad es. ˆ = 9.6 tale stima ha una variabilita’/ incertezza legata
1
alla varianza del coefficiente ( 1 ) che implica che potrei
2
accettare l’ ipotesi ˆ1 = 0.
5-5
2. Altro tipo di ipotesi che potrebbero essere di mio interesse
e’ ˆ = valore noto, ad esempio ˆ = 10
1
1
In generale esistono due tipi di test delle ipotesi:
Ipotesi nulla con ipotesi alternativa bilaterale
H0: ˆ1 = 1
vs. H1: ˆ1  1
dove 1,0 e’ il valore che voglio sottoporre a verifica (ad
esempio, suggerito dal modello teorico/economico), che puo’
5-6
essere come abbiamo visto ˆ1 = 1 o anche il caso particolare
ˆ = 0
1
Ipotesi nulla con ipotesi alternativa unilaterale
H0: ˆ1 = 1,0
vs. H1: ˆ1 < 1,0
A noi interessa il primo tipo! Utile per rispondere ai casi 1
e 2 fatti prima!!!
Devo costruire una statistica t-statistic, (che e’ un numero) e
confrontarla con il valore critico della N(0,1), se N grande
(N > 30)!!!
5-7
stima  valore ipotizzato ˆ1  1
t

errore standar della stima SE ( ˆ1 )
SE e’ la radice quadrata della varianza campionaria
stimata di ˆ1 :
ˆ
2
ˆ1
2
ˆ


N
(

;

Ricordate che 1
1
 )
1
5-8
Formula per l’ errore standard del parametro SE( ˆ1 )
1 n
2 2
(
X

X
)
ui

i
1 n2 1
2
ˆ

ˆ ˆ = 
varianza
campionaria
di
1
1
1 n
n
2 2

(Xi  X ) 

n 1
SE( ˆ1 ) = ˆ 2ˆ = errore standard (standard error) di ˆ1
1
 Il numeratore ha a che fare con la varianza degli
errori/residui u e il denominatore stima la var(X).
5-9
 Dividiamo n – 2 perche’ devo aggiustare i gradi di liberta’
perche’ sono stati stimati due coefficienti 0 e 1.
 SE( ˆ1 ) e’ calcolato da Gretl o altro software
TEST IPOTESI GENERALE
Per testare H0: 1 = 1 v. H1: 1  1
 Construisco la statistica t
ˆ1  1,0
t=
SE ( ˆ1 )
5-10
 Rigetto la ipotesi nulla se al 5% di livello di
significativita’ la |t| > 1.96 (valore critico della normale
per usare questo valore critico devo avere
n = 50 (anche 30 puo’ bastare)
TEST IPOTESI per la significativita’ del parametro (CASO
PARTICOLARE)
Per testare
H0: 1 = 0 vs. H1: 1  0
 Construisco la statistica t
5-11
ˆ1  0
t=
SE ( ˆ1 )
 Rigetto la ipotesi nulla se al 5% la |t| > 1.96
(1.96 e’ il valore critico della normale per usare questo
valore critico devo avere n = 50 (anche 30 puo’ bastare)
NB: potrei anche usare un valore critico per un livello
significativita’ del test dell’ 1% o del 10%
NB: se N < 30-50 devo usare le tavole della distribuzione
t-student e trovare il valore critico al 5% appropriato!!!!!!
5-12
Vedi pag. 150 del manuale.
5-13
Esempio: Test Scores e STR
TestScore = 698.9 – 2.28STR
SE( ˆ0 ) = 10.4
SE( ˆ1 ) = 0.52
Voglio testare
H0: 1 = 0 vs. H1: 1  0
Se la |t| > valore critico della normale, RIGETTO H0:
 Construisco la statistica t
ˆ1  0
t=
SE ( ˆ1 )
2.28  0
nel caso specifico t =
= –4.38
0.52
5-14
Prendo il valore assoluto della t che e’ t = 4.38 > del valore
critico della normale sia al 5% che all’ 1%
 Al livello di significativita’ del 5% il valore critico e’ 1.96
 All’ 1% il vc e’ 2.58,
Rigetto quindi la nulla in entrambi i casi!!!!
L’ inclinazione della regressione e’ statisticamente diversa da
zero, o significativa, la X e’ importante per spiegare la Y.
5-15
NB: Gretl fornisce sempre una stima per 1, il suo errore
standard SE( ˆ ), e anche una statistica t per la significativita’
1
ˆ1  0
di 1 ovvero t =
SE ( ˆ1 )
NB: la stessa cosa per l’ intercetta
Se voglio testare invece che il parametri assuma particolari
valori H0: 1 = 1,0 v. H1: 1  1,0,
 Devo construire io la statistica t
ˆ1  1,0
t=
SE ( ˆ1 )
o impostare il test in Gretl.
5-16
L’ intervallo di confidenza per un coefficiente di
regressione
(Section 5.2)
Abbiamo due definizione per l’ intervallo di confidenza al
95% che sono equivalenti
1. e’ l’ insieme di tutti i valori di 1 che non possono essere
rigettati da un test delle ipotesi bilaterale al 5% di livello
di significativita’;
2. e’ un intervallo che ha probabilita’ del 95% di contenere
il valore 1
5-17
Intervallo di confidenza del 95% 1 = { ˆ1  1.96SE( ˆ1 )}
Intervallo confidenza per l’ esempio: Test Scores e STR
TestScore = 698.9 – 2.28STR
SE( ˆ ) = 10.4 SE( ˆ ) = 0.52
0
1
95% confidence interval for ˆ1 :
5-18
{ ˆ1  1.96SE( ˆ1 )} = {–2.28  1.960.52}
Gli estremi dell’intervallo = (–3.30, –1.26), nota che
contengono la stima puntuale -2.28 !!!
Concludo
 L’ intervallo di confidenza al 95% non contiene lo zero
equivalentemente
 L’ ipotesi nulla 1 = 0 e’ rigettata al 5% L.S
5-19
Concludo: il parametro stimato e’ significativamente diverso
da zero
E’ un modo alternativo di condurre test delle ipotesi
Intervallo di confidenza per gli effetti stimati di una
variazione della X
Supponiamo di far variare X di un dato ammontare ΔX
La variazione associata in Y e’: 1 ΔX
5-20
I due estremi dell’ intervallo di confidenza per il parametro
ˆ

stimato 1 sono:
ˆ1 - 1.96SE( ˆ1 )
ˆ1 + 1.96SE( ˆ1 )
ˆ - 1.96SE( ˆ ), il valore predetto di una

1
Per l’ estremo 1
variazione di X e’
ˆ1 - 1.96SE( ˆ1 )ΔX
5-21
Per l’ altro estremo ˆ1 + 1.96SE( ˆ1 ) sara’ invece
ˆ1 + 1.96SE( ˆ1 ) ΔX
Esempio
Il provveditore vuole ridurre di 2 unita’ il rapporto studenti –
insegnanti: ΔX = - 2
• L’ intervallo di confidenza al 95% per ˆ1
era (-3.30, -1.26)
L’ effetto sul test della variazione di 2 unita’ puo’ quindi
variare tra -3.30 * (-2) = 6.60 e -1.26 *(-2) = 2.52.
5-22
• L’ intervallo di confidenza al 95% per
ΔX e’ (2.52, 6.60)
Conclusione. L’ incremento atteso del rendimento nel caso di
una riduzione di 2 unita’ la dimensione delle classi varia tra
2.52 e 6.60 con un livello di confidenza del 95%
Esercizio
Si consideri la seguente regressione (in parte da esercizio 5.1
pag. 153), N = 100
Test = 520.4 – 5.82 CS
(20.4)
(2.21)
5-23
Tra parentesi abbiamo gli ES dei parametri stimati
CS e’ la dimensione classi
Test e’ il rendimento scolastico
ˆ

1. commentate il coefficiente 1 : la stima puntuale
ˆ ̂ 0

2. si scriva il rapporto t (statistica t) per 1 e
̂
3. testate l’ipotesi H0: 0 = 0 al 5% LS usando il rapporto t
̂ 0 )= 25.51 > vc 1.96 rigetto la nulla l’intercetta e’
t(
significativamente diversa da zero
5-24
t ( ˆ1 ) = -2.63, considerando il valore assoluto = 2.63 >1.96
rigetto la nulla l’inclinazione e’ significativamente diversa da
zero
X influenza significativamente la Y. La dimensione classi
influenza significativamente il rendimento
ˆ = 0 al 5% LS usando il rapporto t

testate
l’ipotesi
H
:
0
1
4.
ˆ

t = -0.1 < 1.96 accetto la nulla, 1 non e’ significativamente
diverso da -5.6
5-25
ˆ = -5.6 al 5% LS usando il rapporto

testate
l’ipotesi
H
:
0
1
5.
t
6. calcolate l’ intervallo di confidenza al 95% per C
estremi (-10.15; -1.49)
̂ 0
calcolate
l’
intervallo
di
confidenza
al
95%
per
7.
estremi (480,4; 569,4)
8. con tali intervalli di confidenza e’ possibile rispondere ai
punti 3, 4, 5 sopra? Argomentate
8.1) lo zero non e’ mai incluso nei due intervalli di
confidenza e questo conferma quanto trovato ai punti 3 e 4
5-26
ˆ

8.2) -5.6 e’ incluso nell’ intervallo per 1 , quindi confermo
quanto trovato al punto 5
9. se N = 20 cosa cambia?
Devo usare i valori critici della t student non quelli della
normale. Quindi al 5% non avrò più 1.96!!!! ma il valore
critico al 5% della t – student e’ 2.09
REGOLA del P- value (e statistica t)
Se p value< 0.05 rigetto la nulla al 5%
5-27
The p-value based on the large-n standard normal
approximation to the t-statistic is 0.00001 (10–5)
5-28
5-29
5-30