Verifica di ipotesi e intervalli di confidenza nella regressione multipla

Verifica di ipotesi e intervalli di confidenza
nella regressione multipla
Eduardo Rossi2
2 Università
di Pavia (Italy)
Maggio 2014
Rossi
MRLM
Econometria - 2014
1 / 54
Sommario
Verifica di ipotesi e intervalli di confidenza per un singolo
coefficiente
Verifica di ipotesi congiunte su più coefficienti
Altri tipi di ipotesi che implicano più coefficienti
Variabili di interesse, variabili di controllo e come decidere quali
variabili includere in un modello di regressione
Rossi
MRLM
Econometria - 2014
2 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi e intervalli di confidenza per un
singolo coefficiente
Per verifica di ipotesi e intervalli di confidenza nella regressione
multipla si segue la stessa logica utilizzata per la pendenza in un
modello a singolo regressore.
β̂1 −E[β̂1 ]
√
≈ N (0, 1) (TLC).
Var[β̂1 ]
Perciò le ipotesi su β1 possono essere verificate mediante la
consueta statistica-t e gli intervalli di confidenza costruiti come
{β̂1 ± 1, 96SE(β̂1 )}.
Lo stesso per β2 , . . . , βk .
Rossi
MRLM
Econometria - 2014
3 / 54
Verifica di ipotesi e intervalli di confidenza
Esempio
\ = 698, 933 − 2, 2798 STR
TestScr
(10,364)
\ = 686, 032 − 1, 1013 STR − 0, 649777 PctEL
TestScr
(8,7282)
(0,4329)
(1)
(0,5195)
(2)
(0,031032)
Il coefficiente di STR in (2) è l’effetto su TestScore del cambio di
unità in STR, mantenendo costante la percentuale di studenti non
di madrelingua nel distretto.
Il coefficiente di STR si dimezza.
L’intervallo di confidenza al 95% per il coefficiente di STR in (2) è
{−1, 10 ± 1, 960, 43} = {−1, 95, −0, 26}.
la statistica test t dell’ipotesi nulla βSTR = 0 è
t = −1, 10/0, 43 = −2, 54, perciò rifiutiamo l’ipotesi al livello di
significatività del 5%.
Rossi
MRLM
Econometria - 2014
4 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi congiunte
Sia Expn = spese per studente e si consideri il modello di
regressione:
TestScorei = β0 + β1 STRi + β2 Expni + β3 PctELi + ui
L’ipotesi nulla per cui ”le risorse scolastiche non contano“, e
l’alternativa per cui invece contano, corrisponde a:
H0 : β1 = 0 e β2 = 0
l’ipotesi alternativa
H1 : o β1 6= 0 o β2 6= 0 o entrambi
Rossi
MRLM
Econometria - 2014
5 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi congiunte
H0 : β1 = 0 e β2 = 0
H1 : o β1 6= 0 o β2 6= 0 o entrambe
Un’ipotesi congiunta specifica un valore per due o più coefficienti,
ossia impone una restrizione su due o più coefficienti:
H0 : βi = βi,0 , . . . , βj = βj,0
per un totale di q restrizioni.
Nell’esempio precedente, q = 2 e le due restrizioni sono
β1 = β2 = 0.
Se una (o più) delle uguaglianze sotto l’ipotesi nulla è falsa, allora
l’ipotesi nulla congiunta è falsa.
Ipotesi alternativa è che almeno una delle uguaglianze della H0
non valga.
Rossi
MRLM
Econometria - 2014
6 / 54
Verifica di ipotesi e intervalli di confidenza
Verifica di ipotesi congiunte
Un’idea di ”buon senso” è quella di rifiutare se l’una o l’altra delle
statistiche-t supera 1,96 in valore assoluto.
ma questa verifica ”coefficiente per coefficiente” non è valida: la
verifica risultante ha un tasso di rifiuto troppo elevato sotto
l’ipotesi nulla (più del 5%)!
Rossi
MRLM
Econometria - 2014
7 / 54
Verifica di ipotesi e intervalli di confidenza
Perchè non possiamo verificare coefficiente per
coefficiente?
Perchè il tasso di rifiuto sotto l’ipotesi nulla non è il 5%.
Calcoleremo la probabilità di rifiutare in modo non corretto
l’ipotesi nulla usando la verifica del ”buon senso” basata sulle due
statistiche- t singole. Per semplificare il calcolo, supponete che
siano distribuite in modo indipendente (non è vero in generale - lo
è solo in questo esempio).
Siano t1 e t2 le statistiche-t:
t1 =
β̂1 − 0
SE(β̂1 )
t1 =
β̂2 − 0
SE(β̂2 )
La verifica ”coeff. per coeff.” è: Rifiuta H0 : β1 = β2 = 0 se
|t1 | > 1, 96 e/o |t2 | > 1, 96
Qual è la probabilità che questa verifica ”coeff. per coeff.” rifiuti
H0 , quando H0 è effettivamente vero? (Dovrebbe essere 5%.)
Rossi
MRLM
Econometria - 2014
8 / 54
Verifica di ipotesi e intervalli di confidenza
Perchè non possiamo verificare coefficiente per
coefficiente?
Ipotesi t1 e t2 sono indipendenti (falso!) La probabilità di rifiutare in
modo non corretto l’ipotesi nulla mediante la verifica ”coeff. per coeff.”
= PrH0 {|t1 | > 1, 96 e/o |t2 | > 1, 96}
= 1 − PrH0 {|t1 | ≤ 1, 96 e |t2 | ≤ 1, 96}
= 1 − PrH0 {|t1 | ≤ 1, 96} × PrH0 {|t2 | ≤ 1, 96}
= 1 − (0, 95)2 = 0, 0975 > 0, 05
Rossi
MRLM
Econometria - 2014
9 / 54
Verifica di ipotesi e intervalli di confidenza
Dimensione del test
La dimensione del test (la percentuale di rifiuto della nulla quando
è vera) usando le singole statistiche per decidere sull’ipotesi
congiunta non è il 5%!
In effetti, la sua dimensione dipende dalla correlazione tra t1 e t2
(e quindi dalla correlazione tra β̂1 e β̂2 ).
Due soluzioni:
1
Utilizzare un valore critico diverso in questa procedura - non 1,96
(questo è il ”metodo Bonferroni”, raramente utilizzato nella
pratica).
2
Utilizzare una statistica test diversa studiata per verificare subito
sia β1 = 0 sia β2 = 0(ipotesi congiunta): la statistica F (questa è
la pratica comune).
Rossi
MRLM
Econometria - 2014
10 / 54
Statistica F
Ipotesi congiunte in notazione matriciale
Si consideri un’ipotesi congiunta che è lineare nei coefficienti e impone
q restrizioni, con q ≤ k + 1.
Ognuna di queste restrizioni può riguardare uno o più coefficienti di
regressione (un sistema di restrizioni). Restrizioni lineari
H0 : Rβ = r
H1 : Rβ 6= r
(q × 1)
r
(q × (k + 1))
R
r(R)
Rossi
=
q ≤k+1
MRLM
Econometria - 2014
11 / 54
Statistica F
Restrizioni lineari - Esempio
Dato il MRLM:
Yi = β0 + β1 X1i + . . . + βk Xki + ui
Ipotesi nulla:
H0 : β1 + β2 = 0
R = 0, 1, 1, 0, . . . , 0
r=0
 
β0

β1 

Rβ = 0, 1, 1, 0, . . . , 0  .  = β1 + β2
 .. 
βk
Rossi
MRLM
Econometria - 2014
12 / 54
Statistica F
Restrizioni lineari - Esempio modello partizionato
Y = X1 β 1 + X2 β 2 + u
X1 (n × k1 )
X2 (n × k2 )
β 1 (k1 × 1)
β 2 (k2 × 1)
k + 1 = k1 + k2
H0 : β 1 = 0
H0 : Rβ = 0
Rossi
MRLM
Econometria - 2014
13 / 54
Statistica F
Restrizioni lineari - Esempio modello partizionato
dove
R=
Rβ =
h
h
Iq
i
..
. 0(q×k2 )
i β .
Iq .. 0(q×k2 )
1
β2
= β1
dove q = k1 . Sotto H0 il modello si riduce a
Y = X2 β 2 + u
Rossi
MRLM
Econometria - 2014
14 / 54
Statistica F
Statistica F
La statistica F per verificare l’ipotesi congiunta
H0 : Rβ = r
è
F =
Rossi
h
i−1
(Rβ̂ − r)
(Rβ̂ − r)0 RΣ̂β̂ R0
q
MRLM
Econometria - 2014
15 / 54
Statistica F
Distribuzione asintotica della statistica F
Dato che
√
d
n(β̂ − β) −→ N (0, Σ√n(β̂−β) )
segue che sotto H0
√
√
d
n(Rβ̂ − r) = nR(β̂ − β) −→ N (0, RΣ√n(β̂−β) R0 )
dati i risultati sulle forme quadratiche di vettori di v.c. asintoticamente
normali, sotto H0 :
i−1
h
[(Rβ̂ − r)]0 RΣβ̂ R0
[(Rβ̂ − r)]
i−1 √
h
√
d
= [ n(Rβ̂ − r)]0 RΣ√n(β̂−β) R0
[ n(Rβ̂ − r)] −→ χ2q
perchè Σβ̂ = Σ√n(β̂−β) /n. Poichè
p
Σ̂√n(β̂−β) −→ Σ√n(β̂−β)
Rossi
MRLM
Econometria - 2014
16 / 54
Statistica F
Distribuzione asintotica della statistica F
Per il teorema di Slutsky:
h
i−1 √
√
d
[ n(Rβ̂ − r)] −→ χ2q
n(Rβ̂ − r)]0 RΣ̂√n(β̂−β) R0
o
h
i−1
d
[(Rβ̂ − r)]0 RΣ̂β̂ R0
[(Rβ̂ − r)] −→ χ2q
segue che
F =
h
i−1
(Rβ̂ − r)0 RΣ̂β̂ R0
(Rβ̂ − r)
q
d
−→
χ2q
q
d
cioè F −→ Fq,∞ = χ2q /q. E’ equivalente calcolare
h
i−1
[(Rβ̂ − r)], in questo caso
qF = [(Rβ̂ − r)]0 RΣ̂β̂ R0
d
qF −→ χ2q
Rossi
MRLM
Econometria - 2014
17 / 54
Statistica F
Regione di rifiuto statistica F
Valore critico:
α
α
Fq,∞
: Pr{Fq,∞ > Fq,∞
}=α
per un livello di significatività 0 ≤ α ≤ 1.
La procedura di test consiste nel calcolare F e rifiutare H0 se il suo
α }, tale che abbia
valore cade nella regione critica, cioè se F act > Fq,∞
una probabilità minore di α di essere estratta dalla distribuzione Fq,∞ .
P-value della statistica F:
p-value = Pr{Fq,∞ > F act }
Se p-value > α (prefissato) accetto H0 altrimenti rifiuto.
Rossi
MRLM
Econometria - 2014
18 / 54
Statistica F
Significatività della regressione
L’ipotesi nulla che tutti i coefficienti siano nulli ad eccezione
dell’intercetta.
H0 : β1 = β2 = . . . = βk = 0
H1 : βj 6= 0 per almeno un j, j = 1, 2, . . . , k
Sotto H0 nessuno dei regressori spiega alcunchè della variazione in Yi .
L’intercetta, sotto H0 , è la media di Yi :
E(Yi ) = β0
Rossi
MRLM
Econometria - 2014
19 / 54
Statistica F
Statistica F quando q = 1
Quando q = 1, la statistica F verifica una sola restrizione
R (1 × (k + 1)),
r (1 × 1)
h
i−1
[(Rβ̂ − r)]
[(Rβ̂ − r)]0 RΣ̂β̂ R0
1
[(Rβ̂ − r)]2
i = t2
= h
RΣ̂β̂ R0
è il quadrato della statistica t.
Rossi
MRLM
Econometria - 2014
20 / 54
Statistica F
Statistica F - Esempio
const
STR
EXPN stu
EL PCT
Coefficient
Std. Error
t-ratio
p-value
649.578
−0.286399
0.00386790
−0.656023
15.4583
0.482073
0.00158072
0.0317844
42.0212
−0.5941
2.4469
−20.6397
0.0000
0.5528
0.0148
0.0000
Media variabile dipen
SSR
R2
F (3, 416)
654.1565
85699.71
0.436592
147.2037
S.Q.M. variabile dipen
S.E. della regressione
R̄2
P-value(F )
19.05335
14.35301
0.432529
5.20e–65
H0 : βstr = 0 βexpn = 0
Statistica Test: F (2, 416) = 5.434, con p − value = 0.00468.
Rossi
MRLM
Econometria - 2014
21 / 54
Statistica F
Regioni di confidenza per coefficienti multipli
Una regione di confidenza asintoticamente valida per due o più
elementi di β può essere costruita come l’insieme dei valori che, se
considerati come ipotesi nulla, non sono rifiutati dalla statistica F .
Sia δ (q × 1) formato dagli elementi di β per i quali si desidera una
regione di confidenza
δ = Rβ
La statistica test F per l’ipotesi nulla δ = δ 0 è
F = (δ̂ − δ 0 )0 [RΣ̂β̂ R0 ]−1 (δ̂ − δ 0 )/q
con δ̂ = Rβ̂. Una regione di confidenza al 95% per δ è l’insieme di
valori δ 0 che non sono rifiutati dalla F .
Rossi
MRLM
Econometria - 2014
22 / 54
Statistica F
Regioni di confidenza per coefficienti multipli
Una regione di confidenza 1 − α per δ è
0.95
{δ : (δ̂ − δ)0 [RΣ̂β̂ R0 ]−1 (δ̂ − δ)/q ≤ Fq,∞
}
La regione di confidenza è costituita dai punti interni all’ellissoide che
si ottiene quando vale l’uguaglianza.
Rossi
MRLM
Econometria - 2014
23 / 54
Statistica F
Ellisse di confidenza (k = 2)
Yi = β1 X1i + β2 X2i + ui
i = 12, . . . , n
Regione di confidenza per (β1 , β2 ):
1 0 β1
Rβ =
0 1 β2
Nel caso k = 2, la forma quadratica:
(β̂ − β)0 Σ̂−1 (β̂ − β)
β̂
Σ−1
β̂
σ̂12 σ̂1,2
=
σ̂1,2 σ̂22
(βb1 − β1 )2 σ̂12 + 2(βb1 − β1 )(βb2 − β2 )σ̂1,2 + (βb2 − β2 )2 σ̂22
Rossi
MRLM
Econometria - 2014
24 / 54
Statistica F
Ellisse di confidenza (k = 2)
Il contorno della funzione implicita
ax2 + byx + cy 2 = K
è un’ellisse con centro (x = 0, y = 0), inclinata positivamente quando
b < 0.
In questo caso, ellisse inclinata
positivamente quando σ̂1,2 < 0
negativamente quando σ̂1,2 > 0
Rossi
MRLM
Econometria - 2014
25 / 54
Statistica F
Regioni di confidenza per coefficienti multipli
P
βb1 e βb2 sono positivamente correlati quando
x1t x2t < 0.
P
b
b
β1 e β2 sono negativamente correlati quando
x1t x2t > 0.
Rossi
MRLM
Econometria - 2014
26 / 54
Statistica F
Regioni di confidenza per coefficienti multipli - Esempio
\eval = 4, 082 + 0, 149 beauty − 0, 198 female
course
(0,033)
(0,032)
(0,051)
2
T = 463 R̄ = 0, 0622 F (2, 460) = 16, 331
σ̂ = 0, 53732
Ellisse di confidenza al 95% e intervalli marginali al 95%
-0,05
-0,1
-0,15
female
0,149, -0,198
-0,2
-0,25
-0,3
-0,35
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0,22
0,24
beauty
Rossi
MRLM
Econometria - 2014
27 / 54
Errori normali e omoschedastici
Errori normali e omoschedastici
Se gli errori sono normali (condizionatamente a X) e omoschedastici,
u|X ∼ N (0, σu2 In )
allora lo stimatore ha una distribuzione normale multivariata in
campionin finiti:
β̂ = β + (X0 X)−1 X0 u
β̂ ∼ N (β, σu2 (X0 X)−1 )
Rossi
MRLM
Econometria - 2014
28 / 54
Errori normali e omoschedastici
Distribuzione di s2
Se valgono le assunzioni generalizzate degli OLS nel MRLM, allora
s2 =
u0 MX u
n−k−1
per la normalità condizionale di u
0
u
u
MX
∼ χ2n−k−1
σu
σu
quindi
χ2n−k−1
s2
∼
σu2
n−k−1
s2 ∼
Rossi
σu2
χ2
n − k − 1 n−k−1
MRLM
Econometria - 2014
29 / 54
Errori normali e omoschedastici
Errori standard classici
Var[β̂|X] = σu2 (X0 X)−1
\
Var[
β̂|X] = s2 (X0 X)−1
lo standard error di βi :
q
SE(β̂i ) = s e0i (X0 X)−1 ei
Rossi
MRLM
Econometria - 2014
30 / 54
Errori normali e omoschedastici
Statistica t̃
Data la statistica:
t̃ =
β̂i − βi,0
SE(β̂i )
se valgono le sei assunzioni generalizzate dei minimi quadrati, la
distribuzione campionaria esatta di t̃
t̃ ∼ tn−k−1
Rossi
MRLM
Econometria - 2014
31 / 54
Errori normali e omoschedastici
Dimostrazione
Se
Z ha una distribuzione N (0, 1)
W ha una distribuzione χ2m
3 Z e W sono indipendentemente distribuite
allora
Z
p
∼ tm
W/m
Ora
1
2
t̃ =
β̂i − βi,0
SE(β̂i )
β̂i − βi,0
=p 0
2
s ei (X0 X)−1 ei
β̂i − βi,0
p
=p
2
2
s /σu σu2 e0i (X0 X)−1 ei
Rossi
MRLM
Econometria - 2014
32 / 54
Errori normali e omoschedastici
Dimostrazione
p
(β̂i − βi,0 )/ σu2 e0i (X0 X)−1 ei
p
t̃ =
s2 /σu2
1
Sotto H0
p
(β̂i − βi,0 )
|X ∼ N (0, 1)
σu2 e0i (X0 X)−1 ei
2
(n − k − 1)
Rossi
s2
∼ χ2n−k−1
σu2
MRLM
Econometria - 2014
33 / 54
Errori normali e omoschedastici
Dimostrazione
Si può scrivere
Z
t̃ = p
W/(n − k − 1)
con
(β̂i − βi,0 )
Z=p
∼ N (0, 1)
σu2 e0i (X0 X)−1 ei
e
W = (n − k − 1)
Rossi
s2
∼ χ2n−k−1
σu2
MRLM
Econometria - 2014
34 / 54
Errori normali e omoschedastici
Dimostrazione
Indipendenza tra β̂ e s2 . Dato che
β̂ = β + (X0 X)−1 X0 u
s2 =
u0 MX u
n−k−1
β̂ e s2 sono indipendenti se X0 X)−1 X0 u e u0 MX u sono indipendenti.
Dato che u|X ∼ N (0, σu2 In )
(X0 X)−1 X0 u|X ∼ N (0, σu2 (X0 X)−1 )
MX u|X ∼ N (0, σu2 MX )
Rossi
MRLM
Econometria - 2014
35 / 54
Errori normali e omoschedastici
Dimostrazione
Poichè
Cov[(X0 X)−1 X0 u, MX u|X] = E[(X0 X)−1 X0 uu0 MX |X]
= (X0 X)−1 X0 E[uu0 |X]MX
= (X0 X)−1 X0 σu2 In MX
= 0k×n
perchè
X0 MX = 0k×n
Segue che i due vettori sono indipendenti e che β̂ e s2 sono
indipendenti.
Si può concludere che
t̃ =
Rossi
β̂i − βi,0
SE(β̂i )
∼ tn−k−1
MRLM
Econometria - 2014
36 / 54
Errori normali e omoschedastici
Distribuzione della statistica F̃
La statistica F con omoschedasticità si ottiene sostituendo Σ̂β̂ con
s2 (X0 X)−1
F̃ =
(Rβ̂ − r)0 [R(X0 X)−1 R0 ]−1 (Rβ̂ − r)
qs2
se valogono le sei assunzioni generalizzate degli OLS, sotto l’ipotesi
nulla
F̃ ∼ Fq,n−k−1
F̃ è la versione di Wald.
Rossi
MRLM
Econometria - 2014
37 / 54
Errori normali e omoschedastici
Dimostrazione
Il rapporto
W1 /n1
∼ Fn1 ,n2
W2 /n2
dove
1
W1 ∼ χ2n1
2
W2 ∼ χ2n2
3
W1 e W2 sono indipendentemente distribuite.
Verifichiamo che queste tre condizioni siano verificate nel caso che
stiamo considerando.
Rossi
MRLM
Econometria - 2014
38 / 54
Errori normali e omoschedastici
Dimostrazione
Sia
W1 = (Rβ̂ − r)0 [σu2 R(X0 X)−1 R0 ]−1 (Rβ̂ − r)
e
W2 = (n − k − 1)
s2
σu2
possiamo scrivere
F̃ =
Rossi
W1 /q
W2 /n − k − 1
MRLM
Econometria - 2014
39 / 54
Errori normali e omoschedastici
Dimostrazione
Dato che
β̂|X ∼ N (β, σu2 (X0 X)−1 )
e sotto H0 , Rβ̂ − β = Rβ̂ − r
(Rβ̂ − r)|X ∼ N (0, σu2 R(X0 X)−1 R0 )
quindi
(Rβ̂ − r)0 [σu2 R(X0 X)−1 R]−1 (Rβ̂ − r) ∼ χ2q
Abbiamo già visto che
χ2n−k−1
s2
∼
σu2
n−k−1
Rossi
MRLM
Econometria - 2014
40 / 54
Errori normali e omoschedastici
Dimostrazione
Infine, poichè β̂ e s2 sono indipendentemente distribuiti, segue che
Rβ̂ − r e s2
sono indipendentemente distribuiti, implicando che W1 e W2 sono
indipendentemente distribuite.
Le tre condizioni sono verificate, quindi
F̃ ∼ Fq,n−k−1
Rossi
MRLM
Econometria - 2014
41 / 54
Errori normali e omoschedastici
La distribuzione Fq,n−k−1
La distribuzione Fq,n−k−1 è tabulata in molti punti.
Per n → ∞, la distribuzione Fq,n−k−1 tende asintoticamente alla
distribuzione χ2 /q, cioè Fq,∞ .
Per q non troppo grande e n ≥ 100, la distribuzione Fq,n−k−1 e la
distribuzione χ2q /q sono sostanzialmente identiche.
Molti pacchetti di regressione calcolano il valore-p della statistica
F mediante la distribuzione Fq,n−k−1 .
Rossi
MRLM
Econometria - 2014
42 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F̃
Quando il termine di errore ui è omoschedastico, la F può essere
scritta in termini di miglioramento dell’adattamento della regressione
(misurato con la SSR o l’R2 ).
Eseguire due regressioni, una sotto l’ipotesi nulla (regressione
”vincolata”) e una sotto l’ipotesi alternativa (regressione ”non
vincolata”).
Confrontare la somma dei quadrati dei residui (SSR) delle due
regressioni.
Confrontare gli adattamenti delle regressioni - gli R2 - se il
modello ”non vincolato” si adatta sufficientemente meglio,
rifiutare l’ipotesi nulla
Rossi
MRLM
Econometria - 2014
43 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F̃
Dato il MRLM:
Yi = β0 + β1 X1i + . . . + βk Xki + ui
ui ∼ i.i.d.N (0, σu2 )
H0 : Rβ = r
stima del modello sotto l’ipotesi nulla:
β̃ = arg
min
β:Rβ−r=0
(Y − Xβ)0 (Y − Xβ)
la somma dei quadrati della regressione vincolata
SSRr = (Y − Xβ̃)0 (Y − Xβ̃)
la somma dei quadrati della regressione non vincolata
SSRur = (Y − Xβ̂)0 (Y − Xβ̂)
F̃ =
Rossi
SSRr − SSRur n − k − 1
∼ Fq,n−k−1
SSRur
q
MRLM
Econometria - 2014
44 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F̃
Denotando i residui della regressione vincolata:
ũ = Y − Xβ̃
ũ0 ũ − û0 û n − k − 1
û0 û
q
P 2 P
P
P
/
ũ
(Y
−
Ȳ )2 − i û2i / i (Yi − Ȳ )2 n − k − 1
i
i i
i P
P
=
2
2
q
i (Yi − Ȳ )
i ûi /
2
2
(1 − Rr ) − (1 − Rur ) n − k − 1
=
2
1 − Rur
q
2
2
R −R n−k−1
= ur 2 r
1 − Rur
q
F̃ =
Rossi
MRLM
Econometria - 2014
45 / 54
Errori normali e omoschedastici
Altro modo di calcolo della statistica F̃
Rr2 è l’R2 della regressione vincolata
2 è l’R2 della regressione non vincolata
Rur
q = numero di restrizioni sotto l’ipotesi nulla
Più grande è la differenza tra l’R2 vincolato e non vincolato,
maggiore è il miglioramento dell’adattamento aggiungendo le
variabili in questione – maggiore è la F in presenza di
omoschedasticità.
Rossi
MRLM
Econometria - 2014
46 / 54
Errori normali e omoschedastici
Regressione ”vincolata” e ”non vincolata”
Esempio: i coefficienti di STR e Expn sono zero?
Regressione senza vincolo, sotto H1 :
TestScorei = β0 + β1 STRi + β2 Expni + β3 PctELi + ui
Regressione vincolata, sotto H0 : β1 = β2 = 0:
TestScorei = β0 + β3 PctELi + ui
Il numero di vincoli sotto H0 è q = 2.
L’adattamento risulterà migliore (R2 sarà maggiore) nella
regressione non vincolata.
Di quanto dovrà aumentare R2 affinchè i coefficienti di Expn e
PctEL siano giudicati statisticamente significativi?
Rossi
MRLM
Econometria - 2014
47 / 54
Errori normali e omoschedastici
Esempio
Regressione vincolata:
\ i = 644, 7 − 0, 671STRi
TestScore
R2 = 0, 4149
Regressione non vincolata:
\ i = 649, 6−0, 29STRi +3, 87Expni −0, 656PctELi
TestScore
R2 = 0, 4366
Quindi, con q = 2, n = 420, k = 3:
2 − R2 n − k − 1
Rur
r
2
1 − Rur
q
(0, 4366 − 0, 4149) (420 − 3 − 1)
=
= 8, 01
(1 − 0, 4366)
2
F̃ =
Valore critico al 1% = 4,61, H0 è rifiutata.
Nota: F robusta all’eteroschedasticità è 5,43...
Rossi
MRLM
Econometria - 2014
48 / 54
Errori normali e omoschedastici
La statistica F̃ classica-riepilogo
La statistica F̃ classica rifiuta quando aggiungendo le due variabili
si aumenta R2 di ”quanto basta” - vale a dire, quando
aggiungendo le due variabili si migliora l’adattamento della
regressione di ”quanto basta”.
Se gli errori sono omoschedastici, ma non gaussiani, la statistica
F̃ classica ha una distribuzione in grandi campioni che è χ2q /q.
Se invece gli errori sono eteroschedastici, la distribuzione in grandi
campioni della statistica F̃ classica non è χ2q /q.
Se gli errori sono omoschedastici e gaussiani la statistica F̃
classica ha una distribuzione Fq,n−k−1 .
Rossi
MRLM
Econometria - 2014
49 / 54
Errori normali e omoschedastici
La statistica F̃ classica e la distribuzione F
L’uso della statistica F̃ e della distribuzione F è giustificato solo
sotto condizioni molto forti - troppo forti per essere realistiche.
Dovreste utilizzare la statistica F robusta all’eteroschedasticità,
con i valori critici della χ2q /q.
Per n ≥ 100, la distribuzione Fq,n−k−1 è essenzialmente la
distribuzione χ2q /q.
Per n piccolo, a volte i ricercatori utilizzano la distribuzione F
perchè ha valori critici più grandi e in tal senso è più prudente.
Rossi
MRLM
Econometria - 2014
50 / 54
Errori normali e omoschedastici
Verifica di restrizioni singole su coefficienti multipli
Yi = β0 + β1 X1i + β2 X2i + ui
Considerate l’ipotesi nulla e l’ipotesi alternativa,
H0 : β1 = β2 vs H1 β1 6= β2
Questa ipotesi nulla impone una singola restrizione ( q = 1) su
coefficienti multipli – non si tratta di ipotesi congiunte con restrizioni
multiple (confrontate con β1 = β2 = 0).
Rossi
MRLM
Econometria - 2014
51 / 54
Errori normali e omoschedastici
Verifica di restrizioni singole su coefficienti multipli
Ecco due metodi per la verifica di restrizioni singole su coefficienti
multipli:
Riorganizzare (”trasformare”) la regressione: Riorganizzare i
regressori in modo che la restrizione diventi una restrizione su un
singolo coefficiente in una regressione equivalente; oppure,
Eseguire la verifica direttamente: Alcuni software, tra cui GRETL,
consentono di verificare le restrizioni utilizzando direttamente
coefficienti multipli
Rossi
MRLM
Econometria - 2014
52 / 54
Errori normali e omoschedastici
Metodo 1: Riorganizzare (”trasformare”) la regressione
Yi = β0 + β1 X1i + β2 X2i + ui
Considerate l’ipotesi nulla e l’ipotesi alternativa,
H0 : β1 = β2 vs H1 β1 6= β2
Sommare e sottrarre β2 X1i :
Yi = β0 + (β1 − β2 )X1i + β2 (X1i + X2i ) + ui
Yi = β0 + γ1 X1i + β2 Wi + ui
dove
γ1 = β1 − β2
Wi = (X1i + X2i )
Rossi
MRLM
Econometria - 2014
53 / 54
Errori normali e omoschedastici
Metodo 1: Riorganizzare (”trasformare”) la regressione
Equazione originale:
Yi = β0 + β1 X1i + β2 X2i + ui
Equazione riorganizzata (”trasformata”):
Yi = β0 + γ1 X1i + β2 Wi + ui
Quindi,
H0 = γ1 = 0 vs H1 : γ1 6= 0
corrisponde a
H0 : β1 = β2 vs H1 : β1 6= β2
Queste due regressioni hanno lo stesso R2 , gli stessi valori previsti e gli
stessi residui. Il problema di verifica è ora semplice: verificare se γ1 = 0
nella regressione trasformata.
Rossi
MRLM
Econometria - 2014
54 / 54