Regressione lineare semplice: inferenza

Regressione lineare semplice: inferenza
Eduardo Rossi2
2 Università
di Pavia (Italy)
Marzo 2013
Rossi
Regressione lineare semplice
Econometria - 2013
1 / 60
Outline
1
Introduzione
2
Verifica di ipotesi
3
Intervalli di confidenza
4
Variabili binarie
5
Omoschedasticità
6
Errori standard con omoschedasticità
7
Teorema di Gauss-Markov
Rossi
Regressione lineare semplice
Econometria - 2013
2 / 60
Introduzione
Sommario
L’errore standard di β̂1
Verifiche di ipotesi concernenti β1
Intervalli di confidenza per β1
La regressione quando X è variabile binaria
Eteroschedasticità e omoschedasticità
Efficienza OLS e distribuzione t di Student
Rossi
Regressione lineare semplice
Econometria - 2013
3 / 60
Introduzione
Sommario
Vogliamo conoscere la pendenza della retta di regressione. Disponiamo
dei dati di un campione, perciò sussiste l’incertezza dovuta al
campionamento. Per raggiungere l’obiettivo si procede in cinque
passaggi:
Definire la popolazione oggetto di interesse
Fornire uno stimatore di questa popolazione
Derivare la distribuzione campionaria dello stimatore (ciò richiede
alcune assunzioni). In grandi campioni questa distribuzione
campionaria sarà normale per il TLC.
La radice quadrata della varianza stimata della distribuzione
campionaria è l’errore standard (SE) dello stimatore
Utilizzare SE per costruire statistiche- t (per le verifiche di ipotesi)
e intervalli di confidenza.
Rossi
Regressione lineare semplice
Econometria - 2013
4 / 60
Introduzione
L’oggetto di interesse: β1
Yi = β0 + β1 Xi + ui
i = 1, 2, . . . , n
∆Y
∆Y
per una variazione autonoma in X (effetto casuale). Sotto le
assunzioni degli OLS:
β1 =
1
E[ui |Xi ] = 0 (prima assunzione)
2
{Yi , Xi }, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).
3
X, Y hanno momenti quarti finiti non nulli (terza assunzione)
Rossi
Regressione lineare semplice
Econometria - 2013
5 / 60
Introduzione
La distribuzione campionaria di β̂1
Sotto le assunzioni dei minimi quadrati, per n grande, la distribuzione
di β̂1 è approssimata da
β̂1 ≈ N β1 ,
Rossi
σv2 2 )2
n(σX
Regressione lineare semplice
Econometria - 2013
6 / 60
Verifica di ipotesi
Verifica di ipotesi ed errore standard
L’obiettivo è di verificare un’ipotesi, quale β1 = 0, utilizzando i dati per determinare sperimentalmente se l’ipotesi (nulla) è corretta.
Impostazione generale
Ipotesi nulla e alternativa bilaterale:
H0 : β1 = β1,0 vs. H1 : β1 6= β1,0
dove β1,0 è il valore ipotizzato sotto l’ipotesi nulla.
Ipotesi nulla e alternativa unilaterale:
H0 : β1 = β1,0 vs. H1 : β1 < β1,0
Rossi
Regressione lineare semplice
Econometria - 2013
7 / 60
Verifica di ipotesi
Soluzione generale: costruire la statistica-t
In generale:
t=
stimatore − valore ipotizzato
errore standard dello stimatore
dove l’SE dello stimatore è la radice quadrata di uno stimatore
della varianza dello stimatore.
Per verificare la media di Y :
t=
Ȳ − µY,0
√
sY / n
Per verificare β1
t=
β̂1 − β1,0
SE(β̂1 )
,
dove SE(β̂1 ) è la radice quadrata di uno stimatore della varianza
della distribuzione campionaria di β̂1 .
Rossi
Regressione lineare semplice
Econometria - 2013
8 / 60
Verifica di ipotesi
Formula per calcolare lo SE(β̂1 )
Si ricordi l’espressione per la varianza di (n grande):
Var [β̂1 ] =
Var [(Xi − µX )ui ]
,
2 )2
n(σX
dove vi = (Xi − µX )ui . Lo stimatore della varianza di β̂1 sostituisce i
2 con gli stimatori ricavati dai
valori di popolazione ignoti di σv2 e σX
dati:
1 stimatore di σv2
2 )2
n (stimatore di σX
P
1
2
1
i v̂i
n−2
= 1P
n n i (Xi − X̄)2
σ̂β̂2 =
1
Rossi
Regressione lineare semplice
Econometria - 2013
9 / 60
Verifica di ipotesi
Formula per calcolare lo SE(β̂0 )
Dato
Var[Hi ui ]
n[E(Hi2 )]2
µX
Hi = 1 −
Xi
E(Xi2 )
Var[β̂0 ] =
lo stimatore
σ̂β̂2
0
1 P
1 n−2 i=1 Ĥi2 û2i
= P
2
n 1 n
2
Ĥ
i=1
i
n
dove
"
Ĥi = 1 −
Rossi
1
n
X̄
P
#
2
i=1 Xi
Regressione lineare semplice
Xi
Econometria - 2013
10 / 60
Verifica di ipotesi
Formula per calcolare lo SE
E’ leggermente complicato, tuttavia:
lo è meno di quanto sembri. La varianza Var[v] è stimata dal
numeratore, mentre Var[X]2 è stimata dal denominatore.
Perchè la correzione dei gradi di libertà n − 2? Perchè sono stati
stimati due coefficienti β0 e β1 .
SE(β̂1 ) viene calcolato dal software di regressione
Rossi
Regressione lineare semplice
Econometria - 2013
11 / 60
Verifica di ipotesi
Riepilogo
Per verificare:
H0 : β1 = β1,0 vs H1 : β1 6= β1,0
Costruire la statistica-t
t=
β̂1 − β1,0
SE(β̂1 )
=
β̂1 − β1,0
q
σ̂ 2
β̂1
Si rifiuta al livello di significatività del 5% se |t| > 1, 96.
Il valore p è p = P r[|t| > |tact |] = probabilità nell’area delle code
della normale, cioè > |tact |;
si rifiuta al livello di significatività del 5% se il valore p è < 5%.
Questa procedura si affida all’approssimazione di n grande che β̂1
sia distribuito normalmente; in generale n = 50 è grande
abbastanza per un’approssimazione eccellente.
Rossi
Regressione lineare semplice
Econometria - 2013
12 / 60
Verifica di ipotesi
Esempio: Punteggi nei test e STR dati della California
Regressione lineare stimata:
\
[
Test
Score = 698, 9 − 2, 28ST
R
Il software di regressione segnala gli errori standard:
SE(β̂0 ) = 10, 4
SE(β̂1 ) = 0, 52
Verifica dell’ipotesi nulla β1,0 = 0. Rapporto t
t=
β̂1 − β1,0
SE(β̂1 )
=
−2, 28 − 0
= −4, 38
0, 52
Il livello di significatività bilaterale dell’1 % è 2,58, perciò
rifiutiamo l’ipotesi nulla al livello di significatività dell’1%.
In alternativa, possiamo calcolare il valore p...
Il valore p basato sull’approssimazione normale standard con n
grande alla statistica t è 0,00001 (10–5)
Rossi
Regressione lineare semplice
Econometria - 2013
13 / 60
Verifica di ipotesi
P-value
Rossi
Regressione lineare semplice
Econometria - 2013
14 / 60
Intervalli di confidenza
Intervalli di confidenza per β1
Si ricordi che un intervallo di confidenza al 95% equivale a:
la serie di punti che non può essere rifiutata al livello di
significatività del 5%;
una funzione polidroma (un intervallo funzione dei dati) che
contiene il reale valore del parametro il 95% delle volte nei
campioni ripetuti.
Poichè la statistica t per β1 è N (0, 1) in grandi campioni, la
costruzione di un intervallo di confidenza al 95% per β1 equivale al
caso della media campionaria:
intervallo di confidenza al 95% per β1
{β̂1 ± 1, 96 × SE(β̂1 )}
Rossi
Regressione lineare semplice
Econometria - 2013
15 / 60
Intervalli di confidenza
Esempio di intervallo di confidenza
Retta di regressione stimata
\
[
Test
Score = 698, 9 − 2, 28ST
R
SE(β̂0 ) = 10, 4
SE(β̂1 ) = 0, 52
Intervallo di confidenza al 95% per β̂1 :
{β̂1 ± 1, 96SE(β̂1 )} = {−2, 28 ± 1.96 × 0.52} = {−3, 30; −1, 26}
Le due affermazioni seguenti sono equivalenti:
L’intervallo di confidenza al 95% non include lo zero;
L’ipotesi β1 = 0 è rifiutata al livello del 5%.
Rossi
Regressione lineare semplice
Econometria - 2013
16 / 60
Intervalli di confidenza
Riepilogo di inferenza statistica
Stima:
Gli stimatori OLS hanno approssimativamente distribuzioni
campionarie normali in grandi campioni
Verifica:
H0 : β1 = β1,0 vs β1 6= β1,0 (β1,0 è il valore di β1 sotto H0 )
T (β̂1 − β1,0 )/SE(β̂1 )
valore-p = area sotto la normale standard al di fuori di |tact | (n
grande)
Intervalli di confidenza:
l’intervallo di confidenza al 95% per β1 è {β̂1 ± 1, 96 × SE(β̂1 )}
Questo è l’insieme di β1 che non è rifiutato al livello del 5%
L’IC al 95% contiene il β1 reale nel 95% di tutti i campioni.
Rossi
Regressione lineare semplice
Econometria - 2013
17 / 60
Variabili binarie
La regressione quando X è una variabile binaria
A volte un regressore è binario:
1 se classe piccola
X=
0 altrimenti
X=
X=
1 femmina
0 maschio
1 se trattato (farmaco sperimentale)
0 altrimenti
I regressori binari sono a volte chiamati variabili dummy.
Fin qui β1 è stato chiamato ”pendenza” ma ciò non ha senso se la
variabile X è binaria.
Come interpretiamo la regressione con un regressore binario?
Rossi
Regressione lineare semplice
Econometria - 2013
18 / 60
Variabili binarie
Interpretazione delle regressioni con un regressore
binario
Yi = β0 + β1 Xi + ui
Quando Xi = 0:
Yi = β0 + ui
E[Yi |Xi = 0] = β0
quando Xi = 1
Yi = β0 + β1 + ui
E[Yi |Xi = 1] = β0 + β1
quindi
β1 = E[Yi |Xi = 1] − E[Yi |Xi = 0]
è pari alla differenza tra medie.
Rossi
Regressione lineare semplice
Econometria - 2013
19 / 60
Variabili binarie
Esempio
Sia
Di =
1 se ST R ≤ 20
0 se ST R > 20
Regressione OLS:
\
Test
Score = 650 + 7, 4 × Di
(1,3)
(1,8)
Dimensione classe
Punteggio medio Ȳ
Dev.Stand. (sY )
N
Piccola STR ≤ 20
Grande STR > 20
Differenza tra medie:
657,4
650
19,4
17,9
238
182
Ypiccola − Ygrande = 657, 4 − 650 = 7, 4
s
r
s2p
s2g
19, 42 17, 92
SE =
+
=
+
= 1, 8
np ng
238
182
Rossi
Regressione lineare semplice
Econometria - 2013
20 / 60
Variabili binarie
Riepilogo: regressione quando la variabile X è binaria
β0 media di Yi quando X = 0
β0 + β1 = media di Yi quando X = 1
β1 = differenza tra medie, X =1 meno X = 0
SE(β̂1 ) ha l’interpretazione consueta
statistica-t, intervalli di confidenza costruiti come di consueto.
Questo è un altro modo (facile) per eseguire l’analisi della
differenza tra medie
La formulazione della regressione è particolarmente utile quando
abbiamo regressori supplementari.
Rossi
Regressione lineare semplice
Econometria - 2013
21 / 60
Omoschedasticità
Eteroschedasticità e omoschedasticità
Conseguenze dell’omoschedasticità
Implicazioni per il calcolo degli errori standard
Che cosa significano questi due termini?
Se Var[u|X = x] è costante - ossia se la varianza della
distribuzione di u condizionata a X non dipende da X –allora u è
detto omoschedastico. In caso contrario, u è eteroschedastico.
Rossi
Regressione lineare semplice
Econometria - 2013
22 / 60
Omoschedasticità
Esempio: etero/omoschedasticità nel caso di un
regressore binario
Errore standard quando le varianze sono ineguali:
s
s2g
s2p
SE =
+
np ng
Errore standard quando le varianze sono uguali:
s
1
1
+
SE = sp
np ng
Vedi SW, Paragrafo 3.6
s2p
(ns − 1)s2s + (ng − 1)s2g
=
np + ng − 2
sp stimatore di σ 2 quando σp2 = σg2 .
Varianze uguali = omoschedasticità
Varianze ineguali = eteroschedasticità
Rossi
Regressione lineare semplice
Econometria - 2013
23 / 60
Errori standard con omoschedasticità
Omoschedasticità in un’immagine:
E[u|X] = 0 (u soddisfa l’assunzione dei minimi quadrati n. 1)
La varianza di u non dipende da x
Rossi
Regressione lineare semplice
Econometria - 2013
24 / 60
Errori standard con omoschedasticità
Un esempio con dati reali dall’economica del lavoro
La retribuzione oraria media rispetto agli anni di istruzione (fonte dati:
Current Population Survey):
Eteroschedasticità o omoschedasticità?
Rossi
Regressione lineare semplice
Econometria - 2013
25 / 60
Errori standard con omoschedasticità
Quale assunzione sulla varianza degli errori?
Le tre assunzioni dei minimi quadrati:
E[u|X] = 0
(Xi , Yi ), i = 1, 2, . . . , n, sono i.i.d.
Gli outlier sono rari
Eteroschedasticità e omoschedasticità concernono Var[u|X]. Poichè
non abbiamo assunto esplicitamente gli errori omoschedastici,
abbiamo ammesso implicitamente l’eteroschedasticità.
Rossi
Regressione lineare semplice
Econometria - 2013
26 / 60
Errori standard con omoschedasticità
Errori omoschedastici-Var[β̂1 ]
Si può dimostrare che l’OLS ha la varianza minore tra gli stimatori
lineari in Y... un risultato chiamato teorema di Gauss-Markov.
La formula per la varianza di β̂1 e per l’errore standard OLS si
semplifica: se
Var[ui |Xi = x] = σ 2
Var[β̂1 ] =
σu2
V ar[v̄]
1 σv2
=
=
2 )2
2
[V ar(Xi )]2
n (σX
nσX
dato
Var[(Xi − µX )ui ] = E [vi − E(vi )]2
= E[vi2 ]
= E[(Xi − µX )2 u2i ]
= E[(Xi − µX )2 E(u2i |Xi )]
2 2
= σX
σu
Rossisegue
da cui
Regressione lineare semplice
Econometria - 2013
27 / 60
Errori standard con omoschedasticità
Errori omoschedastici-Var[β̂0 ]
La formula per la varianza di β̂0 nel caso eteroschedastico
Var[Hi ui ]
n[E(Hi2 )]2
µX
Hi = 1 −
Xi
E(Xi2 )
Var[β̂0 ] =
σ̂β̂2
0
dato che
E[Hi ui ] = E[Hi E(ui |Xi )] = 0
Var[Hi ui ] = E[Hi2 u2i ]
= E[Hi2 E(u2i |Xi )]
= σu2 E[Hi2 ]
Rossi
Regressione lineare semplice
Econometria - 2013
28 / 60
Errori standard con omoschedasticità
Errori omoschedastici–Var[β̂0 ]
Ora
Hi2
µX
µX
2
Xi − 2
Xi2
=1+
E(Xi2 )
E(Xi2 )
µX
=1−
Xi2
E(Xi2 )
µ2X
=1−
E(Xi2 )
E(Xi2 ) − µ2X
=
E(Xi2 )
2
σX
=
E(Xi2 )
segue che
σβ̂2 =
0
Rossi
1 E(Xi2 ) 2
σu
2
n σX
Regressione lineare semplice
Econometria - 2013
29 / 60
Errori standard con omoschedasticità
Due formule per gli errori standard
Errori standard nel caso di omoschedasticità:
s P
1
2
2
i Xi su
n
σ̂β̂1 = P
2
i (Xi − X̄)
s
s2u
σ̂β̂1 = P
2
i (Xi − X̄)
Errori standard per l’omoschedasticità sono validi solo se gli errori
sono omoschedastici.
Gli errori standard consueti – per differenziare i due, è
convenzione chiamarli errori standard robusti
all’eteroschedasticità, poichè sono validi a prescindere
dall’eteroschedasticità o meno degli errori.
Il principale vantaggio degli errori standard per l’omoschedasticità
pura è che la formula è più semplice. Lo svantaggio, però, è che la
formula è corretta solo se gli errori sono omoschedastici.
Rossi
Regressione lineare semplice
Econometria - 2013
30 / 60
Errori standard con omoschedasticità
Implicazioni pratiche...
La formula dell’omoschedasticità pura per l’errore standard di e la
formula “robusta all’eteroschedasticità” sono diverse - quindi, in
generale, si ottengono errori standard diversi utilizzando formule
differenti.
Gli errori standard per l’omoschedasticità pura sono
l’impostazione predefinita nei software di regressione - a volte
l’unica impostazione (per esempio in Excel). Per ottenere gli errori
standard ”robusti all’eteroschedasticità” generale occorre
modificare l’impostazione di default.
Se non si modifica l’impostazione di default e vi è
eteroschedasticità, gli errori standard (e la statistica-t e
gli intervalli di confidenza) saranno errati - generalmente,
gli SE per l’omoschedasticità pura sono troppo piccoli.
Rossi
Regressione lineare semplice
Econometria - 2013
31 / 60
Errori standard con omoschedasticità
Il punto essenziale
Se gli errori sono omoschedastici o eteroschedastici e si utilizzano
errori standard robusti all’eteroschedasticità, va bene
Se gli errori sono eteroschedastici e si utilizza la formula
dell’omoschedasticità pura per gli errori standard, gli errori
standard saranno errati (lo stimatore dell’omoschedasticità pura
della varianza di β1 è incoerente in presenza di eteroschedasticità).
Le due formule coincidono (quando n è grande) nel caso speciale di
omoschedasticità
Quindi si dovrebbero sempre utilizzare errori standard robusti
all’eteroschedasticità.
Rossi
Regressione lineare semplice
Econometria - 2013
32 / 60
Errori standard con omoschedasticità
Fondamenti teorici dei minimi quadrati ordinari
Abbiamo già appreso molto sugli stimatori dei minimi quadrati
ordinari: lo stimatore OLS è non distorto e consistente; abbiamo
una formula per gli errori standard robusti all’eteroschedasticità e
possiamo costruire intervalli di confidenza e statistiche di test.
Una buona ragione per utilizzare i minimi quadrati ordinari è
anche l’impiego universale, perciò gli altri saranno in grado di
capire ciò che fate. In effetti, l’OLS è il linguaggio dell’analisi di
regressione, e se utilizzate uno stimatore diverso, parlerete un
linguaggio differente.
Rossi
Regressione lineare semplice
Econometria - 2013
33 / 60
Teorema di Gauss-Markov
Eppure potreste ancora chiedervi...
Tutto quanto detto è davvero una buona ragione per utilizzare
OLS? Non esistono altri stimatori che potrebbero essere migliori –
in particolare che potrebbero avere una varianza inferiore?
Inoltre, che ne è stato della distribuzione t di Student?
Ora risponderemo a queste domande – ma per farlo abbiamo
bisogno di assunzioni più forti delle tre relative ai minimi quadrati
che abbiamo già visto.
Rossi
Regressione lineare semplice
Econometria - 2013
34 / 60
Teorema di Gauss-Markov
Le assunzioni dei minimi quadrati estese
Consistono nelle tre assunzioni dei minimi quadrati, più altre due:
1
2
3
4
5
E[ui |Xi ] = 0, i = 1, 2, . . . , n;
(Xi , Yi ), i = 1, 2, . . . , n, sono i.i.d.;
Gli outlier sono rari E[Yi4 ] < ∞, E[Xi4 ] < ∞;
ui è omoschedastico
ui ha distribuzione N (0, σ 2 )
Le assunzioni 4 e 5 sono più restrittive – perciò si applicano a un
numero inferiori di casi pratici. Tuttavia, facendo queste
assunzioni, determinati calcoli matematici si semplificano e si
possono dimostrare risultati più robusti –che valgono se tali
assunzioni aggiuntive sono vere.
Iniziamo con una discussione sull’efficienza dello stimatore OLS
Rossi
Regressione lineare semplice
Econometria - 2013
35 / 60
Teorema di Gauss-Markov
Efficienza dello stimatore OLS, parte I: il teorema di
Gauss-Markov
Nelle assunzioni dei minimi quadrati ordinari estese 1-4 (le tre di base,
più l’omoschedasticità), β̂1 ha la varianza minima tra tutti gli stimatori
lineari (stimatori che sono funzioni lineari di Y1 , Y2 , . . . , Yn . Questo è il
teorema di Gauss-Markov.
Rossi
Regressione lineare semplice
Econometria - 2013
36 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov
Date le condizioni
1
E[ui |X1 , . . . , Xn ] = 0, i = 1, 2, . . . , n
2
Var[ui |X1 , . . . , Xn ] = σu2 < ∞
3
E[ui uj |X1 , . . . , Xn ] = 0, i 6= j, i, j = 1, 2, . . . , n
Le condizioni di G-M derivano dalle tre assunzioni degli OLS
1
2
3
Poichè le osservazioni sono i.i.d. (A.2)
E[ui |X1 , . . . , Xn ] = E[ui |Xi ] = 0, i = 1, 2, . . . , n
L’A.3 (monenti quarti finiti) assicura che σu2 < ∞
Per l’A.1 E[ui uj |X1 , . . . , Xn ] = E[ui uj |Xi , Xj ], ∀i 6= j,
i, j = 1, 2, . . . , n. Per la stessa A.2
E[ui uj |Xi , Xj ] = E[ui |Xi ]E[uj |Xj ] = 0, ∀i 6= j
Rossi
Regressione lineare semplice
Econometria - 2013
37 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov
β̂1 è uno stimatore lineare:
Pn
(Xi − X̄)Yi X
β̂1 = Pi=1
=
âi Yy
n
2
i=1 (Xi − X̄)
i
dove
(Xi − X̄)
âi = Pn
2
i=1 (Xi − X̄)
i pesi âi , i = 1, 2, . . . , n dipendono da X1 , . . . , Xn ma non da
Y1 , Y2 , . . . , Yn , lo stimatore OLS hatβ1 è uno stimatore lineare.
Sotto le condizioni di G-M lo stimatore OLS è
condizionatamente non distorto
la varianza della distribuzione di β̂1 condizionata a X1 , X2 , . . . , Xn
σu2
2
i=1 (Xi − X̄)
Var[β̂1 |X1 , . . . , Xn ] = P
Rossi
Regressione lineare semplice
Econometria - 2013
38 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov-Prova
Per ogni stimatore lineare del tipo
β̃1 =
n
X
ai Yi
i=1
β̃1 = β0
n
X
!
ai
+ β1
i=1
n
X
!
ai Xi
i=1
+
n
X
ai ui
i=1
Per la prima condizione
n
n
X
X
E[
ai Xi |X1 , . . . , Xn ] =
ai E[ui |X1 , . . . , Xn ] = 0
i=1
i=1
E[β̃1 |X1 , . . . , Xn ] = β0
n
X
!
ai
+ β1
i=1
Rossi
Regressione lineare semplice
n
X
!
ai Xi
i=1
Econometria - 2013
39 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov-Prova
Affinchè β̃1 sia condizionamente non distorto:
!
!
n
n
X
X
E[β̃1 |X1 , . . . , Xn ] = β0
ai + β1
ai Xi = β1
i=1
deve valere che
n
X
i=1
ai = 0
i=1
n
X
ai Xi = 1
i=1
da cui
β̃1 − β1 =
n
X
ai ui
i=1
Rossi
Regressione lineare semplice
Econometria - 2013
40 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov-Prova
Sotto le condizioni del Teorema, la varianza condizionale di β̃1
" n
#
i
h
X
ai ui |X1 , . . . , Xn
Var β̃1 |X1 , . . . , Xn = Var
i=1
=
XX
i
ai aj Cov [ui , uj |X1 , . . . , Xn ]
j
Applicando la seconda e terza condizione di G-M, i termini incrociati
nella doppia sommatoria si annullano
Var[β̃1 |X1 , . . . , Xn ] = σu2
n
X
a2i
i=1
inoltre
Var[β̂1 |X1 , . . . , Xn ] =
σu2
n
X
â2i
i=1
Rossi
Regressione lineare semplice
Econometria - 2013
41 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov-Prova
Sia
ai = âi + di
quindi
X
i
X
i
a2i =
X
X
X
X
(âi + di )2 =
â2i + 2
âi di +
d2i
i
i
i
i
P
(Xi − X̄)di
âi di = Pi
2
i (Xi − X̄)
P
P
di Xi − X̄ i di
iP
=
(Xi − X̄)2
Pi
P
P
P ( ai Xi − âi Xi ) − X̄ ( ai − âi )
P
=
2
i (Xi − X̄)
=0
Rossi
Regressione lineare semplice
Econometria - 2013
42 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov-Prova
Pertanto,
σu2
X
a2i = σu2
i
X
i
â2i + σu2
X
d2i
i
= Var[β̂1 |X1 , . . . , Xn ] + σu2
X
d2i
i
segue che
Var[β̃1 |X1 , . . . , Xn ] =
σu2
n
X
a2i = Var[β̂1 |X1 , . . . , Xn ] + σu2
i=1
X
d2i
i
Var[β̃1 |X1 , . . . , Xn ] − Var[β̂1 |X1 , . . . , Xn ] = σu2
X
d2i
i
Rossi
Regressione lineare semplice
Econometria - 2013
43 / 60
Teorema di Gauss-Markov
Il teorema di Gauss-Markov-Prova
Lo stimatore β̃1 ha varianza condizionata maggiore di quella di β̂1 se di
è diverso da zero per ogni i = 1, 2, . . . , n. Ma se di = 0, ∀i, allora
ai = âi e β̃1 = β̂1
Conclusione: OLS è BLUE (best linear unbised estimator)
Rossi
Regressione lineare semplice
Econometria - 2013
44 / 60
Teorema di Gauss-Markov
Efficienza dello stimatore OLS, parte II
In tutte e cinque le assunzioni dei minimi quadrati estese compresa la distribuzione normale degli errori - β1 ha la varianza
più piccola di tutti gli estimatori consistenti (funzioni lineari o non
lineari di Y1 , Y2 , . . . , Yn ), per n → ∞.
Questo è un risultato assai sorprendente - afferma che, se (in
aggiunta alle assunzioni dei minimi quadrati 1-3) gli errori sono
omoschedastici e normalmente distribuiti, OLS è la scelta migliore
rispetto a qualsiasi altro stimatore consistente. E poichè uno
stimatore che non sia consistente è una scelta scadente, ciò afferma
che l’OLS è davvero la miglior scelta che si possa fare - se valgono
tutte e cinque le assunzioni dei minimi quadrati estese. (La
dimostrazione di questo risultato va oltre l’ambito di questo corso
e non è fornita nel testo).
Rossi
Regressione lineare semplice
Econometria - 2013
45 / 60
Teorema di Gauss-Markov
Alcuni aspetti critici di OLS
I risultati precedenti sono impressionanti, tuttavia tali risultati - e
lo stimatore OLS - hanno limitazioni importanti.
Il teorema di G-M non è poi cosı̀ avvincente:
La condizione di omoschedasticità spesso non regge
(l’omoschedasticità è speciale)
Il risultato vale solo per gli stimatori lineari - solo un piccolo
sottoinsieme di stimatori (ulteriori informazioni a breve)
Il risultato di ottimalità più robusto (”parte II” precedente)
richiede errori normali omoschedastici – cosa non plausibile nelle
applicazioni (si pensi ai dati delle retribuzioni orarie!)
Rossi
Regressione lineare semplice
Econometria - 2013
46 / 60
Teorema di Gauss-Markov
Inferenza con omoschedasticità e gaussianità
1
E[ui |Xi ] = 0, i = 1, 2, . . . , n;
2
(Xi , Yi ), i = 1, 2, . . . , n, sono i.i.d.;
3
Gli outlier sono rari E[Yi4 ] < ∞, E[Xi4 ] < ∞;
4
ui è omoschedastico
5
ui ha distribuzione N (0, σ 2 )
Se tutte le cinque assunzioni valgono, allora:
β̂0 e β̂1 sono normalmente distribuiti per tutti gli n
la statistica-t ha una distribuzione t di Student con n − 2 gradi di
libertà, questo vale esattamente per tutti gli n.
Rossi
Regressione lineare semplice
Econometria - 2013
47 / 60
Teorema di Gauss-Markov
Distribuzione campionaria gaussiana di β̂1
P
(Xi − X̄)ui
β̂1 − β1 = Pi
2
i (Xi − X̄)
1X
=
wi ui
n
i
dove
(Xi − X̄)
Pn
2
i=1 (Xi − X̄)
Qual è la distribuzione di una media ponderata di normali?
1X
E[β̂1 − β1 ] =
wi E[ui ] = 0
n
i

!2 
X
1
Var[β̂1 − β1 ] = 2 E 
wi ui 
n
wi =
1
n
i
Rossi
Regressione lineare semplice
Econometria - 2013
48 / 60
Teorema di Gauss-Markov
Distribuzione campionaria gaussiana di β̂1
Var[β̂1 − β1 ] =
1 X 2
1 2X 2
2
w
E[u
]
=
σ
wi
i
i
n2
n2 u
i
Rossi
Regressione lineare semplice
i
Econometria - 2013
49 / 60
Teorema di Gauss-Markov
Assunzioni
Assunzioni MRL semplice:
Yi = β0 + β1 Xi + ui
i = 1, 2, . . . , n
E[ui |Xi ] = 0
{Xi , Yi } i.i.d
Xi , ui momenti quarti finiti non nulli e finiti.
Var[ui |Xi ] = σu2 , omoschedasticità
Distribuzione di ui data Xi è normale (errori normali):
ui ∼ i.i.d.N (0, σu2 ).
Stimatori OLS:
β̂0 = Ȳ − β̂1 X̄
Pn
(Y − Ȳ )(Xi − X̄)
Pn i
β̂1 = i=1
2
i=1 (Xi − X̄)
Rossi
Regressione lineare semplice
Econometria - 2013
50 / 60
Teorema di Gauss-Markov
Distribuzioni campionarie esatte
Quando gli errori (ui ) si distribuiscono normalmente e sono
omoschedastici le distribuzioni campionarie degli stimatori OLS e delle
statistiche test sono note:
Lo stimatore OLS si distribuisce in modo normale.
la statistica t si distribuisce come una t di Student.
Rossi
Regressione lineare semplice
Econometria - 2013
51 / 60
Teorema di Gauss-Markov
Distribuzione di β̂1
β̂1 |X1 , . . . , Xn ∼ N (β1 , σβ̂2
1 |X
dove
σβ̂2
1 |X
=P
)
σu2
i=1 (Xi
− X̂)2
Per dimostrare che la distribuzione condizionale è normale, si noti che
β̂1 − β1 è una media ponderata di u1 , . . . , un
1 P
(Xi − X̄)ui
n
β̂1 = β1 + 1 Pi=1
2
i=1 (Xi − X̄)
n
Medie ponderate di variabili casuali che si distribuiscono in modo
normale si distribuiscono normalmente.
Rossi
Regressione lineare semplice
Econometria - 2013
52 / 60
Teorema di Gauss-Markov
Non distorsione di β̂1
Abbiamo visto che:
Pn
E[β̂1 |X1 , . . . , Xn ] = β1 +
i − X̄)E[ui |X1 , . . . , Xn ]
i=1 (XP
n
2
i=1 (Xi − X̄)
= β1
β̂1 è condizionatamente non distorto.
Rossi
Regressione lineare semplice
Econometria - 2013
53 / 60
Teorema di Gauss-Markov
Varianza condizionale di β̂1
Per mostrare che
σβ̂2
1 |X
=P
σu2
i=1 (Xi
− X̂)2
sfruttiamo l’ipotesi che ui ∼ i.i.d.N (0, σu2 )
Pn
(Xi − X̄)ui
i=1
Var[β̂1 |X1 , . . . , Xn ] = Var Pn
|X1 , . . . , Xn
2
i=1 (Xi − X̄)
Pn
(Xi − X̄)2 Var[ui |X1 , . . . , Xn ]
= i=1 Pn
2 2
i=1 (Xi − X̄)
Pn
(Xi − X̄)2 σu2
= Pi=1
n
2 2
i=1 (Xi − X̄)
σu2
2
i=1 (Xi − X̄)
= Pn
Rossi
Regressione lineare semplice
Econometria - 2013
54 / 60
Teorema di Gauss-Markov
Distribuzione della statistica t
La statistica t per verificare l’ipotesi nulla β1 = β1,0 è
t=
β̂1 − β1,0
SE(β̂1 )
Sostituendo la formula per SE(β̂1 )
s
SE(β̂1 ) ≡ σ̂β̂1 =
Rossi
s2u
2
i=1 (Xi − X̄)
Pn
Regressione lineare semplice
Econometria - 2013
55 / 60
Teorema di Gauss-Markov
Distribuzione della statistica t
t= q
β̂1 − β1,0
s2u
2
i=1 (Xi −X̄)
Pn
=q
=q
β̂1 − β1,0
2
2
σu
Pn su
2 2
i=1 (Xi −X̄) σu
β̂1 − β1,0
2
σu
2
i=1 (Xi −X̄)
s
/
Pn
(β̂1 − β1,0 )/σβ̂1 |X
= p
,
W/(n − 2)
Rossi
=q
β̂1 − β1,0
2
σu
2
(X
i −X̄)
i=1
Pn
q
s2u
2
σu
s2u
σu2
n
X
û2i
W =
σu2
i=1
Regressione lineare semplice
Econometria - 2013
56 / 60
Teorema di Gauss-Markov
Distribuzione della statistica t
Sotto l’ipotesi nulla
β̂1 |X1 , . . . , Xn ∼ N (β1 , σβ̂2
1 |X
)
quindi
β̂1 − β1,0
|X1 , . . . , Xn ∼ N (0, 1)
σβ̂1 |X
il numeratore della statistica t è N (0, 1).
La variabile casuale W si distribuisce come una chi-quadrato con n − 2
gradi di libertà. W è indipendente da
β̂1 −β1,0
σβ̂ |X .
1
Rossi
Regressione lineare semplice
Econometria - 2013
57 / 60
Teorema di Gauss-Markov
Distribuzione della statistica t
Lo stimatore s2u ha una distribuzione proporzionale a una distribuzione
chi-quadrato con n − 2 gradi di libertà:
s2u ∼
σu2
× χ2n−2
n−2
quindi
s2u
1
× χ2n−2
∼
σu2
n−2
Rossi
Regressione lineare semplice
Econometria - 2013
58 / 60
Teorema di Gauss-Markov
Distribuzione della statistica t
Se Z ha una distribuzione normale standard, se W ∼ χ2m e Z e W sono
indipendentemente distribuite, allora la variabile casuale
Z
∼ tm
t= p
W/m
Nel caso della statistica t
N (0, 1)
q
∼ tn−2
χ2n−2 /(n − 2)
Per n < 30 i valori critici t possono essere un po’ più grandi dei
valori critici N (0, 1)
Per n > 50 o simile, la differenza nelle distribuzioni tn2 e N (0, 1) è
trascurabile.
Rossi
Regressione lineare semplice
Econometria - 2013
59 / 60
Teorema di Gauss-Markov
Implicazioni pratiche
Se n < 50 e credete davvero che, per la vostra applicazione, u sia
omoschedastico e normalmente distribuito, utilizzate tn−2 invece
dei valor critici N (0, 1) per le verifiche di ipotesi e gli intervalli di
confidenza.
Nella maggior parte delle applicazioni econometriche, non vi è
alcun motivo di ritenere che u sia omoschedastico e normale solitamente vi sono ottime ragioni per credere che né l’una né
l’altra assunzione valga.
Fortunatamente, nelle applicazioni moderne n > 50, cosı̀ possiamo
affidarci ai risultati per n grande presentati in precedenza, basati
sul teorema limite centrale, per eseguire verifiche di ipotesi e
costruire intervalli di confidenza usando l’approssimazione normale
per n grande
Rossi
Regressione lineare semplice
Econometria - 2013
60 / 60