appunti sul modello di regressione lineare

MODELLO DI REGRESSIONE
LINEARE
• le ipotesi del modello di regressione classico,
• stima con i metodi dei minimi quadrati e
di massima verosimiglianza,
• teorema di Gauss-Markov,
• verifica di ipotesi e test di specificazione
e adattamento nel modello di regressione
classico.
• J.D. Hamilton (1995), Econometria delle
serie storiche, Monduzzi.
• W. H. Greene (1993), Econometric Analysis, Prentice Hall.
1
MODELLO DI REGRESSIONE
LINEARE
0
yt = xtβ + ut
• yt : variabile casuale dipendente
h
i
0
• xt = 1, xt1, xt2, ..., xtp : vettore dei regres-
sori (deterministici o stocastici)
h
i
• β 0 = β0, β1,β2, ..., βp : vettore dei parametri
• ut : componente stocastica di valore atteso
nullo
FUNZIONE DI REGRESSIONE
0
E(yt|xt) = xtβ
NOTAZIONE MATRICIALE
y = Xβ + u

• X


=


0

0

x1
0 
x2 
 matrice T xP (P = p + 1) dei

xT
regressori


y1
 y 
 2 
• y =
 vettore delle variabili risposta


yT

u1
 u

• u = 2
 ..
uT
castiche



 vettore delle componenti sto
2
ASSUNZIONI DEL MODELLO DI
REGRESSIONE LINEARE CLASSICO
• A0:la funzione di regressione E( y|X) = Xβ
è correttamente specificata
• A1: u è un vettore di T variabili casuali
indipendenti
• A2: le componenti di u sono variabili casuali di valore atteso nullo e varianza σ 2(omoscheda
• A3: le componenti di u sono variabili casuali normali
3
• A4: X è una matrice di costanti note (regressori non stocastici)
• A5: le colonne di X sono linearmente indipendenti =⇒ X0X è invertibile
• A4bis: X è una matrice stocastica, u e X
sono stocasticamente indipendenti ovvero
in termini di densità di probabilità: f (u|X) =f (u)
• A4bisbis E(u|X) =E(u)
4
STIMA di β, σ 2
Verosimiglianza
0
Da yt = xtβ + ut e per le A1, A2, A3, A4
(A4bis) si ha che le yt
sono variabili casuali indipendenti normali con
valore atteso
0
µt = xtβ e varianza σ 2.
QUINDI ho la verosimiglianza:
T
Y
0
1
√
exp − 2 (yt − xtβ)2
L(β, σ 2) =
2
2σ
t=1 2πσ
1
e la log verosimiglianza:
T
L(β, σ 2) = − ln(2πσ 2) −
2
=−
0
1 X
2=
(y
−
x
β)
t
t
2σ 2 t
1
T
0 y − Xβ
ln(2πσ 2) −
y
−
X
β
(
)
(
)
2
2σ 2
5
se σ 2 è noto massimizzare la log verosimiglianza
equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI):
Q(β) = (y − Xβ )0 (y − Xβ )
6
RISULTATO FONDAMENTALE
Q(β) = (y − Xβ )0 (y − Xβ ) ha un unico minimo
in
b
−1
0
= XX
X0y
è importante notare che:
y − Xb = y − X
−1
0
XX
X0y = (IT −M) y
dove M = X X0X −1 X0 è una matrice T xT idempotente (M = MM). Quindi anche (IT −M) è
idempotente.
7
Ne consegue
Q(b) = (y − Xb)0 (y − Xb) =
= y0 (IT −M) y = y0y − y0My =
= y0 y − y0 X
−1
0
X0y =
XX
y0y − y0Xb
8
Verosimiglianza concentrata
Sostituendo b a β nella log verosimiglianza si
ottiene la log verosimiglianza concentrata:
L(σ 2) = −
1
T
ln(2πσ 2) −
Q(b)
2
2
2σ
che ha un massimo in s2 = Q(Tb) .
9
CONCLUDENDO: gli stimatori M.V. sono
s2 =
b =
Q(b)
T
−1
0
XX
X0y
10
PROPRIETA’ DEGLI STIMATORI
A0 - A4bisbis garantiscono che
E(b) = β
E
T
s2
T −1−p
!
=E
Q(b)
T −1−p
!
= σ2
E(b) = β è banalmente verificata infatti condizionatamente ad X :
−1
−1
0
0
0
E( X X
X y)= X X
X0(Xβ + u) =
−1
−1
0
0
0
= XX
X Xβ+E( X X
Xu)=
−1
0
XE(u|X) =β
= β+E X X
b)
per la correttezza di TQ(
−1−p si procede (condizionatamente ad X) notando che :
11
0
E (Q(b)) = E y (IT −M) y =
0
= E traccia(y (IT −M) y) =
= E(traccia (IT −M) yy0) = traccia((IT −M) E(yy0) =
2
0
0
= traccia (IT −M) (σ I + Xββ X =
2
= traccia (IT −M) (σ I =
= σ 2(traccia (IT )−traccia(M)) = (T − 1 − p)σ 2
dove l’ultima uguaglianza deriva da:
−1
0
traccia(M) = traccia(X X X
X0) =
−1
0
= traccia( X X
X0X) =
= traccia(Ip+1) = p + 1
12
quindi
s̃2 =
Q(b)
T −1−p
è uno stimatore corretto per σ 2
matrice varianze covarianze dei
coeff. di reg. per X fissato
13
Vogliamo trovare la matrice varianze covarianze:
V ar(β) = E(b − β)(b − β)0
Notiamo innanzitutto che:
b−β =
−1
0
XX
X0
=
−1
0
X0u
XX
(Xβ + u) −β =
e che E(uu0) = σ 2IT per le assunzioni di indipendenza e omoschedasticità. Quindi:
E(b − β)(b − β)
0
=
−1
−1
0
0
2
0
XX
X σ IT X X X
=
−1
2
0
= σ
XX
−1 0
0
Inoltre da b − β = X X
X u dalla Assunzione
di Normalità, dalla proprietà di correttezza e
dal precedente risultato deriva che le componenti bi − βi di b − β sono v.c. normali con
valore atteso nullo e varianza σ 2cii con cii elemento della iesima riga e iesima colonna di
−1
0
XX
.
14
DEFINIZIONE DI Variabile Casuale Multinormale
Sia z = (z1, z2, ...., zT )0 un vettore di T normali
standardizzate indipendenti. La variabile casuale vettoriale:
w = µ + L0z
è una variabile casuale multinormale di dimensione T con valore atteso µ e matrice varianze
covarianze Ω = L0L.
Se Ω è diagonale le componenti di w sono
stocasticamente indipendenti.
Conseguenza:Cw = Cµ + CL0z è una variabile
casuale multinormale con valore atteso Mµ e
0
0
matrice varianze covarianze Ω = C L L C .
15
fatto importante: la densità congiunta di
una una variabile casuale multinormale con
valore atteso µ e matrice varianze covarianze
Ω è:
f (w; µ, Ω)=
1
1
0 Ω−1 w − µ
=
exp
−
w
−
µ
(
)
(
)
T
/2
2
(2π det(Ω))
16
esempio: nel modello di regressione classico
normale:
u = 0+ (σ I) z
è un vettore multinormale con con valore atteso µ = 0 e matrice varianze covarianze Ω =
σ 2I.
esempio:b − β = X0X −1 X0u = X0X −1 X0 (σ I) z
è un vettore multinormale con con valore at−1 2
0
teso µ = 0 e matrice varianze covarianze X X
σ .
Più in generale la trasformazione lineare C (b − β )
è una variabile casuale multinormale con vettore dei valori attesi nullo e matrice varianze
covarianze
σ 2C
−1
0
XX
C0
caso rilevante : C = x∗ . Perchè?
17
INFERENZA
Problemi di stima intervallare e verifica ipotesi
concernenti singli coefficienti di regressione βi
sono risolti a partire dai seguenti risultati (dimostrazione omessa) dipendenti in linea diretta dalla ipotesi di normalità indipendenza è
identica distribuzione degli errori
18
TESTS DI WALD
1-La variabile casuale
bi − βi
q
s̃2cii
è un variabile casuale pivotale di Student con
T − 1 − p gradi di libertà.
2-Sotto l’ipotesi nulla Cβ = c relativa a v vincoli lineari:
−1
−1
1
W = (Cb − c)0 s̃2C X0X
C0
(Cb − c)
v
è una variabile casuale di tipo F con v e T −1−p
gradi di libertà.
19
PREVISIONE
si vuole prevedere y ∗ = x∗0β + u cioè la risposta
in corrispondnza di x∗0. Il migliore previsore è il
valore atteso E(y ∗) = x∗0βh ( minimizza l’errore
i
∗ 2
∗
quadratico di previsione E (y − g(x )) ). Siccome i parametri non sono noti si usa il previ
sore puntuale:x∗0b = x∗0 X0X −1 X0y.
Errore quadratico di previsione condizionato ai regressori:
E(y ∗ − x∗0
−1
0
XX
X0y)2 =
= E(y ∗ − x∗0β)2 + E(x∗0β − x∗0b)2 =
= σ 2 + σ 2x∗0
−1
0
XX
x∗
Intervallo di previsione a livello 1-α:
x∗0b ± t
2 + s̃2 x∗0
(s̃
1−α/2,T −1−p
−1
0
XX
x∗)
20
METODO EFFICIENTE PER
PREVISIONE
Supponiamo di dover prevedere
y∗ = X∗β + u∗
le previsioni e gli errori quadratici di previsione
sono ottenuti dalle”regressione aumentata”:
"
y
0
#
"
=
X 0
X∗ −I
#"
β
y∗
#
"
+
u
u∗
#
lo stimatore di y∗ nel modello precedente fornisce le previsioni X∗b richieste e i corrispondenti elementi nella matrice
"
# varianze covariβ
anze dello stimatore di
le stime degli ery∗
rori quadratici di previsione (Greene pag.309).
21
Varianza spiegata Varianza Residua Indice
di determinazione Multipla
Somma dei quadrati totale e devianza totale
qT2 = y0y
0 y−T ȳ 2
d2
=
y
T
Somma dei quadrati spiegata e devianza spiegata
2 = y0 My
qS
0 My−T ȳ 2
d2
=
y
S
Somma dei quadrati residua e devianza residua
(concetti coincidenti)
2 = y0 I − M y
qR
( T
)
0
d2
R = y (IT − M) y
22
Indice di determinazione multipla centrato, non
¯
centrato e corretto
2
Rcentr
2
Rnocentr
y0My−T ȳ 2
y 0 ( I − M) y
=1−
=
0
2
y y−T ȳ
y0y−T ȳ 2
y0My
=
y0 y
y0(I−M)y
T −1
T −p
2
2
Rcorretto = 1 − 0
=1−
(1 − Rcentr
)
2
y y−T ȳ
T −p
T −1
23
CONFRONTO FRA MODELLI
Sia d2
R1 la devianza residua del modello con p
regressori e d2
R0 la devianza residua del modello con βi = 0, i = 1, 2, ...., v.
d2
−d2
R0
R1 T −1−p è una F di snedecor
la statistica
v
d2
R1
con v e T − 1 − p gdl.
Confronto con quanto detto prima!!!!!
24
UN CASO PARICOLARE
y t = β 0 + β 1 xt + u t

X


=


1 x1
1 x2 


.. .. 
1 xt
#
P
n
x
P 2t ;
P
X0X =
xt
xt
" P
#
P
−1
2
1
x
− xt
0
Pt
XX
=
P 2
P
n
n x t − ( x t )2 − x t
" P
#
y
X0y = P t
xt y t
"
"
b0
b1
#

−1
0
= XX
X0y

cov(xy)
 ȳ − V ar(x) x̄ 
=

cov(xy)
V ar(x)
25
UNA APPLICAZIONE IMPORTANTE: effetto di una nuova condizione sul valore
atteso di una risposta sperimentale.
yt = µ + δ + ut, i = 1, 2, 3, ....n1(on)
yt = µ + ut, i = n1 + 1, ......, n1 + n2 = n (off)

X







=






1
1
..
1
1
1
..
1
1
1
..
1
0
0
..
0















26
X0X =
−1
X0X
=
"
n1 + n2 n1
n1
n1
1
#
;
"
n1
−n1
−n1 n1 + n2
n1 + n2) n1 − (n1)2
(


1
1
−n
n2
2


=
−1
−1
1
− n n1 + n2
" P 2
#
"
#
ny
n1Mn1 + n2Mn2
Pn11 t
X0y =
=
n1Mn1
1 yt
"
#
"
#
−1 0
b0
Mn2
0
= XX
Xy=
b1
(Mn1 − Mn2 )
27
#
=
VARIABILI CASUALI PIVOTALI PER
INFERENZA
Stima corretta di σ 2
σ̃ 2 =
=
Pn1
2 + Pn2
2
(x
−
M
)
(x
−
M
)
n
n
i
i
1
2
i=1
i=n1 +1
n1 + n2 − 2
(n1 − 1)Sn21 + (n2 − 1)Sn22
n1 + n2 − 2

"
T1
T2
#


=


.
Mn2 −µ √
√
n1
σ̃ 2
(M −Mn2 −δ)
r n1
−1
σ̃ 2 n−1
+n
1
2






28
=
UN PROBLEMA INFERENZIALE
IMPORTANTE
La variabile casuale pivotale T di student con
n1 + n2 − 2 gdl:
(Mn1 − Mn2 − δ0)
r
−1
−1
2
σ n1 + n2
è usata per verificare l’ipotesi H0 : δ = δ0 contro alternative unilaterali e bilaterali.
29
errori correlati e o eteroschedastici
Data una matrice varianze covarianze Ω = σ 2L0L
invece che u = 0+ (σ I) z supponiamo
u
= 0+ σ L0
z
per cui
y
= Xβ+ σ L0
z
è multinormale di dimensione T con valore atteso Xβ e matrice varianze covarianze Ω = σ 2L0L.
La log verosimiglianza è:
L(β, Ω)=
1
T
0 Ω−1 y − Xβ
= − ln(2π det(Ω) −
y
−
X
β
(
)
(
)
2
2
2σ
Continuando ad usare b = X0X −1 X0y si ha
che lo stesso è ancora corretto ma che
var(b) = Σ
= σ2
−1
−1
0
0
0
XX
X ΩX X X
30
Conseguenze: stimatore corretto ma non più
efficente (o a minima varianza tra gli stimatori
lineari in assenza di ipotesi di normalità).Inoltre
b − β= X0X −1 X0u adesso è multinormale con
valore atteso nullo e matrice var covar Σ. I
precedenti risultati concernenti il test di Wald
non sono più validi.
31
Stima con Ω noto
In questo caso massimizzare la verosimiglianza
equivale a minimizzare (metodo minimi quadrati
generalizzati)
QΩ(β) = (y − Xβ )0 Ω−1 (y − Xβ )
il minimo si ha per (stimatore minimi quadrati
generalizzato):
b̈
−1
0
−1
= XΩ X
X0Ω−1y
ed è :
0
QΩ(b̈) = y − Xb̈
Ω−1
y − Xb̈
32
Log-Verosimiglianza concentrata
T
2
L(σ ) = − ln(2πσ 2) −
2
1
QΩ(b̈)
2
2σ
che ha un massimo in s̈2 = Q(Tb̈) . Questo sti...
b̈)
matore non è corretto ma lo è s 2 = TQ(
−1−p .
I risultati inerenti il test di Wald
continuano
−1 a
valere per b̈ utilizzando però X0Ω−1X
al
−1
...
0
posto di X X
e s 2 al posto di s̃2.
33
IL PROBLEMA E CHE Ω in genere non è
nota e deve essere stimata. Se al posto di Ω si
utilizza uno stimatore consistente (da trovare)
Ω̂ i risultati
precedenti continuano a valere per
... 0 −1 −1 0 −1
X Ω̂ y con le sostituzioni:
b = X Ω̂ X
• la corretezza diventa correttezza asintotica
• la normalità di b̈ − β diventa normalità asintotica
i −βi
• pb̈...
è asintoticamente normale (qui cii
s 2 cii
è un elemento
−1 della diagonale principale di
X0Ω̂−1X
.
34
•
0 ...2 0 −1 −1 0 −1
C
(Cb̈ − c)
(Cb̈ − c) s C X Ω̂ X
è asintoticamente una chi quadro con v
gradi di libertà
Discussione dei casi rilevanti:
• errori eteroschedastici Ω diagonale
• errori autocorrelati di tipo AR(1) o AR(m)
35
Elementi di teoria asintotica
Quanto sopra detto perchè nei casi di regressori stocastici o di errori non indipendenti o
eteroschedastici o in assenza della ipotesi di
normalità si ricorre a risultati asintotici.
Notiamo che
−1
1 0 −1
1 0 −1
b̈ = β+
XΩ X
XΩ u
T
T
1
0
−1
se p lim T X Ω X = Q è una matrice def.
positiva e se plim T1 X0Ω−1u = 0 lo stimatore
dei minimi quadrati generalizzati è asintoticamente corretto e consistente inoltre se T1 X0Ω−1u
è asintoticamente normale allora lo è anche
lo stimatore
b̈. Analoghi discorsi valgono per
...
1 X0 Ω̂−1 X −1 1 X0 Ω̂−1 y.
=
b
T
T
36
ERRORI E REGRESSORI CORRELATI
Supponiamo che la A4bisbis non sia valida
E(u|X) 6=0
In questo caso non si ha corretezza infatti:
−1
0
E( X X
X0y)=
−1
0
X0(Xβ + u) =
E XX
−1
−1
= X0X
X0Xβ+E E( X0X
Xu)|X =
−1
0
=β+E X X
XE(u|X) 6=β
Discussione di casi rilevanti
• errori correlati in presenza di variabili ritardate
• modelli ad equazioni simultanee
37
COMPONENTE STOCASTICA AR(1)
ut = ρut−1 + zt
dove le zt sono normali indipendenti di valore
2.
atteso nullo e varianza σZ
Assunzione di stazionarietà:
V ar(ut) = σ02, Cov(ut, ut0 ) = σ|t−t0|
dalla assunzione di stazionarietà si ricava
2
σ02 = ρ2σ02 + σZ
e quindi
σ02 =
2
σZ
1 − ρ2
Quindi la stazionarietà implica che ρ2 < 1.
Viceversa si dimostra che ρ2 < 1 implica la
stazionarietà.
38
Se ρ2 = 1 il processo non stazionario è chiamato random walk ( processo autoregressivo con
una radice unitaria).
Applicando ricorsivamente la definizione ut =
ρut−1 + zt si ottiene
ut = ρsut−s +
s−1
X
ρizt−i
i=0
da cui
Cov(ut, ut−s) = σs = ρsvar(ut−s) = ρs
2
σZ
1 − ρ2
e quindi

σ 2Ω


2 

σZ

=
2
1−ρ 



1
ρ
ρ2
...
...
:ρ
1
ρ
...
...
ρ2
ρ
1
...
...

3
T
−1
ρ ... ρ

ρ2 ... ρT −2 

ρ ... ρT −3 

... ...
... 


... ...
ρ 
ρT −1 ρT −2 ρT −3 ...
ρ
1
39
usando la stima di ρ
PT
etet−1
r = t=2
PT
2
t=1 et
(gli et sono residui ottenuti applcando i minimi quadrati ordinari) si ottiene lo stimatore:
... 1 0 −1 −1 1 0 −1
b = T X Ω̂ X
T X Ω̂ y.
40
Oppure si può usare il metodo di massima verosimiglia
Lo stimatore di massima verosimiglianza b̂ è
ottenuto massimizzando la log verosimiglianza:
log L1 = log f (y1)+log f (y2|y1)+log(f (y3|y2)+...
Calcolo di f (y1): da y1 = x01β+u1 con u1 nor2
σZ
male di valore atteso nullo e varianza 1−ρ2 si
ha :




2 

0β 

y
−
x
1
1
1
exp −
f (y1) = s
2


σZ
2


σZ


2
2π 1−ρ2
1−ρ2
Calcolo
di f (yt|yt−1) : sottraendo ρ · yt−1 =
ρ x0t−1β+ut−1 da yt = x0tβ+ρut−1 + zt si ha
yt − ρ · yt−1 − x0tβ−ρx0t−1β
= zt
Si ricordi che zt è normale con valore atteso
2.
nullo e varianza σZ
41
Quindi (!!!!!!):
f (yt|yt−1) =
=q
1
2
2πσZ



exp −


yt − ρ · yt−1 − x0tβ+ρx0t−1
2 

β 
2
2σZ


42
Quindi a meno di costanti:
1
T
2
log L1 = − ln σZ + ln(1 − ρ2)+
2
2
q
2
1
− 2
1 − ρ2 y1 − x01β
+
2σZ
T 2
1 X
0
0
− 2
yt − ρ · yt−1 − xtβ+ρxt−1β .
2σZ t=2
La matrice varianze covarianze degli stimatori
dei coefficienti di regressione è
2
σZ
−1
0
−1
XΩ X
2 e ρ le stime
che va stimata sostituendo a σZ
di massima verosimiglianza.
43
L’ipotesi ρ = 0 può essere verificata o con il
Tet di Durbin Watson (vedi Greene pg 538)
PT
2
(e
−
e
)
t
t−1
d = t=2PT
2
t=1 et
o mediante il test del rapporto delle massime
verosimiglianze:
2(log L1 − log L0)
che ha una distr. asint chi quadro con un gdl.
E’ possibile in generale considerare errori AR(p):
ut = θ1ut−1 + θ2ut−2 + ... + θput−p + zt
44
Previsione passo 1 in presenza di errori AR(1)
¯
Si deve prevedere yT +1 = xT +1β + ρuT + zT +1
Ora da yT +1 − ρyT = xT +1 − ρxT β + zT +1 si
ricava
yT +1 = xT +1β + ρ(yT − xT β) + zT +1
da cui si ricava il previsore passo uno:
E(yT +1|YT ) = xT +1β + ρ(yT − xT β)
e quindi la previsione
π̂T +1 = xT +1b+ρ̂(yT − xT b).
Analogamente la previsione a passo n è
π̂T +n = xT +nb+ρ̂n(yT − xT b).
La stima dell’errore quadratico della previsione
passo uno è:
σ̂02 +
xT +1 − ρ̂xT
0
"
−1
2 X0 Ω̂−1 X
σ̂Z
#
2
σ̂0 xT +1 − ρ̂xT
+
T
45