6-Econometria, a.a. 2011-12. Regressione non lineare
Lezione 6
Modelli di Regressione Non Lineare
In questo capitolo si considerano modelli econometrici non lineari del tipo
yt = f (xt , β) + ut con E(ut | xt ) = 0 ;
quindi si sta assumendo che la variabile economica yt abbia una dipendenza causale dalla variabile
esogena (vettoriale) x t , una dipendenza non lineare dal parametro non noto β ∈ R k e che l`errore
sia additivo.
Per alleggerire le notazioni si preferisce non evidenziare esplicitamente nel modello la
dipendenza da x t , e allora esso si scrive nella forma
yt = xt (β) + ut , con E(ut | Ωt ) = 0 per t = 1, 2,… e xt ∈ Ωt ,
dove Ω t denota il complesso di informazioni disponibili all`istante t che influenzano (non solo dal
punto di vista funzionale) yt . Si osservi infine che qui non sussiste come nei modelli lineari, dove si
ha f (xt , β) = x′t β , l’uguaglianza tra la dimensione del vettore x t (che come si puo` notare non e`
stata esplicitata) e la dimensione k di β .( 1 )
Alcuni esempi:
ƒ Modello non lineare riconducibile ad uno lineare: Si considera il modello economico
β1
β2
y = α x1 x2
(denominato modello di Cobb-Douglas, utilizzato per mettere in relazione la produzione con i
fattori produttivi capitale e lavoro). Osservato che le variabili assumono valori positivi, non è
restrittivo assumere che anche α e` positivo e allora il modello si può scrivere nella forma
log( y ) = log(α ) + β1 log( x1 ) + β 2 log( x2 ) ,
che è evidentemente lineare nei parametri log(α ) , β1 , β 2 . Se sono disponibili osservazioni sulle
variabili, l’introduzione di un errore additivo u nell’ultimo modello, dà origine ad un modello
econometrico di regressione lineare. Si noti che la presenza dell’errore additivo u nell’ultimo
modello, equivale alla presenza di un errore moltiplicativo v = eu nel modello originario. Semplici
considerazioni di carattere economico rendono ragionevole la presenza di un tale tipo di errore.
ƒ Modello propriamente non lineare: Si considera un modello lineare
yt = x′t β + ut ,
Forme piu’ generali di modelli non lineari si presentano nella forma m( yt , x t , β) = ut . Per una semplice introduzione al
metodo di stima GMM (Metodo generalizzato dei momenti) utilizzabile per questi (e altri) modelli, vedi il paragrafo
6 del capitolo 5 del volume “A Guide to Modern Econometrics” di Verbeek, dove è presente anche una interessante
applicazione.
1
1
6-Econometria, a.a. 2011-12. Regressione non lineare
con gli errori autocorrelati; più precisamente si assume che essi hanno la seguente semplice struttura
ut = ρ ut −1 + ε t con {ε t } ∼ i.i.d .(0, σ 2 ) e ρ < 1 .( 2 )
Ora ricavando ut dalla prima equazione e sostituendo nella seconda si ha:
yt = ρ yt −1 + x′t β − ρ x′t −1β + ε t , con {ε t } ∼ i.i.d .(0, σ 2 ) e ρ < 1 ,
che è un modello non lineare. Si noti che quest’ultimo è un modello dinamico (per la presenza di
yt −1 tra le variabili indipendenti) con gli errori che sono innovazioni (cioe` i.i.d .(0, σ 2 ) ).
Osservazione sul metodo di stima dei momenti: Si tralascia di descrivere il metodo per i modelli
non lineari qui considerati; si segnala soltanto che per avviare la procedura di stima sono necessarie
(almeno) k variabili non correlate con ut . Per varie ragioni, qui non indicate, non è opportuno
utilizzare le variabili x t (e non per la possibile disparità tra il loro numero e quello dei parametri,
che in realtà` non costituisce un problema). Anche X t (β) =
(1× k )
∂xt (β)
, che non e` correlato con ut (in
∂β
quanto funzione di x t con E(ut | xt ) = 0 ), non è direttamente utilizzabile per avviare la procedura di
stima, in quanto per esso, essendo β non noto, non sono disponibili le osservazioni; pero`
quest`ultimo ostacolo puo` essere rimosso con qualche semplice accorgimento. Si noti che nel caso
lineare si ha X t (β) =
∂ [ x′t β ]
∂β
= x′t e allora l’inconveniente ora segnalato non si presenta.
Il metodo (di stima) dei Minimi Quadrati per i modelli non lineari
Si considera la funzione obiettivo Qn (β) =
1 n
( yt − xt (β)) 2 .
∑
n t =1
Definizione: Il punto di minimo della funzione Qn (β) , se esiste, dicesi stimatore dei minimi
quadrati non lineare (NLS) di β e si denota con il simbolo βˆ NLS (o anche β̂ se non c’è possibilità
di equivoco).
Osservazione:
i) Se le variabili x t sono strettamente esogene (nel senso che il loro valore all’istante t è determinato all’esterno del
modello) allora il metodo dei minimi quadrati ordinari fornisce una buona stima (cioè consistente e si può provare
anche asintoticamente normale) di β sebbene non efficiente; se invece tra le x t c’è qualche ritardo della variabile
dipendente, allora evidentemente la stima OLS di β non è consistente.
ii) L’ipotesi qui fatta sugli errori è abbastanza realistica. Per esempio nel caso in cui l’errore ut all’istante t ha due
2
componenti: l’innovazione ε t e ρ ut −1 (l’effetto residuale dell’errore all’istante t − 1 ) con 0 < ρ < 1 o equivalentemente
quando gli effetti delle innovazioni si spengono geometricamente e quindi per l’errore si ha
ut = ε t + ρε t −1 + ρ 2ε t − 2 + ,
rappresentazione che si dimostra essere equivalente a ut = ρ ut −1 + ε t
2
6-Econometria, a.a. 2011-12. Regressione non lineare
Osservazione:
•
Lo stimatore βˆ NLS (se esiste) è soluzione dell’equazione non lineare
⎛
⎞ n
⎜ ∂Qn (β) = 0 ⇔ ⎟ X ′(β)( y − x (β)) = 0 ;
t
t
t
⎜ ∂β
⎟∑
⎜ (1×k )
⎟ t =1 ( k ×1)
⎝
⎠
•
Per βˆ NLS generalmente non e` disponibile una rappresentazione analitica esplicita, ma per le
applicazioni servono soltanto le sue proprietà e il suo valore nel campione a disposizione;
•
Le condizioni che assicurano l’esistenza di βˆ NLS (per n sufficientemente grande) si dicono
condizioni di identificabilità (finite).
Proprietà dello stimatore βˆ NLS :
Proposizione (Consistenza di βˆ NLS ): Si denota con β* il valore vero (ma non noto) del parametro
β e si assume che:
i)
βˆ NLS esiste (per n sufficientemente grande) (e dunque che il modello e` identificabile al
finito).
ii)
Per (talune) funzioni di ( yt , xt ) vale la legge dei grandi numeri (per esempio se il processo
{ yt , xt }
è stazionario ed ergodico oppure è costituito da v.a. indipendenti con opportune restrizioni
sui momenti);
1 n
X t′(β)( yt − xt (β))
∑
n →∞ n
t =1
iii) Il modello e` asintoticamente identificabile, cioe` posto α (β) = p lim
(il limite esiste per la precedente ipotesi) β* è l’unica soluzione dell`equazione α (β) = 0 . ( 3 )
p
Allora lo stimatore βˆ NLS e` consistente (cioe` βˆ NLS → β* ).
Un cenno della dimostrazione (che puo` essere omessa): Si prova dapprima che
p
βˆ NLS → β
(la prova qui non e` riportata). D`altra parte, essendo
1 n
∑ X t′(βˆ NLS )( yt − xt (βˆ NLS )) = 0 , passando al
n t =1
limite per n → ∞ , si ha α (β ) = 0 , donde per l`ipotesi di asintotica identificabilita` del modello
segue che β = β* e quindi l`asserto.
Nel caso di modelli lineari l’asintotica identificabilità implica l’identificabilità (finita), implicazione non vera nel
caso di modelli non lineari.
3
3
6-Econometria, a.a. 2011-12. Regressione non lineare
Proposizione (Asintotica normalità e stima della varianza asintotica): In aggiunta alle
precedenti ipotesi i), ii), iii) si assume che
iv)
quando necessario valga qualche versione del teorema del limite centrale (per esempio se il
processo { yt , xt } oltre ad essere stazionario ed ergodico si ha E(ut | xt , xt −1 ,… , ut −1 ,…) = 0 oppure è
costituito da v.a. indipendenti con opportune restrizioni sui momenti);
v)
1 n
X t′(β* ) X t (β* ) è invertibile (si noti che quando i processi sono
∑
n →∞ n
t =1
la matrice ( Σ x = ) p lim
stazionari si ha Σ x = E ⎡⎣ X t′(β* ) X t (β* ) ⎤⎦ ).
Dimostrazione: Dalla formula di Taylor di punto iniziale β* per la funzione
∂Qn (β)
, si ha (per un
∂β
β appartenente al segmento congiungente β* e β̂ )
(0 =)
∂Qn (βˆ ) ∂Qn (β* ) ∂ 2Qn (β) ˆ *
(β − β ) ;
=
+
∂β′
∂β′
∂β′∂β
( k ×1)
ora
•
⎛
∂Qn (β* )
−
(
1/
2)
n
⎜
∂β′
⎝
d
⎞ 1 n
1 n 2
*
′
con
Σ
p
ut X t′(β* ) X t (β* ) ;
=
lim
=⎟
X
(
β
)
u
(
0
,
Σ
)
N
→
∑
∑
ux
t
t
ux
→∞
n
n
t =1
⎠ n t =1
(nel caso di processi stazionari è Σux = E ⎡⎣ut2 X t′(β* ) X t (β* ) ⎤⎦ );
•
(1/ 2)
∂ 2Qn (β)
1 n ∂
= − ∑ [ X t′(β)( yt − xt (β)) ] =
∂β′∂β
n t =1 ∂β
β =β
=−
p
1 n ∂X t′(β)
1 n
β
(
y
x
(
))
X t′(β) X t (β) → 0 + Σ x
−
+
∑
∑
t
t
n t =1 ∂β
n t =1
e quindi si ha:
⎛ ⎡ ∂ 2Q (β) ⎤ −1 ⎡
∂Qn (β* ) ⎤ ⎞ d
n
ˆ
ˆ
n (β − β 0 ) ⎜ = ⎢ −
n
⎥ ⎟ → N (0, Avar(β))
⎜ ⎣ ∂β′∂β ⎦⎥ ⎣⎢
∂β′ ⎦ ⎟
⎝
⎠
con
- Avar(βˆ ) = Σ −1Σ Σ −1 ;
x
ux
x
−1
−1
⎡1
⎤ ⎡1 n
⎤ ⎡1 n
⎤
- Avar(βˆ ) = ⎢ ∑ X t′(βˆ ) X t (βˆ ) ⎥ ⎢ ∑ uˆt2 X t′(βˆ ) X t (βˆ ) ⎥ ⎢ ∑ X t′(βˆ ) X t (βˆ ) ⎥ .
⎣ n t =1
⎦ ⎣ n t =1
⎦ ⎣ n t =1
⎦
n
Osservazione:
•
Avar(βˆ ) converge in probabilità verso Avar(βˆ ) e dicesi stimatore di White della varianza (in
presenza di eteroschedasticita`). Per la prova della convergenza si usano gli stessi argomenti
4
6-Econometria, a.a. 2011-12. Regressione non lineare
utilizzati per provare la consistenza dello stimatore di White per la varianza dello stimatore OLS.
•
Stima di Avar(βˆ ) quando gli errori sono omoschedastici ( E(ut2 | Ωt ) = σ 2 ): In questo caso si
ha Σux = σ 2 Σ x , e allora
⎡1 n
⎤
Avar(βˆ ) = σ 2 Σ −x1 e Avar(βˆ ) = s 2 ⎢ ∑ X t′(βˆ ) X t (βˆ ) ⎥
⎣ n t =1
⎦
con s 2 =
•
−1
1 n 2
1 n 2
2
ˆ
u
s
=
(o
anche
∑ t
∑ uˆt che spesso è preferito).
n t =1
n − k t =1
Ci sono casi in cui anche in presenza di autocorrelazione negli errori si puo` utilizzare il
teorema del limite centrale, in tal caso Newey e West hanno costruito lo stimatore consistente della
varianza asintotica dello stimatore β̂ (indicato in eviews con la sigla HAC). E` importante notare
che la presenza di autocorrelazione negli errori esclude la possibilita` che tra le variabili
indipendenti ci possa essere qualche ritardo di yt (infatti si perderebbe l`ipotesi che E(ut | xt ) = 0
essenziale per la prova della consistenza dello stimatore).
La Regressione di Gauss-Newton
Le procedure numeriche utilizzate per minimizzare la funzione obiettivo
Q(β) =
1 n
2
( yt − xt (β) )
∑
n t =1
hanno, come si potra` constatare, interessanti conseguenze su questioni più propriamente statistiche.
Nell’appendice si descrive brevemente il ben noto Metodo di Newton (accompagnato da qualche
commento) al solo fine di introdurre le notazioni che sono utilizzate qui di seguito.
Si pone
⎛ ∂Q(β) ⎞
2 n
g(β) ⎜ =
=
−
∑ X t (β)( yt − xt (β)) ,
⎟
n t =1
∂β ⎠
(1×k ) ⎝
⎛ ∂ 2Q(β) ⎞
⎞
2 n ⎛ ∂X t (β)
=
−
H (β) ⎜ =
( yt − xt (β)) − X t′ (β) X t (β) ⎟ .
∑
⎟
⎜
∂β∂β′ ⎠
n t =1 ⎝ ∂β′
( k ×k ) ⎝
⎠
Importanti considerazioni (da i a vii):
i)
( )
Al fine di costruire la sequenza minimizzante di βˆ NLS (e dunque una successione βˆ j
che
j
converge a βˆ NLS ), si osserva che è possibile utilizzare il metodo Quasi-Newton utilizzando la
matrice D(β) =
2 n
∑ X t′ (β) X t (β) (che è certamente definita positiva se è non singolare), in quanto
n t =1
5
6-Econometria, a.a. 2011-12. Regressione non lineare
l’altro addendo di H (β) per β = βˆ NLS converge in probabilità a 0 per n → ∞ .
ii) Costruzione della sequenza minimizzante: Fissato β 0 (se possibile non molto distante da
βˆ NLS , che però non è noto) si ha (per ogni j ≥ 0 ):
−1
−1
⎡2 n
⎤ ⎡ 2 n
⎤
⎛
⎞
β j +1 ⎜ = β j − ⎣⎡ D(β j ) ⎦⎤ ⎣⎡g (β j ⎦⎤′ ⎟ = β j − ⎢ ∑ X t′(β j ) X t (β j ) ⎥ ⎢ − ∑ X t′(β j )( yt − xt (β j )) ⎥
⎝
⎠
⎣ n t =1
⎦ ⎣ n t =1
⎦
−1
⎡1 n
⎤ ⎡1 n
⎤
= β j + ⎢ ∑ X t′(β j ) X t (β j ) ⎥ ⎢ ∑ X t′(β j )( yt − xt (β j )) ⎥
⎣ n t =1
⎦ ⎣ n t =1
⎦
ˆ
= β +b
j
j
con
−1
⎡1 n
⎤ ⎡1 n
⎤
bˆ j = ⎢ ∑ X t′(β j ) X t (β j ) ⎥ ⎢ ∑ X t′(β j )( y − xt (β j )) ⎥ ,
⎣ n t =1
⎦ ⎣ n t =1
⎦
iii) Importante: Dall’esame della rappresentazione di bˆ j (l’addendo che aggiorna la
procedura per ricorrenza) si vede immediatamente che esso non è altro che la stima OLS del
parametro b del modello di regressione lineare
( yt − xt (β j )) = X t (β j )b + resid , per t = 1,… , n
(*)
e dunque bˆ j = bˆ OLS del precedente modello.
iv) Definizione: Il modello di regressione (*) dicesi Modello (ausiliario) di regressione di
Gauss-Newton. (In esso yt − xt (β j ) è la variabile dipendente e X t (β j ) è il vettore riga delle k
variabili indipendenti; per tali variabili sono disponibili n osservazioni quando e` noto il valore di
β j ).
v)
La stima del modello di regressione lineare di Gauss-Newton per β = βˆ (= βˆ NLS ) :
Essendo per definizione
1 n
∑ X t′(βˆ )( yt − xt (βˆ )) = 0 ,
n t =1
considerato il modello di regressione lineare di Gauss-Newton in β̂ ( yt − xt (βˆ )) = X t (βˆ )b + resid , il
metodo OLS fornisce le stime
bˆ = ...... = 0 e Avar(bˆ ) = …… = Avar(βˆ ) .
Osservazione (puo` essere omessa): Se si stima il modello di Gauss-Newton utilizzando un altro
1 n
X t′(β)( yt − xt (β)) = 0 segue il precedente
∑
n →∞ n
t =1
stimatore consistente β di β allora, essendo p lim
6
6-Econometria, a.a. 2011-12. Regressione non lineare
risultato con la seguente poco significativa modifica:
p
bˆ → 0 e Avar(bˆ ) = …… = Avar(β) .
vi) Quando
(
si
interrompe
la
procedura
iterativa
(diciamo
al
passo
j ),
si
ha
)
βˆ NLS ≈ β j +1 = β j + bˆ j , allora se si effettua un altro passo, dal precedente punto v) segue che la
stima della varianza asintotica di bˆ j+1 è la stima della varianza asintotica di βˆ NLS .
vii) Se gli errori sono omoschedastici si prova che lo stimatore NLS è asintoticamnete
efficiente (nel senso che ha la minore varianza asintotica) in una classe di stimatori costruiti con il
metodo dei momenti. Si prova inoltre che se si avvia la procedura iterativa con uno stimatore
n − consistente (non efficiente), al primo passo si ottiene uno stimatore asintoticamente efficiente
denominato stimatore efficiente ad un passo (non lo stimatore NLS ). Quest’ultimo risultato ha
soltanto un interesse teorico; per individuare i valori numerici delle stime si utilizzano sempre piu`
iterazioni.
Test sulle ipotesi in modelli non lineari
E’ assegnato il modello non lineare
yt = xt (β1 , β 2 ) + ut ,
con le usuali ipotesi sui processi { yt , xt } e {ut } , che assicurino l`esistenza dello stimatore NLS e la
sua asintotica normalita`, e si consideri l’ipotesi H 0 : β 2 = 0 (non c’è alcuna difficoltà aggiuntiva
nel considerare ipotesi più generali) che potra` essere scritta nel modo seguente
⎧ H 0 : yt = xt (β1 , 0) + ut (Modello R )
.
⎨
⎩ H1 : yt = xt (β1 , β 2 ) + ut (Modello U)
Si descrivono tre test i quali pur non essendo identici per campioni finiti sono asintoticamente
equivalenti (in un senso che però andrebbe precisato e che comunque coinvolge la probabilità di
errore di secondo tipo).
ƒ
Test di Wald (in questo caso intervengono soltanto le informazioni riguardanti il modello
non-ristretto U): Sia β̂2 la stima di β 2 del modello U e var(βˆ 2 ) la stima della sua varianza. La
statistica di Wald per l’ipotesi H 0 è
(
W = βˆ ′2 var(βˆ 2 )
)
−1
(
⎛
βˆ 2 ⎜ = nβˆ ′2 Avar(βˆ 2 )
⎝
)
−1
⎞
βˆ 2 ⎟
⎠
e con gli usuali argomenti si prova che (sempre nell’ipotesi H 0 ) si ha
7
6-Econometria, a.a. 2011-12. Regressione non lineare
W → χ k22 .
d
Quest`ultima proprietà consente di costruire un test con validità asintotica sull’ipotesi assegnata.
•
Test LR (del rapporto della verosimiglianza)( 4 ): In questo caso per evitare complicazioni si
assume
che
gli
{ut } ∼ i.i.d (0, σ 2 ) ).
errori
sono
omoschedastici
( E(ut2 | xt ) = σ 2 )
o
più
semplicemente
Si considera la statistica
R
U ˆ
( RSSR − USSR ) / k2 n ⎡⎣Qn (β 2 ) − Qn (β) ⎤⎦ / k2
=
F=
USSR /(n − k )
USSR /(n − k )
e si prova che nell’ipotesi H 0 si ha
k2 F → χ k22 ,
d
risultato che consente di costruire un test (asintotico) sull’ipotesi.
•
Test LM (utilizza il modello di regressione di Gauss-Newton e soltanto le informazioni
riguardanti il modello ridotto): Anche in questo caso si assume che gli errori sono
omoschedastici ( E(ut2 | xt ) = σ 2 ), Il modello di regressione di Gauss Newton per il modello U ha la
seguente rappresentazione
yt − xt (β1 , β 2 ) = X 1t (β1 , β 2 )b1 + X 2t (β1 , β 2 )b 2 + resid .
Per costruire la stima efficiente ad un passo è richiesta una stima
n − consistente β1 (in
quanto nell’ipotesi H 0 si ha (β1 , 0) = β ) e questa può essere costruita con il modello U oppure con il
modello R (questa seconda opzione spesso è più conveniente). Il modello di Gauss- Newton diventa
allora
yt − xt (β1 , 0) = X1t (β1 , 0)b1 + X 2t (β1 , 0)b 2 + resid
e inoltre e` evidente la seguente equivalenza:
H 0 : β 2 = 0 ⇔ H 0′ : b 2 = 0 .
Per quest’ultima ipotesi un test si costruisce immediatamente essendo il modello lineare.
La terminologia qui utilizzata deriva dal fatto che, nel caso in cui gli errori sono n.i.d .(0, σ 2 ) , il test costruito con la
statistca rapporto delle funzioni di verosimiglianza e` equivalente all` F -test. Infatti si ha:
4
n/2
LR
n
RSSR
n ⎡ RSSR ⎤ k2 .
⎡ RSSR ⎤
= log ⎢
= log(1 + (
− 1)) ≈ ⎢
−1 = F
⎥
2
2 ⎣ USSR ⎥⎦ 2
LU
USSR
⎣ USSR ⎦
E` per questa ragione che nell`output di eviews appare il parametro “Log likelihood”.
log
8
6-Econometria, a.a. 2011-12. Regressione non lineare
Esercizio –
1) Stima di un modello lineare con errori autocorrelati: E’ assegnato il modello lineare
⎧ y = x′t β + ut
Modello 1: ⎨ t
⎩ut = ρ ut −1 + ε t
con ε t ∼ i.i.d .(0, σ 2 ) , 0 < ρ < 1 e t = 1, 2,… , n .
con errori autocorrelati e con le usuali ipotesi sul processo
{ yt , xt } (per
esempio stazionario ed
ergodico) ( 5 ).
Esso ha le seguenti rappresentazioni equivalenti:
Modello 2:
yt = ρ yt −1 + x′t β − ρ x′t −1β + ε t con ε t ∼ i.i.d .(0, σ 2 ) , 0 < ρ < 1 e t = 1, 2,… , n ;
1) ⇒ 2) Si utilizza la prima equazione del modello 1 per rappresentare ut (e quindi ut −1 ) e si
sostituisce nella seconda equazione.
2) ⇒ 1) Si pone ut = yt − x′t β e allora ……………. .
⎧ y = ρ yt −1 + x′t β + x′t −1γ + ε t
con ε t ∼ i.i.d .(0, σ 2 ) , 0 < ρ < 1 e t = 1, 2,… , n .
Modello 3 (ristretto): ⎨ t
⎩ γ = − ρβ
La sua equivalenza con il modello 2 è evidente.
Nota: Il modelli 3 non ristretto consente di costruire stimatori asintoticamente normali per i
parametri ρ e β , ma tale stimatori non sono corretti in quanto le variabili indipendenti non sono
strettamente esogene ( yt −1 come variabile indipendente è correlata con ε t −1 ) e prevedibilmente non
sono neppure asintoticamente efficienti.
•
Una procedura per la costruzione di una stima asintoticamente efficiente dei parametri:
Stima del modello 2 con il metodo NLS - Il modello 2 è un modello non lineare, che per
comodita` e` scritto nella forma:
⎧ yt = xt ( ρ , β) + ε t
.
⎨
⎩ xt ( ρ , β) = ρ yt −1 + x′t β − ρ x′t −1β
Il corrispondente modello (ausiliario) di regressione di Gauss-Newton con parametri (r , b) è
yt − xt ( ρ , β) =
che, non appena si osserva che
(5)
∂xt ( ρ , β)
∂x ( ρ , β)
b + resid ,
r+ t
∂ρ
∂β
∂xt ( ρ , β)
∂xt ( ρ , β)
= yt −1 − x′t −1β e
= x′t − ρ x′t −1 , diventa
∂ρ
∂β
Se tra le variabili indipendenti non ci sono variabili dipendenti ritardate, nelle usuali ipotesi su { yt , xt } la stima
OLS di β è evidentemente consistente ed asintoticamente normale ma prevedibilmente non efficiente.
9
6-Econometria, a.a. 2011-12. Regressione non lineare
yt − x′t β − ρ yt −1 + ρ x′t −1β = ( yt −1 − x′t β)r + (x′t − ρ x′t −1 )b + resid .
La procedura ricorsiva per la costruzione di ρˆ NLS e βˆ NLS : La sequenza minimizzante (della stima
NLS) è costruita fissando arbitrariamente β ≡ β 0 e ρ ≡ ρ 0 (ma come è ben noto, la procedura è tanto
più veloce quanto più i valori iniziali fissati sono vicini ai valori veri) e considerando la procedura
iterativa
ρ j +1 = ρ j + rˆj e β j +1 = β j + bˆ j .
Osservazione:
•
Se nella precedente procedura si considera ρ 0 = ρˆ OLS e β 0 = βˆ OLS , ottenute dal modello 3 non
ristretto allora ρ1 = ρ 0 + r̂0 e β1 = β 0 + bˆ 0 sono le stime efficienti ad un passo. Come
precedentemente segnalato queste stime hanno principalmente un interesse teorico.
•
La stima della varianza asintotica si ottiene utilizzando ancora una volta la regressione di Gauss-
Newton (vedi il punto (v) della precedente proposizione).
2) Costruzione di un test per l`assenza di autocorrelazione negli errori di un modello lineare
contro la presenza di autocorrelazione del prim`ordine (nell’ipotesi di omoschedasticità
condizionata per gli errori).
Si puo` provare che non e` restrittivo assumere che per gli errori si ha ut = ρ ut −1 + ε t e
ε t ∼ i.i.d .(0, σ 2 ) e testare l`ipotesi H 0 : ρ = 0 .
Si utilizza il test LM (per una piu` dettagliata descrizione vedi a pag.8 sopra). Intanto si osserva
che nell’ipotesi H 0 una stima consistente di (β, ρ ) è (βˆ , 0) , essendo β̂ la stima OLS del modello
lineare yt = x′t β + ut , allora il modello GNR in (βˆ , 0) e`
( yt − x′t βˆ ) = x′t b + ( yt −1 − x′t −1βˆ )r + resid (⇔ uˆt = x′t b + uˆt −1r + resid )
e l’ipotesi data e` equivalente a H 0 : r = 0 per quest`ultimo modello lineare, per la cui verifica sono
utilizzabili le procedure standard (per esempio il test di Wald disponibile in qualunque software).
Osservazione:
•
Sulla costruzione del test. Intanto, essendo û ortogonale ad X , nella regressione del
modello ristretto uˆt = x′t b + resid si ha RESS = 0 e quindi TSS = RSSR . Allora per la statistica LR
(che converge in distribuzione verso una χ12 ) si ha:
LR ( = 1 ⋅ F ) =
[ RSSR − USSR ] = [TSSR − USSR ] .
USSR / n − k − 1
10
USSR / n − k − 1
6-Econometria, a.a. 2011-12. Regressione non lineare
D`altra parte nella precedente rappresentazione USSR / n − k − 1 e` una stima consistente della
varianza costruita con i residui del modello non ristretto. La varianza e` stimata in modo consistente
anche da
1 n 2 ⎛ TSS ⎞
[TSSR − USSR ] converge in
2
uˆt ⎜ =
∑
⎟ e allora anche la statistica nR =
TSS / n
n t =1 ⎝
n ⎠
distribuzione verso una χ12 (e` asintoticamente equivalente alla statistica LR ) e consente di
costruire un test sull`ipotesi data.
Per concludere e` utile notare che R 2 e` il coefficiente di determinazione non centrato del
modello non ristretto, ma nel caso in cui tra le variabili indipendenti x e` presente 1 allora
n
∑ uˆ
t =1
•
t
= 0 donde R 2 ≡ Rc2 che e` presente nell`output della regressione del modello non ristretto.
Il test di Breusch-Godfrey: Le precedenti considerazioni si generalizzano facilmente per
costruire un test sull`assenza di autocorrelazione negli errori (di un modello lineare con errori
omoschedastici) contro l`ipotesi che ci sia (almeno) un coefficiente di autocorrelazione ρ i non
nullo per i = 1,… , p , con p fissato.
Innanzitutto si segnala che (si puo’ dimostrare che) non e` restrittivo assumere che gli errori
abbiano una struttura del tipo ut = α1ut −1 +
+ α p ut − p + ε t con ε t ∼ i.i.d .(0, σ 2 ) e allora l`ipotesi
diventa
{H
0
: α1 =
= α p = 0, H1 : (α1 ,… , α p ) ≠ 0 .
Costruzione del test:
Passo 1 – Si stima con il metodo OLS il modello yt = x′t β + ut e si considera il processo dei residui
{uˆt } ;
Passo 2 – Si considera il modello ausiliario uˆt = x′β + α1uˆt −1 +
+ α p uˆt − p + resid e si considera la
statistica nR 2 ( R 2 coincide con Rc2 se il modello ha l`intercetta ed in tal caso e` presente
nell`output della regressione del modello ausiliario);
Passo 3 – Si rifiuta l`ipotesi H 0 a livello di significatività α se nR 2 > χ p2 ,1−α .
Appendice
Il metodo di Newton
Sia Q(β) una funzione a valori reali definita in un sottinsieme di R k e β 0 un punto (del tutto
arbitrario) nel suo dominio di definizione.
1) Il polinomio di Taylor del second’ordine di Q(β) di punto iniziale β 0 :
11
6-Econometria, a.a. 2011-12. Regressione non lineare
1
Q* (β) = Q(β 0 ) + g 0 (β − β 0 ) + (β − β 0 )′H 0 (β − β 0 )
2
dove si è posto
g0 =
H0 =
∂Q(β 0 )
(vettore riga; denominato anche vettore gradiente di Q(β) in β 0 );
∂β
∂ 2Q(β 0 )
(matrice quadrata di ordine k ; denominata anche matrice hessiana di Q(β) in β 0 ).
∂β∂β′
2) Se la matrice H 0 è definita positiva, la funzione Q* (β) ha un unico punto di minimo che
soddisfa la condizione del prim’ordine
0 = g′0 + H 0 (β − β 0 ) ,
la cui (unica) soluzione è evidentemente
β1 = β 0 − H 0−1g′0 .
3) Costruzione per ricorrenza della successione “estremante” (punti di minimo di funzioni
ausiliarie e candidati a convergere verso l’eventuale punto di minimo) per la funzione Q(β) :
{β ,
0
β n = β n −1 − H n−1−1g′n −1 per n ≥ 1 .
In queste lezioni sarà utilizzato il punto iv) della seguente proposizione, in cui sono segnalate
alcune proprietà, senza dimostrazione,della successione estremante ora costruita.
Proposizione:
i)
Se la funzione Q(β) è quadratica (e naturalmente ha un solo minimo) allora al primo passo si
ottiene il punto di minimo (e quindi β1 è il punto di minimo);
ii) Se la funzione Q(β) è approssimativamente quadratica (per esempio somma di funzioni
quadratiche) allora la convergenza della procedura ricorsiva verso il punto di minimo (esistente) è
rapida.
iii) Se la funzione Q(β) è (globalmente) convessa esiste un unico punto di minimo e la successione
estremante converge verso esso (e quindi è una successione minimizzante).
iv) Se la funzione Q(β) non è globalmente convessa, pur avviando la procedura con β 0 vicino al
punto di minimo (supposto esistente), può accadere che qualcuna delle matrici Hessiane H j sia non
definita positiva e allora la procedura per ricorrenza si può bloccare oppure la successione può
allontanarsi dal punto di minimo. Per porre rimedio a tale inconveniente, si sostituisce, nella
costruzione della sequenza β j , la matrice H j con una sua buona approssimazione D j che però sia
definita positiva. Tale procedura è denominata metodo quasi-Newton.
12
6-Econometria, a.a. 2011-12 Complementi
La statistica di Box-Pierce e di Ljung-Box e il test di Durbin-Watson
Un problema di particolare interesse in econometria è quello di testare l’ipotesi di indipendenza
(o più in generale l’assenza di autocorrelazione) in un processo stazionario o anche quello di
rilevare la presenza di autocorrelazione negli errori di un modello di regressione che spesso e` un
segnale di non corretta specificazione( 1 ). Una risposta a questo secondo problema e` stata già data al
termine del capitolo 6 con la costruzione del test di Breusch-Godfrey proposto separatamente dai
due autori nel 1978, il quale è valido in contesti sufficientemente generali.
Alcune serie economiche sulle quali spesso si fa l’ipotesi di assenza di autoccorrelazione:
1) Per molto tempo (e ancora oggi in varie questioni teoriche) si è assunto che i rendimenti (di un
titolo, di un mercato, …) sono indipendenti (ipotesi che per la verità si è rivelata per nulla
ragionevole).
2) Hall formulò l’ipotesi che il processo dei consumi aggregati {ct } è una martingala (cioè che la
migliore previsione sui consumi all’istante t siano i consumi all’istante t − 1 ) e dunque che il
processo {ct − ct −1} sia una differenza martingala.
Qui si costruisce un test sull’ipotesi (nulla) che un processo stazionario (con qualche proprietà
che sara` precisata in seguito) sia non autocorrelato. A tal fine si premette la seguente:
Proposizione – Sia {ε t }t ≥1 una differenza martingala strettamente stazionaria, ergodica e tale che
E(ε t2 | ε t −1 , ε t − 2 ,… , ε1 ) = σ 2 (ipotesi di omoschedasticità condizionata). Allora fissato p ≥ 1 e
posto γˆ = (γˆ1 ,… , γˆ p )′ e ρˆ = ( ρˆ1 ,… , ρˆ p )′ , (con γˆs =
γˆ
1 n
ε t ε t − s e ρˆ s = s per s ≥ 0 ) si ha:
∑
n t =s
γˆ0
n γˆ → N (0; σ 4 I p ) e
d
nρˆ → N (0; I p ) .
d
Dimostrazione: Per semplicità si esamina soltanto il caso p = 1 ; non ci sono difficoltà aggiuntive
se e` p > 1 . Posto gt = ε t ε t −1 , si ha:
•
{ gt } è un processo stazionario ed ergodico (è evidente);
•
{ gt } è una differenza martingala. Infatti
E( gt | ε t −1 , ε t − 2 ,…) = E(ε t ε t −1 | ε t −1 , ε t − 2 ,…) = E(ε t | ε t −1 , ε t − 2 ,…)ε t −1 = 0
•
E( gt2 ) = σ 4 . Infatti si ha
1
Per esempio e` stata omessa dal modello qualche variabile indipendente oppure gli errori hanno una effettiva
autocorrelazione che andrebbe modellata. Nel primo caso le stime OLS non sono consistenti nel secondo caso, nei
modelli dinamici si perde la consistenza, mentre in quelli statici le stime OLS rimangono consistenti ma non sono
efficienti
13
6-Econometria, a.a. 2011-12 Complementi
E( gt2 | ε t −1 , ε t − 2 ,…) = E(ε t2ε t2−1 | ε t −1 , ε t − 2 ,…) = E(ε t2 | ε t −1 , ε t − 2 ,…)ε t2−1 = σ 2ε t2−1
e quindi l’asserto non appena si considera l’aspettazione del primo e dell’ultimo termine.
1 n
⎡
⎤ d
nγˆ1 ⎢ = n ( ∑ ε t ε t −1 ) ⎥ → N (0;σ 4 ) . E’ conseguenza del teorema del limite centrale per
n t =2
⎣
⎦
•
una differenza martingala stazionaria ed ergodica.
n ρˆ1 → N (0;1) . Segue dalla precedente e dalla rappresentazione
d
•
n ρˆ1 = n
γˆ1
, dopo aver
γˆ0
osservato che il denominatore converge in probabilità a σ 2 .
Corollario: Nelle ipotesi della precedente proposizione, si ha
p
p
⎛
⎞ d
2
ˆ
Q1 ⎜ = n∑ ρ j = ∑ ( n ρˆ j ) 2 ⎟ → χ p2
j =1
j =1
⎝
⎠
ed anche
p
p
⎛
⎞ d
ρˆ 2j
n+2
=∑
Q2 ⎜ = n(n + 2)∑
( n ρˆ j ) 2 ⎟ → χ p2 .
⎜
⎟
j =1 n − j
j =1 n − j
⎝
⎠
Le statistiche Q1 e Q2 sono denominate rispettivamente statistica di Box-Pierce e statistica di
Ljung-Box.
Osservazione:
• Su eviews e` disponibile la statistica Q di Ljung-Box (per differenti valori di p ) e il
corrispondente p -value nel campione quando si richiede il correlogramma di una time-series (cioe`
il plot dell`autocorrelazione empirica). Essa e` utilizzata per rilevare la presenza di autocorrelazione
nel processo che si ritiene stazionario o anche negli errori di un modello di regressione, utilizzando
in tal caso come osservazioni i residui. Non e` invece utilizzata per testare l`ipotesi di assenza di
autocorrelazione in un processo, in quanto per tale uso e` richiesta non solo la validita` (o
quantomeno la ragionevolezza) delle ipotesi (abbastanza restrittive) della precedente proposizione
ma anche la scelta dell`ordine dell`autocorrelazione p oltre il quale tutte le altre (autocorrelazioni)
sono certamente nulle. Non esiste alcuno strumento che consenta una buona scelta del valore di p .
• I
H 0 : α1 =
precedenti
due
test
sono
asintoticamente
equivalenti
= α p = 0 nel modello di regressione lineare xt = α 0 + α1 xt −1 +
al
test
sull’ipotesi
+ α p xt − p + error .
• E’ stato mostrato con tecniche di simulazione che, per campioni finiti, è preferibile
utilizzzare la statistica di Ljung-Box piuttosto che la statistica di Box-Pierce.
14
6-Econometria, a.a. 2011-12 Complementi
Il test di Durbin-Watson
Uno dei primi test sulla presenza di autocorrelazione negli errori di un modello di regressione
lineare, che ora si passa a descrivere, fu proposto intorno al 1950 da Durbin e Watson; in realtà
esso è soltanto un test sulla presenza di autocorrelazione del prim’ordine, è valido in ipotesi molto
restrittive ed infine le sue risposte (consigli) non sono come solitamente accade per un test “si
accetta” o “si rifiuta” l’ipotesi nulla, ma contempla anche l’ulteriore risposta “non si è in grado di
fornire suggerimenti”. Attualmente esso (test) non e’ mai utilizzato, ma il valore della statistica di
Durbin-Watson è riportato nell’output dei software econometrici data la sua semplicità di calcolo e
fornisce un primo segnale di presenza di autocorrelazione negli errori quando (come si vedrà) il suo
valore è vicino a 0 oppure a 4.
E’ assegnato il modello yt = x′t β + ut tale che E(ut | xt ) = 0 e { yt , xt } è un processo stazionario
ed ergodico.
n
∑ (uˆ
Definizione: La statistica D =
t
t =2
− uˆt −1 ) 2
n
∑ uˆ
t =1
, dove {uˆt } e` il processo dei residui nella stima OLS,
2
t
dicesi statistica di Durbin-Watson.
Osservazione:
1) Si ha
D=
n
n
n
t =2
t =2
n
t =2
∑ uˆt2 − 2∑ uˆt uˆt −1 + ∑ uˆt2−1
∑ uˆ
t =1
=
(al numeratore si somma e si sottrae uˆ12 + uˆn2 )
2
t
n
n
t =1
t =2
2∑ uˆt2 − 2∑ uˆt uˆt −1
n
∑ uˆt2
−
t =1
(si noti che
uˆ12 + uˆn2
n
∑ uˆ
t =1
2
t
=
uˆ12 + uˆn2
n
∑ uˆt2
p
→
2(1 − ρ1 ) (∈ [ 0, 4])
t =1
(uˆ12 + uˆn2 ) / n p
→ 0 ). E quindi l’assenza di autocorrelazione del prim’ordine
1 n 2
∑ uˆt
n t =1
negli errori ( ρ1 = 0 ) dovrebbe produrre un valore della statistica D non molto distante da 2, mentre
un valore di D vicino a 4 suggerirebbe la presenza di autocorrelazione negativa e un valore vicino
a 0 la presenza di autocorrelazione positiva.
2) Al fine di utilizzare la statistica D per costruire un test sulla presenza di autocorrelazione del
prim’ordine negli errori, è essenziale individuare la sua distribuzione (finita o asintotica).
15
6-Econometria, a.a. 2011-12 Complementi
Il risultato di Durbin e Watson – Considerato il modello yt = x′t β + ut con
{ yt , xt }
processo
stazionario ed ergodico, tale che
i)
ii)
Le variabili x t sono strettamente esogene,
ut = ρ1ut −1 + ε t con è ε t ∼ n.i.d .(0, σ 2 ) ,
gli autori individuarono (al variare del numero di variabili indipendenti, per gli standard livelli di
significatività e per differenti lunghezze del campione) una coppia di quantili (dl* , du* ) (spesso
non presenti nei software econometrici, ma disponibili su internet) con 0 < dl* < du* < 2 ,
indipendenti dalla matrice X delle osservazioni delle variabili indipendenti, tali che un test per
l’ipotesi
⎧ H 0 : ρ1 = 0
⎨
⎩ H1 : ρ1 > 0
è:
“Si accetta H 0 se D > du* , si rifiuta H 0 se D < dl* , mentre se dl* < D < du* non si può dire nulla”.
⎧H : ρ = 0
Un test per l’ipotesi ⎨ 0 1
è uguale al precedente con 4 − D al posto di D .
⎩ H1 : ρ1 < 0
Osservazione: Se ε t ∼ i.i.d .(0, σ 2 ) allora il precedente test ha validità asintotica.
16