6-Econometria, a.a. 2011-12. Regressione non lineare Lezione 6 Modelli di Regressione Non Lineare In questo capitolo si considerano modelli econometrici non lineari del tipo yt = f (xt , β) + ut con E(ut | xt ) = 0 ; quindi si sta assumendo che la variabile economica yt abbia una dipendenza causale dalla variabile esogena (vettoriale) x t , una dipendenza non lineare dal parametro non noto β ∈ R k e che l`errore sia additivo. Per alleggerire le notazioni si preferisce non evidenziare esplicitamente nel modello la dipendenza da x t , e allora esso si scrive nella forma yt = xt (β) + ut , con E(ut | Ωt ) = 0 per t = 1, 2,… e xt ∈ Ωt , dove Ω t denota il complesso di informazioni disponibili all`istante t che influenzano (non solo dal punto di vista funzionale) yt . Si osservi infine che qui non sussiste come nei modelli lineari, dove si ha f (xt , β) = x′t β , l’uguaglianza tra la dimensione del vettore x t (che come si puo` notare non e` stata esplicitata) e la dimensione k di β .( 1 ) Alcuni esempi: Modello non lineare riconducibile ad uno lineare: Si considera il modello economico β1 β2 y = α x1 x2 (denominato modello di Cobb-Douglas, utilizzato per mettere in relazione la produzione con i fattori produttivi capitale e lavoro). Osservato che le variabili assumono valori positivi, non è restrittivo assumere che anche α e` positivo e allora il modello si può scrivere nella forma log( y ) = log(α ) + β1 log( x1 ) + β 2 log( x2 ) , che è evidentemente lineare nei parametri log(α ) , β1 , β 2 . Se sono disponibili osservazioni sulle variabili, l’introduzione di un errore additivo u nell’ultimo modello, dà origine ad un modello econometrico di regressione lineare. Si noti che la presenza dell’errore additivo u nell’ultimo modello, equivale alla presenza di un errore moltiplicativo v = eu nel modello originario. Semplici considerazioni di carattere economico rendono ragionevole la presenza di un tale tipo di errore. Modello propriamente non lineare: Si considera un modello lineare yt = x′t β + ut , Forme piu’ generali di modelli non lineari si presentano nella forma m( yt , x t , β) = ut . Per una semplice introduzione al metodo di stima GMM (Metodo generalizzato dei momenti) utilizzabile per questi (e altri) modelli, vedi il paragrafo 6 del capitolo 5 del volume “A Guide to Modern Econometrics” di Verbeek, dove è presente anche una interessante applicazione. 1 1 6-Econometria, a.a. 2011-12. Regressione non lineare con gli errori autocorrelati; più precisamente si assume che essi hanno la seguente semplice struttura ut = ρ ut −1 + ε t con {ε t } ∼ i.i.d .(0, σ 2 ) e ρ < 1 .( 2 ) Ora ricavando ut dalla prima equazione e sostituendo nella seconda si ha: yt = ρ yt −1 + x′t β − ρ x′t −1β + ε t , con {ε t } ∼ i.i.d .(0, σ 2 ) e ρ < 1 , che è un modello non lineare. Si noti che quest’ultimo è un modello dinamico (per la presenza di yt −1 tra le variabili indipendenti) con gli errori che sono innovazioni (cioe` i.i.d .(0, σ 2 ) ). Osservazione sul metodo di stima dei momenti: Si tralascia di descrivere il metodo per i modelli non lineari qui considerati; si segnala soltanto che per avviare la procedura di stima sono necessarie (almeno) k variabili non correlate con ut . Per varie ragioni, qui non indicate, non è opportuno utilizzare le variabili x t (e non per la possibile disparità tra il loro numero e quello dei parametri, che in realtà` non costituisce un problema). Anche X t (β) = (1× k ) ∂xt (β) , che non e` correlato con ut (in ∂β quanto funzione di x t con E(ut | xt ) = 0 ), non è direttamente utilizzabile per avviare la procedura di stima, in quanto per esso, essendo β non noto, non sono disponibili le osservazioni; pero` quest`ultimo ostacolo puo` essere rimosso con qualche semplice accorgimento. Si noti che nel caso lineare si ha X t (β) = ∂ [ x′t β ] ∂β = x′t e allora l’inconveniente ora segnalato non si presenta. Il metodo (di stima) dei Minimi Quadrati per i modelli non lineari Si considera la funzione obiettivo Qn (β) = 1 n ( yt − xt (β)) 2 . ∑ n t =1 Definizione: Il punto di minimo della funzione Qn (β) , se esiste, dicesi stimatore dei minimi quadrati non lineare (NLS) di β e si denota con il simbolo βˆ NLS (o anche β̂ se non c’è possibilità di equivoco). Osservazione: i) Se le variabili x t sono strettamente esogene (nel senso che il loro valore all’istante t è determinato all’esterno del modello) allora il metodo dei minimi quadrati ordinari fornisce una buona stima (cioè consistente e si può provare anche asintoticamente normale) di β sebbene non efficiente; se invece tra le x t c’è qualche ritardo della variabile dipendente, allora evidentemente la stima OLS di β non è consistente. ii) L’ipotesi qui fatta sugli errori è abbastanza realistica. Per esempio nel caso in cui l’errore ut all’istante t ha due 2 componenti: l’innovazione ε t e ρ ut −1 (l’effetto residuale dell’errore all’istante t − 1 ) con 0 < ρ < 1 o equivalentemente quando gli effetti delle innovazioni si spengono geometricamente e quindi per l’errore si ha ut = ε t + ρε t −1 + ρ 2ε t − 2 + , rappresentazione che si dimostra essere equivalente a ut = ρ ut −1 + ε t 2 6-Econometria, a.a. 2011-12. Regressione non lineare Osservazione: • Lo stimatore βˆ NLS (se esiste) è soluzione dell’equazione non lineare ⎛ ⎞ n ⎜ ∂Qn (β) = 0 ⇔ ⎟ X ′(β)( y − x (β)) = 0 ; t t t ⎜ ∂β ⎟∑ ⎜ (1×k ) ⎟ t =1 ( k ×1) ⎝ ⎠ • Per βˆ NLS generalmente non e` disponibile una rappresentazione analitica esplicita, ma per le applicazioni servono soltanto le sue proprietà e il suo valore nel campione a disposizione; • Le condizioni che assicurano l’esistenza di βˆ NLS (per n sufficientemente grande) si dicono condizioni di identificabilità (finite). Proprietà dello stimatore βˆ NLS : Proposizione (Consistenza di βˆ NLS ): Si denota con β* il valore vero (ma non noto) del parametro β e si assume che: i) βˆ NLS esiste (per n sufficientemente grande) (e dunque che il modello e` identificabile al finito). ii) Per (talune) funzioni di ( yt , xt ) vale la legge dei grandi numeri (per esempio se il processo { yt , xt } è stazionario ed ergodico oppure è costituito da v.a. indipendenti con opportune restrizioni sui momenti); 1 n X t′(β)( yt − xt (β)) ∑ n →∞ n t =1 iii) Il modello e` asintoticamente identificabile, cioe` posto α (β) = p lim (il limite esiste per la precedente ipotesi) β* è l’unica soluzione dell`equazione α (β) = 0 . ( 3 ) p Allora lo stimatore βˆ NLS e` consistente (cioe` βˆ NLS → β* ). Un cenno della dimostrazione (che puo` essere omessa): Si prova dapprima che p βˆ NLS → β (la prova qui non e` riportata). D`altra parte, essendo 1 n ∑ X t′(βˆ NLS )( yt − xt (βˆ NLS )) = 0 , passando al n t =1 limite per n → ∞ , si ha α (β ) = 0 , donde per l`ipotesi di asintotica identificabilita` del modello segue che β = β* e quindi l`asserto. Nel caso di modelli lineari l’asintotica identificabilità implica l’identificabilità (finita), implicazione non vera nel caso di modelli non lineari. 3 3 6-Econometria, a.a. 2011-12. Regressione non lineare Proposizione (Asintotica normalità e stima della varianza asintotica): In aggiunta alle precedenti ipotesi i), ii), iii) si assume che iv) quando necessario valga qualche versione del teorema del limite centrale (per esempio se il processo { yt , xt } oltre ad essere stazionario ed ergodico si ha E(ut | xt , xt −1 ,… , ut −1 ,…) = 0 oppure è costituito da v.a. indipendenti con opportune restrizioni sui momenti); v) 1 n X t′(β* ) X t (β* ) è invertibile (si noti che quando i processi sono ∑ n →∞ n t =1 la matrice ( Σ x = ) p lim stazionari si ha Σ x = E ⎡⎣ X t′(β* ) X t (β* ) ⎤⎦ ). Dimostrazione: Dalla formula di Taylor di punto iniziale β* per la funzione ∂Qn (β) , si ha (per un ∂β β appartenente al segmento congiungente β* e β̂ ) (0 =) ∂Qn (βˆ ) ∂Qn (β* ) ∂ 2Qn (β) ˆ * (β − β ) ; = + ∂β′ ∂β′ ∂β′∂β ( k ×1) ora • ⎛ ∂Qn (β* ) − ( 1/ 2) n ⎜ ∂β′ ⎝ d ⎞ 1 n 1 n 2 * ′ con Σ p ut X t′(β* ) X t (β* ) ; = lim =⎟ X ( β ) u ( 0 , Σ ) N → ∑ ∑ ux t t ux →∞ n n t =1 ⎠ n t =1 (nel caso di processi stazionari è Σux = E ⎡⎣ut2 X t′(β* ) X t (β* ) ⎤⎦ ); • (1/ 2) ∂ 2Qn (β) 1 n ∂ = − ∑ [ X t′(β)( yt − xt (β)) ] = ∂β′∂β n t =1 ∂β β =β =− p 1 n ∂X t′(β) 1 n β ( y x ( )) X t′(β) X t (β) → 0 + Σ x − + ∑ ∑ t t n t =1 ∂β n t =1 e quindi si ha: ⎛ ⎡ ∂ 2Q (β) ⎤ −1 ⎡ ∂Qn (β* ) ⎤ ⎞ d n ˆ ˆ n (β − β 0 ) ⎜ = ⎢ − n ⎥ ⎟ → N (0, Avar(β)) ⎜ ⎣ ∂β′∂β ⎦⎥ ⎣⎢ ∂β′ ⎦ ⎟ ⎝ ⎠ con - Avar(βˆ ) = Σ −1Σ Σ −1 ; x ux x −1 −1 ⎡1 ⎤ ⎡1 n ⎤ ⎡1 n ⎤ - Avar(βˆ ) = ⎢ ∑ X t′(βˆ ) X t (βˆ ) ⎥ ⎢ ∑ uˆt2 X t′(βˆ ) X t (βˆ ) ⎥ ⎢ ∑ X t′(βˆ ) X t (βˆ ) ⎥ . ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ n Osservazione: • Avar(βˆ ) converge in probabilità verso Avar(βˆ ) e dicesi stimatore di White della varianza (in presenza di eteroschedasticita`). Per la prova della convergenza si usano gli stessi argomenti 4 6-Econometria, a.a. 2011-12. Regressione non lineare utilizzati per provare la consistenza dello stimatore di White per la varianza dello stimatore OLS. • Stima di Avar(βˆ ) quando gli errori sono omoschedastici ( E(ut2 | Ωt ) = σ 2 ): In questo caso si ha Σux = σ 2 Σ x , e allora ⎡1 n ⎤ Avar(βˆ ) = σ 2 Σ −x1 e Avar(βˆ ) = s 2 ⎢ ∑ X t′(βˆ ) X t (βˆ ) ⎥ ⎣ n t =1 ⎦ con s 2 = • −1 1 n 2 1 n 2 2 ˆ u s = (o anche ∑ t ∑ uˆt che spesso è preferito). n t =1 n − k t =1 Ci sono casi in cui anche in presenza di autocorrelazione negli errori si puo` utilizzare il teorema del limite centrale, in tal caso Newey e West hanno costruito lo stimatore consistente della varianza asintotica dello stimatore β̂ (indicato in eviews con la sigla HAC). E` importante notare che la presenza di autocorrelazione negli errori esclude la possibilita` che tra le variabili indipendenti ci possa essere qualche ritardo di yt (infatti si perderebbe l`ipotesi che E(ut | xt ) = 0 essenziale per la prova della consistenza dello stimatore). La Regressione di Gauss-Newton Le procedure numeriche utilizzate per minimizzare la funzione obiettivo Q(β) = 1 n 2 ( yt − xt (β) ) ∑ n t =1 hanno, come si potra` constatare, interessanti conseguenze su questioni più propriamente statistiche. Nell’appendice si descrive brevemente il ben noto Metodo di Newton (accompagnato da qualche commento) al solo fine di introdurre le notazioni che sono utilizzate qui di seguito. Si pone ⎛ ∂Q(β) ⎞ 2 n g(β) ⎜ = = − ∑ X t (β)( yt − xt (β)) , ⎟ n t =1 ∂β ⎠ (1×k ) ⎝ ⎛ ∂ 2Q(β) ⎞ ⎞ 2 n ⎛ ∂X t (β) = − H (β) ⎜ = ( yt − xt (β)) − X t′ (β) X t (β) ⎟ . ∑ ⎟ ⎜ ∂β∂β′ ⎠ n t =1 ⎝ ∂β′ ( k ×k ) ⎝ ⎠ Importanti considerazioni (da i a vii): i) ( ) Al fine di costruire la sequenza minimizzante di βˆ NLS (e dunque una successione βˆ j che j converge a βˆ NLS ), si osserva che è possibile utilizzare il metodo Quasi-Newton utilizzando la matrice D(β) = 2 n ∑ X t′ (β) X t (β) (che è certamente definita positiva se è non singolare), in quanto n t =1 5 6-Econometria, a.a. 2011-12. Regressione non lineare l’altro addendo di H (β) per β = βˆ NLS converge in probabilità a 0 per n → ∞ . ii) Costruzione della sequenza minimizzante: Fissato β 0 (se possibile non molto distante da βˆ NLS , che però non è noto) si ha (per ogni j ≥ 0 ): −1 −1 ⎡2 n ⎤ ⎡ 2 n ⎤ ⎛ ⎞ β j +1 ⎜ = β j − ⎣⎡ D(β j ) ⎦⎤ ⎣⎡g (β j ⎦⎤′ ⎟ = β j − ⎢ ∑ X t′(β j ) X t (β j ) ⎥ ⎢ − ∑ X t′(β j )( yt − xt (β j )) ⎥ ⎝ ⎠ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ −1 ⎡1 n ⎤ ⎡1 n ⎤ = β j + ⎢ ∑ X t′(β j ) X t (β j ) ⎥ ⎢ ∑ X t′(β j )( yt − xt (β j )) ⎥ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ ˆ = β +b j j con −1 ⎡1 n ⎤ ⎡1 n ⎤ bˆ j = ⎢ ∑ X t′(β j ) X t (β j ) ⎥ ⎢ ∑ X t′(β j )( y − xt (β j )) ⎥ , ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ iii) Importante: Dall’esame della rappresentazione di bˆ j (l’addendo che aggiorna la procedura per ricorrenza) si vede immediatamente che esso non è altro che la stima OLS del parametro b del modello di regressione lineare ( yt − xt (β j )) = X t (β j )b + resid , per t = 1,… , n (*) e dunque bˆ j = bˆ OLS del precedente modello. iv) Definizione: Il modello di regressione (*) dicesi Modello (ausiliario) di regressione di Gauss-Newton. (In esso yt − xt (β j ) è la variabile dipendente e X t (β j ) è il vettore riga delle k variabili indipendenti; per tali variabili sono disponibili n osservazioni quando e` noto il valore di β j ). v) La stima del modello di regressione lineare di Gauss-Newton per β = βˆ (= βˆ NLS ) : Essendo per definizione 1 n ∑ X t′(βˆ )( yt − xt (βˆ )) = 0 , n t =1 considerato il modello di regressione lineare di Gauss-Newton in β̂ ( yt − xt (βˆ )) = X t (βˆ )b + resid , il metodo OLS fornisce le stime bˆ = ...... = 0 e Avar(bˆ ) = …… = Avar(βˆ ) . Osservazione (puo` essere omessa): Se si stima il modello di Gauss-Newton utilizzando un altro 1 n X t′(β)( yt − xt (β)) = 0 segue il precedente ∑ n →∞ n t =1 stimatore consistente β di β allora, essendo p lim 6 6-Econometria, a.a. 2011-12. Regressione non lineare risultato con la seguente poco significativa modifica: p bˆ → 0 e Avar(bˆ ) = …… = Avar(β) . vi) Quando ( si interrompe la procedura iterativa (diciamo al passo j ), si ha ) βˆ NLS ≈ β j +1 = β j + bˆ j , allora se si effettua un altro passo, dal precedente punto v) segue che la stima della varianza asintotica di bˆ j+1 è la stima della varianza asintotica di βˆ NLS . vii) Se gli errori sono omoschedastici si prova che lo stimatore NLS è asintoticamnete efficiente (nel senso che ha la minore varianza asintotica) in una classe di stimatori costruiti con il metodo dei momenti. Si prova inoltre che se si avvia la procedura iterativa con uno stimatore n − consistente (non efficiente), al primo passo si ottiene uno stimatore asintoticamente efficiente denominato stimatore efficiente ad un passo (non lo stimatore NLS ). Quest’ultimo risultato ha soltanto un interesse teorico; per individuare i valori numerici delle stime si utilizzano sempre piu` iterazioni. Test sulle ipotesi in modelli non lineari E’ assegnato il modello non lineare yt = xt (β1 , β 2 ) + ut , con le usuali ipotesi sui processi { yt , xt } e {ut } , che assicurino l`esistenza dello stimatore NLS e la sua asintotica normalita`, e si consideri l’ipotesi H 0 : β 2 = 0 (non c’è alcuna difficoltà aggiuntiva nel considerare ipotesi più generali) che potra` essere scritta nel modo seguente ⎧ H 0 : yt = xt (β1 , 0) + ut (Modello R ) . ⎨ ⎩ H1 : yt = xt (β1 , β 2 ) + ut (Modello U) Si descrivono tre test i quali pur non essendo identici per campioni finiti sono asintoticamente equivalenti (in un senso che però andrebbe precisato e che comunque coinvolge la probabilità di errore di secondo tipo). Test di Wald (in questo caso intervengono soltanto le informazioni riguardanti il modello non-ristretto U): Sia β̂2 la stima di β 2 del modello U e var(βˆ 2 ) la stima della sua varianza. La statistica di Wald per l’ipotesi H 0 è ( W = βˆ ′2 var(βˆ 2 ) ) −1 ( ⎛ βˆ 2 ⎜ = nβˆ ′2 Avar(βˆ 2 ) ⎝ ) −1 ⎞ βˆ 2 ⎟ ⎠ e con gli usuali argomenti si prova che (sempre nell’ipotesi H 0 ) si ha 7 6-Econometria, a.a. 2011-12. Regressione non lineare W → χ k22 . d Quest`ultima proprietà consente di costruire un test con validità asintotica sull’ipotesi assegnata. • Test LR (del rapporto della verosimiglianza)( 4 ): In questo caso per evitare complicazioni si assume che gli {ut } ∼ i.i.d (0, σ 2 ) ). errori sono omoschedastici ( E(ut2 | xt ) = σ 2 ) o più semplicemente Si considera la statistica R U ˆ ( RSSR − USSR ) / k2 n ⎡⎣Qn (β 2 ) − Qn (β) ⎤⎦ / k2 = F= USSR /(n − k ) USSR /(n − k ) e si prova che nell’ipotesi H 0 si ha k2 F → χ k22 , d risultato che consente di costruire un test (asintotico) sull’ipotesi. • Test LM (utilizza il modello di regressione di Gauss-Newton e soltanto le informazioni riguardanti il modello ridotto): Anche in questo caso si assume che gli errori sono omoschedastici ( E(ut2 | xt ) = σ 2 ), Il modello di regressione di Gauss Newton per il modello U ha la seguente rappresentazione yt − xt (β1 , β 2 ) = X 1t (β1 , β 2 )b1 + X 2t (β1 , β 2 )b 2 + resid . Per costruire la stima efficiente ad un passo è richiesta una stima n − consistente β1 (in quanto nell’ipotesi H 0 si ha (β1 , 0) = β ) e questa può essere costruita con il modello U oppure con il modello R (questa seconda opzione spesso è più conveniente). Il modello di Gauss- Newton diventa allora yt − xt (β1 , 0) = X1t (β1 , 0)b1 + X 2t (β1 , 0)b 2 + resid e inoltre e` evidente la seguente equivalenza: H 0 : β 2 = 0 ⇔ H 0′ : b 2 = 0 . Per quest’ultima ipotesi un test si costruisce immediatamente essendo il modello lineare. La terminologia qui utilizzata deriva dal fatto che, nel caso in cui gli errori sono n.i.d .(0, σ 2 ) , il test costruito con la statistca rapporto delle funzioni di verosimiglianza e` equivalente all` F -test. Infatti si ha: 4 n/2 LR n RSSR n ⎡ RSSR ⎤ k2 . ⎡ RSSR ⎤ = log ⎢ = log(1 + ( − 1)) ≈ ⎢ −1 = F ⎥ 2 2 ⎣ USSR ⎥⎦ 2 LU USSR ⎣ USSR ⎦ E` per questa ragione che nell`output di eviews appare il parametro “Log likelihood”. log 8 6-Econometria, a.a. 2011-12. Regressione non lineare Esercizio – 1) Stima di un modello lineare con errori autocorrelati: E’ assegnato il modello lineare ⎧ y = x′t β + ut Modello 1: ⎨ t ⎩ut = ρ ut −1 + ε t con ε t ∼ i.i.d .(0, σ 2 ) , 0 < ρ < 1 e t = 1, 2,… , n . con errori autocorrelati e con le usuali ipotesi sul processo { yt , xt } (per esempio stazionario ed ergodico) ( 5 ). Esso ha le seguenti rappresentazioni equivalenti: Modello 2: yt = ρ yt −1 + x′t β − ρ x′t −1β + ε t con ε t ∼ i.i.d .(0, σ 2 ) , 0 < ρ < 1 e t = 1, 2,… , n ; 1) ⇒ 2) Si utilizza la prima equazione del modello 1 per rappresentare ut (e quindi ut −1 ) e si sostituisce nella seconda equazione. 2) ⇒ 1) Si pone ut = yt − x′t β e allora ……………. . ⎧ y = ρ yt −1 + x′t β + x′t −1γ + ε t con ε t ∼ i.i.d .(0, σ 2 ) , 0 < ρ < 1 e t = 1, 2,… , n . Modello 3 (ristretto): ⎨ t ⎩ γ = − ρβ La sua equivalenza con il modello 2 è evidente. Nota: Il modelli 3 non ristretto consente di costruire stimatori asintoticamente normali per i parametri ρ e β , ma tale stimatori non sono corretti in quanto le variabili indipendenti non sono strettamente esogene ( yt −1 come variabile indipendente è correlata con ε t −1 ) e prevedibilmente non sono neppure asintoticamente efficienti. • Una procedura per la costruzione di una stima asintoticamente efficiente dei parametri: Stima del modello 2 con il metodo NLS - Il modello 2 è un modello non lineare, che per comodita` e` scritto nella forma: ⎧ yt = xt ( ρ , β) + ε t . ⎨ ⎩ xt ( ρ , β) = ρ yt −1 + x′t β − ρ x′t −1β Il corrispondente modello (ausiliario) di regressione di Gauss-Newton con parametri (r , b) è yt − xt ( ρ , β) = che, non appena si osserva che (5) ∂xt ( ρ , β) ∂x ( ρ , β) b + resid , r+ t ∂ρ ∂β ∂xt ( ρ , β) ∂xt ( ρ , β) = yt −1 − x′t −1β e = x′t − ρ x′t −1 , diventa ∂ρ ∂β Se tra le variabili indipendenti non ci sono variabili dipendenti ritardate, nelle usuali ipotesi su { yt , xt } la stima OLS di β è evidentemente consistente ed asintoticamente normale ma prevedibilmente non efficiente. 9 6-Econometria, a.a. 2011-12. Regressione non lineare yt − x′t β − ρ yt −1 + ρ x′t −1β = ( yt −1 − x′t β)r + (x′t − ρ x′t −1 )b + resid . La procedura ricorsiva per la costruzione di ρˆ NLS e βˆ NLS : La sequenza minimizzante (della stima NLS) è costruita fissando arbitrariamente β ≡ β 0 e ρ ≡ ρ 0 (ma come è ben noto, la procedura è tanto più veloce quanto più i valori iniziali fissati sono vicini ai valori veri) e considerando la procedura iterativa ρ j +1 = ρ j + rˆj e β j +1 = β j + bˆ j . Osservazione: • Se nella precedente procedura si considera ρ 0 = ρˆ OLS e β 0 = βˆ OLS , ottenute dal modello 3 non ristretto allora ρ1 = ρ 0 + r̂0 e β1 = β 0 + bˆ 0 sono le stime efficienti ad un passo. Come precedentemente segnalato queste stime hanno principalmente un interesse teorico. • La stima della varianza asintotica si ottiene utilizzando ancora una volta la regressione di Gauss- Newton (vedi il punto (v) della precedente proposizione). 2) Costruzione di un test per l`assenza di autocorrelazione negli errori di un modello lineare contro la presenza di autocorrelazione del prim`ordine (nell’ipotesi di omoschedasticità condizionata per gli errori). Si puo` provare che non e` restrittivo assumere che per gli errori si ha ut = ρ ut −1 + ε t e ε t ∼ i.i.d .(0, σ 2 ) e testare l`ipotesi H 0 : ρ = 0 . Si utilizza il test LM (per una piu` dettagliata descrizione vedi a pag.8 sopra). Intanto si osserva che nell’ipotesi H 0 una stima consistente di (β, ρ ) è (βˆ , 0) , essendo β̂ la stima OLS del modello lineare yt = x′t β + ut , allora il modello GNR in (βˆ , 0) e` ( yt − x′t βˆ ) = x′t b + ( yt −1 − x′t −1βˆ )r + resid (⇔ uˆt = x′t b + uˆt −1r + resid ) e l’ipotesi data e` equivalente a H 0 : r = 0 per quest`ultimo modello lineare, per la cui verifica sono utilizzabili le procedure standard (per esempio il test di Wald disponibile in qualunque software). Osservazione: • Sulla costruzione del test. Intanto, essendo û ortogonale ad X , nella regressione del modello ristretto uˆt = x′t b + resid si ha RESS = 0 e quindi TSS = RSSR . Allora per la statistica LR (che converge in distribuzione verso una χ12 ) si ha: LR ( = 1 ⋅ F ) = [ RSSR − USSR ] = [TSSR − USSR ] . USSR / n − k − 1 10 USSR / n − k − 1 6-Econometria, a.a. 2011-12. Regressione non lineare D`altra parte nella precedente rappresentazione USSR / n − k − 1 e` una stima consistente della varianza costruita con i residui del modello non ristretto. La varianza e` stimata in modo consistente anche da 1 n 2 ⎛ TSS ⎞ [TSSR − USSR ] converge in 2 uˆt ⎜ = ∑ ⎟ e allora anche la statistica nR = TSS / n n t =1 ⎝ n ⎠ distribuzione verso una χ12 (e` asintoticamente equivalente alla statistica LR ) e consente di costruire un test sull`ipotesi data. Per concludere e` utile notare che R 2 e` il coefficiente di determinazione non centrato del modello non ristretto, ma nel caso in cui tra le variabili indipendenti x e` presente 1 allora n ∑ uˆ t =1 • t = 0 donde R 2 ≡ Rc2 che e` presente nell`output della regressione del modello non ristretto. Il test di Breusch-Godfrey: Le precedenti considerazioni si generalizzano facilmente per costruire un test sull`assenza di autocorrelazione negli errori (di un modello lineare con errori omoschedastici) contro l`ipotesi che ci sia (almeno) un coefficiente di autocorrelazione ρ i non nullo per i = 1,… , p , con p fissato. Innanzitutto si segnala che (si puo’ dimostrare che) non e` restrittivo assumere che gli errori abbiano una struttura del tipo ut = α1ut −1 + + α p ut − p + ε t con ε t ∼ i.i.d .(0, σ 2 ) e allora l`ipotesi diventa {H 0 : α1 = = α p = 0, H1 : (α1 ,… , α p ) ≠ 0 . Costruzione del test: Passo 1 – Si stima con il metodo OLS il modello yt = x′t β + ut e si considera il processo dei residui {uˆt } ; Passo 2 – Si considera il modello ausiliario uˆt = x′β + α1uˆt −1 + + α p uˆt − p + resid e si considera la statistica nR 2 ( R 2 coincide con Rc2 se il modello ha l`intercetta ed in tal caso e` presente nell`output della regressione del modello ausiliario); Passo 3 – Si rifiuta l`ipotesi H 0 a livello di significatività α se nR 2 > χ p2 ,1−α . Appendice Il metodo di Newton Sia Q(β) una funzione a valori reali definita in un sottinsieme di R k e β 0 un punto (del tutto arbitrario) nel suo dominio di definizione. 1) Il polinomio di Taylor del second’ordine di Q(β) di punto iniziale β 0 : 11 6-Econometria, a.a. 2011-12. Regressione non lineare 1 Q* (β) = Q(β 0 ) + g 0 (β − β 0 ) + (β − β 0 )′H 0 (β − β 0 ) 2 dove si è posto g0 = H0 = ∂Q(β 0 ) (vettore riga; denominato anche vettore gradiente di Q(β) in β 0 ); ∂β ∂ 2Q(β 0 ) (matrice quadrata di ordine k ; denominata anche matrice hessiana di Q(β) in β 0 ). ∂β∂β′ 2) Se la matrice H 0 è definita positiva, la funzione Q* (β) ha un unico punto di minimo che soddisfa la condizione del prim’ordine 0 = g′0 + H 0 (β − β 0 ) , la cui (unica) soluzione è evidentemente β1 = β 0 − H 0−1g′0 . 3) Costruzione per ricorrenza della successione “estremante” (punti di minimo di funzioni ausiliarie e candidati a convergere verso l’eventuale punto di minimo) per la funzione Q(β) : {β , 0 β n = β n −1 − H n−1−1g′n −1 per n ≥ 1 . In queste lezioni sarà utilizzato il punto iv) della seguente proposizione, in cui sono segnalate alcune proprietà, senza dimostrazione,della successione estremante ora costruita. Proposizione: i) Se la funzione Q(β) è quadratica (e naturalmente ha un solo minimo) allora al primo passo si ottiene il punto di minimo (e quindi β1 è il punto di minimo); ii) Se la funzione Q(β) è approssimativamente quadratica (per esempio somma di funzioni quadratiche) allora la convergenza della procedura ricorsiva verso il punto di minimo (esistente) è rapida. iii) Se la funzione Q(β) è (globalmente) convessa esiste un unico punto di minimo e la successione estremante converge verso esso (e quindi è una successione minimizzante). iv) Se la funzione Q(β) non è globalmente convessa, pur avviando la procedura con β 0 vicino al punto di minimo (supposto esistente), può accadere che qualcuna delle matrici Hessiane H j sia non definita positiva e allora la procedura per ricorrenza si può bloccare oppure la successione può allontanarsi dal punto di minimo. Per porre rimedio a tale inconveniente, si sostituisce, nella costruzione della sequenza β j , la matrice H j con una sua buona approssimazione D j che però sia definita positiva. Tale procedura è denominata metodo quasi-Newton. 12 6-Econometria, a.a. 2011-12 Complementi La statistica di Box-Pierce e di Ljung-Box e il test di Durbin-Watson Un problema di particolare interesse in econometria è quello di testare l’ipotesi di indipendenza (o più in generale l’assenza di autocorrelazione) in un processo stazionario o anche quello di rilevare la presenza di autocorrelazione negli errori di un modello di regressione che spesso e` un segnale di non corretta specificazione( 1 ). Una risposta a questo secondo problema e` stata già data al termine del capitolo 6 con la costruzione del test di Breusch-Godfrey proposto separatamente dai due autori nel 1978, il quale è valido in contesti sufficientemente generali. Alcune serie economiche sulle quali spesso si fa l’ipotesi di assenza di autoccorrelazione: 1) Per molto tempo (e ancora oggi in varie questioni teoriche) si è assunto che i rendimenti (di un titolo, di un mercato, …) sono indipendenti (ipotesi che per la verità si è rivelata per nulla ragionevole). 2) Hall formulò l’ipotesi che il processo dei consumi aggregati {ct } è una martingala (cioè che la migliore previsione sui consumi all’istante t siano i consumi all’istante t − 1 ) e dunque che il processo {ct − ct −1} sia una differenza martingala. Qui si costruisce un test sull’ipotesi (nulla) che un processo stazionario (con qualche proprietà che sara` precisata in seguito) sia non autocorrelato. A tal fine si premette la seguente: Proposizione – Sia {ε t }t ≥1 una differenza martingala strettamente stazionaria, ergodica e tale che E(ε t2 | ε t −1 , ε t − 2 ,… , ε1 ) = σ 2 (ipotesi di omoschedasticità condizionata). Allora fissato p ≥ 1 e posto γˆ = (γˆ1 ,… , γˆ p )′ e ρˆ = ( ρˆ1 ,… , ρˆ p )′ , (con γˆs = γˆ 1 n ε t ε t − s e ρˆ s = s per s ≥ 0 ) si ha: ∑ n t =s γˆ0 n γˆ → N (0; σ 4 I p ) e d nρˆ → N (0; I p ) . d Dimostrazione: Per semplicità si esamina soltanto il caso p = 1 ; non ci sono difficoltà aggiuntive se e` p > 1 . Posto gt = ε t ε t −1 , si ha: • { gt } è un processo stazionario ed ergodico (è evidente); • { gt } è una differenza martingala. Infatti E( gt | ε t −1 , ε t − 2 ,…) = E(ε t ε t −1 | ε t −1 , ε t − 2 ,…) = E(ε t | ε t −1 , ε t − 2 ,…)ε t −1 = 0 • E( gt2 ) = σ 4 . Infatti si ha 1 Per esempio e` stata omessa dal modello qualche variabile indipendente oppure gli errori hanno una effettiva autocorrelazione che andrebbe modellata. Nel primo caso le stime OLS non sono consistenti nel secondo caso, nei modelli dinamici si perde la consistenza, mentre in quelli statici le stime OLS rimangono consistenti ma non sono efficienti 13 6-Econometria, a.a. 2011-12 Complementi E( gt2 | ε t −1 , ε t − 2 ,…) = E(ε t2ε t2−1 | ε t −1 , ε t − 2 ,…) = E(ε t2 | ε t −1 , ε t − 2 ,…)ε t2−1 = σ 2ε t2−1 e quindi l’asserto non appena si considera l’aspettazione del primo e dell’ultimo termine. 1 n ⎡ ⎤ d nγˆ1 ⎢ = n ( ∑ ε t ε t −1 ) ⎥ → N (0;σ 4 ) . E’ conseguenza del teorema del limite centrale per n t =2 ⎣ ⎦ • una differenza martingala stazionaria ed ergodica. n ρˆ1 → N (0;1) . Segue dalla precedente e dalla rappresentazione d • n ρˆ1 = n γˆ1 , dopo aver γˆ0 osservato che il denominatore converge in probabilità a σ 2 . Corollario: Nelle ipotesi della precedente proposizione, si ha p p ⎛ ⎞ d 2 ˆ Q1 ⎜ = n∑ ρ j = ∑ ( n ρˆ j ) 2 ⎟ → χ p2 j =1 j =1 ⎝ ⎠ ed anche p p ⎛ ⎞ d ρˆ 2j n+2 =∑ Q2 ⎜ = n(n + 2)∑ ( n ρˆ j ) 2 ⎟ → χ p2 . ⎜ ⎟ j =1 n − j j =1 n − j ⎝ ⎠ Le statistiche Q1 e Q2 sono denominate rispettivamente statistica di Box-Pierce e statistica di Ljung-Box. Osservazione: • Su eviews e` disponibile la statistica Q di Ljung-Box (per differenti valori di p ) e il corrispondente p -value nel campione quando si richiede il correlogramma di una time-series (cioe` il plot dell`autocorrelazione empirica). Essa e` utilizzata per rilevare la presenza di autocorrelazione nel processo che si ritiene stazionario o anche negli errori di un modello di regressione, utilizzando in tal caso come osservazioni i residui. Non e` invece utilizzata per testare l`ipotesi di assenza di autocorrelazione in un processo, in quanto per tale uso e` richiesta non solo la validita` (o quantomeno la ragionevolezza) delle ipotesi (abbastanza restrittive) della precedente proposizione ma anche la scelta dell`ordine dell`autocorrelazione p oltre il quale tutte le altre (autocorrelazioni) sono certamente nulle. Non esiste alcuno strumento che consenta una buona scelta del valore di p . • I H 0 : α1 = precedenti due test sono asintoticamente equivalenti = α p = 0 nel modello di regressione lineare xt = α 0 + α1 xt −1 + al test sull’ipotesi + α p xt − p + error . • E’ stato mostrato con tecniche di simulazione che, per campioni finiti, è preferibile utilizzzare la statistica di Ljung-Box piuttosto che la statistica di Box-Pierce. 14 6-Econometria, a.a. 2011-12 Complementi Il test di Durbin-Watson Uno dei primi test sulla presenza di autocorrelazione negli errori di un modello di regressione lineare, che ora si passa a descrivere, fu proposto intorno al 1950 da Durbin e Watson; in realtà esso è soltanto un test sulla presenza di autocorrelazione del prim’ordine, è valido in ipotesi molto restrittive ed infine le sue risposte (consigli) non sono come solitamente accade per un test “si accetta” o “si rifiuta” l’ipotesi nulla, ma contempla anche l’ulteriore risposta “non si è in grado di fornire suggerimenti”. Attualmente esso (test) non e’ mai utilizzato, ma il valore della statistica di Durbin-Watson è riportato nell’output dei software econometrici data la sua semplicità di calcolo e fornisce un primo segnale di presenza di autocorrelazione negli errori quando (come si vedrà) il suo valore è vicino a 0 oppure a 4. E’ assegnato il modello yt = x′t β + ut tale che E(ut | xt ) = 0 e { yt , xt } è un processo stazionario ed ergodico. n ∑ (uˆ Definizione: La statistica D = t t =2 − uˆt −1 ) 2 n ∑ uˆ t =1 , dove {uˆt } e` il processo dei residui nella stima OLS, 2 t dicesi statistica di Durbin-Watson. Osservazione: 1) Si ha D= n n n t =2 t =2 n t =2 ∑ uˆt2 − 2∑ uˆt uˆt −1 + ∑ uˆt2−1 ∑ uˆ t =1 = (al numeratore si somma e si sottrae uˆ12 + uˆn2 ) 2 t n n t =1 t =2 2∑ uˆt2 − 2∑ uˆt uˆt −1 n ∑ uˆt2 − t =1 (si noti che uˆ12 + uˆn2 n ∑ uˆ t =1 2 t = uˆ12 + uˆn2 n ∑ uˆt2 p → 2(1 − ρ1 ) (∈ [ 0, 4]) t =1 (uˆ12 + uˆn2 ) / n p → 0 ). E quindi l’assenza di autocorrelazione del prim’ordine 1 n 2 ∑ uˆt n t =1 negli errori ( ρ1 = 0 ) dovrebbe produrre un valore della statistica D non molto distante da 2, mentre un valore di D vicino a 4 suggerirebbe la presenza di autocorrelazione negativa e un valore vicino a 0 la presenza di autocorrelazione positiva. 2) Al fine di utilizzare la statistica D per costruire un test sulla presenza di autocorrelazione del prim’ordine negli errori, è essenziale individuare la sua distribuzione (finita o asintotica). 15 6-Econometria, a.a. 2011-12 Complementi Il risultato di Durbin e Watson – Considerato il modello yt = x′t β + ut con { yt , xt } processo stazionario ed ergodico, tale che i) ii) Le variabili x t sono strettamente esogene, ut = ρ1ut −1 + ε t con è ε t ∼ n.i.d .(0, σ 2 ) , gli autori individuarono (al variare del numero di variabili indipendenti, per gli standard livelli di significatività e per differenti lunghezze del campione) una coppia di quantili (dl* , du* ) (spesso non presenti nei software econometrici, ma disponibili su internet) con 0 < dl* < du* < 2 , indipendenti dalla matrice X delle osservazioni delle variabili indipendenti, tali che un test per l’ipotesi ⎧ H 0 : ρ1 = 0 ⎨ ⎩ H1 : ρ1 > 0 è: “Si accetta H 0 se D > du* , si rifiuta H 0 se D < dl* , mentre se dl* < D < du* non si può dire nulla”. ⎧H : ρ = 0 Un test per l’ipotesi ⎨ 0 1 è uguale al precedente con 4 − D al posto di D . ⎩ H1 : ρ1 < 0 Osservazione: Se ε t ∼ i.i.d .(0, σ 2 ) allora il precedente test ha validità asintotica. 16