7-Econometria, a.a. 2014-15 Capitolo 7 7-1 Modelli econometrici con variabili endogene (tra le variabili indipendenti) 7-2 Il metodo (di stima) delle variabili strumentali 7-3 Lo stimatore 2SLS 7-4 Test sulle ipotesi: il modello IVGNR 7-5 Il test di Sargan sulle restrizioni di sovraidentificazione 7-6 Il test di Durbin-Wu-Hausman (sulla presenza di variabili endogene tra i regressori) 7-7 Il Metodo dei Momenti Generalizzato (GMM): una breve introduzione 7-8 Proprieta` finite degli stimatori IV: un esercizio 7-1 Modelli econometrici con variabili endogene (tra le variabili indipendenti) Nei metodi di stima finora presentati, per i modelli lineari (risp. non lineari) del tipo yt = x′t β + ut (risp. yt = xt (β) + ut ), l’ipotesi sugli errori E(ut | xt ) = 0 , ha avuto un ruolo fondamentale. Essa era ottenuta come conseguenza di E(ut | Ωt ) = 0 e xt ∈ Ωt . La prima condizione esprime la circostanza che il modello e` correttamente specificato, la seconda che le variabili indipendenti presenti nel modello sono esogene o predeterminate. Qui di seguito sono presentate tre (differenti) situazioni, abbastanza frequenti nelle applicazioni, che portano in modo naturale alla endogeneità di alcune variabili indipendenti di un modello correttamente specificato. 1 – Errori nelle variabili: Si assume che il modello corretamente specificato sia yt0 = β 0 + β1 xt0 + ut0 , ut0 ∼ i.i.d .(0, σ 2 ) , ma che il processo delle osservazioni { yt , xt } verifichi le seguenti condizioni: yt = yt0 + vt , xt = xt0 + wt , con {vt } e {wt } processi i.i.d . , indipendenti tra loro e indipendenti da {ut0 } . Allora il modello econometrico per il DGP è yt = β 0 + β1 xt + ut0 + vt − β1wt (= β 0 + β1 xt + ut ) , e si verifica senza alcuna difficoltà che mentre vt (l`errore sulla variabile dipendente) ha il solo effetto di aumentare la varianza degli errori e dunque di peggiorare la precisione della stima dei parametri, wt introduce una correlazione tra l’errore ut e la variabile indipendente xt , che (come è ben noto) ha come grave conseguenza la non consistenza delle stime (o equivalentemente la non identificabilità del modello). La presenza dell’endogeneità indotta dgli errori sulle osservazioni è 1 7-Econometria, a.a. 2014-15 abbastanza naturale nei modelli econometrici in quanto i dati a disposizione sono di natura non sperimentale, ma spesso è trascurata. 2 – Omissione di variabili rilevanti: L’omissione di una variabile rilevante in un modello, e quindi il suo inserimento nell’errore, (talvolta tale omisssione è obbligata per la mancanza di osservazioni su di essa) quando e` correlata con qualche altra variabile indipendente, rende endogene queste ultime. Una situazione del tipo ora descritta è già apparsa in 6.2, dove e` stata proposta una procedura di stima che sfrutta la struttura Panel dei dati. Va ribadito, come e` stato gia` detto nella nota conclusiva del paragrafo 6.3, che tali stime sono esattamente le stesse di quelle che si ottengono con i metodi che saranno presentati in questo capitolo. 3 – Simultaneità: La seguente ovvia affermazione “La dipendenza funzionale di una variabile da un’altra non implica la dipendenza causale in una delle due direzioni”, giustifica la seguente Definizione: Due variabili (economiche) si dicono simultanee se tra esse c’è una dipendenza funzionale (implicita oppure esplicita) e non c’è alcuna dipendenza causale. In definitiva in ogni modello (univariato) in cui sono presenti due o più variabili simultanee, tra le variabili indipendenti c’è necessariamente qualche variabile endogena. Va segnalato che in generale non è facile stabilire la eventuale simultaneità di due variabili. Il seguente esempio chiarisce la situazione ora descritta e fornisce qualche idea su come affrontare il problema della stima. Esempio (Il modello per un mercato competitivo di un bene): Uno dei primi modelli presentati nel corso di microeconomia è quello relativo al mercato di un bene, in cui si assume che sussista una dipendenza lineare tra quantità e prezzo. Naturalmente la rappresentazione analitica della relazione funzionale è differente (almeno nelle restrizioni sui parametri) a seconda che tale relazione è vista dal lato della domanda o da quello dell’offerta. Si ha infatti: ⎧ q s = α1 + α 2 p (equazione dell'offerta) , con α 2 > 0 e β 2 < 0 , ⎨ d ⎩q = β1 + β 2 p (equazione della domanda) inoltre, in un mercato competitivo, si può assumere che forze interne al mercato spingono verso l’equilibrio e dunque deve aversi q s = q d (= q ) . Ora se sono disponibili n osservazioni (qt , pt ) (notare che qt è la quantità di equilibrio) il modello econometrico si può scrivere nella forma (*) ⎧ qt = α1 + α 2 pt + ut ⎨ ⎩qt = β1 + β 2 pt + vt (equazione dell'offerta) (equazione della domanda) e la richiesta legittima (e certamente di grande interesse) è quella di stimare i parametri del modello. Risolvendo il precedente sistema rispetto a pt e qt si ha 2 7-Econometria, a.a. 2014-15 β − α1 vt − ut ⎧ pt = 1 + ⎪ α2 − β2 α 2 − β2 ⎪ ; ⎨ ⎪ q = α 2 β1 − α1β 2 + α 2 vt − β 2ut ⎪⎩ t α 2 − β2 α 2 − β2 dalla prima uguaglianza si deduce immediatamente che, salvo casi eccezionali e poco significativi, la variabile pt (essendo correlata sia con ut che con vt ) è endogena in ciascuna delle due equazioni in (*) e pertanto nessuna delle due equazioni è in grado di fornire stime consistenti dei parametri (naturalmnete con i metodi a disposizione fino a questo momento e come si vedrà con nessun altro metodo se non sono disponibili altre informazioni). Si assume ora, che un’attenta analisi del mercato porti alla seguente specificazione dell’equazione della domanda (qtd =)qt = β1 + β 2 pt + β 3 xt + vt , con xt variabile esogena (per esempio xt potrebbe tener conto di eventuali interventi del governo per sostenere la domanda) e quindi non correlata con gli errori (delle due equazioni). Questa volta risolvendo rispetto a pt e qt si ha β3 v −u β −α ⎧ pt = 1 1 + xt + t t ⎪ α 2 − β2 α2 − β2 α2 − β2 ⎪ , ⎨ ⎪q = α 2 β1 − α1β 2 + α 2 β 3 x + α 2 vt − β 2ut ⎪⎩ t α 2 − β2 α 2 − β2 t α 2 − β2 ed essendo evidentemente xt non correlata con gli errori, entrambe le equazioni (di quest’ultimo modello) consentono di stimare in modo consistente i parametri, in particolare i coefficienti di xt e quindi il loro rapporto, che è evidentemente uguale a α 2 . Osservazione: Nella procedura ora descritta sembra avere un ruolo fondamentale la specificazione dell’equazione della domanda (e in particolare il modo con il quale xt agisce su qt (= qtd ) ) ma il seguente argomento mostra che non è così; ciò che conta è che xt sia esogena nell’equazione dell’offerta e che essa sia correlata con qt . Infatti, se si considera l’aspettazione nell’equazione dell’offerta si ottiene E(qt ) = α1 + α 2 E( pt ) , mentre (sempre nell’equazione dell’offerta) se si moltiplica per xt e si calcola l’aspettazione, si ottiene E(qt xt ) = α1E( xt ) + α 2 E( pt xt ) , e dunque, se e` cov( xt , pt ) [ = E( xt pt ) − E( xt )E( pt )] ≠ 0 , si ha 3 7-Econometria, a.a. 2014-15 1 E(qt ) E( xt ) E( xt qt ) α2 = , 1 E( pt ) E( xt ) E( xt pt ) la cui versione empirica e` evidentemente la stima trovata precedentemente. top 7-2 Il metodo (di stima) delle variabili strumentali Sia { yt , xt }t =1,… un D.G.P. e yt = x′t β + ut con E(ut | Ωt ) = 0 , un suo modello lineare correttamente specificato (si noti che qui non si richiede che xt ∈ Ωt ); si segnala che qui si fa riferimento a dati del tipo time-series, naturalmente l’adattamento delle ipotesi e dei risultati ai dati del tipo cross-section non presenta alcun particolare problema. Ipotesi sul modello (l’elenco sarà aggiornato quando se ne presenta la necessità): IV-1) Esiste un processo vettoriale {w t } di dimensione k , con w t ∈ Ωt , (che verifica alcune ragionevoli condizioni che saranno rese esplicite in seguito) e per il quale, fissato n ∈ N , sono disponibili le osservazioni per t = 1,… , n ; con W si denota la matrice ( n × k ) delle osservazioni. I processi, con le precedenti caratterisiche, sono denominati processi degli strumenti. Osservazione: L’uguaglianza E(w t ut ) = 0 (che è conseguenza di E(ut | Ωt ) = 0 ) porta, come ormai e’ solito, a considerare la sua versione empirica, e dunque l’equazione (vettoriale in R k ) con k incognite 1 n ∑ w t ( yt − x′t β) = 0 ( ⇔ W′(y − Xβ) = 0 ) . n t =1 (*) Definizione: L’unica (eventuale) soluzione dell’equazione (*) dicesi stima di β con il metodo delle variabili strumentali e sara` denotata con il simbolo βˆ IV (si omette di evidenziare nella notazione la dipendenza da w t che peraltro e` rilevante). Al fine di assicurare non solo l`esistenza di βˆ IV , ma anche la validità di alcune buone proprietà statistiche, sono naturali le seguenti ulteriori ipotesi sul processo { yt , xt , w t } : IV-2) n p { yt , xt , wt } è un processo stazionario ed ergodico (da cui ∑ w t x′t → Σwx (= E(w t x′t ) )); n 1 t =1 4 7-Econometria, a.a. 2014-15 IV-3) (Condizione di identificabilita`) La matrice (quadrata di ordine k ) Σ wx è invertibile( 1 ) (conseguentemente anche le matrici Σ w ( = E(w t w′t ) ) e Σ x ( = E(xt x′t ) ) sono invertibili( 2 )). IV-4) Il processo {w t ut } è una differenza martingala, ( 3 ) o piu` in generale e` valida qualche versione del teorema del limite centrale. ( 4 ) ( n wu Osservazione: Da IV-4 e dal teorema del limite centrale, segue ) → N (0, Avar(wu)) con d 1 n ⎧ 2 2 p lim ⎪ n→∞ n ∑ w t w′t ut (= E(ut w t w′t ) = Σuw ) se {w t ut } e` non correlato, ⎪ t =1 . Avar(wu ) = ⎨ +∞ ⎪ ∑ Γ , con Γ = E(w w′ u u ) se {w u } e` autocorrelato (cfr. 3 - 9, prop. 2). j t t− j t t− j t t ⎪⎩ j =−∞ j Rappresentazione e proprietà dello stimatore βˆ IV : La prova non e` riportata in quanto non differisce da quella delle corrispondenti proprieta` degli stimatori OLS (cfr. 3-3). −1 −1 ⎛1 n ⎞ 1 n ⎛1 n ⎞ 1 n 1) βˆ IV = ⎜ ∑ w t x′t ⎟ w t yt = β + ⎜ ∑ w t x′t ⎟ ∑ ∑ w t ut ⎝ n t =1 ⎠ n t =1 ⎝ n t =1 ⎠ n t =1 (o equivalentemente, se si utilizza la rappresentazione matriciale del modello, βˆ IV = ( W′X) −1 W′y = β + ( W′X) −1 W′u )); 2) βˆ (= βˆ IV ) è consistente; (segue dalle sole ipotesi IV-1 e IV-2); 3) n (βˆ − β) → N (0, Avar(βˆ )) con Avar(βˆ ) = ( Σ wx ) Avar(w u ) ( Σ′wx ) d −1 −1 (segue da IV-3 con i soliti argomenti); ( ) 4) Avar(βˆ ) = Σ wx (1) −1 ( ) Avar(wu ) Σ′wx −1 , dove Avar(wu ) = 1 n ∑ w t w′t uˆt2 con uˆt = yt − x′t βˆ IV e n t =1 In sostanza si richiede che la matrice quadrata cov(x, w ) sia invertibile; infatti se una delle due variabili ha media nulla si ha cov(x, w ) = Σ wx , mentre se entrambe le variabili hanno 1 come prima coordinata, un semplice calcolo mostra che le due matrici hanno lo stesso determinante. (2) Si comincia con l’osservare che se c ∈ R k , c ≠ 0 si ha (omettendo gli indici) E(c′wx′) = 0 ( ⇒ c′E(wx′) = 0 ) ⇒ c = 0 . ( Ora se fosse Σ w singolare esisterebbe c ∈ R k , c ≠ 0 tale che E [c′ww′c] = 0 ⇔ E ⎡( c′w )2 ⎤ = 0 ⎣ ⎦ quindi E(c′wx′) = 0 , che e` assurdo. (3) E` utile ricordare che una condizione sufficiente perche` {w t ut } ) donde c′w = 0 e sia una differenza martingala e` E(ut | w t , ut −1 , w t −1 ,…) = 0 . (4) In presenza di autocorrelazione negli errori, tra le coordinate di w t non ci possono essere ritardi della variabile dipendente, che invece possono trovarsi tra le coordinate di x t . 5 7-Econometria, a.a. 2014-15 Σ wx = 1 n ⎛ W′X ⎞ ˆ w t x′t ⎜ = ∑ ⎟ . Tale stimatore per la varianza asintotica di β IV dicesi stimatore di n t =1 n ⎠ ⎝ White (o stimatore robusto all’eteroschesaticità (HC)) 5) Se gli errori sono omoschedastici (cioè E(ut2 | Ωt ) = σ 2 e quindi anche E(ut2 | w t ) = σ 2 ), si 1 n ⎛ ⎞ ⎛1 n ⎞ ha Avar(wu ) = σ 2 ⎜ p lim ∑ w t w′t ⎟ = σ 2 E(w t w′t )(= σ 2 Σ w ) e Avar(wu ) = σˆ 2 ⎜ ∑ w t w′t ⎟ con n t =1 ⎝ ⎠ ⎝ n t =1 ⎠ σˆ 2 = 1 n 2 ∑ uˆt , e allora dalla precedente proprietà 4 segue n t =1 ( ) Avar(βˆ ) = σˆ 2 Σ wx −1 ( ) Σ w Σ′wx −1 . Osservazione: −1 1) La rappresentazione della varianza asintotica di βˆ IV , in particolare la presenza di ( Σ wx ) , mostra che la elevata correlazione tra wt e x t influenza positivamente la efficienza dello stimatore. 2) La procedura ora descritta lascia non risolti i seguenti due problemi • individuare (almeno) un processo degli strumenti; • effettuare una ragionevole scelta in presenza di piu` processi degli strumenti. top 7-3 Il metodo dei minimi quadrati a due stadi (2SLS) Si fa sempre riferimento al modello considerato in 7-2, e dunque a yt = x′t β + ut con E(ut | Ωt ) = 0 . Definizione: Dicesi processo delle variabili strumentali del modello, il processo vettoriale {wt } (di dimensione l ) sufficientemente rappresentativo di Ωt . E` doveroso segnalare che non ci sono procedure standard e univoche che portano ad individuare il processo delle variabili strumentali, e` allora fondamentale sia la conoscenza del problema economico, sia l’esperienza; comunque di tale processo fanno certamente parte le coordinate di x t (che si ritengono) esogene (la motivazione di quest’ultima affermazione e` rinviata). Va comunque segnalato, anche se raramente ha una effettiva utilita`, che se xt ∈ Ωt ogni sua trasformazione non lineare e ogni suo ritardo appartengono a Ω t , inoltre ad Ω t appartengono i ritardi di yt nel caso in cui gli errori sono non correlati. 6 7-Econometria, a.a. 2014-15 D’ora innanzi si assume che e` disponibile il processo delle variabili strumentali {w t } di dimensione l (del quale naturalmente e` diponibile il processo delle osservazioni). Definizione: Il modello si dice a) sottoidentificato se l < k ; b) esattamente identificato se l = k ; c) sovraidentificato se l > k . Nel caso a) non e` possibile costruire uno stimatore consistente di β (a meno che non si impongano delle restrizioni sui parametri), mentre nel caso b) il metodo delle variabili strumentali, descritto in 7-2, consente la costruzione di uno (solo) stimatore consistente di β . Nel caso c), sembra che il problema sia quello di dover scegliere opportunamente k strumenti tra gli l (> k ) disponibili. Qui si descrive una procedura per la costruzione di uno stimatore nei modelli sovraidentificati che, almeno in alcuni casi, e` il piu` efficiente; in 7-5 e` presentato un differente e piu` generale approccio al metodo di stima che lascia intravedere percorsi per ulteriori generalizzazioni. Ipotesi (sul modello e sul processo delle variabili strumentali): Sono valide le ipotesi da IV-2) a IV-4) di 7-2, con la ovvia modifica in IV-3) dove la matrice Σ wx , che ora ha dimensione l × k , deve avere rango (massimo) k ; qui pero` si deve richiedere che la matrice Σ w (quadrata di ordine l ) e` invertibile. Descrizione della procedura. La costruzione si sviluppa in due passi il primo dei quali seleziona un processo degli strumenti (di dimensione k ). La bonta` della stima ottenuta e` verificata a posteriori quando si mostra la sua efficienza almeno in un caso particolare. In realtà c’e` anche una giustificazione a priori presentata brevemente nella nota in basso.( 5 ) Primo Passo (costruzione della matrice delle osservazioni di k strumenti): Intanto sia n ∈ N sufficientemente grande, si denoti con W la matrice delle osservazioni di w t (le l variabili ( n×l ) 5 La osservazione 1 che chiude il paragrafo 7-2, suggerisce come scelta per il processo degli strumenti x∗t = E(xt w t ) , per la quale pero` non sono disponibili le osservazioni (non e` infatti nota la sua rappresentazione analitica come funzione di w t ). Se invece E(xt w t ) fosse lineare (in w t ) (in sostanza si fa questa ipotesi) allora i coefficienti potrebbero essere stimati (in modo consistente) con il metodo dei minimi quadrati e allora la sua matrice delle osservazioni sarebbe PW X . 7 7-Econometria, a.a. 2014-15 strumentali del modello) e sia ˆ = P X(= W ( W′W ) −1 W′X)) ; X W ( n× k ) essa sarà utilizzata come matrice delle osservazione del processo degli strumenti nel secondo passo. Osservazione: Ciascuna colonna di X̂ è il vettore dei valori previsti nella stima OLS della corrispondente colonna di X su W . Evidentemente le colonne di X che sono anche colonne di W rimangono inalterate e quindi si ritrovano in X̂ . Secondo Passo (stima con il metodo delle variabili strumentali): Con il metodo delle variabili strumentali descritto in 7-2, con X̂ come matrice delle osservazione del processo degli strumenti (dopo aver osservato che sono evidentemente soddisfatte tutte le ipotesi richieste al processo degli strumenti), si costruisce lo stimatore di β , denominato stimatore delle variabili strumentali generalizzato, che e` denotato con il simbolo βˆ GIV ; pertanto (vedi la proprieta` 1 in 7.2) si ha −1 ⎛ ⎞ βˆ GIV ⎜ = ⎡( PW X )′ X ⎤ ( PW X )′ y ⎟ = ( X′PW X) −1 X′PW y (= β + ( X′PW X) −1 X′PW u) . ⎢ ⎥⎦ ⎝ ⎣ ⎠ Si osservi che la matrice X′PW X (per n sufficientemente grande) e` invertibile in quanto le matrici X′W e W ′X sono entrambe di rango massimo k . Osservazione: Essendo PW = PW PW e PW = PW′ , dalla precedente rappresentazione di βˆ GIV segue immediatamente che esso si ottiene anche come stima OLS dal modello di regressione y = PW Xβ + resid . La procedura che ha portato alla costruzione dello stimatore βˆ GIV , giustifica la terminologia ormai di uso comune, introdotta nella seguente Definizione: Lo stimatore βˆ GIV dicesi Stimatore dei Minimi Quadrati a Due Stadi (brevemente 2SLS o TSLS) ed e` denotato piu` frequentemente con il simbolo βˆ 2 SLS . Osservazione: Se e` l = k si ha βˆ 2 SLS = βˆ IV . E` sufficiente osservare che nella rappresentazione di βˆ 2 SLS le matrici W ′X e X′W sono (quadrate e) invertibili. Proprietà dello Stimatore βˆ 2 SLS : Sono le stesse proprietà elencate in 7-2 per lo stimatore βˆ IV , si deve soltanto tener presente che il processo degli strumenti ora e` xˆ t la cui matrice delle ( ˆ = P X = W ( W′W )−1 W′X = WJ osservazioni e` X W W 8 ) o se si vuole definita da xˆ t = J ′W w t , con 7-Econometria, a.a. 2014-15 J W = ( W′W ) W′X . In particolare si ha (si omette l’indice 2SLS ) −1 ( l ×k ) ˆ con Avar(βˆ ) = ( Σ )−1 Avar(xˆ u ) ( Σ′ )−1 ; n (βˆ − β) → N (0, Avar(β)) ˆ ˆ xx xx d • ( ) −1 ( ) Avar(xˆ u ) Σ′xx ˆ −1 ⎛ 1 n ⎞ X′PW X 1 n xˆ t x′t ⎟ = xˆ t xˆ ′t uˆt2 , Σ xx ; ∑ ∑ ˆ ⎜= n n t =1 ⎝ n t =1 ⎠ • Avar(βˆ ) = Σ xx ˆ • Se gli errori sono omoschedastici (cioè E(ut2 | Ωt ) = σ 2 ), essendo Σ xx ˆ = , Avar(xˆ u ) = ( ) Avar(βˆ ) ⎛⎜ = σˆ 2 Σ xx ˆ ⎝ −1 ( ) Σ xˆ Σ′xx ˆ −1 X′PW X = Σ xˆ si ha n −1 ⎞ = σˆ 2 ⎛ X′PW X ⎞ . ⎟ ⎜ n ⎟ ⎠ ⎝ ⎠ Nella seguente proposizione si trova una giustificazione (a posteriori) della scelta del processo degli strumenti per la costruzione dello stimatore di β . Proposizione: Fermo restando le ipotesi che consentono la costruzione dello stimatore 2SLS, si assume ulteriormente E(ut2 | Ωt ) = σ 2 , (omoschedasticità condizionata degli errori). Allora lo stimatore βˆ 2 SLS è efficiente nella classe degli stimatori costruiti con il metodo delle variabili strumentali, il cui processo ( k dimensionale) degli strumenti è combinazione lineare del processo ( l dimensionale) delle variabili strumentali.( 6 ) Dimostrazione. Si segnala che la prova e` del tutto simile a quella che mostra che la stima OLS, in presenza di omoschedasticita`, e` la piu` efficiente (asintoticamente) nella classe degli stimatori con il metodo dei momenti (cfr. 3-8). Le stime della varianza asintotica degli stimatori βˆ IV (w t( J ) ) e βˆ 2 SLS sono rispettivamente σˆ 2 (Σ ) w( J )x −1 ( Σ w( J ) Σ′w( J ) x ) −1 −1 ⎛ J ′W′X ⎞ ⎛ J ′W′WJ ⎞ ⎛ X′WJ ⎞ = σˆ ⎜ ⎟ ⎜ ⎟⎜ ⎟ n ⎝ n ⎠ ⎝ ⎠⎝ n ⎠ −1 2 e 6 Più precisamente: βˆ 2 SLS ha la minima varianza asintotica tra (tutti) gli stimatori costruiti con il metodo delle variabili strumentali, che utilizzano come processo degli strumenti, processi che sono combinazione lineare del processo {w t } , { } cioè processi del tipo w t( J ) ( = J ′w t ) , con J = J ( yt , w t , x t ) matrice l × k (che dipende da ( yt , w t , xt )t =1,…,n ) tale che {w } sia un processo ( k -dimensionale) di strumenti (verificanti cioè le condizioni da IV-2 a IV-5) di 7-2. Cio` accade (J ) t per esempio se sono verificate le seguenti due condizioni: n i) p lim ⎡ J′W′WJ = 1 ∑ w t( J ) w′t ( J ) ⎤ esiste ed è non singolare ; ⎢ ⎥ n →∞ n n t =1 ⎣ ⎦ ′ ′ ′ ii) Esiste il limite in probabilità di (J ) n (e quindi J W u converge a 0 , essendo convergente a 0 la sequenza W u ). n n 9 7-Econometria, a.a. 2014-15 −1 −1 −1 ⎛ X′PW X ⎞ ⎛ X′PW X ⎞ ⎛ X′PW X ⎞ ⎛ X′PW X ⎞ σˆ ⎜ = σˆ 2 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ , ⎝ n ⎠ ⎝ n ⎠⎝ n ⎠ ⎝ n ⎠ 2 allora l’asserto sarà provato (passando al limite in probabilità per n → ∞ ), se si prova che ( X′PW X ) −1 ≤ ( J ′W′X ) −1 ( J′W′WJ )( X′WJ ) −1 o equivalentemente (vedi l’ultimo punto in prop. 1 di 2-3) ( X′WJ )( J′W′WJ ) ( J′W′X ) ≤ ( X′PW X ) . ′ ′ ′ X X X X X X P P 0 P P ⇔ ≤ ⇔ ≤ − ( ) ( ) ( ) ( W WJ ) ) ( WJ W −1 La validità dell’ultima disuguaglianza (cioè che la matrice X′ ( PW − PWJ ) X è semidefinita positiva), segue dalle seguenti proprietà: i) PW − PWJ è una proiezione; Infatti si osserva dapprima che evidentemente si ha S ( WJ ) ⊂ S ( W) , donde PW PWJ = PWJ e considerando la trasposizione PWJ PW = PWJ , pertanto ( PW − PWJ )( PW − PWJ ) = PW − PWJ PW − PW PWJ + PWJ = PW − PWJ ii) La proiezione PW − PWJ è ortogonale; segue dalla sua simmetria. iii) La matrice X′ ( PW − PWJ ) X è semidefinita positiva; Infatti per ogni λ ∈ R k si ha λ ′X′ ( PW − PWJ ) Xλ = λ ′X′ ( PW − PWJ )′ ( PW − PWJ ) Xλ = ( PW − PWJ ) Xλ ≥ 0 . Osservazione: • La stima della varianza asintotica dello stimatore 2SLS (sia in presenza di errori omoschedastici che eteroschedastici) utilizza il processo dei residui { y − x′βˆ } , che vanno t t 2 SLS calcolati al termine della procedura di stima (essi sono evidentemente diversi dai residui ottenuti dalle due procedure OLS utilizzate per la costruzione di βˆ 2 SLS ). • Lo stimatore βˆ 2 SLS minimizza la funzione obiettivo −1 Q (β) = ( y − Xβ)′ PW ( y − Xβ) ⎛⎜ = [ W′( y − Xβ) ]′ [ W′W ] [ W′( y − Xβ) ] ⎞⎟ . ⎝ ⎠ Infatti si ha ∂Q (β) = 0 [ ⇔ (y − Xβ)′ PW X = 0 ⇔ X′PW y = X′PW Xβ ] ∂β 10 7-Econometria, a.a. 2014-15 e quindi βˆ 2 SLS è (l’unico) punto stazionario di Q(β) (funzione quadratica che ha certamente un punto di minimo). • Se il processo delle variabili strumentali ha dimensione k (dunque il processo e` esattamente ( identificato) allora βˆ 2 SLS = βˆ IV ) annulla la funzione obiettivo. Infatti, dalla definizione di βˆ IV , si ha W′(y − Xβˆ IV ) = 0 . top 7-4 Test sulle ipotesi: Il modello IVGNR L’asintotica normalità dello stimatore 2SLS (indipendentemente dalle eventuali ipotesi sugli errori), consente di costruire test su ipotesi (lineari o nonlineari) sui parametri del modello mediante la statistica di Wald, che comunque presenta difficolta` di tipo numerico per il suo calcolo. Nel caso di ipotesi lineari la costruzione dei test presenta minori difficolta` di tipo numerico, come appare chiaramente nella procedura che si passa a descrivere. Proposizione: Il modello di regressione ausiliario di Gauss-Newton (cfr. 4-4 per la definizione, le notazioni ed alcuni dettagli) per il modello lineare yt = x′t β + ut , con le variabili strumentali w t ed errori omoschedastici denominato modello IVGNR, ha la seguente rappresentazione y − Xβ = PW Xb + error . Dimostrazione: Considerata la funzione obiettivo Q (β) = (y − Xβ) ' PW (y − Xβ) , il suo gradiente g (β) = ∂ 2Q(β) ∂Q (β) = 2X′PW X , la sequenza = −2 X′PW (y − Xβ) e la sua matrice hessiana H (β) = ∂β′ ∂β∂β′ minimizzante si ottiene con una procedura ricorsiva da β j +1 = β j + ( X′PW X)−1 X′PW (y − Xβ j ) . Il termine che aggiorna la sequenza e` evidentemente la stima OLS di b nel modello lineare y − Xβ j = PW Xb + resid e dunque l’asserto. Osservazione: Essendo la funzione obiettivo quadratica, il punto di minimo (o equivalentemente il punto stazionario) si ottiene fissando arbitrariamente β 0 ed effettuando un solo passo; in tal modo si ( ) ottiene sia la stima βˆ 2 SLS = β1 = β 0 + bˆ 0 e sia la stima della sua varianza asintotica (in presenza di eteroschedasticita` si deve considerare lo stimatore di White). Il test IVGNR per l’ipotesi H 0 : β 2 = 0 (essendo β′ = [β1′ β′2 ] ) – Si trascrive il modello k1 k2 originario e quello ridotto con i corrispondenti modelli IVGNR. Importante: Il processo delle variabili strumentali deve essere lo stesso per i due modelli e sia W 11 7-Econometria, a.a. 2014-15 la matrice delle osservazioni. Modello non ridotto (U): y = X1β1 + X 2β 2 + u ; Modello IVGNR (U): y − X1β1 − X 2β 2 = PW X1b1 + PW X 2b 2 + resid Modello ridotto (R): y = X1β1 + u ; Modello IVGNR (R): y − X1β1 = PW X1b1 + resid ( ) Si considera β1 lo stimatore 2SLS di β1 dal modello ridotto, sia u = y − X1β1 il vettore dei residui (dal punto di vista teorico β1 puo` essere un qualunque elemento di R k1 in quanto il punto di minimo e` raggiunto in un solo passo con qualunque valore iniziale) e il modello IVGNR del modello non ristretto calcolato per β = (β1 , 0) , cioè ( u = ) y − X1β1 = PW X1b1 + PW X 2b 2 + resid ; allora l’ipotesi H 0 è equivalente H 0′ : b 2 = 0 e un test su quest’ultima ipotesi si costruisce immediatamente (avendo cura di tener conto della eventuale presenza dell’eteroschedasticita`). Il test in presenza di errori omoschedastici: In questo caso, come si potra` notare, nella costruzione del test (di Wald ed LM) si utilizzano soltanto le stime OLS di opportuni modelli lineari. a) Il test LM: Si considera il coefficiente di determinazione R 2 nella stima del modello y − X1β1 = PW X1b1 + PW X2b 2 + resid e si confronta nR 2 con χ k22 ,1−α . b) Il test di Wald: Intanto la statistica di Wald (W ) per l’ipotesi H 0′ : b 2 = 0 ( ⇔ H 0 : β 2 = 0 ) coincide con k2 F essendo F = [ RSSR − USSR ] / k2 USSR / n e USSR (risp. RSSR ) e` la somma dei quadrati dei residui del modello IVGNR(U) (risp. IVGNR(R)), inoltre si ha • RSSR − USSR = Q(β1 ) − Q(βˆ 2 SLS ) , differenza dei valori minimi delle funzione obiettivo del modello R (risp. U ) (cfr. (8.63) in Davidson-Mac Kinnon); • Una stima consistente della varianza σ 2 (che potra` sostituire USSR / n senza alterare le proprieta` asintotiche dello stimatore) si ottiene dalla stima 2SLS del modello originario; • I valori minimi delle due funzione obiettivo, quando non forniti dal software, si calcolano facilmente considerando la somma dei quadrati dei valori previsti nei modelli di regressione ausiliari y − Xβˆ = Wγ + resid (risp. y − Xβ1 = Wγ + resid ).( 7 ) top Infatti, per il primo modello, il vettore dei valori previsti e` W ( W′W ) −1 W′(y − Xβˆ ) e allora la somma dei quadrati delle sue coordinate e` (y − Xβˆ )′W( W′W) −1 W′W( W′W) −1 W′(y − Xβˆ ) = (y − Xβˆ )′P (y − Xβˆ ) = Q(βˆ ). 7 ( 12 W ) 2 SLS 7-Econometria, a.a. 2014-15 7-5 Il test di Sargan sulle restrizioni di sovraidentificazione Una difficoltà che si presenta nella stima di modelli con variabili endogene tra le variabili indipendenti, e` quella di individuare validi strumenti (cioe` il processo delle variabili strumentali), i quali come e` ben noto devono essere ortogonali (non correlati) agli errori e devono essere sufficientemente correlati con le variabili endogene. Non ci sarebbe alcun problema nel costruire un test sulla assenza di correlazione tra gli strumenti e gli errori, se fossero disponibili le osservazioni degli errori. La usuale strategia di utilizzare i residui, costruiti con uno stimatore consistente, come osservazioni degli errori non e` praticabile nei modelli esattamente identificati, in quanto le k condizioni di ortogonalità (i gradi di liberta`) sono tutte necessarie per la costruzione dello stimatore e quindi dei residui. Nei modelli sovraidentificati delle l condizioni di ortogonalità presenti, soltanto k sono necessarie per stimare il modello, e allora le rimanenti l − k condizioni potranno essere utilizzate (come sara` mostrato) per testare la validità delle condizioni di ortogonalità. Sia yt = x′t β + ut con E(ut | Ω t ) = 0 , t = 1,… un modello econometrico correttamente specificato e sovraidentificato (sia {w t } il processo delle variabili strumentali (dim(w t ) =)l > k = dim(xt )) ), con le usuali ipotesi sul processo { yt , xt , wt } . Soltanto per ragioni di semplicita` inizialmente si assume che gli errori siano omoschedastici e dunque che E(ut2 | Ωt ) = σ 2 per ogni t . Definizione: Il numero intero l − k dicesi grado di sovraidentificazione del modello. Osservazione: Nel processo di stima 2SLS si utilizzano le k variabili strumentali la cui matrice delle osservazioni è PW X . Sia W ∗ una matrice n × (l − k) ortogonale a PW X (di dimensione n × k ) tale che S ( W) = S ( PW X, W∗ ) e si denoti con {w ∗t } il processo che ha W∗ come matrice delle osservazione( 8 ). La restrizione di sovraidentificazione diventa allora E(ut | w ∗t ) = 0 ( ⇒ E(w ∗t ut ) = 0 ) . L’ipotesi di sovraidentificazione, sulla quale si vuole costruire il test, puo` essere formulata nel modo seguente: a) ⎧⎪ H 0 : le componenti di {w t } sono tutte esogene , ⎨ ⎪⎩ H1 : j ( ≤ l − k ) componenti di {w t } sono endogene o in forma più debole E` importante segnalare che, come si potra` osservare nel seguito, la rappresentazione della matrice W∗ non sara` utilizzata. (8) 13 7-Econometria, a.a. 2014-15 ⎧ H 0 : E(w ∗t ut ) = 0 ( ⇔ E(w t ut ) = 0 ) . ⎨ ∗ ⎩ H1 : E(w t ut ) ≠ 0 b) Costruzione della statistica di Sargan: Osservazione: Se fossero disponibili le osservazioni di w ∗t e di ut , la statistica “ distanza (pesata) da 0 del parametro empirico 1 n ∗ w t ut (= n −1 ( W* )′ u) di E(w ∗t ut ) ” consentirebbe di costruire un ∑ n t =1 test, pero` la costruzione della matrice delle osservazioni di w ∗t e` abbastanza costosa numericamente, mentre le osservazioni sugli errori non sono disponibili. Il primo inconveniente si supera facilmente utilizzando w t al posto di w ∗t (vedi l’equivalenza in b) per l’ipotesi H 0 ), mentre il secondo inconveniente si supera, in modo ormai standard, sostituendo gli errori con i residui. Si considera la statistica ⎛ W′W ⎞ n ( n W′uˆ )′ ⎜ σˆ 2 ⎟ n ⎠ ⎝ −1 −1 ⎛ uˆ ′PW uˆ Qn (βˆ 2 SLS ) ⎞ n ( n −1W′uˆ ) ⎜ = = ⎟⎟ ⎜ σˆ 2 σˆ 2 ⎝ ⎠ denominata statistica di Sargan. Proposizione: La statistica di Sargan, nell’ipotesi H 0 , converge in distribuzione verso una χ l2− k . Dimostrazione: Essendo p ⎡1 n ⎛ W′u ⎞ ⎤ d 2 2 W′W ˆ ( 0 , Σ ) n ⎢ ∑ w t ut ⎜ = → N σ e σ → σ 2 Σ w (il vettore w ⎟⎥ n n n ⎝ ⎠⎦ ⎣ t =1 w t ha dimensione l ) si ha ⎛ W′W ⎞ n ( n −1Wu )′ ⎜ σˆ 2 ⎟ n ⎠ ⎝ −1 n ( n −1Wu ) → χ l2 ; d inoltre, poiche` i residui sono stati costruiti utilizzando la stima consistente di un parametro vettoriale di dimensione k , si ha ⎛ W′W ⎞ n ( n Wuˆ )′ ⎜ σˆ 2 ⎟ n ⎠ ⎝ −1 −1 n ( n −1Wuˆ ) → χ l2− k . d Gli argomenti che giustificano l’ultima affermazione non sono stati riportati perché sono essenzialmente di natura tecnica, comunque una prova indiretta è data in ii) della osservazione che segue. La stessa procedura e` stata utilizzata in 7-7 per individuare la distribuzione asintotica della statistica di Hansen. Il test di Sargan (con livello di significatività α ): “Si rifiuta l’ipotesi H 0 se Qn (βˆ 2 SLS ) / σˆ 2 > χ l2− k ,1−α ”. 14 7-Econometria, a.a. 2014-15 Osservazione: i) La procedura ora descritta è valida anche in ipotesi di eteroschedasticità, con la sola variante di dover utilizzare lo stimatore di White per la stima della varianza asintotica, Σuw = E(ut2 w t w′t ) , di 1 n ∑ w t ut . Naturalmente in tal caso non sara` piu valida la rappresentazione della statistica di n t =1 Sargan mediante la funzione obiettivo. ii) La statistica di Sargan (in ipotesi di omoschedasticita`) coincide con la statistica utilizzata nella verifica della ipotesi ⎧ H 0 : yt = x′t β + ut , E(ut | w t ) = 0 ⎨ * ⎩ H1 : yt = x′t β + w t γ + ut , E(ut | w t ) = 0 c) che si puo` scrivere anche nella forma ⎧H0 : γ = 0 per il modello yt = x′t β + w*t γ + ut , E(ut | w t ) = 0 ; ⎨ ⎩ H1 : γ ≠ 0 d) (ricordare che il test su ques’ultima ipotesi, se gli errori sono omoschedastici, utilizza la statistica differenza dei valori minimi delle funzioni obiettivo del modello ridotto e di quello non ridotto diviso per la stima della varianza; vedi l’ultima osservazione in 7.4). Infatti il modello yt = x′t β + w ∗t γ + ut , nell`ipotesi E(ut | w t ) = 0 , è esattamente identificato ( 9 ) e dunque il valore della corrispondente funzione obiettivo nella stima IV è 0,( 10 ) mentre il valore della funzione obiettivo per il modello ridotto è Qn (βˆ 2 SLS ) . iii) La statistica di Sargan coincide con il parametro nR 2 ( = n [ ESS / TSS ]) del modello uˆ = Wb + error (come al solito R 2 = Rc2 quando nel modello e` presente l’intercetta). La prova è immediata non appena si costruisce il test con il modello IVGNR per l’ipotesi H0 : γ = 0 . iv) Vari autori suggeriscono di realizzare sempre il precedente test, in presenza di sovraidentificazione. Segnalano anche un usuale errore nella interpretazione dell’esito del test; più precisamente, il rifiuto dell’ipotesi nulla (rifiuto della restrizione di sovraidentificazione) può avere origine da una delle seguenti situazioni (che sono rispettivamente l’interpretazione dell’ipotesi H1 nelle precedenti due ipotesi statistiche b) e d) che portano alla costruzione del test di Sargan): − Il modello è correttamente specificato, ma alcuni strumenti sono correlati con gli errori e quindi (9) (10) Il numero delle variabili endogene presenti nel modello è uguale al numero delle variabili strumentali. ∗ In questo caso è noto il valore della funzione obiettivo, ma non quello della stima in quanto le osservazioni per w t non sono disponibili. 15 7-Econometria, a.a. 2014-15 non sono validi strumenti (decisione che si tende a privilegiare); − Il modello non è correttamente specificato e alcune variabili, utilizzate come strumenti, sono in realtà dei regressori e pertanto andrebbero inserite nell’equazione (decisione che si tende a non prendere in considerazione). top 7-6 Il test di Durbin-Wu-Hausman (sulla presenza di variabili endogene tra i regressori) I metodi descritti finora in questo capitolo sono utili (e necessari) in presenza di variabili endogene tra le variabili indipendenti, ma se così non dovesse essere essi non solo sono inutili ma in un certo senso sono anche dannosi. E` evidente allora l’importanza di poter disporre di opportuni test (uno sara` costruito in questo paragrafo) quando si nutrano dubbi sull’effettiva endogeneità di alcune variabili indipendenti del modello. E` assegnato il modello lineare yt = x′t β + ut con E(ut | Ωt ) = 0 , t = 1,… , assogettato alle seguenti ipotesi • E(ut2 | Ωt ) = σ 2 (omoschedasticita` degli errori); • il processo {w t } delle variabili strumentali ha dimensione l (≥ k = dim {xt }) ) (e non coincide con {xt } ); • per il processo { yt , xt , w t } valgono le usuali ipotesi che assicurano la validita` delle proprietà` asintotiche degli stimatori; e si considera l’ipotesi statistica: ⎧ H 0 : yt = x′t β + ut , E(ut | xt ) = 0 . ⎨ ⎩ H1 : yt = x′t β + ut , E(ut | w t ) = 0 Osservazione: i) Se (tutti) i regressori sono validi strumenti, lo stimtore OLS e` (asintoticamente) il piu` efficiente nella classe degli stimatori ( n − consistenti) costruiti con il metodo dei momenti, e a tale classe appartiene evidentemente lo stimatore 2SLS; ii) Se tra i regressori c’è qualche variabile endogena, allora la stima 2SLS è n − consistente, mentre la stima OLS non è consistente; iii) Dalle precedenti due osservazioni e dal principio di Hausmann (cfr. nota 5 in 6-5) segue var(βˆ 2 SLS − βˆ OLS ) = var(βˆ 2 SLS ) − var(βˆ OLS ) . Al fine di costruire un test sulla precedente ipotesi, le proprietà i) e ii) suggeriscono di utilizzare come statistica la distanza pesata tra i due stimatori, la cui distribuzione asintotica potra` essere 16 7-Econometria, a.a. 2014-15 individuata data la validita` di iii). Si considera allora la statistica di Hausman ( ) H = βˆ 2 SLS − βˆ OLS ⎡ var(βˆ 2 SLS ) − var(βˆ OLS ) ⎤ ⎢⎣ ⎥⎦ −1 (βˆ 2 SLS − βˆ OLS )′ e per essa si puo` dimostrare che (nell’ipotesi H 0 , e quindi nell’ipotesi che tutte le coordinate di x t sono esogene) converge in distribuzione (come è naturale) verso una chi-quadro, ma i suoi gradi di libertà (e qui c’è un elemento di soggettività) sono pari al numero di variabili che non sono certamente esogene. Osservazione: • Per eliminare l’elemento di soggettività nella formulazione del test, alcuni autori suggeriscono di considerare, nella costruzione della statistica H , soltanto le componenti degli stimatori dei parametri relativi alle variabili delle quali non si è certi della effettiva esogeneità. • Non e` difficile provare che il test di Hausman, nella formulazione suggerita dalla precedente osservazione, è identico al test di Durbin-Wu che ora si passa a descrivere (vedi DavidsonMacKinnon, Econometric Theory and Method, pag. 338). Si considera la decomposizione X = [ Z Y ] , essendo Z la matrice delle osservazioni delle variabili certamente esogene e Y la matrice delle osservazioni dei rimanenti repressori, e si ⎧H : δ = 0 verifica l’ipotesi ⎨ 0 per il modello ausiliario ⎩ H1 : δ ≠ 0 y = Xβ + PW Yδ + resid (o equivalentemente y = Xβ + M W Yδ + resid ). top 7-7 Il Metodo dei Momenti Generalizzato (GMM): una breve introduzione La seguente ovvia osservazione suggerisce un percorso alternativo a quello presentato in 7-2 per costruire uno stimatore di β , che come si potra` notare e` molto piu` generale e puo` essere utilizzato in contesti molto diversi da quelli fin qui presi in esame (cfr. nota 1 in 4-1). Osservazione: Lo stimatore βˆ IV (delle variabili strumentali) costruito in 7-1, minimizza la distanza da 0 di 1 n w t ( yt − x′t β) , per qualunque funzione distanza in R k , (in particolare per le distanze ∑ n t =1 definite da una matrice simmetrica definita positiva) in quanto e` uno zero di Il modello, le notazioni e lo stimatore GMM: E` assegnato il modello 17 1 n ∑ w t ( yt − x′t β) . n t =1 7-Econometria, a.a. 2014-15 yt = x′t β + ut con E(ut | Ωt ) = 0 e sia {w t (∈ Ωt )} il processo delle variabili strumentali di dimensione l > k (dunque il modello e` sovraidentificato). Si pone g (xt , w t , β) = w t ( yt − x′t β) e g n (β) = ∂ [ g n (β) ] =− ∂β ( l×k ) ( ˆ (n) Sia Ω 1 n ∑ g(xt , w t , β) per ogni n e si osserva che n t =1 1 n W′X ⎞ ⎛ w t x′t ⎜ = − ∑ ⎟. n t =1 n ⎠ ⎝ ) ˆ ( n ) che una sequenza di matrici simmetriche definite positive di ordine l , con Ω n ˆ =Ω ˆ ( n ) , si considera il funzionale (funzione dipende eventualmente da { yt , xt , w t }t =1,…, n e posto Ω obiettivo) ˆ ) = n [ g (β)]′ Ω ˆ [ g (β)] . J n (β, Ω n n ˆ ) ha un unico punto di minimo, βˆ (Ω ˆ ) (∈ R k ) , allora esso dicesi Definizione: Se la funzione J n (β, Ω stima GMM di β relativa alla matrice Ω̂ . Osservazione: • • ˆ ) (per un fissato n ) esiste se e soltanto se J (β, Ω ˆ ) ha un unico punto stazionario; βˆ (Ω n ˆ )⎤ ∂ ⎣⎡ J (β, Ω ⎦ ∂β ⎡1 n ⎤′ ˆ ⎡ 1 n ⎤ w t ( yt − x′t β) ⎥ = 0 = 0 ⇔ ⎢ ∑ w t x′t ⎥ Ω ∑ ⎢ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ ⎤ ⎡1 n ⎤′ ˆ ⎡ 1 n ⎤ ⎡1 n ⎤′ ˆ ⎡ 1 n ′ ′ ⇔ ⎢ ∑ w t x′t ⎥ Ω = w y w x ∑ ∑ t t⎥ t t ⎥ Ω ⎢ ∑ w t xt ⎥ β . ⎢ ⎢ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ • ˆ ) , quando esiste, e la condizione per Dai precedenti due punti segue la rappresentazione di βˆ (Ω la sua esistenza: ⎛ ⎞ ′ ⎡1 n n ⎤⎟ ˆβ(Ω ˆ ) = ⎜ ⎡ 1 w x′ ⎤ Ω ˆ ′ ∑ ∑w x ⎜ ⎣⎢ n t =1 t t ⎦⎥ ⎣⎢ n t =1 t t ⎦⎥ ⎟ ⎝ ⎠ −1 ⎛ 1 n ⎞ ⎡ ⎤′ ˆ ⎡ 1 n ⎤⎟ ′ = β + ⎜ ⎢ ∑ w t x′t ⎥ Ω w x ⎢ ∑ t t ⎥⎟ ⎜ ⎣ n t =1 ⎦ ⎣ n t =1 ⎦ ⎝ ⎠ ˆ ( W′X ) ⎤ = β + ⎡( W′X )′ Ω ⎢⎣ ⎥⎦ −1 ⎛ ⎞ ′ ⎡1 n n ⎤⎟ ˆ ⎜ ⎡ 1 ∑ w t x′t ⎤ Ω ⎥ ⎢ ∑ w t yt ⎥ ⎟ ⎜ ⎣⎢ n t =1 ⎦ ⎦ ⎣ n t =1 ⎝ ⎠ −1 ⎛ 1 n ⎞ ′ ⎡1 n ⎤⎟ ˆ ⎜ ⎡ ∑ w t x′t ⎤ Ω w u ⎥ ⎢n ∑ t t ⎥⎟ ⎜ ⎢⎣ n t =1 ⎦ ⎣ t =1 ⎦ ⎝ ⎠ ( W′X )′ Ωˆ ( W′u ) Ipotesi: Le ipotesi sui processi (da G1 a G3) sono simili a quelle gia` formulate quando sono stati 18 7-Econometria, a.a. 2014-15 introdotti gli altri metodi di stima in questo capitolo, comunque qui sono riportate per completezza. G1 – Il processo {xt , w t , yt } e` stazionario ed ergodico; G2 – (Condizione di identificabilita`) La matrice E(w t x′t ) ( = Σ wx ) di ordine l × k ha rango massimo k (e quindi come gia` osservato nella nota 1 in 7-2) le matrici Σ w ( = E(w t w′t ) ) e Σ x ( = E(xt x′t ) ) sono non singolari); G3 – Il processo {w t ut } e` una differenza maringala e E(ut2 w t w′t ) ( = Σuw ) e` non singolare (e dunque per il teorema del limite centrale G4 – La sequenza ( Ωˆ ) n d 1 n w u → ∑ t t N (0, Σuw ) ); n t =1 converge in probabilità a una matrice Ω (quadrata di ordine l ) (n) n invertibile. ˆ ) : Dalla sua rappresentazione si ottiene immediatamente (gli Proprietà dello stimatore βˆ (Ω argomenti sono del tutto simili a quelli utilizzati precedentemente in varie circostanze) ˆ ) e` consistente; 1) βˆ (Ω 2) ( ˆ )−β n βˆ (Ω ) → N (0, Avar(βˆ (Ωˆ ))) d con ˆ )) = [ Σ′ ΩΣ ]−1 Σ′ ΩΣ ΩΣ [ Σ′ ΩΣ ]−1 , Avar(βˆ (Ω wx wx wx uw wx wx wx per la quale una stima consistente e` immediatamente disponibile non appena si costruisce una stima consistente per Σ wu = E(ut2 w t w′t ) . Osservazione: ˆ )) , con argomenti del tutto simili a quelli adoperati in 3-8, 1) Dalla rappresentazione di Avar(βˆ (Ω segue che essa (come funzione di Ω ) e` minimizzata per Ω = Σu−w1 e il valore minimo e` −1 ⎡⎣ Σ′wx Σu−w1 Σ wx ⎤⎦ , pertanto la costruzione di una stima consistente per Σuw ha un ruolo fondamentale (oltre a quello gia` segnalato) anche nella costruzione di un buon stimatore che e` denominato stimatore GMM efficiente. ( ˆ (n) 2) Considerate le due sequenze Ω ) n ˆ (n) ≡ I e Ω ˆ ( n ) = ⎛ W′W ⎞ con Ω l ⎜ ⎟ ⎝ n ⎠ −1 ( = Σˆ ) rispettivamente −1 w ˆ ) sono entrambi convergono a I l e Σ w−1 e pertanto i corrispondenti stimatori βˆ (Ω inoltre si ha βˆ ( Σˆ −w1 ) ( = ( X′PW X) −1 X′PW y ) = βˆ 2 SLS . 19 n -consistenti 7-Econometria, a.a. 2014-15 Costruzione di una stima consistente di Σuw = E(ut2 w t w′t ) ) e dello stimatore GMM efficiente. Si esaminano i seguenti due casi: Caso a) – Gli errori del modello sono eteroschedastici; Caso b) – Gli errori sono omoschedastici ( E(ut Ωt ) = σ 2 ). ˆ ( n ) ) (uno dei due stimatori costruiti nel punto 2) Caso a) – Sia n un fissato intero, si considera βˆ (Ω ˆ n ) . Con argomenti ormai della precedente osservazione) e si costruiscono i residui uˆt = yt − x′t βˆ (Ω ( ) n ˆ = 1 ∑ uˆ 2 w w′ e` una stima consistente di Σ . standard (cfr. per esempio 3-4) si prova che Σ t t uw t uw n t =1 ˆ −1 ) . Lo stimatore GMM efficiente e` allora βˆ ( Σ uw Caso b) – Ora si ha Σuw ( = E(ut2 w t w′t ) = σ 2 E(w t w′t ) ) = σ 2 Σ w e si vede immediatamente che ( ) ˆ −1 ) = βˆ ( Σ ˆ −1 ) = βˆ βˆ ( Σ uw w 2 SLS . A questo punto e` irrilevante rappresentare la stima consistente di σ 2 Σ w , che peraltro si scrive immediatamente, ma si osserva che (in presenza di omoschedasticita`) si ha ⎛ X′PW X ⎞ Avar(βˆ 2 SLS ) = σˆ 2 ⎜ ⎟ ⎝ n ⎠ −1 e σˆ 2 = 1 n ( yt − x′t βˆ 2 SLS ) 2 . ∑ n t =1 Osservazione: 1) In questo paragrafo non si e` fatto alcun cenno al caso in cui nel processo {w t ut } e` presente l’autocorrelazione. In realtà in questo caso non c’e` alcuna difficoltà aggiuntiva, si dovra` semplicemente sostituire Σuw con Avar(wu ) e stimare quest’ultimo in modo consistente per esempio con lo stimatore di Newey-West (o HAC). 2) I software econometrici nel caso a) utilizzano una procedura ricorsiva; qui e` stato descritto ˆ ( n ) ) e così via. ˆ −1 ) (al posto di βˆ (Ω soltanto il primo passo; nel secondo passo si utilizza βˆ ( Σ uw La statistica di Hansen e il test sulle restrizioni di sovraidentificazione. Essendo ⎡1 n ⎤ ng n (β) = n ⎢ ∑ w t ut ⎥ → N (0, Σuw ) ; ⎣ n t =1 ⎦ • • p ˆ →Σ Σ uw uw ˆ −1 [ g (β)] → χ 2 , n [ g n (β) ]′ Σ uw n l d si ha donde per il valore minimo del funzionale obiettivo (denominato statistica di Hansen) si ha 20 7-Econometria, a.a. 2014-15 ( ) ˆ −1 )) = n ⎡g (βˆ ( Σ ˆ −1 )) ⎤′ Σ ˆ −1 ⎡ g (βˆ ( Σ ˆ −1 )) ⎤ → χ 2 , J n (βˆ ( Σ uw n uw ⎦ uw ⎣ n uw ⎦ l −k ⎣ d (la prova e` omessa, comunque e` opportuno osservare che in quest’ultima rappresentazione si sono persi k gradi di liberta` pari al numero di parametri stimati (in modo consistente)). ˆ −1 )) , per Test di Hansen (sulle restrizioni di sovraidentificazione): Un elevato valore di J n (βˆ ( Σ uw esempio J n (βˆ ( Σˆ u−w1 )) > χ l2− k ,1−α (per un α assegnato), deriva certamente da un eventuale errore di specificazione, in particolare dalla non ortogonalità di qualcuno degli l strumenti se si e` certi della top validità delle altre ipotesi. 7-8 Proprieta` finite degli stimatori IV: un esercizio Sull’argomento “proprieta` finite degl stimatori IV”, comunque di grande interesse, ci sono soltanto risultati parziali e relativamente complessi. Il seguente esempio, preso da Davidson & MacKinnon, Econometric Theory and Methods, ha il solo scopo di lasciare intuire cosa puo` accadere agli stimatori IV in presenza di campioni finiti (di dimensione non sufficientemente grande). Sia {wt } un processo (non e` necessaria alcuna ipotesi su di esso fin quando interessano le proprietà` finite degli stimatori, che saranno sempre condizionate a {wt } ), {ut , vt } un processo di variabili indipendenti, tutte con distribuzione bivariata normale con media nulla ( E(ut ) = E(vt ) = 0 ), varianza unitaria ( var(ut ) = var(vt ) = 1 ) e coefficiente di correlazione ρ ( = corr(ut , vt ) ) , e indipendente dal processo, e si considera il DGP { yt , xt , wt } per il quale ⎧ yt = β xt + σ u ut , ⎨ ⎩ xt = π wt + σ v vt e` un suo modello completamente specificato. Problema: Fissato n intero naturale e un processo delle osservazioni {wt }t =1,…,n , considerato lo stimatore lo stimatore di β (al variare del parametro ρ ∈ ]−1,1[ ) che ha buone proprieta` asintotiche, individuare (alcune) sue proprieta` quando lo si considera condizionato a w = ( w1 ,… wn )′ (come funzione di x = ( x1 ,… , xn )′ e y = ( y1 ,… , yn )′ ). Soluzione: Si esaminano separatamente i casi ρ = 0 e ρ ≠ 0 . Primo caso ( ρ = 0 ): Il vettore x e` strettamente esogeno, allora lo stimatore (efficiente) di β e` lo stimatore OLS (che e` indipendente da w ) per il quale sussistono (tra le altre) le seguenti proprietà: 21 7-Econometria, a.a. 2014-15 i) ( ) E( βˆ x) = β ⇒ E( βˆ ) = β ; ii) βˆ x ∼ N ( β ; σ u2 ( x′x) −1 / n) ; Secondo caso ( ρ ≠ 0 ): Osservazione: • Si ha ut = ρ vt + ε t con E(ε t vt ) = 0 (ovvia conseguenza della normalita` della variabile (ut , vt ) ) e dalla indipendenza delle variabili del processo segue E(ε v) = 0 . • Nella prima equazione la variabile xt e` endogena ( E( xt ut ) = E [ (π wt + σ v vt )ut ] = σ v ρ ( ≠ 0 ) ) e wt e` un valido strumento (e` correlata con xt e non correlata con ut ). In questo caso uno stimatore di β , con buone proprieta` asintotiche, si costruisce con il metodo delle variabili strumentali. Per non appesantire le notazioni, si pone β = βˆIV w e allora si ha β = ( w ′x ) w′y = β + σ u ( w′x ) w′u −1 −1 (notare che w e` un vettore costante e che se moltiplicato per 1/(w ′w )1/ 2 , la rappresentazione di β non cambia, pertanto si puo` si puo` assumere che w ′w = 1 ), donde, utilizzando la rappresentazione xt e ut , si ha β = β + σ u ( w′(π w + σ v v) ) w′u = β + −1 σ u w′( ρ v + ε) . π + σ v w′v Le proprietà` statistiche dello stimatore β . Osservazione: Intanto essendo x combinazione lineare di v si ha β x = β v , inoltre • dalla rappresentazione di β , essendo E(ε v) = 0 , si ha ⎡ σ ρ w ′v ⎤ σ u ρ z v⎥ = E ( β x) − β ⎡ = E ( β v ) − β ⎤ = E ⎢ u ⎣ ⎦ ⎣ π + σ v w ′v ⎦ σ v a + z ( ) ( ) avendo posto z = w ′v e a = π / σ v . • La variabile z , in quanto combinazione lineare della normale multivariata v (non dimenticare che qui w e` un vettore costante di norma 1), ha distribuzione normale, inoltre si ha E( z ) = w′E( v) = 0 e var( z ) ( = w′ var( v)w = w′I n w ) = 1 . Ora se esistesse il valore atteso di β , denotata eon ϕ ( z ) la densita` della normale standard, si avrebbe 22 7-Econometria, a.a. 2014-15 σ ρ E( β − β ) = E ⎡ E ( β v) − β ⎤ = u ⎣ ⎦ σ ( ) v +∞ z ∫ a + z ϕ ( z )dz , −∞ ma quest’ultimo integrale non esiste (osservare che z = − a e` una singolarita` del prim’ordine per la funzione integranda), pertanto lo stimatore β non ha valore atteso. Osservazione: Qui non ci sono informazioni sulla distribuzione di β che evidentemente non puo` essere una di quelle note; una sua versione empirica puo` essere individuata con il metodo di Monte Carlo in quanto il modello e` completamente specificato. top 23