7-Econometria, a.a. 2014-15
Capitolo 7
7-1 Modelli econometrici con variabili endogene (tra le variabili indipendenti)
7-2 Il metodo (di stima) delle variabili strumentali
7-3 Lo stimatore 2SLS
7-4 Test sulle ipotesi: il modello IVGNR
7-5 Il test di Sargan sulle restrizioni di sovraidentificazione
7-6 Il test di Durbin-Wu-Hausman (sulla presenza di variabili endogene tra i regressori)
7-7 Il Metodo dei Momenti Generalizzato (GMM): una breve introduzione
7-8 Proprieta` finite degli stimatori IV: un esercizio
7-1 Modelli econometrici con variabili endogene (tra le variabili indipendenti)
Nei metodi di stima finora presentati, per i modelli lineari (risp. non lineari) del tipo
yt = x′t β + ut (risp.
yt = xt (β) + ut ), l’ipotesi sugli errori E(ut | xt ) = 0 , ha avuto un ruolo
fondamentale. Essa era ottenuta come conseguenza di E(ut | Ωt ) = 0 e xt ∈ Ωt . La prima condizione
esprime la circostanza che il modello e` correttamente specificato, la seconda che le variabili
indipendenti presenti nel modello sono esogene o predeterminate.
Qui di seguito sono presentate tre (differenti) situazioni, abbastanza frequenti nelle applicazioni,
che portano in modo naturale alla endogeneità di alcune variabili indipendenti di un modello
correttamente specificato.
1 – Errori nelle variabili: Si assume che il modello corretamente specificato sia
yt0 = β 0 + β1 xt0 + ut0 ,
ut0 ∼ i.i.d .(0, σ 2 ) ,
ma che il processo delle osservazioni { yt , xt } verifichi le seguenti condizioni:
yt = yt0 + vt , xt = xt0 + wt ,
con {vt } e {wt } processi i.i.d . , indipendenti tra loro e indipendenti da {ut0 } . Allora il modello
econometrico per il DGP è
yt = β 0 + β1 xt + ut0 + vt − β1wt (= β 0 + β1 xt + ut ) ,
e si verifica senza alcuna difficoltà che mentre vt (l`errore sulla variabile dipendente) ha il solo
effetto di aumentare la varianza degli errori e dunque di peggiorare la precisione della stima dei
parametri, wt introduce una correlazione tra l’errore ut e la variabile indipendente xt , che (come è
ben noto) ha come grave conseguenza la non consistenza delle stime (o equivalentemente la non
identificabilità del modello). La presenza dell’endogeneità indotta dgli errori sulle osservazioni è
1
7-Econometria, a.a. 2014-15
abbastanza naturale nei modelli econometrici in quanto i dati a disposizione sono di natura non
sperimentale, ma spesso è trascurata.
2 – Omissione di variabili rilevanti: L’omissione di una variabile rilevante in un modello, e quindi
il suo inserimento nell’errore, (talvolta tale omisssione è obbligata per la mancanza di osservazioni
su di essa) quando e` correlata con qualche altra variabile indipendente, rende endogene queste
ultime. Una situazione del tipo ora descritta è già apparsa in 6.2, dove e` stata proposta una
procedura di stima che sfrutta la struttura Panel dei dati. Va ribadito, come e` stato gia` detto nella
nota conclusiva del paragrafo 6.3, che tali stime sono esattamente le stesse di quelle che si
ottengono con i metodi che saranno presentati in questo capitolo.
3 – Simultaneità: La seguente ovvia affermazione “La dipendenza funzionale di una variabile da
un’altra non implica la dipendenza causale in una delle due direzioni”, giustifica la seguente
Definizione: Due variabili (economiche) si dicono simultanee se tra esse c’è una dipendenza
funzionale (implicita oppure esplicita) e non c’è alcuna dipendenza causale.
In definitiva in ogni modello (univariato) in cui sono presenti due o più variabili simultanee, tra
le variabili indipendenti c’è necessariamente qualche variabile endogena. Va segnalato che in
generale non è facile stabilire la eventuale simultaneità di due variabili.
Il seguente esempio chiarisce la situazione ora descritta e fornisce qualche idea su come
affrontare il problema della stima.
Esempio (Il modello per un mercato competitivo di un bene): Uno dei primi modelli presentati
nel corso di microeconomia è quello relativo al mercato di un bene, in cui si assume che sussista
una dipendenza lineare tra quantità e prezzo. Naturalmente la rappresentazione analitica della
relazione funzionale è differente (almeno nelle restrizioni sui parametri) a seconda che tale
relazione è vista dal lato della domanda o da quello dell’offerta. Si ha infatti:
⎧ q s = α1 + α 2 p (equazione dell'offerta)
, con α 2 > 0 e β 2 < 0 ,
⎨ d
⎩q = β1 + β 2 p (equazione della domanda)
inoltre, in un mercato competitivo, si può assumere che forze interne al mercato spingono verso
l’equilibrio e dunque deve aversi q s = q d (= q ) . Ora se sono disponibili n osservazioni (qt , pt )
(notare che qt è la quantità di equilibrio) il modello econometrico si può scrivere nella forma
(*)
⎧ qt = α1 + α 2 pt + ut
⎨
⎩qt = β1 + β 2 pt + vt
(equazione dell'offerta)
(equazione della domanda)
e la richiesta legittima (e certamente di grande interesse) è quella di stimare i parametri del modello.
Risolvendo il precedente sistema rispetto a pt e qt si ha
2
7-Econometria, a.a. 2014-15
β − α1 vt − ut
⎧
pt = 1
+
⎪
α2 − β2 α 2 − β2
⎪
;
⎨
⎪ q = α 2 β1 − α1β 2 + α 2 vt − β 2ut
⎪⎩ t
α 2 − β2
α 2 − β2
dalla prima uguaglianza si deduce immediatamente che, salvo casi eccezionali e poco significativi,
la variabile pt (essendo correlata sia con ut che con vt ) è endogena in ciascuna delle due equazioni
in (*) e pertanto nessuna delle due equazioni è in grado di fornire stime consistenti dei parametri
(naturalmnete con i metodi a disposizione fino a questo momento e come si vedrà con nessun altro
metodo se non sono disponibili altre informazioni).
Si assume ora, che un’attenta analisi del mercato porti alla seguente specificazione
dell’equazione della domanda
(qtd =)qt = β1 + β 2 pt + β 3 xt + vt ,
con xt variabile esogena (per esempio xt potrebbe tener conto di eventuali interventi del governo
per sostenere la domanda) e quindi non correlata con gli errori (delle due equazioni). Questa volta
risolvendo rispetto a pt e qt si ha
β3
v −u
β −α
⎧
pt = 1 1 +
xt + t t
⎪
α 2 − β2 α2 − β2
α2 − β2
⎪
,
⎨
⎪q = α 2 β1 − α1β 2 + α 2 β 3 x + α 2 vt − β 2ut
⎪⎩ t
α 2 − β2
α 2 − β2 t
α 2 − β2
ed essendo evidentemente xt non correlata con gli errori, entrambe le equazioni (di quest’ultimo
modello) consentono di stimare in modo consistente i parametri, in particolare i coefficienti di xt e
quindi il loro rapporto, che è evidentemente uguale a α 2 .
Osservazione: Nella procedura ora descritta sembra avere un ruolo fondamentale la specificazione
dell’equazione della domanda (e in particolare il modo con il quale xt agisce su qt (= qtd ) ) ma il
seguente argomento mostra che non è così; ciò che conta è che xt sia esogena nell’equazione
dell’offerta e che essa sia correlata con qt . Infatti, se si considera l’aspettazione nell’equazione
dell’offerta si ottiene
E(qt ) = α1 + α 2 E( pt ) ,
mentre (sempre nell’equazione dell’offerta) se si moltiplica per xt e si calcola l’aspettazione, si
ottiene
E(qt xt ) = α1E( xt ) + α 2 E( pt xt ) ,
e dunque, se e` cov( xt , pt ) [ = E( xt pt ) − E( xt )E( pt )] ≠ 0 , si ha
3
7-Econometria, a.a. 2014-15
1
E(qt )
E( xt ) E( xt qt )
α2 =
,
1
E( pt )
E( xt ) E( xt pt )
la cui versione empirica e` evidentemente la stima trovata precedentemente.
top
7-2 Il metodo (di stima) delle variabili strumentali
Sia { yt , xt }t =1,… un D.G.P. e
yt = x′t β + ut con E(ut | Ωt ) = 0 ,
un suo modello lineare correttamente specificato (si noti che qui non si richiede che xt ∈ Ωt ); si
segnala che qui si fa riferimento a dati del tipo time-series, naturalmente l’adattamento delle ipotesi
e dei risultati ai dati del tipo cross-section non presenta alcun particolare problema.
Ipotesi sul modello (l’elenco sarà aggiornato quando se ne presenta la necessità):
IV-1) Esiste un processo vettoriale {w t } di dimensione k , con w t ∈ Ωt , (che verifica alcune
ragionevoli condizioni che saranno rese esplicite in seguito) e per il quale, fissato n ∈ N , sono
disponibili le osservazioni per t = 1,… , n ; con W si denota la matrice ( n × k ) delle osservazioni. I
processi, con le precedenti caratterisiche, sono denominati processi degli strumenti.
Osservazione: L’uguaglianza E(w t ut ) = 0 (che è conseguenza di E(ut | Ωt ) = 0 ) porta, come ormai
e’ solito, a considerare la sua versione empirica, e dunque l’equazione (vettoriale in R k ) con k
incognite
1 n
∑ w t ( yt − x′t β) = 0 ( ⇔ W′(y − Xβ) = 0 ) .
n t =1
(*)
Definizione: L’unica (eventuale) soluzione dell’equazione (*) dicesi stima di β con il metodo
delle variabili strumentali e sara` denotata con il simbolo βˆ IV (si omette di evidenziare nella
notazione la dipendenza da w t che peraltro e` rilevante).
Al fine di assicurare non solo l`esistenza di βˆ IV , ma anche la validità di alcune buone proprietà
statistiche, sono naturali le seguenti ulteriori ipotesi sul processo { yt , xt , w t } :
IV-2)
n
p
{ yt , xt , wt } è un processo stazionario ed ergodico (da cui ∑ w t x′t → Σwx (= E(w t x′t ) ));
n
1
t =1
4
7-Econometria, a.a. 2014-15
IV-3) (Condizione di identificabilita`) La matrice (quadrata di ordine k ) Σ wx è invertibile( 1 )
(conseguentemente anche le matrici Σ w ( = E(w t w′t ) ) e Σ x ( = E(xt x′t ) ) sono invertibili( 2 )).
IV-4) Il processo {w t ut } è una differenza martingala, ( 3 ) o piu` in generale e` valida qualche
versione del teorema del limite centrale. ( 4 )
(
n wu
Osservazione: Da IV-4 e dal teorema del limite centrale, segue
) → N (0, Avar(wu)) con
d
1 n
⎧
2
2
p
lim
⎪ n→∞ n ∑ w t w′t ut (= E(ut w t w′t ) = Σuw ) se {w t ut } e` non correlato,
⎪
t =1
.
Avar(wu ) = ⎨ +∞
⎪ ∑ Γ , con Γ = E(w w′ u u ) se {w u } e` autocorrelato (cfr. 3 - 9, prop. 2).
j
t t− j t t− j
t t
⎪⎩ j =−∞ j
Rappresentazione e proprietà dello stimatore βˆ IV : La prova non e` riportata in quanto non
differisce da quella delle corrispondenti proprieta` degli stimatori OLS (cfr. 3-3).
−1
−1
⎛1 n
⎞ 1 n
⎛1 n
⎞ 1 n
1) βˆ IV = ⎜ ∑ w t x′t ⎟
w t yt = β + ⎜ ∑ w t x′t ⎟
∑
∑ w t ut
⎝ n t =1
⎠ n t =1
⎝ n t =1
⎠ n t =1
(o equivalentemente, se si
utilizza la rappresentazione matriciale del modello, βˆ IV = ( W′X) −1 W′y = β + ( W′X) −1 W′u ));
2) βˆ (= βˆ IV ) è consistente; (segue dalle sole ipotesi IV-1 e IV-2);
3)
n (βˆ − β) → N (0, Avar(βˆ )) con Avar(βˆ ) = ( Σ wx ) Avar(w u ) ( Σ′wx )
d
−1
−1
(segue da IV-3 con i
soliti argomenti);
( )
4) Avar(βˆ ) = Σ wx
(1)
−1
( )
Avar(wu ) Σ′wx
−1
, dove Avar(wu ) =
1 n
∑ w t w′t uˆt2 con uˆt = yt − x′t βˆ IV e
n t =1
In sostanza si richiede che la matrice quadrata cov(x, w ) sia invertibile; infatti se una delle due variabili ha media
nulla si ha cov(x, w ) = Σ wx , mentre se entrambe le variabili hanno 1 come prima coordinata, un semplice calcolo mostra
che le due matrici hanno lo stesso determinante.
(2)
Si comincia con l’osservare che se c ∈ R k , c ≠ 0 si ha (omettendo gli indici) E(c′wx′) = 0 ( ⇒ c′E(wx′) = 0 ) ⇒ c = 0 .
(
Ora se fosse Σ w singolare esisterebbe c ∈ R k , c ≠ 0 tale che E [c′ww′c] = 0 ⇔ E ⎡( c′w )2 ⎤ = 0
⎣
⎦
quindi E(c′wx′) = 0 , che e` assurdo.
(3)
E` utile ricordare che una condizione sufficiente perche`
{w t ut }
) donde c′w = 0 e
sia una differenza martingala e`
E(ut | w t , ut −1 , w t −1 ,…) = 0 .
(4)
In presenza di autocorrelazione negli errori, tra le coordinate di w t non ci possono essere ritardi della variabile
dipendente, che invece possono trovarsi tra le coordinate di x t .
5
7-Econometria, a.a. 2014-15
Σ wx =
1 n
⎛ W′X ⎞
ˆ
w t x′t ⎜ =
∑
⎟ . Tale stimatore per la varianza asintotica di β IV dicesi stimatore di
n t =1
n ⎠
⎝
White (o stimatore robusto all’eteroschesaticità (HC))
5) Se gli errori sono omoschedastici (cioè E(ut2 | Ωt ) = σ 2 e quindi anche E(ut2 | w t ) = σ 2 ), si
1 n
⎛
⎞
⎛1 n
⎞
ha Avar(wu ) = σ 2 ⎜ p lim ∑ w t w′t ⎟ = σ 2 E(w t w′t )(= σ 2 Σ w ) e Avar(wu ) = σˆ 2 ⎜ ∑ w t w′t ⎟ con
n t =1
⎝
⎠
⎝ n t =1
⎠
σˆ 2 =
1 n 2
∑ uˆt , e allora dalla precedente proprietà 4 segue
n t =1
( )
Avar(βˆ ) = σˆ 2 Σ wx
−1
( )
Σ w Σ′wx
−1
.
Osservazione:
−1
1) La rappresentazione della varianza asintotica di βˆ IV , in particolare la presenza di ( Σ wx ) ,
mostra che la elevata correlazione tra
wt e
x t influenza positivamente la efficienza dello
stimatore.
2) La procedura ora descritta lascia non risolti i seguenti due problemi
•
individuare (almeno) un processo degli strumenti;
•
effettuare una ragionevole scelta in presenza di piu` processi degli strumenti.
top
7-3 Il metodo dei minimi quadrati a due stadi (2SLS)
Si fa sempre riferimento al modello considerato in 7-2, e dunque a
yt = x′t β + ut con E(ut | Ωt ) = 0 .
Definizione: Dicesi processo delle variabili strumentali del modello, il processo vettoriale {wt }
(di dimensione l ) sufficientemente rappresentativo di Ωt .
E` doveroso segnalare che non ci sono procedure standard e univoche che portano ad
individuare il processo delle variabili strumentali, e` allora fondamentale sia la conoscenza del
problema economico, sia l’esperienza; comunque di tale processo fanno certamente parte le
coordinate di x t (che si ritengono) esogene (la motivazione di quest’ultima affermazione e`
rinviata). Va comunque segnalato, anche se raramente ha una effettiva utilita`, che se xt ∈ Ωt ogni
sua trasformazione non lineare e ogni suo ritardo appartengono a Ω t , inoltre ad Ω t appartengono i
ritardi di yt nel caso in cui gli errori sono non correlati.
6
7-Econometria, a.a. 2014-15
D’ora innanzi si assume che e` disponibile il processo delle variabili strumentali
{w t }
di
dimensione l (del quale naturalmente e` diponibile il processo delle osservazioni).
Definizione: Il modello si dice
a) sottoidentificato se l < k ;
b) esattamente identificato se l = k ;
c) sovraidentificato se l > k .
Nel caso a) non e` possibile costruire uno stimatore consistente di β (a meno che non si
impongano delle restrizioni sui parametri), mentre nel caso b) il metodo delle variabili strumentali,
descritto in 7-2, consente la costruzione di uno (solo) stimatore consistente di β . Nel caso c),
sembra che il problema sia quello di dover scegliere opportunamente k strumenti tra gli l (> k )
disponibili.
Qui si descrive una procedura per la costruzione di uno stimatore nei modelli sovraidentificati
che, almeno in alcuni casi, e` il piu` efficiente; in 7-5 e` presentato un differente e piu` generale
approccio al metodo di stima che lascia intravedere percorsi per ulteriori generalizzazioni.
Ipotesi (sul modello e sul processo delle variabili strumentali): Sono valide le ipotesi da IV-2) a
IV-4) di 7-2, con la ovvia modifica in IV-3) dove la matrice Σ wx , che ora ha dimensione l × k , deve
avere rango (massimo) k ; qui pero` si deve richiedere che la matrice Σ w (quadrata di ordine l ) e`
invertibile.
Descrizione della procedura. La costruzione si sviluppa in due passi il primo dei quali seleziona
un processo degli strumenti (di dimensione k ). La bonta` della stima ottenuta e` verificata a
posteriori quando si mostra la sua efficienza almeno in un caso particolare. In realtà c’e` anche una
giustificazione a priori presentata brevemente nella nota in basso.( 5 )
Primo Passo (costruzione della matrice delle osservazioni di k strumenti): Intanto sia n ∈ N
sufficientemente grande, si denoti con W la matrice delle osservazioni di w t (le l variabili
( n×l )
5
La osservazione 1 che chiude il paragrafo 7-2, suggerisce come scelta per il processo degli strumenti x∗t = E(xt w t ) ,
per la quale pero` non sono disponibili le osservazioni (non e` infatti nota la sua rappresentazione analitica come
funzione di w t ). Se invece E(xt w t ) fosse lineare (in w t ) (in sostanza si fa questa ipotesi) allora i coefficienti
potrebbero essere stimati (in modo consistente) con il metodo dei minimi quadrati e allora la sua matrice delle
osservazioni sarebbe PW X .
7
7-Econometria, a.a. 2014-15
strumentali del modello) e sia
ˆ = P X(= W ( W′W ) −1 W′X)) ;
X
W
( n× k )
essa sarà utilizzata come matrice delle osservazione del processo degli strumenti nel secondo passo.
Osservazione: Ciascuna colonna di X̂ è il vettore dei valori previsti nella stima OLS della
corrispondente colonna di X su W . Evidentemente le colonne di X che sono anche colonne di
W rimangono inalterate e quindi si ritrovano in X̂ .
Secondo Passo (stima con il metodo delle variabili strumentali): Con il metodo delle variabili
strumentali descritto in 7-2, con X̂ come matrice delle osservazione del processo degli strumenti
(dopo aver osservato che sono evidentemente soddisfatte tutte le ipotesi richieste al processo degli
strumenti), si costruisce lo stimatore di β , denominato stimatore delle variabili strumentali
generalizzato, che e` denotato con il simbolo βˆ GIV ; pertanto (vedi la proprieta` 1 in 7.2) si ha
−1
⎛
⎞
βˆ GIV ⎜ = ⎡( PW X )′ X ⎤ ( PW X )′ y ⎟ = ( X′PW X) −1 X′PW y (= β + ( X′PW X) −1 X′PW u) .
⎢
⎥⎦
⎝ ⎣
⎠
Si osservi che la matrice X′PW X (per n sufficientemente grande) e` invertibile in quanto le matrici
X′W e W ′X sono entrambe di rango massimo k .
Osservazione: Essendo PW = PW PW e PW = PW′ , dalla precedente rappresentazione di βˆ GIV segue
immediatamente che esso si ottiene anche come stima OLS dal modello di regressione
y = PW Xβ + resid .
La procedura che ha portato alla costruzione dello stimatore βˆ GIV , giustifica la terminologia
ormai di uso comune, introdotta nella seguente
Definizione: Lo stimatore βˆ GIV dicesi Stimatore dei Minimi Quadrati a Due Stadi (brevemente
2SLS o TSLS) ed e` denotato piu` frequentemente con il simbolo βˆ 2 SLS .
Osservazione: Se e` l = k si ha βˆ 2 SLS = βˆ IV . E` sufficiente osservare che nella rappresentazione di
βˆ 2 SLS le matrici W ′X e X′W sono (quadrate e) invertibili.
Proprietà dello Stimatore βˆ 2 SLS : Sono le stesse proprietà elencate in 7-2 per lo stimatore βˆ IV , si
deve soltanto tener presente che il processo degli strumenti ora e` xˆ t la cui matrice delle
(
ˆ = P X = W ( W′W )−1 W′X = WJ
osservazioni e` X
W
W
8
)
o se si vuole definita da xˆ t = J ′W w t , con
7-Econometria, a.a. 2014-15
J W = ( W′W ) W′X . In particolare si ha (si omette l’indice 2SLS )
−1
( l ×k )
ˆ con Avar(βˆ ) = ( Σ )−1 Avar(xˆ u ) ( Σ′ )−1 ;
n (βˆ − β) → N (0, Avar(β))
ˆ
ˆ
xx
xx
d
•
( )
−1
( )
Avar(xˆ u ) Σ′xx
ˆ
−1
⎛ 1 n
⎞ X′PW X
1 n
xˆ t x′t ⎟ =
xˆ t xˆ ′t uˆt2 , Σ xx
;
∑
∑
ˆ ⎜=
n
n t =1
⎝ n t =1
⎠
•
Avar(βˆ ) = Σ xx
ˆ
•
Se gli errori sono omoschedastici (cioè E(ut2 | Ωt ) = σ 2 ), essendo Σ xx
ˆ =
, Avar(xˆ u ) =
( )
Avar(βˆ ) ⎛⎜ = σˆ 2 Σ xx
ˆ
⎝
−1
( )
Σ xˆ Σ′xx
ˆ
−1
X′PW X
= Σ xˆ si ha
n
−1
⎞ = σˆ 2 ⎛ X′PW X ⎞ .
⎟
⎜ n ⎟
⎠
⎝
⎠
Nella seguente proposizione si trova una giustificazione (a posteriori) della scelta del processo
degli strumenti per la costruzione dello stimatore di β .
Proposizione: Fermo restando le ipotesi che consentono la costruzione dello stimatore 2SLS, si
assume ulteriormente E(ut2 | Ωt ) = σ 2 , (omoschedasticità condizionata degli errori). Allora lo
stimatore βˆ 2 SLS è efficiente nella classe degli stimatori costruiti con il metodo delle variabili
strumentali, il cui processo ( k dimensionale) degli strumenti è combinazione lineare del processo
( l dimensionale) delle variabili strumentali.( 6 )
Dimostrazione. Si segnala che la prova e` del tutto simile a quella che mostra che la stima OLS, in
presenza di omoschedasticita`, e` la piu` efficiente (asintoticamente) nella classe degli stimatori con
il metodo dei momenti (cfr. 3-8).
Le stime della varianza asintotica degli stimatori βˆ IV (w t( J ) ) e βˆ 2 SLS sono rispettivamente
σˆ
2
(Σ )
w( J )x
−1
(
Σ w( J ) Σ′w( J ) x
)
−1
−1
⎛ J ′W′X ⎞ ⎛ J ′W′WJ ⎞ ⎛ X′WJ ⎞
= σˆ ⎜
⎟ ⎜
⎟⎜
⎟
n
⎝ n ⎠ ⎝
⎠⎝ n ⎠
−1
2
e
6
Più precisamente: βˆ 2 SLS ha la minima varianza asintotica tra (tutti) gli stimatori costruiti con il metodo delle variabili
strumentali, che utilizzano come processo degli strumenti, processi che sono combinazione lineare del processo {w t } ,
{
}
cioè processi del tipo w t( J ) ( = J ′w t ) , con J = J ( yt , w t , x t ) matrice l × k (che dipende da ( yt , w t , xt )t =1,…,n ) tale che
{w } sia un processo ( k -dimensionale) di strumenti (verificanti cioè le condizioni da IV-2 a IV-5) di 7-2. Cio` accade
(J )
t
per esempio se sono verificate le seguenti due condizioni:
n
i) p lim ⎡ J′W′WJ = 1 ∑ w t( J ) w′t ( J ) ⎤ esiste ed è non singolare ;
⎢
⎥
n →∞
n
n t =1
⎣
⎦
′ ′
′
ii) Esiste il limite in probabilità di (J ) n (e quindi J W u converge a 0 , essendo convergente a 0 la sequenza W u ).
n
n
9
7-Econometria, a.a. 2014-15
−1
−1
−1
⎛ X′PW X ⎞ ⎛ X′PW X ⎞ ⎛ X′PW X ⎞
⎛ X′PW X ⎞
σˆ ⎜
= σˆ 2 ⎜
⎟
⎜
⎟
⎜
⎟
⎟ ,
⎝ n ⎠ ⎝ n ⎠⎝ n ⎠
⎝ n ⎠
2
allora l’asserto sarà provato (passando al limite in probabilità per n → ∞ ), se si prova che
( X′PW X )
−1
≤ ( J ′W′X )
−1
( J′W′WJ )( X′WJ )
−1
o equivalentemente (vedi l’ultimo punto in prop. 1 di 2-3)
( X′WJ )( J′W′WJ ) ( J′W′X ) ≤ ( X′PW X )
.
′
′
′
X
X
X
X
X
X
P
P
0
P
P
⇔
≤
⇔
≤
−
(
)
(
)
(
)
( W WJ ) )
(
WJ
W
−1
La validità dell’ultima disuguaglianza (cioè che la matrice X′ ( PW − PWJ ) X è semidefinita
positiva), segue dalle seguenti proprietà:
i)
PW − PWJ è una proiezione;
Infatti si osserva dapprima che evidentemente si ha S ( WJ ) ⊂ S ( W) , donde
PW PWJ = PWJ e
considerando la trasposizione PWJ PW = PWJ , pertanto
( PW − PWJ )( PW − PWJ ) = PW − PWJ PW − PW PWJ + PWJ = PW − PWJ
ii)
La proiezione PW − PWJ è ortogonale;
segue dalla sua simmetria.
iii)
La matrice X′ ( PW − PWJ ) X è semidefinita positiva;
Infatti per ogni λ ∈ R k si ha
λ ′X′ ( PW − PWJ ) Xλ = λ ′X′ ( PW − PWJ )′ ( PW − PWJ ) Xλ = ( PW − PWJ ) Xλ ≥ 0 .
Osservazione:
•
La stima della varianza asintotica dello stimatore 2SLS (sia in presenza di errori
omoschedastici che eteroschedastici) utilizza il processo dei residui
{ y − x′βˆ } , che vanno
t
t
2 SLS
calcolati al termine della procedura di stima (essi sono evidentemente diversi dai residui ottenuti
dalle due procedure OLS utilizzate per la costruzione di βˆ 2 SLS ).
•
Lo stimatore βˆ 2 SLS minimizza la funzione obiettivo
−1
Q (β) = ( y − Xβ)′ PW ( y − Xβ) ⎛⎜ = [ W′( y − Xβ) ]′ [ W′W ] [ W′( y − Xβ) ] ⎞⎟ .
⎝
⎠
Infatti si ha
∂Q (β)
= 0 [ ⇔ (y − Xβ)′ PW X = 0 ⇔ X′PW y = X′PW Xβ ]
∂β
10
7-Econometria, a.a. 2014-15
e quindi βˆ 2 SLS è (l’unico) punto stazionario di Q(β) (funzione quadratica che ha certamente un
punto di minimo).
•
Se il processo delle variabili strumentali ha dimensione k (dunque il processo e` esattamente
(
identificato) allora βˆ 2 SLS = βˆ IV
) annulla la funzione obiettivo.
Infatti, dalla definizione di βˆ IV , si ha W′(y − Xβˆ IV ) = 0 .
top
7-4 Test sulle ipotesi: Il modello IVGNR
L’asintotica normalità dello stimatore 2SLS (indipendentemente dalle eventuali ipotesi sugli
errori), consente di costruire test su ipotesi (lineari o nonlineari) sui parametri del modello mediante
la statistica di Wald, che comunque presenta difficolta` di tipo numerico per il suo calcolo.
Nel caso di ipotesi lineari la costruzione dei test presenta minori difficolta` di tipo numerico,
come appare chiaramente nella procedura che si passa a descrivere.
Proposizione: Il modello di regressione ausiliario di Gauss-Newton (cfr. 4-4 per la definizione, le
notazioni ed alcuni dettagli) per il modello lineare yt = x′t β + ut , con le variabili strumentali w t ed
errori omoschedastici denominato modello IVGNR, ha la seguente rappresentazione
y − Xβ = PW Xb + error .
Dimostrazione: Considerata la funzione obiettivo Q (β) = (y − Xβ) ' PW (y − Xβ) , il suo gradiente
g (β) =
∂ 2Q(β)
∂Q (β)
= 2X′PW X , la sequenza
= −2 X′PW (y − Xβ) e la sua matrice hessiana H (β) =
∂β′
∂β∂β′
minimizzante si ottiene con una procedura ricorsiva da β j +1 = β j + ( X′PW X)−1 X′PW (y − Xβ j ) . Il
termine che aggiorna la sequenza e` evidentemente la stima OLS di b nel modello lineare
y − Xβ j = PW Xb + resid e dunque l’asserto.
Osservazione: Essendo la funzione obiettivo quadratica, il punto di minimo (o equivalentemente il
punto stazionario) si ottiene fissando arbitrariamente β 0 ed effettuando un solo passo; in tal modo si
(
)
ottiene sia la stima βˆ 2 SLS = β1 = β 0 + bˆ 0 e sia la stima della sua varianza asintotica (in presenza di
eteroschedasticita` si deve considerare lo stimatore di White).
Il test IVGNR per l’ipotesi H 0 : β 2 = 0 (essendo β′ = [β1′ β′2 ] ) – Si trascrive il modello
k1
k2
originario e quello ridotto con i corrispondenti modelli IVGNR.
Importante: Il processo delle variabili strumentali deve essere lo stesso per i due modelli e sia W
11
7-Econometria, a.a. 2014-15
la matrice delle osservazioni.
Modello non ridotto (U): y = X1β1 + X 2β 2 + u ;
Modello IVGNR (U): y − X1β1 − X 2β 2 = PW X1b1 + PW X 2b 2 + resid
Modello ridotto (R): y = X1β1 + u ;
Modello IVGNR (R): y − X1β1 = PW X1b1 + resid
(
)
Si considera β1 lo stimatore 2SLS di β1 dal modello ridotto, sia u = y − X1β1 il vettore dei
residui (dal punto di vista teorico β1 puo` essere un qualunque elemento di R k1 in quanto il punto
di minimo e` raggiunto in un solo passo con qualunque valore iniziale) e il modello IVGNR del
modello non ristretto calcolato per β = (β1 , 0) , cioè
( u = ) y − X1β1 = PW X1b1 + PW X 2b 2 + resid ;
allora l’ipotesi H 0 è equivalente H 0′ : b 2 = 0 e un test su quest’ultima ipotesi si costruisce
immediatamente (avendo cura di tener conto della eventuale presenza dell’eteroschedasticita`).
Il test in presenza di errori omoschedastici: In questo caso, come si potra` notare, nella
costruzione del test (di Wald ed LM) si utilizzano soltanto le stime OLS di opportuni modelli
lineari.
a) Il test LM: Si considera il coefficiente di determinazione R 2 nella stima del modello
y − X1β1 = PW X1b1 + PW X2b 2 + resid e si confronta nR 2 con χ k22 ,1−α .
b) Il test di Wald: Intanto la statistica di Wald (W ) per l’ipotesi H 0′ : b 2 = 0 ( ⇔ H 0 : β 2 = 0 )
coincide con k2 F essendo F =
[ RSSR − USSR ] / k2
USSR / n
e USSR (risp. RSSR ) e` la somma dei quadrati
dei residui del modello IVGNR(U) (risp. IVGNR(R)), inoltre si ha
•
RSSR − USSR = Q(β1 ) − Q(βˆ 2 SLS ) , differenza dei valori minimi delle funzione obiettivo del
modello R (risp. U ) (cfr. (8.63) in Davidson-Mac Kinnon);
•
Una stima consistente della varianza σ 2 (che potra` sostituire USSR / n senza alterare le
proprieta` asintotiche dello stimatore) si ottiene dalla stima 2SLS del modello originario;
•
I valori minimi delle due funzione obiettivo, quando non forniti dal software, si calcolano
facilmente considerando la somma dei quadrati dei valori previsti nei modelli di regressione
ausiliari y − Xβˆ = Wγ + resid (risp. y − Xβ1 = Wγ + resid ).( 7 )
top
Infatti, per il primo modello, il vettore dei valori previsti e` W ( W′W ) −1 W′(y − Xβˆ ) e allora la somma dei quadrati
delle sue coordinate e` (y − Xβˆ )′W( W′W) −1 W′W( W′W) −1 W′(y − Xβˆ ) = (y − Xβˆ )′P (y − Xβˆ ) = Q(βˆ
).
7
(
12
W
)
2 SLS
7-Econometria, a.a. 2014-15
7-5 Il test di Sargan sulle restrizioni di sovraidentificazione
Una difficoltà che si presenta nella stima di modelli con variabili endogene tra le variabili
indipendenti, e` quella di individuare validi strumenti (cioe` il processo delle variabili strumentali), i
quali come e` ben noto devono essere ortogonali (non correlati) agli errori e devono essere
sufficientemente correlati con le variabili endogene.
Non ci sarebbe alcun problema nel costruire un test sulla assenza di correlazione tra gli
strumenti e gli errori, se fossero disponibili le osservazioni degli errori. La usuale strategia di
utilizzare i residui, costruiti con uno stimatore consistente, come osservazioni degli errori non e`
praticabile nei modelli esattamente identificati, in quanto le k condizioni di ortogonalità (i gradi di
liberta`) sono tutte necessarie per la costruzione dello stimatore e quindi dei residui.
Nei modelli sovraidentificati delle l condizioni di ortogonalità presenti, soltanto k sono
necessarie per stimare il modello, e allora le rimanenti l − k condizioni potranno essere utilizzate
(come sara` mostrato) per testare la validità delle condizioni di ortogonalità.
Sia yt = x′t β + ut con E(ut | Ω t ) = 0 , t = 1,… un modello econometrico correttamente specificato
e sovraidentificato (sia {w t } il processo delle variabili strumentali (dim(w t ) =)l > k = dim(xt )) ),
con le usuali ipotesi sul processo
{ yt , xt , wt } . Soltanto per ragioni di semplicita` inizialmente si
assume che gli errori siano omoschedastici e dunque che E(ut2 | Ωt ) = σ 2 per ogni t .
Definizione: Il numero intero l − k dicesi grado di sovraidentificazione del modello.
Osservazione: Nel processo di stima 2SLS si utilizzano le k variabili strumentali la cui matrice
delle osservazioni è PW X . Sia W ∗ una matrice n × (l − k) ortogonale a PW X (di dimensione n × k )
tale che S ( W) = S ( PW X, W∗ ) e si denoti con {w ∗t } il processo che ha W∗ come matrice delle
osservazione( 8 ). La restrizione di sovraidentificazione diventa allora E(ut | w ∗t ) = 0 ( ⇒ E(w ∗t ut ) = 0 ) .
L’ipotesi di sovraidentificazione, sulla quale si vuole costruire il test, puo` essere formulata nel
modo seguente:
a)
⎧⎪ H 0 : le componenti di {w t } sono tutte esogene
,
⎨
⎪⎩ H1 : j ( ≤ l − k ) componenti di {w t } sono endogene
o in forma più debole
E` importante segnalare che, come si potra` osservare nel seguito, la rappresentazione della matrice W∗ non sara`
utilizzata.
(8)
13
7-Econometria, a.a. 2014-15
⎧ H 0 : E(w ∗t ut ) = 0 ( ⇔ E(w t ut ) = 0 )
.
⎨
∗
⎩ H1 : E(w t ut ) ≠ 0
b)
Costruzione della statistica di Sargan:
Osservazione: Se fossero disponibili le osservazioni di w ∗t e di ut , la statistica “ distanza (pesata)
da 0 del parametro empirico
1 n ∗
w t ut (= n −1 ( W* )′ u) di E(w ∗t ut ) ” consentirebbe di costruire un
∑
n t =1
test, pero` la costruzione della matrice delle osservazioni di w ∗t e` abbastanza costosa
numericamente, mentre le osservazioni sugli errori non sono disponibili. Il primo inconveniente si
supera facilmente utilizzando w t al posto di w ∗t (vedi l’equivalenza in b) per l’ipotesi H 0 ), mentre
il secondo inconveniente si supera, in modo ormai standard, sostituendo gli errori con i residui.
Si considera la statistica
⎛ W′W ⎞
n ( n W′uˆ )′ ⎜ σˆ 2
⎟
n ⎠
⎝
−1
−1
⎛ uˆ ′PW uˆ Qn (βˆ 2 SLS ) ⎞
n ( n −1W′uˆ ) ⎜ =
=
⎟⎟
⎜
σˆ 2
σˆ 2
⎝
⎠
denominata statistica di Sargan.
Proposizione: La statistica di Sargan, nell’ipotesi H 0 , converge in distribuzione verso una χ l2− k .
Dimostrazione: Essendo
p
⎡1 n
⎛ W′u ⎞ ⎤ d
2
2 W′W
ˆ
(
0
,
Σ
)
n ⎢ ∑ w t ut ⎜ =
→
N
σ
e
σ
→
σ 2 Σ w (il vettore
w
⎟⎥
n
n
n
⎝
⎠⎦
⎣ t =1
w t ha dimensione l ) si ha
⎛ W′W ⎞
n ( n −1Wu )′ ⎜ σˆ 2
⎟
n ⎠
⎝
−1
n ( n −1Wu ) → χ l2 ;
d
inoltre, poiche` i residui sono stati costruiti utilizzando la stima consistente di un parametro
vettoriale di dimensione k , si ha
⎛ W′W ⎞
n ( n Wuˆ )′ ⎜ σˆ 2
⎟
n ⎠
⎝
−1
−1
n ( n −1Wuˆ ) → χ l2− k .
d
Gli argomenti che giustificano l’ultima affermazione non sono stati riportati perché sono
essenzialmente di natura tecnica, comunque una prova indiretta è data in ii) della osservazione che
segue. La stessa procedura e` stata utilizzata in 7-7 per individuare la distribuzione asintotica della
statistica di Hansen.
Il test di Sargan (con livello di significatività α ):
“Si rifiuta l’ipotesi H 0 se Qn (βˆ 2 SLS ) / σˆ 2 > χ l2− k ,1−α ”.
14
7-Econometria, a.a. 2014-15
Osservazione:
i)
La procedura ora descritta è valida anche in ipotesi di eteroschedasticità, con la sola variante di
dover utilizzare lo stimatore di White per la stima della varianza asintotica, Σuw = E(ut2 w t w′t ) , di
1 n
∑ w t ut . Naturalmente in tal caso non sara` piu valida la rappresentazione della statistica di
n t =1
Sargan mediante la funzione obiettivo.
ii) La statistica di Sargan (in ipotesi di omoschedasticita`) coincide con la statistica utilizzata nella
verifica della ipotesi
⎧ H 0 : yt = x′t β + ut , E(ut | w t ) = 0
⎨
*
⎩ H1 : yt = x′t β + w t γ + ut , E(ut | w t ) = 0
c)
che si puo` scrivere anche nella forma
⎧H0 : γ = 0
per il modello yt = x′t β + w*t γ + ut , E(ut | w t ) = 0 ;
⎨
⎩ H1 : γ ≠ 0
d)
(ricordare che il test su ques’ultima ipotesi, se gli errori sono omoschedastici, utilizza la statistica
differenza dei valori minimi delle funzioni obiettivo del modello ridotto e di quello non ridotto
diviso per la stima della varianza; vedi l’ultima osservazione in 7.4).
Infatti il modello yt = x′t β + w ∗t γ + ut , nell`ipotesi E(ut | w t ) = 0 , è esattamente identificato ( 9 ) e
dunque il valore della corrispondente funzione obiettivo nella stima IV è 0,( 10 ) mentre il valore della
funzione obiettivo per il modello ridotto è Qn (βˆ 2 SLS ) .
iii) La statistica di Sargan coincide con il parametro nR 2 ( = n [ ESS / TSS ]) del modello
uˆ = Wb + error (come al solito R 2 = Rc2 quando nel modello e` presente l’intercetta).
La prova è immediata non appena si costruisce il test con il modello IVGNR per l’ipotesi
H0 : γ = 0 .
iv) Vari autori suggeriscono di realizzare sempre il precedente test, in presenza di
sovraidentificazione. Segnalano anche un usuale errore nella interpretazione dell’esito del test; più
precisamente, il rifiuto dell’ipotesi nulla (rifiuto della restrizione di sovraidentificazione) può avere
origine da una delle seguenti situazioni (che sono rispettivamente l’interpretazione dell’ipotesi H1
nelle precedenti due ipotesi statistiche b) e d) che portano alla costruzione del test di Sargan):
− Il modello è correttamente specificato, ma alcuni strumenti sono correlati con gli errori e quindi
(9)
(10)
Il numero delle variabili endogene presenti nel modello è uguale al numero delle variabili strumentali.
∗
In questo caso è noto il valore della funzione obiettivo, ma non quello della stima in quanto le osservazioni per w t
non sono disponibili.
15
7-Econometria, a.a. 2014-15
non sono validi strumenti (decisione che si tende a privilegiare);
− Il modello non è correttamente specificato e alcune variabili, utilizzate come strumenti, sono in
realtà dei regressori e pertanto andrebbero inserite nell’equazione (decisione che si tende a non
prendere in considerazione).
top
7-6 Il test di Durbin-Wu-Hausman (sulla presenza di variabili endogene tra i regressori)
I metodi descritti finora in questo capitolo sono utili (e necessari) in presenza di variabili
endogene tra le variabili indipendenti, ma se così non dovesse essere essi non solo sono inutili ma in
un certo senso sono anche dannosi. E` evidente allora l’importanza di poter disporre di opportuni
test (uno sara` costruito in questo paragrafo) quando si nutrano dubbi sull’effettiva endogeneità di
alcune variabili indipendenti del modello.
E` assegnato il modello lineare yt = x′t β + ut con E(ut | Ωt ) = 0 , t = 1,… , assogettato alle
seguenti ipotesi
•
E(ut2 | Ωt ) = σ 2 (omoschedasticita` degli errori);
•
il processo {w t } delle variabili strumentali ha dimensione l (≥ k = dim {xt }) ) (e non coincide
con {xt } );
•
per il processo { yt , xt , w t } valgono le usuali ipotesi che assicurano la validita` delle proprietà`
asintotiche degli stimatori;
e si considera l’ipotesi statistica:
⎧ H 0 : yt = x′t β + ut , E(ut | xt ) = 0
.
⎨
⎩ H1 : yt = x′t β + ut , E(ut | w t ) = 0
Osservazione:
i)
Se (tutti) i regressori sono validi strumenti, lo stimtore OLS e` (asintoticamente) il piu`
efficiente nella classe degli stimatori ( n − consistenti) costruiti con il metodo dei momenti, e a tale
classe appartiene evidentemente lo stimatore 2SLS;
ii) Se tra i regressori c’è qualche variabile endogena, allora la stima 2SLS è
n − consistente,
mentre la stima OLS non è consistente;
iii) Dalle precedenti due osservazioni e dal principio di Hausmann (cfr. nota 5 in 6-5) segue
var(βˆ 2 SLS − βˆ OLS ) = var(βˆ 2 SLS ) − var(βˆ OLS ) .
Al fine di costruire un test sulla precedente ipotesi, le proprietà i) e ii) suggeriscono di utilizzare
come statistica la distanza pesata tra i due stimatori, la cui distribuzione asintotica potra` essere
16
7-Econometria, a.a. 2014-15
individuata data la validita` di iii).
Si considera allora la statistica di Hausman
(
)
H = βˆ 2 SLS − βˆ OLS ⎡ var(βˆ 2 SLS ) − var(βˆ OLS ) ⎤
⎢⎣
⎥⎦
−1
(βˆ
2 SLS
− βˆ OLS
)′
e per essa si puo` dimostrare che (nell’ipotesi H 0 , e quindi nell’ipotesi che tutte le coordinate di
x t sono esogene) converge in distribuzione (come è naturale) verso una chi-quadro, ma i suoi gradi
di libertà (e qui c’è un elemento di soggettività) sono pari al numero di variabili che non sono
certamente esogene.
Osservazione:
•
Per eliminare l’elemento di soggettività nella formulazione del test, alcuni autori
suggeriscono di considerare, nella costruzione della statistica H , soltanto le componenti degli
stimatori dei parametri relativi alle variabili delle quali non si è certi della effettiva esogeneità.
•
Non e` difficile provare che il test di Hausman, nella formulazione suggerita dalla precedente
osservazione, è identico al test di Durbin-Wu che ora si passa a descrivere (vedi DavidsonMacKinnon, Econometric Theory and Method, pag. 338).
Si considera la decomposizione X = [ Z Y ] , essendo Z la matrice delle osservazioni delle
variabili certamente esogene e Y la matrice delle osservazioni dei rimanenti repressori, e si
⎧H : δ = 0
verifica l’ipotesi ⎨ 0
per il modello ausiliario
⎩ H1 : δ ≠ 0
y = Xβ + PW Yδ + resid (o equivalentemente y = Xβ + M W Yδ + resid ).
top
7-7 Il Metodo dei Momenti Generalizzato (GMM): una breve introduzione
La seguente ovvia osservazione suggerisce un percorso alternativo a quello presentato in 7-2 per
costruire uno stimatore di β , che come si potra` notare e` molto piu` generale e puo` essere
utilizzato in contesti molto diversi da quelli fin qui presi in esame (cfr. nota 1 in 4-1).
Osservazione: Lo stimatore βˆ IV (delle variabili strumentali) costruito in 7-1, minimizza la distanza
da 0 di
1 n
w t ( yt − x′t β) , per qualunque funzione distanza in R k , (in particolare per le distanze
∑
n t =1
definite da una matrice simmetrica definita positiva) in quanto e` uno zero di
Il modello, le notazioni e lo stimatore GMM: E` assegnato il modello
17
1 n
∑ w t ( yt − x′t β) .
n t =1
7-Econometria, a.a. 2014-15
yt = x′t β + ut con E(ut | Ωt ) = 0
e sia {w t (∈ Ωt )} il processo delle variabili strumentali di dimensione l > k (dunque il modello e`
sovraidentificato).
Si pone g (xt , w t , β) = w t ( yt − x′t β) e g n (β) =
∂ [ g n (β) ]
=−
∂β
( l×k )
(
ˆ (n)
Sia Ω
1 n
∑ g(xt , w t , β) per ogni n e si osserva che
n t =1
1 n
W′X ⎞
⎛
w t x′t ⎜ = −
∑
⎟.
n t =1
n ⎠
⎝
)
ˆ ( n ) che
una sequenza di matrici simmetriche definite positive di ordine l , con Ω
n
ˆ =Ω
ˆ ( n ) , si considera il funzionale (funzione
dipende eventualmente da { yt , xt , w t }t =1,…, n e posto Ω
obiettivo)
ˆ ) = n [ g (β)]′ Ω
ˆ [ g (β)] .
J n (β, Ω
n
n
ˆ ) ha un unico punto di minimo, βˆ (Ω
ˆ ) (∈ R k ) , allora esso dicesi
Definizione: Se la funzione J n (β, Ω
stima GMM di β relativa alla matrice Ω̂ .
Osservazione:
•
•
ˆ ) (per un fissato n ) esiste se e soltanto se J (β, Ω
ˆ ) ha un unico punto stazionario;
βˆ (Ω
n
ˆ )⎤
∂ ⎣⎡ J (β, Ω
⎦
∂β
⎡1 n
⎤′ ˆ ⎡ 1 n
⎤
w t ( yt − x′t β) ⎥ = 0
= 0 ⇔ ⎢ ∑ w t x′t ⎥ Ω
∑
⎢
⎣ n t =1
⎦ ⎣ n t =1
⎦
⎤
⎡1 n
⎤′ ˆ ⎡ 1 n
⎤ ⎡1 n
⎤′ ˆ ⎡ 1 n
′
′
⇔ ⎢ ∑ w t x′t ⎥ Ω
=
w
y
w
x
∑
∑
t t⎥
t t ⎥ Ω ⎢ ∑ w t xt ⎥ β .
⎢
⎢
⎣ n t =1
⎦ ⎣ n t =1
⎦ ⎣ n t =1
⎦ ⎣ n t =1
⎦
•
ˆ ) , quando esiste, e la condizione per
Dai precedenti due punti segue la rappresentazione di βˆ (Ω
la sua esistenza:
⎛
⎞
′ ⎡1 n
n
⎤⎟
ˆβ(Ω
ˆ ) = ⎜ ⎡ 1 w x′ ⎤ Ω
ˆ
′
∑
∑w x
⎜ ⎣⎢ n t =1 t t ⎦⎥ ⎣⎢ n t =1 t t ⎦⎥ ⎟
⎝
⎠
−1
⎛ 1 n
⎞
⎡
⎤′ ˆ ⎡ 1 n
⎤⎟
′
= β + ⎜ ⎢ ∑ w t x′t ⎥ Ω
w
x
⎢ ∑ t t ⎥⎟
⎜ ⎣ n t =1
⎦ ⎣ n t =1
⎦
⎝
⎠
ˆ ( W′X ) ⎤
= β + ⎡( W′X )′ Ω
⎢⎣
⎥⎦
−1
⎛
⎞
′ ⎡1 n
n
⎤⎟
ˆ
⎜ ⎡ 1 ∑ w t x′t ⎤ Ω
⎥ ⎢ ∑ w t yt ⎥ ⎟
⎜ ⎣⎢ n t =1
⎦
⎦ ⎣ n t =1
⎝
⎠
−1
⎛ 1 n
⎞
′ ⎡1 n
⎤⎟
ˆ
⎜ ⎡ ∑ w t x′t ⎤ Ω
w
u
⎥ ⎢n ∑ t t ⎥⎟
⎜ ⎢⎣ n t =1
⎦ ⎣ t =1
⎦
⎝
⎠
( W′X )′ Ωˆ ( W′u )
Ipotesi: Le ipotesi sui processi (da G1 a G3) sono simili a quelle gia` formulate quando sono stati
18
7-Econometria, a.a. 2014-15
introdotti gli altri metodi di stima in questo capitolo, comunque qui sono riportate per completezza.
G1 – Il processo {xt , w t , yt } e` stazionario ed ergodico;
G2 – (Condizione di identificabilita`) La matrice E(w t x′t ) ( = Σ wx ) di ordine l × k ha rango
massimo k (e quindi come gia` osservato nella nota 1 in 7-2) le matrici Σ w ( = E(w t w′t ) ) e
Σ x ( = E(xt x′t ) ) sono non singolari);
G3 – Il processo {w t ut } e` una differenza maringala e E(ut2 w t w′t ) ( = Σuw ) e` non singolare (e
dunque per il teorema del limite centrale
G4 – La sequenza
( Ωˆ )
n
d
1 n
w
u
→
∑ t t N (0, Σuw ) );
n t =1
converge in probabilità a una matrice Ω (quadrata di ordine l )
(n)
n
invertibile.
ˆ ) : Dalla sua rappresentazione si ottiene immediatamente (gli
Proprietà dello stimatore βˆ (Ω
argomenti sono del tutto simili a quelli utilizzati precedentemente in varie circostanze)
ˆ ) e` consistente;
1) βˆ (Ω
2)
(
ˆ )−β
n βˆ (Ω
) → N (0, Avar(βˆ (Ωˆ )))
d
con
ˆ )) = [ Σ′ ΩΣ ]−1 Σ′ ΩΣ ΩΣ [ Σ′ ΩΣ ]−1 ,
Avar(βˆ (Ω
wx
wx
wx
uw
wx
wx
wx
per la quale una stima consistente e` immediatamente disponibile non appena si costruisce una
stima consistente per Σ wu = E(ut2 w t w′t ) .
Osservazione:
ˆ )) , con argomenti del tutto simili a quelli adoperati in 3-8,
1) Dalla rappresentazione di Avar(βˆ (Ω
segue che essa (come funzione di Ω ) e` minimizzata per Ω = Σu−w1 e il valore minimo e`
−1
⎡⎣ Σ′wx Σu−w1 Σ wx ⎤⎦ , pertanto la costruzione di una stima consistente per Σuw ha un ruolo fondamentale
(oltre a quello gia` segnalato) anche nella costruzione di un buon stimatore che e` denominato
stimatore GMM efficiente.
(
ˆ (n)
2) Considerate le due sequenze Ω
)
n
ˆ (n) ≡ I e Ω
ˆ ( n ) = ⎛ W′W ⎞
con Ω
l
⎜
⎟
⎝ n ⎠
−1
( = Σˆ ) rispettivamente
−1
w
ˆ ) sono entrambi
convergono a I l e Σ w−1 e pertanto i corrispondenti stimatori βˆ (Ω
inoltre si ha βˆ ( Σˆ −w1 ) ( = ( X′PW X) −1 X′PW y ) = βˆ 2 SLS .
19
n -consistenti
7-Econometria, a.a. 2014-15
Costruzione di una stima consistente di Σuw = E(ut2 w t w′t ) ) e dello stimatore GMM efficiente. Si
esaminano i seguenti due casi:
Caso a) – Gli errori del modello sono eteroschedastici;
Caso b) – Gli errori sono omoschedastici ( E(ut Ωt ) = σ 2 ).
ˆ ( n ) ) (uno dei due stimatori costruiti nel punto 2)
Caso a) – Sia n un fissato intero, si considera βˆ (Ω
ˆ n ) . Con argomenti ormai
della precedente osservazione) e si costruiscono i residui uˆt = yt − x′t βˆ (Ω
(
)
n
ˆ = 1 ∑ uˆ 2 w w′ e` una stima consistente di Σ .
standard (cfr. per esempio 3-4) si prova che Σ
t t
uw
t
uw
n t =1
ˆ −1 ) .
Lo stimatore GMM efficiente e` allora βˆ ( Σ
uw
Caso b) – Ora si ha Σuw ( = E(ut2 w t w′t ) = σ 2 E(w t w′t ) ) = σ 2 Σ w e si vede immediatamente che
(
)
ˆ −1 ) = βˆ ( Σ
ˆ −1 ) = βˆ
βˆ ( Σ
uw
w
2 SLS .
A questo punto e` irrilevante rappresentare la stima consistente di σ 2 Σ w , che peraltro si scrive
immediatamente, ma si osserva che (in presenza di omoschedasticita`) si ha
⎛ X′PW X ⎞
Avar(βˆ 2 SLS ) = σˆ 2 ⎜
⎟
⎝ n ⎠
−1
e σˆ 2 =
1 n
( yt − x′t βˆ 2 SLS ) 2 .
∑
n t =1
Osservazione:
1) In questo paragrafo non si e` fatto alcun cenno al caso in cui nel processo {w t ut } e` presente
l’autocorrelazione. In realtà in questo caso non c’e` alcuna difficoltà aggiuntiva, si dovra`
semplicemente sostituire Σuw con Avar(wu ) e stimare quest’ultimo in modo consistente per
esempio con lo stimatore di Newey-West (o HAC).
2) I software econometrici nel caso a) utilizzano una procedura ricorsiva; qui e` stato descritto
ˆ ( n ) ) e così via.
ˆ −1 ) (al posto di βˆ (Ω
soltanto il primo passo; nel secondo passo si utilizza βˆ ( Σ
uw
La statistica di Hansen e il test sulle restrizioni di sovraidentificazione. Essendo
⎡1 n
⎤
ng n (β) = n ⎢ ∑ w t ut ⎥ → N (0, Σuw ) ;
⎣ n t =1
⎦
•
•
p
ˆ →Σ
Σ
uw
uw
ˆ −1 [ g (β)] → χ 2 ,
n [ g n (β) ]′ Σ
uw
n
l
d
si ha
donde per il valore minimo del funzionale obiettivo (denominato statistica di Hansen) si ha
20
7-Econometria, a.a. 2014-15
(
)
ˆ −1 )) = n ⎡g (βˆ ( Σ
ˆ −1 )) ⎤′ Σ
ˆ −1 ⎡ g (βˆ ( Σ
ˆ −1 )) ⎤ → χ 2 ,
J n (βˆ ( Σ
uw
n
uw ⎦
uw ⎣ n
uw ⎦
l −k
⎣
d
(la prova e` omessa, comunque e` opportuno osservare che in quest’ultima rappresentazione si sono
persi k gradi di liberta` pari al numero di parametri stimati (in modo consistente)).
ˆ −1 )) , per
Test di Hansen (sulle restrizioni di sovraidentificazione): Un elevato valore di J n (βˆ ( Σ
uw
esempio J n (βˆ ( Σˆ u−w1 )) > χ l2− k ,1−α (per un α assegnato), deriva certamente da un eventuale errore di
specificazione, in particolare dalla non ortogonalità di qualcuno degli l strumenti se si e` certi della
top
validità delle altre ipotesi.
7-8 Proprieta` finite degli stimatori IV: un esercizio
Sull’argomento “proprieta` finite degl stimatori IV”, comunque di grande interesse, ci sono
soltanto risultati parziali e relativamente complessi. Il seguente esempio, preso da Davidson &
MacKinnon, Econometric Theory and Methods, ha il solo scopo di lasciare intuire cosa puo`
accadere agli stimatori IV in presenza di campioni finiti (di dimensione non sufficientemente
grande).
Sia {wt } un processo (non e` necessaria alcuna ipotesi su di esso fin quando interessano le
proprietà` finite degli stimatori, che saranno sempre condizionate a {wt } ), {ut , vt } un processo di
variabili indipendenti, tutte con distribuzione bivariata normale con media nulla ( E(ut ) = E(vt ) = 0 ),
varianza unitaria ( var(ut ) = var(vt ) = 1 ) e coefficiente di correlazione
ρ ( = corr(ut , vt ) ) , e
indipendente dal processo, e si considera il DGP { yt , xt , wt } per il quale
⎧ yt = β xt + σ u ut
,
⎨
⎩ xt = π wt + σ v vt
e` un suo modello completamente specificato.
Problema: Fissato n intero naturale e un processo delle osservazioni {wt }t =1,…,n , considerato lo
stimatore lo stimatore di β (al variare del parametro ρ ∈ ]−1,1[ ) che ha buone proprieta`
asintotiche, individuare (alcune) sue proprieta` quando lo si considera condizionato a
w = ( w1 ,… wn )′ (come funzione di x = ( x1 ,… , xn )′ e y = ( y1 ,… , yn )′ ).
Soluzione: Si esaminano separatamente i casi ρ = 0 e ρ ≠ 0 .
Primo caso ( ρ = 0 ): Il vettore x e` strettamente esogeno, allora lo stimatore (efficiente) di β e` lo
stimatore OLS (che e` indipendente da w ) per il quale sussistono (tra le altre) le seguenti proprietà:
21
7-Econometria, a.a. 2014-15
i)
(
)
E( βˆ x) = β ⇒ E( βˆ ) = β ;
ii) βˆ x ∼ N ( β ; σ u2 ( x′x) −1 / n) ;
Secondo caso ( ρ ≠ 0 ):
Osservazione:
•
Si ha ut = ρ vt + ε t con E(ε t vt ) = 0 (ovvia conseguenza della normalita` della variabile (ut , vt ) )
e dalla indipendenza delle variabili del processo segue E(ε v) = 0 .
•
Nella prima equazione la variabile xt e` endogena ( E( xt ut ) = E [ (π wt + σ v vt )ut ] = σ v ρ ( ≠ 0 ) ) e
wt e` un valido strumento (e` correlata con xt e non correlata con ut ).
In questo caso uno stimatore di β , con buone proprieta` asintotiche, si costruisce con il metodo
delle variabili strumentali. Per non appesantire le notazioni, si pone β = βˆIV w e allora si ha
β = ( w ′x ) w′y = β + σ u ( w′x ) w′u
−1
−1
(notare che w e` un vettore costante e che se moltiplicato per 1/(w ′w )1/ 2 , la rappresentazione di β
non cambia, pertanto si puo` si puo` assumere che w ′w = 1 ), donde, utilizzando la rappresentazione
xt e ut , si ha
β = β + σ u ( w′(π w + σ v v) ) w′u = β +
−1
σ u w′( ρ v + ε)
.
π + σ v w′v
Le proprietà` statistiche dello stimatore β .
Osservazione: Intanto essendo x combinazione lineare di v si ha β x = β v , inoltre
•
dalla rappresentazione di β , essendo E(ε v) = 0 , si ha
⎡ σ ρ w ′v ⎤ σ u ρ z
v⎥ =
E ( β x) − β ⎡ = E ( β v ) − β ⎤ = E ⎢ u
⎣
⎦
⎣ π + σ v w ′v ⎦ σ v a + z
(
)
(
)
avendo posto z = w ′v e a = π / σ v .
•
La variabile z , in quanto combinazione lineare della normale multivariata v (non dimenticare
che qui w e` un vettore costante di norma 1), ha distribuzione normale, inoltre si ha
E( z ) = w′E( v) = 0 e var( z ) ( = w′ var( v)w = w′I n w ) = 1 .
Ora se esistesse il valore atteso di β , denotata eon ϕ ( z ) la densita` della normale standard, si
avrebbe
22
7-Econometria, a.a. 2014-15
σ ρ
E( β − β ) = E ⎡ E ( β v) − β ⎤ = u
⎣
⎦ σ
(
)
v
+∞
z
∫ a + z ϕ ( z )dz ,
−∞
ma quest’ultimo integrale non esiste (osservare che z = − a e` una singolarita` del prim’ordine per
la funzione integranda), pertanto lo stimatore β non ha valore atteso.
Osservazione: Qui non ci sono informazioni sulla distribuzione di β che evidentemente non puo`
essere una di quelle note; una sua versione empirica puo` essere individuata con il metodo di Monte
Carlo in quanto il modello e` completamente specificato.
top
23