3-Econometria, a.a. 2014-15 Capitolo 3 3-1 Proprietà asintotiche degli stimatori OLS: Consistenza 3-2 Alcune versioni del teorema del limite centrale 3-3 Proprietà asintotiche degli stimatori OLS: Asintotica normalita` 3-4 Stimatore consistente della varianza asintotica di β̂ : Lo stimatore di White 3-5 Appendice: Convergenza per le successioni di variabili aleatorie e il teorema del “delta metodo” 3-6 Test sulle ipotesi: il test di Wald 3-7 Test sulle ipotesi: il metodo Bootstrap 3-8 Appendice: Efficienza asintotica degli stimatori OLS 3-9 Appendice: Lo stimatore di Newey-West I dati economici sono generalmente molto numerosi, pertanto in econometria assumono grande rilievo i risultati asintotici (validi cioe` in presenza di grandi campioni). Si segnala che dal punto di vista teorico all’espressione grandi campioni non e` associabile un valore (o range) numerico in modo univoco, mentre nelle applicazioni econometriche un campione di dimensione maggiore di 100 e` solitamente ritenuto grande. In tutto il capitolo { yt , xt }t∈N ∗ e` un processo stocastico (o equivalentemente un DGP o popolazione) e (*) yt = x′t β + ut , E(ut | Ωt ) = 0, xt ∈ Ω t per t = 1, 2,… un suo modello, che si assume correttamente specificato (cioe` il processo soddisfa (*) per qualche valore di β ). Ω t rappresenta il complesso delle informazioni che sono (o potrebbero essere) disponibili in t (prima che sia osservata yt ), pertanto per dati cross-section Ω t contiene( 1 ) tutte le variabili esogene (nell’unita` statistica t ) della realta` economica considerata, mentre per dati time-series Ωt non solo contiene le variabili esogene all’istante t , ma anche i loro ritardi ed i ritardi della variabile dipendente yt . Nella attuale situazione, se n e` un qualunque (fissato) intero naturale, se esiste lo stimatore di β costruito con il metodo dei momenti (che coincide con lo stimatore OLS) sara` denotato con β̂ senza evidenziare la sua dipendenza da n (per le sue diverse rappresentazioni vedi il paragrafo 1-3). Nei primi paragrafi sono riportate le principali proprieta` asintotiche di tale stimatore e le ipotesi 1 Una espressione piu` rigorosa e`: (la σ -algebra) Ωt contiene la σ -algebra generata da tutte le variabili esogene in t . 1 3-Econometria, a.a. 2014-15 che ne assicurano la validità. Si segnala che nel seguito (in questo e nei successivi capitoli) le ipotesi sull’esistenza dei momenti delle variabili aleatorie saranno omesse; dunque si assume implicitamente che tutte le variabili sono dotate dei momenti necessari perche` i risultati teorici invocati siano utilizzabili. 3-1 Proprietà asintotiche degli stimatori OLS: Consistenza In econometria, la consistenza degli stimatori (cioe` la convergenza in probabilita` dello stimatore verso il valore vero) ha un ruolo fondamentale e le ipotesi che la garantiscano si dicono condizioni di identificabilità; in tal caso il modello si dice identificato (asintoticamente) ( 2 ). Proposizione 1 – Se per il modello sono valide le seguenti ipotesi a) La matrice 1 n ∑ xt x′t è invertibile per ogni n sufficientemente grande; n t =1 −1 ⎛1 n ⎞ b) La sequenza ⎜ ∑ xt x′t ⎟ è limitata in probabilità; ( 3 ) ⎝ n t =1 ⎠ 1 n c) La sequenza ∑ xt ut converge a 0 (in probabilità),( 4 ) n t =1 p allora lo stimatore β̂ esiste per (ogni) n sufficientemente ed e` consistente (cioe` βˆ → β ; qui β denota il valore vero del parametro). Dimostrazione: La condizione a) assicura l’identificabilita` (finita) del modello, e quindi l’esistenza di β̂ , per n grande. La consistenza segue immediatamente dalla rappresentazione, −1 ⎛1 n ⎞ 1 n βˆ = β + ⎜ ∑ xt x′t ⎟ ∑ xt ut , ⎝ n t =1 ⎠ n t =1 non appena si osserva che il prodotto di due sequenze e` convergente a 0, se una e` limitata in probabilita` e l’altra convergente a 0. I seguenti due corollari forniscono condizioni sufficienti per la validità` delle precedenti a), b) e c), in presenza di modelli per dati del tipo time-series e cross-section rispettivamente. Nel seguito si fara` riferimento sempre a tali condizioni. Corollario 1 (dati time-series) – Se 2 L’espressione deriva dal fatto che per un numero di osservazioni che tende ad ∞ , il DGP è univocamente individuato. 3 Una sequenza di variabili aleatorie (Yn ) si dice limitata in probabilità (o tight) e si scrive Yn = O p (1) se per ogni δ > 0 esiste ε > 0 tale che P( Yn > ε ) < δ per ogni n . 4 p Una sequenza di variabili aleatorie (Yn ) si dice convergente a 0 in probabilità e si scrive Yn = o p (1) o Yn → 0 , se per ogni ε > 0 , δ > 0 esiste ν ∈ N tale che (n ≥ ν ⇒ P( Yn > ε ) < δ ). 2 3-Econometria, a.a. 2014-15 a') Il processo {( yt , xt )} e` stazionario (qui basta debolmente stazionario) ed ergodico, ( 5 ) b') La matrice E(xt x′t ) ( = Σ x = Σ per ogni t ) di ordine k è invertibile, allora lo stimatore β̂ (esiste per n grande ed) e` consistente. Dimostrazione: Dalla stazionarietà e ergodicità del processo segue la convergenza in probabilità delle due successioni 1 n 1 n ′ x x e xt ut a Σ e 0 rispettivamente, donde, essendo Σ invertibile, ∑ t t n∑ n t =1 t =1 −1 ⎛1 n ⎞ −1 ⎜ n ∑ xt x′t ⎟ converge in probabilità a Σ e quindi ⎝ t =1 ⎠ • 1 n ∑ xt x′t è invertibile, per n sufficientemente grande (condizione di identificabilita` finita); n t =1 • ⎛1 n ⎞ ⎜ n ∑ xt x′t ⎟ ⎝ t =1 ⎠ −1 e` limitata. Corollario 2 (dati cross-section) – Se a") Le variabili del processo {( yt , xt )} sono indipendenti, b") Sono soddisfatte alcune condizioni sui momenti che garantiscono la validità della legge dei grandi numeri per i due processi {xt x′t } e {xt ut } ;( 6 ) (per semplicita` dette condizioni non sono riportate, esse non sono molto restrittive nelle applicazioni econometriche e pertanto si ritengono sempre valide), c") n 1 ( Σ = ) p lim ∑ xt x′t n n e` invertibile, t =1 allora lo stimatore β̂ (esiste per n grande ed) e` consistente. Dimostrazione. E` ovvia, non appena si osserva che E(xt ut ) = 0 per ogni t . 5 Definizione di ergodicità per processi strettamente stazionari: per ogni f e g misurabili e limitate si ha lim E( f (xt ,… , xt + h ) g (xt +l ,… , xt + k + l )) = E( f (xt ,… , xt + h ))E( g ( xt +l ,… , xt + k +l )) ; l →∞ si noti che per la stazionarietà del processo il secondo membro non dipende da l . (6) Si segnalano due classici risultati che sono generalmente indicati con l’espressione “Legge dei grandi numeri”. n Teorema: Sia ( X n ) una sequenza di v.a. indipendenti, con E( X n ) = μ n , var( X n2 ) = σ n2 , 1 ∑ μn → μ . Se n i =1 n n p 1 1 σ 2 → 0 si ha ∑ X n → μ . 2 ∑ n n i =1 n i =1 n p Teorema di Khintchine: Sia ( X n ) una sequenza di v.a. i.i.d . con E( X n ) = μ . Allora 1 ∑ X n → μ . n i =1 3 3-Econometria, a.a. 2014-15 Osservazione: Per provare la consistenza dello stimatore β̂ e` sufficiente la condizione E(xt ut ) = 0 e non la condizione piu` forte E(ut xt ) = 0 come qui si sta assumendo. top 3-2 Alcune versioni del teorema del limite centrale Nella seguente definizione si introduce una terminologia di uso frequente. n (βˆ − β) converge in Definizione: Se β̂ è uno stimatore del parametro β e la sequenza distribuzione (per n → ∞ ) verso una distribuzione N (0, Σ) ,( 7 ) allora La matrice Σ (e quindi lim var( nβˆ ) se esiste)( 8 ) dicesi varianza asintotica di β̂ e si denota i) n →∞ con il simbolo Avar(βˆ ) ; ii) β̂ si dice stimatore n − consistente di β . Osservazione: Se β̂ e` uno stimatore n − consistente di β , allora (βˆ − β ) = O p (1/ n ) (ricordare che la convergenza in distribuzione implica la limitatezza in probabilità), donde β̂ e` uno stimatore consistente di β (e dunque converge in probabilita` a β ) e la velocita` della convergenza e` dell’ordine di 1/ n . Si segnalano ora alcune versioni del teorema del limite centrale, che saranno utilizzate in queste lezioni (in letteratura sono disponibili risultati piu` generali); il primo e` utilizzato per dati crosssection, gli altri due per dati time-series senza autocorrelazione e con autocorrelazione rispettivamente. Teorema 1 (del limite centrale per processi indipendenti) – Sia {xt } una sequenza di variabili aleatorie e si pone x = i) Se 1 n ∑ xt per ogni n . n t =1 {xt } ∼ i.i.d .(μ, Σ) , si ha d n ( x − μ) → N (0; Σ) e Σ ( = Avar( x ) ) = lim var( n x ) . n →∞ ii) Se le v.a. x t sono (soltanto) indipendenti (e quindi non equidistribuite), sotto opportune ipotesi sui momenti (non particolarmente restrittive nelle applicazioni econometriche), 7 La convergenza in distribuzione di x n a x equivale alla convergenza in distribuzione di λ ′x n a λ ′x per ogni λ . 8 Sussiste il seguente risultato: Se X n → X e E( X nr ) → mr (∈ R ) allora si ha E( X r ) = mr . d 4 posto 3-Econometria, a.a. 2014-15 1 n E(xt ) , si ha ∑ n →∞ n t =1 μ = lim ( d ) 1 n var(xt ) ∑ n →∞ n t =1 n ( x − μ) → N (0; Avar(x)) con Avar(x ) = lim var( n x ) = lim n →∞ Teorema 2 (del limite centrale per differenze martingale) – Se {xt } e` una sequenza di variabili aleatorie tale che, • {xt } è strettamente stazionaria con E(xt ) = 0 • {xt } è ergodica, • {xt } è una differenza martingala (cioè E(xt | xt −1 ,… , x1 ) = 0 e var(xt ) = Σ , per ogni t ), allora n x → N (0, Σ) . d Le ipotesi dell`ultimo teorema del limite centrale non sono esplicite, non solo perche` non sono semplici, ma soprattutto perche` nelle applicazioni econometriche non ci sono strumenti che ne assicurino la validita`. Teorema 3 (del limite centrale per processi autocorrelati) – Sia {xt } un processo strettamente stazionario ed ergodico con qualche forma di indipendenza (più precisamente di debole dipendenza) per variabili distanti rispetto all’indice temporale t (un esempio molto particolare e` fornito dai processi MA( q ) , che saranno introdotti in un prossimo capitolo). Posto μ = E(xt ) , si ha n ( x − μ) → N (0, Avar(x)) e Avar(x ) = d +∞ ∑Γ j =−∞ j (che e` convergente), ⎛ ⎡ ⎤⎞ con Γ j = cov(xt , xt − j ) ⎜ = E ⎢( xt − μ ) ( xt − j − μ )′ ⎥ ⎟ (cfr. 3.9, prop. 2). ⎣ ⎦⎠ ⎝ top 3-3 Proprietà asintotiche degli stimatori OLS: Asintotica normalita` I risultati presentati in questo paragrafo sono di primaria importanza, in quanto consentono di utilizzare gli stimatori OLS nella soluzione di problemi di inferenza statistica. Teorema 1 (Asintotica normalità degli stimatori OLS) – Si assume che il processo soddisfa le seguenti condizioni: a) È valida qualche versione della legge dei grandi numeri per il processo {xt x′t } ; 5 { yt , xt } 3-Econometria, a.a. 2014-15 1 n ⎛ ⎞ = Σ p xt x′t ⎟ ) è invertibile; lim b) La matrice ⎜ ∑ n →∞ n t =1 ⎝ ⎠ c) Sussiste una versione del teorema del limite centrale per il processo {xt ut } e quindi ⎛1 n ⎞ d n ⎜ ∑ xt ut ⎟ → N (0, Avar(xu )) . ⎝ n t =1 ⎠ Allora ˆ e Avar(βˆ ) = Σ −1Avar(xu ) Σ −1 . n (βˆ − β) → N (0, Avar(β)) d Dimostrazione. L’asserto segue immediatamente dalla rappresentazione −1 ⎛1 n ⎞ 1 n βˆ = β + ⎜ ∑ xt x′t ⎟ ∑ xt ut , ⎝ n t =1 ⎠ n t =1 e dalla c) di teorema 2 in 3-5. Il seguente corollario, la cui dimostrazione segue immediatamente dalle proprieta` delle successioni convergenti (in probabilita` o in distribuzione), consente di utilizzare il precedente teorema nei problemi di inferenza. Corollario – Nelle stesse ipotesi del teorema 1, se e` disponibile uno stimatore consistente di Avar(xu ) , di solito denotato con il simbolo Avar(xu ) , allora si ha ⎡ Avar(βˆ ) ⎤ ⎢ ⎥ ⎢ n ⎥ ⎣ ⎦ −1/ 2 (βˆ − β ) → N (0, I ) (in breve d d βˆ − β ≈ N (0, Avar(βˆ ) / n) ) n ˆ ⎛ = 1 ∑ x x′ ⎞ . con Avar(βˆ ) = Σˆ −1 Avar(xu )Σˆ −1 e Σ t t ⎟ ⎜ n t =1 ⎝ ⎠ Osservazione 1: Tutti i software econometrici, in particolare gretl, in ogni procedura di stima, accanto a βˆi riportano la radice quadrata dell’ i − esimo elemento diagonale di Avar(βˆ ) / n , denominato errore standard di βˆi , in simboli e.s.( βˆi ) , necessario per fare inferenza sul parametro β i . In alcune circostanze sara` necessario far riferimento alla statistica, la cui osservazione nel campione e` e.s.( βˆi ) ; per evitare possibili equivoci, per essa si utilizzera` la notazione E.S .( βˆi ) (e non e.s.( βˆi ) , come invece si e` soliti fare). Osservazione 2: Nelle seguenti due situazioni, frequenti nelle applicazioni, si possono ritenere valide le ipotesi del precedente teorema, mentre il problema della costruzione di uno stimatore consistente di Avar(xu ) sara` affrontato nel prossimo paragrafo. 6 3-Econometria, a.a. 2014-15 1) Dati del tipo cross-section: In questo caso e` ragionevole assumere che il processo { yt , xt } sia mutuamente indipendente e quindi (sotto opportune ipotesi sui momenti che generalmente si ritengono valide) sussiste il teorema del limite centrale per il processo {xt ut } e la legge dei grandi numeri per il processo {xt x′t } , mentre l’invertibilità di Σ , qui come nel caso successivo, e conseguenza dell`ipotesi di identificazione del modello. 2) Dati del tipo time-series: La situazione ora è molto diversa da quella descritta nel caso precedente; per la validità del teorema del limite centrale si dovranno fare ipotesi molto restrittive. Per esempio richiedere che il processo { yt , xt } sia strettamente stazionario ed ergodico (ipotesi che assicura la validita` della legge dei grandi numeri per il processo {xt x′t } , ma che per molte timeseries non sono valide)( 9 ) ed il processo {xt ut } sia una differenza martingala( 10 ) o verifichi una qualche opportuna ipotesi di debole dipendenza (vedi teorema 2 e 3 in 3-2). top 3-4 Stimatore consistente della varianza asintotica di β̂ : Lo stimatore di White Dalla rappresentazione di Avar(βˆ ) , segue che un suo stimatore consistente sara` disponibile non appena si costruisce uno stimatore consistente di Avar(xu ) . A tal fine si esaminano separatamente i seguenti tre casi; nei primi due la trattazione e` esauriente, nel terzo qualche altro dettaglio e` dato nell’appendice 3.9. Si segnala che le considerazioni nei primi due casi sono valide sia per dati cross-section che per time-series, mentre quelle presenti nella discussione del terzo caso sono riferite esclusivamente alle time-series. a) Il processo {xt ut } e` una differenza martingala (in particolare indipendente) e gli errori (condizionati) sono omoschedastici, (cioè E(ut2 | Ωt ) ( = var(ut | Ωt ) ) = σ 2 , da cui segue che E(ut2 ) = σ 2 ). 9 Come gia` detto tale ipotesi sono molto restrittive, pertanto sono pochi i processi che le verificano. L’analisi preliminare dei dati (plot, autocorrelazione empirica,……) puo` consentire di escludere con ragionevole certezza la loro validita` (maggiori dettagli si trovano negli esercizi). A questo punto, e` importante segnalare che alcune trasformazioni sui processi consentono di eliminare quelle anomalie che portano ad escludere che il processo possa essere stazionario ed ergodico; alcune di queste sono Δxt = xt − xt −1 (il differenziale) e Δ log xt = log xt − log xt −1 (il differenziale logaritmico), quest’ultima ha un interessante significato economico come piu` volte sara` evidenziato negli esercizi. Una condizione sufficiente, che ha un semplice significato economico, è E(ut | ut −1 , ut − 2 ,… , xt , xt −1 ,…) = 0 e in particolare la condizione “gli errori sono innovazioni” cioe` “gli errori sono a media nulla, tra loro indipendenti e ut e` indipendente da Ωt per ogni t ”. 10 Dimostrazione: E [ (ut xt ) | (ut −1xt −1 ), (ut − 2 xt −2 ),…] = E [ E((ut xt ) | ut −1 , ut − 2 ,… , xt , xt −1 ,…) | (ut −1xt −1 ), (ut − 2 xt − 2 ),…] = (ci sono infatti più informazioni in (ut −1 , ut − 2 ,… , xt , xt −1 ,…) che in ( (ut −1xt −1 ), (ut − 2 xt − 2 ),…) = E [ xt E(ut | ut −1 , ut − 2 ,… , x t , xt −1 ,…) | (ut −1x t −1 ), (ut − 2 xt − 2 ),…] = 0. 7 3-Econometria, a.a. 2014-15 b) Il processo {xt ut } e` una differenza martingala (in particolare indipendente) e gli errori (condizionati) sono eteroschedastici (cioe` E(ut2 | Ωt ) non e` costante e pertanto, senza ulteriori informazioni, potrebbe dipendere da t , da x t ma anche da altro; in ogni caso non e` escluso che E(ut2 ) sia costante, circostanza che certamente si verifica quando in presenza di time series si assume che il processo { yt , xt } e` stazionario). c) Il processo {xt ut } e` autocorrelato (generalmente conseguenza della presenza di autocorrelazione nel processo degli errori; si osservi che nella condizione in nota 9 non si dice nulla sulla presenza o meno di autocorrelazione nel processo {xt } ). Caso a): Si osserva che: essendo E(ut | xt ) = 0 e E(ut2 | xt ) = σ 2 si ha • var(xt ut ) = E(ut2 xt x′t ) = E ⎡⎣ E(ut2 xt x′t | xt ) ⎤⎦ = E ⎡⎣ E(ut2 | xt )xt x′t ⎤⎦ = σ 2 E(xt x′t ) (in alternativa si sarebbe potuto osservare che le variabili ut2 e xt x′t sono non correlate); essendo il processo {xt ut } non autocorrelato, dalla legge dei grandi numeri segue • 1 n 1 n ⎡ ⎤ ⎡1 n ⎤ ⎛ ⎞ 2 ′ = = x u u x x p xt x′t ⎟ σ 2 ; Avar(xu ) = lim ⎢ var( ) lim E( ) lim ∑ ∑ ∑ t t ⎥ t t t ⎥ ⎜ ⎢ n →∞ n t =1 ⎣ ⎦ n→∞ ⎣ n t =1 ⎦ ⎝ n→∞ n t =1 ⎠ 1 n 2 ⎛ lim ⎜ n→∞ n − k ∑ uˆt t =1 ⎝ • 1 n 1 n n−k 2 ⎞ = ⎟ lim ∑ uˆt2 = σ 2 (cfr. nota in basso ( 11 )) (e quindi σˆ 2 = ∑ uˆt2 = S n t =1 n ⎠ n→∞ n t =1 e`, come S 2 , uno stimatore consistente di σ 2 ). Dalle precedenti osservazioni e dalla rappresentazione di Avar(βˆ ) segue che un suo stimarore e` −1 −1 ⎛ ⎛1 n 1 n 2⎞ ⎛1 n ⎞ ⎞ 2 ′ ˆ Avar(βˆ ) ⎜ = ⎜ ∑ xt x′t ⎟ u x x ∑ t ⎟=⎜ t t ⎟ S ⎜ ⎝ n t =1 ⎟ ⎝n∑ n k − t t = = 1 1 ⎠ ⎠ ⎝ ⎠ Caso b): Essendo le variabili del processo {xt ut } non correlate, si ha: • 1 n ⎤ ⎡ ⎤ ⎡1 n ⎤ ⎡1 n xt ut ) ⎥ = lim ⎢ ∑ E(ut2 xt x′t ) ⎥ = p lim ⎢ ∑ ut2 xt x′t ⎥ ; Avar(xu ) = lim ⎢ var( ∑ n →∞ n →∞ n n t =1 ⎣ ⎦ n→∞ ⎣ n t =1 ⎦ ⎣ t =1 ⎦ e con argomenti del tutto simili a quelli presenti nella nota 11, si ha • 11 ⎡1 n ⎤ ⎡1 n ⎤ p lim ⎢ ∑ (uˆt2 xt x′t ) ⎥ = p lim ⎢ ∑ ut2 xt x′t ⎥ . n →∞ n n →∞ n ⎣ t =1 ⎦ ⎣ t =1 ⎦ ( ) Dall’uguaglianza uˆt2 = ( (uˆt − ut ) + ut )2 = ((uˆt − ut ) 2 + ut2 − 2ut (uˆt − ut ) = ut2 + ⎡ x′t (βˆ − β) ⎤ − 2ut x′t (βˆ − β) , sommando ⎣ ⎦ 2 n n rispetto a t , dividendo per n e passando al limite (in probabilità) per n → ∞ , si ha p lim 1 ∑ uˆt2 = p lim 1 ∑ ut2 = σ 2 . n →∞ n n →∞ n t =1 t =1 8 3-Econometria, a.a. 2014-15 Dalle precedenti segue immediatamente che −1 −1 ⎛1 n ⎞ ⎛1 n ⎞⎛ 1 n ⎞ Avar(βˆ ) = ⎜ ∑ xt x′t ⎟ ⎜ ∑ uˆt2 xt x′t ⎟⎜ ∑ xt x′t ⎟ . ⎝ n t =1 ⎠ ⎝ n t =1 ⎠⎝ n t =1 ⎠ Lo stimatore ora costruito e` denominato indifferentemente stimatore di White o robusto all’eteroschedasticità (HC); alcune sue non sostanziali varianti, qui non segnalate, sono indicate con HC1, HC2, HC3. Caso c): Le variabili del processo {xt ut } sono debolmente correlate e allora la varianza asintotica di xu ha una rappresentazione che coinvolge anche le covarianze delle variabili del processo (vedi teorema 3 in 3-2). Un stimatore consistente di Avar(βˆ ) è stato costruito da Newey-West; qualche dettaglio sulla sua costruzione si trova in 3-9. Nei software econometrici è indicato con il nome degli autori oppure con la sigla HAC (heteroskedasticity and autocorrelation consistent). Osservazione 1: La costruzione dello stimatore di White non richiede alcuna informazione su E(ut2 | Ωt ) , e` allora ragionevole, e se ne avrà conferma più avanti, che, in presenza di opportune informazioni sulla eteroschedasticita`, i metodi generali per la costruzione degli stimatori (fino a questo momento il metodo OLS che coincide con il metodo dei momenti) possano essere adattati per ottenere stimatori più efficienti. A questo punto però è anche abbastanza naturale porre il problema della ricerca di buoni modelli per E(ut2 | Ωt ) . L’argomento, nell’ambito delle serie temporali, ha avuto recentemente particolare attenzione da parte degli econometristi, portando a risultati interessanti sia dal punto di vista teorico che da quello applicativo. top 3-5 Appendice: Convergenza delle successioni di variabili aleatorie e il teorema del delta metodo Il principale risultato di questo paragrafo e` il teorema del delta metodo; il resto del paragrafo e` dedicato al richiamo di alcune proprieta` (senza dimostrazione ) delle successioni di variabili aleatorie convergenti. Proposizione 1 – Sia a(⋅) una funzione a valori vettoriali continua. Allora p p a) z n → α ⇒ a ( z n ) → a ( α ) ; b) z n → z ⇒ a ( z n ) → a ( z ) . d d Una immediata conseguenza della a) della precedente proposizione è la stabilità della convergenza in probabilità sotto le usuali operazioni aritmetiche. Più precisamente 9 3-Econometria, a.a. 2014-15 i) p ⎧ ⎪ xn + yn → β + γ p p ⎪⎪ x p β xn → β , yn → γ ⇒ ⎨ n → purchè γ ≠ 0 y γ n ⎪ p ⎪ ⎪⎩ xn ⋅ yn → β ⋅ γ ii) Yn → Γ, Γ matrice invertibile ⇒ Yn−1 → Γ −1 . p p Un risultato analogo, utilizzando il punto b), si ha per la convergenza in distribuzione. Teorema 2 (di Slutsky) – Siano α e A rispettivamente un vettore e una matrice di numeri reali. p d d ⎛ ⎞ a) ⎜ x n → x, y n → α ⎟ ⇒ x n + y n → x + α; ⎝ ⎠ p p d ⎛ ⎞ b) ⎜ x n → x, y n → 0 ⎟ ⇒ y′n x n → 0; ⎝ ⎠ p d d d ⎛ ⎞ c) ⎜ x n → x, A n → A ⎟ ⇒ A n x n → Ax , inoltre se x ∼ N ( 0; Σ ) allora A n x n → N ( 0; AΣA′ ) ; ⎝ ⎠ p d d ⎛ ⎞ d) ⎜ x n → x, A n → A, A è invertibile ⎟ ⇒ x′n A −n1x n → x′A −1x ; inoltre se x ∼ N ( 0; A ) allora ⎝ ⎠ x′n A n−1x n → χ k2 essendo k la dimensione di x . d p Proposizione 3 – Se x n → x e {z n } è una sequenza di variabili aleatorie tale che x n − z n → 0 (o d equivalentemente zn = xn + o p (1) ; quando cio` accade si dice che le due sequenze di variabili sono asintoticamente equivalenti) allora z n ( = ( z n − x n ) + x n ) → x . d Teorema 4 (del “delta metodo”) – Sia z ∼ N ( 0; Σ ) e {x n } una sequenza di vettori aleatori in R k p tali che x n → β e n ( x n − β ) → z . Sia inoltre a(⋅) : R k → R r con r ≤ k , una funzione continua d con le sue derivate e sia A ( β ) = ( r ×k ) ∂a (β) di rango massimo r . Allora si ha ∂β ( ) n ( a(x n ) − a(β) ) → A ( β ) z ∼ N ( 0; A ( β ) ΣA ( β ) ') . d Dimostrazione. Intanto dal teorema di Lagrange per ogni n esiste y n appartenente al segmento congiungente x n e β tale che 10 3-Econometria, a.a. 2014-15 a(x n ) − a(β) = A ( y n )( x n − β ) .( 12 ) Ora essendo p y n → β , (in quanto i) {x n } converge in probabilita a β e y n appartiene al segmento congiungente x n e β ); p A ( y n ) → A (β) ; (essendo la funzione A continua); ii) dalla c) di teorema 2, si ha n ( a(x n ) − a(β) ) → A ( β ) z . d top 3-6 Test sulle ipotesi: il test di Wald Il paragrafo e` dedicato interamente alla costruzione (della classe) dei test di Wald, su ipotesi lineari o nonlineari sul parametro β , che come e` naturale hanno soltanto validità` asintotica. Gli argomenti a cui si e` fatto cenno in 2-5 possono essere utilizzati per costruire altri test (LM( 13 ) e LR), la cui presentazione e` rinviata. Al momento, questi ultimi possono apparire meno vantaggiosi in quanto, mentre i test di Wald utilizzano soltanto il modello non vincolato, che e` certamente lineare, gli altri due utilizzano il modello vincolato (il primo soltanto quello, il secondo entrambi) che in presenza di ipotesi non lineari e` non lineare. Il test di Wald non e` comunque esente da inconvenienti, uno e` segnalato nella osservazione alla fine del paragrafo. Il contesto in cui la classe di test di Wald e` utilizzabile, e` molto piu` generale di quello dei modelli lineare, come risulta chiaro da quanto verra` esposto. Sia β̂ uno stimatore del parametro β (qui non e` necessario che β sia il parametro di un modello lineare) tale che i) ˆ , n (βˆ − β) → N (0, Avar(β)) d ii) e` disponibile Avar(βˆ ) uno stimatore consistente per Avar(βˆ ) , 12 Il teorema di Lagrange vale per funzioni a valori reali, pertanto y n è differente per ciascuna coordinata della funzione a(⋅) , ma ciò è irrilevante; ciò che conta è che ciascun y n appartiene al segmento congiungente x n e β . Data la semplicita` di realizzazione, si descrive il test LM nel caso di ipotesi del tipo H 0 : β1 = 0 , per il modello lineare con intercetta ed errori omoschedastici yt = x′t β + ut e β′ = (β1′ , β′2 ) , senza fornire alcuna giustificazione. Primo 13 passo: Si stima il modello e sia {uˆt } la sequenza dei residui. Secondo passo: Si stima con il metodo OLS il modello ausiliario uˆt = x′t γ + error e si considera il coefficiente di determinazione Rc2 . Terzo passo: Si rifiuta l’ipotesi nulla se nRc2 > χ k2 ,1−α , essendo k1 la dimensione di β1 . 1 11 3-Econometria, a.a. 2014-15 e si considerano le seguenti due ipotesi statistiche sul parametro β : 1) {H 0 : Rβ = b , (Ipotesi lineari) H1 : Rβ ≠ b , essendo R una matrice di ordine r × k , con r ≤ k e di rango massimo. 2) (Ipotesi non lineari)) A (β) = ( r ×k ) {H 0 : a(β) = 0 , H1 : a(β) ≠ 0 , essendo a : R k → R r (r ≤ k ) c la matrice ∂a(β) ha rango massimo. ∂β Costruzione del test di Wald con livello di significativita` α : Caso 1 – Si considera la statistica ′ ⎡ R Avar(βˆ )R ′ ⎤ ⎥ W = Rβˆ − b ⎢ n ⎢ ⎥ ⎣ ⎦ ( ) −1 ( Rβˆ − b ) (14) , denominata la statistica di Wald per l’ipotesi H 0 (essa misura la distanza pesata di Rβˆ da b ( = Rβ ) quando H 0 e` vera, con peso pari all’inversa della stima della varianza) e per essa si ha p n (Rβˆ − b) → N (0, RAvar(βˆ )R′) , Avar(βˆ ) → Avar(βˆ ) e Rβ ha dimensione r . d Da quest’ultima proprieta`, dalla definizione di W e dalla proprieta` d) del teorema 2 in 2-5, segue che W → χ r2 , d e pertanto il test con livello di significatività α , valido per campioni sufficientemente grandi, e` “Si rifiuta l’ipotesi H 0 se W > χ r2,1−α ”. Caso 2 – In questo caso, essendo • ( ) n a(βˆ ) − a(β ) → N (0, A(β)Avar(βˆ ) A(β)′) (segue dal teorema del “delta metodo”); d p • A(βˆ ) → A(β) ; • Avar(βˆ ) → Avar(βˆ ) ; p la statistica di Wald per l’ipotesi H 0 (cioe` la distanza pesata di a(βˆ ) da 0 ) ha la seguente rappresentazione ′ ⎡ A (βˆ )(Avar(βˆ )) A(βˆ )′ ⎤⎥ W = a(βˆ ) − 0 ⎢ n ⎢ ⎥ ⎣ ⎦ ( ) 14 −1 (a(βˆ ) − 0) , Nella costruzione di test su ipotesi, sui parametri di un modello con errori eteroschedastici, gretl denota ancora con F la statistica test, ma in questo caso essa e definita dall’uguaglianza F = W / r .. 12 3-Econometria, a.a. 2014-15 inoltre, nell’ipotesi H 0 , ancora dalla d) di teorema 2 in 2-5, segue che W → χ r2 , d che consente, come prima, la costruzione del test con validita` asintotica e con livello di significativita` α . Osservazione: • E’ opportuno ricordare che, quando gli errori sono omoschedastici, la statistica di Wald (per ipotesi lineari) coincide con rF , essendo F la statistica di Fisher,( 15 ) mentre quando gli errori sono eteroschdastici la statistica F non ha l’usuale significato, ma e` definita come W / r . • La statistica di Wald per ipotesi non lineari presenta il grosso inconveniente di non essere invariante rispetto alla rappresentazione della ipotesi H 0 ; in realtà i valori assunti dalla statistica nello stesso campione possono essere molto diversi in presenza di differenti, ma equivalenti rappresentazioni (p.es. H 0A : β1β 2 = 1 e H 0B : β1 = 1 β2 per il modello yt = β 0 + β1 x1t + β 2 x2t + ut ). Osservazione (come premessa a qualche generalizzazione, cfr. cap. 4): Una lettura superficiale del contenuto di questo capitolo puo` far pensare che la rappresentazione analitica dello stimatore del parametro β abbia un ruolo di primaria importanza (come peraltro accade nel capito 2). In realta` e` necessario soltanto che lo stimatore esista per n grande (identificabilita` al finito); le proprieta` (forse) potrebbero essere stabilite senza utilizzare la rappresentazione (per uno studente di matematica tale ircostanza non dovrebbe sembrare strana), mentra la stima, in quanto minimo di una funzione obiettivo, e` individuabile con metodi numerici. top 3-7 Test sulle ipotesi: Il Metodo Bootstrap Nella costruzione dei test, il problema principale e` quello di individuare la distribuzione di probabilità, nell’ipotesi H 0 , della statistica che individua la classe dei test (detta brevemente “statistica test”). Il problema citato non e` pero` di facile soluzione. I risultati ottenuti nei paragrafi precedenti, non sono certo soddisfacenti per varie ragioni, tra le altre • sono per il momento validi in modelli molto semplici, • hanno soltanto validita` asintotica e allora lasciano sempre senza risposta la domanda: il campione a disposizione e` realmente grande? Il principio che sara` enunciato piu` avanti consente di affrontare il problema da un’altra 15 F = [ (RSSR − USSR ) / r ] / [ USSR /(n − k ) ] (cfr.2-4). 13 3-Econometria, a.a. 2014-15 angolazione e di ottenere risposte, quando non ci sono altre procedure e talvolta anche migliori quando ci sono. La sua applicabilita` non e` limitata alla sola costruzione di test, come potrebbe apparire dalla lettura di questo patragrafo.. Definizione – Se M e` un modello (dunque un insieme di strutture) per una popolazione o equivalentemente per un DGP (Data Generating Process) e M 0 e` la (vera) struttura che ha generato i dati a disposizione (il campione della popolazione), una eventuale struttura (o DGP) M̂ del modello, individuata (con metodi statistici) attraverso i dati e` detta DGP-Bootstrap. Osservazione: • Non si deve confondere il modello M della definizione con il modello ( M (θ))θ sul quale si deve fare inferenza. E’ abbastanza ragionevole ritenere che il primo debba contenere il secondo, per il resto non ci sono altre limitazioni; non e’ necessaria neppure una sua rappresentazione, serve soltanto individuare (in qualche modo) quello che nella definizione è denominato DGP-Bootstrap. • Soltanto se il modello sul quale si fa inferenza è completamente specificato la ricerca del DGP- Bootstrap è in qualche senso standard; infatti se M (θ) e la struttura caratterizzata dal parametro θ , sarà sufficiente considerare M (θˆ ) con θ̂ stima di θ . In tutti gli altri casi si dovranno utilizzare procedure ad hoc per individuare M̂ e non è detto che esso debba essere una struttura del modello sul quale si fa inferenza (vedi l’ultimo esempio in questo paragrafo). Il principio del bootstrap( 16 ): Nei problemi di inferenza, il mondo reale (evidentemente non noto) rappresentato dalla struttura M 0 (di un modello M ) puo` essere sostituito dal mondo bootstrap (noto e quindi simulabile) rappresentato dalla struttura M̂ . ( 17 ) Osservazione: • Le risposte ai problemi di inferenza, ottenute utilizzando il principio del bootstrap, non potranno che essere approssimate. Si richiama l’attenzione sul termine “approssimato” che non ha alcun significato, se non accompagnato da altre informazioni. • In un file di commenti alla lezione del 9-10-2014 e` stato descritto il metodo bootstrap per la costruzione di stime di intervallo; basta poco per convincersi che anch’esso si basa sullo stesso principio. 16 Il principio del bootstrap fu formulato da Efron nel 1979. . 17 Si segnala che come tutti i principi, quello ora enunciato e` utilizzato frequentemente senza porsi tanti problemi, (come per esempio se ci sono le condizioni per la sua validita` e qual e` la qualita` dell’approssimazione; i risultati su tali questioni sono complicati e non esaurienti) specialmente nei casi in cui non ci sono metodi alternativi. Naturalmente quando si utilizzano queste procedure senza un minimo di supporto teorico, potrebbe accadere che le risposte siano completamente errate. 14 3-Econometria, a.a. 2014-15 Si presentano ora alcune semplici applicazioni del principio del bootstrap nella costruzione dei test, forse in grado di chiarire i punti rimasti oscuri nella breve introduzione. Nella parte finale del paragrafo, si esamina un caso in cui la costruzione del test con il metodo bootstrap richiede qualche accorgimento non del tutto ovvio. Nel titolo del primo esempio, si usa l’espressione Monte Carlo (e non bootstrap); in quanto nella discussione non si utilizza il principio del bootstrap, ma si eseguono soltanto simulazioni. Cio` e` reso possibile dal fatto che • il modello parametrico M (θ) sul quale si fa inferenza e` completamente specificato (e dunque, come segnalato in una precedente osservazione il mondo bootstrap è la struttura M (θˆ ) ); • come mondo-bootstrap si puo` però prendere un qualunque M (θ) (non necessariamente M (θˆ ) ), anche se nelle applicazioni per ragioni numeriche, e` preferibile usare M (θˆ ) . L’esempio comunque fornisce spunti su come il principio del bootstrap puo` essere utilizzato.. La definizione che segue individua due classi di test; per la prima si puo` usare il metodo di Monte Carlo (e quindi solo simulazioni), per la seconda il principio del bootstrap e` certamente ed efficacemente utilizzabile (la motivazione di quest’ultima affermazione non e` riportata, per le ragioni dette nella nota 17). Definizione 1: Un test statistico si dice pivotale se, nell’ipotesi H 0 , la distribuzione della statistica che lo definisce è la stessa quale che sia il DGP (per una fissata lunghezza del campione e per assegnati valori delle variabili esogene) del modello. Un test si dice asintoticamente pivotale se a restare invariata è soltanto la distribuzione asintotica. Osseravzione: I test costruiti nel capitolo 2 sono pivotali, quelli costruiti nel paragrafo 3.6 sono asintoticamnete pivotali. Il Metodo di Monte Carlo (per il calcolo del p − valore in un test pivotale)( 18 ): In questo caso si richiede anche che il modello M (θ) sia completamente specificato. Sia T la statistica che si utilizza per la costruzione del test, sia τˆ il valore assunto da T nel campione di lunghezza n a disposizione e si supponga che la classe dei test sull’ipotesi sia del tipo “Si rifiuta H 0 se T > c ”. Essendo il test statistico pivotale, la distribuzione della statistica che lo definisce (che potrebbe 18 La descrizione del metodo puo` (forse) risultare piu` semplice se si fa riferimento al modello lineare classico yt = α + β xt + γ zt + ut con u ∼ N (0, σ 2 I n ) e all’ipotesi H 0 : γ = 0 , per la quale il ben noto test e` pivotale. Qui la classe dei test e` “Si rifiuta H 0 se T > c con T = γˆ / E.S .(γˆ ) . 15 3-Econometria, a.a. 2014-15 eventualmente dipendere dalle variabili esogene presenti nel modello), rimane la stessa quale che sia il DGP del modello che verifica l’ipotesi H 0 . Si descrivono i passi che consentono di costruire la distribuzione empirica di T (quando l’ipotesi H 0 e` vera), e il p -valore del campione. Sarà omessa la costruzione del valore critico per un fissato livello di significativita`, che per la verita` non presenta particolari difficoltà aggiuntive. Step 1 – Si stima il modello utilizzando i dati a disposizione e si calcola il valore τˆ della statistica T nel campione. Step 2 – Si fissa una (qualunque) struttura M (θ) che verifica l’ipotesi H 0 , detta DGP-Monte Carlo( 19 ). Step 3 – Costruzione di (τ 1* ,… ,τ B* ) , B simulazioni della variabile T , con B un fissato intero.( 20 ) E` sufficiente descrivere la costruzione di τ 1* : Si considerano n simulazioni del DGP-Monte Carlo (non dimenticare che il modello e` completamente specificato), con esse si stima il modello M (θ) e si calcola τ 1∗ (il valore della statistica T nel campione utilizzato nella stima). Qualche ulteriore dettaglio è fornito nella nota in basso( 21 ). Step 4 (calcolo del p -valore ) – Per la classe di test considerati, il p -valore (relativo al campione a dsiposizione) non è altro che P(T ≥ τˆ H 0 ) , allora una sua stima è data dal suo valore empirico e dunque dalla frazione dei τ *j che sono maggiori di τˆ ; in simboli pˆ -valore = 1 B 1 B I (τ *j > τˆ) = 1 − ∑ I (τ *j ≤ τˆ) , ∑ B j =1 B j =1 dove è I (τ ∗ ≤ τˆ) = 1 quando τ ∗ ≤ τˆ , altrimenti è uguale a 0. 19 Se si fa riferimento al modello e all’ipotesi nella precedente nota, basterà considerare una struttura del modello che ha γ = 0 e valori arbitrari per gli altri parametri α , β e σ 2 ; per esempio α = 1, β = 2 e σ 2 = 1 . In realtà, qualche precauzione nella scelta dei valori dei parametri va presa, per evitare problemi di carattere numerico; potrebbe allora essere conveniente considerare le stime OLS αˆ , βˆ e σˆ 2 costruite in step 1 (o valori ad ad essi numericamente vicini); in tal caso si ottiene quello che e` stato denominato DGP-Bootstrap.. 20 Sulla scelta di B , dal punto di vista teorico, è richiesto soltanto che sia sufficientemente grande. Dal punto di vista numerico si prova che per evitare ulteriori approssimazioni, per test con livelli di significatività standard, buone scelte sono 99, 199, 299,…….; e` opportuno che ( B + 1)α sia un intero. Davidson e MacKinnon suggeriscono di ripetere la procedura per diversi valori di B crescenti e di fermarsi quando per il fissato livello di significatività la decisione suggerita dal test è chiara. Costruzione di n simulazioni del DGP-Monte Carlo: Si effettuano n simulazioni di una normale con media 0 e varianza σˆ 2 , siano (u1∗ ,… , un∗ ) , e si pone yt∗ = αˆ + βˆ xt + ut∗ per t = 1,…, n . Calcolo di τ 1∗ : Con il campione ( yt∗ , xt , zt ) 21 per t = 1,…, n si stima il modello non ristretto yt = α + β xt + γ zt + ut e si denota con τ 1∗ il valore della statistica T nel campione. 16 3-Econometria, a.a. 2014-15 Il metodo bootstrap (o Bootstrapping) (per un test non pivotale): Ora la statistica test potrebbe essere, oppure no, asintoticamente pivotale (come già segnalat, nel caso la statistica sia asintoticamente pivotale ci sono alcuni risultati teorici sulla qualita` dell’approssimazione), inoltre il modello potrebbe essere a) completamente specificato (il generico DGP (o struttura) del modello è caratterizzato soltanto da parametri reali); b) parzialmente specificato (i parametri del modello non caratterizzano il generico DGP). Nell’applicazione del principo del bootstrap non ci sono procedure standard, e allora non si potra` che procedere con degli esempi. Inizialmente si considerano due semplici modelli lineari, successivamente si considera un modello leggermente piu` complesso, dove l’applicazione del metodo richiede qualche particolare accorgimento. Il Metodo Bootstrap nel caso di modelli completamente specificati: Si considera il modello yt = x′t β + z′t γ + δ yt −1 + ut , ut ∼ n.i.d (0, σ 2 ) (con β ∈ R k1 , γ ∈ R k2 , k = k1 + k2 ) e l’ipotesi statistica H 0 : γ = 0 . Si osserva preliminarmente: • La presenza di yt −1 tra i regressori rende il vettore dei regressori non strettamente esogeno (ma soltanto predeterminato o esogeno); • Le stime OLS dei parametri sono consistenti e la statistica W ( = k2 F ) che si utilizza per la costruzione del test e` asintoticamente pivotale; χ k2 ; • W ha distribuzione asintotica • Nella procedura di stima la prima osservazione ( y1 , x1 , z1 ) è inutilizzabile per la presenza nel 2 modello di yt −1 ; • Se l’ipotesi H 0 è vera (dunque γ 0 = 0 ), e si denota yt = x′t β + δ yt −1 + ut , ut ∼ n.i.d (0, σ 2 ) con M (θ) ; il mondo reale e` allora M (θ0 ) , avendo denotato con θ0 il vettore dei valori veri dei parametri. Costruzione del test-Bootstrap: Step 1 – Si stima il modello originario (non ristretto) e sia ϕ̂ il valore della statistica ⎛ (RSSR − USSR) / k2 ⎞ F ⎜= ⎟ nel campione a disposizione di dimensione n − 1 ; ricordare che non e` ⎝ USSR /(n − 1 − (1 + k )) ⎠ utilizzabile la prima osservazione. Step 2 – (Costruzione del DGP-Bootstrap o mondo bootstrap) Si stima (con il metodo OLS) il 17 3-Econometria, a.a. 2014-15 modello M (θ) (cioe` yt = x′t β + δ yt −1 + ut ) utilizzando i dati disponibili { yt , xt , z t }t =1,…,n ; siano β, δ e σ 2 la stima dei parametri. Il DGP-Bootstrap (mondo bootstrap) M̂ e` allora la struttura M (θ) : yt = x′t β + δ yt −1 + ut , ut ∼ n.i.d (0, σ 2 ) , con condizione iniziale y1 . I successivi due step riproducono esattamente gli Step 3 e 4 descritti precedentemente; il DGPMonte Carlo è qui sostituito dal DGP-Bootstrap. Step 3 – Costruzione di (ϕ1* ,… , ϕ B* ) , campione-bootstrap della statistica F ( 22 ), di dimensione B . Procedura per il calcolo di ϕ1* : • Si considera un campione (u2* ,… , un* ) di lunghezza n − 1 da una distribuzione N (0, σ 2 ) e si costruiscono (per ricorrenza) le n − 1 osservazioni (y ) ∗ t t = 2,…, n dal DGP yt* = x′t β + δ yt*−1 + ut* , y1* ( = y1 ) ; • Si considera il campione ( yt* , x′t , z′t )t = 2,…,n , denominato campione-bootstrap, e sia ϕ1* il valore della statistica F in esso. Step 4 (il calcolo del p -valore ) – Si procede come in step 4 nella descrizione del Metodo di Monte Carlo. Osservazione: Il metodo bootstrap ora descritto si dice parametrico, in quanto la costruzione del DGP-bootstrap e` fatta utilizzando soltanto stime parametriche Il Metodo Bootstrap nel caso di modelli parzialmente specificati: Si fa ancora riferimento al precedente modello yt = x′t β + z′t γ + δ yt −1 + ut , ma ora si suppone che ut ∼ i.i.d .(0, σ 2 ) e si considera ancora l’ipotesi H 0 : γ = 0 . Gli step per la costruzione del campione bootstrap di F sono esattamente gli stessi descritti precedentemente, si deve soltanto sostituire in Step 3 l’espressione “Si considera un campione (u2* ,… , un* ) di lunghezza n − 1 da una distribuzione N (0, σ 2 ) ” con “Si considera un campione di lunghezza n − 1 dalla popolazione {u2 ,…, un } ” dove (ut )t = 2,…,n sono i residui della stima OLS in step 2. (Per realizzare la procedura ora descritta con gretl vedi “User’s guide” dall’Help, pag. 34, esempio 5.1). Osservazione: i) Il metodo bootstrap ora descritto si dice non parametrico, in quanto nella costruzione del 22 Qui si simula la distribuzione che ha la statistica F nel mondo bootstrap, mentre nel precedente esempio si simula la distribuzione che ha la statistica F in un qualunque mondo e quindi anche in quello reale. 18 3-Econometria, a.a. 2014-15 DGP-bootstrap si utilizza la distribuzione empirica dei residui. ii) Per una giustificazione informale dell’utilizzo della distribuzione empirica dei residui, si osserva che • per una variabile aleatoria la cui distribuzione non è nota (nel caso in esame la variabile errore ( u )) se sono disponibili n sue osservazioni, una simulazione della sua distribuzione empirica si ottiene effettuando n estrazioni con restituzione dalle n osservazioni; • essendo le stime OLS consistenti, le osservazioni della variabile u che non sono disponibili possono essere sostituite dai residui. Altre procedure Bootstrap: Nei precedenti esempi sembra essenziale l’ipotesi di omoschedasticita` degli errori del modello. Se cosi` fosse il metodo avrebbe avuto un limitato campo di applicazione (in econometria e` molto restrittiva l’ipotesi di omoschedasticita`), ma non e` cosi; in letteratura si trovano vari metodi che consentono la presenza negli errori della eteroschedasticita` e/o della autocorrelazione. Qui e` costruito un test bootstrap, proposto da Freedman nel 1981, su un ipotesi lineare per un modello di regressione lineare con errori eteroschedastici e con dati del tipo cross-section. Siano ( yt , xt , z t )t =1,…,n dati del tipo cross-section, yt = x′t β + z′t γ + ut , E(ut xt , z t ) = 0 un modello (per i dati a disposizione) correttamente specificato e identificato con errori eventualmente eteroschedastici. Costruzione del test bootstrap (calcolo del p -value) per l’ipotesi statistica { H 0 : γ = 0 . Step 1 – Si stima il modello con errori eteroschedastici con il metodo OLS, siano β̂ e γ̂ le stime dei parametri e sia ŵ il valore della statistica W (di Wald) per l’ipotesi H 0 , nel campione; Step 2 (Costruzione del DGP-bootstrap) – Si considera come mondo bootstrap (o DGPbootstrap) la popolazione (finita) dei dati ( yt , xt , z t )t =1,…,n .( 23 ) Osservazione: Si anticipa che le diverse n − ple di simulazioni del mondo bootstrap non verificheranno l’ipotesi H 0 (come invece sembra che sia necessario, se si guardani i precedenti esempi), sara` pertanto necessario qualche aggiustamento alle precedenti procedure che potevano sembrare standard. Step 3 – Costruzione di ( w1* ,… , wB* ) , campione-bootstrap della statistica W , di dimensione B . Procedura per il calcolo di w1* : 23 Notare che anche in questo caso, la scelta fatta è coerente con la definizione, si è considerato come modello M quello banale costituito dalla totalità delle strutture 19 3-Econometria, a.a. 2014-15 • Per costruire n osservazioni ( yt∗ , x∗t , z ∗t )t =1,…,n dal DGP-bootstrap, si effettuano n estrazioni con restituzione dall’insieme {1,… , n} , siano (i1 ,… , in ) e si pone ( yt∗ , x∗t , z ∗t ) = ( yit , xit , z it ) per t = 1,… , n . • Come gia` osservato il campione bootstrap ( yt∗ , x∗t , z ∗t )t =1,…,n non verifica l’ipotesi H 0 e allora si usa il seguente accorgimento: si considera w1* , il valore della statistica (di Wald) W per l’ipotesi {H * 0 : γ = γˆ , dove γ̂ e` la stima di γ ottenuta in step 1. Step 4 (il calcolo del p -valore per il test sull’ipotesi { H 0 : γ = 0 ) – Si procede come nei casi precedenti utilizzando il valore della statistica ŵ e il campione bootstrap ( w1* ,… , wB* ) per W . Osservazione: In un articolo del 1999, Flachaire propose la seguente modifica al precedente step 2: Step 2’ (Costruzione del DGP-bootstrap) – Sia ( uˆt )t =1,…, n il vettore dei residui della stima OLS del modello non ristretto e β la stima OLS del modello ristretto (dalla condizione γ = 0 ). Allora il DGP-bootsrap e` dato dalla popolazione finita ( yt , xt , z t )t =1,…,n con yt = x′t β + uˆt e verifica ovviamente l’ipotesi nulla. Gli altri passi rimangono inalterati, con la sola modifica che questa volta DGP-bootsrap verifica l’ipotesi H 0 top 3-8 Appendice: Efficienza asintotica degli stimatori OLS Lo scopo esplicito di questo paragrafo è quello di provare l’asintotica efficienza (il cui significato sarà chiarito nel teorema che segue) degli stimatori OLS nei modelli lineari con errori omoschedastici. In realta` l’aspetto piu` interessante e` mostrare come costruire altri stimatori di β che non richiedono l’appartenenza di x t ad Ω t . Maggiori dettegli su questo aspetto si trovano nel capitolo 7. Si fa sempre riferimento al modello lineare presente all’inizio del capitolo e si suppone che ( ) sussistano le ipotesi che rendano lo stimatore βˆ = βˆ OLS asintoticamente normale. La classe degli stimatori costruiti con il metodo dei momenti. Il metodo dei momenti descritto nel capitolo 1 suggerisce la seguente procedura per la costruzione di altri stimatori di β . Sia infatti {wt } un processo di dimensione i) k tale che w t ∈ Ωt per ogni t (e quindi E(w t ut ) = 0 ), 20 3-Econometria, a.a. 2014-15 ii) Il processo { yt , xt , w t } e` strettamente stazionario ed ergodico e inoltre la matrice quadrata di def ⎞ 1 n ⎛ ordine k , ⎜ Σ wx = ⎟ E(w t x′t ) = p lim ∑ w t x′t , e` invertibile, n →∞ n t =1 ⎝ ( k ×k ) ⎠ iii) Il processo {w t ut } e` una differenza martingala, allora, considerando la versione empirica dell`uguaglianza in i), si ottiene l`equazione (vettoriale) 1 n ⎛ 1 n ⎞ w u w t ( yt − x′t β) ⎟ = 0 , ∑ ∑ t t ⎜= n t =1 ⎝ n t =1 ⎠ che per la ii) ha un`unica soluzione (per n gtande) −1 −1 n n n n ⎛ ⎞ ˆβ = ⎡ 1 w x′ ⎤ 1 w y ⎜ = β + ⎡ 1 w x′ ⎤ 1 w u ⎟ ; ∑ ∑ ∑ ∑ t t⎥ t t t t⎥ t t w ⎢n ⎢n ⎜ ⎟ ⎣ t =1 ⎦ n t =1 ⎣ t =1 ⎦ n t =1 ⎝ ⎠ βˆ w e` detto stimatore di β con il metodo dei momenti relativo a {w t } (processo delle variabili esogene). Proprietà e osservazioni: 1) Soltanto per ragioni di semplicità formale si fa riferimento a processi del tipo “time-series”, ma quanto si dira` e’ valido anche per dati del tipo “cross section”. Naturalmente si assume che siano validi (quando necessario) la legge dei grandi numeri e il teorema del limite centrale. 2) La costruzione di βˆ w non richiede l’esogeneità del processo {xt } , ma soltanto un qualche legame tra w t e x t che assicuri l’invertibilità di E(w t x′t ) ; 3) βˆ w e` uno stimatore consistente di β ; 4) −1 −1 n (βˆ w − β) → N (0, Avar(βˆ w )) con Avar(βˆ w ) = ( Σ wx ) Σuw ( Σ′wx ) , dove d 1 n 2 ⎡ 1 n ⎤ ⎛ ⎞ 2 ′ E( ) lim Σuw = lim var ⎢ w u u w w p ut w t w′t ⎟ . = = ∑ ∑ t t⎥ t t t ⎜ →∞ n →∞ n n t =1 ⎠ ⎣ n t =1 ⎦ ⎝ Per la validita` delle seguenti proprieta` 5) e 6) si deve supporre che gli errori nel modello siano omoschedastici, cioe` E(ut2 | Ωt ) = σ 2 . 1 n ⎛ def ⎞ 5) Σuw ⎜ = E(ut2 w t w′t ) = σ 2 E(w t w′t ) ⎟ = σ 2 Σ w con Σ w = p lim ∑ w t w ′t , n →∞ n ⎝ ⎠ t =1 6) Per ogni n , denotata con W la matrice delle osservazioni di ( w t )1≤t ≤ n e con X la matrice ( n×k ) delle osservazioni di ( xt )1≤t ≤n , si ha W′X W′W −1 −1 , Σ w = p lim Avar(βˆ w ) = σ 2 p lim ⎡ n ( W′X ) ( W′W )( X′W ) ⎤ ⎦ n →∞ n →∞ n →∞ ⎣ n n Σ wx = p lim 21 3-Econometria, a.a. 2014-15 7) Per ogni n si ha ( W′X ) −1 ( W′W )( X′W ) −1 ≥ ( X′X ) −1 o equivalentemente (cfr. iv) in 2-3) ( X′W )( W′W ) ( W′X ) ≤ ( X′X ) ( ⇔ ( X′ ( I k − PW ) X ) ≥ 0 ) . −1 L’ultima disuguaglianza, cioè che la matrice X′ ( I k − PW ) X è semidefinita positiva, si prova immediatamente. Infatti essendo ( I k − PW ) una proiezione ortogonale si ha ( I k − PW ) = ( I k − PW )′ e quindi per ogni z ∈ R k , si ha 2 z′X′ ( I k − PW ) Xz = z′X′ ( I k − PW )′ ( I k − PW ) Xz = ( I k − PW ) Xz ≥ 0 . Dalle precedenti segue immediatamente Teorema: Se il processo {w t } verifica le precedenti condizioni i), ii) e iii) e gli errori sono omoschedastici, allora si ha ( ) Avar(βˆ ) = Avar(βˆ OLS ) ≤ Avar(βˆ w ) . Il contenuto del teorema si può riassumere brevemente nel modo seguente: In presenza di omoschedasticità degli errori, lo stimatore OLS è il più efficiente (asintoticamente) tra tutti gli stimatori costruiti con il metodo dei momenti. 3-9 Appendice: Lo stimatore di Newey-West (o HAC) Si premette il seguente semplice risultato sulle successioni numeriche, che sara` utilizzato per fornire una rappresentazione della varianza asintotica della media aritmetica di un processo stocastico autocorrelato. Lemma 1: Sia ( an )n una successione numerica. i) an → 0 ⇒ 1 n ∑ ak → 0 , n k =1 ∞ ii) ∑ an converge ⇒ n =1 1 n ∑ kak → 0 . n k =1 Dimostrazione ii) – Intanto sussistono le seguenti: n a) ∑ ka k =1 k = a1 + 2a2 + + nan = (a1 + b) per N fissato, N ≤ n si ha n ∑ ka k =1 k n = n k =1 j = k n ∑∑ a k =1 j = k n + (an −1 + an ) + an = ∑ ∑ a j , + an ) + N j n ≤ ∑ ∑ aj + k =1 j = k n n ∑ ∑a k = N +1 j = k j . Ora si osserva che dalla convergenza della serie seguono le seguenti due proprietà 22 3-Econometria, a.a. 2014-15 c) Esiste M > 0 tale che ⎛ aj ⎜≤ ∑ ⎜ j =k ⎝ n n ∑ aj + j =1 k −1 ∑a j =1 j ⎞ ⎟⎟ ≤ M per ogni k , n (limitatezza delle serie ⎠ convergenti) d) Fissato ε > 0 esiste N tale che m ∑a j =l j < ε per N < l < m (criterio di Cauchy), In definitiva da b), c) e d) segue che per un fissato ε e un fissato N come in d) e per n > N si ha 1 n NM (n − N − 1)ε kak ≤ + ∑ n k =1 n n e quindi l’asserto. Dimostrazione di i): Si procede sostanzialmente come nella prova di ii) (utilizzano la ovvia disuguaglianza n N k =1 k =1 ∑ ak ≤ ∑ ak + n ∑ k = N +1 ak ) . Proposizione 2 – Sia {xt } un processo vettoriale (debolmente) stazionario. Posto ⎛ ⎞ Γ j = cov(xt , xt − j ) = E(xt x′t − j ) ⎜ = ⎡⎣ E(xt − j x′t ) ⎤⎦′ = Γ′− j ⎟ per ogni j ∈ Z , ⎝ ⎠ +∞ se la serie ∑ j =−∞ ( ) Γ j e` convergente, allora si ha Avar(x ) = lim var( n x = n →∞ +∞ ∑Γ j =−∞ j . Dimostrazione: Intanto si ha 1 var(x1 + + x n ) = cov [ (x1 + + x n ), (x1 + n 1 = ⎡⎣( Γ 0 + + Γ − n +1 ) + (Γ1 + Γ 0 + + Γ − n + 2 ) + n n −1 n −1 j⎞ ⎛ 1 n −1 = ∑ ⎜1 − ⎟ Γ j = ∑ Γ j − ∑ j Γ j . n⎠ n j =− n +1 j =− n +1 ⎝ j =− n +1 var( n x ) = + xn )] = + (Γ n −1 + + Γ 0 ) ⎤⎦ = L’asserto segue dalla ii) del lemma 1, non appena si passa al limite per n → ∞ . Lo stimatore di Newey-West. Dalla precedente proposizione, posto Γ j = cov(ut xt , ut − j xt − j ) = E(ut ut − j xt x′t − j ) , si ha Avar(xu ) = +∞ ∞ j =−∞ j =1 ∑ Γ j = Γ0 + ∑ (Γ j + Γ′j ) , 1 n inoltre uno stimatore consistente di Γ j e` evidentemente Γˆ j = ∑ uˆt uˆt − j xt xt − j (per ogni j ); si noti n t = j +1 che per tale costruzione sono utilizzate soltanto n − j osservazioni. 23 3-Econometria, a.a. 2014-15 La difficoltà nella costruzione della stima consistente di Avar(xu ) sembra dipendere dalla sua rappresentazione come somma di una serie. La difficoltà però è solo apparente nel caso in cui sia noto che esiste q > 0 tale che Γ j = 0 per j > q ; q in queso caso evidentemente si ha Avar(xu ) = Γˆ 0 + ∑ (Γˆ j + Γˆ ′j ) . j =1 Per affrontare il caso generale, puo` sembrare ragionevole ridurre la somma della serie ad una somma finita (la successione Γ j e` infinitesima e quindi i Γ j sono numericamente trascurabili da un certo indice in poi), ma si e` osservato che con questa procedura spesso si ottiene una stima di Avar(xu ) che non e` definita positiva (circostanza che crea numerosi inconvenienti). Newey-West pensarono allora non solo di ridurre la serie ad una somma finita, ma di pesare i vari addendi, dando maggior peso a quelli la cui stima utilizza piu` osservazioni. Piu` precisamente essi provarono che per una opportuna scelta di q(= q (n)) (che qui non e` riportata, comunque crescente con n ) + q −1 +∞ ⎛ ⎞ ⎡ ⎡ j⎤ ˆ j⎤ ˆ ˆ ˆ ′ Avar(xu ) ⎜ = Γ 0 + ∑ ⎢1 − ⎥ (Γ j + Γ j ) ⎟ = Γ 0 + ∑ ⎢1 − ⎥ (Γˆ j + Γˆ ′j ) . ⎜ ⎟ q⎦ q⎦ j =1 ⎣ j =1 ⎣ ⎝ ⎠ e` uno stimatore consistente di Avar(xu ) , la cui costruzione non presenta particolari problemi di natura numerica ed è presente in tutti i software econometrici. Per concludere si segnala che dopo Newey-West sono stati utilizzati altri pesi nella costruzione dello stimatore di Avar(xu ) . top 24