3-Econometria, a.a. 2014-15
Capitolo 3
3-1 Proprietà asintotiche degli stimatori OLS: Consistenza
3-2 Alcune versioni del teorema del limite centrale
3-3 Proprietà asintotiche degli stimatori OLS: Asintotica normalita`
3-4 Stimatore consistente della varianza asintotica di β̂ : Lo stimatore di White
3-5 Appendice: Convergenza per le successioni di variabili aleatorie e il teorema del “delta
metodo”
3-6 Test sulle ipotesi: il test di Wald
3-7 Test sulle ipotesi: il metodo Bootstrap
3-8 Appendice: Efficienza asintotica degli stimatori OLS
3-9 Appendice: Lo stimatore di Newey-West
I dati economici sono generalmente molto numerosi, pertanto in econometria assumono grande
rilievo i risultati asintotici (validi cioe` in presenza di grandi campioni). Si segnala che dal punto di
vista teorico all’espressione grandi campioni non e` associabile un valore (o range) numerico in
modo univoco, mentre nelle applicazioni econometriche un campione di dimensione maggiore di
100 e` solitamente ritenuto grande.
In tutto il capitolo
{ yt , xt }t∈N
∗
e` un processo stocastico (o equivalentemente un DGP o
popolazione) e
(*)
yt = x′t β + ut , E(ut | Ωt ) = 0, xt ∈ Ω t per t = 1, 2,…
un suo modello, che si assume correttamente specificato (cioe` il processo soddisfa (*) per
qualche valore di β ). Ω t rappresenta il complesso delle informazioni che sono (o potrebbero
essere) disponibili in t (prima che sia osservata yt ), pertanto per dati cross-section Ω t contiene( 1 )
tutte le variabili esogene (nell’unita` statistica t ) della realta` economica considerata, mentre per
dati time-series Ωt non solo contiene le variabili esogene all’istante t , ma anche i loro ritardi ed i
ritardi della variabile dipendente yt .
Nella attuale situazione, se n e` un qualunque (fissato) intero naturale, se esiste lo stimatore di
β costruito con il metodo dei momenti (che coincide con lo stimatore OLS) sara` denotato con β̂
senza evidenziare la sua dipendenza da n (per le sue diverse rappresentazioni vedi il paragrafo 1-3).
Nei primi paragrafi sono riportate le principali proprieta` asintotiche di tale stimatore e le ipotesi
1
Una espressione piu` rigorosa e`: (la σ -algebra) Ωt contiene la σ -algebra generata da tutte le variabili esogene in t .
1
3-Econometria, a.a. 2014-15
che ne assicurano la validità.
Si segnala che nel seguito (in questo e nei successivi capitoli) le ipotesi sull’esistenza dei
momenti delle variabili aleatorie saranno omesse; dunque si assume implicitamente che tutte le
variabili sono dotate dei momenti necessari perche` i risultati teorici invocati siano utilizzabili.
3-1 Proprietà asintotiche degli stimatori OLS: Consistenza
In econometria, la consistenza degli stimatori (cioe` la convergenza in probabilita` dello
stimatore verso il valore vero) ha un ruolo fondamentale e le ipotesi che la garantiscano si dicono
condizioni di identificabilità; in tal caso il modello si dice identificato (asintoticamente) ( 2 ).
Proposizione 1 – Se per il modello sono valide le seguenti ipotesi
a) La matrice
1 n
∑ xt x′t è invertibile per ogni n sufficientemente grande;
n t =1
−1
⎛1 n
⎞
b) La sequenza ⎜ ∑ xt x′t ⎟ è limitata in probabilità; ( 3 )
⎝ n t =1
⎠
1 n
c) La sequenza ∑ xt ut converge a 0 (in probabilità),( 4 )
n t =1
p
allora lo stimatore β̂ esiste per (ogni) n sufficientemente ed e` consistente (cioe` βˆ → β ; qui β
denota il valore vero del parametro).
Dimostrazione: La condizione a) assicura l’identificabilita` (finita) del modello, e quindi
l’esistenza di β̂ , per n grande. La consistenza segue immediatamente dalla rappresentazione,
−1
⎛1 n
⎞ 1 n
βˆ = β + ⎜ ∑ xt x′t ⎟
∑ xt ut ,
⎝ n t =1
⎠ n t =1
non appena si osserva che il prodotto di due sequenze e` convergente a 0, se una e` limitata in
probabilita` e l’altra convergente a 0.
I seguenti due corollari forniscono condizioni sufficienti per la validità` delle precedenti a), b) e
c), in presenza di modelli per dati del tipo time-series e cross-section rispettivamente. Nel seguito si
fara` riferimento sempre a tali condizioni.
Corollario 1 (dati time-series) – Se
2
L’espressione deriva dal fatto che per un numero di osservazioni che tende ad ∞ , il DGP è univocamente individuato.
3
Una sequenza di variabili aleatorie (Yn ) si dice limitata in probabilità (o tight) e si scrive Yn = O p (1) se
per ogni δ > 0 esiste ε > 0 tale che P( Yn > ε ) < δ per ogni n .
4
p
Una sequenza di variabili aleatorie (Yn ) si dice convergente a 0 in probabilità e si scrive Yn = o p (1) o Yn → 0 , se
per ogni ε > 0 , δ > 0 esiste ν ∈ N tale che (n ≥ ν ⇒ P( Yn > ε ) < δ ).
2
3-Econometria, a.a. 2014-15
a') Il processo {( yt , xt )} e` stazionario (qui basta debolmente stazionario) ed ergodico, ( 5 )
b') La matrice E(xt x′t ) ( = Σ x = Σ per ogni t ) di ordine k è invertibile,
allora lo stimatore β̂ (esiste per n grande ed) e` consistente.
Dimostrazione: Dalla stazionarietà e ergodicità del processo segue la convergenza in probabilità
delle due successioni
1 n
1 n
′
x
x
e
xt ut a Σ e 0 rispettivamente, donde, essendo Σ invertibile,
∑ t t n∑
n t =1
t =1
−1
⎛1 n
⎞
−1
⎜ n ∑ xt x′t ⎟ converge in probabilità a Σ e quindi
⎝ t =1
⎠
•
1 n
∑ xt x′t è invertibile, per n sufficientemente grande (condizione di identificabilita` finita);
n t =1
•
⎛1 n
⎞
⎜ n ∑ xt x′t ⎟
⎝ t =1
⎠
−1
e` limitata.
Corollario 2 (dati cross-section) – Se
a") Le variabili del processo {( yt , xt )} sono indipendenti,
b") Sono soddisfatte alcune condizioni sui momenti che garantiscono la validità della legge dei
grandi numeri per i due processi {xt x′t } e {xt ut } ;( 6 ) (per semplicita` dette condizioni non sono
riportate, esse non sono molto restrittive nelle applicazioni econometriche e pertanto si ritengono
sempre valide),
c")
n
1
( Σ = ) p lim ∑ xt x′t
n
n
e` invertibile,
t =1
allora lo stimatore β̂ (esiste per n grande ed) e` consistente.
Dimostrazione. E` ovvia, non appena si osserva che E(xt ut ) = 0 per ogni t .
5
Definizione di ergodicità per processi strettamente stazionari: per ogni f e g misurabili e limitate si ha
lim E( f (xt ,… , xt + h ) g (xt +l ,… , xt + k + l )) = E( f (xt ,… , xt + h ))E( g ( xt +l ,… , xt + k +l )) ;
l →∞
si noti che per la stazionarietà del processo il secondo membro non dipende da l .
(6)
Si segnalano due classici risultati che sono generalmente indicati con l’espressione “Legge dei grandi numeri”.
n
Teorema: Sia ( X n ) una sequenza di v.a. indipendenti, con E( X n ) = μ n , var( X n2 ) = σ n2 , 1 ∑ μn → μ . Se
n i =1
n
n
p
1
1
σ 2 → 0 si ha ∑ X n → μ .
2 ∑ n
n i =1
n i =1
n
p
Teorema di Khintchine: Sia ( X n ) una sequenza di v.a. i.i.d . con E( X n ) = μ . Allora 1 ∑ X n → μ .
n i =1
3
3-Econometria, a.a. 2014-15
Osservazione: Per provare la consistenza dello stimatore β̂ e` sufficiente la condizione E(xt ut ) = 0
e non la condizione piu` forte E(ut xt ) = 0 come qui si sta assumendo.
top
3-2 Alcune versioni del teorema del limite centrale
Nella seguente definizione si introduce una terminologia di uso frequente.
n (βˆ − β) converge in
Definizione: Se β̂ è uno stimatore del parametro β e la sequenza
distribuzione (per n → ∞ ) verso una distribuzione N (0, Σ) ,( 7 ) allora
La matrice Σ (e quindi lim var( nβˆ ) se esiste)( 8 ) dicesi varianza asintotica di β̂ e si denota
i)
n →∞
con il simbolo Avar(βˆ ) ;
ii) β̂ si dice stimatore
n − consistente di β .
Osservazione: Se β̂ e` uno stimatore
n − consistente di β , allora (βˆ − β ) = O p (1/ n ) (ricordare
che la convergenza in distribuzione implica la limitatezza in probabilità), donde β̂ e` uno stimatore
consistente di β (e dunque converge in probabilita` a β ) e la velocita` della convergenza e`
dell’ordine di 1/ n .
Si segnalano ora alcune versioni del teorema del limite centrale, che saranno utilizzate in queste
lezioni (in letteratura sono disponibili risultati piu` generali); il primo e` utilizzato per dati crosssection, gli altri due per dati time-series senza autocorrelazione e con autocorrelazione
rispettivamente.
Teorema 1 (del limite centrale per processi indipendenti) – Sia {xt } una sequenza di variabili
aleatorie e si pone x =
i)
Se
1 n
∑ xt per ogni n .
n t =1
{xt } ∼ i.i.d .(μ, Σ) , si ha
d
n ( x − μ) → N (0; Σ) e Σ ( = Avar( x ) ) = lim var( n x ) .
n →∞
ii) Se le v.a. x t sono (soltanto) indipendenti (e quindi non equidistribuite), sotto opportune ipotesi
sui
momenti
(non
particolarmente
restrittive
nelle
applicazioni
econometriche),
7
La convergenza in distribuzione di x n a x equivale alla convergenza in distribuzione di λ ′x n a λ ′x per ogni λ .
8
Sussiste il seguente risultato: Se X n → X e E( X nr ) → mr (∈ R ) allora si ha E( X r ) = mr .
d
4
posto
3-Econometria, a.a. 2014-15
1 n
E(xt ) , si ha
∑
n →∞ n
t =1
μ = lim
(
d
)
1 n
var(xt )
∑
n →∞ n
t =1
n ( x − μ) → N (0; Avar(x)) con Avar(x ) = lim var( n x ) = lim
n →∞
Teorema 2 (del limite centrale per differenze martingale) – Se {xt } e` una sequenza di variabili
aleatorie tale che,
•
{xt } è strettamente stazionaria con E(xt ) = 0
•
{xt } è ergodica,
•
{xt } è una differenza martingala (cioè E(xt | xt −1 ,… , x1 ) = 0
e var(xt ) = Σ ,
per ogni t ),
allora
n x → N (0, Σ) .
d
Le ipotesi dell`ultimo teorema del limite centrale non sono esplicite, non solo perche` non sono
semplici, ma soprattutto perche` nelle applicazioni econometriche non ci sono strumenti che ne
assicurino la validita`.
Teorema 3 (del limite centrale per processi autocorrelati) – Sia {xt } un processo strettamente
stazionario ed ergodico con qualche forma di indipendenza (più precisamente di debole
dipendenza) per variabili distanti rispetto all’indice temporale t (un esempio molto particolare e`
fornito dai processi MA( q ) , che saranno introdotti in un prossimo capitolo).
Posto μ = E(xt ) , si ha
n ( x − μ) → N (0, Avar(x)) e Avar(x ) =
d
+∞
∑Γ
j =−∞
j
(che e` convergente),
⎛
⎡
⎤⎞
con Γ j = cov(xt , xt − j ) ⎜ = E ⎢( xt − μ ) ( xt − j − μ )′ ⎥ ⎟ (cfr. 3.9, prop. 2).
⎣
⎦⎠
⎝
top
3-3 Proprietà asintotiche degli stimatori OLS: Asintotica normalita`
I risultati presentati in questo paragrafo sono di primaria importanza, in quanto consentono di
utilizzare gli stimatori OLS nella soluzione di problemi di inferenza statistica.
Teorema 1 (Asintotica normalità degli stimatori OLS) – Si assume che il processo
soddisfa le seguenti condizioni:
a) È valida qualche versione della legge dei grandi numeri per il processo {xt x′t } ;
5
{ yt , xt }
3-Econometria, a.a. 2014-15
1 n
⎛
⎞
=
Σ
p
xt x′t ⎟ ) è invertibile;
lim
b) La matrice ⎜
∑
n →∞ n
t =1
⎝
⎠
c) Sussiste una versione del teorema del limite centrale per il processo {xt ut } e quindi
⎛1 n
⎞ d
n ⎜ ∑ xt ut ⎟ → N (0, Avar(xu )) .
⎝ n t =1
⎠
Allora
ˆ e Avar(βˆ ) = Σ −1Avar(xu ) Σ −1 .
n (βˆ − β) → N (0, Avar(β))
d
Dimostrazione. L’asserto segue immediatamente dalla rappresentazione
−1
⎛1 n
⎞ 1 n
βˆ = β + ⎜ ∑ xt x′t ⎟
∑ xt ut ,
⎝ n t =1
⎠ n t =1
e dalla c) di teorema 2 in 3-5.
Il seguente corollario, la cui dimostrazione segue immediatamente dalle proprieta` delle
successioni convergenti (in probabilita` o in distribuzione), consente di utilizzare il precedente
teorema nei problemi di inferenza.
Corollario – Nelle stesse ipotesi del teorema 1, se e` disponibile uno stimatore consistente di
Avar(xu ) , di solito denotato con il simbolo Avar(xu ) , allora si ha
⎡ Avar(βˆ ) ⎤
⎢
⎥
⎢ n ⎥
⎣
⎦
−1/ 2
(βˆ − β ) → N (0, I ) (in breve
d
d
βˆ − β ≈ N (0, Avar(βˆ ) / n) )
n
ˆ ⎛ = 1 ∑ x x′ ⎞ .
con Avar(βˆ ) = Σˆ −1 Avar(xu )Σˆ −1 e Σ
t t ⎟
⎜ n
t =1
⎝
⎠
Osservazione 1: Tutti i software econometrici, in particolare gretl, in ogni procedura di stima,
accanto a βˆi riportano la radice quadrata dell’ i − esimo elemento diagonale di Avar(βˆ ) / n ,
denominato errore standard di βˆi , in simboli e.s.( βˆi ) , necessario per fare inferenza sul parametro
β i . In alcune circostanze sara` necessario far riferimento alla statistica, la cui osservazione nel
campione e` e.s.( βˆi ) ; per evitare possibili equivoci, per essa si utilizzera` la notazione E.S .( βˆi ) (e
non e.s.( βˆi ) , come invece si e` soliti fare).
Osservazione 2: Nelle seguenti due situazioni, frequenti nelle applicazioni, si possono ritenere
valide le ipotesi del precedente teorema, mentre il problema della costruzione di uno stimatore
consistente di Avar(xu ) sara` affrontato nel prossimo paragrafo.
6
3-Econometria, a.a. 2014-15
1) Dati del tipo cross-section: In questo caso e` ragionevole assumere che il processo
{ yt , xt } sia
mutuamente indipendente e quindi (sotto opportune ipotesi sui momenti che
generalmente si ritengono valide) sussiste il teorema del limite centrale per il processo {xt ut } e la
legge dei grandi numeri per il processo {xt x′t } , mentre l’invertibilità di Σ , qui come nel caso
successivo, e conseguenza dell`ipotesi di identificazione del modello.
2) Dati del tipo time-series: La situazione ora è molto diversa da quella descritta nel caso
precedente; per la validità del teorema del limite centrale si dovranno fare ipotesi molto restrittive.
Per esempio richiedere che il processo { yt , xt } sia strettamente stazionario ed ergodico (ipotesi
che assicura la validita` della legge dei grandi numeri per il processo {xt x′t } , ma che per molte timeseries non sono valide)( 9 ) ed il processo {xt ut } sia una differenza martingala( 10 ) o verifichi una
qualche opportuna ipotesi di debole dipendenza (vedi teorema 2 e 3 in 3-2).
top
3-4 Stimatore consistente della varianza asintotica di β̂ : Lo stimatore di White
Dalla rappresentazione di Avar(βˆ ) , segue che un suo stimatore consistente sara` disponibile non
appena si costruisce uno stimatore consistente di Avar(xu ) . A tal fine si esaminano separatamente i
seguenti tre casi; nei primi due la trattazione e` esauriente, nel terzo qualche altro dettaglio e` dato
nell’appendice 3.9. Si segnala che le considerazioni nei primi due casi sono valide sia per dati
cross-section che per time-series, mentre quelle presenti nella discussione del terzo caso sono
riferite esclusivamente alle time-series.
a) Il processo {xt ut } e` una differenza martingala (in particolare indipendente) e gli errori
(condizionati) sono omoschedastici, (cioè E(ut2 | Ωt ) ( = var(ut | Ωt ) ) = σ 2 , da cui segue che
E(ut2 ) = σ 2 ).
9
Come gia` detto tale ipotesi sono molto restrittive, pertanto sono pochi i processi che le verificano. L’analisi
preliminare dei dati (plot, autocorrelazione empirica,……) puo` consentire di escludere con ragionevole certezza la loro
validita` (maggiori dettagli si trovano negli esercizi). A questo punto, e` importante segnalare che alcune trasformazioni
sui processi consentono di eliminare quelle anomalie che portano ad escludere che il processo possa essere stazionario
ed ergodico; alcune di queste sono Δxt = xt − xt −1 (il differenziale) e Δ log xt = log xt − log xt −1 (il differenziale
logaritmico), quest’ultima ha un interessante significato economico come piu` volte sara` evidenziato negli esercizi.
Una condizione sufficiente, che ha un semplice significato economico, è E(ut | ut −1 , ut − 2 ,… , xt , xt −1 ,…) = 0 e in
particolare la condizione “gli errori sono innovazioni” cioe` “gli errori sono a media nulla, tra loro indipendenti e ut
e` indipendente da Ωt per ogni t ”.
10
Dimostrazione: E [ (ut xt ) | (ut −1xt −1 ), (ut − 2 xt −2 ),…] = E [ E((ut xt ) | ut −1 , ut − 2 ,… , xt , xt −1 ,…) | (ut −1xt −1 ), (ut − 2 xt − 2 ),…] =
(ci sono infatti più informazioni in (ut −1 , ut − 2 ,… , xt , xt −1 ,…) che in ( (ut −1xt −1 ), (ut − 2 xt − 2 ),…)
= E [ xt E(ut | ut −1 , ut − 2 ,… , x t , xt −1 ,…) | (ut −1x t −1 ), (ut − 2 xt − 2 ),…] = 0.
7
3-Econometria, a.a. 2014-15
b) Il processo {xt ut } e` una differenza martingala (in particolare indipendente) e gli errori
(condizionati) sono eteroschedastici (cioe` E(ut2 | Ωt ) non e` costante e pertanto, senza ulteriori
informazioni, potrebbe dipendere da t , da x t ma anche da altro; in ogni caso non e` escluso che
E(ut2 ) sia costante, circostanza che certamente si verifica quando in presenza di time series si
assume che il processo { yt , xt } e` stazionario).
c) Il processo
{xt ut }
e` autocorrelato (generalmente conseguenza della presenza di
autocorrelazione nel processo degli errori; si osservi che nella condizione in nota 9 non si dice nulla
sulla presenza o meno di autocorrelazione nel processo {xt } ).
Caso a): Si osserva che:
essendo E(ut | xt ) = 0 e E(ut2 | xt ) = σ 2 si ha
•
var(xt ut ) = E(ut2 xt x′t ) = E ⎡⎣ E(ut2 xt x′t | xt ) ⎤⎦ = E ⎡⎣ E(ut2 | xt )xt x′t ⎤⎦ = σ 2 E(xt x′t )
(in alternativa si sarebbe potuto osservare che le variabili ut2 e xt x′t sono non correlate);
essendo il processo {xt ut } non autocorrelato, dalla legge dei grandi numeri segue
•
1 n
1 n
⎡
⎤
⎡1 n
⎤ ⎛
⎞
2
′
=
=
x
u
u
x
x
p
xt x′t ⎟ σ 2 ;
Avar(xu ) = lim ⎢ var(
)
lim
E(
)
lim
∑
∑
∑
t t ⎥
t t t ⎥
⎜
⎢
n →∞
n t =1
⎣
⎦ n→∞ ⎣ n t =1
⎦ ⎝ n→∞ n t =1
⎠
1 n 2
⎛
lim
⎜ n→∞ n − k ∑ uˆt
t =1
⎝
•
1 n
1 n
n−k 2
⎞
= ⎟ lim ∑ uˆt2 = σ 2 (cfr. nota in basso ( 11 )) (e quindi σˆ 2 = ∑ uˆt2 =
S
n t =1
n
⎠ n→∞ n t =1
e`, come S 2 , uno stimatore consistente di σ 2 ).
Dalle precedenti osservazioni e dalla rappresentazione di Avar(βˆ ) segue che un suo stimarore e`
−1
−1
⎛ ⎛1 n
1 n 2⎞ ⎛1 n
⎞
⎞ 2
′
ˆ
Avar(βˆ ) ⎜ = ⎜ ∑ xt x′t ⎟
u
x
x
∑
t ⎟=⎜
t t ⎟ S
⎜ ⎝ n t =1
⎟ ⎝n∑
n
k
−
t
t
=
=
1
1
⎠
⎠
⎝
⎠
Caso b): Essendo le variabili del processo {xt ut } non correlate, si ha:
•
1 n
⎤
⎡
⎤
⎡1 n
⎤
⎡1 n
xt ut ) ⎥ = lim ⎢ ∑ E(ut2 xt x′t ) ⎥ = p lim ⎢ ∑ ut2 xt x′t ⎥ ;
Avar(xu ) = lim ⎢ var(
∑
n →∞
n →∞ n
n t =1
⎣
⎦ n→∞ ⎣ n t =1
⎦
⎣ t =1
⎦
e con argomenti del tutto simili a quelli presenti nella nota 11, si ha
•
11
⎡1 n
⎤
⎡1 n
⎤
p lim ⎢ ∑ (uˆt2 xt x′t ) ⎥ = p lim ⎢ ∑ ut2 xt x′t ⎥ .
n →∞ n
n →∞ n
⎣ t =1
⎦
⎣ t =1
⎦
(
)
Dall’uguaglianza uˆt2 = ( (uˆt − ut ) + ut )2 = ((uˆt − ut ) 2 + ut2 − 2ut (uˆt − ut ) = ut2 + ⎡ x′t (βˆ − β) ⎤ − 2ut x′t (βˆ − β) , sommando
⎣
⎦
2
n
n
rispetto a t , dividendo per n e passando al limite (in probabilità) per n → ∞ , si ha p lim 1 ∑ uˆt2 = p lim 1 ∑ ut2 = σ 2 .
n →∞ n
n →∞ n
t =1
t =1
8
3-Econometria, a.a. 2014-15
Dalle precedenti segue immediatamente che
−1
−1
⎛1 n
⎞ ⎛1 n
⎞⎛ 1 n
⎞
Avar(βˆ ) = ⎜ ∑ xt x′t ⎟ ⎜ ∑ uˆt2 xt x′t ⎟⎜ ∑ xt x′t ⎟ .
⎝ n t =1
⎠ ⎝ n t =1
⎠⎝ n t =1
⎠
Lo stimatore ora costruito e` denominato indifferentemente stimatore di White o robusto
all’eteroschedasticità (HC); alcune sue non sostanziali varianti, qui non segnalate, sono indicate
con HC1, HC2, HC3.
Caso c): Le variabili del processo {xt ut } sono debolmente correlate e allora la varianza asintotica di
xu ha una rappresentazione che coinvolge anche le covarianze delle variabili del processo (vedi
teorema 3 in 3-2). Un stimatore consistente di Avar(βˆ ) è stato costruito da Newey-West; qualche
dettaglio sulla sua costruzione si trova in 3-9. Nei software econometrici è indicato con il nome
degli autori oppure con la sigla HAC (heteroskedasticity and autocorrelation consistent).
Osservazione 1: La costruzione dello stimatore di White non richiede alcuna informazione su
E(ut2 | Ωt ) , e` allora ragionevole, e se ne avrà conferma più avanti, che, in presenza di opportune
informazioni sulla eteroschedasticita`, i metodi generali per la costruzione degli stimatori (fino a
questo momento il metodo OLS che coincide con il metodo dei momenti) possano essere adattati
per ottenere stimatori più efficienti. A questo punto però è anche abbastanza naturale porre il
problema della ricerca di buoni modelli per E(ut2 | Ωt ) . L’argomento, nell’ambito delle serie
temporali, ha avuto recentemente particolare attenzione da parte degli econometristi, portando a
risultati interessanti sia dal punto di vista teorico che da quello applicativo.
top
3-5 Appendice: Convergenza delle successioni di variabili aleatorie e il teorema del delta
metodo
Il principale risultato di questo paragrafo e` il teorema del delta metodo; il resto del paragrafo e`
dedicato al richiamo di alcune proprieta` (senza dimostrazione ) delle successioni di variabili
aleatorie convergenti.
Proposizione 1 – Sia a(⋅) una funzione a valori vettoriali continua. Allora
p
p
a) z n → α ⇒ a ( z n ) → a ( α ) ;
b) z n → z ⇒ a ( z n ) → a ( z ) .
d
d
Una immediata conseguenza della a) della precedente proposizione è la stabilità della
convergenza in probabilità sotto le usuali operazioni aritmetiche. Più precisamente
9
3-Econometria, a.a. 2014-15
i)
p
⎧
⎪ xn + yn → β + γ
p
p
⎪⎪ x p β
xn → β , yn → γ ⇒ ⎨ n →
purchè γ ≠ 0
y
γ
n
⎪
p
⎪
⎪⎩ xn ⋅ yn → β ⋅ γ
ii)
Yn → Γ, Γ matrice invertibile ⇒ Yn−1 → Γ −1 .
p
p
Un risultato analogo, utilizzando il punto b), si ha per la convergenza in distribuzione.
Teorema 2 (di Slutsky) – Siano α e A rispettivamente un vettore e una matrice di numeri reali.
p
d
d
⎛
⎞
a) ⎜ x n → x, y n → α ⎟ ⇒ x n + y n → x + α;
⎝
⎠
p
p
d
⎛
⎞
b) ⎜ x n → x, y n → 0 ⎟ ⇒ y′n x n → 0;
⎝
⎠
p
d
d
d
⎛
⎞
c) ⎜ x n → x, A n → A ⎟ ⇒ A n x n → Ax , inoltre se x ∼ N ( 0; Σ ) allora A n x n → N ( 0; AΣA′ ) ;
⎝
⎠
p
d
d
⎛
⎞
d) ⎜ x n → x, A n → A, A è invertibile ⎟ ⇒ x′n A −n1x n → x′A −1x ; inoltre se x ∼ N ( 0; A ) allora
⎝
⎠
x′n A n−1x n → χ k2 essendo k la dimensione di x .
d
p
Proposizione 3 – Se x n → x e {z n } è una sequenza di variabili aleatorie tale che x n − z n → 0 (o
d
equivalentemente zn = xn + o p (1) ; quando cio` accade si dice che le due sequenze di variabili sono
asintoticamente equivalenti) allora z n ( = ( z n − x n ) + x n ) → x .
d
Teorema 4 (del “delta metodo”) – Sia z ∼ N ( 0; Σ ) e {x n } una sequenza di vettori aleatori in R k
p
tali che x n → β e
n ( x n − β ) → z . Sia inoltre a(⋅) : R k → R r con r ≤ k , una funzione continua
d
con le sue derivate e sia A ( β ) =
( r ×k )
∂a
(β) di rango massimo r . Allora si ha
∂β
(
)
n ( a(x n ) − a(β) ) → A ( β ) z ∼ N ( 0; A ( β ) ΣA ( β ) ') .
d
Dimostrazione. Intanto dal teorema di Lagrange per ogni n esiste y n appartenente al segmento
congiungente x n e β tale che
10
3-Econometria, a.a. 2014-15
a(x n ) − a(β) = A ( y n )( x n − β ) .( 12 )
Ora essendo
p
y n → β , (in quanto
i)
{x n }
converge in probabilita a β e y n appartiene al segmento
congiungente x n e β );
p
A ( y n ) → A (β) ; (essendo la funzione A continua);
ii)
dalla c) di teorema 2, si ha
n ( a(x n ) − a(β) ) → A ( β ) z .
d
top
3-6 Test sulle ipotesi: il test di Wald
Il paragrafo e` dedicato interamente alla costruzione (della classe) dei test di Wald, su ipotesi
lineari o nonlineari sul parametro β , che come e` naturale hanno soltanto validità` asintotica. Gli
argomenti a cui si e` fatto cenno in 2-5 possono essere utilizzati per costruire altri test (LM( 13 ) e
LR), la cui presentazione e` rinviata. Al momento, questi ultimi possono apparire meno vantaggiosi
in quanto, mentre i test di Wald utilizzano soltanto il modello non vincolato, che e` certamente
lineare, gli altri due utilizzano il modello vincolato (il primo soltanto quello, il secondo entrambi)
che in presenza di ipotesi non lineari e` non lineare. Il test di Wald non e` comunque esente da
inconvenienti, uno e` segnalato nella osservazione alla fine del paragrafo.
Il contesto in cui la classe di test di Wald e` utilizzabile, e` molto piu` generale di quello dei
modelli lineare, come risulta chiaro da quanto verra` esposto.
Sia β̂ uno stimatore del parametro β (qui non e` necessario che β sia il parametro di un
modello lineare) tale che
i)
ˆ ,
n (βˆ − β) → N (0, Avar(β))
d
ii) e` disponibile Avar(βˆ ) uno stimatore consistente per Avar(βˆ ) ,
12
Il teorema di Lagrange vale per funzioni a valori reali, pertanto y n è differente per ciascuna coordinata della funzione
a(⋅) , ma ciò è irrilevante; ciò che conta è che ciascun y n appartiene al segmento congiungente x n e β .
Data la semplicita` di realizzazione, si descrive il test LM nel caso di ipotesi del tipo H 0 : β1 = 0 , per il modello
lineare con intercetta ed errori omoschedastici yt = x′t β + ut e β′ = (β1′ , β′2 ) , senza fornire alcuna giustificazione. Primo
13
passo: Si stima il modello e sia {uˆt } la sequenza dei residui. Secondo passo: Si stima con il metodo OLS il modello
ausiliario uˆt = x′t γ + error e si considera il coefficiente di determinazione Rc2 . Terzo passo: Si rifiuta l’ipotesi nulla se
nRc2 > χ k2 ,1−α , essendo k1 la dimensione di β1 .
1
11
3-Econometria, a.a. 2014-15
e si considerano le seguenti due ipotesi statistiche sul parametro β :
1)
{H 0 : Rβ = b ,
(Ipotesi lineari)
H1 : Rβ ≠ b , essendo R una matrice di ordine r × k , con
r ≤ k e di rango massimo.
2)
(Ipotesi non lineari))
A (β) =
( r ×k )
{H 0 : a(β) = 0 ,
H1 : a(β) ≠ 0 , essendo a : R k → R r (r ≤ k ) c la matrice
∂a(β)
ha rango massimo.
∂β
Costruzione del test di Wald con livello di significativita` α :
Caso 1 – Si considera la statistica
′ ⎡ R Avar(βˆ )R ′ ⎤
⎥
W = Rβˆ − b ⎢
n
⎢
⎥
⎣
⎦
(
)
−1
( Rβˆ − b )
(14)
,
denominata la statistica di Wald per l’ipotesi H 0 (essa misura la distanza pesata di Rβˆ da
b ( = Rβ ) quando H 0 e` vera, con peso pari all’inversa della stima della varianza) e per essa si ha
p
n (Rβˆ − b) → N (0, RAvar(βˆ )R′) , Avar(βˆ ) → Avar(βˆ ) e Rβ ha dimensione r .
d
Da quest’ultima proprieta`, dalla definizione di W e dalla proprieta` d) del teorema 2 in 2-5, segue
che
W → χ r2 ,
d
e pertanto il test con livello di significatività α , valido per campioni sufficientemente grandi, e`
“Si rifiuta l’ipotesi H 0 se W > χ r2,1−α ”.
Caso 2 – In questo caso, essendo
•
(
)
n a(βˆ ) − a(β ) → N (0, A(β)Avar(βˆ ) A(β)′) (segue dal teorema del “delta metodo”);
d
p
•
A(βˆ ) → A(β) ;
•
Avar(βˆ ) → Avar(βˆ ) ;
p
la statistica di Wald per l’ipotesi H 0 (cioe` la distanza pesata di a(βˆ ) da 0 ) ha la seguente
rappresentazione
′ ⎡ A (βˆ )(Avar(βˆ )) A(βˆ )′ ⎤⎥
W = a(βˆ ) − 0 ⎢
n
⎢
⎥
⎣
⎦
(
)
14
−1
(a(βˆ ) − 0) ,
Nella costruzione di test su ipotesi, sui parametri di un modello con errori eteroschedastici, gretl denota ancora con
F la statistica test, ma in questo caso essa e definita dall’uguaglianza F = W / r ..
12
3-Econometria, a.a. 2014-15
inoltre, nell’ipotesi H 0 , ancora dalla d) di teorema 2 in 2-5, segue che
W → χ r2 ,
d
che consente, come prima, la costruzione del test con validita` asintotica e con livello di
significativita` α .
Osservazione:
•
E’ opportuno ricordare che, quando gli errori sono omoschedastici, la statistica di Wald (per
ipotesi lineari) coincide con rF , essendo F la statistica di Fisher,( 15 ) mentre quando gli errori sono
eteroschdastici la statistica F non ha l’usuale significato, ma e` definita come W / r .
•
La statistica di Wald per ipotesi non lineari presenta il grosso inconveniente di non essere
invariante rispetto alla rappresentazione della ipotesi H 0 ; in realtà i valori assunti dalla statistica
nello stesso campione possono essere molto diversi in presenza di differenti, ma equivalenti
rappresentazioni (p.es. H 0A : β1β 2 = 1 e H 0B : β1 =
1
β2
per il modello yt = β 0 + β1 x1t + β 2 x2t + ut ).
Osservazione (come premessa a qualche generalizzazione, cfr. cap. 4): Una lettura superficiale del
contenuto di questo capitolo puo` far pensare che la rappresentazione analitica dello stimatore del
parametro β abbia un ruolo di primaria importanza (come peraltro accade nel capito 2). In realta`
e` necessario soltanto che lo stimatore esista per n grande (identificabilita` al finito); le proprieta`
(forse) potrebbero essere stabilite senza utilizzare la rappresentazione (per uno studente di
matematica tale ircostanza non dovrebbe sembrare strana), mentra la stima, in quanto minimo di
una funzione obiettivo, e` individuabile con metodi numerici.
top
3-7 Test sulle ipotesi: Il Metodo Bootstrap
Nella costruzione dei test, il problema principale e` quello di individuare la distribuzione di
probabilità, nell’ipotesi H 0 , della statistica che individua la classe dei test (detta brevemente
“statistica test”).
Il problema citato non e` pero` di facile soluzione. I risultati ottenuti nei paragrafi precedenti,
non sono certo soddisfacenti per varie ragioni, tra le altre
•
sono per il momento validi in modelli molto semplici,
•
hanno soltanto validita` asintotica e allora lasciano sempre senza risposta la domanda: il
campione a disposizione e` realmente grande?
Il principio che sara` enunciato piu` avanti consente di affrontare il problema da un’altra
15
F = [ (RSSR − USSR ) / r ] / [ USSR /(n − k ) ] (cfr.2-4).
13
3-Econometria, a.a. 2014-15
angolazione e di ottenere risposte, quando non ci sono altre procedure e talvolta anche migliori
quando ci sono. La sua applicabilita` non e` limitata alla sola costruzione di test, come potrebbe
apparire dalla lettura di questo patragrafo..
Definizione – Se M e` un modello (dunque un insieme di strutture) per una popolazione o
equivalentemente per un DGP (Data Generating Process) e M 0 e` la (vera) struttura che ha
generato i dati a disposizione (il campione della popolazione), una eventuale struttura (o DGP) M̂
del modello, individuata (con metodi statistici) attraverso i dati e` detta DGP-Bootstrap.
Osservazione:
•
Non si deve confondere il modello M della definizione con il modello ( M (θ))θ sul quale si
deve fare inferenza. E’ abbastanza ragionevole ritenere che il primo debba contenere il secondo, per
il resto non ci sono altre limitazioni; non e’ necessaria neppure una sua rappresentazione, serve
soltanto individuare (in qualche modo) quello che nella definizione è denominato DGP-Bootstrap.
•
Soltanto se il modello sul quale si fa inferenza è completamente specificato la ricerca del DGP-
Bootstrap è in qualche senso standard; infatti se M (θ) e la struttura caratterizzata dal parametro θ ,
sarà sufficiente considerare M (θˆ ) con θ̂ stima di θ . In tutti gli altri casi si dovranno utilizzare
procedure ad hoc per individuare M̂ e non è detto che esso debba essere una struttura del modello
sul quale si fa inferenza (vedi l’ultimo esempio in questo paragrafo).
Il principio del bootstrap( 16 ): Nei problemi di inferenza, il mondo reale (evidentemente non noto)
rappresentato dalla struttura M 0 (di un modello M ) puo` essere sostituito dal mondo bootstrap
(noto e quindi simulabile) rappresentato dalla struttura M̂ . ( 17 )
Osservazione:
•
Le risposte ai problemi di inferenza, ottenute utilizzando il principio del bootstrap, non
potranno che essere approssimate. Si richiama l’attenzione sul termine “approssimato” che non ha
alcun significato, se non accompagnato da altre informazioni.
•
In un file di commenti alla lezione del 9-10-2014 e` stato descritto il metodo bootstrap per la
costruzione di stime di intervallo; basta poco per convincersi che anch’esso si basa sullo stesso
principio.
16
Il principio del bootstrap fu formulato da Efron nel 1979. .
17
Si segnala che come tutti i principi, quello ora enunciato e` utilizzato frequentemente senza porsi tanti problemi,
(come per esempio se ci sono le condizioni per la sua validita` e qual e` la qualita` dell’approssimazione; i risultati su
tali questioni sono complicati e non esaurienti) specialmente nei casi in cui non ci sono metodi alternativi. Naturalmente
quando si utilizzano queste procedure senza un minimo di supporto teorico, potrebbe accadere che le risposte siano
completamente errate.
14
3-Econometria, a.a. 2014-15
Si presentano ora alcune semplici applicazioni del principio del bootstrap nella costruzione dei
test, forse in grado di chiarire i punti rimasti oscuri nella breve introduzione. Nella parte finale del
paragrafo, si esamina un caso in cui la costruzione del test con il metodo bootstrap richiede qualche
accorgimento non del tutto ovvio.
Nel titolo del primo esempio, si usa l’espressione Monte Carlo (e non bootstrap); in quanto nella
discussione non si utilizza il principio del bootstrap, ma si eseguono soltanto simulazioni. Cio` e`
reso possibile dal fatto che
•
il modello parametrico M (θ) sul quale si fa inferenza e` completamente specificato (e dunque,
come segnalato in una precedente osservazione il mondo bootstrap è la struttura M (θˆ ) );
•
come mondo-bootstrap si puo` però prendere un qualunque M (θ) (non necessariamente
M (θˆ ) ), anche se nelle applicazioni per ragioni numeriche, e` preferibile usare M (θˆ ) .
L’esempio comunque fornisce spunti su come il principio del bootstrap puo` essere utilizzato..
La definizione che segue individua due classi di test; per la prima si puo` usare il metodo di
Monte Carlo (e quindi solo simulazioni), per la seconda il principio del bootstrap e` certamente ed
efficacemente utilizzabile (la motivazione di quest’ultima affermazione non e` riportata, per le
ragioni dette nella nota 17).
Definizione 1: Un test statistico si dice pivotale se, nell’ipotesi H 0 , la distribuzione della statistica
che lo definisce è la stessa quale che sia il DGP (per una fissata lunghezza del campione e per
assegnati valori delle variabili esogene) del modello. Un test si dice asintoticamente pivotale se a
restare invariata è soltanto la distribuzione asintotica.
Osseravzione: I test costruiti nel capitolo 2 sono pivotali, quelli costruiti nel paragrafo 3.6 sono
asintoticamnete pivotali.
Il Metodo di Monte Carlo (per il calcolo del p − valore in un test pivotale)( 18 ): In questo caso si
richiede anche che il modello M (θ) sia completamente specificato. Sia T la statistica che si
utilizza per la costruzione del test, sia τˆ il valore assunto da T nel campione di lunghezza n a
disposizione e si supponga che la classe dei test sull’ipotesi sia del tipo “Si rifiuta H 0 se T > c ”.
Essendo il test statistico pivotale, la distribuzione della statistica che lo definisce (che potrebbe
18
La descrizione del metodo puo` (forse) risultare piu` semplice se si fa riferimento al modello lineare classico
yt = α + β xt + γ zt + ut con u ∼ N (0, σ 2 I n ) e all’ipotesi H 0 : γ = 0 , per la quale il ben noto test e` pivotale. Qui la
classe dei test e` “Si rifiuta H 0 se T > c con T = γˆ / E.S .(γˆ ) .
15
3-Econometria, a.a. 2014-15
eventualmente dipendere dalle variabili esogene presenti nel modello), rimane la stessa quale che
sia il DGP del modello che verifica l’ipotesi H 0 .
Si descrivono i passi che consentono di costruire la distribuzione empirica di T (quando
l’ipotesi H 0 e` vera), e il p -valore del campione. Sarà omessa la costruzione del valore critico per
un fissato livello di significativita`, che per la verita` non presenta particolari difficoltà aggiuntive.
Step 1 – Si stima il modello utilizzando i dati a disposizione e si calcola il valore τˆ della statistica
T nel campione.
Step 2 – Si fissa una (qualunque) struttura M (θ) che verifica l’ipotesi H 0 , detta DGP-Monte
Carlo( 19 ).
Step 3 – Costruzione di (τ 1* ,… ,τ B* ) , B simulazioni della variabile T , con B un fissato intero.( 20 )
E` sufficiente descrivere la costruzione di τ 1* :
Si considerano n simulazioni del DGP-Monte Carlo (non dimenticare che il modello e`
completamente specificato), con esse si stima il modello M (θ) e si calcola τ 1∗ (il valore della
statistica T nel campione utilizzato nella stima). Qualche ulteriore dettaglio è fornito nella nota in
basso( 21 ).
Step 4 (calcolo del p -valore ) – Per la classe di test considerati, il p -valore (relativo al campione a
dsiposizione) non è altro che P(T ≥ τˆ H 0 ) , allora una sua stima è data dal suo valore empirico e
dunque dalla frazione dei τ *j che sono maggiori di τˆ ; in simboli
pˆ -valore =
1 B
1 B
I (τ *j > τˆ) = 1 − ∑ I (τ *j ≤ τˆ) ,
∑
B j =1
B j =1
dove è I (τ ∗ ≤ τˆ) = 1 quando τ ∗ ≤ τˆ , altrimenti è uguale a 0.
19
Se si fa riferimento al modello e all’ipotesi nella precedente nota, basterà considerare una struttura del modello che ha
γ = 0 e valori arbitrari per gli altri parametri α , β e σ 2 ; per esempio α = 1, β = 2 e σ 2 = 1 . In realtà, qualche
precauzione nella scelta dei valori dei parametri va presa, per evitare problemi di carattere numerico; potrebbe allora
essere conveniente considerare le stime OLS αˆ , βˆ e σˆ 2 costruite in step 1 (o valori ad ad essi numericamente vicini); in
tal caso si ottiene quello che e` stato denominato DGP-Bootstrap..
20
Sulla scelta di B , dal punto di vista teorico, è richiesto soltanto che sia sufficientemente grande. Dal punto di vista
numerico si prova che per evitare ulteriori approssimazioni, per test con livelli di significatività standard, buone scelte
sono 99, 199, 299,…….; e` opportuno che ( B + 1)α sia un intero. Davidson e MacKinnon suggeriscono di ripetere la
procedura per diversi valori di B crescenti e di fermarsi quando per il fissato livello di significatività la decisione
suggerita dal test è chiara.
Costruzione di n simulazioni del DGP-Monte Carlo: Si effettuano n simulazioni di una normale con media 0 e
varianza σˆ 2 , siano (u1∗ ,… , un∗ ) , e si pone yt∗ = αˆ + βˆ xt + ut∗ per t = 1,…, n . Calcolo di τ 1∗ : Con il campione ( yt∗ , xt , zt )
21
per t = 1,…, n si stima il modello non ristretto yt = α + β xt + γ zt + ut e si denota con τ 1∗ il valore della statistica T nel
campione.
16
3-Econometria, a.a. 2014-15
Il metodo bootstrap (o Bootstrapping) (per un test non pivotale): Ora la statistica test
potrebbe essere, oppure no, asintoticamente pivotale (come già segnalat, nel caso la statistica sia
asintoticamente pivotale ci sono alcuni risultati teorici sulla qualita` dell’approssimazione), inoltre
il modello potrebbe essere
a) completamente specificato (il generico DGP (o struttura) del modello è caratterizzato soltanto
da parametri reali);
b) parzialmente specificato (i parametri del modello non caratterizzano il generico DGP).
Nell’applicazione del principo del bootstrap non ci sono procedure standard, e allora non si
potra` che procedere con degli esempi. Inizialmente si considerano due semplici modelli lineari,
successivamente si considera un modello leggermente piu` complesso, dove l’applicazione del
metodo richiede qualche particolare accorgimento.
Il Metodo Bootstrap nel caso di modelli completamente specificati: Si considera il modello
yt = x′t β + z′t γ + δ yt −1 + ut , ut ∼ n.i.d (0, σ 2 ) (con β ∈ R k1 , γ ∈ R k2 , k = k1 + k2 )
e l’ipotesi statistica H 0 : γ = 0 .
Si osserva preliminarmente:
•
La presenza di yt −1 tra i regressori rende il vettore dei regressori non strettamente esogeno (ma
soltanto predeterminato o esogeno);
•
Le stime OLS dei parametri sono consistenti e la statistica W ( = k2 F ) che si utilizza per la
costruzione del test e` asintoticamente pivotale;
χ k2 ;
•
W ha distribuzione asintotica
•
Nella procedura di stima la prima osservazione ( y1 , x1 , z1 ) è inutilizzabile per la presenza nel
2
modello di yt −1 ;
•
Se l’ipotesi H 0 è vera (dunque γ 0 = 0 ), e si denota yt = x′t β + δ yt −1 + ut , ut ∼ n.i.d (0, σ 2 ) con
M (θ) ; il mondo reale e` allora M (θ0 ) , avendo denotato con θ0 il vettore dei valori veri dei
parametri.
Costruzione del test-Bootstrap:
Step 1 – Si stima il modello originario (non ristretto) e sia ϕ̂ il valore della statistica
⎛ (RSSR − USSR) / k2 ⎞
F ⎜=
⎟ nel campione a disposizione di dimensione n − 1 ; ricordare che non e`
⎝ USSR /(n − 1 − (1 + k )) ⎠
utilizzabile la prima osservazione.
Step 2 – (Costruzione del DGP-Bootstrap o mondo bootstrap) Si stima (con il metodo OLS) il
17
3-Econometria, a.a. 2014-15
modello M (θ) (cioe` yt = x′t β + δ yt −1 + ut ) utilizzando i dati disponibili { yt , xt , z t }t =1,…,n ; siano β, δ
e σ 2 la stima dei parametri. Il DGP-Bootstrap (mondo bootstrap) M̂ e` allora la struttura
M (θ) :
yt = x′t β + δ yt −1 + ut , ut ∼ n.i.d (0, σ 2 ) , con condizione iniziale y1 .
I successivi due step riproducono esattamente gli Step 3 e 4 descritti precedentemente; il DGPMonte Carlo è qui sostituito dal DGP-Bootstrap.
Step 3 – Costruzione di (ϕ1* ,… , ϕ B* ) , campione-bootstrap della statistica F ( 22 ), di dimensione B .
Procedura per il calcolo di ϕ1* :
•
Si considera un campione (u2* ,… , un* ) di lunghezza n − 1 da una distribuzione N (0, σ 2 ) e si
costruiscono (per ricorrenza) le n − 1 osservazioni
(y )
∗
t t = 2,…, n
dal DGP yt* = x′t β + δ yt*−1 + ut* ,
y1* ( = y1 ) ;
•
Si considera il campione ( yt* , x′t , z′t )t = 2,…,n , denominato campione-bootstrap, e sia ϕ1* il valore
della statistica F in esso.
Step 4 (il calcolo del p -valore ) – Si procede come in step 4 nella descrizione del Metodo di Monte
Carlo.
Osservazione: Il metodo bootstrap ora descritto si dice parametrico, in quanto la costruzione del
DGP-bootstrap e` fatta utilizzando soltanto stime parametriche
Il Metodo Bootstrap nel caso di modelli parzialmente specificati: Si fa ancora riferimento al
precedente modello
yt = x′t β + z′t γ + δ yt −1 + ut , ma ora si suppone che ut ∼ i.i.d .(0, σ 2 ) e si
considera ancora l’ipotesi H 0 : γ = 0 . Gli step per la costruzione del campione bootstrap di F sono
esattamente gli stessi descritti precedentemente, si deve soltanto sostituire in Step 3 l’espressione
“Si considera un campione (u2* ,… , un* ) di lunghezza n − 1 da una distribuzione N (0, σ 2 ) ”
con
“Si considera un campione di lunghezza n − 1 dalla popolazione {u2 ,…, un } ”
dove (ut )t = 2,…,n sono i residui della stima OLS in step 2. (Per realizzare la procedura ora descritta
con gretl vedi “User’s guide” dall’Help, pag. 34, esempio 5.1).
Osservazione:
i)
Il metodo bootstrap ora descritto si dice non parametrico, in quanto nella costruzione del
22
Qui si simula la distribuzione che ha la statistica F nel mondo bootstrap, mentre nel precedente esempio si simula la
distribuzione che ha la statistica F in un qualunque mondo e quindi anche in quello reale.
18
3-Econometria, a.a. 2014-15
DGP-bootstrap si utilizza la distribuzione empirica dei residui.
ii) Per una giustificazione informale dell’utilizzo della distribuzione empirica dei residui, si
osserva che
•
per una variabile aleatoria la cui distribuzione non è nota (nel caso in esame la variabile
errore ( u )) se sono disponibili n sue osservazioni, una simulazione della sua distribuzione
empirica si ottiene effettuando n estrazioni con restituzione dalle n osservazioni;
•
essendo le stime OLS consistenti, le osservazioni della variabile u che non sono disponibili
possono essere sostituite dai residui.
Altre
procedure
Bootstrap:
Nei
precedenti
esempi
sembra
essenziale
l’ipotesi
di
omoschedasticita` degli errori del modello. Se cosi` fosse il metodo avrebbe avuto un limitato
campo di applicazione (in econometria e` molto restrittiva l’ipotesi di omoschedasticita`), ma non e`
cosi; in letteratura si trovano vari metodi che consentono la presenza negli errori della
eteroschedasticita` e/o della autocorrelazione. Qui e` costruito un test bootstrap, proposto da
Freedman nel 1981, su un ipotesi lineare per un modello di regressione lineare con errori
eteroschedastici e con dati del tipo cross-section.
Siano ( yt , xt , z t )t =1,…,n dati del tipo cross-section, yt = x′t β + z′t γ + ut , E(ut xt , z t ) = 0 un modello
(per i dati a disposizione) correttamente specificato e identificato con errori eventualmente
eteroschedastici.
Costruzione del test bootstrap (calcolo del p -value) per l’ipotesi statistica { H 0 : γ = 0 .
Step 1 – Si stima il modello con errori eteroschedastici con il metodo OLS, siano β̂ e γ̂ le stime
dei parametri e sia ŵ il valore della statistica W (di Wald) per l’ipotesi H 0 , nel campione;
Step 2 (Costruzione del DGP-bootstrap) – Si considera come mondo bootstrap (o DGPbootstrap) la popolazione (finita) dei dati ( yt , xt , z t )t =1,…,n .( 23 )
Osservazione: Si anticipa che le diverse n − ple di simulazioni del mondo bootstrap non
verificheranno l’ipotesi H 0 (come invece sembra che sia necessario, se si guardani i precedenti
esempi), sara` pertanto necessario qualche aggiustamento alle precedenti procedure che potevano
sembrare standard.
Step 3 – Costruzione di ( w1* ,… , wB* ) , campione-bootstrap della statistica W , di dimensione B .
Procedura per il calcolo di w1* :
23
Notare che anche in questo caso, la scelta fatta è coerente con la definizione, si è considerato come modello M
quello banale costituito dalla totalità delle strutture
19
3-Econometria, a.a. 2014-15
•
Per costruire n osservazioni ( yt∗ , x∗t , z ∗t )t =1,…,n dal DGP-bootstrap, si effettuano n estrazioni
con restituzione dall’insieme {1,… , n} , siano (i1 ,… , in ) e si pone ( yt∗ , x∗t , z ∗t ) = ( yit , xit , z it ) per
t = 1,… , n .
•
Come gia` osservato il campione bootstrap ( yt∗ , x∗t , z ∗t )t =1,…,n non verifica l’ipotesi H 0 e allora si
usa il seguente accorgimento: si considera w1* , il valore della statistica (di Wald) W per l’ipotesi
{H
*
0
: γ = γˆ , dove γ̂ e` la stima di γ ottenuta in step 1.
Step 4 (il calcolo del p -valore per il test sull’ipotesi { H 0 : γ = 0 ) – Si procede come nei casi
precedenti utilizzando il valore della statistica ŵ e il campione bootstrap ( w1* ,… , wB* ) per W .
Osservazione: In un articolo del 1999, Flachaire propose la seguente modifica al precedente step 2:
Step 2’ (Costruzione del DGP-bootstrap) – Sia ( uˆt )t =1,…, n il vettore dei residui della stima OLS
del modello non ristretto e β la stima OLS del modello ristretto (dalla condizione γ = 0 ). Allora il
DGP-bootsrap e` dato dalla popolazione finita ( yt , xt , z t )t =1,…,n con yt = x′t β + uˆt e verifica
ovviamente l’ipotesi nulla.
Gli altri passi rimangono inalterati, con la sola modifica che questa volta DGP-bootsrap
verifica l’ipotesi H 0
top
3-8 Appendice: Efficienza asintotica degli stimatori OLS
Lo scopo esplicito di questo paragrafo è quello di provare l’asintotica efficienza (il cui
significato sarà chiarito nel teorema che segue) degli stimatori OLS nei modelli lineari con errori
omoschedastici. In realta` l’aspetto piu` interessante e` mostrare come costruire altri stimatori di β
che non richiedono l’appartenenza di x t ad Ω t . Maggiori dettegli su questo aspetto si trovano nel
capitolo 7.
Si fa sempre riferimento al modello lineare presente all’inizio del capitolo e si suppone che
(
)
sussistano le ipotesi che rendano lo stimatore βˆ = βˆ OLS asintoticamente normale.
La classe degli stimatori costruiti con il metodo dei momenti. Il metodo dei momenti descritto
nel capitolo 1 suggerisce la seguente procedura per la costruzione di altri stimatori di β . Sia infatti
{wt } un processo di dimensione
i)
k tale che
w t ∈ Ωt per ogni t (e quindi E(w t ut ) = 0 ),
20
3-Econometria, a.a. 2014-15
ii) Il processo { yt , xt , w t } e` strettamente stazionario ed ergodico e inoltre la matrice quadrata di
def ⎞
1 n
⎛
ordine k , ⎜ Σ wx = ⎟ E(w t x′t ) = p lim ∑ w t x′t , e` invertibile,
n →∞ n
t =1
⎝ ( k ×k ) ⎠
iii) Il processo {w t ut } e` una differenza martingala,
allora, considerando la versione empirica dell`uguaglianza in i), si ottiene l`equazione (vettoriale)
1 n
⎛ 1 n
⎞
w
u
w t ( yt − x′t β) ⎟ = 0 ,
∑
∑
t t ⎜=
n t =1
⎝ n t =1
⎠
che per la ii) ha un`unica soluzione (per n gtande)
−1
−1
n
n
n
n
⎛
⎞
ˆβ = ⎡ 1 w x′ ⎤ 1 w y ⎜ = β + ⎡ 1 w x′ ⎤ 1 w u ⎟ ;
∑
∑
∑
∑
t t⎥
t t
t t⎥
t t
w
⎢n
⎢n
⎜
⎟
⎣ t =1
⎦ n t =1
⎣ t =1
⎦ n t =1
⎝
⎠
βˆ w e` detto stimatore di β con il metodo dei momenti relativo a {w t } (processo delle variabili
esogene).
Proprietà e osservazioni:
1) Soltanto per ragioni di semplicità formale si fa riferimento a processi del tipo “time-series”, ma
quanto si dira` e’ valido anche per dati del tipo “cross section”. Naturalmente si assume che siano
validi (quando necessario) la legge dei grandi numeri e il teorema del limite centrale.
2) La costruzione di βˆ w non richiede l’esogeneità del processo {xt } , ma soltanto un qualche
legame tra w t e x t che assicuri l’invertibilità di E(w t x′t ) ;
3) βˆ w e` uno stimatore consistente di β ;
4)
−1
−1
n (βˆ w − β) → N (0, Avar(βˆ w )) con Avar(βˆ w ) = ( Σ wx ) Σuw ( Σ′wx ) , dove
d
1 n 2
⎡ 1 n
⎤
⎛
⎞
2
′
E(
)
lim
Σuw = lim var ⎢
w
u
u
w
w
p
ut w t w′t ⎟ .
=
=
∑
∑
t t⎥
t
t t ⎜
→∞
n →∞
n
n t =1
⎠
⎣ n t =1
⎦
⎝
Per la validita` delle seguenti proprieta` 5) e 6) si deve supporre che gli errori nel modello siano
omoschedastici, cioe` E(ut2 | Ωt ) = σ 2 .
1 n
⎛ def
⎞
5) Σuw ⎜ = E(ut2 w t w′t ) = σ 2 E(w t w′t ) ⎟ = σ 2 Σ w con Σ w = p lim ∑ w t w ′t ,
n →∞ n
⎝
⎠
t =1
6) Per ogni n , denotata con W la matrice delle osservazioni di ( w t )1≤t ≤ n e con X la matrice
( n×k )
delle osservazioni di ( xt )1≤t ≤n , si ha
W′X
W′W
−1
−1
, Σ w = p lim
Avar(βˆ w ) = σ 2 p lim ⎡ n ( W′X ) ( W′W )( X′W ) ⎤
⎦
n →∞
n →∞
n →∞ ⎣
n
n
Σ wx = p lim
21
3-Econometria, a.a. 2014-15
7)
Per ogni n si ha ( W′X )
−1
( W′W )( X′W )
−1
≥ ( X′X )
−1
o equivalentemente (cfr. iv) in 2-3)
( X′W )( W′W ) ( W′X ) ≤ ( X′X ) ( ⇔ ( X′ ( I k − PW ) X ) ≥ 0 ) .
−1
L’ultima disuguaglianza, cioè che la matrice X′ ( I k − PW ) X è semidefinita positiva, si prova
immediatamente. Infatti essendo ( I k − PW ) una proiezione ortogonale si ha ( I k − PW ) = ( I k − PW )′ e
quindi per ogni z ∈ R k , si ha
2
z′X′ ( I k − PW ) Xz = z′X′ ( I k − PW )′ ( I k − PW ) Xz = ( I k − PW ) Xz ≥ 0 .
Dalle precedenti segue immediatamente
Teorema: Se il processo {w t } verifica le precedenti condizioni i), ii) e iii) e gli errori sono
omoschedastici, allora si ha
(
)
Avar(βˆ ) = Avar(βˆ OLS ) ≤ Avar(βˆ w ) .
Il contenuto del teorema si può riassumere brevemente nel modo seguente:
In presenza di omoschedasticità degli errori, lo stimatore OLS è il più efficiente (asintoticamente)
tra tutti gli stimatori costruiti con il metodo dei momenti.
3-9 Appendice: Lo stimatore di Newey-West (o HAC)
Si premette il seguente semplice risultato sulle successioni numeriche, che sara` utilizzato per
fornire una rappresentazione della varianza asintotica della media aritmetica di un processo
stocastico autocorrelato.
Lemma 1: Sia ( an )n una successione numerica.
i)
an → 0 ⇒
1 n
∑ ak → 0 ,
n k =1
∞
ii)
∑ an converge ⇒
n =1
1 n
∑ kak → 0 .
n k =1
Dimostrazione ii) – Intanto sussistono le seguenti:
n
a)
∑ ka
k =1
k
= a1 + 2a2 +
+ nan = (a1 +
b) per N fissato, N ≤ n si ha
n
∑ ka
k =1
k
n
=
n
k =1 j = k
n
∑∑ a
k =1 j = k
n
+ (an −1 + an ) + an = ∑ ∑ a j ,
+ an ) +
N
j
n
≤ ∑ ∑ aj +
k =1 j = k
n
n
∑ ∑a
k = N +1 j = k
j
.
Ora si osserva che dalla convergenza della serie seguono le seguenti due proprietà
22
3-Econometria, a.a. 2014-15
c) Esiste M > 0 tale che
⎛
aj ⎜≤
∑
⎜
j =k
⎝
n
n
∑ aj +
j =1
k −1
∑a
j =1
j
⎞
⎟⎟ ≤ M per ogni k , n (limitatezza delle serie
⎠
convergenti)
d) Fissato ε > 0 esiste N tale che
m
∑a
j =l
j
< ε per N < l < m (criterio di Cauchy),
In definitiva da b), c) e d) segue che per un fissato ε e un fissato N come in d) e per n > N si
ha
1 n
NM (n − N − 1)ε
kak ≤
+
∑
n k =1
n
n
e quindi l’asserto.
Dimostrazione di i): Si procede sostanzialmente come nella prova di ii) (utilizzano la ovvia
disuguaglianza
n
N
k =1
k =1
∑ ak ≤ ∑ ak +
n
∑
k = N +1
ak ) .
Proposizione 2 – Sia {xt } un processo vettoriale (debolmente) stazionario. Posto
⎛
⎞
Γ j = cov(xt , xt − j ) = E(xt x′t − j ) ⎜ = ⎡⎣ E(xt − j x′t ) ⎤⎦′ = Γ′− j ⎟ per ogni j ∈ Z ,
⎝
⎠
+∞
se la serie
∑
j =−∞
(
)
Γ j e` convergente, allora si ha Avar(x ) = lim var( n x =
n →∞
+∞
∑Γ
j =−∞
j
.
Dimostrazione: Intanto si ha
1
var(x1 + + x n ) = cov [ (x1 + + x n ), (x1 +
n
1
= ⎡⎣( Γ 0 + + Γ − n +1 ) + (Γ1 + Γ 0 + + Γ − n + 2 ) +
n
n −1
n −1
j⎞
⎛
1 n −1
= ∑ ⎜1 − ⎟ Γ j = ∑ Γ j − ∑ j Γ j .
n⎠
n j =− n +1
j =− n +1 ⎝
j =− n +1
var( n x ) =
+ xn )] =
+ (Γ n −1 +
+ Γ 0 ) ⎤⎦ =
L’asserto segue dalla ii) del lemma 1, non appena si passa al limite per n → ∞ .
Lo stimatore di Newey-West.
Dalla precedente proposizione, posto Γ j = cov(ut xt , ut − j xt − j ) = E(ut ut − j xt x′t − j ) , si ha
Avar(xu ) =
+∞
∞
j =−∞
j =1
∑ Γ j = Γ0 + ∑ (Γ j + Γ′j ) ,
1 n
inoltre uno stimatore consistente di Γ j e` evidentemente Γˆ j = ∑ uˆt uˆt − j xt xt − j (per ogni j ); si noti
n t = j +1
che per tale costruzione sono utilizzate soltanto n − j osservazioni.
23
3-Econometria, a.a. 2014-15
La difficoltà nella costruzione della stima consistente di Avar(xu ) sembra dipendere dalla sua
rappresentazione come somma di una serie. La difficoltà però è solo apparente nel caso in cui sia
noto che
esiste q > 0 tale che Γ j = 0 per j > q ;
q
in queso caso evidentemente si ha Avar(xu ) = Γˆ 0 + ∑ (Γˆ j + Γˆ ′j ) .
j =1
Per affrontare il caso generale, puo` sembrare ragionevole ridurre la somma della serie ad una
somma finita (la successione Γ j e` infinitesima e quindi i Γ j sono numericamente trascurabili da
un certo indice in poi), ma si e` osservato che con questa procedura spesso si ottiene una stima di
Avar(xu ) che non e` definita positiva (circostanza che crea numerosi inconvenienti). Newey-West
pensarono allora non solo di ridurre la serie ad una somma finita, ma di pesare i vari addendi, dando
maggior peso a quelli la cui stima utilizza piu` osservazioni. Piu` precisamente essi provarono che
per una opportuna scelta di q(= q (n)) (che qui non e` riportata, comunque crescente con n )
+
q −1
+∞
⎛
⎞
⎡
⎡
j⎤ ˆ
j⎤
ˆ
ˆ
ˆ
′
Avar(xu ) ⎜ = Γ 0 + ∑ ⎢1 − ⎥ (Γ j + Γ j ) ⎟ = Γ 0 + ∑ ⎢1 − ⎥ (Γˆ j + Γˆ ′j ) .
⎜
⎟
q⎦
q⎦
j =1 ⎣
j =1 ⎣
⎝
⎠
e` uno stimatore consistente di Avar(xu ) , la cui costruzione non presenta particolari problemi di
natura numerica ed è presente in tutti i software econometrici. Per concludere si segnala che dopo
Newey-West sono stati utilizzati altri pesi nella costruzione dello stimatore di Avar(xu ) .
top
24