1-Econometria, a.a. 2014-15
Capitolo 1
1-1 Breve Introduzione
1-2 Modello di regressione lineare
1-3 Due metodi di stima: Il Metodo dei Momenti e il Metodo dei Minimi Quadrati
1-4 Proprietà geometriche delle stime OLS
1-5 Le stime OLS dei modelli riparametrizzati e il teorema FWL
1-1 Breve Introduzione
1. L’Econometria e’ una disciplina che utilizza i metodi statistici per dare risposta a problemi
di natura economica.
2. I dati economici non sono di natura sperimentale, ma generalmente sono prelevati da
banche dati. Senza entrare ora nei dettagli di una loro classificazione, comunque di notevole
importanza, si segnalano soltanto alcune importanti categorie:
•
“Cross-Section” (o “sezionali”): osservazioni su differenti unita` statistiche;
•
“Time series” (o “serie temporali”): una osservazione di un processo stocastico a tempo
discreto.
•
“Panel Data” (o “ dati longitudinali”): osservazioni su differenti unita` statistiche ripetute nel
tempo.
3. Software consigliato: Gretl scaricabile dal sito http://gretl.sourceforge.net/gretl_italiano.html
4. Modelli economici e econometrici: Un modello è una rappresentazione semplificata di un
fenomeno reale; quando esso è completamente noto dicesi “struttura”. Un buon modello deve
cercare di soddisfare le seguenti esigenze contrapposte:
i)
Essere in grado di fornire risposte alle questioni sul fenomeno che hanno portato alla sua
costruzione;
ii) Non essere molto complesso.
Spesso, ma non sempre, è la teoria (con l’analisi del fenomeno) a suggerire il modello, e` allora
naturale utilizzare eventuali osservazioni sul fenomeno (e i metodi statistici) per stimare la struttura.
Un modello econometrico è costituito da un modello e dalle osservazioni sul fenomeno in esame.
5. Saranno considerati principalmente modelli econometrici algebrici, rappresentati cioe` da
una o piu` equazioni. In tali equazioni è necessario individuare le variabili endogene che hanno una
dipendenza causale (diretta o indiretta) da altre variabili, dette esogene, talvolta non presenti nel
modello (caso che sara` esaminato nel capitolo 7), per le quali il valore e` determinato al di fuori del
fenomeno in esame. Evidentemente soltanto l`analisi del fenomeno (e quindi la teoria economica e
1
1-Econometria, a.a. 2014-15
non i metodi statistici) potra` consentire la distinzione tra variabili esogene e variabili endogene.
Nei modelli sono presenti anche delle costanti (non note) che sono dette “parametri” del modello.
6. Accade spesso che il modello non sia conseguenza di alcuna teoria economica, ma è
comunque in grado di fornire risposte soddisfacenti a talune questioni riguardanti il fenomeno
(economico) reale.
•
Un semplice esempio: E’ convinzione comune che il salario (wage) non sia lo stesso per gli
uomini e per le donne. Al fine di trovare un sostegno a questa convinzione, un percorso abbastanza
naturale e` quello di costruire un ragionevole modello e di utilizzare i dati disponibili in qualche
banca dati per stimarlo.
Intanto non e` restrittivo assumere che i dati siano osservazioni di opportune variabili aleatorie
(in questo caso wage e gender (quest’ultima e` la variabile dummy (muta) che assume valore 1 per
gli uomini e 0 per le donne). Per quanto riguarda la costruzione del modello, non puo` essere di
aiuto nessuna teoria economica, pero` è ragionevole supporre che ci sia un legame causa-effetto, e
quindi una relazione funzionale, tra sesso e salario.
Modello 1: Si assume che tra le due variabili sussiste la seguente relazione funzionale
E( wage | gender ) = β 0 + β1 gender ,
(l’ipotesi di linearita` e` usuale nelle applicazioni in assenza di particolari informazioni sulla
relazione funzionale). Il valore di β1 (non noto) rappresenta allora la differenza tra il salario medio
orario (o la media della differenza di salario orario) nei due sessi.
Critica sul modello: Le differenze di salario, evidenziate eventualmente da questo modello,
possono dipendere dal differente grado di istruzione tra gli uomini e le donne presenti nella banca
dati.
Modello 2: Si introduce nel modello la variabile (ordinale) educ che assume valori 1,2,3,4 se il
titolo di studio posseduto è rispettivamente “licenza media”, “licenza superiore”, “laurea”,
“dottorato”, si ha dunque
E( wage | gender , educ ) = β 0 + β1 gender + β 3educ .
Ora il valore di β1 rappresenta la differenza tra il salario medio orario nei due sessi che hanno lo
stesso valore della variabile educ. Per il problema posto la variabile educ è detta variabile di
controllo. Altre variabili di controllo, che potrebbe essere opportuno inserire nel modello, sono “gli
anni di esperienza lavorativa” (exper), “lo stato civile per le donne”, …. . Evidentemente ulteriori
considerazioni possono portare a modelli piu` complessi.
In econometria, le questioni riguardanti la costruzione del modello e la stima della struttura
2
1-Econometria, a.a. 2014-15
fanno parte del capitolo denominato analisi strutturale e a tali argomenti e` dedicato il corso. Altre
problematiche di un certo interesse si presentano quando si vogliono costruire modelli econometrici
per fare previsioni (vedi l’appendice al capitolo 5 e il capitolo 9) o analisi politica.
Il contenuto di questi primi paragrafi differisce solo lievemente da quanto gia` presentato nei
corsi di statistica di base. Va segnalata la sostanziale differenza (ma poco influente dal punto di
vista tecnico) che qui anche le variabili indipendenti dei modelli sono aleatorie.
top
1-2 Modello di Regressione Lineare Classico
Lo scopo di questi modelli è quello di spiegare la variabile aleatoria y (che per il momento si
suppone univariata ed è detta variabile dipendente) mediante una variabile multivariata x
(denominata variabile indipendente) per le quali ( y e x ) sono disponibili n osservazioni. Non va
dimenticato che nelle applicazioni econometriche c`e` anche l`ipotesi di dipendenza casuale tra le
variabili y e x , ipotesi comunque non essenziale nella trattazione teorica che segue.
Le osservazioni a disposizione ( yt , xt ) (per t = 1,… , n ) saranno considerate come una (unica)
osservazione del processo stocastico { yt , xt } (notare che non c’e` alcuna differenza nelle notazione
tra le osservazioni e le variabili, ma cio` non crea alcun problema). La variabile yt è univariata,
mentre xt = ( x1t ,… , xkt )′ è un vettore aleatorio (colonna) di dimensione k , con k << n .
Il modello e alcune sue rappresentazioni: Si assume che
E( yt | xt ) = x′t β , per t = 1, 2,… ,
con β = ( β1 ,… , β k )′ , vettore colonna dei parametri (non noti)). Se si pone ut = yt − E( yt | xt ) ,
solitamente denominato errore, si ottiene la seguente differente rappresentazione
yt = x′t β + ut con E(ut | xt ) = 0 , per t = 1, 2,… ,
Infine, una rappresentazione pressoché equivalente, ma che si presta facilmente a interessanti
generalizzazioni, si ottiene assumendo E( yt | Ωt ) = x′t β e xt ∈ Ωt , avendo denotato con Ω t (la
σ -algebra del)le informazioni disponibili prima che yt sia osservata. In tal caso il modello si scrive
nella forma
yt = x′t β + ut con E(ut | Ωt ) = 0 e xt appartiene a Ωt , per t = 1, 2,… , . ( 1 )
Osservazione: In statistica termini di uso corrente sono “popolazione” e “campione”, che in
(1)
Un modello (parametrico) è completamente specificato se è possibile simulare il processo { yt } non appena sono
noti i valori dei parametri (per esempio se è noto che
{ut } ∼ n.i.d .(0, σ 2 ) ),
parzialmente specificato se per la
simulazione è indispensabile qualche ulteriore informazione (per esempio nel caso in cui è {ut } ∼ i.i.d .(0, σ 2 ) ).
3
1-Econometria, a.a. 2014-15
econometria sono sostituiti rispettivamente da data-generating process (DGP) e “osservazione”,
pertanto il modello se correttamente specificato evidenzia il modo con il quale le osservazioni sono
state generate. Il modello è dunque un insieme di DGP ed è correttamente specificato se i dati
disponibili provengono da un DGP appartenente al modello.
Differenti rappresentazioni del modello econometrico (la prima e` utilizzata nelle applicazioni, le
altre due nella trattazione teorica):
•
Rappresentazione puntuale o esplicita:
yt = x1t β1 +
•
+ xkt β k + ut , E(ut | Ω t ) = 0, xt ∈ Ωt per t = 1,… , n ;
Rappresentazione vettoriale:
yt = x′t β + ut , E(ut | Ωt ) = 0, xt ∈ Ωt per t = 1,… , n ;
•
Rappresentazione matriciale:
y = Xβ + u , E(ut | Ωt ) = 0 , xt ∈ Ωt per t = 1,… , n ,
avendo posto
⎡ x11
⎢x
X = ⎢ 12
( n× k )
⎢…
⎢
⎢⎣ x1n
⎞
x21 … xk1 ⎤ ⎛ ⎡ x1′ ⎤
⎡ u1 ⎤
⎡ y1 ⎤
⎜ ⎢ ⎥
⎟
⎥
⎢
⎥
⎢u ⎥
y2 ⎥
… … xk 2 ⎥ ⎜ ⎢ x′2 ⎥
1
k
⎟
⎢
=
= ⎡ X … X ⎤⎦ , y =
, u = ⎢ 2⎥ ,
⎟
⎢ ⎥
⎢ ⎥
… … … ⎥ ⎜ ⎢… ⎥ ⎣
⎟⎟
⎥ ⎜⎜ ⎢ ⎥
⎢ ⎥
⎢ ⎥
x2 n … xkn ⎥⎦ ⎝ ⎣⎢ x′n ⎦⎥
⎢⎣un ⎥⎦
⎣⎢ yn ⎦⎥
⎠
denominate rispettivamente matrice delle osservazioni della variabile x , vettore delle osservazioni
della variabile (dipendente) y e vettore degli errori (che evidentemente non e` osservabile).
Si noti che xt (per t = 1,… , n) e` (il vettore di dimensione k del)la t − esima osservazione della
variabile x , mentre X j ∈ R n (per j = 1,… , k ) e` la colonna j − esima della matrice X e dunque il
vettore colonna delle n osservazioni della variabile x j (la j − esima coordinata del vettore x ).
Inoltre, nei modelli con intercetta, le coordinate di una colonna di X sono tutte uguali ad 1 che
solitamente e` la prima colonna.
top
1-3 Due metodi di stima: Il Metodo dei Momenti e il Metodo dei Minimi Quadrati( 2 )
Inizialmewnte saranno formulate soltanto le ipotesi sul modello che renderanno realizzabile la
costruzione delle stime. Ulteriori ipotesi che le renderanno buone (cioe` con proprieta` che ne
consentiranno l’utilizzo) saranno fatte piu` avanti.
Il metodo dei momenti: Dalla ipotesi E(ut | Ωt ) = 0 e xt ∈ Ωt (per ogni t = 1,… , n ) segue
Un altro metodo di stima, molto utile nelle applicazioni econometriche, denominato il metodo della massima
verosimiglianza, e` descritto nel capitolo 8.
(2)
4
1-Econometria, a.a. 2014-15
E(xt ut ) = 0 per ogni t = 1,… , n ,
(*)
la cui versione empirica è l’equazione vettoriale (sistema di k equazioni con k incognite)
⎛ ⎧1 n
⎞
1 n
x
y
−
xt x′t )β = 0 ⎟
(
⎜
∑
∑
t t
n
⎪
1
⎪n
n t =1
⎟.
xt ( yt − x′t β) = 0 ⎜ ⇔ ⎨ t =1
∑
n t =1
⎜ ⎪
⎟
X′y X′Xβ
−
=0
⎜ ⎪
⎟
n
n
⎝ ⎩
⎠
Se la matrice quadrata
1 n
⎛ X′X ⎞
xt x′t ⎜ =
∑
⎟ di ordine k è invertibile, il precedente sistema
n t =1
n ⎠
⎝
fornisce una sola soluzione βˆ M , denominata stima di β con il metodo dei momenti e per essa si
ha la seguente rappresentazione:
−1
⎧ ⎛1 n
⎞ 1 n
xt yt
⎪ ⎜ ∑ xt x′t ⎟
∑
n
n
⎪
=
1
=
1
t
t
⎝
⎠
.
βˆ M = ⎨
−1
⎪⎛ X′X ⎞ X′y
−1
⎪⎜ n ⎟ n = ( X′X ) X′y
⎠
⎩⎝
Notare che dalla precedente uguaglianza si ottiene immediatamente la rappresenrtazione dello
stimatore βˆ M di β (come al solito si utilizza lo stesso simbolo anche se ora βˆ M e` una variabile
aleatoria funzione delle osservazioni); è sufficiente interpretare i simboli x t e yt come variabili
aleatorie.( 3 )
Qui di seguito e` formulata un’ipotesi che, oltre ad assicurare l`esistenza dello stimatore βˆ M con
il metodo dei momenti (almeno quando n sufficientemente grande), sara` necessaria` in seguito per
provare alcune sue importanti proprietà.
Ipotesi 1 – La successione di variabili aleatorie (
simboli
1 n
∑ xt x′t ) converge in probabilità` a Σ (in
n t =1
p
1 n
′
x
x
→
∑ t t Σ ) essendo Σ una matrice numerica invertibile.
n t =1
Osservazione:
•
La precedente ipotesi richiede che per il processo {xt x′t } sia valida qualche versione della
legge debole dei grandi numeri con limite in probabilità invertibile.
•
Dalle proprietà della convergenza in probabilità (essendo Σ invertibile) segue l’invertibilità
La condizione che assicura l’esistenza e unicità` dello stimatore βˆ M (qui e` l’invertibilità della matrice X′X ) dicesi
condizione di identificabilita` (finita) del parametro β .
3
5
1-Econometria, a.a. 2014-15
di (
1 n
∑ xt xt′ ) per n sufficientemente grande.
n t =1
Il Metodo dei Minimi Quadrati (OLS). Tra i metodi di stima e` il più conosciuto; cio` e` dovuto
sia alla sua semplicita` sia a ragioni storiche. Esso nasce come metodo numerico, e in questo
contesto risolve il problema di approssimare i punti della sequenza ( yt , xt )t =1,…, n con una funzione
lineare del tipo y = x′β . Questo problema è generalmente indicato con la scrittura y = Xβ + u
oppure yt = x′t β + ut per t = 1,… , n ; si noti che in questo caso ut non ha alcun significato.
Definizione: La stima dei minimi quadrati βˆ OLS di β è l’unico punto di R k (se esiste) che rende
minima la funzione (talvolta denominata funzione obiettivo)
Q(β) =
1 n
1
1
( yt − x′t β) 2 (= (y − Xβ)′() = ⟨ y − Xβ, y − Xβ⟩ ) ,
∑
n t =1
n
n
(si noti che, a meno della costante
1
, Q(β) è la distanza euclidea tra i vettori y e Xβ ).
n
Osservazione:
1)
Considerato il modello y = Xβ + u (ancora una volta si sottolinea la circostanza che non e`
necessaria alcuna ipotesi sul vettore degli errori u ) βˆ OLS minimizza la somma dei quadrati degli
errori.
2)
βˆ OLS se esiste è un punto stazionario della funzione Q(β) e dunque e` soluzione
dell’equazione, denominata equazione normale,
⎛ ∂Q
⎞
(β) = 0 ⇔ ⎟ (y − Xβ)′(− X) + (y − Xβ)′(− X) = 0 (4)
⎜
(1×k )
⎝ ∂β
⎠
⇔
X′Xβ = X′y .
Inoltre, quest’ultima equazione ha un’unica soluzione, che risulta essere anche l’unico punto di
minimo, se e soltanto se la matrice X′X di ordine k , è invertibile; in tal caso si ha
βˆ OLS = ( X′X)−1 X′y .
3)
La stima βˆ OLS coincide (evidentemente) con β̂M , pertanto d’ora innanzi si utilizzerà il
(4)
La derivata di una funzione a valori reali rispetto ad una variabile vettoriale è il vettore riga delle derivate parziali,
mentre la derivata di una funzione a valori vettoriali è la matrice in cui ciascuna riga è la riga delle derivate parziali
della corrispondente coordinata. E’ evidente allora la seguente affermazione: se f (β) e` una funzione scalare,
f (β) = g (β)′h (β) , con g e h funzioni a valori vettoriali di opportune dimensioni, si ha
∂
∂
∂
( f (β)) = h(β)′ g (β) + g (β)′ h(β)
∂β
∂β
∂β
6
1-Econometria, a.a. 2014-15
simbolo β̂ (senza indici) per indicare la stima (risp. lo stimatore) di β con il metodo dei momenti
e/o dei minimi quadrati. Per esso si hanno le seguenti rappresentazioni
−1
⎧⎛1 n
⎛ ⎛ X′X ⎞ −1 X′y
⎞
⎞ 1 n
−1
′
′
x
X
X
X
y
y
=
=
⎪ ⎜ ∑ xt x′t ⎟
(
)
⎜
⎟⎟
∑ t t ⎜ ⎜⎝ n ⎟⎠ n
⎝ n t =1
⎠ n t =1
⎪
⎝
⎠
βˆ = ⎨
−1
−1
⎛
⎞
⎪ ⎛1 n
⎞ 1 n
−1
⎛ X′X ⎞ X′u
′
β
x
x
x
β
u
+
=
+
= β + ( X′X ) X′u ⎟ .
⎜
⎟
⎪ ⎜ n ∑ t t ⎟ n ∑ t t ⎜⎜
⎟
⎝ n ⎠ n
t =1
⎠
⎝
⎠
⎩ ⎝ t =1
top
1-4 Proprietà geometriche delle stime OLS
Si continua a far riferimento al modello lineare
yt = x′t β + ut per t = 1,… , n (⇔ y = Xβ + u)
(non e` necessaria alcuna ipotesi sugli errori) e si assume che la stima OLS di β esiste e dunque che
la matrice ( X′X) e` invertibile. Ricordando che X j denota il vettore colonna (di R n ) delle
osservazioni della variabile x j (coordinata j − esima di x per j = 1,… , k ) e dunque
X j = ( x j1 ,… , x jn )′ e X = ⎡⎣ X 1 … X k ⎤⎦ ,
si denota con S ( X) il sottospazio di R n generato dai vettori { X 1 ,… , X k } .
Proposizione: Lo spazio vettoriale S ( X) ha dimensione k .
Dimostrazione: La prova e` immediata non appena si ricorda che, per la matrice X di ordine n × k
e k < n , le seguenti proposizioni sono equivalenti:
a) La matrice (quadrata di ordine k ) ( X′X) e` invertibile;
b) La matrice X (di ordine n × k ) ha rango massimo k ;
c) i k vettori (colonna di X ) X j sono linearmente indipendenti in R n .
Proprietà fondamentali e notazioni: Per ogni y ∈ R n , si pone
yˆ = Xβˆ ( = X( X′X) −1 X′y ) = PX y con PX = X( X′X) −1 X′ e uˆ = y − yˆ (= y − Xβˆ ) ;
il vettore ŷ e` denominato vettore dei valori previsti, mentre û dicesi vettore dei residui.
Sussistono le seguenti proprietà:
i)
(
yˆ = Xβˆ = ⎡⎣ X 1 ,… , X k ⎤⎦ βˆ = X 1βˆ1 +
)
+ X k βˆk ∈ S ( X) ;
ii) PX (come operatore in R n ) è la proiezione ortogonale sul sottospazio S ( X) ;
infatti, denotato con ⟨ x | y⟩ ( = x′y = y′x ) il prodotto scalare in R n , si ha
7
1-Econometria, a.a. 2014-15
•
PX PX = PX e PX (R n ) = S ( X) (e pertanto PX è una proiezione su S ( X) ).
•
la proiezione PX e` ortogonale, cioe` ⟨ PX y , ( I − PX )y ⟩ = 0 ; segue dalla simmetria dell’operatore
PX o equivalentemente della matrice X( X′X) −1 X′ ).
iii) L’operatore M X = I − PX è la proiezione ortogonale sul sottospazio di R n di dimensione
n − k , S ( X) ⊥ = {w ∈ R n | ⟨ v, w⟩ = 0 per ogni v ∈ R n } .
iv) Essendo y = yˆ + (y − yˆ ) ( = yˆ + û ) con yˆ ⊥ uˆ , segue immediatamente la seguente importante
identita`, denominata analisi della varianza (la terminologia corretta dovrebbe essere analisi della
variazione di y intorno a 0 , ma ormai e` in uso la prima espressione):
y′y = yˆ ′yˆ + (y − yˆ )′(y − yˆ ) (TSS = ESS + SSR ),
TSS (“total sum square), ESS (“explained sum square”), SSR (“ sum square residual”).
v) La dimensione degli spazi a cui appartengono i vettori y , yˆ e y = yˆ (cioe` n, k e n − k )
prendono il nome rispettivamente di gradi di liberta` delle corrispondenti somme di quadrati.
vi) La precedente analisi della varianza consente di introdurre il coefficiente di determinazione
non centrato definito dalla seguente
Ru2 =
ESS ⎛
SSR ⎞
⎜ = 1−
⎟,
TSS ⎝
TSS ⎠
che evidentemente è compreso tra 0 e 1 e assume valore 1 nel caso in cui la struttura individuata
fitta perfettamente i dati.
Nota: Il coefficiente di determinazione non centrato ora introdotto è poco usato per misurare la
bontà dell’adattamento del modello ai dati, in quanto esso non è invariante rispetto alle traslazioni
della variable dipendente (è invariante invece rispetto ai cambiamenti di scala).
top
1-5 Le stime OLS dei modelli riparametrizzati e il teorema FWL
Proposizione 1 – Sia y = Xβ + u ( yt = x′t β + ut per t = 1,… , n ) un modello lineare e sia A una
matrice invertibile di ordine k (numero dei parametri del modello). Posto Z = XA (essa e` la
matrice delle osservazioni della variabile z = A′x ) e considerato il modello
y = Zγ + v ( yt = z′t γ + vt per t = 1,… , n )
(si noti che è stato ottenuto da quello originario con la riparametrizzazione γ = A−1β ) si ha:
a) γˆ = A−1βˆ ;
(5)
b) uˆ = vˆ .( 5 )
Nelle ipotesi su u che saranno fatte nel capitolo 2 si ha anche
var( γˆ ) = σ 2 (Z′Z) −1 = σ 2 ( A′X′XA) −1 = .... = var( A−1βˆ ) .
8
1-Econometria, a.a. 2014-15
Dimostrazione: Intanto si ha
γˆ = ( Z′Z ) Z′y = ( A′X′XA ) A′X′y = A−1 ( X′X ) X′y = A−1β
−1
−1
−1
e dunque la a).
Inoltre è vˆ = y − Zγˆ = y − XAA−1βˆ = uˆ e dunque la b).
Corollario – Sia X = ⎡⎢ X1
⎣
X2 ⎤⎥ con le matrici X1 e X2 di dimensione rispettivamente n × k1 e
⎦
n × k2 , con k1 + k2 = k e sia B è una (qualunque) matrice di ordine k1 × k2 allora considerato il
modello y = X1β1 + X 2β 2 + u e la sua riparametrizzazione y = X1 (β1 − Bβ 2 ) + ( X1 B + X 2 )β 2 + u (che
si scrivera` nella forma y = X1γ1 + ( X1 B + X 2 ) γ 2 + u ) si ha:
βˆ 2 = γˆ 2 .
Dimostrazione: E` sufficiente osservare che
(Z =) ⎡⎢ X1
⎣
X1B + X2 ⎤⎥ = ⎡⎢ X1
⎦ ⎣
⎡I k1
donde essendo evidentemente A−1 = ⎢⎢
0
⎣⎢
vec [ γˆ 1
⎡I k1
X2 ⎤⎥ ⎢⎢
⎦⎢ 0
⎣
B⎤
⎥ (= XA) ,
I k2 ⎥⎥
⎦
−B ⎤
⎥ , dalla precedente proposizione segue
I k2 ⎥⎥
⎦
⎛ def ⎡ γˆ ⎤ ⎞
γˆ 2 ] ⎜ = ⎢ 1 ⎥ ⎟ = γˆ = A−1βˆ = A−1vec ⎡⎣βˆ 1 βˆ 2 ⎤⎦ = vec ⎡⎣βˆ 1 − Bβˆ 2
⎝ ⎣ γˆ 2 ⎦ ⎠
βˆ 2 ⎤⎦
donde l’asserto.
Osservazione: Dalla precedente proposizione segue immediatamente che i residui sono invarianti
rispetto ai cambiamenti di scala delle variabili indipendenti( 6 ) e pertanto lo sono anche rispetto alle
traslazioni soltanto se nel modello e` presente l’intercetta. Invece, si vede facilmente, che un
cambiamento di scala nella variabile dipendente produce lo stesso effetto sia sulle stime che sui
residui, mentre una traslazione della variabile dipendente non altera i residui e le stime dei
coefficienti delle variabili non costanti se nel modello e` presente l’intercetta.
Lemma 1: Sia X = ⎡⎢ X1
⎣
X2 ⎤⎥ con le matrici X1 e X2 di dimensione rispettivamente n × k1 e
⎦
n × k2 , con k1 + k2 = k e ortogonali (cioè X2′ X1 = 0 ). Allora considerati i tre modelli
M:
y = X1β1 + X2β2 + u(⇔ y = Xβ + u) ,
Questa proprietà insieme con la b), consente di effettuare l’inferenza su β , o direttamente oppure attraverso γ (vedi
anche lemma 1 in 2-4).
(6)
Qui il termine “cambiamento di scala” va inteso nel senso piu` generale di trasformazione del tipo A′x .
9
1-Econometria, a.a. 2014-15
M1:
y = X1α + v ,
M2:
y = X2 γ + w ,
(
)
e le corrispondenti stime OLS βˆ = vec ⎡⎢βˆ1 βˆ2 ⎤⎥ , α̂ e γˆ , si ha
⎣
⎦
βˆ 1 = αˆ , βˆ 2 = γˆ .
Dimostrazione:
⎡ βˆ ⎤ ⎛ ⎡ X′ ⎤
βˆ = ⎢ 1 ⎥ = ⎜ ⎢ 1 ⎥ [ X1
ˆ
′
⎣⎢β 2 ⎦⎥ ⎝ ⎣ X 2 ⎦
−1
⎞ ⎡ X′ ⎤
⎡ X′ X
X2 ] ⎟ ⎢ 1 ⎥ y = ⎢ 1 1
⎣ 0
⎠ ⎣ X′2 ⎦
−1
−1
0 ⎤ ⎡ X1′y ⎤ ⎡ ( X1′ X1 ) X1′y ⎤ ⎡αˆ ⎤
⎥=
.
=⎢
X′2 X 2 ⎥⎦ ⎢⎣ X′2 y ⎥⎦ ⎢( X′2 X 2 )−1 X′2 y ⎥ ⎢⎣ γˆ ⎥⎦
⎣
⎦
Teorema FWL (di Frisch-Waugh-Lovell): E` assegnato il modello lineare
y = X1β1 + X 2β 2 + u
e sia M 1 = I − P1 (= I − PX1 = I − X1 ( X1′ X1 ) −1 X1′ ) la proiezione ortogonale su S (X1 ) . Allora si ha:
a)
βˆ 2 = γˆ 2 , essendo γ̂ 2 la stima OLS del parametro del modello y = M 1X 2 γ 2 + v .
b)
La stima OLS di β 2 del modello y = X1β1 + X 2β 2 + u coincide con la stima OLS di α 2 del
modello ausiliario M 1y = M 1X 2α 2 + v (dunque βˆ 2 = αˆ 2 ) ed inoltre i due modelli hanno lo stesso
vettore dei residui (cioe` uˆ = vˆ ).
Dimostrazione: Sia B una matrice di ordine k1 × k2 tale che X1 B + X 2 sia ortogonale a X1 (si
osservi che dalla relazione di ortogonalità X1′ ( X1 B + X 2 ) = 0 segue B = − ( X1′ X1 ) X1′ X 2 ).
−1
Si
considera ora il modello y = X1β1 + X 2β 2 + u e la sua seguente riparametrizzazione
y = X1 ( β1 − Bβ 2 ) + ( X 2 + X1 B)β 2 + u ( = X1α1 + ( I n − P1 ) X 2β 2 + u )
che per comodita` si scrive nella forma
y = X1γ1 + ( I n − P1 ) X 2 γ 2 + v ,
allora dal precedente corollario segue
γˆ 2 = βˆ 2 ,
e dalla ortogonalità di X1 e ( I n − P1 ) X 2 e dal lemma 1 segue ovviamente la a).
Per provare la b) si osserva che
(
)
γˆ 2 = ( X′2 M 1X 2 ) X′2 M 1y = ( X′2 M 1X 2 ) X′2 M 1M 1y = αˆ 2
−1
−1
e inoltre
vˆ = M 1y − M 1X2αˆ 2 = M 1y − M 1X2βˆ 2 = M 1y − M 1X1βˆ 1 − M 1X2βˆ 2 = M 1uˆ = û
e quindi l’asserto. (L’ultima uguaglianza segue da u ∈ S ( X) ⊥ ⊂ S ( X1 ) ⊥ e dal fatto che M 1 e` una
10
1-Econometria, a.a. 2014-15
proiezione su S ( X1 ) ⊥ ).
Osservazione: Il vettore M 1y e i k 2 vettori colonna di M 1X 2 sono rispettivamente i vettori dei
residui nella regressione z = X1α + resid , in cui il vettore z è di volta in volta y e i k 2 vettori
colonna di X 2 .
Alcune applicazioni del teorema F-W-L
1) Analisi della varianza in modelli con intercetta e coefficiente di determinazione centrato:
Sia y = ιβ1 + X 2β 2 + u un modello lineare con intercetta (qui ι ( = X1 ) e` il vettore colonna con tutte
le coordinate uguali ad 1). Dal teorema F-W-L segue che la stima OLS β̂ 2 e il vettore dei residui
û del modello coincidono rispettivamente con la stime OLS e il vettore dei residui del modello
M 1y = M 1 X 2 α 2 + v ;
(
)
e` utile osservare che P1y = PX1 y = ι(ι′ι)ι′y = ιy e quindi M 1y = y − ιy (analogo discorso vale per le
colonne della matrice M 1X 2 ).
Ora la ovvia decomposizione in componenti ortogonali
M 1y = M 1X 2αˆ 2 + vˆ
diventa
y − yι = M 1X 2βˆ 2 + uˆ ⇔ y − yι = M 1X 2βˆ 2 + ( y − yˆ ) ,
e quindi
M 1X 2βˆ 2 ( = M 1yˆ ) = yˆ − ιy e y − yι = ( yˆ − ιy ) + ( y − yˆ ) ,
donde l’analisi della varianza
y − yι = yˆ − ιy + y − yˆ
2
2
2
(TSS = ESS + SSR )
i cui gradi di liberta` sono rispettivamente n − 1 , k − 1 e n − k .
I parametri
y − yˆ
SSR ⎛
R = 1−
⎜ = 1−
TSS ⎜⎝
y − yι
2
c
2
⎞
y − yˆ /(n − k )
2
⎟ e Rad = 1 −
2
2
⎟
y − yι /(n − 1)
⎠
2
prendono il nome di coefficiente di determinazione centrato ed aggiustato (rispettivamente);
entrambi sono positivi e assumono il valore massimo 1 quando il modello fitta perfettamente i dati
pertanto essi sono utilizzati come una misura della bonta` di adattamento del modello ai dati. Si
segnala che in assenza di intercetta i precedenti parametri non hanno alcuna utilita` (tra l’altro
potrebbero assumere valore negativo), pero` sono comunque presenti negli output dei software
11
1-Econometria, a.a. 2014-15
econometrici.
2) Effetto di una singola osservazione sulla stima dei parametri. L’effetto di una osservazione
sulla stima del parametro β può essere osservato confrontando le stime β̂ e βˆ(t ) (quest’ultima
ottenuta con lo stesso modello utilizzando gli stessi dati dai quali è stata soppressa l’osservazione
t − esima ).
Proposizione – Denotato con et il vettore di dimensione n , avente tutte le coordinate uguali a 0 ad
eccezione della coordinata t − esima che e` uguale ad 1, e considerato il modello y = Xγ + α et + u
si ha βˆ ( t ) = γˆ .
Dimostrazione: Posto M t = M et , dal teorema FWL segue γ̂ si ottiene stimando il modello
M t y = M t Xγ + v .
Ora osservato che M t y = (I − et (e′t et ) −1 e′t )y = y − et yt e allo stesso modo la matrice M t X e` ottenuta
da X sostituendo le coordinate della riga t − esima con 0, si ottiene immediatamente l’asserto.
Al fine di valutare la differenza βˆ (t ) − βˆ , con le notazioni introdotte nel precedente lemma, si
osserva:
i)
X(βˆ (t ) − βˆ ) = −αˆ PX et ;
infatti posto Z = [ X et ] si ha y = PZ y + M Z y = Xβˆ ( t ) + αˆ et + M Z y , ed essendo PX M Z = 0 (notare
che da S ( X) ⊂ S (Z) segue S ( Z) ⊥ ⊂ S ( X) ⊥ ) si ha Xβˆ = PX y = Xβˆ (t ) + αˆ PX et .
ii) αˆ =
uˆt
, essendo uˆt la t − esima coordinata del vettore dei residui uˆ ( = M X y ) e ht (∈ ]0,1[ ) il
1 − ht
t − esimo elemento diagonale della matrice PX ;
infatti
•
α̂ (ancora per il teorema FWL) e` la stima OLS del modello M X y = α M X et + v e dunque
αˆ = [ ( M X et )′M X et ] ( M X et )′M X y =
−1
e′t M X y
,
e′t M X et
•
e′t M X y è la t − esima coordinata del vettore dei residui di uˆ ( = M X y ) ,
•
e′t M X et = e′t ( I − PX )et = 1 − ht ,
•
ht = e′t PXet = PXet ≤ PX et ≤ 1 .
Dalle precedenti i) e ii) segue
12
1-Econometria, a.a. 2014-15
uˆ
uˆ
βˆ ( t ) − βˆ = −αˆ ( X′X) −1 X′PX et = − t ( X′X) −1 X′et = − t ( X′X) −1 xt
1 − ht
1 − ht
( X′et è la t − esima colonna di X′ e quindi X′et = xt ).
Osservazione: Quando ht è grande (vicino ad 1), è possibile (non certo, per la presenza di altri
fattori) che qualcuna delle coordinate di β̂ sia fortemente influenzata dalla presenza della
osservazione t − esima . Tali osservazioni si dicono “punti con effetto leva” e ht è la misura
dell’effetto leva. Il plot della coppia (t , ht ) (per modelli univariati anche il plot della coppia ( xt , ht ) )
puo` evidenziare la presenza di punti con effetto leva, che potrebbero essere anche outliers
(osservazioni anomale) e in tal caso non dovrebbero essere presenti tra le osservazioni nelle
procedure di stima.
top
13