Laboratorio di statistica ed econometria 2014-15

Laboratorio di statistica ed econometria 2014-15
March 25, 2015
L’econometria pone l’enfasi sui momenti condizionali di una variabile economica
E(y|X)
(1)
dove y è la variabile dipendente e X la matrice dei regressori
Esempi:
• Consumo e reddito
• Domanda e reddito dei consumatori
• Investimenti delle imprese e tassi di interesse
• Salario e istruzione
• Probabilità di trovare lavoro e istruzione
Tipo di dati:
• Dati cross-sezionali
• Serie storiche
• Dati panel o longitudinali
Non si confondano il modello (insieme di ipotesi sul processo che ha generato i
dati e il processo di campionamento) e lo stimatore “naturale” per quel tipo di
modello
Il modello lineare classico. Ipotesi:
• Il modello è lineare (nei parametri)
yi = β0 + β1 xi1 + β2 xi2 + . . . + εi
(2)
dove ε è il termine di errore e ciascun β rappresenta l’effetto del regressore
relativo sulla variabile dipendente (derivata parziale)
• Il campionamento è di tipo casuale semplice, sicché le osservazioni nel
campione sono i.i.d.
1
• Stretta esogeneità dei regressori:
E(ε|X) = 0
(3)
• Omoschedasticità: la varianza dell’errore dati i regressori non dipende dai
regressori
V AR(ε|X) = σ 2 In
(4)
Date queste ipotesi del modello, lo stimatore “naturale” è l’OLS
βbOLS = b = (X 0 X)−1 X 0 y
(5)
V ar(βbOLS ) = σ 2 (X 0 X)−1
(6)
d
V ar(βbOLS ) = s2 (X 0 X)−1
(7)
la cui varianza è
che viene stimata con
dove
Pn 2
e
e0 e
= i=1 i
(8)
n−k
n−K
ed e è il vettore dei residui e K il numero dei parametri β del modello, costante
inclusa
s2 =
La formula generale per lo stimatore OLS si “specializza” come segue:
• K = 1 con l’unico regressore che è una costante: b0 = y
• K = 2 con il primo regressore che è una costante: b0 = y − b1 x1 and
n
P
S
b1 = Sxx1xy dove Sx1 y =
(xi1 − x1 ) (yi − y) è la codevianza campionaria
1 1
i=1
tra x1 and y, and Sx1 x1 =
n
P
2
(xi1 − x1 ) è la devianza campionaria di x1 .
i=1
b2 =
cov(x1 ,y)
var(x1 )
• K = 3 con il primo regressore che è una costante: b0 = y − b1 x1 − b2 x2 ;
S
S
−Sx1 x2 Sx2 y
S
S
−Sx1 x2 Sx1 y
b1 = xS2xx2x xS1xy x −S
and b2 = xS1xx1x xS2xy x −S
2
2
1 1
2 2
x1 x2
1 1
2 2
x1 x2
La formula generale per la varianza dello stimatore OLS si “specializza” come
segue:
Se K = 2,
1
x̄1
+
var(b0 ) = σ 2
n Sx1 x1
e
1
1
σ2
var(b1 ) = σ 2
=
n V ar(x1 )
Sx1 x1
2
Se K = 3,
var(b1 ) =
σ2
Sx1 x1 (1 − rx21 x2 )
var(b2 ) =
σ2
Sx2 x2 (1 − rx21 x2 )
e
Cosa fare in caso l’ipotesi di omoschedasticità non sia verificata, cioè V AR(ε|X) 6=
σ 2 In ma V AR(ε|X) = σ 2 Ω(X)? (modello di regressione lineare generalizzato)
• Approccio “classico”: utilizzo di uno stimatore alternativo all’OLS, il GLS,
la cui formula è:
βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 y
(9)
Problema: qual è la Ω?
• Approccio “moderno”: utilizzo lo stimatore OLS ma uso uno stimatore
corretto della sua matrice di varianza e covarianza (formula di White):
V ar(βbOLS ) = σ 2 (X 0 X)−1 (X 0 ΩX)(X 0 X)−1
(10)
che viene stimata con
d
0 ΩX)(X 0 X)−1
V ar(βbOLS ) = s2 (X 0 X)−1 (Xd
3
(11)
Cosa fare nel caso la variabile dipendente sia una dummy?
L’approccio di regressione può essere applicato anche in questo caso. Tuttavia,
data la natura dicreta e i soli due valori che la variabile dipendente può assumere:
E(y|X) = 1 × P (y = 1|X) + 0 × P (y = 0|X) = P (y = 1|X)
(12)
Pertanto, quello che facciamo con l’approccio di regressione è la stima della
probabilità condizionata che la variabile dipendente prenda valori pari a 1.
Metodi di stima
1. OLS
L’OLS può essere applicato anche in questo caso: P (yi = 1|X) = β0 +
β1 xi1 + β2 xi2 + . . . + εi . Tuttavia, questo “modello lineare di probabilità”
ha due difetti:
(a) comporta dei valori fittati che sono maggiori di 1 o minori di 0
(b) gli errori sono necessariamente eteroschedastici
2. Modelli probit e/o logit
Un approccio più corretto è allora quello di legare (link) la variabile dipendente ai regressori attraverso una funzione (diversa da quella identità) che
restituisce valori nell’intervallo 0 − 1. Inoltre, a fini interpretativi, tale
funzione deve essere monotona crescente. Naturali candidate a svolgere
questo ruolo sono le funzioni di ripartizione:
P (yi = 1|X) = Φ(β0 + β1 xi1 + β2 xi2 + . . .)
(13)
P (yi = 1|X) = L(β0 + β1 xi1 + β2 xi2 + . . .)
(14)
dove Φ è la funzione di ripartizione di una normale standard e L quella di
exp(u)
.
una logistica standard: L(u) = 1+exp(u)
La stima dei parametri nei modelli probit e logit avviene con il metodo della
massima verosimiglianza.
Calcolo degli effetti marginali.
Essendo il modello non lineare nelle variabili, oltre che nei parametri, l’effetto
marginale stimato dal probit o dal logit non è uguale a un coefficiente ma è una
combinazione di parametri e di variabili:
4
∂P (yi = 1|X)
= φ(β0 + β1 xi1 + β2 xi2 + . . .)βk
∂xik
(15)
∂P (yi = 1|X)
exp(β0 + β1 xi1 + β2 xi2 + . . .)
βk
=
∂xij
(1 + exp(β0 + β1 xi1 + β2 xi2 + . . .))2
(16)
Misure di “bontà di adattamento” nei modelli logit e probit
• Pseudo-R2 e McFadden-R2
Si definisca con logL1 il valore massimo della funzione di log-verosimiglianza
per il modello di interesse e con logL0 il valore massimo della funzione di
log-verosimiglianza per il modello in cui tutti i parametri, con l’eccezione
della costante, sono assunti uguali a zero. Intuitivamente, maggiore è la
distanza tra i due valori, maggiore è il contributo delle variabili indipendenti alla spiegazione del fenomeno d’interesse.
La statistica Pseudo-R2 è calcolata come:
P seudo − R2 = 1 −
1
1+
(17)
L0
2 log L1 −log
n
Una misura alternativa è la statistica McFadden-R2
M cF adden − R2 = 1 −
log L1
log L0
(18)
Dal momento che la funzione di log-verosimiglianza è la somma di logaritmi di probabilità vale che
log L0 ≤ log L1 ≤ 0
(19)
Se tutti i parametri (con l’eccezione della costante) sono uguali a 0 allora
log L0 = log L1 e quindi entrambe le statistiche sono a loro volta uguali
a 0. Se viceversa le probabilità stimate coincidono esattamente con i
valori osservati per ogni i (b
pi = yi ) allora log L1 = 0. Segue che il limite
1
superiore della statistica Pseudo-R2 è uguale a 1 −
log L0 mentre quello
1−2
della statistica McFadden-R2 è uguale a 1.
n
• Statistiche costruite sulle previsioni errate
Una strada alternativa è di confrontare le previsioni corrette con quelle
non corrette. A questo fine vengono calcolate le previsioni per yi
ybi
=
ybi
=
1
1 se F (x0i βbM L ) >
2
1
0 se F (x0i βbM L ) ≤
2
5
(20)
(21)
che consentono di costruire una tabella a doppia entrata basata sui valori
osservati yi e su quelli previsti ybi
yi
ybi
1
n01
n11
N1
0
0
n00
1
n10
T ot N0
T ot
n0
n1
n
(22)
Utilizzando tale tabella è possibile derivare una molteplicità di misure di
adattamento. Si definisca con
wr1 =
n01 + n10
n
(23)
la proporzione di previsione errate per il modello generale. L’analoga
statistica per il modello in cui tutti i parametri sono posti uguali a 0 può
essere calcolata facilmente. Infatti se pbM L = nn1 > 12 allora
wr0 = 1 −
Se invece pbM L =
n1
n
≤
1
2
n1
n
(24)
allora
wr0 =
n1
n
(25)
La misura di adattamento può essere infine calcolata come
Rp2 = 1 −
wr1
wr0
(26)
Si osservi che la statistica Rp2 può assumere valori negativi se il modello con
la sola costante ”batte” il modello generale cioè se wr1 > wr0 . Ovviamente
questo è interpretabile come un segnale negativo riguardo alla capacità
previsiva del modello.
6
Stime con dati panel
Qualora si abbiano osservazioni ripetute sulle stesse unità statistiche è possibile
“arricchire” il modello con parametri che variano a livello di singola unità statistica. Nel prosieguo supporremo che il parametro che varia a livello di unità
statistica sia la costante:
yit = αi + β1 xit1 + β2 xit2 + . . . + εit
(27)
dove αi è una costante specifica a ciascuna unità statistica che racchiude tutte
le componenti costanti nel tempo che influenzano la variabile dipendente.
Alcuni possibili stimatori dei parametri di interesse, i β, si ottengono trasformando la equazione originaria in una equazione di stima che contiene i medesimi
parametri.
1. Nessuna trasformazione: stimatore Pooled OLS. Se non si trasforma
il modello, l’equazione può essere semplicemente riscritta come:
yit = β0 + β1 xit1 + β2 xit2 + . . . + ((β0 − αi ) + εit )
(28)
e si può utilizzare lo stimatore OLS su tutte le osservazioni “pooled”. In
questo caso l’errore sarà autocorrelato per ciascuna unità osservazionale
per cui si dovranno “clusterizzare” gli errori (e non solo considerare la
possibilità di eteroschedasticità).
2. Trasformazione within: stimatore a effetti fissi. Se non si prende
la media dei termini di sinistra e destra per ciascuna unità statistica, il
modello diventa:
yi = β0 + β1 xi1 + β2 xi2 + . . . + β0 − αi + εi
(29)
Sottraendo i termini di un’equazione dall’altra il modello da stimare diventa:
yit −yi = β0 −β0 +β1 (xit1 − xi1 )+β2 (xit2 − xi2 )+. . .+ (β0 − αi ) − β0 − αi + εit − εi
(30)
che può essere semplificato come:
yit − yi = β1 (xit1 − xi1 ) + β2 (xit2 − xi2 ) + . . . + εit − εi
(31)
Se si utilizza lo stimatore OLS sul modello trasformato si stimano i parametri
di interesse senza dovere fare alcuna ipotesi sull’eventuale correlazione tra le componenti in αi e i regressori. Questo è il motivo
per cui gli economisti utilizzano frequentemente questo stimatore.
7
3. Trasformazione GLS: stimatore a effetti random. Considerando la
natura non sferica dell’errore, si può trasformare il modello con la trasformazione GLS e stimare con OLS i parametri del modello trasformato. Se
non vi è correlazione tra le componenti in αi e i regressori, questo stimatore è più efficiente di quello a effetti fissi. Questo è il motivo per cui gli
statistici usano molto questo stimatore.
8