Laboratorio di statistica ed econometria 2014-15

Laboratorio di statistica ed econometria 2014-15
March 25, 2015
L’econometria pone l’enfasi sui momenti condizionali di una variabile economica
E(y|X)
(1)
dove y è la variabile dipendente e X la matrice dei regressori
Esempi:
• Consumo e reddito
• Domanda e reddito dei consumatori
• Investimenti delle imprese e tassi di interesse
• Salario e istruzione
• Probabilità di trovare lavoro e istruzione
Tipo di dati:
• Dati cross-sezionali
• Serie storiche
• Dati panel o longitudinali
Non si confondano il modello (insieme di ipotesi sul processo che ha generato i
dati e il processo di campionamento) e lo stimatore “naturale” per quel tipo di
modello
Il modello lineare classico. Ipotesi:
• Il modello è lineare (nei parametri)
yi = β0 + β1 xi1 + β2 xi2 + . . . + εi
(2)
dove ε è il termine di errore e ciascun β rappresenta l’effetto del regressore
relativo sulla variabile dipendente (derivata parziale)
• Il campionamento è di tipo casuale semplice, sicché le osservazioni nel
campione sono i.i.d.
1
• Stretta esogeneità dei regressori:
E(ε|X) = 0
(3)
• Omoschedasticità: la varianza dell’errore dati i regressori non dipende dai
regressori
V AR(ε|X) = σ 2 In
(4)
Date queste ipotesi del modello, lo stimatore “naturale” è l’OLS
βbOLS = b = (X 0 X)−1 X 0 y
(5)
V ar(βbOLS ) = σ 2 (X 0 X)−1
(6)
d
V ar(βbOLS ) = s2 (X 0 X)−1
(7)
la cui varianza è
che viene stimata con
dove
Pn 2
e
e0 e
= i=1 i
(8)
n−k
n−K
ed e è il vettore dei residui e K il numero dei parametri β del modello, costante
inclusa
s2 =
La formula generale per lo stimatore OLS si “specializza” come segue:
• K = 1 con l’unico regressore che è una costante: b0 = y
• K = 2 con il primo regressore che è una costante: b0 = y − b1 x1 and
n
P
S
b1 = Sxx1xy dove Sx1 y =
(xi1 − x1 ) (yi − y) è la codevianza campionaria
1 1
i=1
tra x1 and y, and Sx1 x1 =
n
P
2
(xi1 − x1 ) è la devianza campionaria di x1 .
i=1
b2 =
cov(x1 ,y)
var(x1 )
• K = 3 con il primo regressore che è una costante: b0 = y − b1 x1 − b2 x2 ;
S
S
−Sx1 x2 Sx2 y
S
S
−Sx1 x2 Sx1 y
b1 = xS2xx2x xS1xy x −S
and b2 = xS1xx1x xS2xy x −S
2
2
1 1
2 2
x1 x2
1 1
2 2
x1 x2
La formula generale per la varianza dello stimatore OLS si “specializza” come
segue:
Se K = 2,
1
x̄1
+
var(b0 ) = σ 2
n Sx1 x1
e
1
1
σ2
var(b1 ) = σ 2
=
n V ar(x1 )
Sx1 x1
2
Se K = 3,
var(b1 ) =
σ2
Sx1 x1 (1 − rx21 x2 )
var(b2 ) =
σ2
Sx2 x2 (1 − rx21 x2 )
e
Cosa fare in caso l’ipotesi di omoschedasticità non sia verificata, cioè V AR(ε|X) 6=
σ 2 In ma V AR(ε|X) = σ 2 Ω(X)? (modello di regressione lineare generalizzato)
• Approccio “classico”: utilizzo di uno stimatore alternativo all’OLS, il GLS,
la cui formula è:
βbGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 y
(9)
Problema: qual è la Ω?
• Approccio “moderno”: utilizzo lo stimatore OLS ma uso uno stimatore
corretto della sua matrice di varianza e covarianza (formula di White):
V ar(βbOLS ) = σ 2 (X 0 X)−1 (X 0 ΩX)(X 0 X)−1
(10)
che viene stimata con
d
0 ΩX)(X 0 X)−1
V ar(βbOLS ) = s2 (X 0 X)−1 (Xd
3
(11)
Cosa fare nel caso la variabile dipendente sia una dummy?
L’approccio di regressione può essere applicato anche in questo caso. Tuttavia,
data la natura dicreta e i soli due valori che la variabile dipendente può assumere:
E(y|X) = 1 × P (y = 1|X) + 0 × P (y = 0|X) = P (y = 1|X)
(12)
Pertanto, quello che facciamo con l’approccio di regressione è la stima della
probabilità condizionata che la variabile dipendente prenda valori pari a 1.
Metodi di stima
1. OLS
L’OLS può essere applicato anche in questo caso: P (yi = 1|X) = β0 +
β1 xi1 + β2 xi2 + . . . + εi . Tuttavia, questo “modello lineare di probabilità”
ha due difetti:
(a) comporta dei valori fittati che sono maggiori di 1 o minori di 0
(b) gli errori sono necessariamente eteroschedastici
2. Modelli probit e/o logit
Un approccio più corretto è allora quello di legare (link) la variabile dipendente ai regressori attraverso una funzione (diversa da quella identità) che
restituisce valori nell’intervallo 0 − 1. Inoltre, a fini interpretativi, tale
funzione deve essere monotona crescente. Naturali candidate a svolgere
questo ruolo sono le funzioni di ripartizione:
P (yi = 1|X) = Φ(β0 + β1 xi1 + β2 xi2 + . . .)
(13)
P (yi = 1|X) = L(β0 + β1 xi1 + β2 xi2 + . . .)
(14)
dove Φ è la funzione di ripartizione di una normale standard e L quella di
exp(u)
.
una logistica standard: L(u) = 1+exp(u)
La stima dei parametri nei modelli probit e logit avviene con il metodo della
massima verosimiglianza.
Calcolo degli effetti marginali.
Essendo il modello non lineare nelle variabili, oltre che nei parametri, l’effetto
marginale stimato dal probit o dal logit non è uguale a un coefficiente ma è una
combinazione di parametri e di variabili:
4
∂P (yi = 1|X)
= φ(β0 + β1 xi1 + β2 xi2 + . . .)βk
∂xik
(15)
∂P (yi = 1|X)
exp(β0 + β1 xi1 + β2 xi2 + . . .)
βk
=
∂xij
(1 + exp(β0 + β1 xi1 + β2 xi2 + . . .))2
(16)
Misure di “bontà di adattamento” nei modelli logit e probit
• Pseudo-R2 e McFadden-R2
Si definisca con logL1 il valore massimo della funzione di log-verosimiglianza
per il modello di interesse e con logL0 il valore massimo della funzione di
log-verosimiglianza per il modello in cui tutti i parametri, con l’eccezione
della costante, sono assunti uguali a zero. Intuitivamente, maggiore è la
distanza tra i due valori, maggiore è il contributo delle variabili indipendenti alla spiegazione del fenomeno d’interesse.
La statistica Pseudo-R2 è calcolata come:
P seudo − R2 = 1 −
1
1+
(17)
L0
2 log L1 −log
n
Una misura alternativa è la statistica McFadden-R2
M cF adden − R2 = 1 −
log L1
log L0
(18)
Dal momento che la funzione di log-verosimiglianza è la somma di logaritmi di probabilità vale che
log L0 ≤ log L1 ≤ 0
(19)
Se tutti i parametri (con l’eccezione della costante) sono uguali a 0 allora
log L0 = log L1 e quindi entrambe le statistiche sono a loro volta uguali
a 0. Se viceversa le probabilità stimate coincidono esattamente con i
valori osservati per ogni i (b
pi = yi ) allora log L1 = 0. Segue che il limite
1
superiore della statistica Pseudo-R2 è uguale a 1 −
log L0 mentre quello
1−2
della statistica McFadden-R2 è uguale a 1.
n
• Statistiche costruite sulle previsioni errate
Una strada alternativa è di confrontare le previsioni corrette con quelle
non corrette. A questo fine vengono calcolate le previsioni per yi
ybi
=
ybi
=
1
1 se F (x0i βbM L ) >
2
1
0 se F (x0i βbM L ) ≤
2
5
(20)
(21)
che consentono di costruire una tabella a doppia entrata basata sui valori
osservati yi e su quelli previsti ybi
yi
ybi
1
n01
n11
N1
0
0
n00
1
n10
T ot N0
T ot
n0
n1
n
(22)
Utilizzando tale tabella è possibile derivare una molteplicità di misure di
adattamento. Si definisca con
wr1 =
n01 + n10
n
(23)
la proporzione di previsione errate per il modello generale. L’analoga
statistica per il modello in cui tutti i parametri sono posti uguali a 0 può
essere calcolata facilmente. Infatti se pbM L = nn1 > 12 allora
wr0 = 1 −
Se invece pbM L =
n1
n
≤
1
2
n1
n
(24)
allora
wr0 =
n1
n
(25)
La misura di adattamento può essere infine calcolata come
Rp2 = 1 −
wr1
wr0
(26)
Si osservi che la statistica Rp2 può assumere valori negativi se il modello con
la sola costante ”batte” il modello generale cioè se wr1 > wr0 . Ovviamente
questo è interpretabile come un segnale negativo riguardo alla capacità
previsiva del modello.
6
Stime con dati panel
Qualora si abbiano osservazioni ripetute sulle stesse unità statistiche è possibile
“arricchire” il modello con parametri che variano a livello di singola unità statistica. Nel prosieguo supporremo che il parametro che varia a livello di unità
statistica sia la costante:
yit = αi + β1 xit1 + β2 xit2 + . . . + εit
(27)
dove αi è una costante specifica a ciascuna unità statistica che racchiude tutte
le componenti costanti nel tempo che influenzano la variabile dipendente.
Alcuni possibili stimatori dei parametri di interesse, i β, si ottengono trasformando la equazione originaria in una equazione di stima che contiene i medesimi
parametri.
1. Nessuna trasformazione: stimatore Pooled OLS. Se non si trasforma
il modello, l’equazione può essere semplicemente riscritta come:
yit = β0 + β1 xit1 + β2 xit2 + . . . + ((β0 − αi ) + εit )
(28)
e si può utilizzare lo stimatore OLS su tutte le osservazioni “pooled”. In
questo caso l’errore sarà autocorrelato per ciascuna unità osservazionale
per cui si dovranno “clusterizzare” gli errori (e non solo considerare la
possibilità di eteroschedasticità).
2. Trasformazione within: stimatore a effetti fissi. Se non si prende
la media dei termini di sinistra e destra per ciascuna unità statistica, il
modello diventa:
yi = β0 + β1 xi1 + β2 xi2 + . . . + β0 − αi + εi
(29)
Sottraendo i termini di un’equazione dall’altra il modello da stimare diventa:
yit −yi = β0 −β0 +β1 (xit1 − xi1 )+β2 (xit2 − xi2 )+. . .+ (β0 − αi ) − β0 − αi + εit − εi
(30)
che può essere semplificato come:
yit − yi = β1 (xit1 − xi1 ) + β2 (xit2 − xi2 ) + . . . + εit − εi
(31)
Se si utilizza lo stimatore OLS sul modello trasformato si stimano i parametri
di interesse senza dovere fare alcuna ipotesi sull’eventuale correlazione tra le componenti in αi e i regressori. Questo è il motivo
per cui gli economisti utilizzano frequentemente questo stimatore.
7
3. Trasformazione GLS: stimatore a effetti random. Considerando la
natura non sferica dell’errore, si può trasformare il modello con la trasformazione GLS e stimare con OLS i parametri del modello trasformato. Se
non vi è correlazione tra le componenti in αi e i regressori, questo stimatore è più efficiente di quello a effetti fissi. Questo è il motivo per cui gli
statistici usano molto questo stimatore.
8