P=1 - Dipartimento di Economia, Statistica e Finanza

Modelli per variabili dipendenti limitate
(Limited Dependent Variable Models)
• Logit
g
• Probit
[[Pampel
p F. ((2000),
), Logistic
g
regression.
g
Sage
g
University Papers.
Verbeek M. (2006), Econometria, Zanichelli
Stock e Watson, Introduzione all’econometria ]
• Tobit
[Verbeek M. (2006), Wooldridge, Introductory Ec. ]
1
Spesso vogliamo studiare (le determinanti
de) la probabilità di un attributo (o evento):
esempi:
probabilità (P) di essere disoccupato
P di sposarsi
P di essere razionati sul mercato del credito
P di possedere una casa
P per un PVS di ottenere un prestito
i ddalla
ll
BM
2
P bl
Problema:
• Non osserviamo la probabilità
• Osserviamo l’attributo
l attributo (o evento)
• Esempi
• Persona disoccupata/non disoccupata
• Persona coniugata/non coniugata
• Impresa razionata/non razionata
• Famiglia proprietaria/non proprietaria
propria abitazione
della
3
V i bili dipendenti
Variabili
di d ti discrete
di
t
In altri termini, osserviamo la realizzazione
di variabili discrete (y),
(y) che assumono il
valore
• yy=11 se l’evento
l evento (attributo) si verifica
• y=0 se non si verifica
4
I t
Interesse
• P(y=1|X)
Probabilità dell’evento yy=1, dato un set di
variabili esplicative X
5
Li
Linear
Probability
P b bilit Model
M d l
yi=a+bx
b i+ui
• y dummy =1 se la famiglia è proprietaria
• x=reddito
E(u)=0→
0→ E(yi|xi))=a+bx
a+bxi
• A) Siccome E(u)
B) inoltre E(yi|xi)= 1*Pr (yi=1|xi)+0*Pr (yi=0|xi)
D A e B → Pr
Da
P ((yi=1|x
1| i)=
) a+bx
b i
valore atteso di y dato xi (valore predetto dalla regressione)
= probabilità
b bilità che
h y=1,
1 dato
d t xi (conditional
( diti l probability),
b bilit ) che
h
dovrebbe essere compresa tra 0 e 1
6
LPM Scatterplot
LPM:
S tt l t
Y
• Asse ascisse: valori di x
1 . . . . .. . ………
• Asse ordinate: valori di y
0 ……… . .
. . .
x
7
LPM retta
LPM:
tt regressione
i
• Asse ascisse: x
• Asse ordinate: valori reali
di y ed E(y|x) = P(y=1| x)
g
passa
p
• Retta di regressione
attraverso i valori reali di
y (0-1) nei punti di
maggiore
i
concentrazione
i
degli stessi
• NOTA BENE
BENE: valori
l i di
R^2 bassi
1 . .. . … ..
………
0………. .. … . . .
x
8
LPM retta
LPM:
tt regressione
i
• Asse ascisse: x
• Asse ordinate: E(y|x) =
P(y=1| x)
• valori di R^2 alti solo in
casi del genere
1
………
0……
9
ESEMPIO
• fittedyi=- 0.9457+0.1021 xi
t
(-7.7)
(12.5)
Intercetta= prob che una famiglia con zero reddito
possieda una casa: negativa!!
Coeff di x= per un incremento unitario di x , in
media, la prob di possedere una casa aumenta di
0.1021, circa il 10%
10
PROBLEMI
PROBLEMI DI INFERENZA
Le
assunzioni
di
normalità/omoschedastici
tà degli errori sono
violate (residui dicotomi ed
eteroschedastici))
ui=1-(a+bxi) se yi=1
ui=0-((a+bxi) se yyi=0
Var(ui|xi )=[1- (a+bxi)] (a+bxi)
PROBLEMI DI FORMA
FUNZIONALE
• Predicted
probabilities
illimitate
P(y=1| x) >1
P(y=1| x) < 0
• Relazione lineare tra
probabilità e variabili
esplicative
li ti
11
I realtà…
In
ltà
• La relazione tra
probabilità e variabili
esplicative
li ti è nella
ll
maggior parte dei casi
NON LINEARE
• Esempio: se il reddito
aumenta di 10000 euro
quale
l saràà l’impatto
l’i
tt sulla
ll
prob di possedere una
casa? DIPENDE dal
livello del reddito
Asse ascisse: valori di x
Asse ordinate: P(y=1| x)
1
P
0
12
Ri it l d
Ricapitolando:
• abbiamo bisogno che la prob non ecceda i
limiti di 0 e 1, e che
• la relazione tra probabilità e variabili
esplicative sia non lineare.
lineare
A tal fine ricorriamo a delle FUNZIONI di
RIPARTIZIONE (Cumulative
(C
l i
D i
Density
Functions).
13
Funzioni di densità di p
probabilità (p
(pdf)) e
funzioni di ripartizione (cdf)
Ad ogni variabile casuale s continua sono
associate
• una funzione di densità di probabilità, f(s)
• una funzione di ripartizione, F(s), che
descrive la probabilità che la variabile
casuale (v.c.) sia minore o uguale ad un
certo valore [ P(s≤c)=F(c)]
14
pdf
df - cdf
df
La curva iin azzurro
L
rappresenta una Pdf,
Cdf, le probabilità sono indicate
sull’asse delle ordinate
1
Valori assunti dalla v.c. s
0
Se s è una v.c. continua e c è
un valore che essa può assumere
P(s<=c)=F(c) le probabilità sono
P(s<=c)=F(c),
indicate dalle aree sotto la curva
Valori assunti dalla v.c. s
F(-∞)=0
( )
F(∞)=1
δF/δs=f(s)≥0
15
L scelta
La
lt di F(.)
F( )
Le CDFs
L
CDF
più
iù
LOGISTICA e
standard
usate
t
sono quella
ll
quella NORMALE
16
Funzione di ripartizione
p
della
distribuzione logistica standard
F(L)=P=eL/(1+eL)
P=1/(1+e-L)
(Nota: P è funzione non
lineare dei coefficienti,
L è funzione lineare dei
coefficienti)
• Asse ascisse: L=a+bx
• Asse ordinate: P(y=1|
P(y 1| X)
1
0.5
0
0
L
17
trasformiamo p
probabilità in
logits
La cd “logit transformation” consta di
due stadi:
1.
Calcolare l’odds ratio =P/(1-P)
= [eL /(1+eL)] (1+eL)= eL
1
1.
Assumere il ln dell
dell’odds
odds ratio
ln(P/1-P)=L
18
NON Li
NON-Linear
Probability
P b bilit Model
M d l
• Grazie a questa trasformazione possiamo
esprimere una relazione lineare tra la nuova
variabile dipendente (espressa in logits “L”) e la
variabile esplicativa x:
L=ln(P/1-P)=a+bx
• Tale relazione implica una relazione NON
lineare tra PROBABILITA’ ed x
P=ea+bx/(1+ea+bx)
L)
(
P=eL/(1+e
19
LOGIT R
LOGIT:
Regressione
i
L=a+bx+e
Il coefficiente b rappresenta la variazione in E(L) al variare
di x (se x è una variabile continua b è la derivata di E(L)
p
a x).
) Gli effetti di x su L sono LINEARI e
rispetto
ADDITIVI
L’interpretazione di b è la stessa che viene data in ogni retta
di regressione, MA le unità in cui è misurata la variabile
dipendente rendono l’interpretazione degli effetti di x
meno intuitiva
20
I t
Interesse
• Vogliamo conoscere gli effetti di X (reddito)
sullaa pprobabilità
su
obab à di
d possedere
possede e uunaa casa (P)
( )
• Per cui
c i dobbiamo convertire
con ertire
l’effetto stimato di x su L (cioè b)
nell’effetto di x su P
(δL/ δx)
(δP/ δx)
21
Ri di
Ricordiamo
che
h
la relazione (NON lineare) tra
PROBABILITA’ ed x
PROBABILITA
è
P a+bx/(1+e
P=e
/(1+ a+bx)
δP/ δx=b*P*(1-P)
NB. L’effetto di x su P non è costante:
dipende dal livello di P (che a sua volta
dipende dal livello di x!)
22
Se …
P=0.5
δP/ δX=b*P*(1-P)
δX b*P*(1 P)
δP/ δX=b*0.25
massimo effetto
S P ttende
Se
d a 1 o P tende
t d a 0
l’effetto si riduce
23
Funzione di ripartizione
p
di una
normale standard
•
•
Asse ascisse: Z=a+bx
Asse ordinate:
P=Φ(Z)
ancora una volta, usiamo
la cdf per ottenere:
1. prob comprese tra 0 e 1, 0
P(y=1| x)
2. relazione non lineare
1
Z
Z=Φ-1(P)
24
P bit analysis
Probit
l i
trasformiamo probabilità (limitate tra 0 e 1)
in Z-scores
Z scores (valori critici della distribuzione normale
standardizzata), che variano tra –infinito e +
i fi it
infinito
Z-scores rappresentano la variabile dipendente nel
modello Probit
25
Analogamente a quanto detto per la
trasformazione
f
i
LOGIT
• Grazie a questa trasformazione possiamo
esprimere una relazione lineare tra la
nuova variabile dipendente (espressa in
P bit “Z”) e la
Probits,
l variabile
i bil esplicativa
li ti x:
Z= Φ-1((P)) =a+bx
• Tale relazione implica una relazione
NON lineare tra PROBABILITA
PROBABILITA’ ed x
26
Eff tt marginale
Effetto
i l di x su P
P=Φ(Z)= Φ(a+bx)
δP/ δx=b
δx=b*f(Z)
f(Z)
Dove f è la funzione di densità della normale
standardizzata
t d di t
NB. L’effetto di x su P non è costante: dipende
dal livello di Z (che dipende da x )
27
• Nella grande maggioranza dei casi, i
parametri presenti nei modelli con
variabile dipendente binaria (più in
generale,
l
con v. d.
d limitata)
li it t ) vengono
stimati usando il metodo della massima
verosimiglianza
28
Stima di massima verosimiglianza
(maximum likelihood estimation)
• Tale metodo restituisce le stime dei
parametri che rendono massima la
probabilità di osservare le realizzazioni
d ll variabile
della
i bil dipendente
di d t binaria
bi i cosìì
come si presentano nel nostro campione
• Lo stimatore di max verosimiglianza (ML)
restituisce i valori dei parametri che “più
più
verosimilmente” hanno prodotto i dati
29
• Il punto
t di partenza
t
è rappresentato
t t
dall’ipotesi
che
la
distribuzione
(condizionale) di un fenomeno osservato
((la variabile endogena)
g ) sia nota,, a meno di
un numero finito di parametri.
• Questi
Q ti parametri
t i sono stimati
ti ti scegliendone
li d
i valori in modo da rendere massima la
probabilità – la verosimiglianza - del
p
osservato
campione
30
• Funzione di verosimiglianza (FV o LF):
distribuzione di probabilità congiunta dei
dati, funzione dei coefficienti ignoti
• Lo stimatore ML dei coefficienti ignoti è
dato dai valori dei coefficienti che
massimizzano la FV
31
L procedura,
La
d
1
1. Supponiamo di avere un campione di N dati.
Innanzitutto bisogna fare delle assunzioni sul
processo che
h ha
h generato
t i dati,
d ti modellandolo
d ll d l
attraverso un’appropriata distribuzione di
probabilità. Comunemente si assume:
p
– di avere N variabili casuali i.i.d. (indipendent. e
identicamente distribuite) Y[Y1, …YN] e un
corrispondente vettore di realizzazioni (dati osservati)
y=[y1,…yN] estratte da Y
– che tali variabili abbiano una specifica distribuzione di
probabilità
b bili à (ad
( d esempio
i normale)
l )
32
L procedura,
La
d
2
2. Sulla base delle due ipotesi al punto 1, si
esprime la probabilità congiunta delle
realizzazioni osservate: si scrive la
likelihood function, LF, distribuzione di
probabilità congiunta dei dati.
LF(θ)=P(y
LF(θ)
P(y1) *P(y
P(y2) *P(y
P(y3)…
)…*P(y
P(yN))=Π P(yi| θ)
θ =parametri
t i ignoti
i
ti
33
L procedura,
La
d
3
3. Si ottimizza la LF rispetto ai parametri θ. Per
rendere più semplice l’ottimizzazione si assume
il llogaritmo
it
della
d ll LF .
Nota: Siccome, nella LF, si moltiplicano delle Prob,
il prodotto non può eccedere 1 o essere negativo.
negativo
Essendo la likelihood compresa tra 0 e 1, la log
likelihood varia tra – ∞ e zero. Più vicina è la
l lik lih d a 0, maggiore
loglikelihood
i
è la
l probabilità
b bili che
h i
parametri stimati possano produrre i dati
osservati.
osservati
34
Nel caso di una variabile dipendente
p
binaria (risultati possibili 0 e 1)
Assumendo di avere N osservazioni i.i.d. su
variabili casuali Bernoulli Y [ossia assumendo che
la probabilità associata ad ogni osservazione sia
Piyi(1-Pi)1-yi] la distribuzione di probabilità congiunta
(la likelihood function) è:
LF=Pr(Y1=y1,…,YN=yN|Xi)= Π[ Piyi (1-Pi)1-yi ]
yi=valore osservato di Y per il caso i, con i=1, …N
Xi= vettore variabili esplicative
Pi=probabilità che yi=1
35
• Nel caso del probit, assumiamo che
P(y
( i=1|X)
1|X)=Φ(Z)=Φ(a+bX)
Φ(Z) Φ( +bX)
• Nel caso del logit:
P(y
( i=1|X)
| )=ea+bX/(1+e
/(1 a+bX)
36
Per ricavare
i
l stimatore
lo
i
ML, sii massimizza
i i
tale
l
funzione rispetto ai parametri della regressione. In
realtà, come detto,
realtà
detto si preferisce massimizzare
logaritmo (funzione strettamente crescente):
lnLF=LLF=∑{
∑{ [ yi*lnPi]]+ [ ((1-yyi))*ln(1-P
( i) ] }
il suo
• Nel caso del probit
lnL=∑{ yi*ln[Φ(a+bXi)]+ (1-yi)*ln[(1-Φ(a+bXi) ] }
37
• Come ogni funzione, la LLF può essere
massimizzata analiticamente,
analiticamente usando ll’analisi
analisi
matematica (condizioni del primo e del secondo
ordine).
) Spesso,
p
, p
però,, data la complessità
p
della
funzione, si preferisce ricorrere ad algoritmi
numerici implementati dai computer
• Sotto
S tt condizioni
di i i generali,
li se la
l LF è specificata
ifi t
correttamente, è possibile dimostrare che lo
stimatore ML è consistente, asintoticamente
efficiente e normalmente distribuito in grandi
campioni (cosicchè la statistica t e gli intervalli di
confidenza
fid
per i coefficienti
ffi i ti sono costruiti
t iti nell
modo usuale)
38
• Condizione fondamentale perché lo stimatore di massima
verosimiglianza sia consistente è che la funzione di
verosimiglianza
i i li
sia
i correttamente
tt
t specificata.
ifi t È cioè
i è
necessario essere certi della forma della distribuzione
Qualsiasi differenza rispetto
p
adottata pper le osservazioni. Q
alla vera distribuzione provoca la perdita della proprietà
di consistenza degli stimatori e questa situazione di solito
insorge quando la probabilità di yi=1 è mal specificata
• Di solito errori di questo tipo sono dovuti
all’eteroschedasticità o alla non normalità ((nel caso
probit) degli errori → importante verificare l’ipotesi di
omoschedasticità e normalità
39
Mi
Misure
di bontà
b tà dell’adattamento
d ll’ d tt
t
• Le misure di adattamento sono statistiche
descrittive che misurano l’accuratezza con la
quale
l il modello
d ll approssima
i
l osservazioni.
le
i i Al
contrario del modello di regressione lineare, in
cui si calcola l’R2,, p
per i modelli di scelta binaria
non esiste un’unica misura di adattamento ai dati.
Spesso le misure di adattamento sono basate sul
confronto con un
n modello che contiene solo la
costante (Pseudo R2 non rappresenta la frazione
di varianza spiegata
p g
dal modello,, da cui
l’aggettivo pseudo).
40
P d R2
Pseudo
Indichiamo con
• logL0 il valore massimo della funzione di
logverosimiglianza quando tutti i parametri,
eccetto ll’intercetta
intercetta, vengono posti uguali a zero
• logL1 il valore massimo della funzione di
log erosimiglian a del modello esaminato
logverosimiglianza
logL1≥logL0
41
• Tanto maggiore è la differenza tra i valori della
l
logverosimiglianza,
i i li
tanto migliore
i li
è la
l spiegazione
i
i
f i
fornita
dal modello stesso rispetto al modello completamente
vincolato. McFadden 1974 ha proposto la seguente misura:
Pseudo R2=1-logL1/logL0
0≤R2<1
•
saràà zero quando
d logL
l L1=logL
l L0 ( tutti
t tti i coefficienti
ffi i ti β
stimati sono nulli)
g
probabilità
p
•
sarà 1 se il modello è in ggrado di generare
stimate che corrispondono esattamente ai valori osservati
(p^i=yi per ogni i). In tal caso, infatti, tutte le probabilità
nella logverosimiglianza
g
g
sono pari
p a 1,, e di conseguenza
g
la
logverosimiglianza (logL1)è nulla
42
F i
Frazione
correttamente
tt
t predetta
d tt
Una strategia alternativa consiste nell’usare la
seguentee regola:
segue
ego a: si
s ddice
ce che
c e yi è predetto
p ede o
correttamente
• Se yi=1
1 e la probabilità stimata dal modello (P^)
eccede il 50%
• Se yi=0
0 e la probabilità stimata è inferiore al 50%
Frazione correttamente predetta è la frazione delle
n osservazioni che sono predette correttamente
43
•
•
•
In genere, viene costruita una tabella a doppia entrata dei risultati
osservati e previsti, sulla base della quale è possibile costruire
diverse misure di adattamento
Indichiamo con
n11 il numero di previsioni pari a 1 quando il valore osservato è 1
(corrette);
n10 il numero di previsioni pari a 0 quando il valore osservato è 1
E così via…
Complessivamente
p
la ppercentuale di pprevisioni errate è costituita da
wr1= (n01+ n10)/N
Che può essere confrontata con la percentuale di previsioni errate di
un modello contenente solo l’intercetta ((wr0 )).
Una misura di adattamento è ottenuta come
R2p=1- (wr1/ wr0)
44
percentuale di previsioni errate di un modello
contenente solo l’intercetta
Per questo modello è facile dimostrare che lo stimatore ML
di p è dato da:
p^=N1/N
(ossia la percentuale di osservazioni uguali a 1 nel
campione),
per cui la previsione sarà 1 per tutte le osservazioni se
p^=N1/N >0.5 e sarà zero altrimenti.
La percentuale di previsioni errate è:
wr0=1- p^ se p^ > 0.5
wr0=pp^
se p^ ≤ 0.5
Si noti che wr0 ≤ 0.5, persino il modello più semplice è in
grado di non sbagliare più della metà delle previsioni
45
•
In un modello ((ad esempio
p logit)
g ) contenente solo l’intercetta
a
a
P=e /(1+e ) =P costante
•
La likelihood function è:
LF(P)=Pr(Y1=y1,…,Yn=yn|Xi)= Π[ Pyi (1-P)1-yi ]
lnLF(P)=∑{
lnLF(P)
∑{ [ yi*lnP]+
lnP]+ [ (1
(1-yyi))*ln(1-P)
ln(1 P) ] }}=
= N1lnP+N0 ln(1-P)
Dove N1 è il numero di osservazioni per cui y=1
N0 è il numero di osservazioni per cui y=0, N1 +N0=N
C di i
Condizione
d l I ordine:
del
di
d lnLF(P)/dP = N1 /P - N0 /(1-P)=0
(1-P) N1 - P (N0) =0
N1-P N1- P N0=0
( 1+N0))= N1/N
P= N1/(N
46
• Se nel campione il 90% delle osservazioni contenesse
yi=1 , wr0=1-0.9= 0.1. Di conseguenza qualsiasi modello
di scelta binaria dovrebbe realizzare più del 90% di
previsioni corrette per poter battere il modello elementare.
elementare
Per questo motivo, la percentuale complessiva di
previsioni corrette [1- wr1 = (n11+ n00)/N], chiamata anche
tasso di successo,
successo non contiene molte informazioni sulle
proprietà del modello.
• Può essere più interessante quindi considerare le
percentuali
t li di previsioni
i i i corrette
tt per i sottocampioni
tt
i i con
yi=0 e yi=1
p11=n11/N1
P00=n00/N0
In un buon modello la loro somma dovrebbe essere >1
47
Interpretazione
p
in termini di modelli
a variabile latente (Verbeek,cap. 7)
• Il modello di scelta binaria può, ma non necessariamente
deve, essere derivato a partire da alcune ipotesi
comportamentali strutturali.
strutturali
• Consideriamo ad esempio il caso della scelta di lavorare.
Possiamo ipotizzare che ogni individuo tragga una certa
utilità
tilità dall’essere
d ll’
occupato
t edd una certa
t utilità
tilità dal
d l non
esserlo. La differenza di utilità dipende dal salario ma
anche da altre caratteristiche individuali osservabili e non
osservabili.
bili
• Assumendo l’esistenza di una relazione lineare, possiamo
indicare con yy* la variabile latente che indica la
differenza in utilità. Inoltre, indichiamo con x il vettore di
variabili (osservate) determinanti la scelta di lavorare.
48
• Un altro modo di considerare la variabile
latente y * è in termini di “propensione
propensione a ”,
nell’esempio precedente y* sarà la
propensione
i
a lavorare.
l
Tale
T l propensione
i
(non osservabile) genera lo stato osservato
(lavora/non lavora)
49
y*i=xi’β+εi
• L’ipotesi
L’i
i è che
h l’individuo
l’i di id scelga
l di lavorare
l
se la
l differenza
diff
non
osservata di utilità (o propensione a lavorare, y*) supera una certa
soglia, che solitamente viene posta uguale a zero.
• Costruiamo una dummy: y=1 se l’individuo
l individuo lavora,
lavora y=0 se non lavora
• Di conseguenza
P(yi=1|x)= P(yi*>0) = P(εi > -xi’β)
N l caso del
Nel
d l probit
bi
= Φ(xi’β)
dove Ф è la funzione di ripartizione della variabile casuale normale
standardizzata, εi ˜ NID(0, 1)
Nel caso logit
g si userà la distribuzione logistica
g
standard
50
TOBIT model
d l
La variabile dipendente:
• è zero per una parte rilevante del campione,
campione
• continua per valori >0
Esempi:
• Spesa in alcolici,
• Spesa in beni durevoli
• Ammontare preso a prestito
51
Tobit model
(Wooldridge , Verbeek)
• Assumiamo che la decisione di acquistare
dipenda da una variabile nascosta “underlying
latent variable” (utilità attribuita al consumo di
alcolici…)
• yi*=xi’β+εi
dove εi |x ˜ N(0, σ2)
• yi=y
yi*= xi’β
β+εεi se yi*>0
0
• yi=0
se yi*<=0
52
I t
Interpretazione
t i
coefficienti
ffi i ti
• β rappresenta l’effetto parziale di x su
E(y*|x)
E(y
|x), dove yy* è una variabile latente,
latente
che spesso non rappresenta il focus
d ll’ li i
dell’analisi.
• Negli
g
esempi
p di pprima il focus è
l’ammontare speso in alcolici, l’ammontare
preso a prestito
53
Il modello Tobit (I) è detto anche modello
di regressione
i
censurata:
t le
l osservazioni
i i
sono censurate (inferiormente) in zero. Il
modello
d ll descrive
d
i dunque
d
due
d fenomeni
f
i
1. La pprobabilità che y sia uguale
g
a zero (dato
(
x)
P(yi=0)=P(y
0) P(yi*≤0)=P(ε
≤0) P(εi≤
≤- xi’β)
β)=
=P(εi /σ ≤- xi’β /σ)=Φ(-xi’β/σ )=
=11 Φ(x
( i’β/σ
β/ )
(1)
54
2. La distribuzione di yi (dato x), condizionatamente al
fatto che quest’ultima sia positiva
E( i|y
E(y
| i>0,
0 x)=
) xi’β+E(ε
’β E( i| εi>- xi’β)
=
’
’
= xi’β+σ [φ(xi β/σ ) /Φ(xi β/σ ) ] (2)
dove φ è la funzione di densità normale standard. Il termine in
parentesi quadra è noto come inverse Mill’s ratio (λ)
Il secondo termine rappresenta il valore atteso di una
variabile
casuale
normale
di
media
nulla,
condizionatamente al fatto che il suo valore sia superiore
p
a - xi’β. Tale valore atteso è maggiore di zero. È perciò
inappropriato limitare l’attenzione alle sole osservazioni
ppositive e stimare un modello lineare pper qquesto
sottocampione; il valore atteso condizionale di yi non è
più dato da xi’β, ma dipende da xi anche in modo non
lineare attraverso il secondo termine.
55
• Nota: le formule (1) e (2) si basano su di
una ipotesi fondamentale:
εi |x ˜ N(0, σ2)
Bisognerebbe testare la validità di tale ipotesi
(normalità e omoschedasticità degli errori)
56
• Dalla (2), E(y|y>0,x), si può ricavare il valore
atteso di y (dato x)
E(yi|xi)
=
E(yi|yi>0, x) * P(yi>0) + 0=
{ i’β+σ
β [φ(
[φ(xi’β
β/σ ) /Φ(x
( i’β
β/σ ) ] }}* Φ(x
( i’β
β/σ ))=
={x
= xi’β Φ(xi’β/σ ) +σ φ(xi’β/σ )
Riassumendo, abbiamo quindi due valori attesi di
particolare interesse: E(y|y>0,x)
E(y|y>0 x) e
E(y|x)
57
effetti
ff tti parziali
i li
• Dall’espressione 2 si evince che l’effetto
marginale di una variazione di xik sul
valore (medio) di yi, tenendo conto del
meccanismo
i
di censura, saràà diverso
di
d βk,
da
perché risentirà anche della variazione
marginale del secondo termine che riflette
la censura
58
• δ E(y
(yi|yi>0,x
0, i) / δx
δ ik= βk *[fattore
[ a o e che
c e dipende
d pe de da
x e da tutti i parametri del modello]
(yi||xi) / δxik= βk *[fattore
[
che dipende
p
da x e
• δ E(y
da tutti i parametri del modello]
gli effetti pparziali hanno lo stesso segno
g di
Entrambi g
βk , ma la grandezza degli effetti dipende dai
valori assunti da tutte le variabili esplicative e dai
parametri, tra cui σ
59
T bit I
Tobit
• Il modello Tobit I impone una struttura che spesso è troppo
restrittiva: le variabili che determinano la probabilità di
un’osservazione non nulla sono le stesse che influenzano il
livello di un’osservazione positiva e,
e per giunta,
giunta con lo
stesso segno
• Ciò implica, per esempio, che gli individui con probabilità
più elevata di effettuare una spesa positiva sono anche
quelli che, in media, spendono di più in questo bene. Ci
sono casi in cui qquesto non è vero. Considerando,, ad
esempio, la spesa per vacanze, è ragionevole immaginare
che le famiglie con molti figli abbiano minore probabilità
p
ppositiva,, ma che se iniziano una
di effettuare una spesa
vacanza, il livello atteso delle spese di queste famiglie sia
più elevato
60
T bit II
Tobit
• Il c.d. Tobit II (Heckman selection model) consente di
superare questo limite. In tale modello probabilità di
osservare y>0
>0 ed
d il li
livello
ll di y sono trattati
t tt ti come due
d
decisioni separate, sebbene non indipendenti.
• Vengono considerate due variabili latenti:
yi*=x1i’β1+ε1i
(main process)
hi*=x2i’β2+ε2i
(selection process)
• ε1i , ε2i sono distribuiti come una normale bivariata, con
valore atteso nullo, varianza σ12 e σ22, e covarianza σ12
• i segni e le grandezze dei coefficienti beta possono essere
diversi fra le due equazioni
61
• La regola di osservazione è data da:
yi=y*=
* x1i’β1+ε
+ 1i se hi*>0
yi=0
se hi*≤0
• Il processo di selezione è un probit, per cui
si normalizza σ22=1
• Indichiamo con hi una variabile dummy,
che assume il valore 1 se hi*>0, zero
altrimenti
62
Il valore atteso di y, condizionale al fatto che
h 1 è dato
h=1
d t da
d
E(yi| hi=1)
= x1i’β1+E(ε1i| hi=1)=
= x1i’β+E(
β ( ε1i| ε2i >- x2i’β
β2))=
= x1i’β+ σ12[φ(x2i’β2) /Φ(x2i’β2) ]
σ12=ρ 12 σ1
ρ 12=coefficiente di correlazione tra gli errori
(Per maggiori dettagli si veda Verbeek, pag 205)
63
• Se σ12=ρ 12=0 il valore atteso condizionale
è pari x1i’β
β1, ossia se i termini di errore
sono incorrelati, la main equation può
essere stimata
ti t in
i maniera
i
consistente
it t
usando il metodo dei minimi quadrati.
• Se σ12≠0 lo stimatore OLS sarà distorto
64
•
•
Il modello Tobit II è chiamato anche modello di selezione campionaria
(Heckman selection model): può fornire una soluzione adeguata ad
alcune forme di distorsione da selezione campionaria
Supponiamo di essere interessati alla spiegazione dei salari. La nostra
variabile dipendente, w, è ovviamente osservata solo per coloro i quali
lavorano, ma per scopi di analisi economica siamo spesso interessati ai
salari (potenziali) non condizionati da questa regola di selezione. Per
esempio:
i una variazione
i i
i qualche
in
l h variabile
i bil x potrebbe
t bb ridurre
id
il
salario di qualcuno al punto da indurlo a decidere di smettere di
lavorare. Di conseguenza il suo salario non verrebbe più osservato e
ll’effetto
effetto di x potrebbe essere sottostimato nei dati disponibili. Dato che
il campione di lavoratori può non costituire un campione casuale della
popolazione (dei potenziali lavoratori) – in particolare è lecito
attendersi che gli indicidui con w (potenziali) più bassi tendano
maggiormente
i
t add essere disoccupati
di
ti – questo
t problema
bl
viene
i
d fi it
definito
problema di selezione campionaria
65
• In linea di principio le variabili incluse nei
vettori x1 e x2 possono essere diverse
diverse, ma
è necessario fare molta attenzione (si veda
più
iù avanti)
ti)
• Il termine [φ(
[φ(x2i’β2) /Φ(x
( 2i’β2) ] è noto
come inverso del rapporto di Mill (inverse
Mill’ss ratio).
Mill
ratio) Siccome Heckman (1979) lo
ha indicato con λ, viene anche chiamato
l bd di Heckman.
lambda
H k
66
Key insights
off H
Heckman
k
(1979) E
Econometrica
i paper
• Un modo di pensare al selection problem è in
termini
e
di o
d
omitted
ed va
variable
ab e p
problem.
ob e .
• Una stima di tale variabile risolverebbe
ll’omissione
omissione e,
e quindi,
quindi il problema di selezione
• Unico elemento ignoto in λ è β2, che può essere
stimato applicando la procedura
proced ra di Massima
Verosimiglianza al modello probit di selezione
67
Metodi di stima
1 T
1.
Two step
t estimation.
ti ti
Dovuto
D
t a Heckman
H k
(1979), per questo è talvolta chiamato
"Heckman two-step" method.
2 ML estimation
2.
68
T step
Two
t estimation
ti ti
• Primo stadio: Si stima la selection equation
con un modello probit
probit, usando tutte le
osservazioni. Le stime di β2 di questo
probit
bit vengono usate
t per costruire
t i una
stima consistente dell’ inverse Mills ratio
(λ^)
69
• Secondo stadio: l’outcome equation è stimata by
OLS,
O
S, agg
aggiungendo
u ge do aal se
set di
d regressori
eg esso il valore
va o e
stimato dell’inverse Mills ratio (λ ^)
w= x
x’1 β1 + θ λ ^ + e
(θ =σ12)
Questa stima
i sii basa
b
sulle
ll osservazioni
i i
“uncensored” e produce stimatori consistenti e
asintoticamente
i
i
normali
li per β1 e θ.
θ
70
• il coefficiente dell
dell’inverse
inverse Mills ratio è una stima
della covarianza σ12=ρ 12 σ1 . Siccome σ1 > 0, il
segno di questo coefficiente è lo stesso del segno
di ρ 12 . Perciò, una covarianza positiva indica che
èp
presente eterogenità
g
non osservata che influisce
positivamente sia sul livello della variabile
dipendente che sulla probabilità che essa sia >0.
• Lo standard t-test dell’ipotesi nulla θ = 0 è un test
dell’ipotesi nulla che non ci sia selection bias
71
P bl i di inferenza
Problemi
i f
• The inverse Mill’s ratio è un regressore
generato
• Inoltre, se c’è selection bias, sorge un
problema di eteroschedasticità.
• Heckman (1979) include uno stimatore
consistente della varianza in presenza di
tali problemi (Greene).
(Greene) Stata produce gli
SE corretti automaticamente.
72
E l i restrictions
Exclusion
t i ti
• Il modello Tobit II è formalmente identificato
anche se x1 = x2. L’identificazione è dovuta, in
t l caso, alla
tal
ll non-linearità
li
ità dell’inverse
d ll’i
Mill’
Mill’s
ratio.
• Però,
Però se x1 = x2 si può generare una sostanziale
correlazione tra il termine dell’inverse Mill’s
ratio (stimato) e il set rimanente delle covariate
nell’outcome
ll
equation
i → c’è bisogno
bi
di imporre
i
delle “exclusion restrictions“ (individuare
variabili che appartengono alla selection ma non
alla outcome equation)
73
• L’inclusione in x2 di variabili aggiuntive
rispetto a quelle in x1 può essere
importante per garantire la proprietà di
id tifi i
identificazione
all secondo
d passo, anche
h se
spesso non è chiaro quali variabili possano
essere candidate naturali a questo scopo, e
qqualsiasi scelta ppuò essere criticata.
74
Lo stimatore two-step
• non
o è efficiente,
e c e te,
• ma in compenso è semplice da un punto di vista
computazionale
• è consistente
Lo stimatore ML:
• è efficiente, assumendo che la bivariate normal
assumption sia corretta
• ma “relies
li more heavily
h il on the
h functional
f
i l form
f
assumption and so is less robust than the twostep method
method”;;
• talvolta presenta problemi di convergenza
75