Modelli per variabili dipendenti limitate (Limited Dependent Variable Models) • Logit g • Probit [[Pampel p F. ((2000), ), Logistic g regression. g Sage g University Papers. Verbeek M. (2006), Econometria, Zanichelli Stock e Watson, Introduzione all’econometria ] • Tobit [Verbeek M. (2006), Wooldridge, Introductory Ec. ] 1 Spesso vogliamo studiare (le determinanti de) la probabilità di un attributo (o evento): esempi: probabilità (P) di essere disoccupato P di sposarsi P di essere razionati sul mercato del credito P di possedere una casa P per un PVS di ottenere un prestito i ddalla ll BM 2 P bl Problema: • Non osserviamo la probabilità • Osserviamo l’attributo l attributo (o evento) • Esempi • Persona disoccupata/non disoccupata • Persona coniugata/non coniugata • Impresa razionata/non razionata • Famiglia proprietaria/non proprietaria propria abitazione della 3 V i bili dipendenti Variabili di d ti discrete di t In altri termini, osserviamo la realizzazione di variabili discrete (y), (y) che assumono il valore • yy=11 se l’evento l evento (attributo) si verifica • y=0 se non si verifica 4 I t Interesse • P(y=1|X) Probabilità dell’evento yy=1, dato un set di variabili esplicative X 5 Li Linear Probability P b bilit Model M d l yi=a+bx b i+ui • y dummy =1 se la famiglia è proprietaria • x=reddito E(u)=0→ 0→ E(yi|xi))=a+bx a+bxi • A) Siccome E(u) B) inoltre E(yi|xi)= 1*Pr (yi=1|xi)+0*Pr (yi=0|xi) D A e B → Pr Da P ((yi=1|x 1| i)= ) a+bx b i valore atteso di y dato xi (valore predetto dalla regressione) = probabilità b bilità che h y=1, 1 dato d t xi (conditional ( diti l probability), b bilit ) che h dovrebbe essere compresa tra 0 e 1 6 LPM Scatterplot LPM: S tt l t Y • Asse ascisse: valori di x 1 . . . . .. . ……… • Asse ordinate: valori di y 0 ……… . . . . . x 7 LPM retta LPM: tt regressione i • Asse ascisse: x • Asse ordinate: valori reali di y ed E(y|x) = P(y=1| x) g passa p • Retta di regressione attraverso i valori reali di y (0-1) nei punti di maggiore i concentrazione i degli stessi • NOTA BENE BENE: valori l i di R^2 bassi 1 . .. . … .. ……… 0………. .. … . . . x 8 LPM retta LPM: tt regressione i • Asse ascisse: x • Asse ordinate: E(y|x) = P(y=1| x) • valori di R^2 alti solo in casi del genere 1 ……… 0…… 9 ESEMPIO • fittedyi=- 0.9457+0.1021 xi t (-7.7) (12.5) Intercetta= prob che una famiglia con zero reddito possieda una casa: negativa!! Coeff di x= per un incremento unitario di x , in media, la prob di possedere una casa aumenta di 0.1021, circa il 10% 10 PROBLEMI PROBLEMI DI INFERENZA Le assunzioni di normalità/omoschedastici tà degli errori sono violate (residui dicotomi ed eteroschedastici)) ui=1-(a+bxi) se yi=1 ui=0-((a+bxi) se yyi=0 Var(ui|xi )=[1- (a+bxi)] (a+bxi) PROBLEMI DI FORMA FUNZIONALE • Predicted probabilities illimitate P(y=1| x) >1 P(y=1| x) < 0 • Relazione lineare tra probabilità e variabili esplicative li ti 11 I realtà… In ltà • La relazione tra probabilità e variabili esplicative li ti è nella ll maggior parte dei casi NON LINEARE • Esempio: se il reddito aumenta di 10000 euro quale l saràà l’impatto l’i tt sulla ll prob di possedere una casa? DIPENDE dal livello del reddito Asse ascisse: valori di x Asse ordinate: P(y=1| x) 1 P 0 12 Ri it l d Ricapitolando: • abbiamo bisogno che la prob non ecceda i limiti di 0 e 1, e che • la relazione tra probabilità e variabili esplicative sia non lineare. lineare A tal fine ricorriamo a delle FUNZIONI di RIPARTIZIONE (Cumulative (C l i D i Density Functions). 13 Funzioni di densità di p probabilità (p (pdf)) e funzioni di ripartizione (cdf) Ad ogni variabile casuale s continua sono associate • una funzione di densità di probabilità, f(s) • una funzione di ripartizione, F(s), che descrive la probabilità che la variabile casuale (v.c.) sia minore o uguale ad un certo valore [ P(s≤c)=F(c)] 14 pdf df - cdf df La curva iin azzurro L rappresenta una Pdf, Cdf, le probabilità sono indicate sull’asse delle ordinate 1 Valori assunti dalla v.c. s 0 Se s è una v.c. continua e c è un valore che essa può assumere P(s<=c)=F(c) le probabilità sono P(s<=c)=F(c), indicate dalle aree sotto la curva Valori assunti dalla v.c. s F(-∞)=0 ( ) F(∞)=1 δF/δs=f(s)≥0 15 L scelta La lt di F(.) F( ) Le CDFs L CDF più iù LOGISTICA e standard usate t sono quella ll quella NORMALE 16 Funzione di ripartizione p della distribuzione logistica standard F(L)=P=eL/(1+eL) P=1/(1+e-L) (Nota: P è funzione non lineare dei coefficienti, L è funzione lineare dei coefficienti) • Asse ascisse: L=a+bx • Asse ordinate: P(y=1| P(y 1| X) 1 0.5 0 0 L 17 trasformiamo p probabilità in logits La cd “logit transformation” consta di due stadi: 1. Calcolare l’odds ratio =P/(1-P) = [eL /(1+eL)] (1+eL)= eL 1 1. Assumere il ln dell dell’odds odds ratio ln(P/1-P)=L 18 NON Li NON-Linear Probability P b bilit Model M d l • Grazie a questa trasformazione possiamo esprimere una relazione lineare tra la nuova variabile dipendente (espressa in logits “L”) e la variabile esplicativa x: L=ln(P/1-P)=a+bx • Tale relazione implica una relazione NON lineare tra PROBABILITA’ ed x P=ea+bx/(1+ea+bx) L) ( P=eL/(1+e 19 LOGIT R LOGIT: Regressione i L=a+bx+e Il coefficiente b rappresenta la variazione in E(L) al variare di x (se x è una variabile continua b è la derivata di E(L) p a x). ) Gli effetti di x su L sono LINEARI e rispetto ADDITIVI L’interpretazione di b è la stessa che viene data in ogni retta di regressione, MA le unità in cui è misurata la variabile dipendente rendono l’interpretazione degli effetti di x meno intuitiva 20 I t Interesse • Vogliamo conoscere gli effetti di X (reddito) sullaa pprobabilità su obab à di d possedere possede e uunaa casa (P) ( ) • Per cui c i dobbiamo convertire con ertire l’effetto stimato di x su L (cioè b) nell’effetto di x su P (δL/ δx) (δP/ δx) 21 Ri di Ricordiamo che h la relazione (NON lineare) tra PROBABILITA’ ed x PROBABILITA è P a+bx/(1+e P=e /(1+ a+bx) δP/ δx=b*P*(1-P) NB. L’effetto di x su P non è costante: dipende dal livello di P (che a sua volta dipende dal livello di x!) 22 Se … P=0.5 δP/ δX=b*P*(1-P) δX b*P*(1 P) δP/ δX=b*0.25 massimo effetto S P ttende Se d a 1 o P tende t d a 0 l’effetto si riduce 23 Funzione di ripartizione p di una normale standard • • Asse ascisse: Z=a+bx Asse ordinate: P=Φ(Z) ancora una volta, usiamo la cdf per ottenere: 1. prob comprese tra 0 e 1, 0 P(y=1| x) 2. relazione non lineare 1 Z Z=Φ-1(P) 24 P bit analysis Probit l i trasformiamo probabilità (limitate tra 0 e 1) in Z-scores Z scores (valori critici della distribuzione normale standardizzata), che variano tra –infinito e + i fi it infinito Z-scores rappresentano la variabile dipendente nel modello Probit 25 Analogamente a quanto detto per la trasformazione f i LOGIT • Grazie a questa trasformazione possiamo esprimere una relazione lineare tra la nuova variabile dipendente (espressa in P bit “Z”) e la Probits, l variabile i bil esplicativa li ti x: Z= Φ-1((P)) =a+bx • Tale relazione implica una relazione NON lineare tra PROBABILITA PROBABILITA’ ed x 26 Eff tt marginale Effetto i l di x su P P=Φ(Z)= Φ(a+bx) δP/ δx=b δx=b*f(Z) f(Z) Dove f è la funzione di densità della normale standardizzata t d di t NB. L’effetto di x su P non è costante: dipende dal livello di Z (che dipende da x ) 27 • Nella grande maggioranza dei casi, i parametri presenti nei modelli con variabile dipendente binaria (più in generale, l con v. d. d limitata) li it t ) vengono stimati usando il metodo della massima verosimiglianza 28 Stima di massima verosimiglianza (maximum likelihood estimation) • Tale metodo restituisce le stime dei parametri che rendono massima la probabilità di osservare le realizzazioni d ll variabile della i bil dipendente di d t binaria bi i cosìì come si presentano nel nostro campione • Lo stimatore di max verosimiglianza (ML) restituisce i valori dei parametri che “più più verosimilmente” hanno prodotto i dati 29 • Il punto t di partenza t è rappresentato t t dall’ipotesi che la distribuzione (condizionale) di un fenomeno osservato ((la variabile endogena) g ) sia nota,, a meno di un numero finito di parametri. • Questi Q ti parametri t i sono stimati ti ti scegliendone li d i valori in modo da rendere massima la probabilità – la verosimiglianza - del p osservato campione 30 • Funzione di verosimiglianza (FV o LF): distribuzione di probabilità congiunta dei dati, funzione dei coefficienti ignoti • Lo stimatore ML dei coefficienti ignoti è dato dai valori dei coefficienti che massimizzano la FV 31 L procedura, La d 1 1. Supponiamo di avere un campione di N dati. Innanzitutto bisogna fare delle assunzioni sul processo che h ha h generato t i dati, d ti modellandolo d ll d l attraverso un’appropriata distribuzione di probabilità. Comunemente si assume: p – di avere N variabili casuali i.i.d. (indipendent. e identicamente distribuite) Y[Y1, …YN] e un corrispondente vettore di realizzazioni (dati osservati) y=[y1,…yN] estratte da Y – che tali variabili abbiano una specifica distribuzione di probabilità b bili à (ad ( d esempio i normale) l ) 32 L procedura, La d 2 2. Sulla base delle due ipotesi al punto 1, si esprime la probabilità congiunta delle realizzazioni osservate: si scrive la likelihood function, LF, distribuzione di probabilità congiunta dei dati. LF(θ)=P(y LF(θ) P(y1) *P(y P(y2) *P(y P(y3)… )…*P(y P(yN))=Π P(yi| θ) θ =parametri t i ignoti i ti 33 L procedura, La d 3 3. Si ottimizza la LF rispetto ai parametri θ. Per rendere più semplice l’ottimizzazione si assume il llogaritmo it della d ll LF . Nota: Siccome, nella LF, si moltiplicano delle Prob, il prodotto non può eccedere 1 o essere negativo. negativo Essendo la likelihood compresa tra 0 e 1, la log likelihood varia tra – ∞ e zero. Più vicina è la l lik lih d a 0, maggiore loglikelihood i è la l probabilità b bili che h i parametri stimati possano produrre i dati osservati. osservati 34 Nel caso di una variabile dipendente p binaria (risultati possibili 0 e 1) Assumendo di avere N osservazioni i.i.d. su variabili casuali Bernoulli Y [ossia assumendo che la probabilità associata ad ogni osservazione sia Piyi(1-Pi)1-yi] la distribuzione di probabilità congiunta (la likelihood function) è: LF=Pr(Y1=y1,…,YN=yN|Xi)= Π[ Piyi (1-Pi)1-yi ] yi=valore osservato di Y per il caso i, con i=1, …N Xi= vettore variabili esplicative Pi=probabilità che yi=1 35 • Nel caso del probit, assumiamo che P(y ( i=1|X) 1|X)=Φ(Z)=Φ(a+bX) Φ(Z) Φ( +bX) • Nel caso del logit: P(y ( i=1|X) | )=ea+bX/(1+e /(1 a+bX) 36 Per ricavare i l stimatore lo i ML, sii massimizza i i tale l funzione rispetto ai parametri della regressione. In realtà, come detto, realtà detto si preferisce massimizzare logaritmo (funzione strettamente crescente): lnLF=LLF=∑{ ∑{ [ yi*lnPi]]+ [ ((1-yyi))*ln(1-P ( i) ] } il suo • Nel caso del probit lnL=∑{ yi*ln[Φ(a+bXi)]+ (1-yi)*ln[(1-Φ(a+bXi) ] } 37 • Come ogni funzione, la LLF può essere massimizzata analiticamente, analiticamente usando ll’analisi analisi matematica (condizioni del primo e del secondo ordine). ) Spesso, p , p però,, data la complessità p della funzione, si preferisce ricorrere ad algoritmi numerici implementati dai computer • Sotto S tt condizioni di i i generali, li se la l LF è specificata ifi t correttamente, è possibile dimostrare che lo stimatore ML è consistente, asintoticamente efficiente e normalmente distribuito in grandi campioni (cosicchè la statistica t e gli intervalli di confidenza fid per i coefficienti ffi i ti sono costruiti t iti nell modo usuale) 38 • Condizione fondamentale perché lo stimatore di massima verosimiglianza sia consistente è che la funzione di verosimiglianza i i li sia i correttamente tt t specificata. ifi t È cioè i è necessario essere certi della forma della distribuzione Qualsiasi differenza rispetto p adottata pper le osservazioni. Q alla vera distribuzione provoca la perdita della proprietà di consistenza degli stimatori e questa situazione di solito insorge quando la probabilità di yi=1 è mal specificata • Di solito errori di questo tipo sono dovuti all’eteroschedasticità o alla non normalità ((nel caso probit) degli errori → importante verificare l’ipotesi di omoschedasticità e normalità 39 Mi Misure di bontà b tà dell’adattamento d ll’ d tt t • Le misure di adattamento sono statistiche descrittive che misurano l’accuratezza con la quale l il modello d ll approssima i l osservazioni. le i i Al contrario del modello di regressione lineare, in cui si calcola l’R2,, p per i modelli di scelta binaria non esiste un’unica misura di adattamento ai dati. Spesso le misure di adattamento sono basate sul confronto con un n modello che contiene solo la costante (Pseudo R2 non rappresenta la frazione di varianza spiegata p g dal modello,, da cui l’aggettivo pseudo). 40 P d R2 Pseudo Indichiamo con • logL0 il valore massimo della funzione di logverosimiglianza quando tutti i parametri, eccetto ll’intercetta intercetta, vengono posti uguali a zero • logL1 il valore massimo della funzione di log erosimiglian a del modello esaminato logverosimiglianza logL1≥logL0 41 • Tanto maggiore è la differenza tra i valori della l logverosimiglianza, i i li tanto migliore i li è la l spiegazione i i f i fornita dal modello stesso rispetto al modello completamente vincolato. McFadden 1974 ha proposto la seguente misura: Pseudo R2=1-logL1/logL0 0≤R2<1 • saràà zero quando d logL l L1=logL l L0 ( tutti t tti i coefficienti ffi i ti β stimati sono nulli) g probabilità p • sarà 1 se il modello è in ggrado di generare stimate che corrispondono esattamente ai valori osservati (p^i=yi per ogni i). In tal caso, infatti, tutte le probabilità nella logverosimiglianza g g sono pari p a 1,, e di conseguenza g la logverosimiglianza (logL1)è nulla 42 F i Frazione correttamente tt t predetta d tt Una strategia alternativa consiste nell’usare la seguentee regola: segue ego a: si s ddice ce che c e yi è predetto p ede o correttamente • Se yi=1 1 e la probabilità stimata dal modello (P^) eccede il 50% • Se yi=0 0 e la probabilità stimata è inferiore al 50% Frazione correttamente predetta è la frazione delle n osservazioni che sono predette correttamente 43 • • • In genere, viene costruita una tabella a doppia entrata dei risultati osservati e previsti, sulla base della quale è possibile costruire diverse misure di adattamento Indichiamo con n11 il numero di previsioni pari a 1 quando il valore osservato è 1 (corrette); n10 il numero di previsioni pari a 0 quando il valore osservato è 1 E così via… Complessivamente p la ppercentuale di pprevisioni errate è costituita da wr1= (n01+ n10)/N Che può essere confrontata con la percentuale di previsioni errate di un modello contenente solo l’intercetta ((wr0 )). Una misura di adattamento è ottenuta come R2p=1- (wr1/ wr0) 44 percentuale di previsioni errate di un modello contenente solo l’intercetta Per questo modello è facile dimostrare che lo stimatore ML di p è dato da: p^=N1/N (ossia la percentuale di osservazioni uguali a 1 nel campione), per cui la previsione sarà 1 per tutte le osservazioni se p^=N1/N >0.5 e sarà zero altrimenti. La percentuale di previsioni errate è: wr0=1- p^ se p^ > 0.5 wr0=pp^ se p^ ≤ 0.5 Si noti che wr0 ≤ 0.5, persino il modello più semplice è in grado di non sbagliare più della metà delle previsioni 45 • In un modello ((ad esempio p logit) g ) contenente solo l’intercetta a a P=e /(1+e ) =P costante • La likelihood function è: LF(P)=Pr(Y1=y1,…,Yn=yn|Xi)= Π[ Pyi (1-P)1-yi ] lnLF(P)=∑{ lnLF(P) ∑{ [ yi*lnP]+ lnP]+ [ (1 (1-yyi))*ln(1-P) ln(1 P) ] }}= = N1lnP+N0 ln(1-P) Dove N1 è il numero di osservazioni per cui y=1 N0 è il numero di osservazioni per cui y=0, N1 +N0=N C di i Condizione d l I ordine: del di d lnLF(P)/dP = N1 /P - N0 /(1-P)=0 (1-P) N1 - P (N0) =0 N1-P N1- P N0=0 ( 1+N0))= N1/N P= N1/(N 46 • Se nel campione il 90% delle osservazioni contenesse yi=1 , wr0=1-0.9= 0.1. Di conseguenza qualsiasi modello di scelta binaria dovrebbe realizzare più del 90% di previsioni corrette per poter battere il modello elementare. elementare Per questo motivo, la percentuale complessiva di previsioni corrette [1- wr1 = (n11+ n00)/N], chiamata anche tasso di successo, successo non contiene molte informazioni sulle proprietà del modello. • Può essere più interessante quindi considerare le percentuali t li di previsioni i i i corrette tt per i sottocampioni tt i i con yi=0 e yi=1 p11=n11/N1 P00=n00/N0 In un buon modello la loro somma dovrebbe essere >1 47 Interpretazione p in termini di modelli a variabile latente (Verbeek,cap. 7) • Il modello di scelta binaria può, ma non necessariamente deve, essere derivato a partire da alcune ipotesi comportamentali strutturali. strutturali • Consideriamo ad esempio il caso della scelta di lavorare. Possiamo ipotizzare che ogni individuo tragga una certa utilità tilità dall’essere d ll’ occupato t edd una certa t utilità tilità dal d l non esserlo. La differenza di utilità dipende dal salario ma anche da altre caratteristiche individuali osservabili e non osservabili. bili • Assumendo l’esistenza di una relazione lineare, possiamo indicare con yy* la variabile latente che indica la differenza in utilità. Inoltre, indichiamo con x il vettore di variabili (osservate) determinanti la scelta di lavorare. 48 • Un altro modo di considerare la variabile latente y * è in termini di “propensione propensione a ”, nell’esempio precedente y* sarà la propensione i a lavorare. l Tale T l propensione i (non osservabile) genera lo stato osservato (lavora/non lavora) 49 y*i=xi’β+εi • L’ipotesi L’i i è che h l’individuo l’i di id scelga l di lavorare l se la l differenza diff non osservata di utilità (o propensione a lavorare, y*) supera una certa soglia, che solitamente viene posta uguale a zero. • Costruiamo una dummy: y=1 se l’individuo l individuo lavora, lavora y=0 se non lavora • Di conseguenza P(yi=1|x)= P(yi*>0) = P(εi > -xi’β) N l caso del Nel d l probit bi = Φ(xi’β) dove Ф è la funzione di ripartizione della variabile casuale normale standardizzata, εi ˜ NID(0, 1) Nel caso logit g si userà la distribuzione logistica g standard 50 TOBIT model d l La variabile dipendente: • è zero per una parte rilevante del campione, campione • continua per valori >0 Esempi: • Spesa in alcolici, • Spesa in beni durevoli • Ammontare preso a prestito 51 Tobit model (Wooldridge , Verbeek) • Assumiamo che la decisione di acquistare dipenda da una variabile nascosta “underlying latent variable” (utilità attribuita al consumo di alcolici…) • yi*=xi’β+εi dove εi |x ˜ N(0, σ2) • yi=y yi*= xi’β β+εεi se yi*>0 0 • yi=0 se yi*<=0 52 I t Interpretazione t i coefficienti ffi i ti • β rappresenta l’effetto parziale di x su E(y*|x) E(y |x), dove yy* è una variabile latente, latente che spesso non rappresenta il focus d ll’ li i dell’analisi. • Negli g esempi p di pprima il focus è l’ammontare speso in alcolici, l’ammontare preso a prestito 53 Il modello Tobit (I) è detto anche modello di regressione i censurata: t le l osservazioni i i sono censurate (inferiormente) in zero. Il modello d ll descrive d i dunque d due d fenomeni f i 1. La pprobabilità che y sia uguale g a zero (dato ( x) P(yi=0)=P(y 0) P(yi*≤0)=P(ε ≤0) P(εi≤ ≤- xi’β) β)= =P(εi /σ ≤- xi’β /σ)=Φ(-xi’β/σ )= =11 Φ(x ( i’β/σ β/ ) (1) 54 2. La distribuzione di yi (dato x), condizionatamente al fatto che quest’ultima sia positiva E( i|y E(y | i>0, 0 x)= ) xi’β+E(ε ’β E( i| εi>- xi’β) = ’ ’ = xi’β+σ [φ(xi β/σ ) /Φ(xi β/σ ) ] (2) dove φ è la funzione di densità normale standard. Il termine in parentesi quadra è noto come inverse Mill’s ratio (λ) Il secondo termine rappresenta il valore atteso di una variabile casuale normale di media nulla, condizionatamente al fatto che il suo valore sia superiore p a - xi’β. Tale valore atteso è maggiore di zero. È perciò inappropriato limitare l’attenzione alle sole osservazioni ppositive e stimare un modello lineare pper qquesto sottocampione; il valore atteso condizionale di yi non è più dato da xi’β, ma dipende da xi anche in modo non lineare attraverso il secondo termine. 55 • Nota: le formule (1) e (2) si basano su di una ipotesi fondamentale: εi |x ˜ N(0, σ2) Bisognerebbe testare la validità di tale ipotesi (normalità e omoschedasticità degli errori) 56 • Dalla (2), E(y|y>0,x), si può ricavare il valore atteso di y (dato x) E(yi|xi) = E(yi|yi>0, x) * P(yi>0) + 0= { i’β+σ β [φ( [φ(xi’β β/σ ) /Φ(x ( i’β β/σ ) ] }}* Φ(x ( i’β β/σ ))= ={x = xi’β Φ(xi’β/σ ) +σ φ(xi’β/σ ) Riassumendo, abbiamo quindi due valori attesi di particolare interesse: E(y|y>0,x) E(y|y>0 x) e E(y|x) 57 effetti ff tti parziali i li • Dall’espressione 2 si evince che l’effetto marginale di una variazione di xik sul valore (medio) di yi, tenendo conto del meccanismo i di censura, saràà diverso di d βk, da perché risentirà anche della variazione marginale del secondo termine che riflette la censura 58 • δ E(y (yi|yi>0,x 0, i) / δx δ ik= βk *[fattore [ a o e che c e dipende d pe de da x e da tutti i parametri del modello] (yi||xi) / δxik= βk *[fattore [ che dipende p da x e • δ E(y da tutti i parametri del modello] gli effetti pparziali hanno lo stesso segno g di Entrambi g βk , ma la grandezza degli effetti dipende dai valori assunti da tutte le variabili esplicative e dai parametri, tra cui σ 59 T bit I Tobit • Il modello Tobit I impone una struttura che spesso è troppo restrittiva: le variabili che determinano la probabilità di un’osservazione non nulla sono le stesse che influenzano il livello di un’osservazione positiva e, e per giunta, giunta con lo stesso segno • Ciò implica, per esempio, che gli individui con probabilità più elevata di effettuare una spesa positiva sono anche quelli che, in media, spendono di più in questo bene. Ci sono casi in cui qquesto non è vero. Considerando,, ad esempio, la spesa per vacanze, è ragionevole immaginare che le famiglie con molti figli abbiano minore probabilità p ppositiva,, ma che se iniziano una di effettuare una spesa vacanza, il livello atteso delle spese di queste famiglie sia più elevato 60 T bit II Tobit • Il c.d. Tobit II (Heckman selection model) consente di superare questo limite. In tale modello probabilità di osservare y>0 >0 ed d il li livello ll di y sono trattati t tt ti come due d decisioni separate, sebbene non indipendenti. • Vengono considerate due variabili latenti: yi*=x1i’β1+ε1i (main process) hi*=x2i’β2+ε2i (selection process) • ε1i , ε2i sono distribuiti come una normale bivariata, con valore atteso nullo, varianza σ12 e σ22, e covarianza σ12 • i segni e le grandezze dei coefficienti beta possono essere diversi fra le due equazioni 61 • La regola di osservazione è data da: yi=y*= * x1i’β1+ε + 1i se hi*>0 yi=0 se hi*≤0 • Il processo di selezione è un probit, per cui si normalizza σ22=1 • Indichiamo con hi una variabile dummy, che assume il valore 1 se hi*>0, zero altrimenti 62 Il valore atteso di y, condizionale al fatto che h 1 è dato h=1 d t da d E(yi| hi=1) = x1i’β1+E(ε1i| hi=1)= = x1i’β+E( β ( ε1i| ε2i >- x2i’β β2))= = x1i’β+ σ12[φ(x2i’β2) /Φ(x2i’β2) ] σ12=ρ 12 σ1 ρ 12=coefficiente di correlazione tra gli errori (Per maggiori dettagli si veda Verbeek, pag 205) 63 • Se σ12=ρ 12=0 il valore atteso condizionale è pari x1i’β β1, ossia se i termini di errore sono incorrelati, la main equation può essere stimata ti t in i maniera i consistente it t usando il metodo dei minimi quadrati. • Se σ12≠0 lo stimatore OLS sarà distorto 64 • • Il modello Tobit II è chiamato anche modello di selezione campionaria (Heckman selection model): può fornire una soluzione adeguata ad alcune forme di distorsione da selezione campionaria Supponiamo di essere interessati alla spiegazione dei salari. La nostra variabile dipendente, w, è ovviamente osservata solo per coloro i quali lavorano, ma per scopi di analisi economica siamo spesso interessati ai salari (potenziali) non condizionati da questa regola di selezione. Per esempio: i una variazione i i i qualche in l h variabile i bil x potrebbe t bb ridurre id il salario di qualcuno al punto da indurlo a decidere di smettere di lavorare. Di conseguenza il suo salario non verrebbe più osservato e ll’effetto effetto di x potrebbe essere sottostimato nei dati disponibili. Dato che il campione di lavoratori può non costituire un campione casuale della popolazione (dei potenziali lavoratori) – in particolare è lecito attendersi che gli indicidui con w (potenziali) più bassi tendano maggiormente i t add essere disoccupati di ti – questo t problema bl viene i d fi it definito problema di selezione campionaria 65 • In linea di principio le variabili incluse nei vettori x1 e x2 possono essere diverse diverse, ma è necessario fare molta attenzione (si veda più iù avanti) ti) • Il termine [φ( [φ(x2i’β2) /Φ(x ( 2i’β2) ] è noto come inverso del rapporto di Mill (inverse Mill’ss ratio). Mill ratio) Siccome Heckman (1979) lo ha indicato con λ, viene anche chiamato l bd di Heckman. lambda H k 66 Key insights off H Heckman k (1979) E Econometrica i paper • Un modo di pensare al selection problem è in termini e di o d omitted ed va variable ab e p problem. ob e . • Una stima di tale variabile risolverebbe ll’omissione omissione e, e quindi, quindi il problema di selezione • Unico elemento ignoto in λ è β2, che può essere stimato applicando la procedura proced ra di Massima Verosimiglianza al modello probit di selezione 67 Metodi di stima 1 T 1. Two step t estimation. ti ti Dovuto D t a Heckman H k (1979), per questo è talvolta chiamato "Heckman two-step" method. 2 ML estimation 2. 68 T step Two t estimation ti ti • Primo stadio: Si stima la selection equation con un modello probit probit, usando tutte le osservazioni. Le stime di β2 di questo probit bit vengono usate t per costruire t i una stima consistente dell’ inverse Mills ratio (λ^) 69 • Secondo stadio: l’outcome equation è stimata by OLS, O S, agg aggiungendo u ge do aal se set di d regressori eg esso il valore va o e stimato dell’inverse Mills ratio (λ ^) w= x x’1 β1 + θ λ ^ + e (θ =σ12) Questa stima i sii basa b sulle ll osservazioni i i “uncensored” e produce stimatori consistenti e asintoticamente i i normali li per β1 e θ. θ 70 • il coefficiente dell dell’inverse inverse Mills ratio è una stima della covarianza σ12=ρ 12 σ1 . Siccome σ1 > 0, il segno di questo coefficiente è lo stesso del segno di ρ 12 . Perciò, una covarianza positiva indica che èp presente eterogenità g non osservata che influisce positivamente sia sul livello della variabile dipendente che sulla probabilità che essa sia >0. • Lo standard t-test dell’ipotesi nulla θ = 0 è un test dell’ipotesi nulla che non ci sia selection bias 71 P bl i di inferenza Problemi i f • The inverse Mill’s ratio è un regressore generato • Inoltre, se c’è selection bias, sorge un problema di eteroschedasticità. • Heckman (1979) include uno stimatore consistente della varianza in presenza di tali problemi (Greene). (Greene) Stata produce gli SE corretti automaticamente. 72 E l i restrictions Exclusion t i ti • Il modello Tobit II è formalmente identificato anche se x1 = x2. L’identificazione è dovuta, in t l caso, alla tal ll non-linearità li ità dell’inverse d ll’i Mill’ Mill’s ratio. • Però, Però se x1 = x2 si può generare una sostanziale correlazione tra il termine dell’inverse Mill’s ratio (stimato) e il set rimanente delle covariate nell’outcome ll equation i → c’è bisogno bi di imporre i delle “exclusion restrictions“ (individuare variabili che appartengono alla selection ma non alla outcome equation) 73 • L’inclusione in x2 di variabili aggiuntive rispetto a quelle in x1 può essere importante per garantire la proprietà di id tifi i identificazione all secondo d passo, anche h se spesso non è chiaro quali variabili possano essere candidate naturali a questo scopo, e qqualsiasi scelta ppuò essere criticata. 74 Lo stimatore two-step • non o è efficiente, e c e te, • ma in compenso è semplice da un punto di vista computazionale • è consistente Lo stimatore ML: • è efficiente, assumendo che la bivariate normal assumption sia corretta • ma “relies li more heavily h il on the h functional f i l form f assumption and so is less robust than the twostep method method”;; • talvolta presenta problemi di convergenza 75