Modelli per variabili dipendenti limitate Amedeo Argentiero [email protected] Problema 1. Si desidera stimare la probabilità di accadimento di un evento (essere disoccupato, probabilità di sposarsi, essere razionato sul maercato del credito); 2. Nella realtà però non si osserva la probabilità, ma un determinato attributo (persona disoccupata/non disoccupata, sposato/non sposato, razionato/non razionato) Variabili dipendenti discrete • Si osserva la realizzazione di una variabile discreta Y che assume valore: oY=1 in presenza dell’attributo; oY=0 in assenza dell’attributo • In termini econometrici rileva conoscere: oP(Y=1|X): probabilità dell’evento Y=1, dato un set di variabili esplicative X Modello lineare di probabilità • Yi=a+bXi+ui • Y è una dummy=1 se la famiglia è proprietaria • X=reddito • u=errore , E(u)=0 • E(Yi|Xi)= a+bXi= Pr(Yi=1|Xi): valore atteso conditionato ad un set di regressori Xi Modello lineare di probabilità: un’analisi scatter della dipendente Modello lineare di probabilità: retta di regressione Modello lineare di probabilità: retta di regressione, considerazioni • La retta di regressione attraversa zone di maggiore concentrazione, ma il «fit» non è molto buono, il valore di R^2 si mantiene basso; • L’unica eccezione sarebbe il caso di totale concentrazione nelle zone di attraversamento della retta; • L’intercetta può essere negativa!; • I valori predetti possono essere negativi o maggiori di 1; • I coefficienti di regressione possono avere significati poco verosimili: ad un incremento unitario del reddito, possono corrispondere elevate variazioni della probabilità di detenere un immobile!; • I residui sono non normali ed eteroschedastici Fatti stilizzati • La relazione tra variabili esplicative e probabilità è sovente di tipo NON lineare; • La probabilità di possedere una casa in relazione al reddito posseduto dipende dal livello di reddito! Soluzione • La probabilità deve essere compresa tra 0 ed 1; • La relazione tra probabilità e variabili esplicative deve essere non lineare. • Le funzioni di distribuzione cumulate normalmente utilizzate sono quella NORMALE e quella LOGISTICA Distribuzione cumulata logistica Regressione logistica: la procedura 1. L=a+bX; 2. P=e^L/(1+e^L); 3. 1-P=1/(1+e^L); 4. Calcolare l’odds ratio: P/(1-P)=e^L; 5. Calcolare il ln dell’odds ratio: L Considerazioni • La trasformazione logistica ci permette di avere una relazione lineare tra la nuova variabile dipendente (espressa in logits“L”) e la variabile esplicativa X: L=ln(P/1-P)=a+bX • Tale relazione implica una relazione NON lineare tra PROBABILITA’ ed X: P=e^(a+bx)/(1+e^(a+bX)) Interpretazione della regressione logistica • L=a+bX+e; • Il coefficiente b rappresenta la variazione in E(L) al variare di X (se X è una variabile continua b è la derivata di E(L) rispetto a X). Gli effetti di X su L sono LINEARI e ADDITIVI • L’interpretazione di b è la stessa che viene data in ogni retta di regressione, MA l’interpretazione degli effetti di X risultano meno intuitivi Interpretazione della regressione logistica (2) • Vogliamo conoscere gli effetti di X (reddito) sulla probabilità di possedere una casa (P); • Per cui dobbiamo convertire l’effetto stimato di X su L (cioè b)(δL/δX) nell’effetto di X su P (δP/δX); • Ma δP/δX=b*P*(1-P); • L’effetto di X su P non è costante: dipende dal livello di P (che a sua volta dipende dal livello di X!) Modello probit • Si parte dalla funzione di ripartizione cumulata normale che è di tipo non lineare e ha codominio compreso tra 0 e 1; Regressione probit: la procedura e l’interpretazione • Trasformiamo probabilità (limitate tra 0 e 1) in Z-scores (valori critici della distribuzione normale standardizzata), che variano tra –∞ e + ∞; • Gli Z-scores rappresentano la variabile dipendente nel modello probit; • Tale trasformazione esprime una relazione lineare tra la nuova variabile dipendente (espressa in Probits“Z”) e la variabile esplicativa X: Z= Φ^-1(P) =a+bX; • Tale relazione implica una relazione NON lineare tra PROBABILITA’ ed X; • δP/δX=b*Φ(Z); • L’effetto di X su P non è costante: dipende dal livello di Z (che dipende da X, infatti Z =a+bX) Stima dei parametri e verifica di ipotesi • In assenza di omoschedasticità dei residui e di linearità è necessario applicare il metodo della massima verosimiglianza; • La soluzione della procedura di massimizzazione tuttavia NON è in forma chiusa ma richiede metodi numerici iterativi; • Tali stime risultano asintoticamente corrette, efficienti e normalmente distribuite; • La verifica delle ipotesi sui coefficienti avviene mediante test LR Grazie per la vostra attenzione