dott. Amedeo Argentiero-Modelli probit e logit, lezione 4aprile2014

Modelli per variabili dipendenti
limitate
Amedeo Argentiero
[email protected]
Problema
1. Si desidera stimare la probabilità di
accadimento di un evento (essere
disoccupato, probabilità di sposarsi, essere
razionato sul maercato del credito);
2. Nella realtà però non si osserva la
probabilità, ma un determinato attributo
(persona disoccupata/non disoccupata,
sposato/non sposato, razionato/non
razionato)
Variabili dipendenti discrete
• Si osserva la realizzazione di una variabile
discreta Y che assume valore:
oY=1 in presenza dell’attributo;
oY=0 in assenza dell’attributo
• In termini econometrici rileva conoscere:
oP(Y=1|X): probabilità dell’evento Y=1,
dato un set di variabili esplicative X
Modello lineare di probabilità
• Yi=a+bXi+ui
• Y è una dummy=1 se la famiglia è
proprietaria
• X=reddito
• u=errore , E(u)=0
• E(Yi|Xi)= a+bXi= Pr(Yi=1|Xi): valore atteso
conditionato ad un set di regressori Xi
Modello lineare di probabilità:
un’analisi scatter della dipendente
Modello lineare di probabilità: retta
di regressione
Modello lineare di probabilità: retta
di regressione, considerazioni
• La retta di regressione attraversa zone di maggiore
concentrazione, ma il «fit» non è molto buono, il valore di
R^2 si mantiene basso;
• L’unica eccezione sarebbe il caso di totale concentrazione
nelle zone di attraversamento della retta;
• L’intercetta può essere negativa!;
• I valori predetti possono essere negativi o maggiori di 1;
• I coefficienti di regressione possono avere significati poco
verosimili: ad un incremento unitario del reddito, possono
corrispondere elevate variazioni della probabilità di
detenere un immobile!;
• I residui sono non normali ed eteroschedastici
Fatti stilizzati
• La relazione tra variabili esplicative e
probabilità è sovente di tipo NON lineare;
• La probabilità di possedere una casa in
relazione al reddito posseduto dipende dal
livello di reddito!
Soluzione
• La probabilità deve essere compresa tra 0 ed
1;
• La relazione tra probabilità e variabili
esplicative deve essere non lineare.
• Le funzioni di distribuzione cumulate
normalmente utilizzate sono quella NORMALE
e quella LOGISTICA
Distribuzione cumulata logistica
Regressione logistica: la procedura
1. L=a+bX;
2. P=e^L/(1+e^L);
3. 1-P=1/(1+e^L);
4. Calcolare l’odds ratio: P/(1-P)=e^L;
5. Calcolare il ln dell’odds ratio: L
Considerazioni
• La trasformazione logistica ci permette di
avere una relazione lineare tra la nuova
variabile dipendente (espressa in
logits“L”) e la variabile esplicativa X:
L=ln(P/1-P)=a+bX
• Tale relazione implica una relazione NON
lineare tra PROBABILITA’ ed X:
P=e^(a+bx)/(1+e^(a+bX))
Interpretazione della regressione
logistica
• L=a+bX+e;
• Il coefficiente b rappresenta la variazione in
E(L) al variare di X (se X è una variabile
continua b è la derivata di E(L) rispetto a X).
Gli effetti di X su L sono LINEARI e ADDITIVI
• L’interpretazione di b è la stessa che viene
data in ogni retta di regressione, MA
l’interpretazione degli effetti di X risultano
meno intuitivi
Interpretazione della regressione
logistica (2)
• Vogliamo conoscere gli effetti di X (reddito)
sulla probabilità di possedere una casa (P);
• Per cui dobbiamo convertire l’effetto stimato
di X su L (cioè b)(δL/δX) nell’effetto di X su P
(δP/δX);
• Ma δP/δX=b*P*(1-P);
• L’effetto di X su P non è costante: dipende dal
livello di P (che a sua volta dipende dal livello
di X!)
Modello probit
• Si parte dalla funzione di ripartizione cumulata
normale che è di tipo non lineare e ha
codominio compreso tra 0 e 1;
Regressione probit: la procedura e
l’interpretazione
• Trasformiamo probabilità (limitate tra 0 e 1) in Z-scores (valori
critici della distribuzione normale standardizzata), che variano
tra –∞ e + ∞;
• Gli Z-scores rappresentano la variabile dipendente nel
modello probit;
• Tale trasformazione esprime una relazione lineare tra la
nuova variabile dipendente (espressa in Probits“Z”) e la
variabile esplicativa X: Z= Φ^-1(P) =a+bX;
• Tale relazione implica una relazione NON lineare tra
PROBABILITA’ ed X;
• δP/δX=b*Φ(Z);
• L’effetto di X su P non è costante: dipende dal livello di Z (che
dipende da X, infatti Z =a+bX)
Stima dei parametri e verifica di
ipotesi
• In assenza di omoschedasticità dei residui e di
linearità è necessario applicare il metodo della
massima verosimiglianza;
• La soluzione della procedura di massimizzazione
tuttavia NON è in forma chiusa ma richiede
metodi numerici iterativi;
• Tali stime risultano asintoticamente corrette,
efficienti e normalmente distribuite;
• La verifica delle ipotesi sui coefficienti avviene
mediante test LR
Grazie per la vostra attenzione