Modelli con varabili binarie (o qualitative) E (Yi | X i ) = α + βX i + ε i quando Y è una variabile benoulliana ⎧1 Y =⎨ ⎩0 si ha il modello lineare di probabilità Pr(Yi = 1 | X i ) = α + βX i + ε i dove i valori stimati della Y assumono il significato di probabilità. Con la stima OLS tale modello non è efficiente. Inoltre (e soprattutto), poiché il valore atteso è una probabilità, le stime possono produrre valori non contenuti in [0, 1]. -.5 0 .5 1 M o d e l lo lin e a re d i p ro b a b ili tà 2 .0 0 2 .5 0 C a r typ e 3 .0 0 G e ar R a tio 3 .5 0 4 .0 0 P r (Y = 1 ) - m od e ll o l in e a re d i p r o b a b ili tà È necessario allora ricorrere ad una funzione tale che i valori stimati siano compresi in [0, 1]. I modelli che usano tali funzioni sono noti come Logit e Probit, dove le probabilità non sono più funzioni lineari delle caratteristiche. Il primo si riferisce alla funzione logistica: exp(βX i ) 1 = 1 + exp(βX i ) 1 + e − βX 0 .2 P (Y =1|X ) .4 .6 .8 1 Pr(Yi = 1 | X i ) = 0 20 60 40 In d e p en d e n t va ria b le 80 100 Il Logit usa il rapporto tra le probabilità complementari della funzione logistica detto odd: Pr(Y = 1 | X ) P( y | x) = Pr(Y = 0 | X ) 1 − P( y | x) = exp(βX i ) exp(βX i ) 1− 1 + exp(βX i ) 1 + exp(βX i ) = exp( βX i ) . Si chiama logit il logaritmo dell'odd: ⎛ P( xi ) ⎞ ⎟⎟ = βX i + ε i Logit ( Pi ) = log⎜⎜ ⎝ 1 − P( xi ) ⎠ -.5 0 .5 1 M od ello lo git 2.50 2 .00 3.50 3.0 0 G ear Ratio Pr(foreign) Fitted values 4.00 Car type Il modello Probit invece usa la funzione di ripartizione della normale stand.: 1 Pr(Yi = 1 | X i ) = F ( Z i ) = 2π cioè Pr(Yi = 1 | X i ) = F (α + βX i + ε i ) . ∫ z −∞ exp(− ε 2 2)dε Entrambi le funzioni producono stime nell'intervallo [0, 1] con qualche piccola differenza che dipende dalla distribuzione di ε, che nel caso del probit ε ≅ N (0,1) e nel caso logit ε è una distribuzione log. stand. con media 0 e var. = π²/3. Metodi di stima Bisogna stimare le probabilità di una variabile bernoulliana, la cui distribuzione è: f ( yi | xi , β ) = P ( xi ) yi [1 − P ( xi )]1− yi dove P( xi ) = Pr(Yi = 1 | X i ) con osservazioni indipendenti. Allora la sua funzione di verosimiglianza è: L( β | y ) = ∏ i f ( yi | xi ) = ∏ i P( xi ) yi [1 − P( xi )]1− yi . Bisogna massimizzare questa funzione: ⎧ max : ⎨ ⎩ ∏ i ⎫ P( xi ) yi [1 − P ( xi )]1− yi ⎬ ⎭ è più comodo però massimizzare il logaritmo della funzione di verosimiglianza: Log ( L( β | y )) = ∑ yi ln[ P ( xi )] + (1 − yi ) ln[1 − P( xi )] i Nel caso di Y=1 si ha: Log ( L( β | y )) = ∑ y i ln[ P( xi )] = − ln[1 + exp(− βX )] i mentre con Y=0 si ha: Log ( L( β | y )) = ∑ (1 − yi ) ln[1 − P( xi )] = ln(− βX ) − ln[1 + exp(− βX )] i Dopo la stima dei parametri del modello logit ⎛ P( xi ) ⎞ ⎟ = βX i + ε i log⎜⎜ ⎟ ⎝ 1 − P( xi ) ⎠ si ottengono le probabilità di Y=1|X con exp(βX i ) 1 = 1 + exp(βX i ) 1 + e− βX mentre per la significatività delle stime dei parametri si ricorre al test Wald che con Ho:β=0 è W~>N(0,1). Per la verifica del modello stimato il test più usato è il rapporto di Pr(Yi = 1 | X i ) = verosimiglianza (LogLikelihood Ratio) LR ~ χ², una statistica che si distribuisce come una Chi-quadro: si accetta il modello stimato se LR è molto elevato e il suo P-value è molto piccolo, considerando i relativi gradi di libertà. Interpretazione delle stime di β. P( xi ) = e βX +ε Dato l’odds 1 − P( xi ) la relazione tra variabile dipendente e variabile esplicativa è non-lineare. Calcolando exp(β) otteniamo la misura dell’incremento della probabilità P(Y=1|X) all’aumento unitario della X . P( y = 1) Nei risultati delle stime altra cosa da considerare sono gli odds 1 − P( y = 1) e gli odds ratio (appross. rischio relativo). Consideriamo il caso (esempio 1) in cui la variabile binaria sia la scelta di proseguire, come lavoro, nell’attività di ricerca e il regressore è il sesso (F o M). Prima di tutto vediamo che il modello con la sola intercetta è ln(odds) = -.379 e l’odds è 0.68449, cioè 128/187 in cui 128 soggetti decidono di far ricerca. Se si decide poi di mettere il regressore nel modello si nota che LR=25.65, significa che il modello con il regressore è migliore. L’equazione stimata è ln(ODDS) = −.847 + 1.217Gender . A questo punto possiamo ora prevedere le possibilità con cui i soggetti scelgono la ricerca. Dato che l’odds è ODDS = e a +bX , nel nostro esempio se siamo di fronte a una donna (gender=0) allora ODDS = e −.847 + 1.217 ( 0 ) = e −.847 = 0.429 , mentre per gli uomini si ha (gender=1) ODDS= e−.847+1.217(1) = e.37 = 1.448 , e significa che i maschi hanno 1.448 volte possibilità in più di decidere di fare ricerca. Trasformando questi in probabilità, cioè ODDS 0.429 Yˆ = = = 0.30 , il 30% delle donne decide di far ricerca e 1 + ODDS 1.429 1.448 ODDS = = 0.59 , il 59% degli uomini decide di far ricerca. Yˆ = 1 + ODDS 2.448 = 3.376 , si conclude che Se poi si guarda l’odds ratio, cioè exp(β) e le possibilità di far ricerca per i maschi sono 3.376 volte più alte rispetto alle femmine, cioè 1.448/0.429=3.376. 1.217 Esempio 1: use logistic.dta, clear . tab decision decision | Freq. Percent Cum. ------------+----------------------------------stop | 187 59.37 59.37 continue | 128 40.63 100.00 ------------+----------------------------------Total | 315 100.00 . tabodds decision ------------------------------------------------------------cases controls odds [95% Conf. Interval] ------------------------------------------------------------128 187 0.68449 0.54666 0.85707 ------------------------------------------------------------logit decision Iteration 0: log likelihood = -212.7832 Logistic regression Log likelihood = Number of obs LR chi2(0) Prob > chi2 Pseudo R2 -212.7832 = = = = 315 0.00 . 0.0000 -----------------------------------------------------------------------------decision | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------_cons | -.3790784 .1147175 -3.30 0.001 -.6039204 -.1542363 -----------------------------------------------------------------------------. logit decision gender Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood = -212.7832 = -199.977 = -199.95659 = -199.95659 Logistic regression Number of obs LR chi2(1) Prob > chi2 Pseudo R2 Log likelihood = -199.95659 = = = = 315 25.65 0.0000 0.0603 -----------------------------------------------------------------------------decision | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------gender | 1.216658 .244524 4.98 0.000 .7373997 1.695916 _cons | -.8472979 .1543033 -5.49 0.000 -1.149727 -.5448689 -----------------------------------------------------------------------------. scalar LR=-2*(e(ll_0)-e(ll)) . dis LR 25.653204 . tabodds decision gender -------------------------------------------------------------------------gender | cases controls odds [95% Conf. Interval] ------------+------------------------------------------------------------female | 60 140 0.42857 0.31672 0.57992 male | 68 47 1.44681 0.99758 2.09834 -------------------------------------------------------------------------Test of homogeneity (equal odds): chi2(1) = 25.60 Pr>chi2 = 0.0000 Score test for trend of odds: chi2(1) Pr>chi2 = = 25.60 0.0000 . logit decision gender, or Iteration Iteration Iteration Iteration 0: 1: 2: 3: log log log log likelihood likelihood likelihood likelihood Logistic regression = -212.7832 = -199.977 = -199.95659 = -199.95659 Number of obs LR chi2(1) Prob > chi2 = = = 315 25.65 0.0000 Log likelihood = -199.95659 Pseudo R2 = 0.0603 -----------------------------------------------------------------------------decision | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------gender | 3.375887 .8254854 4.98 0.000 2.090492 5.451639 ------------------------------------------------------------------------------ Esempio 2: logit foreign gear_ratio Iteration Iteration Iteration Iteration Iteration Iteration 0: 1: 2: 3: 4: 5: log log log log log log likelihood likelihood likelihood likelihood likelihood likelihood Logistic regression Log likelihood = -22.054175 = = = = = = -45.03321 -25.213871 -22.436413 -22.064761 -22.054186 -22.054175 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 = = = = 74 45.96 0.0000 0.5103 -----------------------------------------------------------------------------foreign | Coef. Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------gear_ratio | 5.836867 1.305948 4.47 0.000 3.277256 8.396479 _cons | -19.30575 4.210793 -4.58 0.000 -27.55875 -11.05275 Logistic regression Log likelihood = -22.054175 Number of obs LR chi2(1) Prob > chi2 Pseudo R2 = = = = 74 45.96 0.0000 0.5103 -----------------------------------------------------------------------------foreign | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------gear_ratio | 342.704 447.5537 4.47 0.000 26.50295 4431.434 ------------------------------------------------------------------------------