Modello di regressione logistica appendice relativa alla valutazione del modello Corso di analisi statistica per le imprese Docente Laura Neri Dip. Economia Politica e Statistica TEST DI SPECIFICAZIONE – SELEZIONE DEL MODELLO LOGIT Dopo aver stimato il modello, è necessario valutare la significatività sia del modello nel suo insieme sia con riferimento ai singoli coefficienti. Ci si basa sulle proprietà dello stimatore di massima verosimiglianza che è asintoticamente normale e, di frequente, si impiega il test di tipo LR. Valutazione del modello complessivo Confrontiamo il modello stimato (supponiamo k covariate) con il modello “saturo” (che contiene tanti parametri quante osservazioni e quindi fornisce l’adattamento migliore possibile). Indichiamo la verosimiglianza relativa al modello “saturo” con Lsat e quella relativa al modello con k variabili con Lk Per il confronto utilizziamo la statistica D (deviance) il cui valore osservato è definito da: D=-2log(Lk/Lsat)=2log Lsat -2log Lk che svolge qui il medesimo ruolo svolto da ESS (explained sum of squares) nel modello lineare e che, sotto l’ipotesi di adeguatezza del modello stimato, ha approssimativamente distribuzione con (n-k-1 g.l) Osserviamo che: se Lk< Lsat allora D=-2log(Lk/ Lsat)>0 se Lk Lsat allora D0 quindi, quanto più Lk si avvicina a Lsat , tanto migliore è l’adattamento: valori piccoli di D (e quindi valori elevati del p-value) indicano un buon adattamento Tuttavia l’adattamento migliora (la verosimiglianza aumenta) via via che ci si avvicina al modello saturo, ovvero quando le variabili esplicative sono numerose, contravvenendo al principio di parsimonia ma, come accade nel modello lineare, l’inclusione nel modello di variabili con ridotto potere esplicativo è da evitare. Confronto tra modelli annidati Consideriamo due modelli: Modello C (“completo”) con k+r variabili esplicative Modello R (“ridotto”) con k variabili esplicative (sottoinsieme delle k+r) L k+r: verosimiglianza relativa al modello stimato C L k : verosimiglianza relativa al modello stimato R Ipotesi da sottoporre a verifica: H0: k+1 k+2 k+r H1: almeno uno dei coefficiente è diverso da 0 le r variabili esplicative presenti nel modello C apportano un contributo significativo alla spiegazione di P y i 1| x Il confronto si basa sul valore osservato della statistica G (test LR), cosi definita: G=-2log(Lk/Lk+r)=2log Lk+r -2log Lk Quanto più G e piccolo (num. vicino a denom.), tanto piu la verosimiglianza del modello ridotto sarà vicina a quella del modello completo, cioè tanto meno "importanti" saranno le r variabili "aggiunte" al modello C G deve assumere valori “elevati” perché almeno una delle r covariate risulti utile Sotto H0, G si distribuisce come un con r gradi di libertà. Dato , si individuerà un valore soglia r tale che la regione di rifiuto sarà determinata da: R=G>rtest ad una coda) Il rifiuto di H0 implica che almeno uno degli r parametri è significativamente diverso da 0 (almeno una delle covariate contribuisce in modo significativo alla spiegazione di P y i 1| x La statistica test G può anche essere impiegata per sottoporre a verifica le ipotesi di: 1. uguaglianza a 0 di tutti i coefficienti di regressione relativi ad un modello con k variabili posto a confronto con il modello con la sola intercetta (verifica relativa al modello nel suo insieme): H0: 1 2 k H1: almeno uno dei coefficiente è diverso da 0 2. uguaglianza a 0 del parametro (k+1)-simo riferito ad una covariata inserita in un modello che contiene k covariate Anche per la specificazione di un modello di regressione logistica si può far ricorso a metodi stepwise di selezione delle covariate, basati sul test LR. Criteri di selezione di modelli alternativi (nonnested) AIC, BIC (…lower is better….) Caso di studio: ANALISI DELLE DETERMINANTI DELLA SCELTA TRA “MARCHE” (CANALI TELEVISIVI) Campione di n=24 osservazioni (individui). Variabili rilevate: Y scelta del canale televisivo (in un certo contesto) Y=1 se canale A Y=0 altrimenti X1 genere:1 Maschio,0 Femmina X2 reddito (x 1000 euro) Il software attiva la selezion stepwise (partendo dal modello con la sola intercetta) Passo 0 (solo intercetta): -2log L0=33,271 Passo 1 (sesso): -2log Ls=17,864 (G=-2 log L0 - (-2 log Ls)=15,407) Passo 1 (reddito): -2log Lr=16,115 (G=17,156) la var. "reddito" viene inserita per prima nel modello perché ha la L più elevata (G più elevata) Passo 2 (alla variabile reddito si aggiunge la var. sesso): 2log Lr+s= G = -2 log L0 - (-2 log Lr+s)= 33,271-11,789=21,843 (p-value = 0,0001) rifiuto H0: 1= 2=0 D=11.8 (p-value=0.945) il modello mostra un buon adattamento Stima dei parametri e.s. REDDITO 1.924 0.912 SESSO -3.055 1.598 Costante -1.3898 1.843 β W 2.111 -1.912 -0.750 p-value .035 * .056 * .016 * exp(ˆβ ) 6.851 0.047 0.249 test di Wald: i coefficienti associati alle covariate sono tutti significativamente diversi da 0 (ma con 0.1) Modello stimato: logit(i)= -1.3898 - 3,055 sesso + 1,924 reddito Interpretazione delle stime ottenute: A parità di reddito, il log odds per i maschi è inferiore a quello riferito alle femmine di 3.055 o, in altri termini, l’odds è pari a exp(-3.055)=0.05 volte più piccolo per i maschi che per le femmine. Il log odds aumenta all’aumentare del reddito.