Slide5.2_App - Università degli Studi di Siena

annuncio pubblicitario
Modello di regressione logistica appendice
relativa alla valutazione del modello
Corso di analisi statistica per le imprese
Docente
Laura Neri
Dip. Economia Politica e Statistica
TEST DI SPECIFICAZIONE – SELEZIONE
DEL MODELLO LOGIT
Dopo aver stimato il modello, è necessario valutare
la significatività sia del modello nel suo insieme sia
con riferimento ai singoli coefficienti.
Ci si basa sulle proprietà dello stimatore di massima
verosimiglianza che è asintoticamente normale e, di
frequente, si impiega il test di tipo LR.
Valutazione del modello complessivo
Confrontiamo il modello stimato (supponiamo k
covariate) con il modello “saturo” (che contiene
tanti parametri quante osservazioni e quindi
fornisce l’adattamento migliore possibile).
Indichiamo la verosimiglianza relativa al modello
“saturo” con Lsat e quella relativa al modello con k
variabili con Lk
Per il confronto utilizziamo la statistica D
(deviance) il cui valore osservato è definito da:
D=-2log(Lk/Lsat)=2log Lsat -2log Lk
che svolge qui il medesimo ruolo svolto da ESS
(explained sum of squares) nel modello lineare e
che, sotto l’ipotesi di adeguatezza del modello
stimato, ha approssimativamente distribuzione
con (n-k-1 g.l)





Osserviamo che:
se Lk< Lsat
allora D=-2log(Lk/ Lsat)>0
se Lk  Lsat allora D0
quindi, quanto più Lk si avvicina a Lsat , tanto
migliore è l’adattamento:
valori piccoli di D (e quindi valori elevati del p-value)
indicano un buon adattamento
Tuttavia l’adattamento migliora (la verosimiglianza
aumenta) via via che ci si avvicina al modello
saturo, ovvero quando le variabili esplicative sono
numerose, contravvenendo al principio di
parsimonia ma, come accade nel modello lineare,
l’inclusione nel modello di variabili con ridotto
potere esplicativo è da evitare.
Confronto tra modelli annidati
Consideriamo due modelli:
Modello C (“completo”) con k+r variabili esplicative
Modello R (“ridotto”) con k variabili esplicative
(sottoinsieme delle k+r)
L k+r: verosimiglianza relativa al modello stimato C
L k : verosimiglianza relativa al modello stimato R
Ipotesi da sottoporre a verifica:
H0:  k+1 k+2 k+r
H1: almeno uno dei coefficiente è diverso da 0
le r variabili esplicative presenti nel modello C apportano un
contributo significativo alla spiegazione di P y i 1| x
Il confronto si basa sul valore osservato della statistica G (test
LR), cosi definita:
G=-2log(Lk/Lk+r)=2log Lk+r -2log Lk
Quanto più G e piccolo (num. vicino a
denom.), tanto piu la verosimiglianza del
modello ridotto sarà vicina a quella del modello
completo, cioè tanto meno "importanti"
saranno le r variabili "aggiunte" al modello C

G deve assumere valori “elevati” perché almeno
una delle r covariate risulti utile

Sotto H0, G si distribuisce come un  con r gradi di libertà.

Dato , si individuerà un valore soglia r
tale che la regione di rifiuto sarà determinata da:
R=G>rtest ad una coda)

Il rifiuto di H0 implica che almeno uno degli r
parametri è significativamente diverso da 0 (almeno
una delle covariate contribuisce in modo
significativo alla spiegazione di P y i 1| x
La statistica test G può anche essere
impiegata per sottoporre a verifica le
ipotesi di:
1. uguaglianza a 0 di tutti i coefficienti di
regressione relativi ad un modello con k variabili
posto a confronto con il modello con la sola
intercetta (verifica relativa al modello nel suo
insieme):
H0:  1 2 k
H1: almeno uno dei coefficiente è diverso da 0
2. uguaglianza a 0 del parametro (k+1)-simo riferito
ad una covariata inserita in un modello che
contiene k covariate
Anche per la specificazione di un modello di
regressione logistica si può far ricorso a metodi
stepwise di selezione delle covariate, basati sul test
LR.
Criteri di selezione di modelli alternativi (nonnested)
AIC, BIC (…lower is better….)
Caso di studio:
ANALISI DELLE DETERMINANTI
DELLA SCELTA TRA “MARCHE”
(CANALI TELEVISIVI)
Campione di n=24 osservazioni (individui).
Variabili rilevate:
Y scelta del canale televisivo (in un certo
contesto)
Y=1 se canale A
Y=0 altrimenti
X1 genere:1 Maschio,0 Femmina
X2 reddito (x 1000 euro)
Il software attiva la selezion stepwise (partendo dal modello
con la sola intercetta)
Passo 0 (solo intercetta): -2log L0=33,271
Passo 1 (sesso): -2log Ls=17,864 (G=-2 log L0 - (-2 log
Ls)=15,407)
Passo 1 (reddito): -2log Lr=16,115 (G=17,156)
la var. "reddito" viene inserita per prima nel modello perché
ha la L più elevata (G più elevata)
Passo 2 (alla variabile reddito si aggiunge la var. sesso):
2log Lr+s=
G = -2 log L0 - (-2 log Lr+s)= 33,271-11,789=21,843 (p-value
= 0,0001)
rifiuto H0: 1= 2=0
D=11.8 (p-value=0.945) il modello mostra un buon
adattamento
Stima dei parametri
e.s.
REDDITO 1.924 0.912
SESSO
-3.055 1.598
Costante
-1.3898 1.843
β
W
2.111
-1.912
-0.750
p-value
.035 *
.056 *
.016 *
exp(ˆβ )
6.851
0.047
0.249
test di Wald: i coefficienti associati alle covariate sono tutti
significativamente diversi da 0 (ma con 0.1)
Modello stimato:
logit(i)= -1.3898 - 3,055 sesso + 1,924 reddito
Interpretazione delle stime ottenute:
A parità di reddito, il log odds per i maschi è inferiore a quello
riferito alle femmine di 3.055 o, in altri termini, l’odds è pari a
exp(-3.055)=0.05 volte più piccolo per i maschi che per le
femmine.
Il log odds aumenta all’aumentare del reddito.
Scarica