X - Didattica

annuncio pubblicitario
Statistica per le ricerche di
mercato
A.A. 2011/12
Prof.ssa Tiziana Laureti
Dott. Luca Secondi
16. Il modello di regressione
logistica: definizione, specificazione e
stima
L’analisi delle variabili dipendenti dicotomiche
Un’importante area di applicazione dell’analisi di regressione riguarda il
caso in cui la variabile dipendente è una variabile di tipo qualitativo,
qualitativo
ossia dicotomica, nominale o ordinale.
Nelle scienze sociali le variabili dipendenti di questo tipo sono molto diffuse
in quanto rappresentano in modo appropriato numerosi fenomeni di
interesse, ad es. i giovani che conseguono il diploma decidono se iscriversi
o meno all’università, appartenenza alla forza lavoro (occupazione
/disoccupazione)
Nell’ambito delle analisi di mercato la regressione si può considerare ad
esempio la variabile dicotomica che esprime l’acquisto o non acquisto di un
prodotto in risposta ad esempio ad una diminuzione del prezzo del prodotto
oppure l’aumento della comunicazione pubblicitaria per una certa gamma di
prodotti.
Altri esempi:
•scelta tra marche (A,B)
•Possesso di un telefono cellulare
2
L’analisi delle variabili dipendenti dicotomiche
L’obiettivo è quello di spiegare la variabile risposta sulla base di uno o più
regressori.
Supponiamo di voler studiare le determinanti dell’aver o meno acquistato un
determinato modello di smartphone nell’ultimo anno. Disponiamo di
osservazioni su n individui riferite all’acquisto di uno smartphone e a k
variabili esplicative x .
Problema: utilizzando le variabili considerate (ad es. il reddito, il sesso, età,
ecc.) possiamo spiegare la scelta di acquistare o meno uno smartphone?
La nostra variabile risposta è una variabile binaria che indichiamo con Y tale
che per ogni osservazione i (i=1,…,n):
yi = 1
l'unità i-esima ha acquistato uno smartphone
yi = 0 l'unità i-esima non ha acquistato uno smartphone
L’analisi delle variabili dipendenti dicotomiche
La variabile Y si distribuisce come una v.c. di Bernoulli con parametro
P (Y = 1| X = x ) = π ( x )
π ( x)
:
P (Y = 0 | X = x ) = 1 − π ( x )
E (Y x ) = 1⋅ P (Y = 1| X = x ) + 0 ⋅ P (Y = 0 | X = x ) = π ( x )
Allo scopo di modellare π ( x ) si potrebbe pensare di ricorrere ad uno
schema di regressione lineare (comunemente denominato modello di
probabilità lineare, MPL), come segue:
π ( x) = P (Y = 1| X = x ) = α + β x + ε
Il modello
lineare non
funziona!
Problema:
• dal momento che π(x) è una probabilità deve necessariamente assumere valori
nell’intervallo [0,1], mentre la funzione lineare al membro di destra può assumere
valori nell’intervallo (-∞, +∞).
• violazione dell’ipotesi di omoschedasticità
• Violazione dell’ipotesi di normalità dell’errore ε
L’analisi delle variabili dipendenti dicotomiche
Al fine di superare i problemi evidenziati in precedenza, sono stati proposti
modelli in cui si esprime la probabilità di “successo” in funzione delle
variabili esplicative, secondo una funzione G che assuma valori in [0,1]
Si parla di modelli lineari generalizzati. Uno dei più noti modelli all’interno di
tale classe è il modello di regressione logistica.
π ( x ) = P (Y = 1| X = x ) = G ( β1 X 1i + β 2 X 2i ...β k X ki )
La scelta di G cade in modo naturale sulla Funzione di ripartizione
•FdR Φ della normale standardizzata si ha il modello probit
•FdR L di una distribuzione Logistica standardizzata si ha il
modello logit (regressione logistica)
La distribuzione Logistica è simile alla Normale, con code più pesanti.
Scelta tra i due modelli:
· i risultati di solito sono indistinguibili (piccole differenze per probabilità estreme)
· il modello logit è interpretabile in termini di odds
· è difficile giustificare la scelta dell’uno o dell’altro sulla base di considerazioni teoriche
Noi studieremo il modello logit o regressione logistica
Assunzioni e specificazione del modello
1/3
Quindi nel modello di regressione logistica la probabilità π(x) è assunta
pari al valore della funzione di ripartizione di una variabile casuale logistica
calcolata in corrispondenza di x. Nel caso di una sola variabile esplicativa si
ha:
eα + β x
π ( x) = P (Y = 1| X = x ) =
+ε
α +β x
1+ e
La funzione di ripartizione logistica è
una funzione crescente di X che
assume valori nell’intervallo [0,1] e
assume la seguente forma
7
Assunzioni e specificazione del modello
2/3
Il modello logistico può essere generalizzato al caso di più variabili esplicative
come nella seguente espressione:
e β1x1 + β2 x2 +...+ βk xk
π (x) = P (Y = 1| X 2 = x2 ,..., X k = xk , ) =
β1x1 + β 2 x2 +...+ β k xk + ε
1+ e
dove - in analogia con la notazione usata nel libro di testo per il modello di
regressione lineare multipla - la variabile X1 assume valore 1
Sia nel caso univariato che in quello multivariato la funzione che lega la
probabilità di successo alle sue variabili esplicative è non lineare nei
parametri.
Essa può tuttavia essere linearizzata attraverso un’opportuna
trasformazione.
8
Assunzioni e specificazione del modello
3/3
Dal momento che la probabilità di successo π ( x) è data dalla formulazione
appena introdotta, la probabilità di insuccesso (complementare) è pari a:
1 − π ( x) = P (Y = 0 | X 2 = x2 ,..., X p = x p , ) =
1
1 + e β1x1 + β2 x2 +...+ βk xk
Il rapporto tra le due probabilità è quindi dato da:
π ( x)
= e β x + β x +...+ β x
1 − π ( x)
1 1
2 2
k k
passando al logaritmo naturale per ambo i membri si ottiene la seguente
trasformazione - detta logit – che produce una funzione lineare nei parametri
β1,…, βk
⎛ π ( x) ⎞
logit [π (x) ] = log ⎜
= β1 x1 + β 2 x2 + ... + β k xk
⎟
⎝ 1 − π ( x) ⎠
Nei processi di stima anziché considerare il valore di π(x) si opera attraverso
la sua trasformata logit.
9
Logit e odds
L’ODDS è il rapporto tra la probabilità di successo e quella di insuccesso
successo e insuccesso sono equiprobabili
⎧ 1
π ( x)
⎪
= ⎨∈ ( 0,1) il successo è meno probabile dell'insuccesso
ODDS =
1 − π ( x) ⎪
⎩ ∈ (1, ∞ ) il successo è più probabile dell'insuccesso
L'odds corrisponde al rapporto fra il numero di volte in cui l'evento si
verifica (o si è verificato) ed il numero di volte in cui l'evento non si
verifica (o non si è verificato)
Poiché il campo di variazione dell’odds non è simmetrico, spesso si preferisce
ricorrere alla sua trasf. logaritmica, il LOG ODDS, che risulta uguale alla trasformata
logit di π .
successo e insuccesso sono equiprobabili
⎧0
⎡ π ( x) ⎤
⎪
π
log(ODDS ) = log ⎢
logit
(
)
=
x
=
[
]
⎨<0 il successo è meno probabile dell'insuccesso
⎥
⎣1 − π ( x) ⎦
⎪ >0 il successo è più probabile dell'insuccesso
⎩
10
Esempio di odds
Gli odds si utilizzano nel mondo delle scommesse perché consentono allo
scommettitore di calcolare facilmente la somma da incassare in caso di
vittoria.
Per esempio si ipotizzi che le probabilità di vittoria per una squadra di calcio
al campionato italiano siano date dai bookmakers 4:1 “a sfavore”.
Questo equivale a dire che le probabilità di sconfitta (π) della squadra sono
state considerate 4 volte più alte di quelle di una sua vittoria pari a (1-π).
Quindi la vittoria della squadra è da pagare 4 volte la cifra scommessa
Gli odds si possono trasformare in probabilità: la squadra considerata ha 1
probabilità su 5 (p = 0,2) di vincere e 4 probabilità su 5 di perdere (1-p = 0,8)
11
Interpretazione dei parametri del modello
‰Si può dimostrare che il generico parametro βj è il risultato della variazione
prodotta sul logit[π(x)] dall’incremento unitario della variabile indipendente Xj
(tenuti costanti i valori degli altri regressori). Quindi il segno del coefficiente
di regressione della variabile Xj corrisponde al segno dell’effetto da essa
esercitato.
‰ Per avere una misura dell’intensità si utilizza l’odds ratio (OR) dato dal
rapporto degli odds
OR( j )
odds ⎡⎣π (x) | X jB ⎤⎦
β x +...+ β x +...+ β x
β x
j jB
k k
e 11
e j jB
β ( x −x )
β
=
= β1x1 +...+ β j x jA +...+ βk xk = β j x jA = e j jB jA = e j
odds ⎡⎣π (x) | X jA ⎤⎦ e
e
Dalla espressione riportata sopra, si deduce pertanto che per variazioni
della generica variabile indipendente Xj la misura odds ratio è pari
all’esponenziale del corrispondente parametro.
12
Interpretazione dei parametri del modello
1. Se non sussiste nessuna relazione tra la variabile esplicativa Xj e la
probabilità che la variabile risposta Y assuma valore 1 il valore dell’odds
ratio è pari a 1 da cui βj = 0
2. Valori dell’odds ratio maggiori di 1 - ai quali corrispondono valori del
parametro βj maggiori di 0 - indicano un effetto positivo della variabile
esplicativa Xj sulla probabilità che la variabile risposta Y assuma il valore 1.
3. Valori dell’odds ratio compresi tra 0 e 1 - ai quali corrispondono valori del
parametro βj minori di 0 - indicano un effetto negativo della variabile
esplicativa Xj sulla probabilità che la variabile risposta Y assuma il valore
1.
NB. L’esistenza di tale asimmetria (nei valori degli odds ratio) richiede cautela
quando si confrontano odds ratio caratterizzati da segno diverso. Ad
esempio, un OR positivo pari a 2 ha esattamente la stessa intensità di un
OR “negativo” pari a 1/2=0,5
13
Cenni alle procedure di stima dei parametri
La stima del vettore dei parametri ignoti β è effettuata con il metodo della
massima verosimiglianza, che si basa sulla massimizzazione della probabilità
di osservare l’insieme dei dati relativi al campione estratto in funzione di β.
In termini estremamente semplici, si può affermare che la funzione di
verosimiglianza, rappresenta la probabilità di osservare prima
dell’esperimento, quel particolare campione che si è verificato.
Data l’indipendenza delle osservazioni, la verosimiglianza del campione di n
unità - indicata con il simbolo L(β) - è data dal prodotto delle verosimiglianze
relative alle unità che lo compongono e - una volta estratto il campione - è
funzione dei soli parametri β, come nell’espressione seguente:
n
L(β) = ∏ f ( yi | xi ; β)
i =1
Per ottenere la stima di massima verosimiglianza dei parametri, si determina il valore β che
massimizza L(β) (o verosimilmente il suo logaritmo considerata la monotonicità della funzione
logaritimica), ossia quel valore di β per cui il campione osservato è più plausibile.
Ponendo uguali a 0 le derivate parziali fatte rispetto ai k parametri da stimare si ottengono le
equazioni di verosimiglianza che - in quanto non lineari nei parametri - richiedono l’applicazione di
metodi iterativi (implementati nei più comuni pacchetti informatico-statistici).
14
Esempio di stima di odds ratio
Si ipotizzi di effettuare un’analisi di regressione logistica che modelli la
probabilità di progresso nella conoscenza dell’inglese (Y=1 Î progresso)
in funzione dell’esposizione ad un nuovo metodo di studio (X =1 Î
esposizione) ottenendo una stima del relativo parametro β pari a 2.
Tale risultato indica un effetto positivo dell’esposizione al nuovo metodo
sull’apprendimento della lingua straniera, che si traduce in una maggiore
probabilità di osservare un progresso nella conoscenza della lingua in caso
di esposizione al nuovo metodo.
Tale maggiore probabilità può essere meglio quantificata tramite la stima
dell’odds ratio corrispondente al passaggio dallo stato 0 allo stato 1 della
variabile X , data da exp(β) = exp(2) = 7,4
Dalla stima dell’OR si deduce che la frequenza relativa di coloro che hanno
progredito nella conoscenza della lingua è oltre 7 volte superiore nel
gruppo degli esposti al nuovo metodo rispetto al gruppo dei non esposti.
15
Inferenza nel modello di regressione logistica
Bontà del modello nel suo complesso
(1/4)
Per verificare la significatività di un modello nel suo complesso si calcola la differenza G - detta
extradevianza - tra la devianza del modello avente la sola intercetta e la devianza del modello in
esame, basata sul rapporto di verosimiglianza, secondo la seguente espressione
G = D(modello intercetta) − D (modello completo) = −2log
L(0)
L (β )
dove L(0) rappresenta la massima verosimiglianza in corrispondenza del modello con la
sola intercetta, mentre L(β) rappresenta la massima verosimiglianza in corrispondenza
del modello completo.
La verifica della bontà di un modello sulla base del rapporto di verosimiglianza (Likelihood Ratio,
LR) si fonda sull’idea che se le variabili considerate aggiungono molta informazione al modello con
la sola intercetta, la verosimiglianza relativa al modello completo L(β) sarà molto maggiore di quella
che si ottiene considerando il modello con la sola intercetta L(0). In tal caso il rapporto di
verosimiglianza tende ad assumere valori molto piccoli, anche prossimi allo zero.
16
Inferenza nel modello di regressione logistica
Bontà del modello nel suo complesso
(2/4)
Attraverso la statistica G, basata sul rapporto di verosimiglianza, si sottopone a verifica
il seguente sistema di ipotesi:
H0:
H1:
β2 = … = βk = 0
almeno un βj ≠ 0 dove j=2,…,k
Si può dimostrare che sotto ipotesi nulla G si distribuisce come una χ2 con k-1 gradi di libertà.
Pertanto si respinge l’ipotesi nulla se si verifica che:
G>χ
2
k −1,α 2
È desiderabile che il valore di G sia elevato
Î le variabili esplicative introducono una
quantità significativa di informazione rispetto
alla sola intercetta
17
Inferenza nel modello di regressione logistica
Bontà del modello nel suo complesso
(3/4)
Per la valutazione della bontà di adattamento del modello di regressione
logistica ai dati si può ricorrere ad una misura analoga al coefficiente di
determinazione multiplo.
multiplo Cox and Snell (1989) hanno proposto la seguente
generalizzazione del coefficiente di determinazione per modelli non lineari
chiamato Pseudo-R2
⎡ L(0) ⎤
R = 1− ⎢
⎥
L
(
β
)
⎣
⎦
2
g
2
n
dove L(0) e L(β) rappresentano rispettivamente la massima verosimiglianza in
corrispondenza del modello con la sola intercetta e la massima verosimiglianza in
corrispondenza del modello considerato, dove n è la numerosità delle osservazioni.
Il coefficiente di determinazione può variare tra 0, corrispondente alla situazione in cui il
modello considerato non aggiunge informazione al modello con la sola intercetta per cui
2n
vale L(β) = L(0) - e il suo valore massimo, che è: R2
= 1 − L(0)
g ,MAX
[
]
18
Inferenza nel modello di regressione logistica
Bontà del modello nel suo complesso
(4/4)
Poiché R2g,max è minore di 1, per poter disporre di una misura che
varia tra 0 e 1, dove zero rappresenta assenza di adattamento
e 1 adattamento massimo del modello ai dati (come già visto
per il modello di regressione lineare), si può far riferimento al
coefficiente riscalato (Nagelkerke, 19991):
2
g
R =
2
g
R
2
g , MAX
R
19
Inferenza nel modello di regressione logistica
Confronto tra due modelli comparabili
Una procedura analoga può essere utilizzata per confrontare i modelli annidati:
modello completo Î k-1 variabili esplicative
modello ridotto Î le ultime s variabili del modello completo sono escluse (totale
variabili: k-s-1).
Il sistema di ipotesi è pertanto il seguente:
H 0:
H 1:
βk-s+1 = βk-s+2 = … = βk = 0
almeno un’uguaglianza in H0 non è vera
Si calcola quindi l’extradevianza Gs che misura la differenza tra la devianza del
modello ridotto e quella del modello completo
Si può dimostrare che sotto ipotesi nulla Gs si distribuisce come una χ2 con s
gradi di libertà; pertanto si respinge l’ipotesi nulla se si verifica che:
Gs > χ
2
s ,α 2
20
Inferenza nel modello di regressione logistica
Significatività per ogni singolo parametro
Per verificare la significatività della stima bj del j-esimo parametro del modello
si fa ricorso generalmente al test di Wald, nel caso univariato dato da
bj
W=
s (b j )
Talvolta i pacchetti statistici, anziché
fornire la statistica W forniscono il suo
quadrato (Wald Chi-Square), che si
distribuisce come una χ2 con un grado
di libertà
stima
Errore standard
Sulla base dell’ipotesi nulla del seguente sistema di ipotesi:
H0: βj = 0
H1: βj ≠ 0
W si distribuisce come una distribuzione normale standardizzata
Se nell’effettuazione del test si verifica che W > zα
2
si respinge l’ipotesi nulla e si conclude che il parametro è significativamente
diverso da 0 Î la variabile esplicativa corrispondente influisce sulla variabile
risposta.
21
Stime di modelli di regressione logistica
1/7
Una ricerca di mercato si propone di stimare la probabilità di acquisto di un particolare snack
alimentare sulla base di un insieme di variabili esplicative raccolte attraverso un’indagine
campionaria che ha coinvolto 32 giovani di età compresa tra i 12 e i 29 anni.
La ricerca ha rilevato, insieme ad altre variabili di seguito illustrate, l’acquisto da parte del
rispondente di almeno una snack nel corso dell’ultimo mese. Nella codifica di tale variabile è
stato attribuito valore 1 nel caso in cui il rispondente ha dichiarato di avere acquistato almeno
uno snack nel corso dell’ultimo mese e 0 altrimenti. Questa variabile rappresenta la variabile
risposta del modello di regressione logistica che si intende stimare.
Le altre variabili rilevate sono le seguenti:
•
Numero medio mensile di snack consumati (n_pezzi_medio) calcolato sulla base
degli acquisti effettuati negli ultimi 6 mesi;
•
Età del rispondente;
•
Esposizione alla pubblicità relativa al prodotto in questione (tale variabile, di tipo
dummy, assume valore 1 nel caso in cui il rispondente dichiari di aver visto almeno
una volta alla televisione lo spot pubblicitario del prodotto in questione; 0 altrimenti);
22
Stime di modelli di regressione logistica
2/7
Dataset in Stata
(prime 20 unità)
23
Stime di modelli di regressione logistica
Iteration
Iteration
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
4:
5:
log
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
=
-20.59173
-13.496795
-12.929188
-12.889941
-12.889633
-12.889633
Logistic regression
Number of obs
LR chi2( 3)
Prob > chi2
Pseudo R2
Log likelihood = -12.889633
acquisto
Coef.
n_pezzi_me~o
etax
espos_pubb
_cons
2.826113
.0951577
2.378688
-13.02135
. logit
3/7
Std. Err.
z
1.262941
.1415542
1.064564
4.931325
2.24
0.67
2.23
-2.64
P>|z|
0.025
0.501
0.025
0.008
=
=
=
=
32
15.40
0.0015
0.3740
[95% Conf. Interval]
.3507938
-.1822835
.29218
-22.68657
5.301432
.3725988
4.465195
-3.35613
Iteration
Iteration
Iteration
Iteration
Iteration
Iteration
acquisto n_pezzi_medio etax espos_pubb,or
0:
1:
2:
3:
4:
5:
log
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
=
-20.59173
-13.496795
-12.929188
-12.889941
-12.889633
-12.889633
Logistic regression
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
Log likelihood = -12.889633
acquisto
Odds Ratio
n_pezzi_me~o
etax
espos_pubb
16.87972
1.099832
10.79073
Std. Err.
z
21.31809
.1556859
11.48743
2.24
0.67
2.23
P>|z|
0.025
0.501
0.025
=
=
=
=
32
15.40
0.0015
0.3740
[95% Conf. Interval]
1.420194
.8333651
1.339344
200.6239
1.451502
86.93802
24
Stime di modelli di regressione logistica
4/7
Dopo aver stimato il modello in Stata, è possibile calcolare per ogni osservazione
campionaria “la probabilità prevista” di avere un successo (corrispondente in questo
specifico caso, alla probabilità di acquistare lo snack), dati i valori assunti dalle variabili
indipendenti (la nuova variabile generata è chiamata pr_for). Come per ogni altra
variabile nel dataset, è possibile ottenere alcune misure di sintesi attraverso il comando
summarize.
. sum pr_for
Variable
Obs
Mean
Std. Dev.
pr_for
32
.34375
.3169032
Min
.0244704
Max
.9453403
E’ possibile allo stesso tempo (attraverso il comando prvalue) computare, sempre sulla
base della relazione stimata, la probabilità di avere un successo e quindi la
P(Y=1|x) quando le variabili indipendenti xi assumono particolari e specifici valori.
logit: Predictions for acquisto
Confidence intervals by delta method
Pr(y=1|x):
Pr(y=0|x):
x=
n_pezzi_me~o
3.1171875
0.1068
0.8932
etax
21.9375
95% Conf. Interval
[-0.0502,
0.2637]
[ 0.7363,
1.0502]
Probabilità di acquistare il
prodotto per un individuo
che non ha visto lo spot
pubblicitario
espos_pubb
0
25
Stime di modelli di regressione logistica
. prvalue, x (espos_pubb=1) rest(mean)
logit: Predictions for acquisto
Confidence intervals by delta method
Pr(y=1|x):
Pr(y=0|x):
x=
n_pezzi_me~o
3.1171875
0.5633
0.4367
etax
21.9375
5/7
Probabilità di acquistare il
prodotto per un individuo
che ha visto lo spot
pubblicitario
95% Conf. Interval
[ 0.2432,
0.8833]
[ 0.1167,
0.7568]
espos_pubb
1
26
Stime di modelli di regressione logistica
6/7
Riprendiamo l’esempio introdotto in aula informatica…
. xi: logit acq_ol redd eta sesso n_fam conness antivir i.istruz
i.istruz
_Iistruz_1-3
(naturally coded; _Iistruz_1 omitted)
Iteration
Iteration
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
4:
5:
log
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
=
Stima di un modello
Logit in Stata
-68.59298
-46.620777
-44.162084
-43.919393
-43.91555
-43.915549
Logistic regression
Number of obs
LR chi2(8)
Prob > chi2
Pseudo R2
Log likelihood = -43.915549
acq_ol
Coef.
redd
eta
sesso
n_fam
conness
antivir
_Iistruz_2
_Iistruz_3
_cons
.0001806
-.0959763
-.1888113
-.1618627
1.265137
.5097538
1.585548
1.781341
1.824165
Std. Err.
.0004077
.0250225
.5454956
.2778335
.642813
.5409597
.847488
.8269445
1.812384
z
0.44
-3.84
-0.35
-0.58
1.97
0.94
1.87
2.15
1.01
P>|z|
0.658
0.000
0.729
0.560
0.049
0.346
0.061
0.031
0.314
=
=
=
=
100
49.35
0.0000
0.3598
[95% Conf. Interval]
-.0006186
-.1450196
-1.257963
-.7064063
.0052466
-.5505076
-.0754981
.1605596
-1.728042
.0009797
-.0469331
.8803404
.3826809
2.525027
1.570015
3.246594
3.402122
5.376371
27
Stime di modelli di regressione logistica
7/7
Riprendiamo l’esempio introdotto in aula informatica…
. xi: logit acq_ol redd eta sesso n_fam conness antivir i.istruz, or
i.istruz
_Iistruz_1-3
(naturally coded; _Iistruz_1 omitted)
Iteration
Iteration
Iteration
Iteration
Iteration
Iteration
0:
1:
2:
3:
4:
5:
log
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
=
-68.59298
-46.620777
-44.162084
-43.919393
-43.91555
-43.915549
L’output del software
restituisce gli Odds
Ratio (OR)
Logistic regression
Number of obs
LR chi2(8)
Prob > chi2
Pseudo R2
Log likelihood = -43.915549
acq_ol
Odds Ratio
redd
eta
sesso
n_fam
conness
antivir
_Iistruz_2
_Iistruz_3
1.000181
.9084855
.8279427
.850558
3.543578
1.664881
4.881965
5.937814
Std. Err.
.0004078
.0227326
.4516391
.2363135
2.277858
.9006336
4.137407
4.910242
Stima di un modello
Logit in Stata
z
0.44
-3.84
-0.35
-0.58
1.97
0.94
1.87
2.15
=
=
=
=
100
49.35
0.0000
0.3598
P>|z|
[95% Conf. Interval]
0.658
0.000
0.729
0.560
0.049
0.346
0.061
0.031
.9993816
.8650053
.2842324
.4934142
1.00526
.576657
.9272815
1.174168
1.00098
.9541513
2.411721
1.46621
12.49124
4.806722
25.70264
30.02776
28
Scarica