Regressione Logistica: un Modello per Variabili

annuncio pubblicitario
Regressione Logistica: un Modello per
Variabili Risposta Categoriali
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
1 / 54
Introduzione
Premessa
I modelli di regressione hanno lo scopo di studiare le determinanti di variabili
risposta quantitative (continue)
Tuttavia è possibile costruire modelli di regressione anche per variabili
risposta categoriali e/o discrete
Il caso delle variabili discrete è particolarmente complesso
Nel caso delle variabili categoriali possiamo distinguere 3 casi:
1 Variabili risposta dicotomiche o binarie (del tipo 0 − 1, V-F, Sı̀-No, ecc.);
2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di
risposta ordinate);
3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno
3 categorie di risposta ordinate).
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
2 / 54
Introduzione
Premessa
I modelli di regressione hanno lo scopo di studiare le determinanti di variabili
risposta quantitative (continue)
Tuttavia è possibile costruire modelli di regressione anche per variabili
risposta categoriali e/o discrete
Il caso delle variabili discrete è particolarmente complesso
Nel caso delle variabili categoriali possiamo distinguere 3 casi:
1 Variabili risposta dicotomiche o binarie (del tipo 0 − 1, V-F, Sı̀-No, ecc.);
2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di
risposta ordinate);
3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno
3 categorie di risposta ordinate).
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
2 / 54
Introduzione
Premessa
I modelli di regressione hanno lo scopo di studiare le determinanti di variabili
risposta quantitative (continue)
Tuttavia è possibile costruire modelli di regressione anche per variabili
risposta categoriali e/o discrete
Il caso delle variabili discrete è particolarmente complesso
Nel caso delle variabili categoriali possiamo distinguere 3 casi:
1 Variabili risposta dicotomiche o binarie (del tipo 0 − 1, V-F, Sı̀-No, ecc.);
2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di
risposta ordinate);
3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno
3 categorie di risposta ordinate).
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
2 / 54
Introduzione
Premessa
I modelli di regressione hanno lo scopo di studiare le determinanti di variabili
risposta quantitative (continue)
Tuttavia è possibile costruire modelli di regressione anche per variabili
risposta categoriali e/o discrete
Il caso delle variabili discrete è particolarmente complesso
Nel caso delle variabili categoriali possiamo distinguere 3 casi:
1 Variabili risposta dicotomiche o binarie (del tipo 0 − 1, V-F, Sı̀-No, ecc.);
2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di
risposta ordinate);
3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno
3 categorie di risposta ordinate).
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
2 / 54
Introduzione
Premessa
I modelli di regressione hanno lo scopo di studiare le determinanti di variabili
risposta quantitative (continue)
Tuttavia è possibile costruire modelli di regressione anche per variabili
risposta categoriali e/o discrete
Il caso delle variabili discrete è particolarmente complesso
Nel caso delle variabili categoriali possiamo distinguere 3 casi:
1 Variabili risposta dicotomiche o binarie (del tipo 0 − 1, V-F, Sı̀-No, ecc.);
2 Variabili risposta politomiche o multinomiali ordinali (almeno 3 categorie di
risposta ordinate);
3 Variabili risposta politomiche o multinomiali non ordinali o nominali (almeno
3 categorie di risposta ordinate).
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
2 / 54
Regressione Logistica
Regressione Logistica
Si consideri una variabile risposta dicotomica Y . Essa prende valori 0 o 1
Solitamente si parla, rispettivamente, di fallimento e successo
Ricordiamo che la µ(Y ) = E (Y ) è pari alla proporzione di soggetti per i quali
si osserva il successo (Σ1/n)
Quindi i modelli di regressione logistica stimano le proporzioni dei successi in
una popolazione
Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per
ciascun soggetto della popolazione
Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c.
binomiale
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
3 / 54
Regressione Logistica
Regressione Logistica
Si consideri una variabile risposta dicotomica Y . Essa prende valori 0 o 1
Solitamente si parla, rispettivamente, di fallimento e successo
Ricordiamo che la µ(Y ) = E (Y ) è pari alla proporzione di soggetti per i quali
si osserva il successo (Σ1/n)
Quindi i modelli di regressione logistica stimano le proporzioni dei successi in
una popolazione
Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per
ciascun soggetto della popolazione
Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c.
binomiale
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
3 / 54
Regressione Logistica
Regressione Logistica
Si consideri una variabile risposta dicotomica Y . Essa prende valori 0 o 1
Solitamente si parla, rispettivamente, di fallimento e successo
Ricordiamo che la µ(Y ) = E (Y ) è pari alla proporzione di soggetti per i quali
si osserva il successo (Σ1/n)
Quindi i modelli di regressione logistica stimano le proporzioni dei successi in
una popolazione
Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per
ciascun soggetto della popolazione
Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c.
binomiale
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
3 / 54
Regressione Logistica
Regressione Logistica
Si consideri una variabile risposta dicotomica Y . Essa prende valori 0 o 1
Solitamente si parla, rispettivamente, di fallimento e successo
Ricordiamo che la µ(Y ) = E (Y ) è pari alla proporzione di soggetti per i quali
si osserva il successo (Σ1/n)
Quindi i modelli di regressione logistica stimano le proporzioni dei successi in
una popolazione
Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per
ciascun soggetto della popolazione
Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c.
binomiale
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
3 / 54
Regressione Logistica
Regressione Logistica
Si consideri una variabile risposta dicotomica Y . Essa prende valori 0 o 1
Solitamente si parla, rispettivamente, di fallimento e successo
Ricordiamo che la µ(Y ) = E (Y ) è pari alla proporzione di soggetti per i quali
si osserva il successo (Σ1/n)
Quindi i modelli di regressione logistica stimano le proporzioni dei successi in
una popolazione
Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per
ciascun soggetto della popolazione
Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c.
binomiale
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
3 / 54
Regressione Logistica
Regressione Logistica
Si consideri una variabile risposta dicotomica Y . Essa prende valori 0 o 1
Solitamente si parla, rispettivamente, di fallimento e successo
Ricordiamo che la µ(Y ) = E (Y ) è pari alla proporzione di soggetti per i quali
si osserva il successo (Σ1/n)
Quindi i modelli di regressione logistica stimano le proporzioni dei successi in
una popolazione
Ovviamente P(y = 1) rappresenta la probabilità di osservare un successo per
ciascun soggetto della popolazione
Nel caso di Y dicotomica, si assumerà che la sua distribuzione sia una v.c.
binomiale
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
3 / 54
Regressione Logistica
La distribuzione binomiale
Per dati categoriali, possono verificarsi le seguenti condizioni:
1 Ciascuna osservazione cade in una di due categorie
2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione.
Indichiamo le probabilità con π per la categoria 1 e (1 − π) per la categoria 2
3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per
una osservazione non dipende dal risultato delle altre osservazioni
Un buon esempio è rappresentato dal lancio di una moneta: due possibili
risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato
ad ogni lancio è indipendente dai precedenti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
4 / 54
Regressione Logistica
La distribuzione binomiale
Per dati categoriali, possono verificarsi le seguenti condizioni:
1 Ciascuna osservazione cade in una di due categorie
2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione.
Indichiamo le probabilità con π per la categoria 1 e (1 − π) per la categoria 2
3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per
una osservazione non dipende dal risultato delle altre osservazioni
Un buon esempio è rappresentato dal lancio di una moneta: due possibili
risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato
ad ogni lancio è indipendente dai precedenti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
4 / 54
Regressione Logistica
La distribuzione binomiale
Per dati categoriali, possono verificarsi le seguenti condizioni:
1 Ciascuna osservazione cade in una di due categorie
2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione.
Indichiamo le probabilità con π per la categoria 1 e (1 − π) per la categoria 2
3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per
una osservazione non dipende dal risultato delle altre osservazioni
Un buon esempio è rappresentato dal lancio di una moneta: due possibili
risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato
ad ogni lancio è indipendente dai precedenti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
4 / 54
Regressione Logistica
La distribuzione binomiale
Per dati categoriali, possono verificarsi le seguenti condizioni:
1 Ciascuna osservazione cade in una di due categorie
2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione.
Indichiamo le probabilità con π per la categoria 1 e (1 − π) per la categoria 2
3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per
una osservazione non dipende dal risultato delle altre osservazioni
Un buon esempio è rappresentato dal lancio di una moneta: due possibili
risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato
ad ogni lancio è indipendente dai precedenti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
4 / 54
Regressione Logistica
La distribuzione binomiale
Per dati categoriali, possono verificarsi le seguenti condizioni:
1 Ciascuna osservazione cade in una di due categorie
2 Le probabilità per le due categorie sono le stesse per ciascuna osservazione.
Indichiamo le probabilità con π per la categoria 1 e (1 − π) per la categoria 2
3 I risultati di osservazioni successive sono indipendenti. Cioè, il risultato per
una osservazione non dipende dal risultato delle altre osservazioni
Un buon esempio è rappresentato dal lancio di una moneta: due possibili
risultati (T o C), probabilità costante ad ogni lancio (π = 0.50) e il risultato
ad ogni lancio è indipendente dai precedenti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
4 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Definizione:
Probabilità per una Distribuzione Binomiale
Sia π la probabilità che un’osservazione assuma un valore della categoria 1. Nel caso di n osservazioni indipendenti, la probabilità di x
successi per la categoria 1 è
P(x) =
n!
π x (1 − π)n−x ,
x!(n − x)!
x = 0, 1, 2, . . . , n.
Il simbolo n! è chiamato n fattoriale. Rappresenta n! = 1 × 2 ×
3 · · · × n. Ad esempio, 1! = 1, 2! = 1 × 2 = 2, 3! = 1 × 2 × 3 = 6,
e cosı̀ via. Per definizione, 0! è pari a 1.
Sostituendo ad x il valore del numero di successi desiderato per n e π fissati,
si avrà la P(x), cioè la probabilità di avere x successi in n lanci della moneta
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
5 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Proprietà di una distribuzione binomiale
La distribuzione binomiale tende alla simmetria per π → 0.50 ed è
perfettamente simmetrica quando π = 0.50 con
p
µ = nπ, σ = nπ(1 − π).
Ciò vale anche per la distribuzione campionaria di π̂
Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma
molto più lentamente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
6 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Proprietà di una distribuzione binomiale
La distribuzione binomiale tende alla simmetria per π → 0.50 ed è
perfettamente simmetrica quando π = 0.50 con
p
µ = nπ, σ = nπ(1 − π).
Ciò vale anche per la distribuzione campionaria di π̂
Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma
molto più lentamente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
6 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Proprietà di una distribuzione binomiale
La distribuzione binomiale tende alla simmetria per π → 0.50 ed è
perfettamente simmetrica quando π = 0.50 con
p
µ = nπ, σ = nπ(1 − π).
Ciò vale anche per la distribuzione campionaria di π̂
Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma
molto più lentamente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
6 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Proprietà di una distribuzione binomiale
La distribuzione binomiale tende alla simmetria per π → 0.50 ed è
perfettamente simmetrica quando π = 0.50 con
p
µ = nπ, σ = nπ(1 − π).
Ciò vale anche per la distribuzione campionaria di π̂
Inoltre tale comportamento si ha anche per valori di π vicini a 0 o a 1, ma
molto più lentamente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
6 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Distribuzione campionaria di π̂ per vari valori di π e n
n 5 10
Probability
Probability
p 5 .5
p 5 .1
p̂
p̂
0
.5
1.0
0
p 5 .5
1.0
p 5 .5
1.0
p 5 .5
1.0
p 5 .1
n 5 50
Probability
Probability
p 5 .5
p 5 .1
p̂
.5
0
p̂
1.0
0
p 5 .1
n 5 100
Probability
Probability
p 5 .5
p 5 .1
p̂
.5
0
1.0
p̂
0
p 5 .1
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
7 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Distribuzione campionaria di π̂ per vari valori di π e n
n 5 10
Probability
Probability
p 5 .5
p 5 .1
p̂
p̂
0
.5
1.0
0
p 5 .5
1.0
p 5 .5
1.0
p 5 .5
1.0
p 5 .1
n 5 50
Probability
Probability
p 5 .5
p 5 .1
p̂
.5
0
p̂
1.0
0
p 5 .1
n 5 100
Probability
Probability
p 5 .5
p 5 .1
p̂
.5
0
1.0
p̂
0
p 5 .1
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
7 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Esempio 6.10 — Genere e scelta degli allievi per il corso di
management
Nell’Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti
per metà M e metà F
Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità
di scegliere una F
La probabilità di avere x F scegliendo n = 10 dipendenti è
P(x) =
Nicola Tedesco (Statistica Sociale)
10!
(0.50)x (0.50)10−x ,
x!(10 − x)!
x = 0, 1, . . . , 10.
Regressione Logistica: un Modello per Variabili Risposta Categoriali
8 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Esempio 6.10 — Genere e scelta degli allievi per il corso di
management
Nell’Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti
per metà M e metà F
Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità
di scegliere una F
La probabilità di avere x F scegliendo n = 10 dipendenti è
P(x) =
Nicola Tedesco (Statistica Sociale)
10!
(0.50)x (0.50)10−x ,
x!(10 − x)!
x = 0, 1, . . . , 10.
Regressione Logistica: un Modello per Variabili Risposta Categoriali
8 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Esempio 6.10 — Genere e scelta degli allievi per il corso di
management
Nell’Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti
per metà M e metà F
Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità
di scegliere una F
La probabilità di avere x F scegliendo n = 10 dipendenti è
P(x) =
Nicola Tedesco (Statistica Sociale)
10!
(0.50)x (0.50)10−x ,
x!(10 − x)!
x = 0, 1, . . . , 10.
Regressione Logistica: un Modello per Variabili Risposta Categoriali
8 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Esempio 6.10 — Genere e scelta degli allievi per il corso di
management
Nell’Esempio 6.1 avevamo trattato il caso di una popolazione di dipendenti
per metà M e metà F
Scelti a caso n = 10 dipendenti, sia x il numero di F e π = 0.50 la probabilità
di scegliere una F
La probabilità di avere x F scegliendo n = 10 dipendenti è
P(x) =
Nicola Tedesco (Statistica Sociale)
10!
(0.50)x (0.50)10−x ,
x!(10 − x)!
x = 0, 1, . . . , 10.
Regressione Logistica: un Modello per Variabili Risposta Categoriali
8 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Ad esempio, la probabilità di non avere nessuna F (x = 0) è
P(0) =
10!
(0.50)0 (0.50)10 = (0.50)10 = 0.001.
0!10!
La probabilità che sia scelta esattamente una femmina è pari a
P(1) =
Nicola Tedesco (Statistica Sociale)
10!
(0.50)1 (0.50)9 = 10(0.50)(0.50)9 = 0.010.
1!9!
Regressione Logistica: un Modello per Variabili Risposta Categoriali
9 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Ad esempio, la probabilità di non avere nessuna F (x = 0) è
P(0) =
10!
(0.50)0 (0.50)10 = (0.50)10 = 0.001.
0!10!
La probabilità che sia scelta esattamente una femmina è pari a
P(1) =
Nicola Tedesco (Statistica Sociale)
10!
(0.50)1 (0.50)9 = 10(0.50)(0.50)9 = 0.010.
1!9!
Regressione Logistica: un Modello per Variabili Risposta Categoriali
9 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Modello a Probabilità Lineare
Nel caso di un modello con una sola variabile esplicativa (che sarà continua)
avremo
P(y = 1) = α + βx
In questo caso si suppone che la probabilità di successo sia in funzione lineare
con X
Per questa ragione prende il nome di Modello a Probabilità Lineare
Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la
P(y = 1)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
10 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Modello a Probabilità Lineare
Nel caso di un modello con una sola variabile esplicativa (che sarà continua)
avremo
P(y = 1) = α + βx
In questo caso si suppone che la probabilità di successo sia in funzione lineare
con X
Per questa ragione prende il nome di Modello a Probabilità Lineare
Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la
P(y = 1)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
10 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Modello a Probabilità Lineare
Nel caso di un modello con una sola variabile esplicativa (che sarà continua)
avremo
P(y = 1) = α + βx
In questo caso si suppone che la probabilità di successo sia in funzione lineare
con X
Per questa ragione prende il nome di Modello a Probabilità Lineare
Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la
P(y = 1)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
10 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Modello a Probabilità Lineare
Nel caso di un modello con una sola variabile esplicativa (che sarà continua)
avremo
P(y = 1) = α + βx
In questo caso si suppone che la probabilità di successo sia in funzione lineare
con X
Per questa ragione prende il nome di Modello a Probabilità Lineare
Tuttavia è facile mostrare come tale modello sia inadeguato per prevedere la
P(y = 1)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
10 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Sappiamo che la P(y = 1) è un valore dell’intevallo [0, 1] e non eccede tale
intervallo
La figura mostra che il Modello a Probabilità Lineare non rispetta questa
condizione
P(y 5 1)
1
Logistic (1)
Linear
Logistic (2)
x
0
Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo
A questo punto il problema è: come faccio a linearizzare una funzione
logistica?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
11 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Sappiamo che la P(y = 1) è un valore dell’intevallo [0, 1] e non eccede tale
intervallo
La figura mostra che il Modello a Probabilità Lineare non rispetta questa
condizione
P(y 5 1)
1
Logistic (1)
Linear
Logistic (2)
x
0
Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo
A questo punto il problema è: come faccio a linearizzare una funzione
logistica?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
11 / 54
Regressione Logistica
Proprietà di una distribuzione binomiale
Sappiamo che la P(y = 1) è un valore dell’intevallo [0, 1] e non eccede tale
intervallo
La figura mostra che il Modello a Probabilità Lineare non rispetta questa
condizione
P(y 5 1)
1
Logistic (1)
Linear
Logistic (2)
x
0
Al contrario, la funzione logistica (casi 1 e 2), si dimostra adatta allo scopo
A questo punto il problema è: come faccio a linearizzare una funzione
logistica?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
11 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il Modello di Regressione Logistica per Risposte Binarie
In primo luogo scriviamo l’equazione di regressione di Y su X , utilizzando la
funzione logistica
e α+βx
P(y = 1) =
.
1 + e α+βx
In seguito riprenderemo questa formulazione. Per ora ci basti osservare come
la relazione tra Y e X non sia lineare, bensı̀ logistica
Per semplificare la notazione e ottenere risultati più semplici, linearizziamo
questa espressione
Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri
dell’equazione e otteniamo
log [P(y = 1)] = log (e α+βx ) − log (1 + e α+βx ) =
= log (e α+βx ) − 0 − log (e α+βx ) = 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
12 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il Modello di Regressione Logistica per Risposte Binarie
In primo luogo scriviamo l’equazione di regressione di Y su X , utilizzando la
funzione logistica
e α+βx
P(y = 1) =
.
1 + e α+βx
In seguito riprenderemo questa formulazione. Per ora ci basti osservare come
la relazione tra Y e X non sia lineare, bensı̀ logistica
Per semplificare la notazione e ottenere risultati più semplici, linearizziamo
questa espressione
Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri
dell’equazione e otteniamo
log [P(y = 1)] = log (e α+βx ) − log (1 + e α+βx ) =
= log (e α+βx ) − 0 − log (e α+βx ) = 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
12 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il Modello di Regressione Logistica per Risposte Binarie
In primo luogo scriviamo l’equazione di regressione di Y su X , utilizzando la
funzione logistica
e α+βx
P(y = 1) =
.
1 + e α+βx
In seguito riprenderemo questa formulazione. Per ora ci basti osservare come
la relazione tra Y e X non sia lineare, bensı̀ logistica
Per semplificare la notazione e ottenere risultati più semplici, linearizziamo
questa espressione
Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri
dell’equazione e otteniamo
log [P(y = 1)] = log (e α+βx ) − log (1 + e α+βx ) =
= log (e α+βx ) − 0 − log (e α+βx ) = 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
12 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il Modello di Regressione Logistica per Risposte Binarie
In primo luogo scriviamo l’equazione di regressione di Y su X , utilizzando la
funzione logistica
e α+βx
P(y = 1) =
.
1 + e α+βx
In seguito riprenderemo questa formulazione. Per ora ci basti osservare come
la relazione tra Y e X non sia lineare, bensı̀ logistica
Per semplificare la notazione e ottenere risultati più semplici, linearizziamo
questa espressione
Il modo più semplice è passare al logaritmo naturale (base e) ambo i membri
dell’equazione e otteniamo
log [P(y = 1)] = log (e α+βx ) − log (1 + e α+βx ) =
= log (e α+βx ) − 0 − log (e α+βx ) = 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
12 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo
e la probabilità di insuccesso e lo si passa al logaritmo
P(y = 1)
= α + βx.
log
1 − P(y = 1)
Il rapporto di probabilità P(y = 1)/[1 − P(y = 1)] è definito odds o rapporto
tra quote
Ad es., se P(y = 1) = 0.75, l’odds vale 0.75/0.25 = 3.0, cioè la probabilità
del successo è 3 volte il valore di quella dell’insuccesso
La quantità log [P(y = 1)/(1 − P(y = 1))] trasformazione logistica o logit
In tal modo si avrà il modello di regressione logistica
logit[P(y = 1)] = α + βx.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
13 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo
e la probabilità di insuccesso e lo si passa al logaritmo
P(y = 1)
= α + βx.
log
1 − P(y = 1)
Il rapporto di probabilità P(y = 1)/[1 − P(y = 1)] è definito odds o rapporto
tra quote
Ad es., se P(y = 1) = 0.75, l’odds vale 0.75/0.25 = 3.0, cioè la probabilità
del successo è 3 volte il valore di quella dell’insuccesso
La quantità log [P(y = 1)/(1 − P(y = 1))] trasformazione logistica o logit
In tal modo si avrà il modello di regressione logistica
logit[P(y = 1)] = α + βx.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
13 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo
e la probabilità di insuccesso e lo si passa al logaritmo
P(y = 1)
= α + βx.
log
1 − P(y = 1)
Il rapporto di probabilità P(y = 1)/[1 − P(y = 1)] è definito odds o rapporto
tra quote
Ad es., se P(y = 1) = 0.75, l’odds vale 0.75/0.25 = 3.0, cioè la probabilità
del successo è 3 volte il valore di quella dell’insuccesso
La quantità log [P(y = 1)/(1 − P(y = 1))] trasformazione logistica o logit
In tal modo si avrà il modello di regressione logistica
logit[P(y = 1)] = α + βx.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
13 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo
e la probabilità di insuccesso e lo si passa al logaritmo
P(y = 1)
= α + βx.
log
1 − P(y = 1)
Il rapporto di probabilità P(y = 1)/[1 − P(y = 1)] è definito odds o rapporto
tra quote
Ad es., se P(y = 1) = 0.75, l’odds vale 0.75/0.25 = 3.0, cioè la probabilità
del successo è 3 volte il valore di quella dell’insuccesso
La quantità log [P(y = 1)/(1 − P(y = 1))] trasformazione logistica o logit
In tal modo si avrà il modello di regressione logistica
logit[P(y = 1)] = α + βx.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
13 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Per risolvere il problema, si costruisce il rapporto tra la probabilità di successo
e la probabilità di insuccesso e lo si passa al logaritmo
P(y = 1)
= α + βx.
log
1 − P(y = 1)
Il rapporto di probabilità P(y = 1)/[1 − P(y = 1)] è definito odds o rapporto
tra quote
Ad es., se P(y = 1) = 0.75, l’odds vale 0.75/0.25 = 3.0, cioè la probabilità
del successo è 3 volte il valore di quella dell’insuccesso
La quantità log [P(y = 1)/(1 − P(y = 1))] trasformazione logistica o logit
In tal modo si avrà il modello di regressione logistica
logit[P(y = 1)] = α + βx.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
13 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Il logit[P(y = 1)] varia linearmente in funzione di X oltre l’intervallo [0, 1],
mentre la [P(y = 1)] varia seguendo la funzione logistica entro l’intervallo
[0, 1]
Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al
crescere di X
Nelle due curve del grafico, la (2) ha un |β| più grande di quello della curva
(1)
P( y 5 1)
1
Logistic (1)
Linear
Logistic (2)
0
Nicola Tedesco (Statistica Sociale)
x
Regressione Logistica: un Modello per Variabili Risposta Categoriali
14 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Il logit[P(y = 1)] varia linearmente in funzione di X oltre l’intervallo [0, 1],
mentre la [P(y = 1)] varia seguendo la funzione logistica entro l’intervallo
[0, 1]
Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al
crescere di X
Nelle due curve del grafico, la (2) ha un |β| più grande di quello della curva
(1)
P( y 5 1)
1
Logistic (1)
Linear
Logistic (2)
0
Nicola Tedesco (Statistica Sociale)
x
Regressione Logistica: un Modello per Variabili Risposta Categoriali
14 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Il logit[P(y = 1)] varia linearmente in funzione di X oltre l’intervallo [0, 1],
mentre la [P(y = 1)] varia seguendo la funzione logistica entro l’intervallo
[0, 1]
Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al
crescere di X
Nelle due curve del grafico, la (2) ha un |β| più grande di quello della curva
(1)
P( y 5 1)
1
Logistic (1)
Linear
Logistic (2)
0
Nicola Tedesco (Statistica Sociale)
x
Regressione Logistica: un Modello per Variabili Risposta Categoriali
14 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Quando P(y = 1) = 0.50, l’odds P(y = 1)/[1 − P(y = 1)] = 1,
conseguentemente il log[P(y = 1)/(1 − P(y = 1))] = 0
Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il
log(odds) pari a 0 al secondo membro dell’equazione del modello α + βx
Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = −α/β
In questo modo siamo in grado di determinare il valore di X per il quale la
probabilità di successo eguaglia quella di insuccesso
Le stime dei parametri α e β sono ottenute applicando il Metodo della
Massima Verosimiglianza e non quello dei Minimi Quadrati
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
15 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Quando P(y = 1) = 0.50, l’odds P(y = 1)/[1 − P(y = 1)] = 1,
conseguentemente il log[P(y = 1)/(1 − P(y = 1))] = 0
Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il
log(odds) pari a 0 al secondo membro dell’equazione del modello α + βx
Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = −α/β
In questo modo siamo in grado di determinare il valore di X per il quale la
probabilità di successo eguaglia quella di insuccesso
Le stime dei parametri α e β sono ottenute applicando il Metodo della
Massima Verosimiglianza e non quello dei Minimi Quadrati
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
15 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Quando P(y = 1) = 0.50, l’odds P(y = 1)/[1 − P(y = 1)] = 1,
conseguentemente il log[P(y = 1)/(1 − P(y = 1))] = 0
Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il
log(odds) pari a 0 al secondo membro dell’equazione del modello α + βx
Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = −α/β
In questo modo siamo in grado di determinare il valore di X per il quale la
probabilità di successo eguaglia quella di insuccesso
Le stime dei parametri α e β sono ottenute applicando il Metodo della
Massima Verosimiglianza e non quello dei Minimi Quadrati
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
15 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Quando P(y = 1) = 0.50, l’odds P(y = 1)/[1 − P(y = 1)] = 1,
conseguentemente il log[P(y = 1)/(1 − P(y = 1))] = 0
Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il
log(odds) pari a 0 al secondo membro dell’equazione del modello α + βx
Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = −α/β
In questo modo siamo in grado di determinare il valore di X per il quale la
probabilità di successo eguaglia quella di insuccesso
Le stime dei parametri α e β sono ottenute applicando il Metodo della
Massima Verosimiglianza e non quello dei Minimi Quadrati
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
15 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Interpretazione del parametro β
Quando P(y = 1) = 0.50, l’odds P(y = 1)/[1 − P(y = 1)] = 1,
conseguentemente il log[P(y = 1)/(1 − P(y = 1))] = 0
Per determinare il valore di x per il quale P(y = 1) = 0.50, eguagliamo il
log(odds) pari a 0 al secondo membro dell’equazione del modello α + βx
Risolvendo per x otteniamo P(y = 1) = 0.50 quando x = −α/β
In questo modo siamo in grado di determinare il valore di X per il quale la
probabilità di successo eguaglia quella di insuccesso
Le stime dei parametri α e β sono ottenute applicando il Metodo della
Massima Verosimiglianza e non quello dei Minimi Quadrati
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
15 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Esempio 15.1 — Reddito e Possesso delle Carte di Credito
Si consideri un campione di n = 100 adulti selezionati casualmente in Italia.
Si è rilevato il reddito annuale e se possedevano o meno una carta di credito
La variabile risposta è dicotomica (possesso CC: 1 = Sı̀, 0 = No). Il
predittore è quantitativo
A ciascun livello di X , si può calcolare la probabilità di possedere una CC,
attraverso il rapporto tra i soggetti che posseggono una CC e il totale
soggetti per quel valore di X
Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito.
Income
12
13
14
15
16
17
19
20
Number
Cases
1
1
8
14
9
8
5
7
Credit
Cards
0
0
2
2
0
2
1
0
Income
21
22
24
25
26
29
30
32
Number
Cases
2
1
2
10
1
1
5
6
Credit
Cards
0
1
0
2
0
0
2
6
Income
34
35
39
40
42
47
60
65
Number
Cases
3
5
1
1
1
1
6
1
Credit
Cards
3
3
0
0
0
0
6
1
Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
16 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Esempio 15.1 — Reddito e Possesso delle Carte di Credito
Si consideri un campione di n = 100 adulti selezionati casualmente in Italia.
Si è rilevato il reddito annuale e se possedevano o meno una carta di credito
La variabile risposta è dicotomica (possesso CC: 1 = Sı̀, 0 = No). Il
predittore è quantitativo
A ciascun livello di X , si può calcolare la probabilità di possedere una CC,
attraverso il rapporto tra i soggetti che posseggono una CC e il totale
soggetti per quel valore di X
Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito.
Income
12
13
14
15
16
17
19
20
Number
Cases
1
1
8
14
9
8
5
7
Credit
Cards
0
0
2
2
0
2
1
0
Income
21
22
24
25
26
29
30
32
Number
Cases
2
1
2
10
1
1
5
6
Credit
Cards
0
1
0
2
0
0
2
6
Income
34
35
39
40
42
47
60
65
Number
Cases
3
5
1
1
1
1
6
1
Credit
Cards
3
3
0
0
0
0
6
1
Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
16 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Esempio 15.1 — Reddito e Possesso delle Carte di Credito
Si consideri un campione di n = 100 adulti selezionati casualmente in Italia.
Si è rilevato il reddito annuale e se possedevano o meno una carta di credito
La variabile risposta è dicotomica (possesso CC: 1 = Sı̀, 0 = No). Il
predittore è quantitativo
A ciascun livello di X , si può calcolare la probabilità di possedere una CC,
attraverso il rapporto tra i soggetti che posseggono una CC e il totale
soggetti per quel valore di X
Tabella: Reddito Annuale (in Migliaia di Euro) e Possesso di una Carta di Credito.
Income
12
13
14
15
16
17
19
20
Number
Cases
1
1
8
14
9
8
5
7
Credit
Cards
0
0
2
2
0
2
1
0
Income
21
22
24
25
26
29
30
32
Number
Cases
2
1
2
10
1
1
5
6
Credit
Cards
0
1
0
2
0
0
2
6
Income
34
35
39
40
42
47
60
65
Number
Cases
3
5
1
1
1
1
6
1
Credit
Cards
3
3
0
0
0
0
6
1
Fonte: Si ringrazia R. Piccarreta, Università Bocconi University, Milano.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
16 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il modello stimato è
logit[P̂(y = 1)] = −3.518 + 0.105x.
Il valore di β = 0.105 > 0, indica che al crescere del Reddito Annuale cresce
la probabilità di possedere una CC
Il software fornisce il seguente prospetto
Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia
reddito
costante
B
.1054
-3.5179
S.E.
.0262
.7103
Exp(B)
1.111
Il valore exp(B) = exp(.1054) = 1.111 consente di calcolare l’odds ratio (OR)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
17 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il modello stimato è
logit[P̂(y = 1)] = −3.518 + 0.105x.
Il valore di β = 0.105 > 0, indica che al crescere del Reddito Annuale cresce
la probabilità di possedere una CC
Il software fornisce il seguente prospetto
Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia
reddito
costante
B
.1054
-3.5179
S.E.
.0262
.7103
Exp(B)
1.111
Il valore exp(B) = exp(.1054) = 1.111 consente di calcolare l’odds ratio (OR)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
17 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il modello stimato è
logit[P̂(y = 1)] = −3.518 + 0.105x.
Il valore di β = 0.105 > 0, indica che al crescere del Reddito Annuale cresce
la probabilità di possedere una CC
Il software fornisce il seguente prospetto
Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia
reddito
costante
B
.1054
-3.5179
S.E.
.0262
.7103
Exp(B)
1.111
Il valore exp(B) = exp(.1054) = 1.111 consente di calcolare l’odds ratio (OR)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
17 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il modello stimato è
logit[P̂(y = 1)] = −3.518 + 0.105x.
Il valore di β = 0.105 > 0, indica che al crescere del Reddito Annuale cresce
la probabilità di possedere una CC
Il software fornisce il seguente prospetto
Tabella: Modello di Regressione Logistica sul Possesso della Carta di Credito in Italia
reddito
costante
B
.1054
-3.5179
S.E.
.0262
.7103
Exp(B)
1.111
Il valore exp(B) = exp(.1054) = 1.111 consente di calcolare l’odds ratio (OR)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
17 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il grafico mostra la funzione di previsione per il logit
1
ˆ 5 1)
P(y
0
Income
0
12
24
36
48
60
72
La probabilità di successo vale 0.50 per x = −α̂/β̂ = (3.518)/(0.105) = 33.5
Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi
inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella
soglia
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
18 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il grafico mostra la funzione di previsione per il logit
1
ˆ 5 1)
P(y
0
Income
0
12
24
36
48
60
72
La probabilità di successo vale 0.50 per x = −α̂/β̂ = (3.518)/(0.105) = 33.5
Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi
inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella
soglia
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
18 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il grafico mostra la funzione di previsione per il logit
1
ˆ 5 1)
P(y
0
Income
0
12
24
36
48
60
72
La probabilità di successo vale 0.50 per x = −α̂/β̂ = (3.518)/(0.105) = 33.5
Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi
inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella
soglia
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
18 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Il grafico mostra la funzione di previsione per il logit
1
ˆ 5 1)
P(y
0
Income
0
12
24
36
48
60
72
La probabilità di successo vale 0.50 per x = −α̂/β̂ = (3.518)/(0.105) = 33.5
Cioè la probabilità stimata di possedere una CC è inferiore a 0.50 per redditi
inferiori a 33.5 migliaia di euro, superiore a 0.50 per redditi superiori a quella
soglia
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
18 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Equazione di Regressione Logistica per le Probabilità
Abbiamo visto a cosa corrisponde direttamente la P(y = 1)
Si può, quindi, costruire un’equazione che stimi direttamente tale probabilità
e non il suo logit, cioè
P(y = 1) =
e α+βx
.
1 + e α+βx
(1)
In questa equazione la potenza di e rappresenta l’antilogaritmo
Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo
naturale, cioè il numero a cui bisogna elevare la base per avere l’argomento.
Ad es.,
loge (1) = 0 in quanto e 0 = 1
Attraverso la formula (1) è possibile determinare la probabilità di successo
per qualunque valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
19 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Equazione di Regressione Logistica per le Probabilità
Abbiamo visto a cosa corrisponde direttamente la P(y = 1)
Si può, quindi, costruire un’equazione che stimi direttamente tale probabilità
e non il suo logit, cioè
P(y = 1) =
e α+βx
.
1 + e α+βx
(1)
In questa equazione la potenza di e rappresenta l’antilogaritmo
Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo
naturale, cioè il numero a cui bisogna elevare la base per avere l’argomento.
Ad es.,
loge (1) = 0 in quanto e 0 = 1
Attraverso la formula (1) è possibile determinare la probabilità di successo
per qualunque valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
19 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Equazione di Regressione Logistica per le Probabilità
Abbiamo visto a cosa corrisponde direttamente la P(y = 1)
Si può, quindi, costruire un’equazione che stimi direttamente tale probabilità
e non il suo logit, cioè
P(y = 1) =
e α+βx
.
1 + e α+βx
(1)
In questa equazione la potenza di e rappresenta l’antilogaritmo
Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo
naturale, cioè il numero a cui bisogna elevare la base per avere l’argomento.
Ad es.,
loge (1) = 0 in quanto e 0 = 1
Attraverso la formula (1) è possibile determinare la probabilità di successo
per qualunque valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
19 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Equazione di Regressione Logistica per le Probabilità
Abbiamo visto a cosa corrisponde direttamente la P(y = 1)
Si può, quindi, costruire un’equazione che stimi direttamente tale probabilità
e non il suo logit, cioè
P(y = 1) =
e α+βx
.
1 + e α+βx
(1)
In questa equazione la potenza di e rappresenta l’antilogaritmo
Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo
naturale, cioè il numero a cui bisogna elevare la base per avere l’argomento.
Ad es.,
loge (1) = 0 in quanto e 0 = 1
Attraverso la formula (1) è possibile determinare la probabilità di successo
per qualunque valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
19 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Equazione di Regressione Logistica per le Probabilità
Abbiamo visto a cosa corrisponde direttamente la P(y = 1)
Si può, quindi, costruire un’equazione che stimi direttamente tale probabilità
e non il suo logit, cioè
P(y = 1) =
e α+βx
.
1 + e α+βx
(1)
In questa equazione la potenza di e rappresenta l’antilogaritmo
Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo
naturale, cioè il numero a cui bisogna elevare la base per avere l’argomento.
Ad es.,
loge (1) = 0 in quanto e 0 = 1
Attraverso la formula (1) è possibile determinare la probabilità di successo
per qualunque valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
19 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Equazione di Regressione Logistica per le Probabilità
Abbiamo visto a cosa corrisponde direttamente la P(y = 1)
Si può, quindi, costruire un’equazione che stimi direttamente tale probabilità
e non il suo logit, cioè
P(y = 1) =
e α+βx
.
1 + e α+βx
(1)
In questa equazione la potenza di e rappresenta l’antilogaritmo
Ricordiamo che il numero di Nepero e rappresenta la base del logaritmo
naturale, cioè il numero a cui bisogna elevare la base per avere l’argomento.
Ad es.,
loge (1) = 0 in quanto e 0 = 1
Attraverso la formula (1) è possibile determinare la probabilità di successo
per qualunque valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
19 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo
P̂(y = 1) =
e −3.52+0.105(12)
e −2.26
0.104
=
=
= 0.094.
−2.26
−3.52+0.105(12)
1+e
1.104
1+e
La probabilità stimata di possedere una CC è 0.094
Per redditi pari a x = 40 e x = 65 avremo, rispettivamente
P̂(y = 1) =
e −3.52+0.105(40)
e 0.68
1.974
=
=
= 0.664.
−3.52+0.105(40)
1 + e 0.68
2.974
1+e
P̂(y = 1) =
e −3.52+0.105(65)
e 3.30
27.249
=
=
= 0.970.
3.30
−3.52+0.105(65)
1+e
28.249
1+e
In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC
pari a 0.664
Per chi ha un reddito pari a x = 65, tale probabilità è 0.970
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
20 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo
P̂(y = 1) =
e −3.52+0.105(12)
e −2.26
0.104
=
=
= 0.094.
−2.26
−3.52+0.105(12)
1+e
1.104
1+e
La probabilità stimata di possedere una CC è 0.094
Per redditi pari a x = 40 e x = 65 avremo, rispettivamente
P̂(y = 1) =
e −3.52+0.105(40)
e 0.68
1.974
=
=
= 0.664.
−3.52+0.105(40)
1 + e 0.68
2.974
1+e
P̂(y = 1) =
e −3.52+0.105(65)
e 3.30
27.249
=
=
= 0.970.
3.30
−3.52+0.105(65)
1+e
28.249
1+e
In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC
pari a 0.664
Per chi ha un reddito pari a x = 65, tale probabilità è 0.970
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
20 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo
P̂(y = 1) =
e −3.52+0.105(12)
e −2.26
0.104
=
=
= 0.094.
−2.26
−3.52+0.105(12)
1+e
1.104
1+e
La probabilità stimata di possedere una CC è 0.094
Per redditi pari a x = 40 e x = 65 avremo, rispettivamente
P̂(y = 1) =
e −3.52+0.105(40)
e 0.68
1.974
=
=
= 0.664.
−3.52+0.105(40)
1 + e 0.68
2.974
1+e
P̂(y = 1) =
e −3.52+0.105(65)
e 3.30
27.249
=
=
= 0.970.
3.30
−3.52+0.105(65)
1+e
28.249
1+e
In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC
pari a 0.664
Per chi ha un reddito pari a x = 65, tale probabilità è 0.970
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
20 / 54
Regressione Logistica
Il Modello di Regressione Logistica per Risposte Binarie
Nel nostro caso, per un soggetto con Reddito Annuale x = 12 avremo
P̂(y = 1) =
e −3.52+0.105(12)
e −2.26
0.104
=
=
= 0.094.
−2.26
−3.52+0.105(12)
1+e
1.104
1+e
La probabilità stimata di possedere una CC è 0.094
Per redditi pari a x = 40 e x = 65 avremo, rispettivamente
P̂(y = 1) =
e −3.52+0.105(40)
e 0.68
1.974
=
=
= 0.664.
−3.52+0.105(40)
1 + e 0.68
2.974
1+e
P̂(y = 1) =
e −3.52+0.105(65)
e 3.30
27.249
=
=
= 0.970.
3.30
−3.52+0.105(65)
1+e
28.249
1+e
In pratica chi ha un reddito di x = 40 ha una probabilità di possedere una CC
pari a 0.664
Per chi ha un reddito pari a x = 65, tale probabilità è 0.970
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
20 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione del Modello di Regressione Logistica
L’interpretazione di β non è semplice. Presenteremo due approcci distinti
Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un
decremento β < 0 nella P(Y = 1), all’aumentare di x
Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1)
Tale difficoltà deriva dalla particolare forma a S della funzione logistica
Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel
Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è
adeguato
Un’adeguata interpretazione di β si ottiene sfruttando il concetto di tangente
della funzione logistica. Infatti solo in questo modo siamo in grado di capire
di quanto cresce/descesce la P(Y = 1) per ogni valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
21 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione del Modello di Regressione Logistica
L’interpretazione di β non è semplice. Presenteremo due approcci distinti
Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un
decremento β < 0 nella P(Y = 1), all’aumentare di x
Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1)
Tale difficoltà deriva dalla particolare forma a S della funzione logistica
Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel
Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è
adeguato
Un’adeguata interpretazione di β si ottiene sfruttando il concetto di tangente
della funzione logistica. Infatti solo in questo modo siamo in grado di capire
di quanto cresce/descesce la P(Y = 1) per ogni valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
21 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione del Modello di Regressione Logistica
L’interpretazione di β non è semplice. Presenteremo due approcci distinti
Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un
decremento β < 0 nella P(Y = 1), all’aumentare di x
Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1)
Tale difficoltà deriva dalla particolare forma a S della funzione logistica
Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel
Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è
adeguato
Un’adeguata interpretazione di β si ottiene sfruttando il concetto di tangente
della funzione logistica. Infatti solo in questo modo siamo in grado di capire
di quanto cresce/descesce la P(Y = 1) per ogni valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
21 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione del Modello di Regressione Logistica
L’interpretazione di β non è semplice. Presenteremo due approcci distinti
Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un
decremento β < 0 nella P(Y = 1), all’aumentare di x
Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1)
Tale difficoltà deriva dalla particolare forma a S della funzione logistica
Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel
Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è
adeguato
Un’adeguata interpretazione di β si ottiene sfruttando il concetto di tangente
della funzione logistica. Infatti solo in questo modo siamo in grado di capire
di quanto cresce/descesce la P(Y = 1) per ogni valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
21 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione del Modello di Regressione Logistica
L’interpretazione di β non è semplice. Presenteremo due approcci distinti
Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un
decremento β < 0 nella P(Y = 1), all’aumentare di x
Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1)
Tale difficoltà deriva dalla particolare forma a S della funzione logistica
Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel
Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è
adeguato
Un’adeguata interpretazione di β si ottiene sfruttando il concetto di tangente
della funzione logistica. Infatti solo in questo modo siamo in grado di capire
di quanto cresce/descesce la P(Y = 1) per ogni valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
21 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione del Modello di Regressione Logistica
L’interpretazione di β non è semplice. Presenteremo due approcci distinti
Abbiamo visto come il suo segno ci segnala una crescita (β > 0) o un
decremento β < 0 nella P(Y = 1), all’aumentare di x
Tuttavia non siamo in grado di dire di quanto cresce/descresce P(Y = 1)
Tale difficoltà deriva dalla particolare forma a S della funzione logistica
Solo nel caso del Modello a Probabilità Lineare, β viene interpretato come nel
Modello di Regressione Lineare. Tuttavia abbiamo già visto che il MPL non è
adeguato
Un’adeguata interpretazione di β si ottiene sfruttando il concetto di tangente
della funzione logistica. Infatti solo in questo modo siamo in grado di capire
di quanto cresce/descesce la P(Y = 1) per ogni valore di x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
21 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
La Figura mostra chiaramente a cosa corrisponde l’incremento in P(Y = 1)
considerando l’inclinazione della tangente pari a βP(y = 1)[1 − P(y = 1)]
1
P(y 5 1)
1
bP(y 5 1) [1 2 P(y 5 1)]
0
Slope b P(y 5 1) [1 2 P(y 5 1)]
x
L’inclinazione β è massima, quando P(y = 1) = 1/2. In questo caso
β(1/2)(1/2) = β/4 rappresenta l’effetto massimo
Cosı̀, quando P(y = 1) è prossimo ad 1/2, un quarto dell’effetto del
parametro β indica di quanto cresce la P(y = 1) in corrispondenza ad un
incremento unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
22 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
La Figura mostra chiaramente a cosa corrisponde l’incremento in P(Y = 1)
considerando l’inclinazione della tangente pari a βP(y = 1)[1 − P(y = 1)]
1
P(y 5 1)
1
bP(y 5 1) [1 2 P(y 5 1)]
0
Slope b P(y 5 1) [1 2 P(y 5 1)]
x
L’inclinazione β è massima, quando P(y = 1) = 1/2. In questo caso
β(1/2)(1/2) = β/4 rappresenta l’effetto massimo
Cosı̀, quando P(y = 1) è prossimo ad 1/2, un quarto dell’effetto del
parametro β indica di quanto cresce la P(y = 1) in corrispondenza ad un
incremento unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
22 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
La Figura mostra chiaramente a cosa corrisponde l’incremento in P(Y = 1)
considerando l’inclinazione della tangente pari a βP(y = 1)[1 − P(y = 1)]
1
P(y 5 1)
1
bP(y 5 1) [1 2 P(y 5 1)]
0
Slope b P(y 5 1) [1 2 P(y 5 1)]
x
L’inclinazione β è massima, quando P(y = 1) = 1/2. In questo caso
β(1/2)(1/2) = β/4 rappresenta l’effetto massimo
Cosı̀, quando P(y = 1) è prossimo ad 1/2, un quarto dell’effetto del
parametro β indica di quanto cresce la P(y = 1) in corrispondenza ad un
incremento unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
22 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Riprendiamo l’esempio sulle Carte di Credito dove β̂ = 0.105
In corrispondenza di una probabilità stimata di possesso di una CC pari a
P̂(y = 1) =1/2,la tangente alla logistica ha un’inclinazione pari a
β̂/4 = 0.105/4 = 0.026
Quindi considerando un incremento di 1000 euro al reddito cui corrisponde
P(Y = 1)=1/2, la P(Y = 1) cresce di β̂/4 = 0.026, cioè il 2,6%
L’intensità dell’effetto di X su Y non sarà la stessa ∀x
Ad es., per un valore del reddito pari a x = 25, si ha P̂(y = 1) = 0.29, da cui
β̂ P̂(y = 1)[1 − P̂(y = 1)] = 0.105(0.29)(0.71) = 0.022
In questo caso la robabilità di possedere una CC cresce del 2.2%
Osservando la Figura, si comprende come l’effetto di X su Y sia debole per
valori bassi o alti di X , più consistente per valori centrali, massima per
x = 33.5
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
23 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Ogni software è in grado di stimare il Modello a Probabilità Lineare
P(y = 1) = α + βx
Nel ns esempio si ha P̂(y = 1) = −0.159 + 0.019x. Sostanzialmente al
crescere di 1000 euro, la P̂(y = 1) cresce di circa 0.02
Ovviamente per valori estremi di X , le stime di P̂(y = 1) possono eccedere
l’intervallo [0, 1]
Ad es., se x ≥ 61 allora P̂(y = 1) > 1
In alternativa si potrebbero confrontare i valori di P̂(y = 1) per alcuni valori
di x
In questo caso, in presenza di un effetto rilevante, abbiamo già visto che la
P̂(y = 1) varia tra 0.09 e 0.97 confrontando i valori estremi di X
Come si può ovviare ai problemi mostrati nell’interpretare in maniera univoca
la stima β̂?
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
24 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La soluzione che consente di interpretare adeguatamente β prevede di
utilizzare l’odds ratio
Applichiamo l’antilogaritmo ad ambo i membri dell’equazione
log
Otteniamo
P(y = 1)
= α + βx
1 − P(y = 1)
P(y = 1)
= e α+βx = e α (e β )x .
1 − P(y = 1)
Si osserva chiaramente come il termine e β indichi di quanto si modifichi
l’odds (il rapporto tra le probabilità) in corrispondenza ad un incremento
unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
25 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La soluzione che consente di interpretare adeguatamente β prevede di
utilizzare l’odds ratio
Applichiamo l’antilogaritmo ad ambo i membri dell’equazione
log
Otteniamo
P(y = 1)
= α + βx
1 − P(y = 1)
P(y = 1)
= e α+βx = e α (e β )x .
1 − P(y = 1)
Si osserva chiaramente come il termine e β indichi di quanto si modifichi
l’odds (il rapporto tra le probabilità) in corrispondenza ad un incremento
unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
25 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La soluzione che consente di interpretare adeguatamente β prevede di
utilizzare l’odds ratio
Applichiamo l’antilogaritmo ad ambo i membri dell’equazione
log
Otteniamo
P(y = 1)
= α + βx
1 − P(y = 1)
P(y = 1)
= e α+βx = e α (e β )x .
1 − P(y = 1)
Si osserva chiaramente come il termine e β indichi di quanto si modifichi
l’odds (il rapporto tra le probabilità) in corrispondenza ad un incremento
unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
25 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La soluzione che consente di interpretare adeguatamente β prevede di
utilizzare l’odds ratio
Applichiamo l’antilogaritmo ad ambo i membri dell’equazione
log
Otteniamo
P(y = 1)
= α + βx
1 − P(y = 1)
P(y = 1)
= e α+βx = e α (e β )x .
1 − P(y = 1)
Si osserva chiaramente come il termine e β indichi di quanto si modifichi
l’odds (il rapporto tra le probabilità) in corrispondenza ad un incremento
unitario in x
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
25 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
Sui dati dell’esempio sulle CC si ottiene e β̂ = e 0.105 = 1.11
Cioè, all’incremento di 1000 euro di reddito, l’odds cresce di un fattore
moltiplicativo pari a 1.11; in pratica cresce dell’11%
L’odds per x = 25 è
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(25) = 0.414
Considerando un incremento unitario in X , per x = 25 si ha
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(26) = 0.460,
In pratica 0.460/0.414 = 1.11 = e 0.105
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
26 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
Sui dati dell’esempio sulle CC si ottiene e β̂ = e 0.105 = 1.11
Cioè, all’incremento di 1000 euro di reddito, l’odds cresce di un fattore
moltiplicativo pari a 1.11; in pratica cresce dell’11%
L’odds per x = 25 è
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(25) = 0.414
Considerando un incremento unitario in X , per x = 25 si ha
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(26) = 0.460,
In pratica 0.460/0.414 = 1.11 = e 0.105
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
26 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
Sui dati dell’esempio sulle CC si ottiene e β̂ = e 0.105 = 1.11
Cioè, all’incremento di 1000 euro di reddito, l’odds cresce di un fattore
moltiplicativo pari a 1.11; in pratica cresce dell’11%
L’odds per x = 25 è
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(25) = 0.414
Considerando un incremento unitario in X , per x = 25 si ha
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(26) = 0.460,
In pratica 0.460/0.414 = 1.11 = e 0.105
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
26 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
Sui dati dell’esempio sulle CC si ottiene e β̂ = e 0.105 = 1.11
Cioè, all’incremento di 1000 euro di reddito, l’odds cresce di un fattore
moltiplicativo pari a 1.11; in pratica cresce dell’11%
L’odds per x = 25 è
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(25) = 0.414
Considerando un incremento unitario in X , per x = 25 si ha
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(26) = 0.460,
In pratica 0.460/0.414 = 1.11 = e 0.105
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
26 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
Sui dati dell’esempio sulle CC si ottiene e β̂ = e 0.105 = 1.11
Cioè, all’incremento di 1000 euro di reddito, l’odds cresce di un fattore
moltiplicativo pari a 1.11; in pratica cresce dell’11%
L’odds per x = 25 è
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(25) = 0.414
Considerando un incremento unitario in X , per x = 25 si ha
Odds Stimato =
P̂(y = 1)
1 − P̂(y = 1)
= e −3.518+0.105(26) = 0.460,
In pratica 0.460/0.414 = 1.11 = e 0.105
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
26 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La quantità e 0.105 non è altro che l’Odds Ratio (Rapporto tra Quote), dato
appunto dal rapporto tra l’odds avendo un reddito = 26, diviso l’odds avendo
un reddito = 25
L’utilizzo dell’Odds Ratio (OR) risolve i problemi di rappresentazione e
interpretazione di β
Infatti, può variare tra 0 e 1 (se l’odds a numeratore è inferiore di quello a
denominatore), oppure eccedere il valore 1 indefinitamente. Cioè
0 ≤ OR ≤ +∞
Supponiamo di confrontare due individui con, rispettivamente, reddito pari a
x = 20 e x = 30
Sarà sufficiente calcolare
e 10β = (e β )10 = (1.11)10 = 2.9
L’odds per x = 30 è 2.9 volte l’odds per x = 20
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
27 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La quantità e 0.105 non è altro che l’Odds Ratio (Rapporto tra Quote), dato
appunto dal rapporto tra l’odds avendo un reddito = 26, diviso l’odds avendo
un reddito = 25
L’utilizzo dell’Odds Ratio (OR) risolve i problemi di rappresentazione e
interpretazione di β
Infatti, può variare tra 0 e 1 (se l’odds a numeratore è inferiore di quello a
denominatore), oppure eccedere il valore 1 indefinitamente. Cioè
0 ≤ OR ≤ +∞
Supponiamo di confrontare due individui con, rispettivamente, reddito pari a
x = 20 e x = 30
Sarà sufficiente calcolare
e 10β = (e β )10 = (1.11)10 = 2.9
L’odds per x = 30 è 2.9 volte l’odds per x = 20
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
27 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La quantità e 0.105 non è altro che l’Odds Ratio (Rapporto tra Quote), dato
appunto dal rapporto tra l’odds avendo un reddito = 26, diviso l’odds avendo
un reddito = 25
L’utilizzo dell’Odds Ratio (OR) risolve i problemi di rappresentazione e
interpretazione di β
Infatti, può variare tra 0 e 1 (se l’odds a numeratore è inferiore di quello a
denominatore), oppure eccedere il valore 1 indefinitamente. Cioè
0 ≤ OR ≤ +∞
Supponiamo di confrontare due individui con, rispettivamente, reddito pari a
x = 20 e x = 30
Sarà sufficiente calcolare
e 10β = (e β )10 = (1.11)10 = 2.9
L’odds per x = 30 è 2.9 volte l’odds per x = 20
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
27 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La quantità e 0.105 non è altro che l’Odds Ratio (Rapporto tra Quote), dato
appunto dal rapporto tra l’odds avendo un reddito = 26, diviso l’odds avendo
un reddito = 25
L’utilizzo dell’Odds Ratio (OR) risolve i problemi di rappresentazione e
interpretazione di β
Infatti, può variare tra 0 e 1 (se l’odds a numeratore è inferiore di quello a
denominatore), oppure eccedere il valore 1 indefinitamente. Cioè
0 ≤ OR ≤ +∞
Supponiamo di confrontare due individui con, rispettivamente, reddito pari a
x = 20 e x = 30
Sarà sufficiente calcolare
e 10β = (e β )10 = (1.11)10 = 2.9
L’odds per x = 30 è 2.9 volte l’odds per x = 20
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
27 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La quantità e 0.105 non è altro che l’Odds Ratio (Rapporto tra Quote), dato
appunto dal rapporto tra l’odds avendo un reddito = 26, diviso l’odds avendo
un reddito = 25
L’utilizzo dell’Odds Ratio (OR) risolve i problemi di rappresentazione e
interpretazione di β
Infatti, può variare tra 0 e 1 (se l’odds a numeratore è inferiore di quello a
denominatore), oppure eccedere il valore 1 indefinitamente. Cioè
0 ≤ OR ≤ +∞
Supponiamo di confrontare due individui con, rispettivamente, reddito pari a
x = 20 e x = 30
Sarà sufficiente calcolare
e 10β = (e β )10 = (1.11)10 = 2.9
L’odds per x = 30 è 2.9 volte l’odds per x = 20
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
27 / 54
Regressione Logistica
Interpretazione del Modello di Regressione Logistica
Interpretazione di β Utilizzando Odds e Odds Ratio
La quantità e 0.105 non è altro che l’Odds Ratio (Rapporto tra Quote), dato
appunto dal rapporto tra l’odds avendo un reddito = 26, diviso l’odds avendo
un reddito = 25
L’utilizzo dell’Odds Ratio (OR) risolve i problemi di rappresentazione e
interpretazione di β
Infatti, può variare tra 0 e 1 (se l’odds a numeratore è inferiore di quello a
denominatore), oppure eccedere il valore 1 indefinitamente. Cioè
0 ≤ OR ≤ +∞
Supponiamo di confrontare due individui con, rispettivamente, reddito pari a
x = 20 e x = 30
Sarà sufficiente calcolare
e 10β = (e β )10 = (1.11)10 = 2.9
L’odds per x = 30 è 2.9 volte l’odds per x = 20
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
27 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla
Naturalmente è possibile estendere il Modello di Regressione Logistica a k
predittori
logit[P(y = 1)] = α + β1 x1 + · · · + βk xk
Per calcolare la probabilità di successo avremo
P(y = 1) =
e α+β1 x1 +···+βk xk
.
1 + e α+β1 x1 +···+βk xk
Ciascuna stima di β rappresenta l’effetto di quel predittore sul logit,
controllando per le altre variabili
Oppure indicherà l’effetto moltiplicativo di quel predittore sulla probabilità di
successo, controllando per le altre variabili
Quanto più β > 0, tanto più l’OR > 1 e rappresenterà un effetto più forte
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
28 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla
Naturalmente è possibile estendere il Modello di Regressione Logistica a k
predittori
logit[P(y = 1)] = α + β1 x1 + · · · + βk xk
Per calcolare la probabilità di successo avremo
P(y = 1) =
e α+β1 x1 +···+βk xk
.
1 + e α+β1 x1 +···+βk xk
Ciascuna stima di β rappresenta l’effetto di quel predittore sul logit,
controllando per le altre variabili
Oppure indicherà l’effetto moltiplicativo di quel predittore sulla probabilità di
successo, controllando per le altre variabili
Quanto più β > 0, tanto più l’OR > 1 e rappresenterà un effetto più forte
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
28 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla
Naturalmente è possibile estendere il Modello di Regressione Logistica a k
predittori
logit[P(y = 1)] = α + β1 x1 + · · · + βk xk
Per calcolare la probabilità di successo avremo
P(y = 1) =
e α+β1 x1 +···+βk xk
.
1 + e α+β1 x1 +···+βk xk
Ciascuna stima di β rappresenta l’effetto di quel predittore sul logit,
controllando per le altre variabili
Oppure indicherà l’effetto moltiplicativo di quel predittore sulla probabilità di
successo, controllando per le altre variabili
Quanto più β > 0, tanto più l’OR > 1 e rappresenterà un effetto più forte
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
28 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla
Naturalmente è possibile estendere il Modello di Regressione Logistica a k
predittori
logit[P(y = 1)] = α + β1 x1 + · · · + βk xk
Per calcolare la probabilità di successo avremo
P(y = 1) =
e α+β1 x1 +···+βk xk
.
1 + e α+β1 x1 +···+βk xk
Ciascuna stima di β rappresenta l’effetto di quel predittore sul logit,
controllando per le altre variabili
Oppure indicherà l’effetto moltiplicativo di quel predittore sulla probabilità di
successo, controllando per le altre variabili
Quanto più β > 0, tanto più l’OR > 1 e rappresenterà un effetto più forte
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
28 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla
Naturalmente è possibile estendere il Modello di Regressione Logistica a k
predittori
logit[P(y = 1)] = α + β1 x1 + · · · + βk xk
Per calcolare la probabilità di successo avremo
P(y = 1) =
e α+β1 x1 +···+βk xk
.
1 + e α+β1 x1 +···+βk xk
Ciascuna stima di β rappresenta l’effetto di quel predittore sul logit,
controllando per le altre variabili
Oppure indicherà l’effetto moltiplicativo di quel predittore sulla probabilità di
successo, controllando per le altre variabili
Quanto più β > 0, tanto più l’OR > 1 e rappresenterà un effetto più forte
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
28 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla con Interazioni
L’estensione al modello con interazioni è immediata e del tutto analoga a
quanto visto per il Modello di Regressione Multivariato. Con due predittori
X1 e X2 avremo
logit[P(y = 1)] = α + β1 x1 + β2 x2 + β3 x1 x2
oppure
logit[P(y = 1)] = α + β1 x1 + β2 x2 + γ12 x1 x2
L’interpretazione dell’interazione non è semplice. L’approfondiremo in seguito
Si possono inserire predittori qualitativi utilizzando le variabili dummy
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
29 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla con Interazioni
L’estensione al modello con interazioni è immediata e del tutto analoga a
quanto visto per il Modello di Regressione Multivariato. Con due predittori
X1 e X2 avremo
logit[P(y = 1)] = α + β1 x1 + β2 x2 + β3 x1 x2
oppure
logit[P(y = 1)] = α + β1 x1 + β2 x2 + γ12 x1 x2
L’interpretazione dell’interazione non è semplice. L’approfondiremo in seguito
Si possono inserire predittori qualitativi utilizzando le variabili dummy
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
29 / 54
Regressione Logistica
Regressione Logistica Multipla
Regressione Logistica Multipla con Interazioni
L’estensione al modello con interazioni è immediata e del tutto analoga a
quanto visto per il Modello di Regressione Multivariato. Con due predittori
X1 e X2 avremo
logit[P(y = 1)] = α + β1 x1 + β2 x2 + β3 x1 x2
oppure
logit[P(y = 1)] = α + β1 x1 + β2 x2 + γ12 x1 x2
L’interpretazione dell’interazione non è semplice. L’approfondiremo in seguito
Si possono inserire predittori qualitativi utilizzando le variabili dummy
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
29 / 54
Regressione Logistica
Regressione Logistica Multipla
Esempio 15.2 — Pena di Morte e Influenza della Razza di
Vittime e Imputati
Si tratta di un celebre caso-studio, molto noto in bibliografia. Si vuole
determinare se la probabilità di essere condannato a morte dipenda (o meno)
dalla razza dell’accusato e/o da quella della vittima
Tabella: Verdetti di Pena di Morte secondo la Razza dell’Imputato e della Vittima,
nei Casi di Omicidi Plurimi in Florida
Pena di Morte
Razza
imputato
Bianca
Nera
Razza
vittima
Bianca
Nera
Bianca
Nera
Sı̀
53
0
11
4
No
414
16
37
139
%
Sı̀
11.3
0.0
22.9
2.8
La variabile risposta (Y ) è la condanna (Pena di Morte Sı̀-No), i predittori
sono la Razza della Vittima e quella dell’Imputato
I predittori sono qualitativi categorici (Bianca-Nera)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
30 / 54
Regressione Logistica
Regressione Logistica Multipla
Esempio 15.2 — Pena di Morte e Influenza della Razza di
Vittime e Imputati
Si tratta di un celebre caso-studio, molto noto in bibliografia. Si vuole
determinare se la probabilità di essere condannato a morte dipenda (o meno)
dalla razza dell’accusato e/o da quella della vittima
Tabella: Verdetti di Pena di Morte secondo la Razza dell’Imputato e della Vittima,
nei Casi di Omicidi Plurimi in Florida
Pena di Morte
Razza
imputato
Bianca
Nera
Razza
vittima
Bianca
Nera
Bianca
Nera
Sı̀
53
0
11
4
No
414
16
37
139
%
Sı̀
11.3
0.0
22.9
2.8
La variabile risposta (Y ) è la condanna (Pena di Morte Sı̀-No), i predittori
sono la Razza della Vittima e quella dell’Imputato
I predittori sono qualitativi categorici (Bianca-Nera)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
30 / 54
Regressione Logistica
Regressione Logistica Multipla
Esempio 15.2 — Pena di Morte e Influenza della Razza di
Vittime e Imputati
Si tratta di un celebre caso-studio, molto noto in bibliografia. Si vuole
determinare se la probabilità di essere condannato a morte dipenda (o meno)
dalla razza dell’accusato e/o da quella della vittima
Tabella: Verdetti di Pena di Morte secondo la Razza dell’Imputato e della Vittima,
nei Casi di Omicidi Plurimi in Florida
Pena di Morte
Razza
imputato
Bianca
Nera
Razza
vittima
Bianca
Nera
Bianca
Nera
Sı̀
53
0
11
4
No
414
16
37
139
%
Sı̀
11.3
0.0
22.9
2.8
La variabile risposta (Y ) è la condanna (Pena di Morte Sı̀-No), i predittori
sono la Razza della Vittima e quella dell’Imputato
I predittori sono qualitativi categorici (Bianca-Nera)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
30 / 54
Regressione Logistica
Regressione Logistica Multipla
Nell’ultima colonna è riportata la percentuale di imputati per ogni
combinazione, che è stata condannata a morte
Abbiamo i seguenti casi:
1 in caso di imputato bianco e vittima bianca, l’11.3% è stato condannato a
morte;
2 in caso di imputato bianco e vittima nera, nessuno è stato condannato a
morte;
3 in caso di imputato nero e vittima bianca, il 22.9% è stato condannato a
morte;
4 in caso di imputato nero e vittima nera, il 2.8% è stato condannato a morte.
In caso di vittima è bianca
a la probabilità per un imputato bianco di essere condannato a morte è l’11.3%
superiore rispetto al caso di una vittima nera
b la probabilità per un imputato nero di essere condannato a morte è il 20.1%
superiore rispetto al caso di una vittima nera (22.9% − 2.8%)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
31 / 54
Regressione Logistica
Regressione Logistica Multipla
Nell’ultima colonna è riportata la percentuale di imputati per ogni
combinazione, che è stata condannata a morte
Abbiamo i seguenti casi:
1 in caso di imputato bianco e vittima bianca, l’11.3% è stato condannato a
morte;
2 in caso di imputato bianco e vittima nera, nessuno è stato condannato a
morte;
3 in caso di imputato nero e vittima bianca, il 22.9% è stato condannato a
morte;
4 in caso di imputato nero e vittima nera, il 2.8% è stato condannato a morte.
In caso di vittima è bianca
a la probabilità per un imputato bianco di essere condannato a morte è l’11.3%
superiore rispetto al caso di una vittima nera
b la probabilità per un imputato nero di essere condannato a morte è il 20.1%
superiore rispetto al caso di una vittima nera (22.9% − 2.8%)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
31 / 54
Regressione Logistica
Regressione Logistica Multipla
Nell’ultima colonna è riportata la percentuale di imputati per ogni
combinazione, che è stata condannata a morte
Abbiamo i seguenti casi:
1 in caso di imputato bianco e vittima bianca, l’11.3% è stato condannato a
morte;
2 in caso di imputato bianco e vittima nera, nessuno è stato condannato a
morte;
3 in caso di imputato nero e vittima bianca, il 22.9% è stato condannato a
morte;
4 in caso di imputato nero e vittima nera, il 2.8% è stato condannato a morte.
In caso di vittima è bianca
a la probabilità per un imputato bianco di essere condannato a morte è l’11.3%
superiore rispetto al caso di una vittima nera
b la probabilità per un imputato nero di essere condannato a morte è il 20.1%
superiore rispetto al caso di una vittima nera (22.9% − 2.8%)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
31 / 54
Regressione Logistica
Regressione Logistica Multipla
In buona sostanza, controllando per la razza dell’imputato, risulta evidente
che la probabilità di essere condannato a morte è decisamente superiore se la
vittima è bianca
L’analisi con il controllo secondo la razza della vittima, evidenzia chiaramente
come se la vittima è bianca, la probabilità di essere condannati a morte è
superiore
Tale probabilità è decisamente più elevata per un imputato nero (22.9 %)
rispetto ad uno bianco (11.3 %)
Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per
un imputato nero, 0.0% per un imputato bianco), anche se il confronto
merita un approfondimento
Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più
elevato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
32 / 54
Regressione Logistica
Regressione Logistica Multipla
In buona sostanza, controllando per la razza dell’imputato, risulta evidente
che la probabilità di essere condannato a morte è decisamente superiore se la
vittima è bianca
L’analisi con il controllo secondo la razza della vittima, evidenzia chiaramente
come se la vittima è bianca, la probabilità di essere condannati a morte è
superiore
Tale probabilità è decisamente più elevata per un imputato nero (22.9 %)
rispetto ad uno bianco (11.3 %)
Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per
un imputato nero, 0.0% per un imputato bianco), anche se il confronto
merita un approfondimento
Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più
elevato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
32 / 54
Regressione Logistica
Regressione Logistica Multipla
In buona sostanza, controllando per la razza dell’imputato, risulta evidente
che la probabilità di essere condannato a morte è decisamente superiore se la
vittima è bianca
L’analisi con il controllo secondo la razza della vittima, evidenzia chiaramente
come se la vittima è bianca, la probabilità di essere condannati a morte è
superiore
Tale probabilità è decisamente più elevata per un imputato nero (22.9 %)
rispetto ad uno bianco (11.3 %)
Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per
un imputato nero, 0.0% per un imputato bianco), anche se il confronto
merita un approfondimento
Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più
elevato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
32 / 54
Regressione Logistica
Regressione Logistica Multipla
In buona sostanza, controllando per la razza dell’imputato, risulta evidente
che la probabilità di essere condannato a morte è decisamente superiore se la
vittima è bianca
L’analisi con il controllo secondo la razza della vittima, evidenzia chiaramente
come se la vittima è bianca, la probabilità di essere condannati a morte è
superiore
Tale probabilità è decisamente più elevata per un imputato nero (22.9 %)
rispetto ad uno bianco (11.3 %)
Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per
un imputato nero, 0.0% per un imputato bianco), anche se il confronto
merita un approfondimento
Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più
elevato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
32 / 54
Regressione Logistica
Regressione Logistica Multipla
In buona sostanza, controllando per la razza dell’imputato, risulta evidente
che la probabilità di essere condannato a morte è decisamente superiore se la
vittima è bianca
L’analisi con il controllo secondo la razza della vittima, evidenzia chiaramente
come se la vittima è bianca, la probabilità di essere condannati a morte è
superiore
Tale probabilità è decisamente più elevata per un imputato nero (22.9 %)
rispetto ad uno bianco (11.3 %)
Quando la vittima è nera, le due probababilità sono quasi uguali (2,8% per
un imputato nero, 0.0% per un imputato bianco), anche se il confronto
merita un approfondimento
Infatti, in termini relativi 2.8% rispetto a 0.0% può essere ritenuto molto più
elevato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
32 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Costruiamo il modello. Ovviamente Y = Condanna a Morte. Se Y = 1 la
risposta è Sı̀
I due predittori sono dicotomici, per cui sono sufficienti 2 variabili dummy, d
per la razza dell’imputato e v per la razza della vittima
d = 1, defendant = white; d = 0, defendant = black,
v = 1, victims = white; v = 0, victims = black.
Il modello di regressione logistica multivariato sarà
logit[P(y = 1)] = α + β1 d + β2 v ,
dove β1 indica l’effetto della razza dell’imputato, controllando per quella della
vittima e β2 indica l’effetto della razza della vittima, controllando per quella
dell’imputato
La quantità e β1 è l’OR tra Y e la razza dell’imputato, controllando per quella
della vittima
La quantità e β2 è l’OR tra Y e la razza della vittima, controllando per quella
dell’imputato
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
33 / 54
Regressione Logistica
Regressione Logistica Multipla
Il modello applicato ai dati è
logit[P̂(y = 1)] = −3.596 − 0.868d + 2.404v .
La stima di β1 = −0.868 indica come essendo bianco (d = 1), si ha una
probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0)
La stima di β2 = 2.404 indica come in caso di vittima bianca (v = 1), si ha
una probabilità di essere condannato a morte superiore rispetto al caso di una
vittima nera (v = 0)
Vedremo tra poco di quantificare l’intensità di questi effetti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
34 / 54
Regressione Logistica
Regressione Logistica Multipla
Il modello applicato ai dati è
logit[P̂(y = 1)] = −3.596 − 0.868d + 2.404v .
La stima di β1 = −0.868 indica come essendo bianco (d = 1), si ha una
probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0)
La stima di β2 = 2.404 indica come in caso di vittima bianca (v = 1), si ha
una probabilità di essere condannato a morte superiore rispetto al caso di una
vittima nera (v = 0)
Vedremo tra poco di quantificare l’intensità di questi effetti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
34 / 54
Regressione Logistica
Regressione Logistica Multipla
Il modello applicato ai dati è
logit[P̂(y = 1)] = −3.596 − 0.868d + 2.404v .
La stima di β1 = −0.868 indica come essendo bianco (d = 1), si ha una
probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0)
La stima di β2 = 2.404 indica come in caso di vittima bianca (v = 1), si ha
una probabilità di essere condannato a morte superiore rispetto al caso di una
vittima nera (v = 0)
Vedremo tra poco di quantificare l’intensità di questi effetti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
34 / 54
Regressione Logistica
Regressione Logistica Multipla
Il modello applicato ai dati è
logit[P̂(y = 1)] = −3.596 − 0.868d + 2.404v .
La stima di β1 = −0.868 indica come essendo bianco (d = 1), si ha una
probabilità di essere condannato a morte inferiore rispetto ad un nero (d = 0)
La stima di β2 = 2.404 indica come in caso di vittima bianca (v = 1), si ha
una probabilità di essere condannato a morte superiore rispetto al caso di una
vittima nera (v = 0)
Vedremo tra poco di quantificare l’intensità di questi effetti
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
34 / 54
Regressione Logistica
Regressione Logistica Multipla
Il software produce il seguente prospetto
Tabella: Stime dei Parametri del Modello Logistico sui Dati della Pena di Morte
Intercetta
imputato=bianco
imputato=nero
vittima=bianca
vittima=nera
B
-3.596
-.868
0
2.404
0
Std Error
.5069
.3671
.
.6006
.
Exp(β)
.027
.420
11.072
La stima della probabilità di essere condannati a morte è
P̂(y = 1) =
e −3.596−0.868d+2.404v
1 + e −3.596−0.868d+2.404v
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1) si ha
P̂(y = 1) =
e −3.596−0.868(0)+2.404(1)
e −1.192
0.304
=
=
= 0.233.
−3.596−0.868(0)+2.404(1)
1 + e −1.192
1.304
1+e
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
35 / 54
Regressione Logistica
Regressione Logistica Multipla
Il software produce il seguente prospetto
Tabella: Stime dei Parametri del Modello Logistico sui Dati della Pena di Morte
Intercetta
imputato=bianco
imputato=nero
vittima=bianca
vittima=nera
B
-3.596
-.868
0
2.404
0
Std Error
.5069
.3671
.
.6006
.
Exp(β)
.027
.420
11.072
La stima della probabilità di essere condannati a morte è
P̂(y = 1) =
e −3.596−0.868d+2.404v
1 + e −3.596−0.868d+2.404v
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1) si ha
P̂(y = 1) =
e −3.596−0.868(0)+2.404(1)
e −1.192
0.304
=
=
= 0.233.
−3.596−0.868(0)+2.404(1)
1 + e −1.192
1.304
1+e
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
35 / 54
Regressione Logistica
Regressione Logistica Multipla
Il software produce il seguente prospetto
Tabella: Stime dei Parametri del Modello Logistico sui Dati della Pena di Morte
Intercetta
imputato=bianco
imputato=nero
vittima=bianca
vittima=nera
B
-3.596
-.868
0
2.404
0
Std Error
.5069
.3671
.
.6006
.
Exp(β)
.027
.420
11.072
La stima della probabilità di essere condannati a morte è
P̂(y = 1) =
e −3.596−0.868d+2.404v
1 + e −3.596−0.868d+2.404v
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1) si ha
P̂(y = 1) =
e −3.596−0.868(0)+2.404(1)
e −1.192
0.304
=
=
= 0.233.
−3.596−0.868(0)+2.404(1)
1 + e −1.192
1.304
1+e
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
35 / 54
Regressione Logistica
Regressione Logistica Multipla
In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un
bianco, ha il 23.3% di possibilità di essere condannato a morte
Questa stima è molto simile al valore osservato nel campione, pari a 22.9%
Proviamo a calcolare l’OR tra Y e razza dell’imputato. Si ottiene
e β̂1 = e −0.868 = 0.42 OR = 0.42
Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero
di essere condannato a morte
Curiosità: se nel costruire la dummy per la razza dell’imputato invertissimo le
categorie (d = 1 per la razza nera) otterremmo
e β̂1 = e 0.868 = 2.38 OR = 2.38
Lavorando direttamente sull’OR, basta fare il reciproco del primo per ottenere
il secondo 1/0.42 = 2.38
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
36 / 54
Regressione Logistica
Regressione Logistica Multipla
In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un
bianco, ha il 23.3% di possibilità di essere condannato a morte
Questa stima è molto simile al valore osservato nel campione, pari a 22.9%
Proviamo a calcolare l’OR tra Y e razza dell’imputato. Si ottiene
e β̂1 = e −0.868 = 0.42 OR = 0.42
Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero
di essere condannato a morte
Curiosità: se nel costruire la dummy per la razza dell’imputato invertissimo le
categorie (d = 1 per la razza nera) otterremmo
e β̂1 = e 0.868 = 2.38 OR = 2.38
Lavorando direttamente sull’OR, basta fare il reciproco del primo per ottenere
il secondo 1/0.42 = 2.38
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
36 / 54
Regressione Logistica
Regressione Logistica Multipla
In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un
bianco, ha il 23.3% di possibilità di essere condannato a morte
Questa stima è molto simile al valore osservato nel campione, pari a 22.9%
Proviamo a calcolare l’OR tra Y e razza dell’imputato. Si ottiene
e β̂1 = e −0.868 = 0.42 OR = 0.42
Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero
di essere condannato a morte
Curiosità: se nel costruire la dummy per la razza dell’imputato invertissimo le
categorie (d = 1 per la razza nera) otterremmo
e β̂1 = e 0.868 = 2.38 OR = 2.38
Lavorando direttamente sull’OR, basta fare il reciproco del primo per ottenere
il secondo 1/0.42 = 2.38
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
36 / 54
Regressione Logistica
Regressione Logistica Multipla
In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un
bianco, ha il 23.3% di possibilità di essere condannato a morte
Questa stima è molto simile al valore osservato nel campione, pari a 22.9%
Proviamo a calcolare l’OR tra Y e razza dell’imputato. Si ottiene
e β̂1 = e −0.868 = 0.42 OR = 0.42
Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero
di essere condannato a morte
Curiosità: se nel costruire la dummy per la razza dell’imputato invertissimo le
categorie (d = 1 per la razza nera) otterremmo
e β̂1 = e 0.868 = 2.38 OR = 2.38
Lavorando direttamente sull’OR, basta fare il reciproco del primo per ottenere
il secondo 1/0.42 = 2.38
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
36 / 54
Regressione Logistica
Regressione Logistica Multipla
In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un
bianco, ha il 23.3% di possibilità di essere condannato a morte
Questa stima è molto simile al valore osservato nel campione, pari a 22.9%
Proviamo a calcolare l’OR tra Y e razza dell’imputato. Si ottiene
e β̂1 = e −0.868 = 0.42 OR = 0.42
Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero
di essere condannato a morte
Curiosità: se nel costruire la dummy per la razza dell’imputato invertissimo le
categorie (d = 1 per la razza nera) otterremmo
e β̂1 = e 0.868 = 2.38 OR = 2.38
Lavorando direttamente sull’OR, basta fare il reciproco del primo per ottenere
il secondo 1/0.42 = 2.38
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
36 / 54
Regressione Logistica
Regressione Logistica Multipla
In pratica, se un imputato nero è riconosciuto colpevole di aver ucciso un
bianco, ha il 23.3% di possibilità di essere condannato a morte
Questa stima è molto simile al valore osservato nel campione, pari a 22.9%
Proviamo a calcolare l’OR tra Y e razza dell’imputato. Si ottiene
e β̂1 = e −0.868 = 0.42 OR = 0.42
Un imputato bianco ha un odds pari a 0.42 volte quello di un imputato nero
di essere condannato a morte
Curiosità: se nel costruire la dummy per la razza dell’imputato invertissimo le
categorie (d = 1 per la razza nera) otterremmo
e β̂1 = e 0.868 = 2.38 OR = 2.38
Lavorando direttamente sull’OR, basta fare il reciproco del primo per ottenere
il secondo 1/0.42 = 2.38
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
36 / 54
Regressione Logistica
Regressione Logistica Multipla
Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra
un fortissimo effetto del predittore su Y
Infatti, e 2.404 = 11.1, quindi OR=11.1
Ciò sisgnifica che l’odds di essere condannato a morte in caso di vittima
bianca è 11.1 volte quello nel caso di vittima nera
In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in
questo modo:
1 Si registra una propensione (tendenza) a condannare a morte inferiore alla
metà se l’imputato è bianco rispetto ad uno nero;
2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11
volte se la vittima è bianca rispetto ad una nera.
In buona sostanza esiste una discriminizione razziale nelle condanne a morte,
più forte in relazione alla razza della vittima rispetto a quella dell’imputato,
pur sempre presente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
37 / 54
Regressione Logistica
Regressione Logistica Multipla
Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra
un fortissimo effetto del predittore su Y
Infatti, e 2.404 = 11.1, quindi OR=11.1
Ciò sisgnifica che l’odds di essere condannato a morte in caso di vittima
bianca è 11.1 volte quello nel caso di vittima nera
In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in
questo modo:
1 Si registra una propensione (tendenza) a condannare a morte inferiore alla
metà se l’imputato è bianco rispetto ad uno nero;
2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11
volte se la vittima è bianca rispetto ad una nera.
In buona sostanza esiste una discriminizione razziale nelle condanne a morte,
più forte in relazione alla razza della vittima rispetto a quella dell’imputato,
pur sempre presente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
37 / 54
Regressione Logistica
Regressione Logistica Multipla
Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra
un fortissimo effetto del predittore su Y
Infatti, e 2.404 = 11.1, quindi OR=11.1
Ciò sisgnifica che l’odds di essere condannato a morte in caso di vittima
bianca è 11.1 volte quello nel caso di vittima nera
In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in
questo modo:
1 Si registra una propensione (tendenza) a condannare a morte inferiore alla
metà se l’imputato è bianco rispetto ad uno nero;
2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11
volte se la vittima è bianca rispetto ad una nera.
In buona sostanza esiste una discriminizione razziale nelle condanne a morte,
più forte in relazione alla razza della vittima rispetto a quella dell’imputato,
pur sempre presente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
37 / 54
Regressione Logistica
Regressione Logistica Multipla
Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra
un fortissimo effetto del predittore su Y
Infatti, e 2.404 = 11.1, quindi OR=11.1
Ciò sisgnifica che l’odds di essere condannato a morte in caso di vittima
bianca è 11.1 volte quello nel caso di vittima nera
In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in
questo modo:
1 Si registra una propensione (tendenza) a condannare a morte inferiore alla
metà se l’imputato è bianco rispetto ad uno nero;
2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11
volte se la vittima è bianca rispetto ad una nera.
In buona sostanza esiste una discriminizione razziale nelle condanne a morte,
più forte in relazione alla razza della vittima rispetto a quella dell’imputato,
pur sempre presente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
37 / 54
Regressione Logistica
Regressione Logistica Multipla
Studiando la relazione tra Y e razza della vittima, la stima ottenuta mostra
un fortissimo effetto del predittore su Y
Infatti, e 2.404 = 11.1, quindi OR=11.1
Ciò sisgnifica che l’odds di essere condannato a morte in caso di vittima
bianca è 11.1 volte quello nel caso di vittima nera
In termini più semplicistici, potremmo sintetizzare i due OR ottenuti in
questo modo:
1 Si registra una propensione (tendenza) a condannare a morte inferiore alla
metà se l’imputato è bianco rispetto ad uno nero;
2 Si registra una propensione (tendenza) a condannare a morte pari a circa 11
volte se la vittima è bianca rispetto ad una nera.
In buona sostanza esiste una discriminizione razziale nelle condanne a morte,
più forte in relazione alla razza della vittima rispetto a quella dell’imputato,
pur sempre presente
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
37 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sugli Odds
Possiamo rivedere alcuni aspetti dell’interpretazione dei parametri βi e di
cosa comportano sugli odds
Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima
log[P̂(y = 1)/(1 − P̂(y = 1))] = −3.596 − 0.868d + 2.404v
Calcolando l’antilogaritmo di ambo i membri otteniamo
odds = e −3.596−0.868d+2.404v = e −3.596 e −0.868d e 2.404v .
Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo
e −3.596 e −0.868 e 2.404v
= e −0.868 = 0.42
e −3.596 e 2.404v
che è proprio l’OR
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
38 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sugli Odds
Possiamo rivedere alcuni aspetti dell’interpretazione dei parametri βi e di
cosa comportano sugli odds
Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima
log[P̂(y = 1)/(1 − P̂(y = 1))] = −3.596 − 0.868d + 2.404v
Calcolando l’antilogaritmo di ambo i membri otteniamo
odds = e −3.596−0.868d+2.404v = e −3.596 e −0.868d e 2.404v .
Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo
e −3.596 e −0.868 e 2.404v
= e −0.868 = 0.42
e −3.596 e 2.404v
che è proprio l’OR
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
38 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sugli Odds
Possiamo rivedere alcuni aspetti dell’interpretazione dei parametri βi e di
cosa comportano sugli odds
Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima
log[P̂(y = 1)/(1 − P̂(y = 1))] = −3.596 − 0.868d + 2.404v
Calcolando l’antilogaritmo di ambo i membri otteniamo
odds = e −3.596−0.868d+2.404v = e −3.596 e −0.868d e 2.404v .
Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo
e −3.596 e −0.868 e 2.404v
= e −0.868 = 0.42
e −3.596 e 2.404v
che è proprio l’OR
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
38 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sugli Odds
Possiamo rivedere alcuni aspetti dell’interpretazione dei parametri βi e di
cosa comportano sugli odds
Riprendiamo il modello sulla pena di morte e la razza di imputato e vittima
log[P̂(y = 1)/(1 − P̂(y = 1))] = −3.596 − 0.868d + 2.404v
Calcolando l’antilogaritmo di ambo i membri otteniamo
odds = e −3.596−0.868d+2.404v = e −3.596 e −0.868d e 2.404v .
Rapportando gli odds per imputato bianco (d = 1) e nero (d = 0) otteniamo
e −3.596 e −0.868 e 2.404v
= e −0.868 = 0.42
e −3.596 e 2.404v
che è proprio l’OR
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
38 / 54
Regressione Logistica
Regressione Logistica Multipla
Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei
predittori
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima
dell’odds sarà
odds = e −3.596−0.868d+2.404v = e −3.596−0.868(0)+2.404(1) = e −1.192 = 0.304.
Questo risultato indica che in caso di imputato nero e vittima bianca il
rapporto tra probabilità di condanna e non condanna è 0.304
Per calcolare la P(Y = 1), avremo
P̂(y = 1) =
e −3.596−0.868d+2.404v
0.304
=
= 0.233
1 + e −3.596−0.868d+2.404v
1 + 0.304
che è proprio la stima della Probabilità di Successo vista in precedenza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
39 / 54
Regressione Logistica
Regressione Logistica Multipla
Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei
predittori
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima
dell’odds sarà
odds = e −3.596−0.868d+2.404v = e −3.596−0.868(0)+2.404(1) = e −1.192 = 0.304.
Questo risultato indica che in caso di imputato nero e vittima bianca il
rapporto tra probabilità di condanna e non condanna è 0.304
Per calcolare la P(Y = 1), avremo
P̂(y = 1) =
e −3.596−0.868d+2.404v
0.304
=
= 0.233
1 + e −3.596−0.868d+2.404v
1 + 0.304
che è proprio la stima della Probabilità di Successo vista in precedenza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
39 / 54
Regressione Logistica
Regressione Logistica Multipla
Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei
predittori
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima
dell’odds sarà
odds = e −3.596−0.868d+2.404v = e −3.596−0.868(0)+2.404(1) = e −1.192 = 0.304.
Questo risultato indica che in caso di imputato nero e vittima bianca il
rapporto tra probabilità di condanna e non condanna è 0.304
Per calcolare la P(Y = 1), avremo
P̂(y = 1) =
e −3.596−0.868d+2.404v
0.304
=
= 0.233
1 + e −3.596−0.868d+2.404v
1 + 0.304
che è proprio la stima della Probabilità di Successo vista in precedenza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
39 / 54
Regressione Logistica
Regressione Logistica Multipla
Allo stesso modo possiamo calcolare gli odds per qualsiasi combinazione dei
predittori
Nel caso di imputato nero (d = 0) e vittima bianca (v = 1), la stima
dell’odds sarà
odds = e −3.596−0.868d+2.404v = e −3.596−0.868(0)+2.404(1) = e −1.192 = 0.304.
Questo risultato indica che in caso di imputato nero e vittima bianca il
rapporto tra probabilità di condanna e non condanna è 0.304
Per calcolare la P(Y = 1), avremo
P̂(y = 1) =
e −3.596−0.868d+2.404v
0.304
=
= 0.233
1 + e −3.596−0.868d+2.404v
1 + 0.304
che è proprio la stima della Probabilità di Successo vista in precedenza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
39 / 54
Regressione Logistica
Regressione Logistica Multipla
Esempio 15.3 — Fattori Influenti l’Acquisto della Prima
Casa
In tabella è riportato il modello logistico sulle relazioni tra il Possesso della
Casa (Sı̀-No) e una serie di predittori che afferiscono alle caratteristiche ed ai
comportamenti familiari quali:
1 reddito percepito dal marito (incremento di $10,000 dollari)
2 reddito percepito dalla moglie (incremento di $10,000 dollari)
3 numero di anni dal matrimonio
4 status coniugale a 2 anni dal matrimonio (1=Sı̀)
5 moglie occupata nei primi 2 anni dal matrimonio (1=Sı̀)
6 numero di figli in età 0 − 17 anni
7 ulteriori figli in età 0 − 17 anni a 2 anni dall’osservazione (1=Sı̀)
8 anni di istruzione del capo famiglia
9 Genitori proprietari di casa nell’ultimo anno di permanenza del figlio (1=Sı̀)
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
40 / 54
Regressione Logistica
Regressione Logistica Multipla
Il modello stimato è
Tabella: Risultati della Regressione Logistica sulla Probabilità del Possesso della Casa
Variable
Intercept
Husband earnings ($10,000)
Wife earnings ($10,000)
No. years married
Married in 2 years (1 = yes)
Working wife in 2 years (1 = yes)
No. children
Add child in 2 years (1 = yes)
Head’s education (no. years)
Parents’ home ownership (1 = yes)
Estimate
−2.870
0.569
0.306
−0.039
0.224
0.373
0.220
0.271
−0.027
0.387
Std. Error
—
0.088
0.140
0.042
0.304
0.283
0.101
0.140
0.032
0.176
Est./S.E.
6.466
2.186
−0.929
0.737
1.318
2.178
1.936
−0.844
2.199
Inizialmente osserviamo l’ultima colonna, soffermandoci sui valori esterni
l’intervallo [-2,2], poi l’entità delle stime
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
41 / 54
Regressione Logistica
Regressione Logistica Multipla
Il modello stimato è
Tabella: Risultati della Regressione Logistica sulla Probabilità del Possesso della Casa
Variable
Intercept
Husband earnings ($10,000)
Wife earnings ($10,000)
No. years married
Married in 2 years (1 = yes)
Working wife in 2 years (1 = yes)
No. children
Add child in 2 years (1 = yes)
Head’s education (no. years)
Parents’ home ownership (1 = yes)
Estimate
−2.870
0.569
0.306
−0.039
0.224
0.373
0.220
0.271
−0.027
0.387
Std. Error
—
0.088
0.140
0.042
0.304
0.283
0.101
0.140
0.032
0.176
Est./S.E.
6.466
2.186
−0.929
0.737
1.318
2.178
1.936
−0.844
2.199
Inizialmente osserviamo l’ultima colonna, soffermandoci sui valori esterni
l’intervallo [-2,2], poi l’entità delle stime
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
41 / 54
Regressione Logistica
Regressione Logistica Multipla
Prendiamo alcune stime:
1 L’effetto di ogni figlio in più è positivo e 0.220 = 1.25. In protica la stima
dell’odds cresce del 25%
2 Un incremento di $10,000 dollari all’anno ha un effetto moltiplicativo
sull’odds pari a e 0.569 = 1.77 per il marito e e 0.306 = 1.36 per la moglie
3 Avere genitori con la casa di proprietà ha un effetto moltiplicativo sull’odds
pari a e 0.387 = 1.47
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
42 / 54
Regressione Logistica
Regressione Logistica Multipla
Prendiamo alcune stime:
1 L’effetto di ogni figlio in più è positivo e 0.220 = 1.25. In protica la stima
dell’odds cresce del 25%
2 Un incremento di $10,000 dollari all’anno ha un effetto moltiplicativo
sull’odds pari a e 0.569 = 1.77 per il marito e e 0.306 = 1.36 per la moglie
3 Avere genitori con la casa di proprietà ha un effetto moltiplicativo sull’odds
pari a e 0.387 = 1.47
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
42 / 54
Regressione Logistica
Regressione Logistica Multipla
Prendiamo alcune stime:
1 L’effetto di ogni figlio in più è positivo e 0.220 = 1.25. In protica la stima
dell’odds cresce del 25%
2 Un incremento di $10,000 dollari all’anno ha un effetto moltiplicativo
sull’odds pari a e 0.569 = 1.77 per il marito e e 0.306 = 1.36 per la moglie
3 Avere genitori con la casa di proprietà ha un effetto moltiplicativo sull’odds
pari a e 0.387 = 1.47
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
42 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sulle Probabilità
Abbiamo già visto che possiamo sintetizzare la misura dell’effetto di un
predittore utilizzando l’OR
Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare
la dimensione dell’effetto su una scala di probabilità
Si possono scegliere vari approcci:
1 si riporta il valore di P̂(y = 1) per particolari valori del predittore di interesse.
In questo caso gli altri predittori sono fissi, nel senso che assumono un valore
caratteristico (media o altro definito preliminarmente)
2 si riporta di quanto si modifica la P̂(y = 1) quando il predittore cresce di un
certo valore. Le scelte possono essere:
a il predittore cresce di un’unità
b il predittore cresce di un valore pari alla deviazione standard
c il predittore cresce dell’intero range di valori assunti da X
d il predittore cresce di un valore pari allo scarto interquartile
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
43 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sulle Probabilità
Abbiamo già visto che possiamo sintetizzare la misura dell’effetto di un
predittore utilizzando l’OR
Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare
la dimensione dell’effetto su una scala di probabilità
Si possono scegliere vari approcci:
1 si riporta il valore di P̂(y = 1) per particolari valori del predittore di interesse.
In questo caso gli altri predittori sono fissi, nel senso che assumono un valore
caratteristico (media o altro definito preliminarmente)
2 si riporta di quanto si modifica la P̂(y = 1) quando il predittore cresce di un
certo valore. Le scelte possono essere:
a il predittore cresce di un’unità
b il predittore cresce di un valore pari alla deviazione standard
c il predittore cresce dell’intero range di valori assunti da X
d il predittore cresce di un valore pari allo scarto interquartile
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
43 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sulle Probabilità
Abbiamo già visto che possiamo sintetizzare la misura dell’effetto di un
predittore utilizzando l’OR
Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare
la dimensione dell’effetto su una scala di probabilità
Si possono scegliere vari approcci:
1 si riporta il valore di P̂(y = 1) per particolari valori del predittore di interesse.
In questo caso gli altri predittori sono fissi, nel senso che assumono un valore
caratteristico (media o altro definito preliminarmente)
2 si riporta di quanto si modifica la P̂(y = 1) quando il predittore cresce di un
certo valore. Le scelte possono essere:
a il predittore cresce di un’unità
b il predittore cresce di un valore pari alla deviazione standard
c il predittore cresce dell’intero range di valori assunti da X
d il predittore cresce di un valore pari allo scarto interquartile
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
43 / 54
Regressione Logistica
Regressione Logistica Multipla
Effetti sulle Probabilità
Abbiamo già visto che possiamo sintetizzare la misura dell’effetto di un
predittore utilizzando l’OR
Tuttavia la sua interpretazione non è agevole, pertanto si preferisce misurare
la dimensione dell’effetto su una scala di probabilità
Si possono scegliere vari approcci:
1 si riporta il valore di P̂(y = 1) per particolari valori del predittore di interesse.
In questo caso gli altri predittori sono fissi, nel senso che assumono un valore
caratteristico (media o altro definito preliminarmente)
2 si riporta di quanto si modifica la P̂(y = 1) quando il predittore cresce di un
certo valore. Le scelte possono essere:
a il predittore cresce di un’unità
b il predittore cresce di un valore pari alla deviazione standard
c il predittore cresce dell’intero range di valori assunti da X
d il predittore cresce di un valore pari allo scarto interquartile
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
43 / 54
Regressione Logistica
Regressione Logistica Multipla
Nel caso dell’esempio sul Possesso della Casa si vuole studiare l’effetto del
Reddito del Marito
Gli altri predittori assumono i seguenti valori:
1 reddito percepito dalla moglie = $50,000 dollari
2 anni dal matrimonio = 3
3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sı̀)
4 numero di figli = 0
5 ulteriori figli = 0 (no)
6 anni di istruzione del capo famiglia = 16
7 Genitori proprietari di casa nell’ultimo anno di permanenza del figlio = 0 (No)
Nel caso di reddito del marito pari a $20.000 dollari, avremo
P̂(y = 1) =
e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
= 0.41.
1 + e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
Per un reddito di $30,000, P̂(y = 1)=0.55. Per un reddito di $50,000,
P̂(y = 1)=0.79. Per un reddito di $100,000, P̂(y = 1)=0.98.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
44 / 54
Regressione Logistica
Regressione Logistica Multipla
Nel caso dell’esempio sul Possesso della Casa si vuole studiare l’effetto del
Reddito del Marito
Gli altri predittori assumono i seguenti valori:
1 reddito percepito dalla moglie = $50,000 dollari
2 anni dal matrimonio = 3
3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sı̀)
4 numero di figli = 0
5 ulteriori figli = 0 (no)
6 anni di istruzione del capo famiglia = 16
7 Genitori proprietari di casa nell’ultimo anno di permanenza del figlio = 0 (No)
Nel caso di reddito del marito pari a $20.000 dollari, avremo
P̂(y = 1) =
e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
= 0.41.
1 + e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
Per un reddito di $30,000, P̂(y = 1)=0.55. Per un reddito di $50,000,
P̂(y = 1)=0.79. Per un reddito di $100,000, P̂(y = 1)=0.98.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
44 / 54
Regressione Logistica
Regressione Logistica Multipla
Nel caso dell’esempio sul Possesso della Casa si vuole studiare l’effetto del
Reddito del Marito
Gli altri predittori assumono i seguenti valori:
1 reddito percepito dalla moglie = $50,000 dollari
2 anni dal matrimonio = 3
3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sı̀)
4 numero di figli = 0
5 ulteriori figli = 0 (no)
6 anni di istruzione del capo famiglia = 16
7 Genitori proprietari di casa nell’ultimo anno di permanenza del figlio = 0 (No)
Nel caso di reddito del marito pari a $20.000 dollari, avremo
P̂(y = 1) =
e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
= 0.41.
1 + e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
Per un reddito di $30,000, P̂(y = 1)=0.55. Per un reddito di $50,000,
P̂(y = 1)=0.79. Per un reddito di $100,000, P̂(y = 1)=0.98.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
44 / 54
Regressione Logistica
Regressione Logistica Multipla
Nel caso dell’esempio sul Possesso della Casa si vuole studiare l’effetto del
Reddito del Marito
Gli altri predittori assumono i seguenti valori:
1 reddito percepito dalla moglie = $50,000 dollari
2 anni dal matrimonio = 3
3 moglie occupata nei primi 2 anni dal matrimonio = 1 (Sı̀)
4 numero di figli = 0
5 ulteriori figli = 0 (no)
6 anni di istruzione del capo famiglia = 16
7 Genitori proprietari di casa nell’ultimo anno di permanenza del figlio = 0 (No)
Nel caso di reddito del marito pari a $20.000 dollari, avremo
P̂(y = 1) =
e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
= 0.41.
1 + e −2.870+0.569(2)+0.306(5)−0.039(3)+0.373(1)−0.027(16)
Per un reddito di $30,000, P̂(y = 1)=0.55. Per un reddito di $50,000,
P̂(y = 1)=0.79. Per un reddito di $100,000, P̂(y = 1)=0.98.
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
44 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per il Modello di Regressione Logistica
Le assunzioni sono:
1 I dati sono estratti casualmente
2 La variabile risposta ha una distribuzione binomiale
Presenteremo due Test per l’Indipendenza: il Test di Wald e il Test del
Rapporto delle Massime Verosimiglianze
Si tratta di due tecniche che hanno lo stesso obiettivo
Tuttavia il Test di Wald può essere applicato solo su campioni
sufficientemente numerosi
Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza
di campioni poco numerosi
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
45 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per il Modello di Regressione Logistica
Le assunzioni sono:
1 I dati sono estratti casualmente
2 La variabile risposta ha una distribuzione binomiale
Presenteremo due Test per l’Indipendenza: il Test di Wald e il Test del
Rapporto delle Massime Verosimiglianze
Si tratta di due tecniche che hanno lo stesso obiettivo
Tuttavia il Test di Wald può essere applicato solo su campioni
sufficientemente numerosi
Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza
di campioni poco numerosi
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
45 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per il Modello di Regressione Logistica
Le assunzioni sono:
1 I dati sono estratti casualmente
2 La variabile risposta ha una distribuzione binomiale
Presenteremo due Test per l’Indipendenza: il Test di Wald e il Test del
Rapporto delle Massime Verosimiglianze
Si tratta di due tecniche che hanno lo stesso obiettivo
Tuttavia il Test di Wald può essere applicato solo su campioni
sufficientemente numerosi
Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza
di campioni poco numerosi
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
45 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per il Modello di Regressione Logistica
Le assunzioni sono:
1 I dati sono estratti casualmente
2 La variabile risposta ha una distribuzione binomiale
Presenteremo due Test per l’Indipendenza: il Test di Wald e il Test del
Rapporto delle Massime Verosimiglianze
Si tratta di due tecniche che hanno lo stesso obiettivo
Tuttavia il Test di Wald può essere applicato solo su campioni
sufficientemente numerosi
Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza
di campioni poco numerosi
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
45 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per il Modello di Regressione Logistica
Le assunzioni sono:
1 I dati sono estratti casualmente
2 La variabile risposta ha una distribuzione binomiale
Presenteremo due Test per l’Indipendenza: il Test di Wald e il Test del
Rapporto delle Massime Verosimiglianze
Si tratta di due tecniche che hanno lo stesso obiettivo
Tuttavia il Test di Wald può essere applicato solo su campioni
sufficientemente numerosi
Il Test del rapporto delle Massime Verosimigliaze va bene anche in presenza
di campioni poco numerosi
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
45 / 54
Inferenza per il Modello di Regressione Logistica
Test di Wald
Si consideri il modello
logit[P(y = 1)] = α + βx,
L’ipotesi di indipendenza H0 : β = 0 rappresenta l’assenza di effetto di X sul
logit
Nel caso di campioni sufficientemente numerosi, una buona statistica test è
data dal rapporto tra β̂ e il suo errore standard
Si tratta di una statistica che si distribuisce come una Z
In molti casi si riporta il quadrato di questa statistica, che si distribuisce
come un Chi 2 con un gdl. Il P − valore corrispondente è uguale a quello di
un test Z per un’alternativa bilaterale Ha : β 6= 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
46 / 54
Inferenza per il Modello di Regressione Logistica
Test di Wald
Si consideri il modello
logit[P(y = 1)] = α + βx,
L’ipotesi di indipendenza H0 : β = 0 rappresenta l’assenza di effetto di X sul
logit
Nel caso di campioni sufficientemente numerosi, una buona statistica test è
data dal rapporto tra β̂ e il suo errore standard
Si tratta di una statistica che si distribuisce come una Z
In molti casi si riporta il quadrato di questa statistica, che si distribuisce
come un Chi 2 con un gdl. Il P − valore corrispondente è uguale a quello di
un test Z per un’alternativa bilaterale Ha : β 6= 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
46 / 54
Inferenza per il Modello di Regressione Logistica
Test di Wald
Si consideri il modello
logit[P(y = 1)] = α + βx,
L’ipotesi di indipendenza H0 : β = 0 rappresenta l’assenza di effetto di X sul
logit
Nel caso di campioni sufficientemente numerosi, una buona statistica test è
data dal rapporto tra β̂ e il suo errore standard
Si tratta di una statistica che si distribuisce come una Z
In molti casi si riporta il quadrato di questa statistica, che si distribuisce
come un Chi 2 con un gdl. Il P − valore corrispondente è uguale a quello di
un test Z per un’alternativa bilaterale Ha : β 6= 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
46 / 54
Inferenza per il Modello di Regressione Logistica
Test di Wald
Si consideri il modello
logit[P(y = 1)] = α + βx,
L’ipotesi di indipendenza H0 : β = 0 rappresenta l’assenza di effetto di X sul
logit
Nel caso di campioni sufficientemente numerosi, una buona statistica test è
data dal rapporto tra β̂ e il suo errore standard
Si tratta di una statistica che si distribuisce come una Z
In molti casi si riporta il quadrato di questa statistica, che si distribuisce
come un Chi 2 con un gdl. Il P − valore corrispondente è uguale a quello di
un test Z per un’alternativa bilaterale Ha : β 6= 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
46 / 54
Inferenza per il Modello di Regressione Logistica
Test di Wald
Si consideri il modello
logit[P(y = 1)] = α + βx,
L’ipotesi di indipendenza H0 : β = 0 rappresenta l’assenza di effetto di X sul
logit
Nel caso di campioni sufficientemente numerosi, una buona statistica test è
data dal rapporto tra β̂ e il suo errore standard
Si tratta di una statistica che si distribuisce come una Z
In molti casi si riporta il quadrato di questa statistica, che si distribuisce
come un Chi 2 con un gdl. Il P − valore corrispondente è uguale a quello di
un test Z per un’alternativa bilaterale Ha : β 6= 0
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
46 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
In questo caso il test consente di confrontare due modelli che differiscono tra
di loro per la presenza di uno o più parametri in più
L’ipotesi di base è che i parametri in più presenti nel modello pieno siano
uguali a zero
Nel caso del modello con un solo predittore si confrontano i modelli
logit[P(y = 1)] = α + βx e logit[P(y = 1)] = α
Il test si basa sul calcolo della funzione di verosimiglianza, indicata con ℓ
Essa fornisce la probabilità di osservare i dati del ns campione come funzione
dei parametri utilizzati
Il massimo di questa funzione fornisce le stime di massima verosimiglianza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
47 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
In questo caso il test consente di confrontare due modelli che differiscono tra
di loro per la presenza di uno o più parametri in più
L’ipotesi di base è che i parametri in più presenti nel modello pieno siano
uguali a zero
Nel caso del modello con un solo predittore si confrontano i modelli
logit[P(y = 1)] = α + βx e logit[P(y = 1)] = α
Il test si basa sul calcolo della funzione di verosimiglianza, indicata con ℓ
Essa fornisce la probabilità di osservare i dati del ns campione come funzione
dei parametri utilizzati
Il massimo di questa funzione fornisce le stime di massima verosimiglianza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
47 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
In questo caso il test consente di confrontare due modelli che differiscono tra
di loro per la presenza di uno o più parametri in più
L’ipotesi di base è che i parametri in più presenti nel modello pieno siano
uguali a zero
Nel caso del modello con un solo predittore si confrontano i modelli
logit[P(y = 1)] = α + βx e logit[P(y = 1)] = α
Il test si basa sul calcolo della funzione di verosimiglianza, indicata con ℓ
Essa fornisce la probabilità di osservare i dati del ns campione come funzione
dei parametri utilizzati
Il massimo di questa funzione fornisce le stime di massima verosimiglianza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
47 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
In questo caso il test consente di confrontare due modelli che differiscono tra
di loro per la presenza di uno o più parametri in più
L’ipotesi di base è che i parametri in più presenti nel modello pieno siano
uguali a zero
Nel caso del modello con un solo predittore si confrontano i modelli
logit[P(y = 1)] = α + βx e logit[P(y = 1)] = α
Il test si basa sul calcolo della funzione di verosimiglianza, indicata con ℓ
Essa fornisce la probabilità di osservare i dati del ns campione come funzione
dei parametri utilizzati
Il massimo di questa funzione fornisce le stime di massima verosimiglianza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
47 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
In questo caso il test consente di confrontare due modelli che differiscono tra
di loro per la presenza di uno o più parametri in più
L’ipotesi di base è che i parametri in più presenti nel modello pieno siano
uguali a zero
Nel caso del modello con un solo predittore si confrontano i modelli
logit[P(y = 1)] = α + βx e logit[P(y = 1)] = α
Il test si basa sul calcolo della funzione di verosimiglianza, indicata con ℓ
Essa fornisce la probabilità di osservare i dati del ns campione come funzione
dei parametri utilizzati
Il massimo di questa funzione fornisce le stime di massima verosimiglianza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
47 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
In questo caso il test consente di confrontare due modelli che differiscono tra
di loro per la presenza di uno o più parametri in più
L’ipotesi di base è che i parametri in più presenti nel modello pieno siano
uguali a zero
Nel caso del modello con un solo predittore si confrontano i modelli
logit[P(y = 1)] = α + βx e logit[P(y = 1)] = α
Il test si basa sul calcolo della funzione di verosimiglianza, indicata con ℓ
Essa fornisce la probabilità di osservare i dati del ns campione come funzione
dei parametri utilizzati
Il massimo di questa funzione fornisce le stime di massima verosimiglianza
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
47 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
Si indichi con ℓ0 il massimo della funzione di verosimiglianza quando H0 è
vera e con ℓ1 il massimo della funzione di verosimiglianza quando H0 non è
vera
La statistica test del rapporto delle massime verosimiglianza sarà
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ).
ℓ1
Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si
ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei
parametri che differenziano i modelli
La discussione del test avviene sempre nel medesimo modo
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
48 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
Si indichi con ℓ0 il massimo della funzione di verosimiglianza quando H0 è
vera e con ℓ1 il massimo della funzione di verosimiglianza quando H0 non è
vera
La statistica test del rapporto delle massime verosimiglianza sarà
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ).
ℓ1
Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si
ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei
parametri che differenziano i modelli
La discussione del test avviene sempre nel medesimo modo
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
48 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
Si indichi con ℓ0 il massimo della funzione di verosimiglianza quando H0 è
vera e con ℓ1 il massimo della funzione di verosimiglianza quando H0 non è
vera
La statistica test del rapporto delle massime verosimiglianza sarà
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ).
ℓ1
Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si
ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei
parametri che differenziano i modelli
La discussione del test avviene sempre nel medesimo modo
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
48 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze
Si indichi con ℓ0 il massimo della funzione di verosimiglianza quando H0 è
vera e con ℓ1 il massimo della funzione di verosimiglianza quando H0 non è
vera
La statistica test del rapporto delle massime verosimiglianza sarà
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ).
ℓ1
Si fa il log del rapporto poi moltiplicato per -2, in quanto la quantità che si
ottiene tende a distribuirsi come una v.c. Chi 2 con gdl pari al numero dei
parametri che differenziano i modelli
La discussione del test avviene sempre nel medesimo modo
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
48 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.4 — Inferenza sulla Relazione Reddito e
Possesso di una Carta di Credito
In questo caso l’ipotesi H0 : β = 0 indica che il Reddito non influenza la
probabilità di possedere una CC. Il modello è
Tabella: Logistic Regression Inference for Italian Credit Card Data
reddito
Costante
B
.1054
-3.5179
S.E.
.0262
.7103
Wald
16.24
24.53
df
1
1
Sig.
.000
.000
95% CI per exp(B)
1.056
1.170
Il test Z sarebbe uguale a z = 0.1054/0.0262 = 4.02. Si vede chiaramente
che 4.022 = 16.24 è il valore del test di Wald
Si può concludere che c’è una forte evidenza contro l’ipotesi H0 : β = 0, di
assenza di effetto del Reddito sulla Probabilità di Possedere una CC
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
49 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.4 — Inferenza sulla Relazione Reddito e
Possesso di una Carta di Credito
In questo caso l’ipotesi H0 : β = 0 indica che il Reddito non influenza la
probabilità di possedere una CC. Il modello è
Tabella: Logistic Regression Inference for Italian Credit Card Data
reddito
Costante
B
.1054
-3.5179
S.E.
.0262
.7103
Wald
16.24
24.53
df
1
1
Sig.
.000
.000
95% CI per exp(B)
1.056
1.170
Il test Z sarebbe uguale a z = 0.1054/0.0262 = 4.02. Si vede chiaramente
che 4.022 = 16.24 è il valore del test di Wald
Si può concludere che c’è una forte evidenza contro l’ipotesi H0 : β = 0, di
assenza di effetto del Reddito sulla Probabilità di Possedere una CC
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
49 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.4 — Inferenza sulla Relazione Reddito e
Possesso di una Carta di Credito
In questo caso l’ipotesi H0 : β = 0 indica che il Reddito non influenza la
probabilità di possedere una CC. Il modello è
Tabella: Logistic Regression Inference for Italian Credit Card Data
reddito
Costante
B
.1054
-3.5179
S.E.
.0262
.7103
Wald
16.24
24.53
df
1
1
Sig.
.000
.000
95% CI per exp(B)
1.056
1.170
Il test Z sarebbe uguale a z = 0.1054/0.0262 = 4.02. Si vede chiaramente
che 4.022 = 16.24 è il valore del test di Wald
Si può concludere che c’è una forte evidenza contro l’ipotesi H0 : β = 0, di
assenza di effetto del Reddito sulla Probabilità di Possedere una CC
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
49 / 54
Inferenza per il Modello di Regressione Logistica
Il test del Rapporto delle Massime Verosimiglianze per l’ipotesi H0 : β = 0,
confronterà il modello pieno con il parametro β e quello ridotto con solo
l’intercetta
Il software (SPSS) riporta un valore −2 log ℓ = 97.23 per il modello pieno e
un valore pari a −2 log ℓ = 123.82 per quello ridotto
La quantità
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 123.82 − 97.23 = 26.59.
ℓ1
mostra come l’effetto sia fortemente significativo
Infatti, la quantità Chi 2 = 26.59 con gdl = 1, ha un P − valore < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
50 / 54
Inferenza per il Modello di Regressione Logistica
Il test del Rapporto delle Massime Verosimiglianze per l’ipotesi H0 : β = 0,
confronterà il modello pieno con il parametro β e quello ridotto con solo
l’intercetta
Il software (SPSS) riporta un valore −2 log ℓ = 97.23 per il modello pieno e
un valore pari a −2 log ℓ = 123.82 per quello ridotto
La quantità
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 123.82 − 97.23 = 26.59.
ℓ1
mostra come l’effetto sia fortemente significativo
Infatti, la quantità Chi 2 = 26.59 con gdl = 1, ha un P − valore < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
50 / 54
Inferenza per il Modello di Regressione Logistica
Il test del Rapporto delle Massime Verosimiglianze per l’ipotesi H0 : β = 0,
confronterà il modello pieno con il parametro β e quello ridotto con solo
l’intercetta
Il software (SPSS) riporta un valore −2 log ℓ = 97.23 per il modello pieno e
un valore pari a −2 log ℓ = 123.82 per quello ridotto
La quantità
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 123.82 − 97.23 = 26.59.
ℓ1
mostra come l’effetto sia fortemente significativo
Infatti, la quantità Chi 2 = 26.59 con gdl = 1, ha un P − valore < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
50 / 54
Inferenza per il Modello di Regressione Logistica
Il test del Rapporto delle Massime Verosimiglianze per l’ipotesi H0 : β = 0,
confronterà il modello pieno con il parametro β e quello ridotto con solo
l’intercetta
Il software (SPSS) riporta un valore −2 log ℓ = 97.23 per il modello pieno e
un valore pari a −2 log ℓ = 123.82 per quello ridotto
La quantità
ℓ0
−2 log
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 123.82 − 97.23 = 26.59.
ℓ1
mostra come l’effetto sia fortemente significativo
Infatti, la quantità Chi 2 = 26.59 con gdl = 1, ha un P − valore < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
50 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per la Regressione Logistica Multivariata
Nel caso di una Regressione Logistica Multivariata, l’inferenza viene condotta
allo stesso modo
Naturalmente si tratta di saggiare l’effetto di un predittore, controllando per
gli altri predittori
Nel caso di predittori categoriali, che prevedono l’utilizzo di variabili dummy,
più che il test di Wald, molto utile risulta il test del Rapporto delle Massime
Verosimiglianze
Infatti, in presenza di predittori categoriali politomici, è possibile saggiare
l’effetto dell’intero predittore attraverso la rimozione dal modello dei
parametri delle dummy che lo caratterizzano
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
51 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per la Regressione Logistica Multivariata
Nel caso di una Regressione Logistica Multivariata, l’inferenza viene condotta
allo stesso modo
Naturalmente si tratta di saggiare l’effetto di un predittore, controllando per
gli altri predittori
Nel caso di predittori categoriali, che prevedono l’utilizzo di variabili dummy,
più che il test di Wald, molto utile risulta il test del Rapporto delle Massime
Verosimiglianze
Infatti, in presenza di predittori categoriali politomici, è possibile saggiare
l’effetto dell’intero predittore attraverso la rimozione dal modello dei
parametri delle dummy che lo caratterizzano
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
51 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per la Regressione Logistica Multivariata
Nel caso di una Regressione Logistica Multivariata, l’inferenza viene condotta
allo stesso modo
Naturalmente si tratta di saggiare l’effetto di un predittore, controllando per
gli altri predittori
Nel caso di predittori categoriali, che prevedono l’utilizzo di variabili dummy,
più che il test di Wald, molto utile risulta il test del Rapporto delle Massime
Verosimiglianze
Infatti, in presenza di predittori categoriali politomici, è possibile saggiare
l’effetto dell’intero predittore attraverso la rimozione dal modello dei
parametri delle dummy che lo caratterizzano
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
51 / 54
Inferenza per il Modello di Regressione Logistica
Inferenza per la Regressione Logistica Multivariata
Nel caso di una Regressione Logistica Multivariata, l’inferenza viene condotta
allo stesso modo
Naturalmente si tratta di saggiare l’effetto di un predittore, controllando per
gli altri predittori
Nel caso di predittori categoriali, che prevedono l’utilizzo di variabili dummy,
più che il test di Wald, molto utile risulta il test del Rapporto delle Massime
Verosimiglianze
Infatti, in presenza di predittori categoriali politomici, è possibile saggiare
l’effetto dell’intero predittore attraverso la rimozione dal modello dei
parametri delle dummy che lo caratterizzano
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
51 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Riprendiamo il modello precedente
logit[P(y = 1)] = α + β1 d + β2 v ,
Le variabili dummy d e v indicano, rispettivamente, la razza dell’imputato e
quella della vittima (Bianca vs Nera in entramnbi i casi)
Se β1 = 0 il verdetto di pena di morte è indipendente dalla razza
dell’imputato, controllando per quella della vittima
Ne consegue che, a livello di popolazione, l’odds ratio corrispondente sarà
e 0 = 1, per ciascuna razza della vittima
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
52 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Riprendiamo il modello precedente
logit[P(y = 1)] = α + β1 d + β2 v ,
Le variabili dummy d e v indicano, rispettivamente, la razza dell’imputato e
quella della vittima (Bianca vs Nera in entramnbi i casi)
Se β1 = 0 il verdetto di pena di morte è indipendente dalla razza
dell’imputato, controllando per quella della vittima
Ne consegue che, a livello di popolazione, l’odds ratio corrispondente sarà
e 0 = 1, per ciascuna razza della vittima
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
52 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Riprendiamo il modello precedente
logit[P(y = 1)] = α + β1 d + β2 v ,
Le variabili dummy d e v indicano, rispettivamente, la razza dell’imputato e
quella della vittima (Bianca vs Nera in entramnbi i casi)
Se β1 = 0 il verdetto di pena di morte è indipendente dalla razza
dell’imputato, controllando per quella della vittima
Ne consegue che, a livello di popolazione, l’odds ratio corrispondente sarà
e 0 = 1, per ciascuna razza della vittima
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
52 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Riprendiamo il modello precedente
logit[P(y = 1)] = α + β1 d + β2 v ,
Le variabili dummy d e v indicano, rispettivamente, la razza dell’imputato e
quella della vittima (Bianca vs Nera in entramnbi i casi)
Se β1 = 0 il verdetto di pena di morte è indipendente dalla razza
dell’imputato, controllando per quella della vittima
Ne consegue che, a livello di popolazione, l’odds ratio corrispondente sarà
e 0 = 1, per ciascuna razza della vittima
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
52 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Il software SPSS riporta il seguente prospetto
Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto
alla Razza dell’Imputato e della Vittima
Intercetta
imputato=bianco
vittima=bianca
B
-3.596
-.868
2.404
S.E.
.5069
.3671
.6006
Wald χ2
50.33
5.59
16.03
Sig.
.000
.018
.000
95% CI per exp(B)
.20
3.41
.86
35.93
In riferimento alla razza dell’imputato il test Z per H0 : β1 = 0 sarà
z = −0.868/0.367 = −2.36
La corrispondente statistica di Wald sarà (−2.36)2 = 5.59, con un P − valore
pari a 0.018
Allo stesso modo si osserva un effetto della Razza della Vittima decisamente
più rilevante, sia per la dimensione sia per il P − valore
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
53 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Il software SPSS riporta il seguente prospetto
Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto
alla Razza dell’Imputato e della Vittima
Intercetta
imputato=bianco
vittima=bianca
B
-3.596
-.868
2.404
S.E.
.5069
.3671
.6006
Wald χ2
50.33
5.59
16.03
Sig.
.000
.018
.000
95% CI per exp(B)
.20
3.41
.86
35.93
In riferimento alla razza dell’imputato il test Z per H0 : β1 = 0 sarà
z = −0.868/0.367 = −2.36
La corrispondente statistica di Wald sarà (−2.36)2 = 5.59, con un P − valore
pari a 0.018
Allo stesso modo si osserva un effetto della Razza della Vittima decisamente
più rilevante, sia per la dimensione sia per il P − valore
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
53 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Il software SPSS riporta il seguente prospetto
Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto
alla Razza dell’Imputato e della Vittima
Intercetta
imputato=bianco
vittima=bianca
B
-3.596
-.868
2.404
S.E.
.5069
.3671
.6006
Wald χ2
50.33
5.59
16.03
Sig.
.000
.018
.000
95% CI per exp(B)
.20
3.41
.86
35.93
In riferimento alla razza dell’imputato il test Z per H0 : β1 = 0 sarà
z = −0.868/0.367 = −2.36
La corrispondente statistica di Wald sarà (−2.36)2 = 5.59, con un P − valore
pari a 0.018
Allo stesso modo si osserva un effetto della Razza della Vittima decisamente
più rilevante, sia per la dimensione sia per il P − valore
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
53 / 54
Inferenza per il Modello di Regressione Logistica
Esempio 15.5 — Inferenza sul Modello per la Pena di
Morte e la Razza di Imputato e Vittima
Il software SPSS riporta il seguente prospetto
Tabella: Inferenza sul Modello di Regressione Logistica della Pena di Morte rispetto
alla Razza dell’Imputato e della Vittima
Intercetta
imputato=bianco
vittima=bianca
B
-3.596
-.868
2.404
S.E.
.5069
.3671
.6006
Wald χ2
50.33
5.59
16.03
Sig.
.000
.018
.000
95% CI per exp(B)
.20
3.41
.86
35.93
In riferimento alla razza dell’imputato il test Z per H0 : β1 = 0 sarà
z = −0.868/0.367 = −2.36
La corrispondente statistica di Wald sarà (−2.36)2 = 5.59, con un P − valore
pari a 0.018
Allo stesso modo si osserva un effetto della Razza della Vittima decisamente
più rilevante, sia per la dimensione sia per il P − valore
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
53 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze per il
Confronto di Modelli di Regressione Logistica
Quando si desidera confrontare modelli che differiscono per più di un
parametro, conviene applicare il Test per il Rapporto delle Massime
Verosimiglianze
Si rammenta che la differenza tra (−2 log ℓ0 - −2 log ℓ0 ) è una statistca Chi 2
con gdl= numero di parametri rimossi
Nel caso del ns modello abbiamo
−2 log
ℓ0
ℓ1
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 440.843 − 418.957 = 21.866.
I gdl = 2, per cui il P − valore sarà < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
54 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze per il
Confronto di Modelli di Regressione Logistica
Quando si desidera confrontare modelli che differiscono per più di un
parametro, conviene applicare il Test per il Rapporto delle Massime
Verosimiglianze
Si rammenta che la differenza tra (−2 log ℓ0 - −2 log ℓ0 ) è una statistca Chi 2
con gdl= numero di parametri rimossi
Nel caso del ns modello abbiamo
−2 log
ℓ0
ℓ1
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 440.843 − 418.957 = 21.866.
I gdl = 2, per cui il P − valore sarà < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
54 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze per il
Confronto di Modelli di Regressione Logistica
Quando si desidera confrontare modelli che differiscono per più di un
parametro, conviene applicare il Test per il Rapporto delle Massime
Verosimiglianze
Si rammenta che la differenza tra (−2 log ℓ0 - −2 log ℓ0 ) è una statistca Chi 2
con gdl= numero di parametri rimossi
Nel caso del ns modello abbiamo
−2 log
ℓ0
ℓ1
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 440.843 − 418.957 = 21.866.
I gdl = 2, per cui il P − valore sarà < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
54 / 54
Inferenza per il Modello di Regressione Logistica
Test del rapporto delle Massime Verosimiglianze per il
Confronto di Modelli di Regressione Logistica
Quando si desidera confrontare modelli che differiscono per più di un
parametro, conviene applicare il Test per il Rapporto delle Massime
Verosimiglianze
Si rammenta che la differenza tra (−2 log ℓ0 - −2 log ℓ0 ) è una statistca Chi 2
con gdl= numero di parametri rimossi
Nel caso del ns modello abbiamo
−2 log
ℓ0
ℓ1
= (−2 log ℓ0 ) − (−2 log ℓ1 ) = 440.843 − 418.957 = 21.866.
I gdl = 2, per cui il P − valore sarà < 0.0001
Nicola Tedesco (Statistica Sociale)
Regressione Logistica: un Modello per Variabili Risposta Categoriali
54 / 54
Scarica