Regressione logistica - Analisi log lineare

Regressione Logistica
• Modello a struttura PREDETERMINATA per
variabili qualitative dicotomiche
• Tecnica non parametrica
Regressione Logistica
• Utilizzo: permette di prevedere il
comportamento di una variabile dipendente
dicotomica (espressa come
presenza/assenza di una caratteristica o
risultato) basandosi sui valori di una serie di
variabili predittori (fattori o covariate del
modello).
Regressione Logistica
• Risultato:
– la probabilità dell’evento dati quelle covariate
– la probabilità dell’influenza di ciascuna delle
covariate rispetto alla probabilità di una delle
caratteristiche della dipendente
Regressione Logistica
1.Procedura: definizione del modello
1. La relazione fra la variabile dipendente e
le covariate è spiegata da una funzione
logaritmica
logit (variabile)= b0 + b1  x1 + b2  x2 …
Regressione Logistica
Trasforma la variabile qualitativa dicotomica (evento, non
evento) in una variabile quantitativa utilizzando il
parametro odds
p(evento)
odds 
p(non evento)
• 1.Variabile
0,1
• 2.Probabilità 0
• 3.Odds
0
1

Regressione Logistica
Per poter utilizzare una equazione nel campo dei
numeri reali si esegue una ulteriore trasformazione
logarimica che prende il nome di logit
Odds
logit
(valore - --- 0 --- +)
p(evento)
logit  log
p(nonevento)
Regressione Logistica
• Logaritmo: funzione inversa dell’esponente
• Logaritmo naturale (Ln) di x è l’esponente
da dare a e (numero naturale e = 2.718) per
ottenere x
• Ln 5 = 1.6 perché 2.718 1.6 = 5
Regressione Logistica
Proprietà dei logaritmi
• Ln 1 = 0
• Ln 0 = - 
• Ln +  = + 
Regressione Logistica
La variabile può essere vista come funzione
dei fattori in un modello regressivo
attraverso il quale è possibile assumere la
relazione stessa come lineare :
logit (variabile)= b0 + b1  x1 + b2  x2 + b3  x3
odds(var)  e  e
b0
b1  x1

Regressione Logistica
2. Procedura: VALUTAZIONE della Bontà del
modello - stima dei parametri b
a.Diversi metodi di approssimazione
(iteration) basati sul maximum likelihood
– A blocchi: valuta tutti i parametri assieme tramite il
criterio di tolleranza (esclude le variabili che apportano
poca informazione al modello)
– Per passi o per esclusione: toglie o aggiunge i
parametri a seconda dell’apporto di questi alla
significatività del modello
Regressione Logistica
• Il likelihood , utilizzato anche per il
modello Log lineare, è la probabilità che i
dati sperimentali siano stati generati dal
modello
Regressione Logistica
• Successive approssimazioni:
–
–
–
–
–
si crea il modello con un’approssimazione
si valuta il likelihood
Si effettua una successiva approssimazione
Si valuta il likelihood
Se questo crea un cambiamento superiore a una
certa soglia si va avanti, altrimenti ci si ferma
Regressione Logistica
b. Valutazione della bontà del modello
Statistica Wald
 b 
Wald  

 SE 
2
Tuttavia, la statistica Wald non può esser usata da sola poiché quando
il valore assoluto di b diventa molto grande, l’errore standard sarà
anche esso grande e la statistica Wald assumerà valori molto piccoli
che facilmente falsificheranno l’ipotesi nulla anche quando non
sarebbe da falsificare.
Regressione Logistica
c. Valutazione della bontà del modello
• Goodness of fit che valuta la probabilità che il
modello sia adeguato nella rappresentazione dei
dati
• Si valuta attraverso la non falsificazione di H0
utilizzando una distribuzione 2 che confronta le
frequenze osservate con le frequenze attese create
dal modello
Regressione Logistica
d. Valutazione della bontà del modello
• Pseudo R squared
• valuta attraverso il confronto fra il
likelihood del modello e il modello
dell’ipotesi nulla (considerando che nessun
parametro sia influente)
Regressione Logistica
3. Significatività di b e senso dell’influenza
Il contributo di ciascun fattore e il senso
della sua influenza sulla variabile
dipendente è stimato attraverso
l’esponenziale di b (odds ratio)
Expb1  
oddsb1 1
oddsb1 0

oddsb1
oddsb0
e b0 b1 e b0  e b1
b1
 b0 

e
e
e b0
Regressione Logistica
Significatività
La significatività dei parametri relativi
ai fattori si può anche verificare
attraverso l’intervallo di confidenza
attorno all’esponenziale di b per ciascun
fattore
Regressione Logistica
La regressione logistica fornisce le
significatività per:
 il modello globale
 i singoli parametri, togliendo gli effetti dei
parametri già considerati
Regressione Logistica
Esempio
logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3  x3
Dove il logit della probabilità di rispondere in modo aggressivo è visto
in funzione di una costante b0 sommata al contributo dato da
ciascun fattore al quale il modello ha attribuito il valore 1
moltiplicato per il suo coefficiente bn
Attraverso la regressione logistica tutte le variabili categoriche
vengono trasformate in variabili dicotomiche (con valori 0,1)
B1 è il parametro relativo all’essere maschi
B2 è il parametro relativo all’età
B3 è il parametro relativo alla professione di dipendente
Regressione Logistica
Categorical Variables Codings
profes s ione
genere
1.00
2.00
maschio
femmina
Frequency
18
19
16
21
Paramete
r coding
(1)
1.000
.000
1.000
.000
Regressione Logistica
Variables in the Equation
Step
a
1
genere(1)
eta
professione(1)
Constant
B
1.410
.000
-.093
-.856
S.E.
.724
.034
.725
1.121
Wald
3.800
.000
.017
.582
a. Variable(s) entered on step 1: genere, eta, professione.
df
1
1
1
1
Sig.
.051
.993
.898
.445
Exp(B)
4.098
1.000
.911
.425
95.0% C.I.for EXP(B)
Lower
Upper
.992
16.921
.936
1.068
.220
3.769
Regressione Logistica
Exp(b)
L’esponenziale di b relativo al genere è
dato dal rapporto fra l’odds di
rispondere con un comportamento
aggressivo essendo femmina diviso
l’odds di rispondere con un
comportamento aggressivo essendo
maschi.
Regressione Logistica
logit (risposta aggressiva)= b0 + b1  x1 + b2  x2+ b3
 x3
logit (risposta aggressiva)=
-0.856 + 1.41  x1 + (-0.093) + 0 x3= 0.461
Variables in the Equation
Step
a
1
genere(1)
profes s ione(1)
eta
Cons tant
B
1.410
-.093
.000
-.856
S.E.
.724
.725
.034
1.121
Wald
3.800
.017
.000
.582
a. Variable(s ) entered on s tep 1: genere, profess ione, eta.
df
1
1
1
1
Sig.
.051
.898
.993
.445
Exp(B)
4.098
.911
1.000
.425
Regressione Logistica
• P (risposta aggressiva)=1 / (1+ e-0.461) = 0.56
• Odds ratio (genere=1) = 4.098
– Essere maschi incrementa la probabilità di risposta
aggressiva di un coefficiente pari a 4.098
– l’odds di risposta aggressiva essendo maschio è 4.098
volte superiore rispetto all’odds della risposta
aggressiva essendo femmina, mantenendo costanti le
altre variabili
Analisi Log - lineare
• SCOPO: studia la relazione fra più di
due variabili qualitative categoriche
• TIPO DI PROCEDURA: modello
logistico applicato a una tavola di
contingenza multidimensionale
Analisi Log lineare
• I dati sperimentali possono produrre
diversi modelli Log Lineari.
• Il modello è definito saturo quando
rappresenta tutte le possibili
combinazioni fra le celle;
• non saturato quando solo alcune delle
interazioni sono considerate.
Analisi Log lineare
• Nel modello gerarchico l’effetto
interazione (definito termine di ordine
superiore in quanto comprende in sé
più termini) è accostato a termini di
ordine inferiore(singoli fattori).
• Attraverso questo modello è possibile
considerare solo gli effetti di ordine
superiore o inferiore
Analisi Log lineare
Tavola di contingenza multidimensionale:
ogni cella è vista come combinazione di due
o più variabili
Esempio
T ip o di p erso nalità
T erap ia
Esito
negativo
far maco logica
Esito
positivo
A
B
C
120
46
38
int egrata
14
7
11
far maco logica
28
64
147
int egrata
17
22
80
Analisi Log lineare
• Applicare più test χ² per analizzare
ciascuna combinazione sarebbe una
procedura non corretta perché:
• Aumento dell’errore alpha
• Lettura dei risultati non comprensibile
Analisi Log lineare
• Date le tre variabili da studiare nella loro
relazione è possibile analizzare:
• Ogni confronto binario
• L’interazione fra tutte le variabili
Analisi Log lineare
Modello Log lineare attraverso un’unica
procedura di analisi rappresenta tutte le
possibili combinazioni in modo
indipendente le une dalle altre.
1. Struttura modello
2. Stima dei parametri e valutazione della
bontà del modello
Analisi Log lineare
1. Struttura del modello
ln Fij        
X
i
•
•
•
•
•
•
Y
j
XY
ij
dove:
Fij è la frequenza osservata della cella ij,
λiX, è l’effetto della i-esima categoria della variabile X,
λjY l’effetto della j-esima categoria della variabile Y
λijXY l’effetto interazione fra le due.
μ è la media dei logaritmi calcolati per tutte le celle
λ è calcolata togliendo al totale di riga o di colonna di
quella cella la media generale.
Analisi Log lineare
Struttura: logaritmo delle frequenze di ogni
combinazione possibile in funzione dei valori
delle varie componenti di classificazione
ln Fijk = μ+λiI + λjJ + λkK + λiIjJ + λiIkK + λjJkK + λiIjJkK
Tuttavia…
Scopo del modello è rappresentare
adeguatamente i dati sperimentali con il
numero minore di relazioni fra le variabili
ln Fijk = μ+ λiI + λjJ + λkK + λiIjJ + λiIkK
Analisi Log lineare
Tutte le variabili sono considerate come
variabili indipendenti o fattori, la
variabile dipendente è il numero di casi
in ogni cella, ovvero la frequenza
osservata, che è proprio l’indice
dell’interazione fra le variabili in studio.
Analisi Log lineare
Stima dei parametri:
1. Calcolo del logaritmo delle frequenze
osservate
2. Calcolo delle frequenze attese
3. Confronto frequenze attese con le
frequenze osservate - residui
Analisi Log lineare:
Rappresentazione dei Parametri
Parametro
1
2
3
4
5*
6
7
8*
9
10
11*
Esito
Costante
Esito=0; Terapia=1
Esito=0; Terapia=2
Esito=1; Terapia=1
Esito=1; Terapia=2
Esito=0; Tipo=A
Esito=0; Tipo=B
Esito=0; Tipo=C
Esito=1; Tipo=A
Esito=1; Tipo=B
Esito=1; Tipo=C
Rappresentazione dei
parametri secondo il
modello Esito x
Terapia + Esito x Tipo
(Esito=0 corrisponde a
esito negativo; Esito=1
corrisponde a esito
positivo; Terapia=1 è la
terapia farmacologica;
Terapia=2 sta per
terapia integrata
Analisi Log lineare
3a Una volta calcolate le frequenze attese
per ogni cella si calcolano i punti z dei
residui (dividendoli per la radice
quadrata delle frequenze attese)
3b Dato il modello vengono quindi
calcolati i parametri che divisi per il
loro SE diventano punti z
Analisi Log lineare
Calcoliamo ad esempio la stima del
parametro 2 relativo alla probabilità di
avere un esito negativo avendo
effettuato una terapia farmacologica
(terapia =1 esito = 0). Per calcolare
questa probabilità devo togliere dalla
media generale gli effetti dovuti ai
fattori terapia, tipo di personalità ed
esito.
Analisi Log lineare
• Per verificare se il modello rappresenta
sufficientemente i dati si può
considerare il test sull’ipotesi nulla che
λ sia uguale a zero attraverso i limiti di
falsificazione della distribuzione z (+1.96)
Analisi Log lineare
4. Valutazione della bontà del
modello
Il Goodness of fit test è basato sul Χ2 e
testa la probabilità che quel particolare
modello (Fij ) rappresenti bene i dati
sperimentali (Fij ). È calcolato tramite la
formula:
  
2
i
j
Fij  Fˆij 
2
Fˆij
Analisi Log lineare
Il Likelyhood ratio test: la probabilità
che raccolti quei dati sperimentali essi
siano generati dal modello ed è dato dal
logaritmo del rapporto fra valori
sperimentali e teorici per tutte le
possibili condizioni.
Fij
L  2 F ln
ˆ
F
i
j
2
ij