Analisi statistica multivariata La regressione logistica Autore Alesando Lubisco Stefania Mignani Marilena Pillati La regressione logistica Introduzione Si vuole descrivere la relazione di dipendenza del possesso di un attributo dicotomico da una o più variabili indipendenti (X1, X2, …, Xp)=X, di natura qualsiasi (cioè, indifferentemente, quantitative o qualitative). Alcuni esempi di attributi dicotomici: • • • • per un soggetto che ha ottenuto un prestito, la restituzione/non-restituzione del prestito; per una banca, il fallimento/sopravvivenza dopo un dato periodo di tempo, per un cliente, il riscontro positivo/negativo ad un’offerta promozionale, per un paziente sotto osservazione, la presenza/assenza di una data malattia. La regressione logistica Introduzione Gli obiettivi possono essere molteplici: • individuare tra le variabili indipendenti quelle a maggiore potere esplicativo, che vanno quindi interpretate come determinanti del possesso o meno dell’attributo: a seconda che siano correlate positivamente o negativamente con il fenomeno studiato possono essere considerate rispettivamente come fattori di rischio o come fattori di protezione; • ricercare la combinazione lineare delle variabili indipendenti che meglio discrimina fra il gruppo delle unità che possiedono l’attributo e quello delle unità che non lo possiedono; • stimare la probabilità del possesso dell’attributo per una nuova unità statistica su cui è stato osservato il vettore di variabili X e, fissato per tale probabilità un valore soglia, classificare l’unità alla categoria delle unità che possiedono l’attributo o a quello delle unità che non lo possiedono. La regressione logistica Assunzioni e specificazione del modello Si tratta di costruire un modello di regressione per Y, variabile risposta dove Y dicotomica a valori 0 e 1, corrispondenti rispettivamente all’assenza e alla presenza dell’attributo. In un modello di regressione la quantità che si ipotizza funzione di X è il valore medio aritmetico della variabile dipendente Y condizionato ad un dato x, E(Y|x). Nel caso del modello di regressione logistica, questo valor medio condizionato corrisponde a P(Y=1|x), cioè alla probabilità di possedere l’attributo in esame condizionata al fatto che il vettore delle variabili indipendenti assume valore x. Si vuole descrivere la funzione che lega tale probabilità, che indicheremo con π(x), alla combinazione delle variabili indipendenti. Il modello di regressione per Y è dunque: Y = π (x ) + ε Un modello di regressione lineare sarebbe del tutto inappropriato a questo scopo. Una funzione lineare di X, essendo non limitata (né inferiormente, né superiormente), potrebbe dare luogo a valori stimati di π(x) esterni all’intervallo [0, 1], e quindi privi di senso. La regressione logistica Assunzioni e specificazione del modello Nel modello di regressione lineare l’errore si distribuisce normalmente, con media nulla e varianza costante. Questa assunzione non è valida quando Y è una variabile dicotomica, perché in tal caso l’errore può assumere solo 2 valori: 1 − π ( x ) con probabilità π ( x ) − π ( x ) con probabilità 1 − π ( x ) , ε = Y − π (x ) = con media E (ε ) = [1 − π ( x )]π ( x ) − π ( x )[1 − π ( x )] = 0 e varianza V (ε ) = [1 − π ( x )] π ( x ) + π ( x ) [1 − π ( x )] = π ( x )[1 − π ( x )], 2 2 che dipende dal valore di X, quindi non è costante. La variabile aleatoria Y x segue quindi la distribuzione di Bernoulli Ber( π ( x ) ) con y (1− y ) f ( y x ) = π ( x ) [1 − π ( x )] con E (Y x ) = π ( x ) e V (Y x ) = π ( x )[1 − π ( x )] La regressione logistica Il modello Per descrivere la relazione di dipendenza della probabilità π ( x ) = P(Y = 1 | x ) dai valori di X=(X1, X2, …, Xp) Si può usare la distribuzione logistica1: p π (x ) = e β0 + ∑ β j x j β 0 + β1x1 + β 2 x2 +...+ β p x p 1+ e β 0 + β1x1 + β 2 x2 +...+ β p x p = e j =1 p 1+ e β0 + ∑ β j x j . j =1 Il grafico di tale funzione descrive una curva monotona a forma di S allungata (detta “sigmoide”), limitata superiormente dalla retta y = 1 e inferiormente dalla retta y = 0 , alle quali tende asintoticamente. Si considerino i seguenti due esempi riferiti al caso, più semplice, in cui vi è una sola variabile esplicativa, X, continua: La regressione logistica Il modello Si considerino i seguenti due esempi riferiti al caso, più semplice, in cui vi è una sola variabile esplicativa, X, continua: 1 0 -5 -3 -1 1 3 5 grafico della funzione ex π (x ) = 1+ ex grafico della funzione e 2− x π (x ) = 1 + e 2− x (quindi, β0 = 0 e β1 = 1 ) 1 0 -2 0 2 4 6 (quindi, β0 = 2 e 1 β1 = −1 ) La regressione logistica Il modello Si consideri, ora, la seguente funzione di π ( x) logit (π ( x ) ) = ln ; 1 − π ( x ) π ( x) , detta logit, (3) Che è il logaritmo naturale del rapporto della probabilità condizionata di possedere l’attributo alla probabilità condizionata di non possederlo. Il rapporto fra probabilità associate ad una dicotomia, cioè fra probabilità complementari, è detto odds Sostituendo è possibile dimostrare che p logit (π ( x ) ) = β 0 + ∑ β j x j j =1 Quindi, mentre π ( x ) è funzione non lineare delle variabili X1, X2, …, Xp, il logaritmo dell’odds , detto logit, è funzione lineare delle stesse. La regressione logistica I modelli lineari generalizzati Il modello logistico appartiene alla famiglia dei modelli lineari generalizzati (in inglese GLM, generalized linear models). Un modello lineare generalizzato mette in relazione una funzione del valore atteso della variabile dipendente Y con le variabili esplicative attraverso un’equazione lineare. Esso è specificato da tre componenti: • la componente aleatoria: Y1, Y2, …Yi, …, Yn , costituita da un insieme di variabili aleatorie assunte reciprocamente indipendenti e con distribuzione di probabilità appartenente alla famiglia esponenziale, • la componente sistematica: p ∑β jxj , j =1 che specifica una combinazione lineare delle variabili esplicative nel modello • la funzione legame: p g (E (Yi ) ) = ∑ β j xij , j =1 che mette in relazione la componente aleatoria e la componente sistematica del modello, specificando quale funzione g del valore atteso di Yi dipende linearmente dalle variabili esplicative. La regressione logistica I modelli lineari generalizzati Specificando diverse funzioni come funzioni legame si ottengono i seguenti casi particolari di modello lineare generalizzato: • prendendo come funzione legame la funzione identità, g (E (Yi )) = E (Yi ) , si ottiene p E (Yi ) = ∑ β j xij j =1 che è il tradizionale modello di regressione lineare • E (Yi ) , si ha 1 − E (Yi ) prendendo come funzione legame la funzione logit, g (E (Yi ) ) = ln E (Yi ) p ln = ∑ β j xij 1 − E ( Y ) i j =1 che, posto Yi dicotomica a valori 0 e 1, è il modello di regressione logistica • prendendo come funzione legame la funzione logaritmo, g (E (Yi ) ) = ln[E (Yi )] , si ha p ln[E (Yi )] = ∑ β j xij j =1 che è denominato modello log-lineare. La regressione logistica Stima dei parametri Poiché non vale l’omoschedasticità dei residui non è possibile adottare il metodo di stima dei minimi quadrati. Si può usareil metodo della massima verosimiglianza. Consideriamo, per semplicità il modello con una sola variabile indipendente, X, π (x ) = e β 0 + β1x 1 + e β 0 + β1x , in termini di logit π (x ) g (x ) = ln = β 0 + β1 x π − x 1 ( ) Ricordando l’ipotesi di indipendenza reciproca delle variabili campionarie del campione osservato y1 , ..., yi , ..., y n si scrive: n n i =1 i =1 L(β 0 , β1 ) = ∏ f ( yi xi ) =∏ π ( xi ) i [1 − π (xi )] y (1− yi ) Y1 , ..., Yi , ..., Yn , la funzione di verosimiglianza La regressione logistica La stima dei parametri Ricaviamo la funzione di log-verosimiglianza: n l (β 0 , β1 ) = ∑ {yi ln[π ( xi )] + (1 − yi ) ln[1 − π ( xi )]} = i =1 π ( xi ) = ∑ yi ln + ln [ 1 − π ( x ) ] = i ( ) 1 − x π i i =1 n e β0 + β1xi = ∑ y i (β 0 + β1 xi ) + ln1 − β 0 + β1xi i =1 1+ e n n 1 = ∑ y i (β 0 + β1 xi ) + ln 1 + e β0 + β1xi i =1 n { [ = ]} = ∑ yi (β 0 + β1 xi ) − ln 1 + e β 0 + β1xi . i =1 = La regressione logistica La stima dei parametri Calcolando le derivate parziali della (4) rispetto ai parametri β0 e β1, e ponendole uguali a 0, si ricava il sistema delle equazioni di verosimiglianza, la cui soluzione restituisce le stime di massima verosimiglianza, che indichiamo rispettivamente con b0 e b1 : n 1 b0 + b1xi e =0 ∑ y i − b0 + b1xi 1 e + i =1 n 1 e b0 +b1xi xi = 0 ∑ y i xi − b0 + b1xi 1+ e i =1 Le equazioni ottenute non sono lineari nelle incognite b0 e b1 , quindi la loro soluzione non è immediata, ma richiede l’impiego di metodi numerici iterativi comunemente implementati nei software di analisi statistica dei dati. La regressione logistica La stima dei parametri Gli stimatori di massima verosimiglianza godono della proprietà di equivarianza rispetto a trasformazioni funzionali differenziabili la stima di π (xi ) risulta quindi: πˆ (xi ) = e b0 +b1xi 1 + e b0 +b1xi , e rappresenta il valore di Y stimato dal modello di regressione logistica in corrispondenza di X=xi. Asintoticamente, sotto condizioni non particolarmente restrittive, gli stimatori di massima verosimiglianza sono corretti, normodistribuiti ed efficienti. La regressione logistica Verifica d’ipotesi Queste proprietà permettono di costruire opportune statistiche-test per il controllo di ipotesi sui parametri e di costruire intervalli di confidenza per i parametri incogniti. n0 n n1 1 n0 n n verosim. modello senza la variabile G = −2 ln = −2 ln n ( 1 − y ) i verosim. modello con la variabile y ∏ πˆ ( xi ) i [1 − πˆ ( xi )] i =1 Tale statistica-test è detta “test rapporto di verosimiglianza” (likelihood ratio test). Sotto l’ipotesi zero H0:β1=0 che l’inserimento della variabile X nel modello non apporti un contributo significativo1, nell’universo dei campioni la variabile campionaria G si distribuisce asintoticamente come una variabile aleatoria χ (21) ; confrontando il p-value corrispondente al valore gcalc di G, calcolato sul campione osservato, con un prefissato livello di significatività α è possibile concludere circa l’ipotesi H0: P( χ (1) >gcalc)< α 2 P( χ (21) >gcalc)> α → rifiuto H0 → non rifiuto H0 La regressione logistica Interpretazione dei parametri Nel modello semplice di regressione lineare il valore di β1 rappresenta la variazione media di Y al crescere di un’unità di X. Nel modello semplice di regressione logistica π (x ) = e β 0 + β1x 1 + e β 0 + β1x , in termini di logit π (x ) g ( x) = ln = β 0 + β1 x , 1 − π ( x ) si ha che g ( x + 1) − g (x ) = β 0 + β 1 (x + 1) − β 0 − β 1 x = β 1 β 1 esprime la variazione del logit corrispondente ad un incremento unitario di X. Per l’interpretazione numerica si devono distinguere diverse situazioni La regressione logistica Variabile indipendente dicotomica X indica l’assenza o la presenza di un dato attributo, assumendo rispettivamente i valori 0 e 1. Allora anche l’odds assumerà solo due valori, qui di seguito riportati: P(Y = 1 | X = 0) π (0) = , 1 − P(Y = 1 | X = 0) 1 − π (0) P(Y = 1 | X = 1) π (1) = . 1 − P(Y = 1 | X = 1) 1 − π (1) Il rapporto dei due valori di odds, detto odds ratio, è uguale a e β 0 + β1 odds ratio = β 0 + β1 π (1) π (0) = 1+ e 1 1 − π (1) 1 − π (0) 1 + e β0 + β1 e β0 1 + e β 0 = e β0 + β1 e β 0 = e β1 . 1 1 + e β0 Quindi, applicando ad entrambi i termini dell’uguaglianza la trasformata logaritmica, si ha π (1) π (1) π (0) π (0) = ln − ln = 1 − π (1) 1 − π (0) 1 − π (1) 1 − π (0) β1 = ln = logit (π (1)) − logit (π (0)) = g (1) − g (0) . Ovvero, β1 misura la variazione nel logit dovuta al possesso dell’attributo descritto da X. La regressione logistica Variabile indipendente categorica o ordinale Sia X una variabile categorica o ordinale a k modalità. Si ricordi le k modalità di X attraverso k − 1 variabili dummy . Se nel calcolo degli odds ratio il gruppo delle unità portatrici della modalità corrispondente all’annullamento di tutte le dummy viene preso come “gruppo di riferimento” quel tipo di codifica garantisce che il logaritmo dell’odds ratio del gruppo delle unità che portano l’i-esima modalità di X rispetto al gruppo di riferimento è (per i=1, …, k-1): odds per X = modalità i - esima = ln odds per X = modalità di riferiment o = ln(odds per X = modalità i - esima ) − ln(odds per X = modalità di riferimento ) = = g (D1 = 0, ..., Di = 1, ..., Dk −1 = 0) − g (D1 = 0, ..., Di = 0, ..., Dk −1 = 0) = = β 0 + β1,1 0 + ... + β1,i 1 + ... + β1,k −1 0 − (β 0 + β1,1 0 + ... + β1,i 0 + ... + β1,k −1 0) = β1,i Quindi, l’odds ratio di questo gruppo rispetto al gruppo di riferimento è uguale a e β1,i ; La regressione logistica Variabile indipendente continua Per X continua, espressa in una data unità di misura, si ha che odds per X = x + 1 = ln(odds per X = x + 1) − ln (odds per X = x ) = ln odds per X = x = g ( x + 1) − g ( x ) = β 0 + β1 ( x + 1) − (β 0 − β1 x ) = β1 ; quindi l’odds ratio corrispondente ad un incremento unitario di X è uguale a e β1 . Se, ai fini interpretativi, è più interessante considerare un incremento di c unità (c ≠ 1) piuttosto che un incremento unitario di X, allora il logaritmo dell’odds ratio corrispondente è uguale a odds per X = x + c = β 0 + β1 ( x + c ) − (β 0 − β1 x ) = cβ1 ln odds per X = x e quindi l’odds ratio per un incremento di X pari a c unità vale e cβ1 . La regressione logistica Valutazione della bonta’ di adattamento Vogliamo valutare quanto il modello adattato sia efficace nel descrivere la variabile dipendente Y, ovvero valutare la bontà di adattamento (goodness of fit). Occorre definire cosa significa che un modello è “adatto” o “adeguato” a descrivere il fenomeno in esame. Scelta un’opportuna misura sintetica della differenza tra i valori di Y osservati, yi , e quelli stimati dal modello, ŷ i ( i = 1, ..., n ), un modello è adeguato se produce valori “piccoli” di questa misura e se il contributo dell’i-esimo confronto a tale misura rientra nei limiti della variabilità intrinseca del fenomeno, descritta dal termine d’errore del modello. Quindi una valutazione completa del grado di adeguatezza del modello richiede: Il calcolo di opportune misure di sintesi sui residui del modello (indicative dell’adattamento globale del modello) un esame accurato dei singoli residui, spesso attraverso un’ispezione grafica La regressione logistica Misure sintetiche della qualità dell’adattamento Danno un’indicazione dell’adattamento globale del modello sul complesso delle unità statistiche osservate: valori “grandi” segnalano una bassa qualità del modello, ma valori “piccoli” non escludono la possibilità che per qualche unità si verifichi un adattamento particolarmente scarso Esistono modi alternativi di misurare la divergenza tra il valore osservato per la variabile risposta e il corrispondente valore stimato dal modello, cioè di misurare i residui. In particolare, i residui più comunemente impiegati sono: il residuo di Pearson e il residuo di deviance. Sia J il numero di combinazioni diverse (covariate pattern),di valori delle variabili indipendenti osservate nelle n unità statistiche ( J < n ), che corrisponde al numero di logit stimati dal modello di regressione logistica. Sia nk il numero di unità statistiche che portano una generica combinazione di valori xk, k=1,…, J. Siano y k e ŷ k rispettivamente il numero osservato e il numero stimato di unità statistiche per cui Y=1 in corrispondenza del suddetto covariate pattern yˆ k = nk πˆ ( x k ) = nk e gˆ ( xk ) 1 + e gˆ ( xk ) xk , cioè La regressione logistica Misure sintetiche della qualità dell’adattamento Poiché ognuno dei J valori yk corrisponde a una numerosità differente nk e ad una differente probabilità di successo πˆ ( xk ) = πˆ k , i residui ( y k − ŷ k ) sono difficili da interpretare. La confrontabilità può essere ottenuta dividendo ciascun residuo per il corrispondente scarto quadratico medio, ottenendo il residuo di Pearson. Tale residuo per il generico covariate pattern x k è così definito: r ( y k , πˆ k ) = y k − nk πˆ k nk πˆ k (1 − πˆ k ) . Il corrispondente residuo di deviance si definisce come segue: 1 nk − yk 2 yk + (nk − yk ) ln , d(yk , ˆ πk ) = 2yk ln n π n ( 1 − π ) ˆ ˆ k k k k dove il segno è quello di ( y k − yˆ k ) . La regressione logistica Misure sintetiche della qualità dell’adattamento Le misure sintetiche di adattamento globale che si basano su questi due tipi di residui sono costruiti come somma dei quadrati dei residui. Nel caso dei residui di Pearson si ha la statistica chi-quadrato di Pearson: χ 2 = ∑ r ( y k , πˆ k )2 , k Se si adoperano i residui di deviance, la somma dei loro quadrati è la deviance: D = ∑ d ( y k , πˆ k ) , 2 k La distribuzione asintotica di queste due statistiche nell’universo dei campioni nell’ipotesi che il modello adattato rappresenti adeguatamente i dati è quella di un χ (2J −( p +1)) La distribuzione asintotica di queste due statistiche nell’universo dei campioni nell’ipotesi che il modello adattato rappresenti adeguatamente i dati è quella di un χ (2J −( p +1)) Valori “piccoli” della statistica indicano un buon adattamento, mentre valori grandi suggeriscono che il divario tra l’osservato e l’atteso non è da attribuire al solo errore di campionamento. Quindi se il valore calcolato della statisticatest non è significativo, ovvero che il corrispondente p-value è maggiore di un livello α prefissato, l’ipotesi zero di La regressione logistica Diagnostiche sui residui L’ispezione dei residui consente in primo luogo di controllare la validità delle assunzioni dalle quali l’analisi ha preso le mosse. Per esempio, è possibile controllare l’ipotesi di linearità della relazione fra il logit(P[Y=1|X=x]) e un dato regressore continuo X attraverso la rappresentazione grafica dei punti di coordinate (xk , yˆ k ) , per k=1, …, J (con J ≤ n ). Se la numerosità campionaria non è troppo elevata, può essere utile analizzare un semplice grafico dei residui (in ordinata) corrispondenti alle varie unità statistiche (elencate in ascissa). Dato che in un buon modello i residui dovrebbero essere prossimi allo 0, l’utilità di questo grafico sta nella possibilità di evidenziare la presenza di residui “grandi” (in valore assoluto; di solito esterni all’intervallo [-2, 2]), cioè di valori che il modello non è in grado di spiegare. Un altro grafico utile per valutare l’adeguatezza del modello è quello contenente i valori stimati in ascissa e i residui in ordinata: in un buon modello tali punti dovrebbero essere disposti casualmente intorno all’asse delle ascisse. Se invece si evidenziano andamenti particolari potrebbe non essere corretta la scelta del logit come funzione legame. Questa eventualità può rappresentare una spiegazione anche per comportamenti difformi dall’atteso nel grafico che controlla la normalità dei residui. La ricerca di valori anomali può essere effettuata anche valutando la differenza nella stima dei parametri conseguente all’esclusione dal data set di un’unità alla volta