Statistica multivariata Donata Rodi 04/11/2016 La regressione logistica • Costruzione di un modello che interpreti la dipendenza di una variabile categoriale dicotomica da un insieme di variabili esplicative • Trasformazioni da applicare alla variabile categoriale affinché possa essere opportunamente inserita come variabile dipendente di un modello • Stima dei parametri del modello e loro interpretazione Rodi, 2016 La regressione logistica • I modelli logistici appartengono alla famiglia dei modelli lineari generalizzati che allargano l’uso dei modelli di regressione lineare alle variabili casuali non normali, in particolare binomiali. • Scopo: trovare il modello interpolante che meglio si adatta ai dati, per descrivere la relazione tra la variabile dipendente e la variabile indipendente. • Stessi principi generali usati nella regressione lineare • Differenze nella scelta del modello parametrico e nelle assunzioni Rodi, 2016 Modelli di regressione Rodi, 2016 La regressione logistica Inserimento di una variabile categoriale in un modello di regressione: occorre una trasformazione in modo che acquisisca la natura di “variabile quantitativa”. 1. Codifica: assegnazione di un valore numerico alle categorie (si introduce un elemento di arbitrarietà); 2. Uso delle frequenze (relative) con cui le categorie (o modalità) della variabile si presentano all’osservazione Rodi, 2016 Esempio AgeGroup x n CHD Absent (Y=0) CHD Present (Y=1) Mean (Proportion) 20-29 10 9 1 0.10 30-34 15 13 2 0.13 35-39 12 9 3 0.25 40-44 15 10 5 0.33 45-49 13 7 6 0.46 50-54 8 3 5 0.63 55-59 17 4 13 0.76 60-69 10 2 8 0.80 Total 100 57 43 0.43 Mean • proporzione di persone che hanno la caratteristica y=1 (dato x) nel campione Rodi, 2016 Stima dei valori condizionati Mean: stima dei valori attesi condizionati E(y│x) Ey x π(x) • proporzione ignota nella popolazione di soggetti che assumono la caratteristica di interesse y fissato x. • le proporzioni calcolate nella colonna ‘Mean’ sono stime per π(x) Rodi, 2016 Forma della funzione logistica • E(Y=1│X) • La proporzione di disturbi cardiaci aumenta al’aumentare dell’età • Forma sigmoidale • Crescente o decrescente • Asintoto alto e basso Rodi, 2016 Modello di regressione logistica • La relazione tra media condizionata (CHD) e età non ha andamento lineare E(y | x) πx 1 1e β 0 β 1 x e β 0 β1 x 1 e β 0 β1 x (1) • Il modello di regressione per y è: Rodi, 2016 Il parametro β β=1 -10 -5 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Y 0 5 β=2 10 X -10 -5 0 5 10 X 1,2 1 0,8 Titolo asse Y 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,6 0,4 0,2 0 β=4 -10 -5 0 Titolo asse 5 10 Rodi, 2016 Il parametro β β<0 ββ>0 >0 .. β>O π(x) π(t) " Il parametro β determina il tasso di crescita o di decremento della curva Rodi, 2016 eβ 0 β1x 1 1 π(x) β 0 β1x β 0 β1x β 0 β1x 1 e 1 e 1 e β 0 β1x β 0 β1x β 0 β1x e e e 1 1 e β 0 β1x 1 e β 0 β 1 x e β 0 β 1 x 1 1 - πx β 0 β 1 x β 0 β 1 x 1e 1e π(x) β 0 β 1 x logit π(x) ln 1 π(x) (2) Rodi, 2016 Funzione logistica • Funzione flessibile e di facile uso • L’esponenziale di logit (π(x) è il rapporto tra due probabilità (Odds) π(x) β 0 β1 x β 0 β1 x β0 β1 odds(x) e e e e e 1 π(x) x Rodi, 2016 Odds Ratio π(x 1) odds(x 1) 1 π(x 1) OR(x) π(x) odds(x) 1 π(x) e β 0 β1 (x 1) e β 0 β1x β1 β 0 β1x β 0 β1x e β1 , x e e • Rapporto tra due odds in cui il numeratore è definito per qualunque incremento unitario di X rispetto al denominatore Rodi, 2016 Esempio Confronto tra odds non tra probabilità!!! L’evento tra le donne accade 4 volte più facilmente che tra gli uomini Rodi, 2016 Regressione lineare Regressione logistica • β1 esprime l’entità dell’effetto della • β1 esprime l’entità dell’effetto della variabile X sul valore atteso condizionato di y • E’ il tasso di variazione di E(y│x) per ogni incremento unitario di x. variabile x sul logit((x)) logit π(x 1) logit π(x) β 0 β1 (x 1) β 0 β1x β1 , x E(y | x 1) E(y | x) β 0 β1 (x 1) β 0 β1x β1 , x Rodi, 2016 Legge di distribuzione • La variabile dipendente y non ha legge di distribuzione Normale: cade anche l’ipotesi di normalità degli errori • La distribuzione bernoulliana descrive la distribuzione degli errori e quindi sarà la distribuzione su cui l’analisi statistica è incentrata. 17 Rodi, 2016 Omoschedasticità • Le variabili casuali di tipo discreto sono caratterizzate dall'avere media e varianza legate da relazioni “naturali” • Nel caso specifico, le v.c. di Bernoulli yi|xi sono caratterizzate dall'avere una media pari a i1 e varianza pari a i1 (1- i1) • La varianza allora non è più costante ma varia al variare dai valori assunti dalla media: eteroschedasticità. • Non è più possibile stimare i coefficienti di regressione con il metodo dei minimi quadrati ordinari. Rodi, 2016 Stima dei parametri Modello con una sola variabile indipendente Funzione di massima verosimiglianza Rodi, 2016 Metodo di stima • Il modello dei minimi quadrati non da stimatori altrettanto efficienti e corretti • Criterio della massima verosimiglianza condizionata: determinazione dei valori per i parametri ignoti in modo da massimizzare la funzione di verosimiglianza • Individuare quella distribuzione di probabilità che più verosimilmente ha generato il campione di osservazioni. La funzione di verosimiglianza esprime, infatti, la probabilità che si verifichi la n-upla campionaria in funzione dei parametri incogniti . Rodi, 2016 Stime di Massima Verosimiglianza Parametro Intercept Age Stima Errore Stima Exp(Est) standard standardizzat a -5.0907 1.0975 0.1050 0.0231 0.006 0.6958 1.111 Equazioni del modello stimato: forma additiva: logit ˆ ( Age) 5.0907 0.1050 Age forma moltiplicativa: odds( Age) e5.0907 e0.1050 Age 0.006(1.111) Age Odds ratio: OR( Age) 1.111 Rodi, 2016 Interpretazione di β1 logit π(x 1) logit π(x) β1 • Significato della differenza tra due logit Rodi, 2016 Matrice di covarianza stimata Parametro Intercept Age Intercept 1.204576 -0.02474 Age -0.02474 0.000533 Standard error: ^ ˆ 0 ) 1.204576 1.0975 S .E.( ^ ˆ ) 0.000533 0.0231 S .E.( 1 Rodi, 2016 Bontà di adattamento del modello • Verifica complessiva • Verifica di confronto tra due modelli • Verifica della significatività del singolo parametro 24 Rodi, 2016 Verifica complessiva • Confronto fra valori osservati e valori teorici • Devianza • Nella regressione lineare la valutazione della bontà di adattamento del modello viene effettuata con il teorema di scomposizione della devianza n n 2 2 SSR SST SSE y i y y i ŷ i i 1 i 1 Varianza Spiegata Rodi, 2016 Indice di determinazione multipla 2 ŷ y i n R2 SSR SST i 1 n 2 y y i Regressione lineare i 1 2 y ŷ i i n 1 SSE 1 i n1 2 SST y y i i 1 Rodi, 2016 Indice di Cox e Snell L(0) R 1 ˆ L(β) 2 2 n Regressione logistica L(0): valore della funzione di verosimiglianza calcolato per l’emptymodel (modello che contiene solo l’intercetta) L(β): valore della funzione di verosimiglianza Rodi, 2016 Indice di Nagelkerke 2 R ~2 R 2 Rmax 2 Rmax ~2 R L(0) 1 ˆ L(β) 2 1 L(0)n 2 n 1 L( 0) 2 n =0 adattamento nullo del modello = max perfetto adattamento del modello ai dati Rodi, 2016 Significatività dei parametri Likelihood Ratio test La variabile dipendente è spiegata meglio dal modello che contiene la variabile indipendente o da quello che non la comprende? H0: β1=0 G D 0 D mod H 0 : β1 β 2 β j β k 0 L(0) 2ln 2 l(0) l( β̂) , L(β̂) G ~ χ k2 as. Rodi, 2016 Significatività dei singoli parametri Wald test ˆ j Wj ^ ˆ j) S .E.( 2 Distribuzione del χ2 con 1 DF Analisi delle stime di massima verosimiglianza Parametro DF Stima Errore standard Chi-quadrato Wald Pr > ChiQuadr Exp(Est) Intercept 1 -5.0907 1.0975 21.5143 <.0001 0.006 Age 1 0.1050 0.0231 20.7089 <.0001 1.111 Rodi, 2016