Statistica Industriale Lez. 9 La regressione logistica Supponiamo che la variabile di interesse y sia una variabile dicotoma, che assuma solo i valori 0 ovvero 1, corrispondenti a successo o insuccesso. Sia p = P (S) = P (Y = 1) la probabilità di osservare un successo. In molte applicazioni è realistico pensare che p dipenda dal valore di una qualche variabile x quantitativa, o anche da più di una, p = p(x). Ad esempio la probabilità che una macchina abbia bisogno del servizio di soccorso può dipendere dai km percorsi, dal numero di interventi di manutenzione, etc. Se supponiamo un modello lineare del tipo Y = β0 + β1x1 + . . . + βk xk + ε allora E(Y |x) = p(x) = β0 + β1x + . . . + βk xk = β · x non sembra essere realistico in quanto deve essere 0 < p(x) < 1 per ogni x. Si richiede allora a E(Y |x) di essere una funzione di β0 + β1x + . . . + βk xk . La funzione che si è dimostrata utile in molte applicazioni è la funzione ez . Si suppone quindi che il legame sia logistica f (z) = 1+e z eβ·x E(Y |x) = p(x) = 1 + eβ·x ovvero logitp(x) = ln p(x) =β·x 1 − p(x) 1 0.8 0.6 0.4 p(x) 0.6 0.4 β1 > 0 0.0 0.0 0.2 β1 < 0 0.2 p(x) 0.8 1.0 1.0 Statistica Industriale Lez. 9 0 2 4 6 x 8 10 0 2 4 6 8 10 x I grafici rappresentano la funzione p(x) per particolari valori di β0 e β1. In particolare per β1 < 0 la probabilità di successo decresce al crescere di x, mentre per β1 > 0 la probabilità del successo cresce al crescere di x. p(x) La funzione 1−p(x) è detto ODDS RATIO e rappresenta quante volte il successo è più plausibile dell’insuccesso. 2 Statistica Industriale Lez. 9 La regressione logistica è una caso particolare di Modello lineare generalizzato (glm). In questi modelli è una trasformazione (tramite la link function) di E(Y ) che segue un modello lineare. Nel modello logit la link function è la funzione logit. Abbiamo infatti p E(Y ) = p ln =β·x 1−p La stima dei parametri avviene, una volta costruita la funzione di verosimiglianza per le osservazioni Yi, con metodi iterativi in quanto non si riesce a dare una forma esplicita al massimo della logverosimiglianza. Il metodo usato è l’IWLS (iterative weighted least squares). Si noti che nella regressione logistica si ipotizza che Y è distribuita come una Binomiale con parametri n = 1 e p incognita. Si può dimostrare che asintoticamente i parametri si distribuiscono normalmente per cui si possono effettuare i test di significatività sui parametri, e quando ci sono più parametri i test sull’opportunità di includerli nel modello. 3 Statistica Industriale Lez. 9 Esempio: Si considerino i dati relativi alla temperatura di lancio e all’incidenza dei fallimenti per gli O rings in 24 lanci dello Space Shuttle prima del disastro del Challenger nel gennaio 1986. 1 2 3 4 5 6 7 8 Temp 53 56 57 63 66 67 67 67 Failure Y Y Y N N N N N 9 10 11 12 13 14 15 16 Temp 68 69 70 70 70 70 72 73 Failure N N N Y Y Y N N 17 18 19 20 21 22 23 24 Temp 75 75 76 76 78 79 80 81 Failure N Y N N N N N N In questo caso abbiamo solo una variabile esplicativa, Temp. Ipotizziamo un modello logistico per l’incidenza dei successi (No Failure= successo). p(x) ln = β0 + β1 x 1 − p(x) p(x) è la probabilità di successo, ovvero di Failure=No, quando osserviamo T emp = x. 4 Statistica Industriale Lez. 9 I valori dei parametri stimati sono riportati nella seguente tabella (Intercept) Temp Estimate −10.8753 0.1713 Std. Error 5.7029 0.0834 z value −1.91 2.05 Pr(>|z|) 0.0565 0.0400 La curva stimata per p(x) è data da 1.0 La funzione p(x) stimata ● ● ● ● ● ● 0.8 ● ● ● ● ● 0.6 ● p(x) ● 0.4 ● ● 0.2 ● ● 50 55 60 65 70 75 80 85 x Siamo in grado anche di stimare l’odds ratio per x = 31 (Temp per il Challenger esploso) che vale 0.0038172 cioè la probabilità di un successo (N) è 0.004 volte quella di un insuccesso (Y). 5 Statistica Industriale Lez. 9 Regressione non lineare A volte, per motivi teorici o esaminando i risultati della diagnostica basata sull’analisi dei residui, il modello lineare semplice o multiplo può risultare non adatto a spiegare la variabilità della variabile y. Si ricorre allora a modelli alternativi. Consideriamo una vasta gamma di modelli che non sono lineari nei parametri o nella variabili esplicative. Supponiamo che il legame tra le variabili y e x sia del tipo y = f (x) ma a causa di un errore non osserviamo y ma il valore di una v.c. Y = f (x) + ε In generale f è una funzione che dipende da un certo numero di parametri (θ) e da un certo numero di variabili esplicative x. Il termine di errore ε si suppone normalmente distribuito. Se la forma della funzione f è nota a meno di un numero finito di parametri si parla di regressione parametrica. Se la f è totalmente incognita si parla di regressione non parametrica. 6 Statistica Industriale Lez. 9 Se il modello è del tipo Y = f (x, θ) + ε, θ = (θ1, . . . , θp), E(ε) = 0, V ar(ε) = σ 2 supponiamo di avere n osservazioni indipendenti (xi, yi) che soddisfano yi = f (xi, θ) + εi, θ = (θ1, . . . , θp), εi i.i.d, E(εi) = 0, V ar(εi) = σ 2 Introducendo la notazione matriciale y = (y1, . . . , yn)0, f (x, θ) = (f (x1, θ), . . . , f (xn, θ))0, = (ε1, . . . , εn)0 la stima ai minimi quadrati è data da θ̂ = argminθ SSE, dove SSE = |y − f (x, θ)|2 = n X (yi − f (xi, θ))2 i=1 La procedura che ci da la stima θ̂ si chiama NLS (non linear least squares) e differisce da quella OLS in quanto: a) non c’è una formula esplicita per la stima θ̂ b) per trovare θ̂ si usano procedure iterative c) occorre fornire dei valori iniziali ai parametri 7 Statistica Industriale Lez. 9 La procedura iterativa Seppure esistano numerose tecniche per trovare θ̂ = argminθ SSE, molte seguono questo schema. Sia θ(0) un valore iniziale del parametro θ. Possiamo scrivere f (x, θ) = f (x, θ(0)) + p X (0) ∂ (θj − θj ) f (x, θ) θ=θ(0) ∂θj j=1 Questo definisce un piano tangente alla superficie definita da f nel punto θ(0). Posto ∂ (0) f (xk , θ) θ=θ(0) Fkj (xk , θ ) = ∂θj p X (0) (0) (0) wk = f (xk , θ ) − θj Fkj (xk , θ(0)) j=1 possiamo riscrivere f (x, θ) = w(0) + F (x, θ(0)) · θ, (0) (0) dove w(0) = (w1 , . . . , wn )0 e F (x, θ(0)) è la matrice di componenti Fkj (xk , θ(0)), k = 1, . . . , n, j = 1, . . . , p. 8 Statistica Industriale Lez. 9 Il processo iterativo consiste nel regredire f sul piano tangente con intercetta w(0). Il modello approssimato diviene, posto F (x, θ) = F (θ) y = w(0) + F (θ(0)) · θ e la stima ai minimi quadrati ci da l’approssimazione successiva −1 (1) (0) T (0) θ = F (θ ) F (θ ) F (θ(0))T (y − w(0)) Il processo continua fino a convergenza, cioè fino a quando la differenza tra due valori successivi di θ(k) non è più piccolo di un valore prefissato. La stima θ̂ ottenuta è una approssimazione della stima θ̂ NLS. Si noti che nel modello lineare w(0) = 0, F (θ(0)) = X e il processo converge in un passo. 9 Statistica Industriale Lez. 9 Inferenza per θ̂ Sotto opportune ipotesi (legate alla derivabilità) sulla funzione f si ha che asintoticamente (quando il numero delle osservazioni n → ∞) θ̂ ∼ N (θ, σ 2(F (θ)0F (θ))−1). La stima della varianza asintotica di θ̂ si ottiene sostituendo F (θ) con una sua stima F̂ = F (θ̂) e come stima di σ 2 la quantità s2 = SSE n−p . La stima della matrice di varianza e covarianza di θ̂ risulta quindi s2(F̂ 0F̂ )−1. In analogia a quanto fatto nel caso dell’analisi di regressione multivariata, indichiamo con C = (F̂ 0F̂ )−1. L’intervallo di confidenza (asintotico) a livello di fiducia 1 − α per il parametro θi è dato da q q θ̂i − t1−α/2 s2cii; θ̂i + t1−α/2 s2cii , dove cii sono gli elementi sulla diagonale principale della matrice C. La verifica di ipotesi per la significatività dei parametri θ si basa sulla statistica che asintoticamente si distribuisce come una tn−p. θ̂i − θi0 t= q s2cii 10 Statistica Industriale Lez. 9 Modelli intrinsecamente lineari Una funzione y = f (x) è detta intrinsecamente lineare se attraverso una trasformazione di x, di y o di entrambe le variabili la funzione può essere espressa come y 0 = β0 + β1x0, y 0 = g(y), x0 = h(x). Le più utilizzate funzioni di questo tipo sono descritte nella tabella seguente dove si riportano anche le trasformazioni da applicare per rendere il legame lineare Funzione y = αeβx y = αxβ y = α + β log x y = α + β1 x Trasf. variabile x – x0 = log x x0 = log x x0 = 1 x Trasf. variabile y y 0 = ln y y 0 = ln y – – Forma Lineare y 0 = ln(α) + βx y 0 = ln(α) + βx0 y = α + βx0 y = α + βx0 Un modello probabilistico che lega il valore di una v.c. Y a x è detto intrinsecamente lineare se attraverso una trasformazione di x o di Y o di entrambe le variabili la funzione può essere espressa come Y 0 = β0 + β1x0 + ε0 11 1 2 3 4 5 xβ 0 0 1 2 4 5 0 1 2 x 3 4 5 0 1 2 x 4 6 4 5 y=α 2 5 β<0 y=α 0 −4 2 2 0 α + β1 x 6 −2 3 1 β<0 4 α + β1 x 4 βlog(x) 5 8 4 2 4 x 3 β<0 0 βlog(x) β>0 3 10 x 3 0<β<1 0.0 5 0.5 β>1 1.0 1.5 20 xβ 15 0.6 0.2 0.0 0 0 β<0 10 β>0 50 β<0 0.4 e(βx) e(βx) 100 0.8 2.0 25 1.0 150 Statistica Industriale Lez. 9 0 1 2 3 x 4 5 0 1 2 3 x 4 5 0 1 2 3 x 4 5 0 1 2 3 x 12 Statistica Industriale Lez. 9 I modelli probabilistici che corrispondono alle quattro funzioni della tabella precedente sono Il modello esponenziale moltiplicativo: Y = αeβx · ε Con la trasformazione Y 0 = ln Y otteniamo il modello Y 0 = β0 +β1x0 +ε0 con x0 = x, β0 = ln α β1 = β e ε0 = ln ε. Se ε ha una distribuzione Lognormale 2 2 2 con E(ε) = eσ /2 e V ar(ε) = eσ (eσ − 1) allora ε0 è N (0, σ 2). Il modello con potenza moltiplicativo: Y = αxβ · ε Otteniamo il modello Y 0 = β0 + β1x0 + ε0 con Y 0 = ln Y , x0 = ln x, β0 = ln α 2 β1 = β e ε0 = ln ε. Se ε ha una distribuzione Lognormale con E(ε) = eσ /2 2 2 e V ar(ε) = eσ (eσ − 1) allora ε0 è N (0, σ 2). 13 Statistica Industriale Lez. 9 Il modello logaritmico additivo: Y = α + β log x + ε Otteniamo il modello Y 0 = β0 + β1x0 + ε0 con Y 0 = Y , x0 = log x, β0 = α β1 = β e ε0 = ε. In questo caso ε = ε0 è N (0, σ 2). Il modello reciproco additivo: Y = α + β 1 x +ε Otteniamo il modello Y 0 = β0 + β1x0 + ε0 con Y 0 = Y , x0 = 1 x , β0 = α β 1 = β e ε0 = ε. In questo caso ε = ε0 è N (0, σ 2). Si noti che il modello esponenziale additivo Y = αeβx + ε e il modello con potenza additivo Y = αxβ + ε non sono intrinsecamente lineari. I parametri dei modelli trasformati si possono direttamente stimare utilizzando OLS per i dati trasformati y 0 e x0. Dalle stime di di β̂0 e β̂1 si può eventualmente risalire ai parametri dei modelli di partenza trasformandoli opportunamente. Queste stime in generale non coincidono con quelle ottenute direttamente con NLS sui dati non trasformati. 14 Statistica Industriale Lez. 9 Esempio: I seguenti dati sono tratti dall’articolo Thermal Endurance of Polyester Enameled Wires Using Twisted Wire Specimens, IEEE Trans. Insulation, 1965, 38–44, dove in un test per verificare la resistenza termica si vuole capire il legame tra la temperatura e il tempo di vita del filo di poliestere smaltato. Temp Lifetime 1 200 5933 Temp Lifetime 2 200 5404 10 220 768 3 200 4947 11 220 609 12 220 777 4 200 4963 13 240 258 5 200 3358 14 240 299 6 200 3878 15 240 209 7 220 1561 16 240 144 8 220 1494 17 240 180 9 220 747 18 240 184 I seguenti grafici riportano i dati con varie trasformazioni sia per la variabile x che per la variabile y. 15 ● ● 6000 Lifetime ● ● 4000 4000 ● ● ● ● ● ● ● 2000 6000 ● 2000 Lifetime Statistica Industriale Lez. 9 ● ● ● ● ● ● 200 210 220 230 0 0 ● ● 240 ● ● 0.0042 0.0044 ● ● ● ● ● 220 Temp 230 240 7 ● ● 6 6 ● ● ● ● 5 log(Lifetime) 7 ● ● 210 0.0050 ● ● ● ● ● 8 ● ● ● ● ● 200 0.0048 1/Temp 5 log(Lifetime) 8 Temp 0.0046 ● ● ● ● ● 0.0042 0.0044 0.0046 0.0048 0.0050 1/Temp 16 Statistica Industriale Lez. 9 Se applichiamo il modello lineare semplice Y = β0 + β1x + ε otteniamo la retta riportata in figura 3000 ● ● ● ● ● 2000 Lifetime 4000 5000 6000 Modello 1 1000 ● ● ● ● −1000 0 ● ● ● ● 200 210 220 230 240 Temp Le stime dei parametri sono β0 = 26925.64 e β1 = −113.37, entrambi significativi, la statistica r 2 = 0.8113 denota un discreto adattamento ma dal grafico si nota come i valori previsti per x = 240 siano negativi (y è un tempo di attesa!) L’analisi dei residui mostra delle patologie per cui il modello lineare non sembra adatto a spiegare la dipendenza di y da x. 17 Statistica Industriale Lez. 9 x vs residui y stimati vs residui ● ● ● ● ● ● 210 220 230 1.5 0 2000 3000 y vs y stimati Normal Q−Q Plot ● 1000 ●● ● 3000 y 4000 5000 6000 ● ● ● ● ● ● ● ● ● ● ● ● ● −1.5 2000 4000 ● 1.5 ● Sample Quantiles ● 0 1000 1000 y^i 3000 y^i 0.5 240 ● ● ●● ● 0 ● ● ● xi ● ●● ● ● ● ● 0.5 200 ● ● ● ● ● −0.5 ● ● ● ● −0.5 −0.5 0.5 ● ● −1.5 ● Residui Standardizzati 1.5 ● −1.5 Residui Standardizzati ● ● −2 ● ● ● −1 0 1 2 Theoretical Quantiles 18 Statistica Industriale Lez. 9 La relazione tra ln(y) e x sembra essere lineare per cui ipotizziamo un legame esponenziale del tipo y = αeβx. Il modello trasformato risulta ln y = ln α + βx. Supponendo che il modello probabilistico sia il modello esponenziale moltiplicativo, possiamo stimare con il metodo OLS i parametri del modello trasformato y 0 = β 0 + β 1 x0 Otteniamo i seguenti risultati (Intercept) Temp Estimate 24.0183 −0.0780 Std. Error 0.9350 0.0042 t value 25.69 −18.39 Pr(>|t|) 0.0000 0.0000 Inoltre r2 = 0.95. Questo valore si riferisce all’adattibilità della retta ai dati trasformati. Per misurare la performance del modello è meglio risalire 0 ŷ 0 i dai valori previsti dal modello ŷi tramite l’antitrasformata ai dati ŷi = e e quindi effettuare il grafico di yi contro ŷi 19 Statistica Industriale Lez. 9 Modello 2 y vs y stimati Modello 2 ● ● ● ● ● 3000 8 ● ● y^i 7 ● ● 2000 ● ● ● ● ● 1000 6 log(Lifetime) ● 4000 ● ● ● ●● ● ●● 5 ● ● ● ● 200 210 220 Temp 230 240 ● ● ●●● 0 1000 2000 3000 4000 5000 6000 y Una ulteriore misura della performance del modello può essere valutata andando a calcolare la somma dei residui sui dati di partenza per entrambi i modelli. 20 Statistica Industriale Lez. 9 Osservando il grafico dei dati originari si può anche ipotizzare un modello del tipo y = αe β1 x In questo caso le stime sono (Intercept) I(1/Temp) Estimate −10.2045 3735.4511 Std. Error 0.9366 204.3551 t value −10.89 18.28 Pr(>|t|) 0.0000 0.0000 Si noti che calcolare la stima di s per i tre modelli sui dati originali da questi risultati s1 = 947.0366, s2 = 596.3623, s3 = 591.3055 poichè il numero di parametri utilizzati nei tre modelli è lo stesso si preferisce il terzo. 21 Statistica Industriale Lez. 9 I grafici riportano la retta stimata per i dati trasformati e il grafico dei valori y contro i valori ŷ ottenuti ritrasformando i dati previsti con il modello lineare Modello 3 y vs y stimati Modello 3 ● ● ● ● ● ● 3000 8 y^i 7 ● ● 2000 ● ● ● 1000 6 log(Lifetime) ● ● 4000 ● ● ● ● ● ●● ● ●● 5 ● ● ● ● 0.0042 ● ● ●●● 0.0044 0.0046 1/Temp 0.0048 0.0050 0 1000 2000 3000 4000 5000 6000 y Si noti come l’adattabilità sia lievemente migliorata rispetto al modello 2. 22 Statistica Industriale Lez. 9 Osservazioni 1. Stimare i parametri β0 e β1 del modello lineare trasformato e poi trasformare questi parametri per ottenere i parametri del modello originario non è come stimare con il metodo NLS i parametri del modello non linearizzato. 2. Se i modelli non sono intrinsecamente lineari occorre ricorrere direttamente alla stima dei parametri del modello tramite NLS. Le soluzioni si trovano con procedure iterative 3. Per i modelli trasformati le stime ottenute con OLS sono ottime per la stima dei parametri trasformati. L’ottimalità non si trasmette sulla stima dei parametri dei modelli originari ottenuta trasformando le stime ottenute con OLS. 4. Una volta stimati i parametri del modello trasformato, r2 si riferisce all’adattabilità di questo modello ai dati trasformati. Sebbene un r2 alto sia indice di una buona adattabilità del modello originario non lineare ai dati osservati, questo valore non è riferito alle osservazioni originarie. 23 Statistica Industriale Lez. 9 Minimi quadrati pesati WLS In molti contesti applicativi non è realistico pensare ad errori omoschedastici. Ad esempio se pensiamo ad uno studio sulla dipendenza del profitto di un impresa dal livello di investimenti in ricerca e sviluppo è ragionevole pensare che la variabilià del profitto cresca all’aumentare degli investimenti. 90 85 80 y 95 100 Errori Eteroschedastici 16 18 20 22 24 x 24 Statistica Industriale Lez. 9 Supponiamo che gli errori del modello Y = Xβ + siano tali che E(εi) = 0 e Var(εi) = λiσ 2, Cov(εi, εj ) = 0 con λi noti e σ 2 incognito. Se denotiamo con Ω la matrice (n × n) varianza e covarianza del vettore il miglior stimatore lineare non distorto risulta β̂ = (X T Ω−1X)−1X T Ω−1y β̂ è detto stima ai minimi quadrati pesati (WLS, weighted least squares) in quanto è ottenuto con OLS sui dati trasformati opportunamente in modo da ricondursi ad errori omoschedastici. La matrice varianza e covarianza per lo stimatore β̂ è Varβ̂ = σ 2(X T Ω−1X)−1 25 Statistica Industriale Lez. 9 Esempio: il seguente grafico rappresenta i dati rilevati su 39 aziende relativi agli investimenti effettuati in ricerca e sviluppo (x in migliaia di euro) e il profitto (y in centinaia di migliaia di euro) Scatter−plot 35 ● 30 ● ● ● ● 20 ● ● ● ● ● 15 ● 10 ● ●● ● ● ● ● ● ● ● ● ● ● 0 ● ●● ● ●● 5 y 25 ● ● ● ● ● ● ● ● ● 5 10 15 20 x 26 Statistica Industriale Lez. 9 Dalla regressione lineare otteniamo i seguenti risultati (Intercept) x Estimate 1.7005 1.2850 Std. Error 1.6334 0.1371 t value 1.04 9.37 Pr(>|t|) 0.3046 0.0000 con un standard error pari a s = 4.819 e r2 = 0.7036. 27 Statistica Industriale Lez. 9 L’analisi dei residui mostra una forte eteroschedasticità. 10 ● 10 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● −5 ●● ● ● ● ● ● ● −10 ● −10 ● ● ●● ● ● ●● ● ●● ● ● ● ● −5 ● ● 0 ● ● ● ● ● Residui ●● ● 0 ● 5 5 ● ● Residui ● ● ● ● ● ● 5 10 x 15 ● 20 5 10 15 20 25 Valori Stimati 28 Statistica Industriale Lez. 9 Proponiamo quindi una regressione con errori eteroschedastici e con i WLS otteniamo i seguenti risultati (Intercept) x Estimate 3.0990 1.1232 Std. Error 0.3173 0.0800 t value 9.77 14.03 Pr(>|t|) 0.0000 0.0000 con un standard error pari a 0.7451 e r 2 = 0.8418. 29