Analisi della Regressione Lineare Master in Tecnologie Bioinformatiche 29/09/06 Adriano Decarli 1 29/09/06 Adriano Decarli 2 29/09/06 Adriano Decarli 3 29/09/06 Adriano Decarli 4 29/09/06 Adriano Decarli 5 29/09/06 Adriano Decarli 6 29/09/06 Adriano Decarli 7 29/09/06 Adriano Decarli 8 29/09/06 Adriano Decarli 9 A B μi = β0 + β1 X1i + β2 X2i + β3 X1i X2i μi = β0 + β1 X1i Row group μi = ( β0 + β2 ) + (β1 + β3 )X1i Corner group 29/09/06 Adriano Decarli 10 μi = β0 + β1 X1i + β2 X2i 29/09/06 μi = β0 + β1 X1i Row group μi = ( β0 + β2 ) + β1 X1i Corner group Adriano Decarli 11 μi = β0 + β1 X1i 29/09/06 Adriano Decarli 12 μi = β0 + β2 X2i 29/09/06 Adriano Decarli 13 μi = β0 29/09/06 Adriano Decarli 14 29/09/06 β3 = β1 μi = β0 + β1 X1i + β2 X2i + β31 X1i X2i = X2i = β0 + β1 (1- X2i)X1i + β2 X2i Adriano Decarli 15 Regressione Lineare Semplice • Molte decisioni sono basate sulla relazione esistente fra due o più variabili. • La relazione esistente fra due variabili può essere espressa sottoforma di un equazione. • Nella sua forma più semplice questa equazione può essere lineare: equazione lineare di regressione. • Analisi della Regressione : insieme delle procedure statistiche che studiano il comportamento di una variabile in funzione di una od altre variabili. 29/09/06 Adriano Decarli 16 Le variabili nell’equazione • La variabile ‘predetta’ Y è chiamata variabile dipendente. • La variabile usata come predittore è chiamata variabile indipendente . • La relazione tra una variabile dipendente ed una variabile indipendente approssimata da una retta è chiamata equazione lineare semplice. 29/09/06 Adriano Decarli 17 Diversi possibili modelli X1 X1 X2 X2 Y X2 X1 X1 Y Y 29/09/06 Y X2 Adriano Decarli 18 Regressione lineare semplice : Esempio Profondità a cui un disco bianco non è più visibile nelle acque di un lago y = profondità xVariabile = concentrazione di azoto nell’acqua 10 Dipendente Pendenza y = β 0 + β1 x + ε β0 Depth (m) 8 6 β1 4 2 0 0 4 6 8 10 N/volume water Intercetta 29/09/06 2 Variabile Il residuo misura lo scostamento Indipendente tra il valore atteso dal modello e il valore realmente osservato Adriano Decarli 19 Regressione Lineare Semplice: Esempio : Profondità a cui un disco bianco non è più visibile nelle acque di un lago y = profondità xVariabile = concentrazione di azoto nell’acqua 10 Dipendente Pendenza y = β 0 + β1 x + ε ß0 Depth (m) 8 6 ß1 4 2 0 0 4 6 8 10 N/volume water Intercetta 29/09/06 2 Variabile Il residuo misura lo scostamento Indipendente tra il valore atteso dal modello e il valore realmente osservato Adriano Decarli 20 Regressione Multipla Esempio: y = Profondità x1 = Concentrazione di N x2 = Concentrazione di P 10 10 8 8 6 Depth 6 4 4 2 Depth 2 0 0 0 0 2 2 4 Concentration of P 4 6 6 8 Concentration of N 8 y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε 29/09/06 Adriano Decarli 21 Analisi della Varianza (ANOVA) Esempio 10 y = Profondità x1 = Disco Blu x2 = Disco Verde Depth 8 6 4 x1 = 01 ; x2 = 10 2 0 White Blue Green Disc color y = β 0 + β1 x1 + β 2 x2 + ε 29/09/06 Adriano Decarli 22 Analisi della Covarianza (ANCOVA) Esempio 10 8 Depth y = Profondità x1 = Disco blu x2 = Disco verde x3 = Concentrazione of N 6 4 2 0 0 2 4 6 8 10 Concentration of N y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x1 x3 + β 5 x2 x3 + ε 29/09/06 Adriano Decarli 23 A y1A y2A y3A yA = ∑y nA Drugs C y1C y2C y3C B y1B y2B y3B jA yB = ∑y nB jB yC = ∑y nC yA = yA + ε yB = yB + ε yC = yC + ε yD = yD + ε jC D y1D y2D y3D yD = ∑y nD Total jD y ∑ ∑ y = n ij y A = y A + ε = β0 + ε x1 = 1 y B = y B + ε = β 0 + β1 + ε x2 = 1 yC = yC + ε = β 0 + β 2 + ε x3 = 1 y D = y D + ε = β 0 + β 3 + ε y = β 0 + β 1 x1 + β 2 x 2 + β 3 x3 + ε y A = β0 y B = β 0 + β1 ⇒ β1 = yB − y A yC = β 0 + β 2 ⇒ β 2 = y C − y A yD = β0 + β3 ⇒ β3 = y D − y A Sorgente di variabilità β0 Stima di Trattamenti (β1 β 2 β 3 ) Residuo Totale Gradi di libertà 1 p-1=3 n-p = 8 n = 12 Modello di Regressione Lineare Semplice • Modello y = β0 + β1x + ε • Equazione E(y) = β0 + β1x • Regressione Lineare stimata y = b0 + b1x 29/09/06 Adriano Decarli 26 Metodo dei Minimi Quadrati • Criterio dei minimi quadrati : min ∑ (y i − y$ i ) 2 dove : yi = valore osservato della variabile dipendente per la i-esima osservazione ^ yi = valore stimato della variabile dipendente per la i-esima osservazione. 29/09/06 Adriano Decarli 27 Metodo dei minimi quadrati • Pendenza della retta di regressione stimata: ∑ xi y i − ( ∑ xi ∑ y i ) / n b1 = 2 2 ∑ xi − ( ∑ xi ) / n • Intercetta della retta di regressione stimata: _ _ b0 = y - b1x dove : xi = valore della variabile indipendente per la i-esima osservazione y_i = valore della variabile dipendente per la i-esima osservazione x_= valore della media della variabile indipendente y = valore della media della variabile dipendente n = numero totale delle osservazioni 29/09/06 Adriano Decarli 28 Un semplice esempio Soggetto 1 2 3 4 5 6 7 8 29/09/06 Test 12 10 14 9 9 13 11 8 Adriano Decarli Voto 8 7 8 5 6 9 7 5 29 Diagramma di dispersione 10 9 8 7 6 5 4 7 8 9 10 11 12 13 14 15 X - T est 29/09/06 Adriano Decarli 30 Retta stimata con il metodo dei minimi quadrati Y-Voto 10 8 6 4 7 9 11 13 15 X-Test 29/09/06 Adriano Decarli 31 Qualche calcolo Soggetto Test Voto 1 12 8 2 10 7 3 14 8 4 9 5 5 9 6 6 13 9 7 11 7 8 8 5 Somma 86 55 Media 10,75 6,875 29/09/06 Adriano Decarli x*x 144 100 196 81 81 169 121 64 956 x*y 96 70 112 45 54 117 77 40 611 32 Stima della pendenza ∑ xi y i − (∑ xi ∑ y i ) / n b1 = 2 2 ∑ xi − (∑ xi ) / n 6 1 1 − [(8 6 * 5 5 ) / 8 ] b = = 1 9 5 6 − [(8 6 )2 / 8 ] 611 − 4730 /8 1 9 .7 5 = = 0,62 956 − 7396 /8 3 1 .5 29/09/06 Adriano Decarli 6 33 Stima dell’ intercetta e valori attesi b0 = ÿ - b1x a = 6,875 − 0,626 *10,75 = 0,135 Y = 0,135 + 0,626 * X 29/09/06 Adriano Decarli 34 1 2 3 4 5 6 7 8 29/09/06 Test Voto Stimati Residui 12 8 7,661 0,339 10 7 6,407 0,593 14 8 8,915 -0,915 9 5 5,78 -0,78 9 6 5,78 0,22 13 9 8,288 0,712 11 7 7,034 -0,034 8 5 5,153 -0,153 Adriano Decarli 35 Coefficiente di Determinazione • Relazione tra SST, SSR, SSE SST = SSR + SSE 2 2 2 ∑ ( y i − y ) = ∑ ( y^i − y ) + ∑ ( y i − y^i ) • Coefficiente di Determinazione r2 = SSR/SST dove : SST = Somma dei quadrati totale SSR = Somma dei quadrati spiegata dalla Regressione SSE = Somma dei quadrati non spiegata dalla Regressione 29/09/06 Adriano Decarli 36 Esempio: Test-Voti • Coefficiente di Determinazione r2 = SSR/SST = 12.383/14.875 = .8324 La relazione lineare fra le due variabili è molto forte perché 83% della variabilità dei voti può essere spiegata dalla variabilità che i soggetti avevano mostrato al test attitudinale. 29/09/06 Adriano Decarli 37 Coefficiente di Correlazione • Coefficiente di Correlazione rxy = (segno di b1 ) Coefficiente di Determinazione rxy = (segno di b1 ) r 2 yˆ = b0 + b1 x dove : b1 = la pendenza della retta di regressione stimata 29/09/06 Adriano Decarli 38 Esempio : Test - Voti • Coefficiente di Correlazione stimato rxy = (sign of b1 ) r 2 Il segno di b1 nell’equazione : Y = 0 ,135 + 0 , 626 * X è positivo. rxy = +.9124 = (segno di b1) 0.8324 29/09/06 Adriano Decarli 39 Assunti • Assunti relativi al termine di errore ε – L’errore ε è una variabile casuale con media 0. – La varianza di ε , indicata con σ 2, ha valore uguale per tutti i valori della variabile independente. – I valori di ε sono indipendenti. – L’errore ε è distribuito normalmente. 29/09/06 Adriano Decarli 40 Test di Significatività • Per saggiare la significatività della relazione di regressione, effettuiamo un test di ipotesi per determinare se il valore di β1 è uguale a zero. • Test comunemente usati sono: – t Test – F Test • Ambedue i test richiedono la stima di σ 2, la varianza di ε nel modello di regressione. 29/09/06 Adriano Decarli 41 Test di Significatività • Stima di σ 2 L’errore quadratico medio (MSE) fornisce la stima di σ 2, indicato usualmente con s2 s2 = MSE = SSE/(n-2) con : SSE = ∑ ( yi − yˆ i ) 2 = ∑ ( yi − b0 − b1 xi ) 2 29/09/06 Adriano Decarli 42 Test di Significatività • Stima di σ – La stima di σ è data dalla radice di σ 2. – Il valore risultante s è chiamato errore standard della stima. SSE s = MSE = n−2 29/09/06 Adriano Decarli 43 Test di Significatività : t Test • Ipotesi H0: β1 = 0 Ha: β1 = 0 • Test Statistico b1 t= sb 1 • Area di rifiuto Rifiuto H0 se t < -tα/2 o t > tα/2 ; tα/2 è ricavato dalla distribuzione t con n - 2 gradi di libertà. 29/09/06 Adriano Decarli 44 Test di significatività : Test F Ipotesi H0: β1 = 0 Ha: β1 = 0 Test Statistico F = MSR/MSE Area di rifiuto Rifiuto H0 se F > Fα Fα è riferito alla distribuzione F con 1 g.l. per il numeratore e n - 2 g.l. per il denominatore. 29/09/06 Adriano Decarli 45 Esempio: Test - Voti • Test t • Ipotesi H0: β1 = 0 Ha: β1 = 0 – Area di rifiuto Per α = .05 e g.l. = 6 , t.025 = 2.447 Rifiuto H0 se t > 2.447 – Test t = 0.626/0.644 = 4.63 – Conclusione Rifiuto H0 29/09/06 Adriano Decarli 46 Esempio : Test - Voti F Test • Ipotesi • Area di rifiuto • Test H0: β1 = 0 Ha: β1 = 0 Per α = .05 e g.l = 1, 6: F.05 = 13.75 Rifiuto H0 se F > 10.13. F = MSR/MSE = 12.38/0.415 = 29.83 • Conclusione Rifiutiamo H0. 29/09/06 Adriano Decarli 47 Intervallo di confidenza per β1 • L’intervallo di confidenza di β1 è dato da: dove b1 ± tα / 2 sb1 b1 è il valore stimato tα / 2 sb1 è il margine d’errore tα / 2 con n - 2 29/09/06 è il valore di t che definisce un’area pari ad α/2 nella coda di una distribuzione t gradi di libertà. Adriano Decarli 48 Esempio: Test - Voti • Area di rifiuto Rifiuto H0 se 0 non è compreso nell’intervallo di confidenza per β1. • Intervallo di confidenza al 95% di β1 b1 ± tα / 2 sb1 = 0.626 +/- 2.447(0.115) = 0.626 +/- 0.28 da 0.346 a 0.906 • Conclusione Rifiuto H0 29/09/06 Adriano Decarli 49 Cautele nell’interpretazione • Rifiutando H0: β1 = 0 e concludendo che la relazione tra x e y è significativa non permette di affermare l’esistenza di una relazione causa-effetto tra x e y. • Il rifiuto di H0: β1 = 0 non permette di concludere che la relazione tra x and y sia lineare 29/09/06 Adriano Decarli 50 Uso della retta di regressione stimata Stima Puntuale • Per qualsiasi valore di x possiamo trovare il valore stimato di y. • Le stime puntuali non forniscono alcuna informazione sulla precisione associata alla stima Nell’ esempio : L’equazione stimata Y = 0.135 + 0.626 x fornisce un valore stimato di y per x = 10.75 che è 6.87 29/09/06 Adriano Decarli 51 Uso della retta di regressione stimata Stime intervallari Vi sono due tipi di stime intervallari: 1. Intervallo di confidenza della stima è l ’intervallo entro cui cade il valor medio di Y per un dato valore di x. 2. Intervallo di confidenza della previsione è l’intervallo entro cui cade un valore individuale di y corrispondente ad un definito valore di x. 29/09/06 Adriano Decarli 52 Intervallo di confidenza del valore atteso di y • Sia yp il valore atteso di y per un definito valore di xp. Cioè yp = b0+ b1xp • La varianza di yp è data da syp2 syp2 = s2 [ 1/n + {(xp – xm) 2/∑(x - xm) 2}] Dove: s2 = MSE 29/09/06 Adriano Decarli 53 Uso della equazione di regressione per la stima e la previsione Intervallo di confidenza di E(yp) y$ p ± t α /2 s y$ p Stima dell’intervallo di previsone di yp yp + tα/2 sind dove tα/2 si riferisce ad una distribuzione t con n - 2 gradi di libertà e Sind = radice quadrata di (s2 + s2yp ) 29/09/06 Adriano Decarli 54 Esempio • Stima puntuale I soggetti che hanno ottenuto un valore di 10 al test attitudinale, avranno mediamente un voto pari a: y^ = 0.135 + 0.626(10) = 6.395 • Intervallo di confidenza per E(yp) Il relativo intervallo di confidenza al 95% di questo voto medio è : 6.395 + 0.24(2.447) = 5.808 -- 6.990 • Intervallo di confidenza per yp Il relativo intervallo di confidenza al 95% di un singolo voto è: 29/09/06 6.395 + 0.69(2.447) = 4.706 -- 8.083 Adriano Decarli 55 Analisi dei Residui - 1 • Residuo per l’osservazione i ^ y i – yi • Residuo standardizzato per l’osservazione i dove: y i − y^i syi − y^i syi − yi = s 1 − hi ^ 29/09/06 Adriano Decarli 56 Analisi dei residui -2 • dove hi = [1/n + {(xi –xm)2/ ∑ (xi –xm) 2}] Il termine hi è anche utilizzato come misura di Leverage dell’ i-esima osservazione. Se il valore è più grande di 6/n, l’osservazione è considerata essere influente nella stima dei parametri della regressione. 29/09/06 Adriano Decarli 57 Analisi dei residui - 3 • Utilizzata per valutare la validità delle assunzioni sottese all’analisi della regressione. • Le assunzioni relative all’errore sono : – E(ε) =0; – la varianza ε è uguale per tutti i valori di x; – i valori di ε sono indipendenti; ε ha una distribuzione normale. 29/09/06 Adriano Decarli 58 Plot dei residui Plot dei residui vs. x • Fornisce un’indicazione relativamente al pattern di distribuzione dei residui attorno al valore atteso 0, e fornisce un’indicazione relativamente alla omoscedasticità della varianza. • Se i valori dei residui sono funzione di x allora non vale l’assunto di omoscedasticità. • Pattern particolari della distribuzione dei residui segnalano inadeguatezza del modello. 29/09/06 Adriano Decarli 59 Plot dei residui Grafico dei residui vs y(atteso) Simile a quello vs x. Utilizzato quando vi sono più variabili indipendenti. Residui standardizzati vs y(atteso) Fornisce indicazioni riguardo alla normalità del termine di errore ε. Se il 95% dei punti si trovano nell’intervallo ( + 2 ; –2 ) si può concludere che ε è normale. 29/09/06 Adriano Decarli 60 Normal probability plot • In ascissa i residui ei , in ordinata la scala delle deviate gaussiane standardizzate; • Disporre gli ei in ordine crescente ed indicare con e(i ) l ‘ iesimo a partire dal minimo; • calcolare p(i ) = [ i- 0.5]/n, per i=1,…,n e ricavare da una tavola della distribuzione cumulativa gaussiana la corrispondente deviata z(i ) ; • riportare sul grafico le n coppie di valori [e(i ) , z(i ) ] ; • se l’insieme dei valori ei è distribuito in modo normale, le coppie di valori [e(i ) , z(i ) ] giacciono su una linea retta. 29/09/06 Adriano Decarli 61 Analisi dei residui • Outliers – Un osservazione inusuale quando confrontata con gli altri punti. – Alcuni package identificano come outlier una osservazione quando il residuo standardizzato ad essa corrispondente assume valori < -2 o > +2. – Questa regola a volte non ha successo nell’identificare come outlier osservazioni inusualmente lontane dalla nuvola dei punti. 29/09/06 Adriano Decarli 62 DEFINIZIONE GENERALE DI UN MODELLO STATISTICO Ci limiteremo alla classe di modelli definita come modelli lineari generalizzati. Sono esplicitabili attraverso tre componenti: a) La funzione di distribuzione di probabilità variabile di risposta y. Dipende da µ (e anche da altri parametri). f(y) della b) La funzione di regressione lineare (predittore lineare) che lega le p variabili indipendenti ai parametri (da stimare) del modello η = β' x = β0 x 0 + β1x1 + ... + βp x p c) La funzione di trasformazione (Link function) che lega il predittore lineare η alla media µ η = g(µ ) 29/09/06 Adriano Decarli 63 FUNZIONE DI VEROSIMIGLIANZA Sia: f (y µ, φ) 29/09/06 la funzione densità di probabilità che dipende dalla media µ (a cui il predittore lineare η è legato) e da un vettore di parametri φ non legato a η ( yi , x i ) con xi≡(xoi , … xpi), il vettore delle variabili (di risposta ed esplicative) osservate sull’unità statistica i; µi il valore atteso µ per l’i-esima osservazione Adriano Decarli 64 Se la raccolta dei dati è frutto di un campionamento casuale semplice, la probabilità di ottenere le osservazioni: y1, y2, …….. , yn è data da: f (y1 µ1, φ) × f (y 2 µ 2 , φ) × ... × f (y n µ n , φ) Ottenute le osservazioni: n L(µ1 , µ 2 ,..., µ n , φ) = L(ϑ; y ) = ∏ f (yi µi , φ) i =1 è la funzione di verosimiglianza 29/09/06 Adriano Decarli 65 L cioè è proporzionale alla probabilità di ottenere il campione osservato, considerata come funzione dei parametri ignoti µ1 , µ 2 ,..., µ n , φ Dal punto di vista della rappresentazione algebrica L(ϑ; y) e f(y; ϑ) sono le stesse In f l’enfasi è sulle variabili casuali y con ϑ fissate, in L sul parametro ϑ con y (le osservazioni) fissate 29/09/06 Adriano Decarli 66 Sia Ω lo spazio dei parametri (tutti i valori che ϑ può assumere). Lo stimatore di massima verosimiglianza di ϑ è definito come il vettore ϑ̂ tale per cui: ( ) L ϑˆ , y ≥ L(ϑ, y ) ∀ϑ ∈ Ω Analogamente se l(ϑ; y ) = log L(ϑ; y ) vettore per cui ( ) l ϑˆ , y ≥ l(ϑ, y ) 29/09/06 Adriano Decarli si ha che ϑ̂ è quel ∀ϑ ∈ Ω 67 f ( y,ϑ ) =exp⎡⎢ yϑ −a(ϑ )+b( y) ⎤⎥ ⎣⎢ Esempio Normale ⎦⎥ y ≡ N(µ,1) 1 ⎡ 1 ⎤ exp ⎢− ( y − µ )2 ⎥ = 2π ⎣ 2 ⎦ 1 ⎡ 1 ⎤ = exp ⎢− y 2 + µ 2 − 2 yµ − ln 2π⎥ = 2 ⎣ 2 ⎦ f ( y; µ ) = ( ) 1 1 ⎡ ⎛ 1 ⎞⎤ = exp ⎢ yµ − µ 2 + ⎜ − y 2 − ln 2π ⎟⎥ 2 2 ⎝ 2 ⎠⎦ ⎣ con ϑ = µ 1 1 ⎡ ⎛ 1 ⎞⎤ = exp ⎢ yϑ − ϑ2 + ⎜ − y 2 − ln 2π ⎟⎥ 2 2 ⎝ 2 ⎠⎦ ⎣ 29/09/06 Adriano Decarli 68 Esempio Binomiale y ≡ B(n , p ) y ⎛n⎞ y ⎛ n ⎞⎛ p ⎞ n−y n f ( y; p ) = ⎜ ⎟p (1 − p ) = ⎜ ⎟⎜ ⎟ (1 − p ) ⎝ y⎠ ⎝ y ⎠⎝ 1 − p ⎠ ⎡ ⎛ p ⎞ ⎛ n ⎞⎤ = exp ⎢ y ln⎜ ⎟ + n ln(1 − p ) + ln⎜ ⎟⎥ ⎝ y ⎠⎦ ⎣ ⎝1 − p ⎠ ⎛ p ⎞ ϑ = ln⎜ ⎟ da cui p = eϑ (1 − p ) ⎝1 − p ⎠ p = eϑ − peϑ eϑ p= 1 + eϑ ⎡ ⎛ 1 + eϑ − eϑ ⎞ ⎛ n ⎞⎤ ⎟ + ln⎜ ⎟⎥ = exp ⎢ yϑ + n ln⎜⎜ ϑ ⎟ ⎝ y ⎠⎦ ⎝ 1+ e ⎠ ⎣ ( 29/09/06 ) ⎡ ⎛ n ⎞⎤ ϑ = exp ⎢ yϑ − n ln 1 + e + ln⎜ ⎟⎥ ⎝ y ⎠⎦ ⎣ Adriano Decarli 69 Esempio Poisson y ≡ P(µ ) e − µµ y f ( y; ϑ) = y! = exp[− µ + y ln µ − ln( y!)] con ϑ = ln µ [ ] = exp yϑ − eϑ + (− ln ( y!)) 29/09/06 Adriano Decarli 70 Sono casi particolari di GLM le seguenti comuni procedure: 1) Regressione lineare con variabili indipendenti quantitative e distribuzione normale dell’errore 2) Analisi di tabelle multidimensionali risultanti da disegni fattoriali (anche incompleti e non ortogonali) 3) Analisi della covarianza 4) Analisi di tabelle contenenti frequenze, con modelli loglineari 5) Analisi in scala logit di tabelle contenenti proporzioni 6) analisi probit di curve dose-risposta 29/09/06 Adriano Decarli 71