Metodi di regressione multivariata Modellamento dei dati per risposte quantitative I metodi di regressione multivariata sono strumenti utilizzati per ricercare relazioni funzionali quantitative tra un insieme di p variabili x1, x2, ..., xp che descrivono gli oggetti studiati e un insieme di risposte y misurate per gli stessi oggetti. Obiettivo è trovare un modello in grado di predire le risposte per nuovi oggetti sulla base dell’informazione data dalle variabili indipendenti. Metodi di regressione multivariata Se si ha una sola risposta y, il modello di regressione multivariato è in generale: y = f (x1, x2, ..., xp) Occorre : • stabilire il tipo di modello • stimare i parametri del modello (fitting) • valutare l’attendibilità delle predizioni del modello Metodi di regressione multivariata Esempio di relazione funzionale (superficie di risposta) teorica : Metodi di regressione multivariata Caratteristiche della superficie di risposta nel dominio sperimentale : Metodi di regressione multivariata Modello lineare della superficie di risposta : Metodi di regressione multivariata Ordine di un modello: il valore della potenza più grande delle variabili indipendenti. Modello di primo ordine: modello in cui gli esponenti delle variabili indipendenti sono uguali ad uno. Esempio : p y = b0 + ∑ b j ⋅ x j = b0 + b1x1 + b2 x 2 +K+ bp x p j =1 Metodi di regressione multivariata Modello lineare nei parametri: la risposta è una combinazione lineare delle variabili indipendenti. I parametri del modello non sono a loro volta una funzione della risposta, sono dei semplici coefficienti moltiplicativi, inoltre è presente un solo coefficiente in ogni termine additivo. Esempi : y i = β o + β1 x i 1 y i = β o + β1x i 1 + β11x i21 y i = β o + β1 x i 1 + β 2 x i 2 + β12 x i 1 ⋅ x i 2 Metodi di regressione multivariata Modello additivo: modello in cui tutte le variabili hanno un effetto additivo sulla risposta. y = β 0 + ∑ β j x j + ∑ β jk x j x k + ∑ β jj x 2j + ε Il termine costante β0 è la stima della risposta quando tutte le variabili assumono valore zero. I coefficienti βjk del prodotto incrociato stimano l’effetto di interazione di due variabili sulla risposta. I coefficienti βj dei termini lineari stimano la dipendenza lineare della risposta dalle corrispondenti variabili (effetti principali). I coefficienti βjj dei termini quadratici stimano l'effetto non-lineare delle variabili sulla risposta. La somma dell’effetto principale, degli effetti di interazione e degli effetti nonlineari definisce l’influenza complessiva della variabile sulla risposta. Metodi di regressione multivariata Modello vero non noto yi = f (β0, β1, ..., βp, x1, x2, ..., xp) + εi x : variabili indipendenti, y : variabile dipendente, descrittori, predittori risposta cause del fenomeno misura sperimentale del studiato fenomeno studiato Modello stimato yi = f (b0, b1, ..., bp, x1, x2, ..., xp) + ei Metodi di regressione multivariata Matrice dei dati x11 x12 K x1 p x21 x22 K x2 p X0 = K K xn1 K K K K K K xn 2 K xnp Matrice del modello (contiene tante colonne quanti sono i parametri del modello, p’) x11 x 21 x12 x 22 XMod = K K K K 1 x n1 K K xn2 1 1 K x1p K x2p K K K x np 2 x11 2 x 21 2 x12 2 x 22 K x11x12 K x 21x 22 x n21 x n2 2 K x n1x n 2 Metodi di regressione multivariata MODELLI descrizione predizione fitting validation Metodi di regressione multivariata Fitting : Processo di stima dei parametri del modello. Le stime dei parametri sono ricercate in modo tale da massimizzare l’accordo tra le risposte osservate e quelle corrispondenti calcolate dal modello. Validazione : Processo di valutazione della effettiva capacità di predizione del modello. Metodi di regressione multivariata I parametri β del modello vengono stimati in base agli esperimenti effettuati o ai dati disponibili utilizzando un metodo di regressione. Il numero minimo di esperimenti (oggetti) per stimare i parametri β è uguale al numero di parametri del modello. Ad esempio, per un modello lineare ad una variabile x1, occorrono almeno 2 esperimenti: yi = β o + β1 xi 1 + ε i Regressione Multipla Lineare (MLR) Metodo dei minimi quadrati Ordinary Least Squares - O L S Modello lineare teorico: y = Xβ + ε (n, 1) = (n, p’) (p’, 1) + (n, 1) y vettore delle risposte X matrice del modello β vettore dei parametri veri del modello (coefficienti di regressione) ε vettore degli errori Regressione Multipla Lineare (MLR) Ordinary Least Squares - OLS Il metodo di regressione dei minimi quadrati (OLS) è un metodo di stima dei parametri del modello di tipo unbiased, cioè il valore medio delle stime dei parametri coincide con il loro valore vero. Regressione Multipla Lineare (MLR) Le stime bj dei parametri del modello calcolate dal metodo OLS sono quelle che minimizzano lo scarto quadratico tra le risposte osservate e quelle calcolate dal modello per tutti gli oggetti del training set. Il metodo OLS minimizza la seguente quantità: F I mina RSS f = minG ∑ a y$ − y f J H K n i =1 Residual Sum of Squares risposta calcolata 2 i i risposta osservata Regressione Multipla Lineare (MLR) Soluzione algebrica per determinare il vettore delle stime b dei coefficienti di regressione : y = Xb XT y = XT Xb c X Xh c h X Xb poichè : c X Xh X X = I = c X Xh X y b T −1 OLS T T X y= X X T −1 T T −1 T −1 (p’, 1) = (p’, p’) (p’, n) (n, 1) T Regressione Multipla Lineare (MLR) Una volta stimato il vettore b dei coefficienti di regressione, le risposte calcolate sono ottenute da: y$ = Xb OLS .... e il vettore e delle stime degli errori (residui) da: e = y$ − y Regressione Multipla Lineare (MLR) Esempio sample preparation signal measure calibration model 60 50 ? 40 30 20 10 0.1 0.2 0.3 inverse prediction [C] = 0.28 0.4 Condizioni di applicabilità del metodo OLS I coefficienti di regressione β possono assumere qualunque valore. Il modello di regressione è lineare nei parametri. La matrice del modello X deve avere rango uguale a p’. I residui (errori) εi sono variabili random con media uguale 0 e varianza σ2 : N(0; σ2). I residui εi sono variabili random indipendenti con covarianza (εi , εj ) ≈ 0, per ogni i ≠ j. Tutti i residui εi hanno la stessa varianza σ2. Regressione Multipla Lineare (MLR) Omoscedasticità estimated model: y = b0 + b1 . x Regressione Multipla Lineare (MLR) Regressione Multipla Lineare (MLR) Nota bene : i valori dei coefficienti di regressione stimati b dipendono dalla scala di misura delle variabili x. Coefficienti di regressione standardizzati b* : * bj sj = bj ⋅ sy sy e sj sono rispettivamente le deviazioni standard della risposta e della j-esima variabile. I coefficienti di regressione standardizzati rappresentano la vera importanza delle variabili nel modello. Regressione Multipla Lineare (MLR) Qualità dello stimatore b La varianza del vettore b dei coefficienti di regressione è una misura della stabilità del modello. a f 2 c T V b OLS = σ ⋅ tr X X errore sperimentale h −1 p 1 = σ ⋅∑ j =1 λ j 2 errore del modello autovalori della matrice XTX Regressione Multipla Lineare (MLR) Qualità dello stimatore b dX Xi T −1 Matrice di dispersione : i suoi elementi jj diagonali (coefficienti di variazione, djj) misurano l’incertezza sui parametri del modello. d h var b j = d ⋅ σ jj 2 Per un buon modello (stabile) : tutti i coefficienti di variazione devono essere uguali e minimi; gli elementi non diagonali della matrice di dispersione devono essere nulli. Regressione Multipla Lineare (MLR) Qualità dello stimatore b σ 2 L’errore sperimentale è la variazione prodotta sulla risposta sperimentale da fattori di perturbazione, conosciuti o sconosciuti. Se non è noto a priori, l'errore sperimentale può essere stimato effettuando alcune repliche dello stesso esperimento. Regressione Multipla Lineare (MLR) Qualità dello stimatore b Assumendo che l'errore sperimentale sia costante nel dominio sperimentale, replicando esperimenti diversi, l'errore sperimentale può essere stimato da: se = ar − 1f ⋅ s + ar − 1f ⋅ s +K+ar − 1f ⋅ s ar − 1f + ar − 1f+K+ar − 1f 2 1 1 2 2 2 1 2 ri si2 = n ∑ b y ik − y i g k =1 ri − 1 n 2 2 n Regressione Multipla Lineare (MLR) Qualità dello stimatore b In tutti i casi in cui si assume che il modello descriva adeguatamente la risposta, l'errore sperimentale può essere stimato dalla somma dei quadrati dei residui, come errore standard della stima: s = RSS n − p' Regressione Multipla Lineare (MLR) Qualità dello stimatore b Nota bene: se l’errore sperimentale è noto a priori, ancora prima di realizzare gli esperimenti, è possibile valutare se il modello finale sarà stabile oppure no! Regressione Multipla Lineare (MLR) Intervallo di confidenza dei coefficienti di regressione c h b j ± tα ;n− p ' ⋅ V b j 1/ 2 = b j ± tα ;n− p ' ⋅ s ⋅ d jj ~ V(bj) è la varianza del j-esimo coefficiente ~ tα; n-p’ è il valore critico della t di Student, al livello di significatività α e con n - p’ gradi di libertà ~ s è l’errore standard della stima jj ~ djj è il j-esimo elemento diagonale della matrice (XTX)-1 Regressione Multipla Lineare (MLR) Qualità delle stime delle risposte La qualità delle stime delle risposte è definita dalla loro varianza: c h var y$ i = x iT d T ⋅ X ⋅X i −1 ⋅ x i ⋅ σ 2 = h ii ⋅ σ 2 Tanto più grande è la varianza di una risposta stimata tanto più grande è la sua incertezza. hii è detto "leverage" dell'i-esimo campione o "funzione di varianza". Regressione Multipla Lineare (MLR) Matrice dei leverage o matrice di influenza H Poichè y$ = Xb e c T −1 T y$ = X X X … allora c T H=X X X h X (n, n) = (n, p’) (p’, p’) (p’, n) b b = X ⋅X h −1 T g −1 ⋅X ⋅Y T T X y = Hy hii = T xi c X Xh T −1 xi (1, 1) = (1, p’) (p’, p’) (p’,1) Regressione Multipla Lineare (MLR) Matrice dei leverage o matrice di influenza H I leverage sono gli elementi diagonali della matrice H, con le seguenti proprietà: ∑i hii = p ′ h = p′ / n h * > 3p ′ / n Il leverage è una misura dell'incertezza con cui le risposte vengono calcolate dal modello. L'incertezza è proporzionale alla distanza di un campione dal centro dello spazio definito dal modello. Per un buon modello : il leverage deve essere il più piccolo e bilanciato possibile. Regressione Multipla Lineare (MLR) Matrice dei leverage o matrice di influenza H y punto ad alto leverage hii > h* x Regressione Multipla Lineare (MLR) Matrice dei leverage o matrice di influenza H Leverage degli oggetti del training set : 1 ≤ hii ≤ 1 n Una sperimentazione ove i leverage dei diversi punti sperimentali sono molto sbilanciati indica una sperimentazione ove le diverse regioni dello spazio sperimentale sono valutate dal modello con precisione molto diversa tra loro. Il modello non è egualmente affidabile nelle diverse regioni del dominio sperimentale. Regressione Multipla Lineare (MLR) Matrice dei leverage o matrice di influenza H Leverage di nuovi oggetti : 1 ≤ hii < ∞ n Per campioni il cui leverage è molto maggiore di 1, non ha senso utilizzare il modello per fare delle predizioni. Non significa che in quella regione il modello non funzioni, ma che non vi sono ragioni statistiche fondate per ritenere che le stime siano affidabili ! Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione ~ Total sum of squares (TSS) n g c y$ i − y i h TSS = ∑ y i − y i =1 ~ Residual sum of squares (RSS) b 2 n RSS = ∑ i =1 n ~ Model sum of squares (MSS) c MSS = ∑ y$ i − y i =1 2 h 2 Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione TSS = MSS + RSS funzione obiettivo da massimizzare MSS RSS 2 ≡ R = 1− TSS TSS R2 : coefficiente di determinazione R2 x 100 : percentuale di varianza spiegata dal modello r or R : coefficiente di correlazione multipla r = 0.90 R2 = 0.81 r = 0.80 R2 = 0.64 Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione Proprietà di R 0 ≤ Ry a1,..., p f ≤ 1 Ry a1,..., p f = 0 ⇒ Ry a j f = 0 j = 1,..., p Ry a j1 f ≤ Ry a j1 , j2 f ≤ Ry a j1 , j2 , j3 f ≤K≤ Ry a1,K, p f Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione Number of components vs. R2 e Q2 100 90 2 R 80 70 60 50 2 Q 40 30 20 1 2 3 4 5 6 Number of components 7 8 9 10 Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione Predictive error sum of squares - PRESS n a PRESS = ∑ y$i /i − yi i =1 f 2 risposta predetta per l’oggetto i-esimo quando questo è escluso dal modello (tecnica della cross-validation) funzione obiettivo da massimizzare 2 RCV PRESS ≡ Q = 1− TSS 2 Regressione Multipla Lineare (MLR) Funzioni di fitness del modello di regressione R22 adjusted 2 Radj a f F h GH IJ K RSS / n − p' n −1 2 = 1− = 1− 1− R ⋅ TSS / n − 1 n − p' c Regressione Multipla Lineare (MLR) Errore standard della stima s RSS s= n − p' s2 : stima dell’errore sperimentale σ2 Standard Deviation Error in Calculation: Standard Deviation Error in Prediction: RSS SDEC = n SDEP = PRESS n Regressione Multipla Lineare (MLR) Test F di Fisher in regressione Il test di Fisher viene in generale utilizzato per confrontare due varianze. In regressione : Fcalc a f a f MSS / p'−1 = RSS / n − p' H0: assenza di modello, tutti i coefficienti di regressione sono nulli. H1: almeno un coefficiente di regressione è diverso da zero. Regressione Multipla Lineare (MLR) Lack of Fit (LOF) Come valutare la bontà dell'approssimazione della relazione funzionale tra la risposta e le variabili ? Y Y 1 3 5 X1 1 3 Modello di primo o secondo ordine? 5 X1 Regressione Multipla Lineare (MLR) Lack of Fit (LOF) Se il modello è una buona approssimazione della relazione funzionale vera, i residui (RSS) dipendono solo dall'errore sperimentale. TEST DI FISHER a RSS / n − p F a n− p f ,a r −1f = 2 se Se F > Fcritico ⇒ f il modello stimato non è "buono" Regressione Multipla Lineare (MLR) Analisi della varianza TSS n n : numero totale di esperimenti (con repliche) p’ : numero di parametri del modello Mean 1 TSSREG REG n-1 MSS p-1 b00 , b11 , ...... k : numero di esperimenti indipendenti n - f : numero di repliche RSS n - p’ LOF k - p’ ERR n-k Analysis of Variance in Regression Source SS df Regression SSREG p’ - 1 MSREG Residual SSR n - p’ MSR Lack of fit SSLOF k - p’ MSLOF Pure error SSPE n-k MSPE Total SST n-1 RSS : Residual Sum of Squares MS F MSREG/ MSR MSLOF/ MSPE k: levels for replicates TSS : Total Sum of Squares Regressione Multipla Lineare (MLR) Esempio di analisi della varianza ANOVA table y = b0 + b1 . x model n = 20 Source SS regression 12447.4 residual 106.1 total 12553.5 samples k=5 levels ni = 4 replicates df 1 18 19 MS 12447.5 5.9 F 2109.7 F 1,18 (5%) = 4.41 Residual variance decomposition Source lack of fit pure error total res. SS 87.6 18.5 106.1 df 3 15 18 MS 29.2 1.2 F 24.3 KO lack of fit ! F3,15 (5%) = 3.29 OK Regressione Multipla Lineare (MLR) Esempio di analisi di regressione 17 oggetti descritti da 5 variabili e 1 risposta. ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 x1 15.57 44.02 20.42 18.74 49.2 44.92 55.48 59.28 94.39 128.02 96 131.42 127.21 252.9 409.2 463.7 510.22 x2 2463 2048 3940 6505 5723 11520 5779 5969 8461 20106 13313 10771 15543 36194 34703 39204 86533 x3 472.9 1339.7 620.3 568.3 1497.6 1365.8 1687 1639.9 2872.3 3655.1 2912 3921 3865.7 7684.1 12446.3 14098.4 15524 x4 18 9.5 12.8 36.7 35.7 24 43.3 46.7 78.7 180.5 60.9 103.7 126.8 157.7 169.4 331.4 371.6 x5 4.45 6.92 4.28 3.9 5.5 4.6 5.62 5.15 6.18 6.15 5.88 4.88 5.5 7 10.78 7.05 6.35 y 566.5 696.8 1033.2 1603.6 1611.4 1613.3 1854.2 2160.6 2305.6 3503.9 3571.9 3741.4 4026.5 10343.8 11732.2 15414.9 18854.4 Matrice di correlazione x1 x2 x3 x4 x5 x1 1 0.9074 0.9999 0.9357 0.6712 x2 0.9074 1 0.9071 0.9105 0.4466 x3 0.9999 0.9071 1 0.9332 0.6711 x4 0.9357 0.9105 0.9332 1 0.4629 x5 0.6712 0.4466 0.6711 0.4629 1 Autovalori della matrice di correlazione Eigenvalues Value % of variability Cumulative % 1 4.1971 0.8394 0.8394 2 0.6675 0.1335 0.9729 3 0.0946 0.0189 0.9918 4 0.0407 0.0081 1.0000 5 0.0001 0.0000 1.0000 Risultati della regressione dei minimi quadrati (OLS) Modello scelto : lineare di primo ordine n = 17 p’ = 5+1 Fcalc = 237.8 F0.05;5,11 = 3.20 F0.01;5,11 = 5.32 R2 = 99.1 % R2adj = 98.7 % R2loo = Q2 = 93.5 % s = 642.1 SDEC = 516.5 SDEP = 1376.2 Histogram for reduced residuals 1 3 Nbr of observation 5 7 9 11 13 15 17 -1.5 -1 -0.5 0 0.5 1 residuals 1.5 2 2.5 3 3.5 Coefficienti di regressione Value Intercept 1962.941 x1 -15.8583 x2 0.05593 x3 1.589848 x4 -4.21919 x5 -394.304 Std dev. Lower 95% bound Upper 95% bound 1071.3600 -395.1080 4320.9894 97.6519 -230.7889 199.0722 0.0213 0.0091 0.1027 3.0921 -5.2157 8.3954 7.1760 -20.0135 11.5751 209.6424 -855.7241 67.1162 Coefficienti di regressione standardizzati x1 x2 x3 x4 x5 Value -0.459 0.214 1.403 -0.082 -0.111 Std dev. 2.8280 0.0810 2.7280 0.1390 0.0600 Regressione Multipla Lineare (MLR) Diagnostica di regressione Valutazione della qualità di un modello mediante strumenti grafici. y(exp) vs y(calc), y(pred) objects vs residuals objects vs leverages leverages vs residuals y(calc) vs residuals .......... Regressione Multipla Lineare (MLR) Grafico delle risposte Regressione Multipla Lineare (MLR) Analisi dei residui Serve a valutare l’adeguatezza del modello stimato. ei ei x(y) ei ei x(y) ei x(y) x(y) ei x(y) x(y) Regressione Multipla Lineare (MLR) Grafico di Williams per studiare le influenze degli oggetti