regressione

Metodi di regressione multivariata
Modellamento dei dati per risposte quantitative
I metodi di regressione multivariata sono strumenti utilizzati
per ricercare relazioni funzionali quantitative tra un insieme di
p variabili x1, x2, ..., xp che descrivono gli oggetti studiati e un
insieme di risposte y misurate per gli stessi oggetti.
Obiettivo è trovare un modello in grado di predire le
risposte per nuovi oggetti sulla base dell’informazione
data dalle variabili indipendenti.
Metodi di regressione multivariata
Se si ha una sola risposta y, il modello di regressione
multivariato è in generale:
y = f (x1, x2, ..., xp)
Occorre :
• stabilire il tipo di modello
• stimare i parametri del modello (fitting)
• valutare l’attendibilità delle predizioni del modello
Metodi di regressione multivariata
Esempio di relazione funzionale (superficie di risposta)
teorica :
Metodi di regressione multivariata
Caratteristiche della superficie di risposta nel dominio
sperimentale :
Metodi di regressione multivariata
Modello lineare della superficie di risposta :
Metodi di regressione multivariata
Ordine di un modello: il valore della potenza più grande
delle variabili indipendenti.
Modello di primo ordine: modello in cui gli esponenti
delle variabili indipendenti sono uguali ad uno.
Esempio :
p
y = b0 + ∑ b j ⋅ x j = b0 + b1x1 + b2 x 2 +K+ bp x p
j =1
Metodi di regressione multivariata
Modello lineare nei parametri: la risposta è una
combinazione lineare delle variabili indipendenti. I parametri
del modello non sono a loro volta una funzione della
risposta, sono dei semplici coefficienti moltiplicativi, inoltre è
presente un solo coefficiente in ogni termine additivo.
Esempi :
y i = β o + β1 x i 1
y i = β o + β1x i 1 + β11x i21
y i = β o + β1 x i 1 + β 2 x i 2 + β12 x i 1 ⋅ x i 2
Metodi di regressione multivariata
Modello additivo: modello in cui tutte le variabili hanno un
effetto additivo sulla risposta.
y = β 0 + ∑ β j x j + ∑ β jk x j x k + ∑ β jj x 2j + ε
Il termine costante β0 è la
stima della risposta
quando tutte le variabili
assumono valore zero.
I coefficienti βjk del prodotto
incrociato stimano l’effetto di
interazione di due variabili
sulla risposta.
I coefficienti βj dei termini lineari
stimano la dipendenza lineare della
risposta dalle corrispondenti
variabili (effetti principali).
I coefficienti βjj dei
termini quadratici
stimano l'effetto
non-lineare delle
variabili sulla
risposta.
La somma dell’effetto principale, degli effetti di interazione e degli effetti nonlineari definisce l’influenza complessiva della variabile sulla risposta.
Metodi di regressione multivariata
Modello vero non noto
yi = f (β0, β1, ..., βp, x1, x2, ..., xp) + εi
x : variabili indipendenti,
y : variabile dipendente,
descrittori, predittori
risposta
cause del fenomeno
misura sperimentale del
studiato
fenomeno studiato
Modello stimato
yi = f (b0, b1, ..., bp, x1, x2, ..., xp) + ei
Metodi di regressione multivariata
Matrice dei dati
x11
x12 K x1 p
x21
x22 K x2 p
X0 = K
K
xn1
K
K
K
K
K
K
xn 2 K xnp
Matrice del modello
(contiene tante colonne quanti sono i parametri del modello, p’)
x11
x 21
x12
x 22
XMod = K K
K K
1 x n1
K
K
xn2
1
1
K x1p
K x2p
K
K
K x np
2
x11
2
x 21
2
x12
2
x 22
K x11x12
K x 21x 22
x n21
x n2 2
K
x n1x n 2
Metodi di regressione multivariata
MODELLI
descrizione
predizione
fitting
validation
Metodi di regressione multivariata
Fitting :
Processo di stima dei parametri del modello.
Le stime dei parametri sono ricercate in
modo tale da massimizzare l’accordo tra le
risposte osservate e quelle corrispondenti
calcolate dal modello.
Validazione :
Processo di valutazione della effettiva
capacità di predizione del modello.
Metodi di regressione multivariata
I parametri β del modello vengono stimati in base agli
esperimenti effettuati o ai dati disponibili utilizzando un metodo
di regressione.
Il numero minimo di esperimenti (oggetti) per stimare i
parametri β è uguale al numero di parametri del modello.
Ad esempio, per un modello lineare ad una variabile x1,
occorrono almeno 2 esperimenti:
yi = β o + β1 xi 1 + ε i
Regressione Multipla Lineare (MLR)
Metodo dei minimi quadrati
Ordinary Least Squares - O L S Modello lineare teorico:
y = Xβ + ε
(n, 1) = (n, p’) (p’, 1) + (n, 1)
y vettore delle risposte
X matrice del modello
β vettore dei parametri veri del modello (coefficienti di
regressione)
ε vettore degli errori
Regressione Multipla Lineare (MLR)
Ordinary Least Squares
- OLS Il metodo di regressione dei minimi quadrati (OLS) è un
metodo di stima dei parametri del modello di tipo
unbiased, cioè il valore medio delle stime dei parametri
coincide con il loro valore vero.
Regressione Multipla Lineare (MLR)
Le stime bj dei parametri del modello calcolate dal metodo
OLS sono quelle che minimizzano lo scarto quadratico tra le
risposte osservate e quelle calcolate dal modello per tutti gli
oggetti del training set.
Il metodo OLS minimizza la seguente quantità:
F
I
mina RSS f = minG ∑ a y$ − y f J
H
K
n
i =1
Residual Sum of Squares
risposta calcolata
2
i
i
risposta osservata
Regressione Multipla Lineare (MLR)
Soluzione algebrica per determinare il vettore delle stime b
dei coefficienti di regressione :
y = Xb
XT y = XT Xb
c X Xh
c h X Xb
poichè : c X Xh X X = I
= c X Xh X y
b
T
−1
OLS
T
T
X y= X X
T
−1
T
T
−1
T
−1
(p’, 1) = (p’, p’) (p’, n) (n, 1)
T
Regressione Multipla Lineare (MLR)
Una volta stimato il vettore b dei coefficienti di
regressione, le risposte calcolate sono ottenute da:
y$ = Xb OLS
.... e il vettore e delle stime degli errori (residui) da:
e = y$ − y
Regressione Multipla Lineare (MLR)
Esempio
sample
preparation
signal
measure
calibration
model
60
50
?
40
30
20
10
0.1
0.2
0.3
inverse
prediction
[C] = 0.28
0.4
Condizioni di applicabilità del metodo OLS
I coefficienti di regressione β possono assumere
qualunque valore.
Il modello di regressione è lineare nei parametri.
La matrice del modello X deve avere rango uguale a p’.
I residui (errori) εi sono variabili random con media
uguale 0 e varianza σ2 : N(0; σ2).
I residui εi sono variabili random indipendenti con
covarianza (εi , εj ) ≈ 0, per ogni i ≠ j.
Tutti i residui εi hanno la stessa varianza σ2.
Regressione Multipla Lineare (MLR)
Omoscedasticità
estimated model:
y = b0 + b1 . x
Regressione Multipla Lineare (MLR)
Regressione Multipla Lineare (MLR)
Nota bene : i valori dei coefficienti di regressione stimati b
dipendono dalla scala di misura delle variabili x.
Coefficienti di regressione standardizzati b* :
*
bj
sj
= bj ⋅
sy
sy e sj sono rispettivamente le deviazioni standard della
risposta e della j-esima variabile.
I coefficienti di regressione standardizzati rappresentano la
vera importanza delle variabili nel modello.
Regressione Multipla Lineare (MLR)
Qualità dello stimatore b
La varianza del vettore b dei coefficienti di regressione
è una misura della stabilità del modello.
a f
2
c
T
V b OLS = σ ⋅ tr X X
errore sperimentale
h
−1
p
1
= σ ⋅∑
j =1 λ j
2
errore del modello
autovalori della matrice XTX
Regressione Multipla Lineare (MLR)
Qualità dello stimatore b
dX Xi
T
−1
Matrice di dispersione : i suoi elementi
jj
diagonali (coefficienti di variazione, djj)
misurano l’incertezza sui parametri del
modello.
d h
var b j = d ⋅ σ
jj
2
Per un buon modello (stabile) : tutti i coefficienti di
variazione devono essere uguali e minimi; gli elementi non
diagonali della matrice di dispersione devono essere nulli.
Regressione Multipla Lineare (MLR)
Qualità dello stimatore b
σ
2
L’errore sperimentale è la variazione prodotta
sulla risposta sperimentale da fattori di
perturbazione, conosciuti o sconosciuti.
Se non è noto a priori, l'errore sperimentale può essere
stimato effettuando alcune repliche dello stesso
esperimento.
Regressione Multipla Lineare (MLR)
Qualità dello stimatore b
Assumendo che l'errore sperimentale sia costante nel
dominio sperimentale, replicando esperimenti diversi,
l'errore sperimentale può essere stimato da:
se =
ar − 1f ⋅ s + ar − 1f ⋅ s +K+ar − 1f ⋅ s
ar − 1f + ar − 1f+K+ar − 1f
2
1
1
2
2
2
1
2
ri
si2 =
n
∑ b y ik − y i g
k =1
ri − 1
n
2
2
n
Regressione Multipla Lineare (MLR)
Qualità dello stimatore b
In tutti i casi in cui si assume che il modello descriva
adeguatamente la risposta, l'errore sperimentale può essere
stimato dalla somma dei quadrati dei residui, come errore
standard della stima:
s =
RSS
n − p'
Regressione Multipla Lineare (MLR)
Qualità dello stimatore b
Nota bene:
se l’errore sperimentale è noto a priori, ancora prima di
realizzare gli esperimenti, è possibile valutare se il
modello finale sarà stabile oppure no!
Regressione Multipla Lineare (MLR)
Intervallo di confidenza dei coefficienti di regressione
c h
b j ± tα ;n− p ' ⋅ V b j
1/ 2
= b j ± tα ;n− p ' ⋅ s ⋅ d
jj
~ V(bj) è la varianza del j-esimo coefficiente
~ tα; n-p’ è il valore critico della t di Student, al livello di
significatività α e con n - p’ gradi di libertà
~ s è l’errore standard della stima
jj
~ djj è il j-esimo elemento diagonale della matrice (XTX)-1
Regressione Multipla Lineare (MLR)
Qualità delle stime delle risposte
La qualità delle stime delle risposte è definita dalla loro
varianza:
c h
var y$ i =
x iT
d
T
⋅ X ⋅X
i
−1
⋅ x i ⋅ σ 2 = h ii ⋅ σ 2
Tanto più grande è la varianza di una risposta stimata
tanto più grande è la sua incertezza.
hii è detto "leverage" dell'i-esimo campione o "funzione
di varianza".
Regressione Multipla Lineare (MLR)
Matrice dei leverage o matrice di influenza H
Poichè
y$ = Xb
e
c
T
−1
T
y$ = X X X
… allora
c
T
H=X X X
h
X
(n, n) = (n, p’) (p’, p’) (p’, n)
b
b = X ⋅X
h
−1
T
g
−1
⋅X ⋅Y
T
T
X y = Hy
hii =
T
xi
c X Xh
T
−1
xi
(1, 1) = (1, p’) (p’, p’) (p’,1)
Regressione Multipla Lineare (MLR)
Matrice dei leverage o matrice di influenza H
I leverage sono gli elementi diagonali della matrice H,
con le seguenti proprietà:
∑i hii = p ′
h = p′ / n
h * > 3p ′ / n
Il leverage è una misura dell'incertezza con cui le risposte
vengono calcolate dal modello.
L'incertezza è proporzionale alla distanza di un campione
dal centro dello spazio definito dal modello.
Per un buon modello : il leverage deve essere il più piccolo
e bilanciato possibile.
Regressione Multipla Lineare (MLR)
Matrice dei leverage o matrice di influenza H
y
punto ad alto leverage
hii > h*
x
Regressione Multipla Lineare (MLR)
Matrice dei leverage o matrice di influenza H
Leverage degli oggetti del training set :
1
≤ hii ≤ 1
n
Una sperimentazione ove i leverage dei diversi punti
sperimentali sono molto sbilanciati indica una sperimentazione
ove le diverse regioni dello spazio sperimentale sono valutate
dal modello con precisione molto diversa tra loro.
Il modello non è egualmente affidabile nelle diverse
regioni del dominio sperimentale.
Regressione Multipla Lineare (MLR)
Matrice dei leverage o matrice di influenza H
Leverage di nuovi oggetti :
1
≤ hii < ∞
n
Per campioni il cui leverage è molto maggiore di 1, non ha
senso utilizzare il modello per fare delle predizioni.
Non significa che in quella regione il modello non funzioni, ma
che non vi sono ragioni statistiche fondate per ritenere che le
stime siano affidabili !
Regressione Multipla Lineare (MLR)
Funzioni di fitness del modello di regressione
~ Total sum of squares (TSS)
n
g
c
y$ i − y i
h
TSS = ∑ y i − y
i =1
~ Residual sum of squares (RSS)
b
2
n
RSS = ∑
i =1
n
~ Model sum of squares (MSS)
c
MSS = ∑ y$ i − y
i =1
2
h
2
Regressione Multipla Lineare (MLR)
Funzioni di fitness del modello di regressione
TSS = MSS + RSS
funzione obiettivo da
massimizzare
MSS
RSS
2
≡ R = 1−
TSS
TSS
R2 : coefficiente di determinazione
R2 x 100 : percentuale di varianza spiegata dal modello
r or R : coefficiente di correlazione multipla
r = 0.90
R2 = 0.81
r = 0.80
R2 = 0.64
Regressione Multipla Lineare (MLR)
Funzioni di fitness del modello di regressione
Proprietà di R
0 ≤ Ry a1,..., p f ≤ 1
Ry a1,..., p f = 0 ⇒
Ry a j f = 0 j = 1,..., p
Ry a j1 f ≤ Ry a j1 , j2 f ≤ Ry a j1 , j2 , j3 f ≤K≤ Ry a1,K, p f
Regressione Multipla Lineare (MLR)
Funzioni di fitness del modello di regressione
Number of components vs. R2 e Q2
100
90
2
R
80
70
60
50
2
Q
40
30
20
1
2
3
4
5
6
Number of components
7
8
9
10
Regressione Multipla Lineare (MLR)
Funzioni di fitness del modello di regressione
Predictive error sum of squares - PRESS n
a
PRESS = ∑ y$i /i − yi
i =1
f
2
risposta predetta per l’oggetto i-esimo quando questo è
escluso dal modello (tecnica della cross-validation)
funzione obiettivo da
massimizzare
2
RCV
PRESS
≡ Q = 1−
TSS
2
Regressione Multipla Lineare (MLR)
Funzioni di fitness del modello di regressione
R22 adjusted
2
Radj
a
f
F
h GH
IJ
K
RSS / n − p'
n −1
2
= 1−
= 1− 1− R ⋅
TSS / n − 1
n − p'
c
Regressione Multipla Lineare (MLR)
Errore standard della stima s
RSS
s=
n − p'
s2 : stima dell’errore sperimentale σ2
Standard Deviation Error in Calculation:
Standard Deviation Error in Prediction:
RSS
SDEC =
n
SDEP =
PRESS
n
Regressione Multipla Lineare (MLR)
Test F di Fisher in regressione
Il test di Fisher viene in generale utilizzato per confrontare
due varianze.
In regressione :
Fcalc
a f
a f
MSS / p'−1
=
RSS / n − p'
H0: assenza di modello, tutti i coefficienti di regressione
sono nulli.
H1: almeno un coefficiente di regressione è diverso da zero.
Regressione Multipla Lineare (MLR)
Lack of Fit (LOF)
Come valutare la bontà dell'approssimazione della relazione
funzionale tra la risposta e le variabili ?
Y
Y
1
3
5
X1
1
3
Modello di primo o secondo ordine?
5
X1
Regressione Multipla Lineare (MLR)
Lack of Fit (LOF)
Se il modello è una buona approssimazione della relazione
funzionale vera, i residui (RSS) dipendono solo dall'errore
sperimentale.
TEST DI FISHER
a
RSS / n − p
F a n− p f ,a r −1f =
2
se
Se F > Fcritico
⇒
f
il modello stimato non è "buono"
Regressione Multipla Lineare (MLR)
Analisi della varianza
TSS
n
n : numero totale di esperimenti (con
repliche)
p’ : numero di parametri del modello
Mean
1
TSSREG
REG
n-1
MSS
p-1
b00 , b11 ,
......
k : numero di esperimenti indipendenti
n - f : numero di repliche
RSS
n - p’
LOF
k - p’
ERR
n-k
Analysis of Variance in Regression
Source
SS
df
Regression
SSREG
p’ - 1
MSREG
Residual
SSR
n - p’
MSR
Lack of fit
SSLOF
k - p’
MSLOF
Pure error
SSPE
n-k
MSPE
Total
SST
n-1
RSS : Residual Sum of Squares
MS
F
MSREG/ MSR
MSLOF/ MSPE
k: levels for replicates
TSS : Total Sum of Squares
Regressione Multipla Lineare (MLR)
Esempio di analisi della varianza
ANOVA table
y = b0 + b1 . x model
n = 20
Source
SS
regression 12447.4
residual
106.1
total
12553.5
samples
k=5
levels
ni = 4
replicates
df
1
18
19
MS
12447.5
5.9
F
2109.7
F 1,18 (5%) = 4.41
Residual variance decomposition
Source
lack of fit
pure error
total res.
SS
87.6
18.5
106.1
df
3
15
18
MS
29.2
1.2
F
24.3
KO
lack of fit !
F3,15 (5%) = 3.29
OK
Regressione Multipla Lineare (MLR)
Esempio di analisi di regressione
17 oggetti descritti da 5 variabili e 1 risposta.
ID
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
x1
15.57
44.02
20.42
18.74
49.2
44.92
55.48
59.28
94.39
128.02
96
131.42
127.21
252.9
409.2
463.7
510.22
x2
2463
2048
3940
6505
5723
11520
5779
5969
8461
20106
13313
10771
15543
36194
34703
39204
86533
x3
472.9
1339.7
620.3
568.3
1497.6
1365.8
1687
1639.9
2872.3
3655.1
2912
3921
3865.7
7684.1
12446.3
14098.4
15524
x4
18
9.5
12.8
36.7
35.7
24
43.3
46.7
78.7
180.5
60.9
103.7
126.8
157.7
169.4
331.4
371.6
x5
4.45
6.92
4.28
3.9
5.5
4.6
5.62
5.15
6.18
6.15
5.88
4.88
5.5
7
10.78
7.05
6.35
y
566.5
696.8
1033.2
1603.6
1611.4
1613.3
1854.2
2160.6
2305.6
3503.9
3571.9
3741.4
4026.5
10343.8
11732.2
15414.9
18854.4
Matrice di correlazione
x1
x2
x3
x4
x5
x1
1
0.9074
0.9999
0.9357
0.6712
x2
0.9074
1
0.9071
0.9105
0.4466
x3
0.9999
0.9071
1
0.9332
0.6711
x4
0.9357
0.9105
0.9332
1
0.4629
x5
0.6712
0.4466
0.6711
0.4629
1
Autovalori della matrice di correlazione
Eigenvalues
Value
% of variability
Cumulative %
1
4.1971
0.8394
0.8394
2
0.6675
0.1335
0.9729
3
0.0946
0.0189
0.9918
4
0.0407
0.0081
1.0000
5
0.0001
0.0000
1.0000
Risultati della regressione dei minimi quadrati (OLS)
Modello scelto : lineare di primo ordine
n = 17
p’ = 5+1
Fcalc = 237.8
F0.05;5,11 = 3.20
F0.01;5,11 = 5.32
R2
= 99.1 %
R2adj = 98.7 %
R2loo = Q2 = 93.5 %
s = 642.1
SDEC = 516.5
SDEP = 1376.2
Histogram for reduced residuals
1
3
Nbr of observation
5
7
9
11
13
15
17
-1.5
-1
-0.5
0
0.5
1
residuals
1.5
2
2.5
3
3.5
Coefficienti di regressione
Value
Intercept 1962.941
x1
-15.8583
x2
0.05593
x3
1.589848
x4
-4.21919
x5
-394.304
Std dev.
Lower 95% bound Upper 95% bound
1071.3600
-395.1080
4320.9894
97.6519
-230.7889
199.0722
0.0213
0.0091
0.1027
3.0921
-5.2157
8.3954
7.1760
-20.0135
11.5751
209.6424
-855.7241
67.1162
Coefficienti di regressione standardizzati
x1
x2
x3
x4
x5
Value
-0.459
0.214
1.403
-0.082
-0.111
Std dev.
2.8280
0.0810
2.7280
0.1390
0.0600
Regressione Multipla Lineare (MLR)
Diagnostica di regressione
Valutazione della qualità di un modello mediante
strumenti grafici.
y(exp) vs y(calc), y(pred)
objects vs residuals
objects vs leverages
leverages vs residuals
y(calc) vs residuals
..........
Regressione Multipla Lineare (MLR)
Grafico delle risposte
Regressione Multipla Lineare (MLR)
Analisi dei residui
Serve a valutare l’adeguatezza del modello stimato.
ei
ei
x(y)
ei
ei
x(y)
ei
x(y)
x(y)
ei
x(y)
x(y)
Regressione Multipla Lineare (MLR)
Grafico di Williams per studiare le influenze degli oggetti