Analisi della Regressione Lineare

Analisi della Regressione Lineare
Master in Tecnologie Bioinformatiche
29/09/06
Adriano Decarli
1
29/09/06
Adriano Decarli
2
29/09/06
Adriano Decarli
3
29/09/06
Adriano Decarli
4
29/09/06
Adriano Decarli
5
29/09/06
Adriano Decarli
6
29/09/06
Adriano Decarli
7
29/09/06
Adriano Decarli
8
29/09/06
Adriano Decarli
9
A
B
μi = β0 + β1 X1i + β2 X2i + β3 X1i
X2i
μi = β0 + β1 X1i
Row group
μi = ( β0 + β2 ) + (β1 + β3 )X1i Corner group
29/09/06
Adriano Decarli
10
μi = β0 + β1 X1i + β2 X2i
29/09/06
μi = β0 + β1 X1i
Row group
μi = ( β0 + β2 ) + β1 X1i
Corner group
Adriano Decarli
11
μi = β0 + β1 X1i
29/09/06
Adriano Decarli
12
μi = β0 + β2 X2i
29/09/06
Adriano Decarli
13
μi = β0
29/09/06
Adriano Decarli
14
29/09/06
β3 = β1
μi = β0 + β1 X1i + β2 X2i + β31 X1i X2i =
X2i
= β0 + β1 (1- X2i)X1i + β2
X2i
Adriano Decarli
15
Regressione Lineare Semplice
• Molte decisioni sono basate sulla relazione esistente fra
due o più variabili.
• La relazione esistente fra due variabili può essere espressa
sottoforma di un equazione.
• Nella sua forma più semplice questa equazione può essere
lineare: equazione lineare di regressione.
• Analisi della Regressione : insieme delle procedure
statistiche che studiano il comportamento di una variabile
in funzione di una od altre variabili.
29/09/06
Adriano Decarli
16
Le variabili nell’equazione
• La variabile ‘predetta’ Y è chiamata variabile
dipendente.
• La variabile usata come predittore è chiamata
variabile indipendente .
• La relazione tra una variabile dipendente ed una
variabile indipendente approssimata da una retta è
chiamata equazione lineare semplice.
29/09/06
Adriano Decarli
17
Diversi possibili modelli
X1
X1
X2
X2
Y
X2
X1
X1
Y
Y
29/09/06
Y
X2
Adriano Decarli
18
Regressione lineare semplice : Esempio
Profondità a cui un disco bianco non è più visibile nelle acque di un lago
y = profondità
xVariabile
= concentrazione di azoto nell’acqua
10
Dipendente
Pendenza
y = β 0 + β1 x + ε
β0
Depth (m)
8
6
β1
4
2
0
0
4
6
8
10
N/volume water
Intercetta
29/09/06
2
Variabile
Il residuo
misura lo scostamento
Indipendente
tra il valore atteso dal modello
e il valore realmente
osservato
Adriano Decarli
19
Regressione Lineare Semplice:
Esempio :
Profondità a cui un disco bianco non è più visibile nelle acque di un lago
y = profondità
xVariabile
= concentrazione di azoto nell’acqua
10
Dipendente
Pendenza
y = β 0 + β1 x + ε
ß0
Depth (m)
8
6
ß1
4
2
0
0
4
6
8
10
N/volume water
Intercetta
29/09/06
2
Variabile
Il residuo
misura lo scostamento
Indipendente
tra il valore atteso dal modello
e il valore realmente
osservato
Adriano Decarli
20
Regressione Multipla
Esempio:
y = Profondità
x1 = Concentrazione di N
x2 = Concentrazione di P
10
10
8
8
6
Depth
6
4
4
2
Depth
2
0
0
0
0
2
2
4
Concentration of P
4
6
6
8
Concentration of N
8
y = β 0 + β1 x1 + β 2 x2 + β 3 x1 x2 + ε
29/09/06
Adriano Decarli
21
Analisi della Varianza (ANOVA)
Esempio
10
y = Profondità
x1 = Disco Blu
x2 = Disco Verde
Depth
8
6
4
x1 = 01 ; x2 = 10
2
0
White
Blue
Green
Disc color
y = β 0 + β1 x1 + β 2 x2 + ε
29/09/06
Adriano Decarli
22
Analisi della Covarianza (ANCOVA)
Esempio
10
8
Depth
y = Profondità
x1 = Disco blu
x2 = Disco verde
x3 = Concentrazione of N
6
4
2
0
0
2
4
6
8
10
Concentration of N
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + β 4 x1 x3 + β 5 x2 x3 + ε
29/09/06
Adriano Decarli
23
A
y1A
y2A
y3A
yA =
∑y
nA
Drugs
C
y1C
y2C
y3C
B
y1B
y2B
y3B
jA
yB =
∑y
nB
jB
yC =
∑y
nC
yA = yA + ε
yB = yB + ε
yC = yC + ε
yD = yD + ε
jC
D
y1D
y2D
y3D
yD =
∑y
nD
Total
jD
y
∑
∑
y =
n
ij
y A = y A + ε = β0 + ε
x1 = 1 y B = y B + ε = β 0 + β1 + ε
x2 = 1 yC = yC + ε = β 0 + β 2 + ε
x3 = 1 y D = y D + ε = β 0 + β 3 + ε
y = β 0 + β 1 x1 + β 2 x 2 + β 3 x3 + ε
y A = β0
y B = β 0 + β1 ⇒ β1 = yB − y A
yC = β 0 + β 2 ⇒ β 2 = y C − y A
yD = β0 + β3 ⇒ β3 = y D − y A
Sorgente di variabilità
β0
Stima di
Trattamenti (β1 β 2 β 3 )
Residuo
Totale
Gradi di libertà
1
p-1=3
n-p = 8
n = 12
Modello di Regressione Lineare Semplice
• Modello
y = β0 + β1x + ε
• Equazione
E(y) = β0 + β1x
• Regressione Lineare stimata
y = b0 + b1x
29/09/06
Adriano Decarli
26
Metodo dei Minimi Quadrati
• Criterio dei minimi quadrati :
min ∑ (y i − y$ i ) 2
dove :
yi = valore osservato della variabile dipendente
per la i-esima osservazione
^
yi = valore stimato della variabile dipendente
per la i-esima osservazione.
29/09/06
Adriano Decarli
27
Metodo dei minimi quadrati
• Pendenza della retta di regressione stimata:
∑ xi y i − ( ∑ xi ∑ y i ) / n
b1 =
2
2
∑ xi − ( ∑ xi ) / n
• Intercetta della retta di regressione stimata:
_ _
b0 = y - b1x
dove :
xi = valore della variabile indipendente per la i-esima osservazione
y_i = valore della variabile dipendente per la i-esima osservazione
x_= valore della media della variabile indipendente
y = valore della media della variabile dipendente
n = numero totale delle osservazioni
29/09/06
Adriano Decarli
28
Un semplice esempio
Soggetto
1
2
3
4
5
6
7
8
29/09/06
Test
12
10
14
9
9
13
11
8
Adriano Decarli
Voto
8
7
8
5
6
9
7
5
29
Diagramma di dispersione
10
9
8
7
6
5
4
7
8
9
10
11
12
13
14
15
X - T est
29/09/06
Adriano Decarli
30
Retta stimata con il metodo dei minimi quadrati
Y-Voto
10
8
6
4
7
9
11
13
15
X-Test
29/09/06
Adriano Decarli
31
Qualche calcolo
Soggetto Test Voto
1
12
8
2
10
7
3
14
8
4
9
5
5
9
6
6
13
9
7
11
7
8
8
5
Somma 86
55
Media 10,75 6,875
29/09/06
Adriano Decarli
x*x
144
100
196
81
81
169
121
64
956
x*y
96
70
112
45
54
117
77
40
611
32
Stima della pendenza
∑ xi y i − (∑ xi ∑ y i ) / n
b1 =
2
2
∑ xi − (∑ xi ) / n
6 1 1 − [(8 6 * 5 5 ) / 8 ]
b =
=
1
9 5 6 − [(8 6 )2 / 8 ]
611 − 4730 /8
1 9 .7 5
=
= 0,62
956 − 7396 /8
3 1 .5
29/09/06
Adriano Decarli
6
33
Stima dell’ intercetta e valori attesi
b0 = ÿ - b1x
a = 6,875 − 0,626 *10,75 = 0,135
Y = 0,135 + 0,626 * X
29/09/06
Adriano Decarli
34
1
2
3
4
5
6
7
8
29/09/06
Test Voto Stimati Residui
12
8 7,661
0,339
10
7 6,407
0,593
14
8 8,915 -0,915
9
5
5,78
-0,78
9
6
5,78
0,22
13
9 8,288
0,712
11
7 7,034 -0,034
8
5 5,153 -0,153
Adriano Decarli
35
Coefficiente di Determinazione
• Relazione tra SST, SSR, SSE
SST = SSR + SSE
2
2
2
∑ ( y i − y ) = ∑ ( y^i − y ) + ∑ ( y i − y^i )
• Coefficiente di Determinazione
r2 = SSR/SST
dove :
SST = Somma dei quadrati totale
SSR = Somma dei quadrati spiegata dalla Regressione
SSE = Somma dei quadrati non spiegata dalla Regressione
29/09/06
Adriano Decarli
36
Esempio: Test-Voti
• Coefficiente di Determinazione
r2 = SSR/SST = 12.383/14.875 = .8324
La relazione lineare fra le due variabili
è molto forte perché 83% della variabilità
dei voti può essere spiegata dalla variabilità
che i soggetti avevano mostrato al test
attitudinale.
29/09/06
Adriano Decarli
37
Coefficiente di Correlazione
• Coefficiente di Correlazione
rxy = (segno di b1 ) Coefficiente di Determinazione
rxy = (segno di b1 ) r 2
yˆ = b0 + b1 x
dove :
b1 = la pendenza della retta di regressione stimata
29/09/06
Adriano Decarli
38
Esempio : Test - Voti
• Coefficiente di Correlazione stimato
rxy = (sign of b1 ) r 2
Il segno di b1 nell’equazione : Y = 0 ,135 + 0 , 626 * X
è positivo.
rxy = +.9124 = (segno di b1) 0.8324
29/09/06
Adriano Decarli
39
Assunti
• Assunti relativi al termine di errore ε
– L’errore ε è una variabile casuale con media 0.
– La varianza di ε , indicata con σ 2, ha valore uguale per
tutti i valori della variabile independente.
– I valori di ε sono indipendenti.
– L’errore ε è distribuito normalmente.
29/09/06
Adriano Decarli
40
Test di Significatività
• Per saggiare la significatività della relazione di
regressione, effettuiamo un test di ipotesi per
determinare se il valore di β1 è uguale a zero.
• Test comunemente usati sono:
– t Test
– F Test
• Ambedue i test richiedono la stima di σ 2, la
varianza di ε nel modello di regressione.
29/09/06
Adriano Decarli
41
Test di Significatività
• Stima di σ 2
L’errore quadratico medio (MSE) fornisce la stima
di σ 2, indicato usualmente con s2
s2 = MSE = SSE/(n-2)
con :
SSE = ∑ ( yi − yˆ i ) 2 = ∑ ( yi − b0 − b1 xi ) 2
29/09/06
Adriano Decarli
42
Test di Significatività
• Stima di σ
– La stima di σ è data dalla radice di σ 2.
– Il valore risultante s è chiamato errore standard
della stima.
SSE
s = MSE =
n−2
29/09/06
Adriano Decarli
43
Test di Significatività : t Test
• Ipotesi
H0: β1 = 0
Ha: β1 = 0
• Test Statistico
b1
t=
sb 1
• Area di rifiuto
Rifiuto H0 se t < -tα/2 o t > tα/2 ; tα/2 è ricavato
dalla distribuzione t con n - 2 gradi di libertà.
29/09/06
Adriano Decarli
44
Test di significatività : Test F
„
Ipotesi
H0: β1 = 0
Ha: β1 = 0
„
Test Statistico
F = MSR/MSE
„
Area di rifiuto
Rifiuto H0 se F > Fα
Fα è riferito alla distribuzione F con 1 g.l. per il
numeratore e n - 2 g.l. per il denominatore.
29/09/06
Adriano Decarli
45
Esempio: Test - Voti
• Test t
• Ipotesi
H0: β1 = 0
Ha: β1 = 0
– Area di rifiuto
Per α = .05 e g.l. = 6 , t.025 = 2.447
Rifiuto H0 se t > 2.447
– Test
t = 0.626/0.644 = 4.63
– Conclusione
Rifiuto H0
29/09/06
Adriano Decarli
46
Esempio : Test - Voti
„
F Test
• Ipotesi
• Area di rifiuto
• Test
H0: β1 = 0
Ha: β1 = 0
Per α = .05 e g.l = 1, 6: F.05 = 13.75
Rifiuto H0 se F > 10.13.
F = MSR/MSE = 12.38/0.415 = 29.83
• Conclusione
Rifiutiamo H0.
29/09/06
Adriano Decarli
47
Intervallo di confidenza per β1
• L’intervallo di confidenza di β1 è dato da:
dove
b1 ± tα / 2 sb1
b1 è il valore stimato
tα / 2 sb1
è il margine d’errore
tα / 2
con n - 2
29/09/06
è il valore di t che definisce
un’area pari ad α/2 nella coda
di una distribuzione t
gradi di libertà.
Adriano Decarli
48
Esempio: Test - Voti
• Area di rifiuto
Rifiuto H0 se 0 non è compreso
nell’intervallo di confidenza per β1.
• Intervallo di confidenza al 95% di β1
b1 ± tα / 2 sb1
= 0.626 +/- 2.447(0.115) =
0.626 +/- 0.28
da 0.346 a 0.906
• Conclusione
Rifiuto H0
29/09/06
Adriano Decarli
49
Cautele nell’interpretazione
• Rifiutando H0: β1 = 0 e concludendo che la
relazione tra x e y è significativa non permette di
affermare l’esistenza di una relazione causa-effetto
tra x e y.
• Il rifiuto di H0: β1 = 0 non permette di concludere
che la relazione tra x and y sia lineare
29/09/06
Adriano Decarli
50
Uso della retta di regressione stimata
Stima Puntuale
• Per qualsiasi valore di x possiamo trovare il valore stimato di y.
• Le stime puntuali non forniscono alcuna informazione sulla
precisione associata alla stima
Nell’ esempio :
L’equazione stimata Y = 0.135 + 0.626 x fornisce un valore stimato di y per
x = 10.75 che è 6.87
29/09/06
Adriano Decarli
51
Uso della retta di regressione stimata
Stime intervallari
Vi sono due tipi di stime intervallari:
1. Intervallo di confidenza della stima è l ’intervallo entro
cui cade il valor medio di Y per un dato valore di x.
2. Intervallo di confidenza della previsione è l’intervallo
entro cui cade un valore individuale di y corrispondente
ad un definito valore di x.
29/09/06
Adriano Decarli
52
Intervallo di confidenza del valore atteso di y
• Sia yp il valore atteso di y per un definito
valore di xp. Cioè yp = b0+ b1xp
• La varianza di yp è data da syp2
syp2
= s2 [ 1/n + {(xp – xm) 2/∑(x - xm) 2}]
Dove: s2 = MSE
29/09/06
Adriano Decarli
53
Uso della equazione di regressione per la stima
e la previsione
„
Intervallo di confidenza di E(yp)
y$ p ± t α /2 s y$ p
„
Stima dell’intervallo di previsone di yp
yp + tα/2 sind
dove tα/2 si riferisce ad una distribuzione t con
n - 2 gradi di libertà e Sind = radice quadrata di (s2 + s2yp )
29/09/06
Adriano Decarli
54
Esempio
• Stima puntuale
I soggetti che hanno ottenuto un valore di 10 al test
attitudinale, avranno mediamente un voto pari a:
y^ = 0.135 + 0.626(10) = 6.395
• Intervallo di confidenza per E(yp)
Il relativo intervallo di confidenza al 95% di questo
voto medio è :
6.395 + 0.24(2.447) = 5.808 -- 6.990
• Intervallo di confidenza per yp
Il relativo intervallo di confidenza al 95% di un
singolo voto è:
29/09/06
6.395 + 0.69(2.447) = 4.706 -- 8.083
Adriano Decarli
55
Analisi dei Residui - 1
• Residuo per l’osservazione i
^
y i – yi
• Residuo standardizzato per l’osservazione i
dove:
y i − y^i
syi − y^i
syi − yi = s 1 − hi
^
29/09/06
Adriano Decarli
56
Analisi dei residui -2
• dove
hi = [1/n + {(xi –xm)2/ ∑ (xi –xm) 2}]
Il termine hi è anche utilizzato come misura di
Leverage dell’ i-esima osservazione. Se il valore è
più grande di 6/n, l’osservazione è considerata
essere influente nella stima dei parametri della
regressione.
29/09/06
Adriano Decarli
57
Analisi dei residui - 3
• Utilizzata per valutare la validità delle
assunzioni sottese all’analisi della regressione.
• Le assunzioni relative all’errore sono :
– E(ε) =0;
– la varianza ε è uguale per tutti i valori di x;
– i valori di ε sono indipendenti;
ε ha una distribuzione normale.
29/09/06
Adriano Decarli
58
Plot dei residui
Plot dei residui vs. x
• Fornisce un’indicazione relativamente al pattern
di distribuzione dei residui attorno al valore atteso
0, e fornisce un’indicazione relativamente alla
omoscedasticità della varianza.
• Se i valori dei residui sono funzione di x allora
non vale l’assunto di omoscedasticità.
• Pattern particolari della distribuzione dei residui
segnalano inadeguatezza del modello.
29/09/06
Adriano Decarli
59
Plot dei residui
Grafico dei residui vs y(atteso)
Simile a quello vs x. Utilizzato quando vi sono più
variabili indipendenti.
Residui standardizzati vs y(atteso)
Fornisce indicazioni riguardo alla normalità del
termine di errore ε. Se il 95% dei punti si trovano
nell’intervallo ( + 2 ; –2 ) si può concludere che ε
è normale.
29/09/06
Adriano Decarli
60
Normal probability plot
• In ascissa i residui ei , in ordinata la scala delle deviate
gaussiane standardizzate;
• Disporre gli ei in ordine crescente ed indicare con e(i ) l ‘ iesimo a partire dal minimo;
• calcolare p(i ) = [ i- 0.5]/n, per i=1,…,n e ricavare da una
tavola della distribuzione cumulativa gaussiana la
corrispondente deviata z(i ) ;
• riportare sul grafico le n coppie di valori [e(i ) , z(i ) ] ;
• se l’insieme dei valori ei è distribuito in modo normale, le
coppie di valori [e(i ) , z(i ) ] giacciono su una linea retta.
29/09/06
Adriano Decarli
61
Analisi dei residui
•
Outliers
– Un osservazione inusuale quando confrontata con gli
altri punti.
– Alcuni package identificano come outlier una
osservazione quando il residuo standardizzato ad essa
corrispondente assume valori < -2 o > +2.
– Questa regola a volte non ha successo nell’identificare
come outlier osservazioni inusualmente lontane dalla
nuvola dei punti.
29/09/06
Adriano Decarli
62
DEFINIZIONE GENERALE DI UN
MODELLO STATISTICO
Ci limiteremo alla classe di modelli definita come modelli
lineari generalizzati.
Sono esplicitabili attraverso tre componenti:
a) La funzione di distribuzione di probabilità
variabile di risposta y.
Dipende da µ (e anche da altri parametri).
f(y)
della
b) La funzione di regressione lineare (predittore lineare) che
lega le p variabili indipendenti ai parametri (da stimare)
del modello
η = β' x = β0 x 0 + β1x1 + ... + βp x p
c) La funzione di trasformazione (Link function) che lega il
predittore lineare η alla media µ
η = g(µ )
29/09/06
Adriano Decarli
63
FUNZIONE DI VEROSIMIGLIANZA
Sia: f (y µ, φ)
29/09/06
la funzione densità di probabilità che
dipende dalla media µ (a cui il
predittore lineare η è legato) e da un
vettore di parametri φ non legato a η
( yi , x i )
con xi≡(xoi , … xpi), il vettore delle
variabili (di risposta ed esplicative)
osservate sull’unità statistica i;
µi
il valore atteso µ per
l’i-esima osservazione
Adriano Decarli
64
Se la raccolta dei dati è frutto di un campionamento casuale
semplice, la probabilità di ottenere le osservazioni:
y1, y2, …….. , yn
è data da:
f (y1 µ1, φ) × f (y 2 µ 2 , φ) × ... × f (y n µ n , φ)
Ottenute le osservazioni:
n
L(µ1 , µ 2 ,..., µ n , φ) = L(ϑ; y ) = ∏ f (yi µi , φ)
i =1
è la funzione di verosimiglianza
29/09/06
Adriano Decarli
65
L cioè è proporzionale alla probabilità di ottenere il campione
osservato, considerata come funzione dei parametri ignoti
µ1 , µ 2 ,..., µ n , φ
Dal punto di vista della rappresentazione algebrica L(ϑ; y) e
f(y; ϑ) sono le stesse
In f l’enfasi è sulle variabili casuali y con ϑ fissate, in L
sul parametro ϑ con y (le osservazioni) fissate
29/09/06
Adriano Decarli
66
Sia Ω lo spazio dei parametri (tutti i valori che ϑ può
assumere).
Lo stimatore di massima verosimiglianza di ϑ è definito
come il vettore ϑ̂ tale per cui:
( )
L ϑˆ , y ≥ L(ϑ, y )
∀ϑ ∈ Ω
Analogamente se l(ϑ; y ) = log L(ϑ; y )
vettore per cui
( )
l ϑˆ , y ≥ l(ϑ, y )
29/09/06
Adriano Decarli
si ha che ϑ̂ è quel
∀ϑ ∈ Ω
67
f ( y,ϑ ) =exp⎡⎢ yϑ −a(ϑ )+b( y) ⎤⎥
⎣⎢
Esempio Normale
⎦⎥
y ≡ N(µ,1)
1
⎡ 1
⎤
exp ⎢− ( y − µ )2 ⎥ =
2π
⎣ 2
⎦
1
⎡ 1
⎤
= exp ⎢− y 2 + µ 2 − 2 yµ − ln 2π⎥ =
2
⎣ 2
⎦
f ( y; µ ) =
(
)
1
1
⎡
⎛ 1
⎞⎤
= exp ⎢ yµ − µ 2 + ⎜ − y 2 − ln 2π ⎟⎥
2
2
⎝ 2
⎠⎦
⎣
con ϑ = µ
1
1
⎡
⎛ 1
⎞⎤
= exp ⎢ yϑ − ϑ2 + ⎜ − y 2 − ln 2π ⎟⎥
2
2
⎝ 2
⎠⎦
⎣
29/09/06
Adriano Decarli
68
Esempio Binomiale
y ≡ B(n , p )
y
⎛n⎞ y
⎛ n ⎞⎛ p ⎞
n−y
n
f ( y; p ) = ⎜ ⎟p (1 − p )
= ⎜ ⎟⎜
⎟ (1 − p )
⎝ y⎠
⎝ y ⎠⎝ 1 − p ⎠
⎡ ⎛ p ⎞
⎛ n ⎞⎤
= exp ⎢ y ln⎜
⎟ + n ln(1 − p ) + ln⎜ ⎟⎥
⎝ y ⎠⎦
⎣ ⎝1 − p ⎠
⎛ p ⎞
ϑ = ln⎜
⎟ da cui p = eϑ (1 − p )
⎝1 − p ⎠
p = eϑ − peϑ
eϑ
p=
1 + eϑ
⎡
⎛ 1 + eϑ − eϑ ⎞
⎛ n ⎞⎤
⎟ + ln⎜ ⎟⎥
= exp ⎢ yϑ + n ln⎜⎜
ϑ
⎟
⎝ y ⎠⎦
⎝ 1+ e
⎠
⎣
(
29/09/06
)
⎡
⎛ n ⎞⎤
ϑ
= exp ⎢ yϑ − n ln 1 + e + ln⎜ ⎟⎥
⎝ y ⎠⎦
⎣
Adriano Decarli
69
Esempio Poisson
y ≡ P(µ )
e − µµ y
f ( y; ϑ) =
y!
= exp[− µ + y ln µ − ln( y!)]
con ϑ = ln µ
[
]
= exp yϑ − eϑ + (− ln ( y!))
29/09/06
Adriano Decarli
70
Sono casi particolari di GLM le seguenti comuni procedure:
1) Regressione lineare con variabili indipendenti quantitative
e distribuzione normale dell’errore
2) Analisi di tabelle multidimensionali risultanti da disegni
fattoriali (anche incompleti e non ortogonali)
3) Analisi della covarianza
4) Analisi di tabelle contenenti frequenze, con modelli loglineari
5) Analisi in scala logit di tabelle contenenti proporzioni
6) analisi probit di curve dose-risposta
29/09/06
Adriano Decarli
71