Università del Piemonte Orientale
Corso di Laurea in Biotecnologia
Corso di Statistica Medica
Correlazione
Regressione Lineare
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
1
Campo di applicazione
• Analisi della relazione tra due variabili
continue.
• Es: relazione tra altezza e peso
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
2
1
Campo di applicazione
• Le variabili sono associate? -> correlazione
• Come varia il valore di una variabile in
conseguenza del variare di un’altra variabile?
-> regressione
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
3
Correlazione
Dato un insieme di osservazioni definite da due
variabili continue,
valutiamo la forza dell’associazione tra le due
variabili
•disegnando il diagramma di dispersione e
•calcolando il coefficiente di correlazione.
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
4
2
Il diagramma di dispersione si disegna
riportando i valori delle osservazioni su un
sistema di assi cartesiani, in cui l’asse x
rappresenta una delle due variabili e
l’asse y l’altra variabile.
Il diagramma consente di collocare ogni
osservazione nello spazio definito dai
valori possibili delle due variabili.
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
5
Relazione alla nascita tra circonferenza cranica e lunghezza
36,0
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
39
44
49
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
6
3
La forma della nuvola di punti così ottenuta
consente una valutazione visiva del grado di
associazione tra le due variabili.
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
7
Relazione tra circonferenza cranica alla nascita ed età materna
36,0
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
10
15
20
25
30
35
40
45
età materna
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
8
4
Relazione alla nascita tra circonferenza cranica e lunghezza
36,0
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
39
44
49
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
9
Il coefficiente di correlazione di Pearson (r) consente la
valutazione formale del grado di associazione.
L’intervallo dei valori possibili di r è: -1 <= r <=1
Se r=1 o r=-1 tutti i punti giacciono su una retta
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
10
5
Relazione tra circonferenza cranica alla nascita ed età materna
36,0
r = 0,15
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
10
15
20
25
30
35
40
45
età materna
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
11
Relazione alla nascita tra circonferenza cranica e lunghezza
36,0
r = 0,72
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
39
44
49
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
12
6
La formula del coefficiente di correlazione di Pearson (r)
∑ (x
n
r=
i =1
i
)(
− x yi − y
)
∑ (x − x ) ∑ (y − y )
n
i =1
2
i
n
i =1
2
i
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
13
Relazione tra concentrazione plasmatica i colesterolo e trigliceridi
1
2
3
4
5
6
7
8
9
10
medie:
Colesterolo Trigliceridi
(x)
(y)
3,45
6,24
3,5
6,18
2,95
5,2
3,77
6,11
3,67
6,36
5,31
5,67
5,1
5,48
7,85
5,67
8,79
9,4
12,3
8,4
5,669
6,471
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
14
7
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
10
9
8
7
trigliceridi
6
5
4
3
2
1
0
0
2
4
6
8
10
12
14
colesterolo
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
15
Relazione tra concentrazione plasmatica i colesterolo e trigliceridi
1
2
3
4
5
6
7
8
9
10
medie:
Colesterolo Trigliceridi
(x)
(y)
3,45
6,24
3,5
6,18
2,95
5,2
3,77
6,11
3,67
6,36
5,31
5,67
5,1
5,48
7,85
5,67
8,79
9,4
12,3
8,4
5,669
(x − x ) (y − y )
i
-2,459
-2,409
-2,959
-2,139
-2,239
-0,599
-0,809
1,941
2,881
6,391
i
-0,493
-0,553
-1,533
-0,623
-0,373
-1,063
-1,253
-1,063
2,667
1,667
6,471
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
16
8
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
Colesterolo Trigliceridi
(x)
(y)
3,45
3,5
2,95
3,77
3,67
5,31
5,1
7,85
8,79
12,3
6,24
6,18
5,2
6,11
6,36
5,67
5,48
5,67
9,4
8,4
(x − x)
i
-2,459
-2,409
-2,959
-2,139
-2,239
-0,599
-0,809
1,941
2,881
6,391
(y − y) (x − x)* (y − y)
i
i
i
(x − x)
2
i
(y − y)
2
i
-0,493
-0,553
-1,533
-0,623
-0,373
-1,063
-1,253
-1,063
2,667
1,667
1,212287
1,332177
4,536147
1,332597
0,835147
0,636737
1,013677
-2,063283
7,683627
10,653797
6,046681
5,803281
8,755681
4,575321
5,013121
0,358801
0,654481
3,767481
8,300161
40,844881
0,243049
0,305809
2,350089
0,388129
0,139129
1,129969
1,570009
1,129969
7,112889
2,778889
Sommatorie:
26,54411
83,54389
16,46149
r=
0,715774547
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
17
Esercizi
Correlazione
• Pag. 304 n. 1
• Pag. 304 n. 5
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
18
9
Regressione
Stima della variazione media di una variabile
in conseguenza
della variazione unitaria di un’altra variabile
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
19
• Variabile indipendente
-> causa
-> (sulle ascisse)
• Variabile dipendente
-> effetto
-> (sulle ordinate)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
20
10
effetto
y
V
.
d
i
p
e
n
d
e
n
t
e
causa
Var. indipendente
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
21
Obiettivo dell’analisi di regressione:
Individuare la retta che meglio predice il
valore di y (variabile dipendente), noto il
valore di x (variabile indipendente).
y=a+bx
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
22
11
y=a+bx
a -> intercetta
b -> pendenza
Come stimiamo i valori dei due coefficienti?
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
23
Il valore atteso di x è la sua media
y
x
Media di x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
24
12
Media di y
Il valore atteso di y è la sua media
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
25
La retta che meglio predice y|x passa per la media di x e di y
y
Media di x e media di y
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
26
13
Per un punto passano infinite rette!
Quale retta scegliamo? Con quale criterio?
y
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
27
y
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
28
14
Residuo (o scarto) = valore y_osservato – valore y_predetto
La retta migliore minimizza la somma dei quadrati dei residui
Metodo detto ‘dei minimi quadrati’
y
valore y_osservato
valore y_predetto
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
29
∑ (x − x )(y − y )
b=
∑ (xi − x )
i
i
2
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
30
15
=
a
y − b x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
31
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
Colesterolo Trigliceridi
(x)
(y)
(x − x ) (y − y )
i
i
(x − x )* (y − y )
i
i
(x − x)
2
i
1
3,45
6,24
-2,219
-0,231
0,512589
2
3,5
6,18
-2,169
-0,291
0,631179
4,704561
3
2,95
5,2
-2,719
-1,271
3,455849
7,392961
4
3,77
6,11
-1,899
-0,361
0,685539
3,606201
5
3,67
6,36
-1,999
-0,111
0,221889
3,996001
6
5,31
5,67
-0,359
-0,801
0,287559
0,128881
7
5,1
5,48
-0,569
-0,991
0,563879
0,323761
8
7,85
5,67
2,181
-0,801
-1,746981
4,756761
9
8,79
9,4
3,121
2,929
9,141409
9,740641
10
12,3
8,4
6,631
1,929
12,791199
43,970161
5,669
6,471
26,54411
83,54389
medie:
b=
0,31772653
a=
4,66980832
4,923961
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
32
16
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g l i c e r i d i (y )
10
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
33
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g l i c e r i d i (y )
10
8
b = 0,32
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
34
17
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g l i c e r i d i (y )
10
a=4,67
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
35
variazione del livello di trigliceridi con il livello di
colesterolo
trigliceridi=4,67 + 0,32* colesterolo
tr i g l i c e r i d i (y )
10
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
36
18
Formule abbreviate
(∑y )(∑x )−(∑y )(∑xi y )
a=
n(∑x )−(∑ xi)
2
i
i
i
i
2
2
i
b=
(
)
( )
n(∑x )−(∑ xi)
n ∑xi y − (∑xi ) ∑y
i
2
i
2
i
Queste formule sono più convenienti per il calcolo a mano
Si basano sulle formule abbreviate per il calcolo della varianza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
37
Di qui
Requisiti dell’analisi di regressione
Y è una variabile casuale
Omoscedasticità
(omogeneità della varianza di y|x)
Distribuzione normale di y|x
Linearità della relazione tra x ed y
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
38
19
In questo esempio abbiamo dati campionati da una popolazione in
cui le tre assunzioni sono soddisfatte
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
39
Variabilità della retta di regressione.
• y è una variabile casuale
• siamo interessati a valutare la variabilità di y,
non quella di x.
• x di solito non è una variabile casuale. Il
ricercatore può scegliere soggetti con i valori
della x più adatti per lo studio.
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
40
20
Varianza intorno alla retta di regressione (stima campionaria)
∑ ( y − yˆ )
2
s =
2
i
i
n−2
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
41
Varianza intorno alla retta di regressione (stima campionaria)
∑ ( y − yˆ )
2
s2 =
i
i
n−2
Valori predetti (o attesi)
dall’applicazione dei coefficienti
aeb
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
42
21
Varianza intorno alla retta di regressione (stima campionaria)
∑ ( y − yˆ )
2
s =
2
i
i
n−2
Valori osservati
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
43
Varianza intorno alla retta di regressione (stima campionaria)
y − yˆ
i
i
= residui
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
44
22
Residuo (o scarto) = valore y_osservato – valore y_predetto
Varianza = scarti ^ 2 / g.l.
y
valore y_osservato
residuo o scarto
valore y_predetto
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
∑ ( y − yˆ )
yˆ i = a + bxi
2
s2 =
i
45
i
n−2
Sostituisco:
∑ ( y − a − bx )
s =
2
2
i
i
n−2
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
46
23
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
Colesterolo Triglicerid
(x)
i (y)
1
3,45
6,24
att(y)
y-att(y)
(y-att(y))^2
5,765965
0,474035
0,224709
2
3,5
6,18
5,781851
0,398149
0,158522
3
2,95
5,2
5,607102
-0,4071
0,165732
4
3,77
6,11
5,867637
0,242363
0,05874
5
3,67
6,36
5,835865
0,524135
0,274718
6
5,31
5,67
6,356936
-0,68694
0,471881
7
5,1
5,48
6,290214
-0,81021
0,656446
8
7,85
5,67
7,163962
-1,49396
2,231921
9
8,79
9,4
7,462624
1,937376
3,753424
10
12,3
8,4
8,577845
-0,17784
0,031629
somma degli
b=
0,31772653
a=
4,66980832
scarti^2
8,027722
s(b)^2=
1,003465
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
47
Omoscedasticità: la varianza di y è costante per tutto l’intervallo x.
E’ un requisito per la corretta applicazione della regressione lineare
(v.oltre)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
48
24
Intervallo di Confidenza del coefficiente di
regressione
L’intervallo di confidenza si calcola nel modo
consueto (v. lezione precedente)
t ha (n-2) gradi di libertà ed il valore è scelto in
modo corrispondente all’errore di I tipo, con
test a 2 code
CI = b ± tcrit × SE (b)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
49
Intervallo di confidenza di b
IC95% = b ± t gl ,0,05 * ES (b)
ES (b) =
s2
∑ (x − x )
2
i
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
50
25
Colesterolo
(x)
Trigliceridi
(y)
(x − x)
2
att(y)
y-att(y)
(y-att(y))^2
i
1
3,45
6,24 4,923961 5,765965
0,474035
0,224709
2
3,5
6,18 4,704561 5,781851
0,398149
0,158522
3
2,95
5,2 7,392961 5,607102
-0,4071
0,165732
4
3,77
6,11 3,606201 5,867637
0,242363
0,05874
5
3,67
6,36 3,996001 5,835865
0,524135
0,274718
6
5,31
5,67 0,128881 6,356936
-0,68694
0,471881
7
5,1
5,48 0,323761 6,290214
-0,81021
0,656446
8
7,85
5,67 4,756761 7,163962
-1,49396
2,231921
9
8,79
9,4 9,740641 7,462624
1,937376
3,753424
10
12,3
8,4 43,970161 8,577845
-0,17784
0,031629
somma degli
scarti^2
8,027722
b=
0,31772653
s(b)^2=
1,003465
a=
4,66980832
ES(b)=
0,109596
83,54389
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
51
Errore standard di b
ES (b) =
s2
∑ (x − x )
2
i
L’errore standard di b si riduce, a parità di s, quando la
variabilità di x è maggiore !
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
52
26
Tests t per il coefficiente di regressione
t = distanza tra il valore di b stimato (b)
e quello previsto dall’ipotesi nulla (ß, di solito
H0: ß =0),
in unità di errore standard di b (SE(b))
b−β
t=
SE (b)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
Colesterolo
(x)
Trigliceridi
(y)
(x − x)
53
att(y)
y-att(y)
(y-att(y))^2
3,45
6,24 4,923961 5,765965
0,474035
0,224709
2
3,5
6,18 4,704561 5,781851
0,398149
0,158522
3
2,95
5,2 7,392961 5,607102
-0,4071
0,165732
4
3,77
6,11 3,606201 5,867637
0,242363
0,05874
5
3,67
6,36 3,996001 5,835865
0,524135
0,274718
6
5,31
5,67 0,128881 6,356936
-0,68694
0,471881
7
5,1
5,48 0,323761 6,290214
-0,81021
0,656446
8
7,85
5,67 4,756761 7,163962
-1,49396
2,231921
9
8,79
9,4 9,740641 7,462624
1,937376
3,753424
10
12,3
8,4 43,970161 8,577845
-0,17784
0,031629
1
2
i
83,54389
somma degli scarti^2
8,027722
b=
0,31772653
s(b)^2=
1,003465
a=
4,66980832
ES(b)=
0,109596
IC(95%)_b= 0,064998 -0,570455
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
54
27
variazione del livello di trigliceridi con il livello di
colesterolo
tr ig l i c e r i d i (y )
10
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
trigliceridi=4,67 + 0,32* colesterolo
IC(95%)_b= 0,06 -0,57
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
55
Relazione alla nascita tra circonferenza cranica e lunghezza
a=8,02
b= 0,51
ES(b)=0,05021
(IC 95%_b: 0,41 - 0,61)
y= 8,02 + 0,51x
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
56
28
Valore di y predetto dalla retta di
regressione
data y=a+bx, dopo aver ricavato a e b
possiamo predire il valore atteso di y,
corrispondente ad un dato valore di x.
• Il calcolo si effettua sostituendo il valore di x
nella formula, noti a e b e risolvendo
l’equazione.
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
57
Valore di y predetto dalla retta di regressione
• Es. il valore di circonferenza cranica predetto
per un bambino di lunghezza 41 cm è
ŷ =8,02+0,513 * x
ŷ =8,02+0,513 * 41
ŷ =29,05
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
58
29
Intervallo di confidenza dei valori predetti
(x′ − x )
1
+ i
2
n ∑ (xi − x )
2
PI = yˆ ± t gl ,α s 1 +
2
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
59
Relazione alla nascita tra circonferenza cranica e lunghezza
Es. il valore di circonferenza cranica predetto
per un bambino di lunghezza 41 cm è
ŷ
=29,05
IC( ŷ )=
25,47 - 32,63
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
60
30
Intervallo di confidenza dei valori predetti
(x′ − x )
1
+ i
2
n ∑ (xi − x )
2
PI = yˆ ± t gl ,α s 1 +
2
La predizione ha un
errore maggiore
allontanandosi dalla
media di x
La predizione ha un errore
minore con un’ampia
variabilità di x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
61
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
62
31
14
12
10
8
6
4
atteso_y
2
0
0
2
4
6
8
10
12
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
14
63
Cautele nella predizione
• La predizione non è valida fuori dell’intervallo
osservato di x
• La predizione è più incerta agli estremi della
distribuzione di x
• Per migliorare la precisione della predizione
debbo aumentare la somma dei quadrati
degli scarti (devianza) di x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
64
32
Outliers ed osservazioni ‘influenti’
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
65
Relazione alla nascita tra circonferenza cranica e lunghezza
Ho due outliers, indicati come: 1 e 2
2
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
1
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
66
33
Relazione alla nascita tra circonferenza cranica e lunghezza
Se escludo outlier 1
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
1
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
67
Relazione alla nascita tra circonferenza cranica e lunghezza
Se escludo outliers 1 e 2
2
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
1
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
68
34
Relazione alla nascita tra circonferenza cranica e lunghezza
Tutti i dati:
a=8,02
b= 0,51
Escluso outlier 1:
a=4,91
b=0,60
Esclusi outlier 1 e 2:
a=4,46
b=0,61
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
69
Valutazione del modello
• R2 : proporzione della varianza che è
spiegata dal modello di regressione
• = (coefficiente di correlazione) ^2
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
70
35
variazione del livello di trigliceridi con il livello di
colesterolo
trigliceridi=4,67 + 0,32* colesterolo
tr i g l i c e r i d i (y )
10
r =0,716
R2 =0,51
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
71
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribuzione normale degli errori
Linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
72
36
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribizione normale degli errori
Linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
73
Omoscedasticità (omogeneità della varianza)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
74
37
Verifica delle assunzioni del modello
La verifica delle assunzioni del modello viene
condotta esaminando la distribuzione dei
residui
Se la varianza è costante per tutta la
distribuzione della x,anche i residui saranno
distribuiti in modo uniforme.
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
75
Residuo (o scarto) = valore y_osservato – valore y_predetto
y
valore y_osservato
valore y_predetto
x
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
76
38
Verifica delle assunzioni del modello
Distribuzione uniforme dei residui
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
77
Distribuzione uniforme dei residui
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
78
39
Distribuzione non uniforme dei residui
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
79
Distribuzione non uniforme dei residui
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
80
40
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribuzione normale degli errori
Linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
81
Distribuzione normale dei residui (errori)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
82
41
Distribuzione non normale dei residui (errori)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
83
Distribuzione non normale dei residui (errori)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
84
42
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribizione normale degli errori
Linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
85
Perchè parliamo di regressione
lineare?
• La variazione lineare è spesso una
spiegazione adeguata
• Variazioni non lineari diventano tali dopo una
trasformazione matematica di una delle
variabili
• La variazione lineare è un punto di partenza
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
86
43
Non-linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
87
Non-linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
88
44
Non-linearità
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
89
Trasformazioni normalizzanti e linearizzanti
• Radice quadrata
• Logaritmo
• Inversa (meglio se ulteriormente moltiplicata
per -1)
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
90
45
Trasformazioni normalizzanti e linearizzanti
Inversa negativa
Dati
Log
trasformati
Radice
Dati originali
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
91
FR
E
Q
U
E
N
C
Y
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
0 2 5
5 0
0 0
7 1
5 0
0 0
0
1 1 1
2 5 7
5 0 5
0 0 0
2 2 2
0 2 5
0 5 0
0 0 0
2 3
7 0
5 0
0 0
3 3 3
2 5 7
5 0 5
0 0 0
4 4 4
0 2 5
0 5 0
0 0 0
4 5
7 0
5 0
0 0
5 5 5
2 5 7
5 0 5
0 0 0
6 6 6
0 2 5
0 5 0
0 0 0
6 7
7 0
5 0
0 0
7 7 7
2 5 7
5 0 5
0 0 0
8 8 8
0 2 5
0 5 0
0 0 0
8 9
7 0
5 0
0 0
9 9 9
2 5 7
5 0 5
0 0 0
1
0
0
0
0
C
O
R
P
U
S
C
OM
ID
P
O
IN
T
FR
E
Q
U
E
N
C
Y
50
40
30
20
10
0
0 00 01 11 12 22 23 33 34 44 45 55 56 66 67 77 78 88 89 99 91 11
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0 00
0 25 70 25 70 25 70 25 70 25 70 25 70 25 70 25 70 25 70 25 7. . .
0 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 25
0 50
L_c
11
01
. .
70
50
11
11
. .
25
50
11
12
. .
70
50
11
22
. .
25
50
11
23
. .
70
50
11
33
. .
25
50
11
34
. .
70
50
M
I D
P
O
I N
T
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
92
46
Esercizi regressione
•
•
•
•
•
Pag.326 n 1
Pag.326 n 3
Pag.326 n 4
Pag.326 n 6
Pag.326 n 10
Corso di laurea in biotecnologia - Statistica Medica – Correlazione e Regressione lineare semplice
93
47