Università del Piemonte Orientale
Corso di Laurea in Medicina e Chirurgia
Corso di Statistica Medica
Correlazione
Regressione Lineare
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
1
Campo di applicazione
• Analisi della relazione tra due variabili
continue.
• Es: relazione tra altezza e peso
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
2
Campo di applicazione
• Le variabili sono associate? -> correlazione
• Come varia il valore di una variabile in
conseguenza del variare di un’altra variabile?
-> regressione
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
3
Correlazione
Dato un insieme di osservazioni definite da due
variabili continue,
valutiamo la forza dell’associazione tra le due
variabili
•disegnando il diagramma di dispersione e
•calcolando il coefficiente di correlazione.
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
4
Il diagramma di dispersione si disegna
riportando i valori delle osservazioni su un
sistema di assi cartesiani, in cui l’asse x
rappresenta una delle due variabili e
l’asse y l’altra variabile.
Il diagramma consente di collocare ogni
osservazione nello spazio definito dai
valori possibili delle due variabili.
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
5
Relazione alla nascita tra circonferenza cranica e lunghezza
36,0
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
39
44
49
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
6
La forma della nuvola di punti così ottenuta
consente una valutazione visiva del grado di
associazione tra le due variabili.
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
7
Relazione tra circonferenza cranica alla nascita ed età materna
36,0
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
10
15
20
25
30
35
40
45
età materna
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
8
Relazione alla nascita tra circonferenza cranica e lunghezza
36,0
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
39
44
49
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
9
Il coefficiente di correlazione di Pearson (r) consente la
valutazione formale del grado di associazione.
L’intervallo dei valori possibili di r è: -1 <= r <=1
Se r=1 o r=-1 tutti i punti giacciono su una retta
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
10
Relazione tra circonferenza cranica alla nascita ed età materna
36,0
r = 0,15
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
10
15
20
25
30
35
40
45
età materna
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
11
Relazione alla nascita tra circonferenza cranica e lunghezza
36,0
r = 0,72
34,0
circonferenza cranica
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
39
44
49
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
12
La formula del coefficiente di correlazione di Pearson (r)
∑ (x
n
r=
i
)(
− x yi − y
i =1
∑ (x
n
i =1
i
−x
)
) ∑ (y − y )
2
n
2
i
i =1
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
13
Relazione tra concentrazione plasmatica i colesterolo e trigliceridi
1
2
3
4
5
6
7
8
9
10
medie:
Colesterolo Trigliceridi
(x)
(y)
3,45
6,24
3,5
6,18
2,95
5,2
3,77
6,11
3,67
6,36
5,31
5,67
5,1
5,48
7,85
5,67
8,79
9,4
12,3
8,4
5,669
6,471
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
14
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
10
9
8
7
trigliceridi
6
5
4
3
2
1
0
0
2
4
6
8
10
12
14
colesterolo
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
15
Relazione tra concentrazione plasmatica i colesterolo e trigliceridi
1
2
3
4
5
6
7
8
9
10
medie:
Colesterolo Trigliceridi
(x)
(y)
3,45
6,24
3,5
6,18
2,95
5,2
3,77
6,11
3,67
6,36
5,31
5,67
5,1
5,48
7,85
5,67
8,79
9,4
12,3
8,4
5,669
(x − x ) (y − y )
i
-2,459
-2,409
-2,959
-2,139
-2,239
-0,599
-0,809
1,941
2,881
6,391
i
-0,493
-0,553
-1,533
-0,623
-0,373
-1,063
-1,253
-1,063
2,667
1,667
6,471
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
16
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
Colesterolo Trigliceridi
(x)
(y)
3,45
3,5
2,95
3,77
3,67
5,31
5,1
7,85
8,79
12,3
6,24
6,18
5,2
6,11
6,36
5,67
5,48
5,67
9,4
8,4
(x − x)
i
-2,459
-2,409
-2,959
-2,139
-2,239
-0,599
-0,809
1,941
2,881
6,391
(y − y) (x − x)* (y − y)
i
i
i
(x − x)
2
i
-0,493
-0,553
-1,533
-0,623
-0,373
-1,063
-1,253
-1,063
2,667
1,667
1,212287
1,332177
4,536147
1,332597
0,835147
0,636737
1,013677
-2,063283
7,683627
10,653797
6,046681
5,803281
8,755681
4,575321
5,013121
0,358801
0,654481
3,767481
8,300161
40,844881
Sommatorie:
26,54411
83,54389
r=
0,715774547
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
(y − y)
2
i
0,243049
0,305809
2,350089
0,388129
0,139129
1,129969
1,570009
1,129969
7,112889
2,778889
16,46149
17
Esercizi
Correlazione
• Pag. 304 n. 1
• Pag. 304 n. 5
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
18
Regressione
Stima della variazione media
di una variabile in conseguenza
della variazione unitaria di un’altra variabile
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
19
• Variabile indipendente
-> causa
-> (sulle ascisse)
• Variabile dipendente
-> effetto
-> (sulle ordinate)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
20
effetto
y
V
.
d
i
p
e
n
d
e
n
t
e
causa
Var. indipendente
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
21
Obiettivo dell’analisi di regressione:
Individuare la retta che meglio predice il
valore di y (variabile dipendente), noto il
valore di x (variabile indipendente).
y=a+bx
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
22
y=a+bx
a -> intercetta
b -> pendenza
Come stimiamo i valori dei due coefficienti?
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
23
Il valore atteso di x è la sua media
y
x
Media di x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
24
Media di y
Il valore atteso di y è la sua media
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
25
La retta che meglio predice y|x passa per la media di x e di y
y
Media di x e media di y
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
26
Per un punto passano infinite rette!
Quale retta scegliamo? Con quale criterio?
y
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
27
y
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
28
Residuo (o scarto) = valore y_osservato – valore y_predetto
La retta migliore minimizza la somma dei quadrati dei residui
Metodo detto ‘dei minimi quadrati’
y
valore y_osservato
valore y_predetto
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
29
∑ (x − x )(y − y )
b=
∑ (xi − x )
i
i
2
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
30
a
=
y − b x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
31
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
Colesterolo Trigliceridi
(x)
(y)
(x − x ) (y − y )
i
i
(x − x )* (y − y )
i
i
(x − x)
2
i
1
3,45
6,24
-2,219
-0,231
0,512589
2
3,5
6,18
-2,169
-0,291
0,631179
4,704561
3
2,95
5,2
-2,719
-1,271
3,455849
7,392961
4
3,77
6,11
-1,899
-0,361
0,685539
3,606201
5
3,67
6,36
-1,999
-0,111
0,221889
3,996001
6
5,31
5,67
-0,359
-0,801
0,287559
0,128881
7
5,1
5,48
-0,569
-0,991
0,563879
0,323761
8
7,85
5,67
2,181
-0,801
-1,746981
4,756761
9
8,79
9,4
3,121
2,929
9,141409
9,740641
10
12,3
8,4
6,631
1,929
12,791199
43,970161
5,669
6,471
26,54411
83,54389
medie:
b=
0,31772653
a=
4,66980832
4,923961
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
32
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g li c e r id i (y )
10
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
33
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g li c e r id i (y )
10
8
b = 0,32
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
34
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g li c e r id i (y )
10
a=4,67
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
35
variazione del livello di trigliceridi con il livello di
colesterolo
trigliceridi=4,67 + 0,32* colesterolo
tr i g li c e r id i (y )
10
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
36
Formule abbreviate
(
y )(∑ x )− (∑ y )(∑ xi y )
∑
a=
n(∑ x )− (∑ xi )
2
i
i
i
i
2
2
i
b=
(
)
( )
n(∑ x )− (∑ xi )
n ∑ xi y − (∑ xi ) ∑ y
i
2
i
2
i
Queste formule sono più convenienti per il calcolo a mano
Si basano sulle formule abbreviate per il calcolo della varianza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
37
Requisiti dell’analisi di regressione
Y è una variabile casuale
Omoscedasticità
(omogeneità della varianza di y|x)
Distribuzione normale di y|x
Linearità della relazione tra x ed y
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
38
In questo esempio abbiamo dati campionati da una popolazione in
cui le tre assunzioni sono soddisfatte
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
39
Variabilità della retta di regressione.
• y è una variabile casuale
• x di solito non è una variabile casuale. Il
ricercatore può scegliere soggetti con i valori
della x più adatti per lo studio.
• siamo interessati a valutare la variabilità di y,
non quella di x.
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
40
Varianza intorno alla retta di regressione (stima campionaria)
∑ ( y − yˆ )
2
s =
2
i
i
n−2
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
41
Residuo (o scarto) = valore y_osservato – valore y_predetto
Varianza = scarti ^ 2 / g.l.
y
valore y_osservato
scarto
valore y_predetto
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
42
∑ ( y − yˆ )
yˆ i = a + bxi
2
s =
2
i
i
n−2
Sostituisco:
(
y − a − bx )
∑
s =
2
2
i
i
n−2
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
43
Relazione tra concentrazione plasmatica di colesterolo e trigliceridi
Colesterolo Triglicerid
(x)
i (y)
1
3,45
6,24
att(y)
y-att(y)
(y-att(y))^2
5,765965
0,474035
0,224709
2
3,5
6,18
5,781851
0,398149
0,158522
3
2,95
5,2
5,607102
-0,4071
0,165732
4
3,77
6,11
5,867637
0,242363
0,05874
5
3,67
6,36
5,835865
0,524135
0,274718
6
5,31
5,67
6,356936
-0,68694
0,471881
7
5,1
5,48
6,290214
-0,81021
0,656446
8
7,85
5,67
7,163962
-1,49396
2,231921
9
8,79
9,4
7,462624
1,937376
3,753424
10
12,3
8,4
8,577845
-0,17784
0,031629
somma degli
b=
0,31772653
a=
4,66980832
scarti^2
8,027722
s(b)^2=
1,003465
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
44
Omoscedasticità: la varianza di y è costante per tutto l’intervallo x.
E’ un requisito per la corretta applicazione della regressione lineare
(v.oltre)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
45
Errore standard di b
ES (b) =
s
2
∑ (x − x )
2
i
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
46
Colesterolo
(x)
Trigliceridi
(y)
(x − x)
2
att(y)
y-att(y)
(y-att(y))^2
i
1
3,45
6,24 4,923961 5,765965
0,474035
0,224709
2
3,5
6,18 4,704561 5,781851
0,398149
0,158522
3
2,95
5,2 7,392961 5,607102
-0,4071
0,165732
4
3,77
6,11 3,606201 5,867637
0,242363
0,05874
5
3,67
6,36 3,996001 5,835865
0,524135
0,274718
6
5,31
5,67 0,128881 6,356936
-0,68694
0,471881
7
5,1
5,48 0,323761 6,290214
-0,81021
0,656446
8
7,85
5,67 4,756761 7,163962
-1,49396
2,231921
9
8,79
9,4 9,740641 7,462624
1,937376
3,753424
10
12,3
8,4 43,970161 8,577845
-0,17784
0,031629
somma degli
83,54389
scarti^2
8,027722
b=
0,31772653
s(b)^2=
1,003465
a=
4,66980832
ES(b)=
0,109596
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
47
Errore standard di b
ES (b) =
s
2
∑ (x − x )
2
i
L’errore standard di b si riduce, a parità di s, quando la
variabilità di x è maggiore !
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
48
Intervallo di Confidenza e tests t per il
coefficiente di regressione
t = distanza tra il valore di b stimato (b)
e quello previsto dall’ipotesi nulla (ß, di solito
H0: ß =0),
in unità di errore standard di b (SE(b))
b−β
t=
SE (b)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
49
Intervallo di Confidenza del coefficiente di
regressione
L’intervallo di confidenza si calcola nel modo
consueto (v. lezione precedente)
t ha (n-2) gradi di libertà ed il valore è scelto in
modo corrispondente all’errore di I tipo, con
test a 2 code
CI = b ± tcrit × SE (b)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
50
Colesterolo
(x)
Trigliceridi
(y)
(x − x)
2
att(y)
y-att(y)
(y-att(y))^2
i
1
3,45
6,24 4,923961 5,765965
0,474035
0,224709
2
3,5
6,18 4,704561 5,781851
0,398149
0,158522
3
2,95
5,2 7,392961 5,607102
-0,4071
0,165732
4
3,77
6,11 3,606201 5,867637
0,242363
0,05874
5
3,67
6,36 3,996001 5,835865
0,524135
0,274718
6
5,31
5,67 0,128881 6,356936
-0,68694
0,471881
7
5,1
5,48 0,323761 6,290214
-0,81021
0,656446
8
7,85
5,67 4,756761 7,163962
-1,49396
2,231921
9
8,79
9,4 9,740641 7,462624
1,937376
3,753424
10
12,3
8,4 43,970161 8,577845
-0,17784
0,031629
83,54389
somma degli scarti^2
8,027722
b=
0,31772653
s(b)^2=
1,003465
a=
4,66980832
ES(b)=
0,109596
IC(95%)_b= 0,064998 -0,570455
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
51
variazione del livello di trigliceridi con il livello di
colesterolo
tr i g li c e r id i (y )
trigliceridi=4,67 + 0,32* colesterolo
10
IC(95%)_b=
0,06 -0,57
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
52
Relazione alla nascita tra circonferenza cranica e lunghezza
a=8,02
b= 0,51
ES(b)=0,05021
(IC 95%_b: 0,41 - 0,61)
y= 8,02 + 0,51x
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
53
Valore di y predetto dalla retta di regressione
data y=a+bx, dopo aver ricavato a e b
possiamo predire il valore atteso di y,
corrispondente ad un dato valore di x.
• Il calcolo si effettua sostituendo il valore di x
nella formula, noti a e b e risolvendo
l’equazione.
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
54
Valore di y predetto dalla retta di regressione
• Es. il valore di circonferenza cranica predetto
per un bambino di lunghezza 41 cm è
ŷ =8,02+0,513 * x
ŷ =8,02+0,513 * 41
ŷ =29,05
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
55
Intervallo di confidenza dei valori predetti
(
xi′ − x )
1
PI = yˆ ± t gl ,α s 1 + +
2
2
n ∑ (xi − x )
2
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
56
Relazione alla nascita tra circonferenza cranica e lunghezza
Es. il valore di circonferenza cranica predetto
per un bambino di lunghezza 41 cm è
ŷ
=29,05
IC( ŷ )=
25,47 - 32,63
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
57
Intervallo di confidenza dei valori predetti
(
xi′ − x )
1
PI = yˆ ± t gl ,α s 1 + +
2
2
n ∑ (xi − x )
2
La predizione ha un
errore maggiore
allontanandosi dalla
media di x
La predizione ha un errore
minore con un’ampia
variabilità di x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
58
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
59
14
12
10
8
6
4
atteso_y
2
0
0
2
4
6
8
10
12
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
14
60
Cautele nella predizione
• La predizione non è valida fuori dell’intervallo
osservato di x
• La predizione è più incerta agli estremi della
distribuzione di x
• Per migliorare la precisione della predizione
debbo aumentare la somma dei quadrati
degli scarti (devianza) di x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
61
Outliers ed osservazioni ‘influenti’
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
62
Relazione alla nascita tra circonferenza cranica e lunghezza
Ho due outliers, indicati come: 1 e 2
2
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
1
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
63
Relazione alla nascita tra circonferenza cranica e lunghezza
Se escludo outlier 1
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
1
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
64
Relazione alla nascita tra circonferenza cranica e lunghezza
Se escludo outliers 1 e 2
2
36,0
34,0
32,0
circonferenza cranica
30,0
28,0
26,0
24,0
1
22,0
20,0
18,0
19
22
25
28
31
34
37
40
43
46
lunghezza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
65
Relazione alla nascita tra circonferenza cranica e lunghezza
Tutti i dati:
a=8,02
b= 0,51
Escluso outlier 1:
a=4,91
b=0,60
Esclusi outlier 1 e 2:
a=4,46
b=0,61
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
66
Valutazione del modello
• R2 : proporzione della varianza che è
spiegata dal modello di regressione
• = (coefficiente di correlazione) ^2
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
67
variazione del livello di trigliceridi con il livello di
colesterolo
trigliceridi=4,67 + 0,32* colesterolo
tr i g li c e r id i (y )
10
r =0,716
R2 =0,51
8
6
4
2
0
0
2
4
6
8
10
12
14
colesterolo (x)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
68
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribuzione normale degli errori
Linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
69
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribizione normale degli errori
Linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
70
Omoscedasticità (omogeneità della varianza)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
71
Verifica delle assunzioni del modello
La verifica delle assunzioni del modello viene
condotta esaminando la distribuzione dei
residui
Se la varianza è costante per tutta la
distribuzione della x,anche i residui saranno
distribuiti in modo uniforme.
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
72
Residuo (o scarto) = valore y_osservato – valore y_predetto
y
valore y_osservato
valore y_predetto
x
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
73
Verifica delle assunzioni del modello
Distribuzione uniforme dei residui
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
74
Distribuzione uniforme dei residui
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
75
Distribuzione non uniforme dei residui
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
76
Distribuzione non uniforme dei residui
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
77
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribuzione normale degli errori
Linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
78
Distribuzione normale dei residui (errori)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
79
Distribuzione non normale dei residui (errori)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
80
Distribuzione non normale dei residui (errori)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
81
Verifica dei modelli
Omoscedasticità (omogeneità della varianza)
Distribizione normale degli errori
Linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
82
Perchè parliamo di regressione
lineare?
• La variazione lineare è spesso una
spiegazione adeguata
• Variazioni non lineari diventano tali dopo una
trasformazione matematica di una delle
variabili
• La variazione lineare è un punto di partenza
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
83
Non-linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
84
Non-linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
85
Non-linearità
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
86
Trasformazioni normalizzanti e linearizzanti
• Radice quadrata
• Logaritmo
• Inversa (meglio se ulteriormente moltiplicata
per -1)
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
87
Trasformazioni normalizzanti e linearizzanti
Dati
trasformati
Inversa negativa
Log
Radice
Dati originali
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
88
FR
E
Q
U
E
N
C
Y
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
0 2 5
5 0
0 0
7 1
5 0
0 0
0
1
2
5
0
1
5
0
0
1
7
5
0
2
0
0
0
2
2
5
0
2
5
0
0
2
7
5
0
3
0
0
0
3
2
5
0
3
5
0
0
3
7
5
0
4
0
0
0
4
2
5
0
4
5
0
0
4
7
5
0
5
0
0
0
5
2
5
0
5
5
0
0
5
7
5
0
6
0
0
0
6
2
5
0
6
5
0
0
6
7
5
0
7
0
0
0
7
2
5
0
7
5
0
0
7
7
5
0
8
0
0
0
8
2
5
0
8
5
0
0
8
7
5
0
9
0
0
0
9
2
5
0
9
5
0
0
9
7
5
0
1
0
0
0
0
C
O
R
PU
SC
OM
ID
PO
IN
T
FR
E
Q
U
E
N
C
Y
50
40
30
20
10
0
0
.
0
0
00
. .
25
50
01
. .
70
50
11
. .
25
50
1
.
7
5
2
.
0
0
2
.
2
5
2
.
5
0
23
. .
70
50
33
. .
25
50
34
. .
70
50
4
.
2
5
4
.
5
0
4
.
7
5
5
.
0
0
55
. .
25
50
56
. .
70
50
66
. .
25
50
L
_c
6
.
7
5
7
.
0
0
77
. .
25
50
78
. .
70
50
88
. .
25
50
8
.
7
5
9
.
0
0
9
.
2
5
9
.
5
0
91
. 0
7.
50
0
11
00
. .
25
50
11
01
. .
70
50
1
1
.
2
5
1
1
.
5
0
11
12
. .
70
50
11
22
. .
25
50
11
23
. .
70
50
1
3
.
2
5
1
3
.
5
0
1
3
.
7
5
1
4
.
0
0
M
ID
PO
IN
T
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
89
Esercizi regressione
•
•
•
•
•
Pag.326 n 1
Pag.326 n 3
Pag.326 n 4
Pag.326 n 6
Pag.326 n 10
Corso di laurea in medicina e chirurgia - Statistica Medica – Correlazione e Regressione lineare semplice
90