Appunti 2 Regressione e correlazione

Mortalità per cirrosi
Variabile dipendente
Correlazione lineare
50
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
30
Consumo di alcool
Variabile indipendente
Metodologia per l’analisi dei dati sperimentali
L’analisi di studi con variabili di risposta multiple
La correlazione studia il rapporto di dipendenza tra due variabili, una della quali
(Y) è definita come variabile dipendente ed una (X) come variabile indipendente.
Pagina 1
Correlazione lineare
• Viene utilizzata quando si voglia valutare la
relazione lineare tra due o più variabili
• Viene di solito rappresentata come
diagramma di dispersione sul piano
cartesiano
• La correlazione significativa tra due variabili
NON IMPLICA NECESSARIAMENTE un
nesso di casualità
Pagina 2
Coefficiente di correlazione lineare
r=0.60
r=1
r=0
Il coefficiente di correlazione lineare r è una misura di associazione tra due
variabili che variano in modo congiunto. Il valore di r varia tra -1 (correlazione
negativa perfetta) a 0 (assenza totale di correlazione ad 1 (correlazione positiva
perfetta).
Pagina 3
Coefficiente di correlazione lineare
∑ x∑ y
(xi − x )(yi − y ) ∑ (xy ) − n
∑
COV (x, y ) =
=
(n − 1)
(n − 1)
r=
∑ (x − x )(y − y )
∑ (x − x ) (y − y )
i
i
2
i
2
i
=
( x )( y )
∑ xy − ∑ n∑

( x )   y² − (∑ y )
∑ x² − ∑
∑
n 
n

2

2




Pagina 4
Coefficiente di correlazione lineare
La statistica:
t=
r ⋅ n−2
1− r 2
è distribuita come t di Student con (n-2) gradi di libertà
Pagina 5
Y
50
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
30
X
Il metodo matematico per individuare la retta di regressione è il metodo dei
minimi quadrati, che minimizza la somma degli scarti quadratici tra y osservata
ed y attesa.
Pagina 6
Y
Funzione lineare
50
45
40
35
30
25
20
15
10
5
0
0
5
10
15
20
25
30
X
ŷ i = b 0 + b1x i
Pagina 7
Correlazione lineare
y = b0 + b1x
b1 =
COD(x, y )
=
DEV (x )
∑ xi yi − ∑
xi ∑ yi
n
2
(
xi )
∑
2
∑ xi − n
b0 = y - b1x
Pagina 8
Scomposizione della devianza
DEV(y ) = ∑ (y i − y )
2
(y i − y ) = y i − ŷ i + ŷ i − y = (y i − ŷ i ) − (ŷ i − y )
∑ (y
− y ) = ∑ (ŷ i − y ) + ∑ (y i − ŷ ) + 2∑ (ŷ i − y )(y i − ŷ i )
2
2
i
∑ (y
2
− y ) = ∑ (ŷ i − y ) + ∑ (y i − ŷ )
2
2
i
SS(b1)
devianza
DOVUTA alla
regressione
2
SS(e)
devianza
RESIDUA
Ma la regressione può essere analizzata come un modello di analisi della
varianza. L’analisi è concettualmente simile a quella dell’ANOVA ad un criterio di
classificazione.
Pagina 9
Devianza dovuta alla regressione
[∑ (x − x )(y − y )] = [COD(x, y )]
SS(b ) =
2
i
1
∑ (x
i
− x)
2
i
2
DEV (x )

∑ x∑ y 
∑ (xy ) −
n

=
2
( x)
∑ x 2 − ∑n
2
Pagina 10
ANOVA applicata alla regressione
Fonte di
variazione
SS
g.l.
MS
Regressione
SS(b1)
1
MS(b1)
Residuo
Per
differenza
n-2
MS(e)
TOTALE
SS(y)
n-1
Pagina 11
A differenza degli studi che riportano media e deviazione standard delle variabili
di risposta, quelli che descrivono i dati come regressione sono difficilmente
ricostruibili a partire dai risultati.
Utilizziamo quindi i risultati di un esempio di Armitage, che descrivono un gruppo
di lavoratori dell’industria del cadmio, esposti da più di 10 anni.
Pagina 12
6
5
4
3
2
1
0
35
40
45
50
55
60
65
70
La rappresentazione grafica ci lascia intuire la possibilità di una relazione inversa
tra le variabili.
Analizzare graficamente i risultati è una pratica utile, prima di procedere
all’analisi, perché consente di individuare outliers (punti molto scostati dai
rimanenti) ed influence points (punti che da soli influenzano la direzione della
retta.
E’ corretto verificare l’esattezza di questi dati, ma non eliminarli per le loro
caratteristiche.
Pagina 13
Pagina 14
Agli elementi di calcolo per le formula semplificate che abbiamo utilizzato per una
singola varriabile, SOMMA(x) e SOMMA.Q(x) diviene necessaria la somma dei
prodotti. E’ conveniente generare la colonna dei prodotti xy e calcolarne la
sommatoria.
Pagina 15
xy −∑ ∑
COD(x, y ) ∑
n
=
=
(
)
DEV x
( x)
∑x − ∑
xi
i
b1
i
2
2
i
=
yi
=
i
n
− 77.642
= −0.085
912.25
b0 = y - b1x =
=
47.39 
597 
− − 0.085 ⋅
= 8.183
12
12 

Pagina 16
6
5
4
3
2
1
0
35
40
45
50
55
60
65
70
La retta stimata è effettivamente indicativa di una relazione inversa. La
rappresentazione della retta è effettuata correttamente solo entro i limiti di valori
di x presenti nella regressione.
Pagina 17

∑ x∑ y 
∑ (xy ) −
n
 =
=
2
(
x
)
∑ x 2 − ∑n
2
SS(b1 ) =
=
[COD(x, y )]2
DEV (x )
[ −77.6425] 2
= 6.608
912.25
La devianza dovuta alla regressione si calcola a partire dagli stessi termini.
Pagina 18
ANOVA applicata alla regressione
Fonte di
variazione
SS
g.l.
MS
Regressione
6.608
1
MS(b1)
Residuo
Per
differenza
n-2
MS(e)
TOTALE
11.739
n-1
Pagina 19
ANOVA applicata alla regressione
Fonte di
variazione
SS
g.l.
MS
Regressione
6.608
1
6.608
Residuo
5.131
10
0.513
TOTALE
11.739
11
Pagina 20
ANOVA applicata alla regressione
Il rapporto:
F=
MS(b1 )
MS(e )
segue la distribuzione F con 1 ed (n-2) gradi di libertà
Pagina 21
ANOVA applicata alla regressione
Fonte di
variazione
SS
g.l.
MS
Regressione
6.608
1
6.608
Residuo
5.131
10
0.513
TOTALE
11.739
11
F=12.87
Il valore di F consente di rifiutare l’ipotesi nulla ad un livello di significatività di
0.0049
Pagina 22
Pagina 23
Intervallo di confidenza del
coefficiente angolare
L'errore standard del coefficiente angolare è:
sb1 =
MS(e)
SS(x)
Per cui il suo intervallo di confidenza è:
b1 ± tα ⋅ sb1
Pagina 24
b1 ± tα ⋅ sb1 = −0.085 ± 2.228 ⋅ 0.0237 = −0.032 ÷ −0.137
Pagina 25
Intervallo di confidenza
della stima di y
L'errore standard di
ŷ
è:
SS(e)  1 ( x i − x)2 
s yi =
⋅ 1+ +

(n - 2)  n SS(x) 
Per cui il suo intervallo di confidenza è:
yˆ i ± tα ⋅ sy
i
Pagina 26
Pagina 27
Coefficiente di determinazione
La quota di variazione della Y attribuibile alla associazione
lineare con la x è valutata come:
r2 =
SS(b1 )
SS(y )
Questo rapporto, riferito come coefficiente di determinazione, varia da
0 ad 1:
- è 0 quando tra le variabili non c'è associazione lineare
- è 1 quando tutta la variazione della y è determinata dalla relazione
lineare con la x.
Pagina 28
Analisi della covarianza
• L’analisi della covarianza (ANCOVA) è
adatta all’analisi di dati in cui la variabile
oggetto di studio è influenzata da cause
sistematiche, ed associata ad una
covariata per la quale sia difficile
formare gruppi omogenei
Pagina 29
Analisi della covarianza
yy
yy
yy
xx
xx
xx
Pagina 30
L’esempio riporta i dati di lavoratori dell’industria del candmio, rispettivamente
esposti da più di 10 anni, esposti da 10 anni, e non esposti.
Pagina 31
Abbiamo già visto come le misure di sintesi, somme, somme dei quadrati e
somme dei prodotti, contengano tutta l’informazione che ci sarà necessaria.
Pagina 32
∑ ∑
xy −
∑
COD(x, y )
n
=
=
DEV (x )
( x)
∑x − ∑
xi
i
bcom
i
2
2
i
i
yi
==
− 183.623
= −0.0195
9392.123
n
Il beta comune (cioè il coefficiente di regressione che tiene conto di tutti i dati,
trascurando la loro divisione in gruppi) si calcola a partire dalle somme delle
devianze e delle codevianze dei tre gruppi.
Pagina 33
F=
MSparallelismo
MSresidua entro gruppi
• Consente di rifiutare l’ipotesi di parallelismo tra i
gruppi.
• Se il test non è significativo i dati non mostrano
eterogeneità dovuta a mancato parallelismo, e si può
rappresentare la relazione tra X e Y con il coefficiente
di regressione comune
• Se non si rifiuta l’ipotesi di parallelismo, può essere
condotta l’analisi della covarianza
Pagina 34
Un problema dell’analisi della covarianza è che alcuni software, anche piuttosto
avanzati, quali STATA o SAS, non hanno un programma specifico per eseguirlo,
ma richiedono l’uso di artifici di calcolo.
Nell’esempio STATA: l’assenza di interazione è indicativa di parallelismo.
Pagina 35
Il termine può quindi venire rimosso dall’analisi. Non risulta alcuna differenza tra i
gruppi; le differenze sono tutte spiegate dall’età.
Pagina 36
Variabile
Esposti >
10 anni
Esposti <
10 anni
Non
esposti
Età
49.8±9.1
37.8±9.2
39.8±12
CV
3.94±1.03
4.47±0.68 4.46±0.69
CV “aggiustata”
3.77
4.52
4.48
y i* = y i − b1c (x i − x)
L’ANCOVA consente il calcolo delle medie “aggiustate”, cioè di quelle che
sarebbero state le medie delle y se il valore delle x fosse stato uguale in tutti i
gruppi, e pari al valore di x medio. Il cacolo è molto semplice, anche quando il
software a disposizione non lo effettui (sono denominate anche LS means)
Pagina 37
Un uso improprio della correlazione
Strumento 2
700
600
500
400
300
200
100
0
0
200
400
600
800
Strumento 1
Viene spesso utilizzata in modo improprio la correlazione per definire la
concordanza di due metodi o due strumenti di misura.
La correlazione significa la presenza di dipendenza tra le misure, ma è difficile
immaginare che due misure della stessa unità sperimentale siano indipendenti!
Pagina 38
Una presentazione alternativa
80
80
60
60
Differenza tra
tra le
le due
due misure
misure
Differenza
40
40
20
20
00
-20
-20
00
200
200
400
400
600
600
800
800
-40
-40
-60
-60
-80
-80
-100
-100
PEFR
PEFR me
medio
dio
Il metodo più utilizzato è il grafico di Brandt e Altman: se una delle due misure
rappresenta uno standard consolidato, va in ascissa, altrimenti ci si mette la
media delle due misure. In ordinata la corrispondente differenza tra le due
misure. Non è associato un test inferenziale.
Pagina 39
Misure di concordanza per dati
qualitativi
OSSERVATORE
B
OSSERVATORE
A
Efficienza
conservata
Mediamente
ridotta
Severamente
ridotta
Totale
Efficienza
conservata
225
3
12
240
Mediamente
ridotta
15
12
3
30
Severamente
ridotta
0
0
30
30
240
15
45
300
Totale
Il problema della concordanza si pone anche per valutazioni di tipo qualitativo.
Vediamo questo esempio immaginario. I numeri sono frequenze assolute.
Pagina 40
Misure di concordanza per dati
qualitativi
OSSERVATORE
B
OSSERVATORE
A
Efficienza
conservata
Efficienza
conservata
Mediamente
ridotta
Severamente
ridotta
225
Mediamente
ridotta
240
12
30
Severamente
ridotta
Totale
240
Concordanza osservata:
Totale
15
30
30
45
300
f0 = ∑i =1 fii = 225 + 12 + 30 = 267
k
Pagina 41
Misure di concordanza per dati
qualitativi
OSSERVATORE
B
OSSERVATORE
A
Efficienza
conservata
Efficienza
conservata
Mediamente
ridotta
Severamente
ridotta
225 (192)
Mediamente
ridotta
240
12 (1.5)
30
Severamente
ridotta
Totale
240
Concordanza dovuta al caso:
Totale
15
30 (4.5)
30
45
300
fe = ∑i =1 fi. ⋅ f.i = 192 + 1.5 + 4.5 = 198
k
La concordanza dovuta al caso è stimata dal valore atteso (come al solito, totale
di riga per totale di colonna divisio gran totale)
Pagina 42
Statistica k di Cohen
k=
fo − fe 267 − 198 69
=
=
= 0.676
N - fe 300 − 198 102
Concordanza completa:
k=1
Eccellente concordanza:
k>0.75
Scarsa concordanza:
k<0.40
Pagina 43
Statistica k di Cohen
k
se(k)
E’ distribuita come una deviata gaussiana standardizzata,
quando N>100
Pagina 44
Statistica k di Cohen
se(k) =
fe
198
198
=
=
= 0.08
N ⋅ (N − fe )
300 ⋅ (300 − 198)
30600
k
0.676
=
= 8.45
se(k) 0.08
ha distribuzione gaussiana
Pagina 45