La retta di regressione semplice - e-Learning

Corso di Laurea in
Scienze e Tecniche psicologiche
Esame di
Psicometria
La regressione lineare semplice
A cura di
Matteo Forgiarini
[email protected]
(modificate da Giulio Costantini)
1
Covarianza e correlazione
2
Relazioni tra variabili
Esercitazione N° 2 – La regressione lineare
semplice
Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere in
considerazione 3 caratteristiche principali:
-La forma che assume la relazione.
-La sua direzione.
-L’entità osservata.
In questo contesto verranno analizzate solo
relazioni lineari, cioè che possono essere
descritte con una retta.
La direzione della relazione può essere
positiva (i valori delle due variabili crescono
in modo concorde) o negativa (al crescere dei
valori di una variabile diminuiscono i valori
dell’altra).
L’entità della relazione fa riferimento
alla quantificazione della relazione
stessa: la relazione può essere molto
forte o modesta; oppure può essere
pari a zero, in questo caso si parla di
relazione nulla, le variabili sono
dunque indipendenti.
3
Correlazione positiva
18
16
14
Test 2
12
10
8
6
4
2
0
0
2
4
6
8
10
12
14
Test 1
4
Lezione: II
Correlazione negativa
14
12
Test 2
10
8
6
4
2
6
8
10
12
14
16
18
Test 1
5
Lezione: II
Correlazione (lineare) nulla
18
16
14
Test 2
12
10
8
6
4
2
0
0
2
4
6
8
10
12
14
16
18
Test 1
6
Lezione: II
Linearità
La correlazione cattura solo relazioni “lineari” tra i dati,
cioè rappresentabili con una linea retta.
Se l’associazione è perfetta, ma non lineare, il
coefficiente di correlazione non la riflette
r=0
4
3
r=-1
r=1
2
1
1
2
3
4
5
6
7
7
Lezione: II
Esercitazione N° 2 – La regressione lineare
semplice
Covarianza e correlazione
Formula della covarianza per variabili non standardizzate.

cov(v, x) 
n
i 1
(vi  M v ) *( xi  M x )
n 1
Variabili standardizzate (dette anche punti z):
variabili con media M = 0 e deviazione standard s = 1
zx 
x  Mx
sx
La correlazione è semplicemente la covarianza tra variabili standardizzate, si può calcolare anche
come covarianza divisa per il prodotto delle deviazioni standard delle due variabili.
n
n
rxv 
 (z
i 1
iv
 0) * ( zix  0)
n 1

z
i 1
iv
* zix
n 1
cov(v, x)
rxv 
sv sx
La correlazione può variare solo tra -1 ed 1; l’entità della relazione è quindi agevole da
comprendere ed è possibile confrontare 2 o più valori fra loro.
La direzione della relazione è indicata dal segno del valore della correlazione: una
correlazione positiva indica che le variabili si “muovono” in modo concorde; una
correlazione negativa indica che quando i valori di una variabile crescono, i valori
dell’altra diminuiscono.
8
Scatter plot
Esercitazione N° 2 – La regressione lineare
semplice
peso (in Kg)
Menù:grafici -> finestre di
dialogo legacy ->
dispersione / punti
prezzo da catalogo (lire)
Spesso è utile costruire una
matrice di grafici che
permette di visualizzare la
natura delle relazioni tra
due o più variabili; ogni
cerchietto rappresenta
un’osservazione che viene
posizionata sul grafico
usando i valori delle due
variabili come coordinate
cartesiane.
potenza del motore
Con questo strumento è
possibile studiare la forma
della relazione tra le
coppie di variabili.
peso (in Kg)
prezzo da catalogo (lire)
potenza del motore
Per quantificare la
relazione lineare tra due
variabili occorre calcolare
la loro correlazione.
9
Test di ipotesi sulla correlazione in SPSS
Esercitazione N° 2 – La regressione lineare
semplice
Calcolate la correlazione tra peso e lunghezza
La correlazione risulta significativa (p-value<0,001);
Possiamo quindi rifiutare l’ipose nulla H0: r(peso,lunghezza)=0
ed accettare H1: r(peso,lunghezza)≠0
Si noti che la matrice di correlazione prodotta è quadrata e simmetrica: infatti r(x,y)=r(y,x).
10
I punteggi z in SPSS
Esercitazione N° 2 – La regressione lineare
semplice
x  Mx
zx 
sx
Costruiamo 2 nuove variabili con i valori z delle variabili “lunghezza” e “peso”;
Ora calcoliamo la varianza e la correlazione tra queste due nuove variabili.
11
Proprietà dei punteggi z
Esercitazione N° 2 – La regressione lineare
semplice
Come ci si attendeva M = 0, s = 1 e la
covarianza tra le due variabili è pari alla
correlazione
12
Regressione lineare semplice
13
Esercitazione N° 2 – La regressione lineare
semplice
La retta di regressione semplice
Regressione lineare semplice: esprime una variabile «dipendente» Y con l’equazione di
una retta che include una intercetta (b0) e una variabile «indipendente» X moltiplicata
per il coefficiente di regressione b1. La regressione, come la correlazione, cattura la
relazione tra due variabili, ma questa volta i punteggi di una variabile sono espressi nei
termini dei punteggi dell’altra.
yˆ pre dett o b0  b1 x1
yosservato  b0  b1 x1  e
b0 = intercetta; b1 = pendenza della retta, e = errore
R2 = porzione della varianza di Y «spiegata» da X
L’intercetta si può calcolare con la formula:
Nella regressione lineare semplice, se
le due variabili sono standardizzate b
è detto β e corrisponde alla correlazione
tra x e y
cov( x, y)
 xy rxy 
s y sx
a  M y  bxy M x
Se x e y non sono standardizzate, b corrisponde
alla covarianza tra x e y divisa per la varianza di x
sy
cov( x, y )
byx  rxv

sx
s x2
14
Il coefficiente di regressione
Esercitazione N° 2 – La regressione lineare
semplice
b = cambiamento atteso della Y al variare di un’unità della X. È espresso in unità della
variabile dipendente Y.
β= cambiamento atteso della Y al variare di una deviazione standard della X. È
espresso in deviazioni standard.
yˆ pre dett o b0  b1 x1
yosservato  b0  b1 x1  e
15
La retta di regressione semplice
Esercitazione N° 2 – La regressione lineare
semplice
16
La retta di regressione semplice
Intercetta (costante in SPSS)
Coefficiente b
Esercitazione N° 2 – La regressione lineare
semplice
Beta = coefficiente b tra variabili standardizzate.
Uguale alla correlazione (vedi slides precedenti),
ma solo nella regressione lineare
semplice (cioè con una sola variabile indipendente)
Intercetta (a) e pendenza (b) risultano diversi da zero: entrambi i p-values < 0.05. La
significatività non cambia tra i coefficienti standardizzati e non.
Nella regressione lineare semplice, La
proporzione di varianza della y spiegata
dalla x corrisponde al quadrato della
correlazione r(x, y), per cui si chiama R2.
17
La retta di regressione semplice
Esercitazione N° 2 – La regressione lineare
semplice
Chiediamo a spss di costruire il grafico
della retta di regressione semplice con
x=lunghezza e y=peso.
18
La retta di regressione semplice
Esercitazione N° 2 – La regressione lineare
semplice
Equazione retta
Peso (in kg) = -927,67 + 4,87 *
lunghezza
b0 = -927,67 (intercetta)
b1 = 4,87 (coefficiente angolare)
R2 = 0.58
Le frecce rosse indicano gli errori
di predizione. Si può dimostrare
che la retta di regressione è quella
retta che minimizza l’errore
totale, definito come la somma
dei quadrati degli errori di
predizione. La retta è quindi
anche detta «retta dei minimi
quadrati»
19
Esercitazione N° 2 – La regressione lineare
semplice
La retta di regressione semplice
Rifare il grafico con le variabili standardizzate
Equazione della retta
Y=βX
Zpeso = 0,76*Zlunghezza
R2 = .58
Nota che:
•
L’intercetta è sempre zero
per variabili standardizzate.
•
Quindi la retta passa sempre
dall’origine degli assi (il
punto x = 0, y = 0).
•
β è uguale al coefficiente di
correlazione
20
Correlazione e causazione
Esercitazione N° 2 – La regressione lineare
semplice
Correlations
lunghezza (cm)
capienza bagagliaio (litri)
pes o (in Kg)
potenza del motore
capienza s erbatoio (litri)
prezzo da catalogo (lire)
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
lunghezza
(cm)
1
24
-,003
,990
24
,762**
,000
24
,314
,135
24
,605**
,002
24
,442*
,031
24
capienza
bagagliaio
(litri)
-,003
,990
24
1
24
-,003
,990
24
,043
,842
24
,119
,579
24
,009
,968
24
capienza
potenza
s erbatoio
prezzo da
pes o (in Kg) del motore
(litri)
catalogo (lire)
,762**
,314
,605**
,442*
,000
,135
,002
,031
24
24
24
24
-,003
,043
,119
,009
,990
,842
,579
,968
24
24
24
24
1
,789**
,742**
,770**
,000
,000
,000
24
24
24
24
,789**
1
,691**
,837**
,000
,000
,000
24
24
24
24
,742**
,691**
1
,764**
,000
,000
,000
24
24
24
24
,770**
,837**
,764**
1
,000
,000
,000
24
24
24
24
**. Correlation is s ignificant at the 0.01 level (2-tailed).
*. Correlation is s ignificant at the 0.05 level (2-tailed).
La matrice di correlazione delle 6 variabili mostra che la correlazione tra “capienza del
serbatoio” e “prezzo” è significativamente diversa da 0. Quindi lo è anche il corrispondente
coefficiente di regressione. È possibile ipotizzare un legame causale tra queste variabili?
21
Esercitazione N° 2 – La regressione lineare
semplice
Correlazione e causazione
Model Summary
Model
1
R
R Square
,764 a
,583
Adjus ted
R Square
,564
Std. Error of
the Es timate
14452263,2
a. Predictors : (Constant), capienza s erbatoio (litri)
Coefficientsa
Model
1
(Cons tant)
capienza s erbatoio (litri)
Uns tandardized
Coefficients
B
Std. Error
-6,2E+07
1,8E+07
1654877
298280,5
Standardized
Coefficients
Beta
,764
t
-3,366
5,548
Sig.
,003
,000
a. Dependent Variable: prezzo da catalogo (lire)
Occorre riflettere: una correlazione significativa tra due variabili non è mai una condizione
sufficiente perché vi sia un legame causale tra le due variabili.
Può succedere che vi siano altre variabili che intervengono nella relazione e rendono più
complesso il legame: in questi casi un modello di causalità lineare non è sufficiente a spiegare la
correlazione osservata.
22
Regressione multipla
23
La regressione multipla
La regressione lineare multipla
Nelle precedenti analisi abbiamo ipotizzato che una variabile dipendente venga
spiegata – prevista – da una sola variabile indipendente: abbiamo analizzato il
modello di regressione semplice.
Ma non sempre la realtà è semplice…
In alcuni casi occorre utilizzare più di una variabile indipendente per spiegare (la
varianza di) una variabile dipendente.
Un modello di regressione che preveda 2 o più variabili indipendenti e una sola
variabile dipendete è chiamato modello di regressione multipla.
24
La regressione multipla
La regressione lineare multipla
y  b0  b1 x1  b2 x2  ...  bn xn  e
Come nella regressione
semplice, la costante b0
rappresenta l ’ intercetta
della retta, ovvero il valore
di y quando tutte le x
hanno valore 0.
I coefficienti di regressione b1 b2 etc. cosa
rappresentano?
Nella regressione semplice i coefficienti b esprimono
l’intero legame tra la x e la y.
Nella regressione multipla la loro interpretazione è
più complessa…
Nella regressione multipla, il coefficiente bi di ogni xi esprime la variazione attesa della
y al variare di un’unità della xi quando tutti gli altri predittori x assumono un valore
costante (potete osservarlo facilmente dall’equazione immaginando cosa succede se tutte
le X tranne una assumono un certo valore, ad esempio 0 è il caso più semplice).
Si interpreta come l’effetto di una certa variabile indipendente X al netto di tutte le altre.
Il coefficiente b di ogni X è chiamato coefficiente parziale di regressione tra la VI e y ed
è ottenuto parzializzando l’effetto delle altre VI su y.
25
La regressione lineare multipla
La regressione multipla
Con spss è possibile stimare i parametri della retta di regressione multipla…
Nell’esempio proposto, la variabile
“peso” viene considerata variabile
dipendente.
Il modello
prevede due
VI.
Selezioniamo questa opzione per
ottenere le stime dei coefficienti di un
modello di regressione sia con una
sola VI sia con le due VI.
26
La regressione lineare multipla
La regressione multipla
Coefficientsa
Model Summary
Model
1
2
R
R Square
,789 a
,622
,957 b
,916
Adjus ted
R Square
,605
,908
Std. Error of
the Es timate
107,63258
52,02760
a. Predictors : (Constant), potenza del motore
b. Predictors : (Constant), potenza del motore, lunghezza
(cm)
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
a. Dependent Variable: peso (in Kg)
Modello 1: regressione semplice:
y=“peso”, x=“potenza del motore”.
Modello 1: regressione multipla:
y=“peso”, x1=“potenza”, x2=“lunghezza”.
I parametri del modello di regressione multipla sono tutti significativi (p-value<0.05). Il modello con due
VI infatti ottiene una proporzione di varianza spiegata (0,916) maggiore del modello con una sola VI
(0,622). Possiamo concludere che utilizzare anche “lunghezza” per spiegare “peso” migliora
significativamente il modello; infatti il coefficiente parziale di regressione stimato per “lunghezza” risulta
significativamente diverso da 0
Notiamo come il metodo “stepwise” permetta di confrontare la bontà dei due modelli ottenuti e di
verificare la significatività dei parametri di tutti i modelli. Al contrario, con il metodo “enter” vengono
considerate contemporaneamente tutte le VI inserite.
La regressione lineare multipla
La regressione multipla
Continuiamo l’analisi degli output del modello di regressione multiplo…
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
a. Dependent Variable: peso (in Kg)
I coefficienti parziali di regressione indicano solo l’effetto diretto che ogni VI produce sulla
y e vengono infatti stimati parzializzando l’effetto delle altre VI.
Il segno della loro stima permette di capire la direzione della relazione (positiva o negativa)
tra la VI e la y. Se il segno è positivo al crescere della VI, anche la y cresce; se il segno è
negativo, ad un aumento della VI corrisponde una diminuzione della y. In particolare nel
modello proposto i coefficienti indicano che il crescere della potenza del motore e della
lunghezza, producono un aumento del peso dell’auto.
Ma…
La stima dei coefficienti parziali non ci permette di comprendere in modo chiaro il contributo
unico di ogni VI: per l’analisi di un modello di regressione multipla è importante avere anche
una stima della quantità di varianza della y che ogni VI permette di spiegare…
28
Il contributo unico delle VI
La regressione lineare multipla
In particolare occorre distinguere due indici che permettono di comprendere il contributo unico
di ogni VI:
Il contributo unico di una VI può essere stimato
grazie al quadrato della correlazione parziale:
ipotizzando che y venga spiegata da x e w,
Pr2yw.x
indica l’effetto di w dopo aver rimosso tutta la
variabilita’ spiegata da x.
Pr2yw.x indica la proporzione di varianza spiegata
da w rispetto alla parte di varianza di y che non
viene spiegata dalle altre variabili indipendenti.
Il contributo unico di una VI, es. w, può anche
essere valutato come la varianza della y spiegata
unicamente da w e non dalle altre variabili
indipendenti: ipotizzando che y venga spiegata
da x e w, il quadrato della correlazione semiparziale (SPSS lo chiama “parte”) tra y e w
Sr2yw.x
indica la varianza di y spiegata unicamente da
w e non da x.La correlazione semiparziale al
quadrato
Sr2yw.x
corrisponde
anche
all’incremento di R2 passando da un modello
in cui x è l’unico predittore ad un modello in
cui sia x sia w predicono y.
29
La regressione lineare multipla
Il contributo unico delle VI
e
b
a
c
X
W
pr
2
yw. x
a

ae
sr
2
yw. x
a

a
acbe
30
La correlazione parziale
La regressione lineare multipla
Per stimare i contributi unici di ogni VI in un modello di regressione multipla risulta quindi
importante calcolare la matrice di correlazioni parziali tra un set di variabili...
31
La correlazione parziale
La regressione lineare multipla
Correlazione r di ordine zero | Correlazione parziale pr | Correlazione semiparziale sr
Nell’esempio proposto, pr peso lunghezza.potenza = 0.881. È la correlazione parziale tra lunghezza e peso,
tolto l’effetto di potenza. pr2=(0.881)2=0.776 indica che la porzione di varianza della variabile
dipendente «potenza» spiegata da «lunghezza» una volta rimosso l’effetto di «peso», sul totale
della varianza non spiegata dall’altro predittore è il 77.6%.
sr peso lunghezza.potenza = 0.542 è la correlazione semiparziale tra lunghezza e peso, tolto l’effetto di peso.
sr2=(0.542)2=0.294 indica la proporzione di varianza di «peso» spiegata unicamente da «lunghezza»,
sul totale della varianza della variabile dipendente «peso», è il 29.4%. Questo significa anche
che la differenza di R2 se «lunghezza» è incluso o escluso come predittore è il 29.4% (vedi
prossima slide).
32
La regressione lineare multipla
Questa tabellina è stata calcolata in precedenza e mostra il valore di R2
includendo solo potenza o anche lunghezza come predittori
Model Summary
Model
1
2
R
R Square
,789 a
,622
,957 b
,916
Adjus ted
R Square
,605
,908
Std. Error of
the Es timate
107,63258
52,02760
a. Predictors : (Constant), potenza del motore
b. Predictors : (Constant), potenza del motore, lunghezza
(cm)
R2 con solo potenza come predittore = .622
R2 con anche lunghezza come predittore = .916
Differenza = .294
Quant’è la sr2 peso lunghezza.potenza? È proprio .294!
33
L’R2
La regressione lineare multipla
del modello
Model Summary
Regr.
Sempl.
Change Statis tics
Model
1
2
Regr.
Mult.
R Square
R
,622
,789 a
,916
,957 b
Adjus ted
R Square
,605
,908
Std. Error of
the Es timate
107,63258
52,02760
R Square
Change
,622
,294
F Change
36,180
73,155
df2
df1
22
21
1
1
Sig. F Change
,000
,000
a. Predictors : (Cons tant), potenza del motore
b. Predictors : (Cons tant), potenza del motore, lunghezza (cm)
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
Zero-order
Correlations
Partial
Part
,789
,789
,789
,789
,762
,894
,881
,579
,542
a. Dependent Variable: peso (in Kg)
Notiamo come nel modello di regressione semplice la proporzione di varianza spiegata dalla VI
sia coincidente con il quadrato della correlazione semplice corr(xy): R2=0,7892=0,622.
Nel modello di regressione multipla è più complesso: la proporzione di varianza spiegata R2 del
modello è formata dai contributi di ogni variabile…
R2=r2potenza peso + sr2lunghezza peso.potenza=(0,789)2 + (0,542)2=0,622 + 0,294=0,916
R2=r2lunghezza peso + sr2potenza peso.lunghezza=(0,762)2 + (0,579)2=0,581 + 0,335=0,916
34
La regressione lineare multipla
Una particolarità
Coefficientsa
Model
1
2
(Cons tant)
potenza del motore
(Cons tant)
potenza del motore
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
717,510
91,659
4,248
,706
-794,052
182,197
3,283
,360
3,651
,427
Standardized
Coefficients
Beta
,789
,609
,571
t
7,828
6,015
-4,358
9,130
8,553
Sig.
,000
,000
,000
,000
,000
Zero-order
Correlations
Partial
Part
,789
,789
,789
,789
,762
,894
,881
,579
,542
a. Dependent Variable: peso (in Kg)
Notiamo che se ipotizziamo un modello di regressione semplice la correlazione semplice, parziale
e semi-parziale sono uguali… perché!?!
Perché in un modello di regressione semplice il legame diretto tra x e y è l’unico che vi sia… non
esiste altro legame che si debba parzializzare: la proporzione di varianza spiegata di y da parte di x
coincide con il contributo unico di x poiché non occorre parzializzare nessun effetto di altre VI:
r2xy=pr2xy=sr2xy
35