La regressione lineare
trivariata
Studiare la relazione tra due
variabili parametriche.
• Quando si hanno due variabili
parametriche é possibile
rappresentare graficamente i dati su
un piano cartesiano realizzando un
diagramma di dispersione.
Studiare la relazione tra due
variabili parametriche.
• il diagramma di dispersione fornisce
una indicazione intuitiva del tipo di
relazione che sussiste tra la variabile
indipendente (detta anche variabile
esplicativa, o predittore, in ascissa) e
la variabile dipendente (detta anche
criterio, in ordinata).
Studiare la relazione tra due
variabili parametriche.
• La regressione lineare è quindi un
esempio di disegno di ricerca
correlazionale.
Diagramma di dispersione:
andamento lineare
Peso (kg)
altezza (cm)
Diagramma di dispersione:
andamento quadratico
Punteggio ad un test
di memoria semantica
età (anni)
Diagramma di dispersione:
assenza di relazione
Fluenza verbale
reddito
La rumorosità dei dati.
• I dati di un esperimento possono
essere tuttavia molto rumorosi
perché la variabilità tra soggetti é
normalmente molto alta.
La rumorosità dei dati.
• Esempio: riportiamo una misura di
Informazione in funzione dell’età in un
campione di 156 soggetti di età
compresa tra 20 e 75 anni;
• sovrapposto ai dati abbiamo un ‘fit’
(modello di interpolazione dei dati)
di tipo lineare ed un fit quadratico.
La rumorosità dei dati.
La rumorosità dei dati.
• Normalmente la sola ispezione visiva
del diagramma di dispersione dei dati
non é sufficiente per valutare l’entità
e la significatività della relazione tra
le variabili.
La correlazione test-retest.
• Un diagramma test-retest riporta i
risultati di due somministrazioni dello
stesso compito.
• In ascisse troviamo la performance
alla prima somministrazione ed in
ordinata la performance alla seconda .
• Ogni punto rappresenta i risultati di
un singolo soggetto alle due prove.
La correlazione test-retest.
La correlazione test-retest.
• L’analisi della correlazione test –
retest viene utilizzata per studiare la
riproducibilità di un risultato sullo
stesso campione di soggetti, oppure
nella fase di validazione di uno
strumento di misura.
Il modello di regressione lineare.
• Il procedimento di stima di una
relazione lineare bivariata prende
il nome di analisi della regressione
lineare.
Il modello di regressione lineare.
• Il modello di analisi dei dati prevede
l’esistenza di una relazione lineare tra
variabile dipendente Y e predittore X,
che consente di fare previsioni sui
valori che assume la variabile
dipendente Y anche in corrispondenza
di valori di X non effettivamente
misurati (interpolazione lineare).
Il modello di di regressione lineare.
• Il modello di regressione lineare é il
seguente:
Yi = a + bYX Xi+ ei
• dove a é l’intercetta, bYX é il
coefficiente di regressione ed ei é
l’errore di predizione o residuo.
Il modello di regressione lineare.
• Il modello di regressione lineare é il
seguente:
Yi = a + bYX Xi+ ei
• dove a é l’intercetta, bYX é il
coefficiente di regressione ed ei é
l’errore di predizione o residuo.
La retta di regressione.
• La retta di regressione
 = a + bYX X
stima una media condizionale di Y,
cioé un valore atteso di Y dato uno
specifico valore della X.
I residui.
• Il residuo é pari alla differenza tra
valore osservato e valore predetto dal
modello lineare:
ei = Yi - i
Il modello di regressione
• L’analisi della regressione lineare
permette di rappresentare in maniera
sintetica un insieme di coppie di dati
attraverso la stima dei parametri
della regressione, a e bYX.
Stima dei parametri
Un metodo comunemente usato per la
stima dei parametri della regressione
é il metodo dei
minimi quadrati ordinarii
(OLS=Orderly Least Squares)
che consiste nello scegliere i valori di a
e bYX che rendono minima la somma
dei residui al quadrato.
Stimatori O.L.S.
Il metodo dei minimi quadrati si applica
sotto l’ipotesi che i valori di Y siano
distribuiti in maniera normale attorno
al valore predetto dalla retta di
regressione.
Questo
prerequisito
si
verifica
attraverso l’analisi dei residui.
Stimatori O.L.S.
• Calcolando esplicitamente con questo
metodo si ottengono gli stimatori OLS
dei parametri della regressione
lineare:
bYX = Cov(X,Y)/Var(X)
a = <Y> - bYX<X>
La Covarianza
• la covarianza tra due variabili è il valore
atteso del prodotto dei rispettivi scarti
dalla media:
Cov(X,Y) = <(X - <X>)(Y - <Y>)>
• Quando tra X ed Y non vi é alcuna
relazione, Cov(X,Y)=0 e la retta di
regressione, Y=a, é parallela all’asse delle
ascisse.
Covarianza e regressione
• Quando tra X ed Y non vi é alcuna relazione
si ha
Cov(X,Y)=0
e la retta di regressione
Y=a
é parallela all’asse delle ascisse.
Esempio: l’esperimento di Shepard
sulle rotazioni mentali
In questo famoso esperimento si
mostra che le operazioni sulle
immagini mentali possono essere
‘cronometrate’ come se si trattasse di
operazioni su variabili fisiche.
Esempio: l’esperimento di Shepard
sulle rotazioni mentali
L’esperimento richiede di giudicare se
due figure tridimensionali complesse
sono o no l’una l’immagine ruotata
dell’altra.
Si misurano i tempi di reazione (RT in s)
in funzione dell’angolo di rotazione (in
gradi) che separa le due immagini.
X Variable 1 Line Fit Plot
3.5
3
Y
2.5
2
Y
Predicted Y
1.5
1
0.5
0
0
50
100
X Variable 1
150
200
Residuals
X Variable 1 Residual Plot
0.5
0
-0.5 0
20
40
60
80
100
X Variable 1
120
140
160
180
Regression Statistics
Multi ple R
0,97115201
R Square
0,94313623
Adjusted R Square 0,9401434
Standard Error
0,17315443
Observations
21
Regression Statistics
Multi ple R
0,97115201
R Square
0,94313623
Adjusted R Square 0,9401434
Standard Error
0,17315443
Observations
21
Coefficients Standard Error t Stat
Inte rcept
X Variable 1
P-value
Lower 95% Upper 95%
0,44333333 0,08912194 4,97445764 8,4168E-0 5 0,2567989 0,62986776
0,01475 0,00083089 17,751955 2,7496E-1 3 0,01301092 0,01648908
La Statistica R.P.E.
• R.P.E. = Riduzione Proporzionale
dell’Errore
La Statistica R.P.E.
• Un modello di regressione può essere
utilizzato per ridurre l’errore che si
commetterebbe inferendo il valore della
variabile Yi una volta noto quello della
corrispondente osservazione Xi. (stima
della media condizionata di Y dato X).
La Statistica R.P.E.
• Senza il modello la predizione migliore
corrisponde alla media campionaria <Y>,
per cui su N osservazioni l’errore
quadratico complessivo sarebbe
SQTOTALE=i (Yi-<Y>)2
La Statistica R.P.E.
• La conoscenza del modello di regressione
consente di sostituire <Y> con un valore
Ypi predetto per ogni i,
con una conseguente cospicua riduzione
dell’errore quadratico di predizione.
La Statistica R.P.E.
Una statistica di riduzione proporzionale
dell’errore, o Statistica RPE, quantifica il
miglioramento della predizione ottenuto
grazie alla introduzione del modello di
predizione (in questo caso la retta di
regressione lineare).
La Statistica R.P.E.
Errore senza la
Regola di predizione
Errore con la
Regola di predizione
Errore senza la
Regola di predizione
La Statistica R.P.E.
• Una statistica RPE prende valori tra 0 (nessun
miglioramento) ed 1 (riduzione totale dell’incertezza). I
valori intermedi corrispondono a riduzioni parziali
dell’incertezza della predizione di Y a partire dalle
osservazioni di X.
La Statistica R.P.E.
• La statistica RPE della regressione lineare si
chiama
Coefficiente di determinazione
e si indica con
R2YX
La Statistica R.P.E.
• La differenza di una osservazione Yi dal
proprio valore atteso <Y> si può scomporre
come segue:
(Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>)
La Statistica R.P.E.
• La differenza di una osservazione Yi dal
proprio valore atteso <Y> si può scomporre
come segue:
(Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>)
Scarto dell’osservazione
dalla predizione
Scarto della predizione
dalla media campionaria
La Statistica R.P.E.
• La differenza di una osservazione Yi dal
proprio valore atteso <Y> si può scomporre
come segue:
(Yi - <Y>) = (Yi - Ypi) + (Ypi - <Y>)
Scarto dell’osservazione
dalla predizione
Scarto della predizione
dalla media campionaria
La Statistica R.P.E.
(Yi - Ypi) = ei = errore di predizione
(Ypi - <Y>)
corrisponde alla variazione
di Y spiegata dalla sua relazione con la
variabile indipendente X.
La Statistica R.P.E.
SQTOTALE = i(Yi-<Y>)2 =
= i(Ypi- <Y>)2 + i(Yi- Ypi)2 =
= SQregressione + SQerrore
La Statistica R.P.E.
R2YX = (SQTOTALE - SQerrore)/ SQTOTALE
R2YX = SQregressione / SQTOTALE
R2YX = Cov(X,Y)2/ Var(X) Var(Y)
La Statistica R.P.E.
Il valore del coefficiente di
determinazione rispecchia la quota di
varianza della variabile dipendente
Y che é spiegata dalla sua
associazione con la variabile
indipendente X.
La Statistica R.P.E.
• Esso corrisponde al quadrato del
coefficiente di correlazione di Pearson rYX,
quindi:
rYX = (R2YX)1/2
La Statistica R.P.E.
Il valore (1 - R2YX ) rappresenta la quota di
varianza residua, ovvero non spiegata
dalla regressione, e prende il nome di
coefficiente di alienazione
esempio
r=0.89
R2=0.79
esempio
Regr. Lineare: r=0.22
R2≈ 0.05
Il modello di regressione trivariata.
• Il modello di regressione nel caso
trivariato é una estensione del
modello di regressione bivariata:
• Yi = a + bYX1 X1i + bYX2 X2i + ei
Il modello di regressione trivariata.
• ATTENZIONE: coefficienti di
regressione nel caso multivariato si
interpretano diversamente che nel
caso bivariato: essi infatti esprimono
l’effetto di una variabile
indipendente nel caso in cui le
rimenati siano tenute costanti.
Regressione lineare trivariata
• Esempio: un disegno trivariato in cui i predittori
sono:
• X1 = durata del trattamento farmacologico
• X2 = durata del trattamento psicoterapeutico
• mentre il criterio é
• Y = indice della gravità dei sintomi psicotici.
Il modello di regressione trivariata.
• In questo caso bYX1 esprime l’effetto
che ha sulla gravità dei sintomi la
durata del trattamento farmacologico
a parità di durata del trattamento
psicoterapeutico.
Stima dei parametri
• I parametri del modello possono
essere stimati con il metodo dei
minimi quadrati ordinari (Stime
O.L.S.), come nel caso bivariato.
Stima dei parametri
• Essi assumono una forma complessa
che si può esprimere in funzione delle
cosiddette correlazioni a coppie, e
cioé dei coefficienti di correlazione di
Pearson tra coppie di variabili.
Stima dei parametri
• Solo nel caso in cui le due variabili
indipendenti NON siano tra loro
correlate essi si riducono ad essere
proporzionali
ai
coefficienti
di
Pearson.
Stima dei parametri
• Caso in cui X1 e X2 non sono correlate
• bYX1 = (Var(X1)/Var(Y))1/2 rYX1
• bYX1 = (Var(X2)/Var(Y))1/2 rYX2
Modello standardizzato
• Siccome in una analisi multivariata è
sempre utile poter confrontare tra loro gli
effetti delle variabili indipendenti é
conveniente presentare il modello nella sua
forma standardizzata
• ZY= YX1 ZX1 + YX1 ZX1 + ei
Equazione di predizione
• forma standardizzata:
• ZY= YX1 ZX1 + YX1 ZX1
I pesi beta in questo caso vengono detti
coefficienti di regressione parziale o
partial slopes
Pesi beta
• indicano quale sia la dipendenza di Y
da ciascuna della variabili indipendenti
presenti nell’equazione al netto della
dipendenza da tutte le altre.
Pesi beta
• Siccome
le
variabili
indipendenti
standardizzate sono espresse nella stessa
unità di misura i pesi beta possono essere
confrontati tra loro per stabilire ad
esempio quale delle due variabili ha un
effetto
maggiore
sulla
variabile
dipendente.
Il coefficiente di determinazione
• la sua espressione si ricava a partire
dalla stessa scomposizione degli
scarti utilizzata nel caso bivariato.
Il coefficiente di determinazione
trivariato
R2YX1X2 =
= (r2YX1 + r2YX2 - 2 rYX1 rX1X2 )/(1 - r2X1X2 )
• oppure, in funzione dei pesi beta:
• R2YX1X2 =YX1 rYX1+ YX2 rYX2
Il coefficiente di determinazione
trivariato
R2YX1X2 =
= (r2YX1 + r2YX2 - 2 rYX1 rX1X2 )/(1 - r2X1X2 )
• oppure, in funzione dei pesi beta:
• R2YX1X2 =YX1 rYX1+ YX2 rYX2
Il coefficiente di determinazione
trivariato per X1 e X2
NON correlate
R2YX1X2 = (r2YX1 + r2YX2)
Solo in questo caso si riduce alla somma
delle correlazioni al quadrato!
Attenzione!
Nel caso generale non si può
‘separare’ l’influenza di una
variabile da quella dell’altra.
La significatività di R2YX1X e dei
parametri del modello
Il
test di significatività per il
coefficiente
di
determinazione
trivariato segue esattamente la stessa
logica
del
caso
bivariato,
con
l’opportuna modifica nel conteggio dei
gradi di libertà della regressione.
La significatività di R2YX1X e dei
parametri del modello
I gradi di libertà della regressione sono
2, e quelli della somma dei quadrati
totali, sono N-1-2 = N –3, dove N é il
numero delle osservazioni.
F di Fisher
• Si può mostrare che la statistica F di Fisher
può essere calcolata direttamente in
funzione di R2YX1X2 come segue:
• F2,N-3 = (SQREGRESSIONE/2) / (SQERRORE/N-3) =
(R2YX1X2 /2) / [(1 - R2YX1X2)/(N-3)]
F di Fisher
Su questa stima si esegue il test di
inferenza statistica per falsificare
l’ipotesi nulla che il parametro
dell’universo stimato dal coefficiente di
determinazione sia pari a zero.
Significatività dei parametri
• La significatività statistica dei pesi
beta può essere invece stimata
utilizzando una variabile t di Student
opportunamente definita.
Attenzione!
• Questi test di inferenza statistica sono
validi sotto una serie di assunzioni che
qui riassumiamo.
Assunzione 1
la dipendenza di Y dalle variabili
indipendenti deve essere lineare e
non ci devono essere variabili
rilevanti omesse dal modello
Assunzione 2
le
variabili
indipendenti
misurate senza errore
sono
Assunzione 3
la variabile dipendente deve essere
parametrica,
mentre
quelle
indipendenti
devono
essere
parametriche
o
dicotomiche
(variabili dummy)
Assunzione 4
le varianze devono essere tutte
non nulle
Assunzione 5
le variabili indipendenti non devono
essere eccessivamente correlate
tra loro, cioé non devono essere
multicollineari
Assunzione 6
i residui devono essere distribuiti
normalmente, indipendenti tra loro
ed indipendenti dalle osservazioni
X
Assunzione 7
il
campionamento
casuale semplice.
deve
essere
ANCOVA
• Devianza totale
• Devianza spiegata dalla regressione
• Devianza non spiegata dalla regressione
a. Devianza tra i gruppi
b. Devianza residua