Regressione - Portale di Psicometria

Regressione
Tale tecnica esamina e studia la relazione tra una o più
variabili indipendenti e una variabile dipendente.
• L’insieme dei parametri riassumono la
relazione tra VD e VI, sotto le ipotesi che la VD
sia determinata dalle VI.
Es. la performance all’esame in
relazione alle ore di studio a casa e alle
abilità cognitive
Scopo della
REGRESSIONE
Permette di comprendere
gli effetti delle VI sulle VD
in funzione di un modello
teorico
Permette di individuare
una combinazione lineare
di VI per predire il valore
della VD
ESPLICATIVO
PREDITTIVO
Matrice di partenza
Matrice di correlazione/covarianza che riassume le relazioni
lineari tra la VD e le VI e l’eventuale relazione tra le stesse
variabili indipendenti.
N.B. VD: su scala ad intervalli equivalenti
VI: quantitative
Matrice di arrivo
•parametri che riassumono la relazione tra
VD e VI
•Statistica per l’esame della significatività
dei parametri (t) e valore di probabilità (p)
associato ad ogni parametro
•Valori che riassumono la variazione
complessiva della VD imputabile al
movimento delle VI (variazione congiunta):
R: è un indice di adattamento che esprime
la correlazione tra la VD e le VI
R2:è un indice di adattamento del modello
lineare ai dati (rapporto tra sommatoria
dei quadrati di regressione e sommatoria
dei quadrati totali) rappresenta quanto
della variazione totale viene spiegata dal
modello lineare, ovvero la variabilità
condivisa dalle variabili
F:è una statistica all’ interno di una
distribuzione di probabilità adeguata ad
effettuare la verifica di ipotesi sull’
adattamento del modello.
Es. È possibile prevedere, in base all’altezza di un
soggetto, il suo peso?
1. Individuare le VI su cui regredisce la VD;
2. Ipotizzare che la VI determini/influenzi/predica la VD;
3. Individuare la retta (teorica) che permetta di prevedere
al meglio i punteggi della VD a partire da quelli della VI.
ALCUNI PASSI FONDAMENTALI…
1.Valutazione dell’adeguatezza delle variabili (livello di misura, collinearità tra i
predittori);
2.Scelta della strategia analitica per inserire le VI;
3.Interpretazione della soluzione.
4.Verifica della forza esplicativa dei parametri. Maggiore è l’elevazione dei
parametri (standardizzati), maggiore è l’adeguatezza del modello.
N.B. Il termine “collinearità” (collinearity) si
riferisce alla possibilità che almeno due
variabili indipendenti siano perfettamente
correlate fra loro oppure che una variabile
indipendente sia una combinazione lineare di
alcune o di tutte le altre variabili indipendenti.
Errore di previsione o residuo: le relazioni tra
le variabili non sono perfette, quindi
nell’equazione di regressione è presente un
termine di errore (o residuo) per ogni caso.
Criterio
Intercetta: il punto in cui la retta incrocia l’asse
delle ordinate e corrisponde al valore atteso di
Y quando X= 0
Predittore
Coefficiente angolare o Coefficiente di
Regressione: l’inclinazione della retta di
regressione di Y su X e indica di quante
unità cambia Y per una variazione
unitaria della X.
METODO DEI MINIMI QUADRATI
È il metodo che viene usato per scegliere la migliore
retta possibile, cioè quella retta che rende MINIMA la
somma delle distanze al quadrato tra le y (v.
osservate) e le y’ (v. stimate).
LARETTA DI REGRESSIONE È LA MIGLIORE TRA TUTTE LE INFINITE RETTE CHE SI
POSSONO FAR PASSARE ATTRAVERSO I PUNTI DEL DIAGRAMMA DI DISPERSIONE
Tipi di analisi della regressione
1 VI e 1 VD=Regressione lineare semplice
Più VI e 1 VD=Regressione lineare multipla
Più VI e più VD=Regressione lineare multipla
multivariata
Regressione lineare multipla (caratterizzata da più VI)
La VI deve essere quantitativa e la VD devono essere misurata almeno su scala ad
intervalli;
La varianza di ogni VI deve essere > 0;
Il campionamento deve essere casuale semplice;
La relazione tra la VI e la VD deve essere lineare;
Non devono essere omesse VI rilevanti, o incluse VI irrilevanti;
Assenza dell’errore di misurazione assunta per la VI;
Assenza di MULTICOLLINEARITA’: se vi sono più VI nessuna di esse deve essere una
combinazione lineare perfetta delle altre. Se i predittori sono troppo correlati tra di
loro ciò causa problemi logici (ridondanza) e problemi statistici (aumenta la
dimensione dei termini d’errore, indebolendo l’analisi)
Una regressione multipla può essere realizzata in un gran numero di modi diversi.
Le principali strategie di regressione multipla sono fondamentalmente tre:
standard o simultaneo : tutte le variabili indipendenti vengono inserite insieme
nell’equazione di predizione. Ogni variabile indipendente viene quindi valutata in termini
di cosa aggiunge alla predizione della variabile dipendente rispetto alla predizione
garantita da tutte le altre variabili indipendenti.
gerarchica o sequenziale: le variabili indipendenti sono inserite nell’equazione in un
ordine specificato dal ricercatore, una alla volta, oppure, più comunemente, a
blocchi. Ogni variabile o blocco di variabili indipendenti viene valutato in termini di cosa
aggiunge alla spiegazione della variabilità della variabile dipendente al momento del suo
ingresso. Il ricercatore di solito assegna l’ordine di entrata delle variabili nel modello in
base a considerazioni di ordine logico o teorico, per cui non esiste una regola fissa.
Statistica: è una procedura in cui l’ordine di entrata nel modello delle variabili
è basato unicamente su criteri statistici. Le decisioni circa quali variabili inserire o
escludere dall’equazione di regressione sono basate solo sulle statistiche calcolate nel
campione oggetto della ricerca.
Con SPSS…
Per l’elaborazione delle variabili, possono essere utilizzati diversi metodi:
• Per blocchi: si valutano contemporaneamente tutti i predittori. Si usa
per la regressione standard e gerarchica.
• Per passi (Stepwise), Rimozione (Remove), Indietro (Backward), e
Avanti (Forward) che si usano nella regressione se si vuole verificare
l’apporto di ogni singolo predittore nei confronti di quanto già spiegato
dagli altri rispetto alla predicibilità statistica. Si usano per la
regressione statistica
Assunzioni sui residui
•Il valore atteso dei residui deve essere = 0
•Omoschedasticità
•La distribuzione dei valori dei residui per ogni X deve essere normale
•Le VI non devono essere correlate con i residui
Esempio 1:
L’intenzione di acquisto di un motorino da parte di un
adolescente può essere influenzata da una serie di fattori, quali
l’atteggiamento, il comportamento passato d’acquisto e il
comportamento d’acquisto dei pari?
Si procede dal menu’ Analizza (Analyze):
Verrà visualizzata questa schermata
nella quale si possono inserire,
selezionandole, le variabili
indipendenti (o predittori) e la
variabile dipendente.
Per Blocchi (Enter) si
valutano
contemporaneamente
tutti i predittori /o a
blocchi stabilendo un
ordine di entrata
Per passi (Stepwise),
Rimozione (Remove),
Indietro (Backward) e
Avanti (Foward) si
usano per valutare le
variabili singolarmente
Da questa schermata si selezionano
i coefficienti ritenuti necessari.
Coefficiente di regressione B
errore standard di B
Beta standardizzato
valore t per B
livello di significatività
R multiplo
R2 e R2 corretto
errore standard della stima
tabella di analisi della varianza per la signif. di R2
Statistiche Descrittive
Media del punteggio totale per ciascuna
variabile
Deviazione standard per ogni variabile
Descriptive Statistics
inacquisto
compPassato
attegg
compPari
Mean
Std. Dev iation
10.4325
8.43085
10.6765
3.10686
9.4067
3.36445
47.5970
11.00557
N°casi validi
N
541
541
541
541
Correlazioni
Correlazione
tra le variabili
Correlations
Pearson Correlation
livello di
significatività a una
coda
Sig. (1-tailed)
N
inac quisto
compPass ato
attegg
compPari
inac quisto
compPass ato
attegg
compPari
inac quisto
compPass ato
attegg
compPari
inac quisto
1.000
.530
.379
.517
.
.000
.000
.000
541
541
541
541
compPass ato
.530
1.000
.541
.495
.000
.
.000
.000
541
541
541
541
numero di casi per ogni correlazione
attegg
.379
.541
1.000
.294
.000
.000
.
.000
541
541
541
541
compPari
.517
.495
.294
1.000
.000
.000
.000
.
541
541
541
541
Variabili inserite/rimosse
b
Var iab les Enter ed /Remo ved
Model
1
Variables
Entered
com pPari,
at tegg,
com p
a
Passato
Variables
Rem ov ed
variabili inserite ed/o eliminate dal modello.
variabili inserite contemporaneamente
Met hod
.
Enter
a. All request ed v ariables ent ered.
b. Dependent Variable: inacquisto
Le VI presentano
una correlazione
multipla (R) con la
VD di.61
R2 corretto (Adjusted R
square) per i gradi di
libertà per rendere lo
stimatore efficiente
La varianza
spiegata è del
37% R-quadrato
(R Square)
Riepilogo del modello
La frazione di
varianza spiegata
dal modello è
statisticamente
significativa.
Model Summaryb
Change Statistics
Model
1
R
R Square
.614a
.377
Adjusted
R Square
.373
Std. Error of
the Estimate
6.67550
R Square
Change
.377
F Change
108.109
df 1
3
df 2
537
Sig. F C hange
.000
DurbinWatson
1.806
a. Predictors: (Constant), compPari, attegg, compPassato
b. Dependent Variable: inacquisto
ANOVAb
Model
1
Regress ion
Res idual
Total
Sum of
Squares
14452.827
23929.960
38382.787
df
3
537
540
Mean Square
4817.609
44.562
a. Predic tors: (Cons tant), compPari, attegg, c ompPassato
b. Dependent Variable: inac quisto
F
108.109
Sig.
.000a
Test F legato alla significatività
dell’indice di adattamento R2
(Variazione di F /F)
Cambiamento di R quadrato più
statistica è importante in particolare
per la regressione gerarchica
B indica la
pendenza della
retta nei termini
delle unità di
scala impiegata
Se il valore 0 è compreso tra i limiti superiore
ed inferiore, la stima non risulta essere statisticamente
diversa da 0. In questo caso sono significativi, poiché lo
0 non è compreso!
Coefficienti
Il t
corrisponde
al rapporto
tra
Be
deviazione
standard
errore
Coefficientsa
Model
1
(Constant)
compPassato
attegg
compPari
Unstandardized
Standardized
Coeff icients
Coeff icients
B
Std. Error
Beta
-13.225
1.376
.817
.121
.301
.294
.102
.117
.256
.030
.334
t
-9.613
6.750
2.895
8.506
Sig.
.000
.000
.004
.000
95% Conf idence Interval f or B
Correlations
Lower Bound Upper Bound Zero-order Partia l
-15.927
-10.522
.579
1.055
.530
.280
.095
.494
.379
.124
.197
.315
.517
.345
Part
.230
.099
.290
Collinearity Statistics
Tolerance
VIF
.584
.706
.754
1.713
1.416
1.326
a. Dependent Variable: inacquisto
L’errore standard
indica la varianza
d’errore
nella stima del valore
esatto
di B nella popolazione
I valori di probabilità sono
inferiori a .05
I B standardizzati (Beta)
corrispondono all’R,
permettono di vedere
quale VI risulta più
Importante.
Il valore zero non è compreso in questi limiti per nessuno dei parametri, quindi
essi risultano tutti statisticamente significativi
Tutti i coefficienti sono significativamente
diversi da zero. Tutte le variabili predicono il
comportamento d’acquisto, il comportamento
d’acquisto dei pari ha un peso maggiore.
N.B. Gli intervalli di confidenza si utilizzano per valutare l’accuratezza dei punteggi
predetti. L’intervallo indicherà con un livello di fiducia del 95% il range dei valori delle Y,
in cui dobbiamo attenderci che cada la nostra stima di Y per X=XI. Sappiamo che più
stretto è l’intervallo, migliore sarà la nostra predizione. Usando la logica della
comprensione dell’inclusione o meno dello zero, equivale a stimare la larghezza
dell’intervallo. Se lo zero non è compreso, l’intervallo è più stretto.
Sempre nella tabella dei coefficienti analizziamo le correlazioni
Coefficientsa
dardized
Coefficienti di
f icients
95% Conf idence Interval f or B
Correlations
correlazione di Ordine
Beta
t
Sig.
Lower Bound Upper Bound Zero-order Partial
Zero-9.613
(r di Pearson)
tra -10.522
.000
-15.927
ogni 6.750
singolo.000predittore
.301
.579
1.055
.530
.280
e la variabile
.117
2.895
.004
.095
.494
.379
.124
.334
8.506
.000
.197
.315
.517
.345
dipendente
Part
.230
.099
.290
Collinearity Statistics
Tolerance
VIF
.584
.706
.754
1.713
1.416
1.326
Coefficienti di correlazione
Parziali indicano le correlazioni
tra ogni singolo predittore e la
variabile dipendente tenendo
sotto controllo congiuntamente
gli altri predittori. La porzione
della varianza la ottengo
elevando al quadrato il
coefficiente pr2
Coefficienti di
correlazione
Semiparziali o
Indipendenti
rappresentano la
correlazione tra una VI
e la VD quando tutte le
altre VI vengono
parzializzate per la VI e
non per la VD.
NB la proporzione della
varianza totale della VD
spiegata unicamente da
una data VI, al netto di
tutte le altre si ottiene
elevando al quadrato
questo indice sr2
Le statistiche di collinearità analizzano la ridondanza tra le
variabili indipendenti
nterv al f or B
Correlat ions
pper Bound Zero-order
Part ial
-10.522
1. 055
.530
.280
.494
.379
.124
.315
.517
.345
Part
.230
.099
.290
Collinearity Statistic s
Toleranc e
VIF
.584
.706
.754
La statistica VIF
(Variance Inflation
Factor) è il reciproco
della statistica Tolerance
1. 713
1. 416
1. 326
L’indice di tolleranza viene utilizzato per
stimare quanto una variabile indipendente è
linearmente correlata alle altre variabili
indipendenti.
Varia tra 0 e 1. Maggiore è l’indice di
tolleranza, minore è la varianza che la variabile
condivide con le altre, maggiore è la sua
spiegazione della VD.
Diagnostiche di collinearità
a
Collinearity Diagnostics
Model
1
Dimension
1
2
3
4
Eigenv alue
3.869
.070
.037
.024
Condition
Index
1.000
7.408
10.282
12.727
(Constant)
.00
.10
.31
.58
Variance Proportions
compPass ato
attegg
.00
.01
.00
.73
.80
.20
.20
.06
compPari
.00
.10
.00
.90
a. Dependent Variable: inac quisto
Se gli autovalori (Eingenvalue) sono
prossimi allo 0, le variabili sono
fortemente correlate
Se l’indice di collinearità è compreso
tra 15 e 30, indica possibili problemi
di collinearità, se è maggiore di 30 la
collinearità è grave.
Esempio 2:
L’autostima correla altamente con diverse componenti del benessere
psicologico:
autonomia
controllo ambientale
crescita personale
relazioni positive con gli altri
scopo nella vita
autoaccettazione
Una ricerca vuole indagare quali di questi fattori del benessere possa influire
sull’autostima di un campione 70 preadolescenti attraverso specifici self-report
Descriptive Statistics
atostima tot
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
Mean
Std. Dev iation
296.3286
47.08510
12.8714
2.97780
11.8429
3.28208
13.9429
2.63139
N
70
70
70
70
13.0000
3.45153
70
10.5429
12.6429
2.59702
3.36666
70
70
Correlations
Pearson Correlation
Sig. (1-t ailed)
N
at ostima t ot
ben autonomia
ben controllo ambientale
ben crescit a personale
ben relazioni positiv e
con gli altri
ben sc opo nella v ita
ben autoac cett azione
at ostima t ot
ben autonomia
ben controllo ambientale
ben crescit a personale
ben relazioni positiv e
con gli altri
ben sc opo nella v ita
ben autoac cett azione
at ostima t ot
ben autonomia
ben controllo ambientale
ben crescit a personale
ben relazioni positiv e
con gli altri
ben sc opo nella v ita
ben autoac cett azione
at ostima t ot
1. 000
.190
.413
.294
ben
aut onomia
.190
1. 000
.114
.330
ben controllo
ambient ale
.413
.114
1. 000
.200
ben crescit a
personale
.294
.330
.200
1. 000
ben relazioni
pos itiv e con
gli altri
.479
.120
.206
.340
ben sc opo
nella v it a
.007
-. 131
-. 274
-. 002
ben
aut oac cet
tazione
.412
.484
.163
.336
.479
.120
.206
.340
1. 000
.010
.479
.007
.412
.
.058
.000
.007
-. 131
.484
.058
.
.175
.003
-. 274
.163
.000
.175
.
.048
-. 002
.336
.007
.003
.048
.
.010
.479
.000
.162
.044
.002
1. 000
-. 039
.478
.139
.011
.494
-. 039
1. 000
.000
.000
.089
.002
.000
.162
.044
.002
.
.468
.000
.478
.000
70
70
70
70
.139
.000
70
70
70
70
.011
.089
70
70
70
70
.494
.002
70
70
70
70
.468
.000
70
70
70
70
.
.375
70
70
70
70
.375
.
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
70
b
Variables Entered/Removed
Model
1
Variables
Entered
ben
aut oac cett
azione,
ben sc opo
nella v it a,
ben
controllo
am bient al
e, ben
crescit a
personale,
ben
relazioni
pos itiv e
con gli
altri, ben a
aut onomia
Variables
Rem ov ed
.
Met hod
Enter
Il test di Durbin-Watson esamina la presenza di
autocorrelazione tra i residui .
Infatti, i residui non devono essere correlati. Il
suo valore è tra 0 e 4.
Se non vi è correlazione il suo valore
è intorno a 2, valori inferiori indicano
correlazione positiva, superiori
negativa
a. All request ed v ariables ent ered.
b. Dependent Variable: atostim a t ot
Model Summaryb
Change Statistics
Model
1
R
R Square
.617a
.380
Adjusted
R Square
.321
Std. Error of
the Estimate
38.78521
R Square
Change
.380
F Change
6.449
df 1
df 2
6
Sig. F Change
63
.000
DurbinWatson
2.121
a. Predictors: (Constant), ben autoaccettazione, ben scopo nella v ita, ben controllo ambientale, ben crescita personale, ben relazioni positive con
gli altri, ben autonomia
b. Dependent Variable: atostima tot
La varianza spiegata (R2)è del 38%
Le variabili presentano una correlazione multipla (R) di .61 con la VD
ANOVAb
Model
1
Regress ion
Res idual
Tot al
Sum of
Squares
58203. 000
94770. 443
152973. 4
df
6
63
69
Mean Square
9700.500
1504.293
F
6. 449
Sig.
.000a
a. Predic tors: (Cons tant ), ben aut oacc ett azione, ben scopo nella v ita, ben controllo
am bient ale, ben crescita personale, ben relazioni posit iv e con gli alt ri, ben
aut onomia
b. Dependent Variable: at ostim a t ot
La statistica F per la verifica delle ipotesi risulta essere significativa, rifiutiamo l’ipotesi
nulla e accettiamo l’ipotesi alternativa. Le componenti del benessere potrebbero
predire l’autostima. Questo dato non è ancora sufficiente per sapere se tutti i predittori
mostrano significatività statistica nei confronti della VD.
Coefficientsa
Unstandardized
Standardized
Coefficients
Coefficients
Model
B
Std. Error
Beta
1
(Constant)
114.860 40.019
ben autonomia
.297
1.883
.019
ben controllo ambientale 4.827
1.533
.336
ben crescita personale
.988
2.009
.055
ben relazioni positive
4.034
1.624
.296
con gli altri
ben scopo nella vita
1.919
1.892
.106
ben autoaccettazione
2.691
1.817
.192
95% Confidence Interval for B
Correlations
Lower Bound Upper Bound Zero-order Partial
34.888
194.832
-3.466
4.060
.190
.020
1.764
7.889
.413
.369
-3.025
5.002
.294
.062
t
2.870
.158
3.149
.492
Sig.
.006
.875
.003
.624
2.484
.016
.789
7.279
.479
1.015
1.481
.314
.144
-1.861
-.941
5.700
6.323
.007
.412
Part
Collinearity Statistics
Tolerance VIF
.016
.312
.049
.693
.862
.780
1.442
1.160
1.281
.299
.246
.694
1.441
.127
.183
.101
.147
.903
.582
1.107
1.717
a. Dependent Variable: atostima tot
Solo il coefficiente t del controllo ambientale e delle
relazioni positive con gli altri è
significativamente diverso da 0 riuscendo a
Influire sull’autostima
Solo per questi due
parametri lo zero non è
compreso negli intervalli di
confidenza
pr2La proporzione di varianza dell’autostima
non spiegata dalle altre VI che è spiegata
unicamente da una data VI al netto delle altre.
a
Coefficients«controllo
ambientale» è pari a .392=15%
Unstandardized
Standardized
Coefficients
Coefficients
Model
B
Std. Error
Beta
(Constant)
114.860 40.019
ben autonomia
.297
1.883
.019
ben controllo ambientale 4.827
1.533
.336
ben crescita personale
.988
2.009
.055
ben relazioni positive
4.034
1.624
.296
con gli altri
ben scopo nella vita
1.919
1.892
.106
ben autoaccettazione
2.691
1.817
.192
a. Dependent Variable: atostima tot
La correlazione tra la variabile
«controllo ambientale» e autostima
è di .41
95% Confidence Interval for B
Correlations
Lower Bound Upper Bound Zero-order Partial
34.888
194.832
-3.466
4.060
.190
.020
1.764
7.889
.413
.369
-3.025
5.002
.294
.062
t
2.870
.158
3.149
.492
Sig.
.006
.875
.003
.624
2.484
.016
.789
7.279
.479
1.015
1.481
.314
.144
-1.861
-.941
5.700
6.323
.007
.412
Part
Collinearity Statistics
Tolerance VIF
.016
.312
.049
.693
.862
.780
1.442
1.160
1.281
.299
.246
.694
1.441
.127
.183
.101
.147
.903
.582
1.107
1.717
sr2 (Coefficiente semiparziale al quadrato):
proporzione di varianza totale dell’autostima
spiegata unicamente da una data VI, al netto di
tutte le altre. La variabile «controllo
ambientale» è quella che presenta un
contributo unico più elevato nella spiegazione
della VD (0.312=9.6%)
Residuals Statisticsa
Minimum Maximum
Predicted Value
228.2943 366.4516
Residual
-100.220 93.52456
Std. Predicted Value
-2.342
2.414
Std. Residual
-2.584
2.411
Mean
Std. Dev iation
296.3286
29.04345
.00000
37.06055
.000
1.000
.000
.956
a. Dependent Variable: atostima tot
La media dei residui standardizzati e grezzi è
uguale a 0 il primo assunto è rispettato.
a
Coll inearity Di agnosti cs
Variance Proportions
Model
1
Dimension
1
2
3
4
5
6
7
Eigenv alue
6. 743
.083
.063
.052
.028
.020
.011
Condition
Index
1. 000
8. 993
10. 382
11. 437
15. 425
18. 267
25. 092
a. Dependent Variable: at ostima t ot
(Const ant)
.00
.00
.01
.00
.00
.00
.98
ben
aut onomia
.00
.00
.05
.27
.03
.48
.17
ben controllo
ambient ale
.00
.21
.46
.00
.16
.00
.18
ben crescit a
personale
.00
.00
.00
.00
.39
.52
.09
ben relazioni
pos itiv e con
gli altri
.00
.01
.04
.51
.08
.34
.02
ben sc opo
nella v it a
.00
.39
.04
.00
.13
.00
.42
ben
aut oac cet
tazione
.00
.01
.18
.00
.47
.31
.02
N
70
70
70
70
L’istogramma e il normal probability plot (NPP) dei residui standardizzati, sono utilizzati
per verificare se sia plausibile l’assunzione di normalità dei residui. Come possiamo
osservare i residui seguono approssimativamente una distribuzione normale,
sebbene sia riscontrabile una certa asimmetria nei dati. Nel NPP, i punti tendono a
disporsi approssimativamente lungo una retta. Si può concludere che i residui
standardizzati sono realizzazioni di una distribuzione normale standard.