Regressione Multipla e Correlazione

annuncio pubblicitario
R EGRESSIONE M ULTIPLA
Nicola Tedesco (Statistica Sociale)
R EGRESSIONE M ULTIPLA
E
E
C ORRELAZIONE
C ORRELAZIONE
1 / 16
Introduzione
y
a ! b1 x1 (x2 " 0)
a ! b 2 x2 (x1 " 0)
a
a ! b1 x1 ! b 2 x2
0
x2
Nicola Tedesco (Statistica Sociale)
x1
x1x2 Plane
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
2 / 16
Introduzione
Esempio — Livelli di istruzione e criminalità
Allo stesso modo, fissando x1 per diversi valori otteniamo una serie di
linee parallele tutte con inclinazione 0.7
L’equazione di regressione parziale si riferisce a parte delle potenziali
osservazioni, in questo caso quelle per le quali x2 = 50
100
y
80
93
.9
!
.6x
1
86
60
.9
!
.6x
1
40
(x
2
(x
2
"
"
50
)
40
)
20
0
Nicola Tedesco (Statistica Sociale)
0
20
40
R EGRESSIONE M ULTIPLA
60
E
80
C ORRELAZIONE
100
x1
3 / 16
Introduzione
Esempio — Livelli di istruzione e criminalità
In sintesi, education ha un effetto positivo su crime rate ma ha un effetto
negativo controllando per urbanization
Questo fenomeno è chiamato Paradosso di Simpson
140
Crime
Rate
120
100
80
60
40
20
0
50
Nicola Tedesco (Statistica Sociale)
60
70
R EGRESSIONE M ULTIPLA
80
E
C ORRELAZIONE
90
Education
4 / 16
Introduzione
Esempio — Studio sul disagio mentale
y
17
19
..
.
x1
46
39
..
.
x2
84
97
..
.
y
26
26
..
.
x1
50
48
..
.
x2
40
52
..
.
y
30
31
..
.
x1
44
35
..
.
x2
53
38
..
.
24
25
26
18
81
22
39
87
95
28
29
30
40
5
59
56
40
72
41
89
75
Variable
Mental Impairment
Life Events
SES
Nicola Tedesco (Statistica Sociale)
Mean
27.30
44.42
56.60
Standard Deviation
5.46
22.62
25.28
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
5 / 16
Introduzione
Matrice di scatterplot per relazioni bivariate
Matrice di scatterplot per relazioni bivariate
Esempio — Studio sul disagio mentale
20 30 40
0 20 60 100
0 20 60 100
impairment
ses
20 30 40
Nicola Tedesco (Statistica Sociale)
R EGRESSIONE M ULTIPLA
0 20 60 100
life events
0 20 60 100
E
C ORRELAZIONE
6 / 16
Introduzione
Matrice di scatterplot per relazioni bivariate
Esempio — Studio sul disagio mentale
20
impairment
10
0
!10
!50
Nicola Tedesco (Statistica Sociale)
!25
0
life_events
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
25
50
7 / 16
Introduzione
Matrice di scatterplot per relazioni bivariate
Esempio — Studio sul disagio mentale
15
impairment
10
5
0
!5
!10
!15
!50
Nicola Tedesco (Statistica Sociale)
!25
R EGRESSIONE M ULTIPLA
0
ses
E
C ORRELAZIONE
25
50
8 / 16
Introduzione
Esempio di output per modello di regressione
Esempio — Studio sul disagio mentale
Model
1
a
1
a
Coefficients(a)
Unstandardized
Standardized
Coefficients
Coefficients
B
Std. Error
Beta
t
(Constant) 23.309
1.807
12.901
.000
LIFE
.090
.036
.372
2.472
Dependent Variable: IMPAIR
(Constant) 32.172
1.988
SES
-.086
.032
Dependent Variable: IMPAIR
Nicola Tedesco (Statistica Sociale)
R EGRESSIONE M ULTIPLA
-.399
E
C ORRELAZIONE
16.186
-2.679
Sig.
.018
.000
.011
9 / 16
Introduzione
Esempio di output per modello di regressione
Esempio — Studio sul disagio mentale
Le tabelle mostrano i risultati dell’adattamento dei modelli
ŷ = 23.31 + 0.090x1 and ŷ = 32.17 − 0.086x2
Il campione mostra una relazione positiva fra i life events e il disagio
mentale
Per il modello E (y ) = α + β1 x1 + β2 x2 l’equazione di previsione è
ŷ = a + b1 x1 + b2 x2 = 28.230 + 0.103x1 − 0.097x2
Model
1
a
Coefficients(a)
Unstandardized
Standardized
Coefficients
Coefficients
B
Std. Error
Beta
t
(Constant) 28.230
2.174
12.984
LIFE
.103
.032
.428
3.177
SES
-.097
.029
.451 -3.351
Dependent Variable: IMPAIR
Nicola Tedesco (Statistica Sociale)
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
Sig.
.000
.003
.002
10 / 16
Introduzione
Esempio di output per modello di regressione
Esempio — Studio sul disagio mentale
Controllando per SES, la relazione fra disagio mentale e i life events è
positiva
Controllando per LIFE, la relazione fra disagio mentale e SES è negativa
Ad esempio, per il primo soggetto, si ha y = 17, x1 = 46 e x2 = 84. Per
tale individuo
ŷ = 28.230 + 0.103(46) − 0.097(84) = 24.8
(il residuo previsto è y − ŷ = 17 − 24.8 = −7.8)
Effect
Intercept
Life events
SES
R2
(n)
Nicola Tedesco (Statistica Sociale)
Predictors in Regression Model
Multiple Life Events
SES
28.230
23.309
32.172
0.103
0.090
–
(0.032)
(0.036)
−0.097
—
−0.086
(0.029)
(0.032)
0.339
0.138
0.159
(40)
(40)
(40)
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
11 / 16
Introduzione
Esempio di output per modello di regressione
Esempio — Studio sul disagio mentale
Sum of
Squares
Regression
Residual
Total
R
.582
R Square
.339
394.238
768.162
1162.400
ANOVA
df
2
37
39
Mean Square
F
Sig.
197.119
20.761
9.495
.000
Model Summary
Adjusted R Square
Std. Error of the Estimate
.303
4.556
Predictors: (Constant), SES, LIFE
Dependent Variable: IMPAIR
L’equazione di previsione è ŷ = 28.23 + 0.103x1 − 0.097x2
R2 =
Nicola Tedesco (Statistica Sociale)
TSS − SSE
1162.4 − 768.2
=
= 0.339.
TSS
1162.4
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
12 / 16
Introduzione
Esempio di output per modello di regressione
x1
TSS
Nicola Tedesco (Statistica Sociale)
x2
x3
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
13 / 16
La distribuzione F
La distribuzione F
Il nome della statistica F e la sua distribuzione fanno riferimento al grande
statistico britannico R.A. Fisher che ha scoperto la distribuzione nel 1922
Al pari della distribuzione chi-quadro, la F può assumere solo valori non
negativi ed ha una forma asimmetrica positiva
P
0
Nicola Tedesco (Statistica Sociale)
1.0
Observed
F
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
14 / 16
La distribuzione F
La media della distribuzione F è approssimativamente uguale a 1
Maggiore è il valore di R 2 , più grande è il rapporto R 2 /(1 − R 2 ) e
maggiore è il valore della statistica test F
Grandi valori della statistica test F forniscono forti evidenze contro H0
df2
1
2
3
4
1
2
3
.
.
.
.
.
.
120
161.4
18.51
10.13
.
.
.
.
.
.
3.92
199.5
19.00
9.55
.
.
.
.
.
.
3.07
215.7
19.16
9.28
.
.
.
.
.
.
2.68
224.6
19.25
9.12
.
.
.
.
.
.
2.45
∞
3.84
2.99
2.60
2.37
Nicola Tedesco (Statistica Sociale)
α = .05
df1
5
6
8
12
24
∞
230.2
19.30
9.01
.
.
.
.
.
.
2.29
234.0
19.33
8.94
.
.
.
.
.
.
2.17
238.9
19.37
8.84
.
.
.
.
.
.
2.02
243.9
19.41
8.74
.
.
.
.
.
.
1.83
249.0
19.45
8.64
.
.
.
.
.
.
1.61
254.3
19.50
8.53
.
.
.
.
.
.
1.25
2.21
2.09
1.94
1.75
1.52
1.00
R EGRESSIONE M ULTIPLA
E
C ORRELAZIONE
15 / 16
La distribuzione F
Esempio — Interazione nel modello sul disagio mentale
Esempio — Interazione nel modello sul disagio
mentale
Riprendiamo l’esempio sulla relazione tra disagio mentale, eventi vita e
SES
Il software produce questo output
Regressione
Residua
Totale
(Costante)
LIFE
SES
LIFE*SES
Nicola Tedesco (Statistica Sociale)
Summa dei
Quadrati
403.631
758.769
1162.400
R
.589
B
26.036649
0.155865
-0.060493
-0.000866
DF
3
36
39
R Square
.347
Errore Std.
3.948826
0.085338
0.062675
0.001297
R EGRESSIONE M ULTIPLA
E
Media
Quadratica
134.544
21.077
F
6.383
t
6.594
1.826
-0.965
-0.668
Sig
0.0001
0.0761
0.3409
0.5087
C ORRELAZIONE
Sig
0.0014
16 / 16
Scarica