R EGRESSIONE M ULTIPLA Nicola Tedesco (Statistica Sociale) R EGRESSIONE M ULTIPLA E E C ORRELAZIONE C ORRELAZIONE 1 / 16 Introduzione y a ! b1 x1 (x2 " 0) a ! b 2 x2 (x1 " 0) a a ! b1 x1 ! b 2 x2 0 x2 Nicola Tedesco (Statistica Sociale) x1 x1x2 Plane R EGRESSIONE M ULTIPLA E C ORRELAZIONE 2 / 16 Introduzione Esempio — Livelli di istruzione e criminalità Allo stesso modo, fissando x1 per diversi valori otteniamo una serie di linee parallele tutte con inclinazione 0.7 L’equazione di regressione parziale si riferisce a parte delle potenziali osservazioni, in questo caso quelle per le quali x2 = 50 100 y 80 93 .9 ! .6x 1 86 60 .9 ! .6x 1 40 (x 2 (x 2 " " 50 ) 40 ) 20 0 Nicola Tedesco (Statistica Sociale) 0 20 40 R EGRESSIONE M ULTIPLA 60 E 80 C ORRELAZIONE 100 x1 3 / 16 Introduzione Esempio — Livelli di istruzione e criminalità In sintesi, education ha un effetto positivo su crime rate ma ha un effetto negativo controllando per urbanization Questo fenomeno è chiamato Paradosso di Simpson 140 Crime Rate 120 100 80 60 40 20 0 50 Nicola Tedesco (Statistica Sociale) 60 70 R EGRESSIONE M ULTIPLA 80 E C ORRELAZIONE 90 Education 4 / 16 Introduzione Esempio — Studio sul disagio mentale y 17 19 .. . x1 46 39 .. . x2 84 97 .. . y 26 26 .. . x1 50 48 .. . x2 40 52 .. . y 30 31 .. . x1 44 35 .. . x2 53 38 .. . 24 25 26 18 81 22 39 87 95 28 29 30 40 5 59 56 40 72 41 89 75 Variable Mental Impairment Life Events SES Nicola Tedesco (Statistica Sociale) Mean 27.30 44.42 56.60 Standard Deviation 5.46 22.62 25.28 R EGRESSIONE M ULTIPLA E C ORRELAZIONE 5 / 16 Introduzione Matrice di scatterplot per relazioni bivariate Matrice di scatterplot per relazioni bivariate Esempio — Studio sul disagio mentale 20 30 40 0 20 60 100 0 20 60 100 impairment ses 20 30 40 Nicola Tedesco (Statistica Sociale) R EGRESSIONE M ULTIPLA 0 20 60 100 life events 0 20 60 100 E C ORRELAZIONE 6 / 16 Introduzione Matrice di scatterplot per relazioni bivariate Esempio — Studio sul disagio mentale 20 impairment 10 0 !10 !50 Nicola Tedesco (Statistica Sociale) !25 0 life_events R EGRESSIONE M ULTIPLA E C ORRELAZIONE 25 50 7 / 16 Introduzione Matrice di scatterplot per relazioni bivariate Esempio — Studio sul disagio mentale 15 impairment 10 5 0 !5 !10 !15 !50 Nicola Tedesco (Statistica Sociale) !25 R EGRESSIONE M ULTIPLA 0 ses E C ORRELAZIONE 25 50 8 / 16 Introduzione Esempio di output per modello di regressione Esempio — Studio sul disagio mentale Model 1 a 1 a Coefficients(a) Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t (Constant) 23.309 1.807 12.901 .000 LIFE .090 .036 .372 2.472 Dependent Variable: IMPAIR (Constant) 32.172 1.988 SES -.086 .032 Dependent Variable: IMPAIR Nicola Tedesco (Statistica Sociale) R EGRESSIONE M ULTIPLA -.399 E C ORRELAZIONE 16.186 -2.679 Sig. .018 .000 .011 9 / 16 Introduzione Esempio di output per modello di regressione Esempio — Studio sul disagio mentale Le tabelle mostrano i risultati dell’adattamento dei modelli ŷ = 23.31 + 0.090x1 and ŷ = 32.17 − 0.086x2 Il campione mostra una relazione positiva fra i life events e il disagio mentale Per il modello E (y ) = α + β1 x1 + β2 x2 l’equazione di previsione è ŷ = a + b1 x1 + b2 x2 = 28.230 + 0.103x1 − 0.097x2 Model 1 a Coefficients(a) Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t (Constant) 28.230 2.174 12.984 LIFE .103 .032 .428 3.177 SES -.097 .029 .451 -3.351 Dependent Variable: IMPAIR Nicola Tedesco (Statistica Sociale) R EGRESSIONE M ULTIPLA E C ORRELAZIONE Sig. .000 .003 .002 10 / 16 Introduzione Esempio di output per modello di regressione Esempio — Studio sul disagio mentale Controllando per SES, la relazione fra disagio mentale e i life events è positiva Controllando per LIFE, la relazione fra disagio mentale e SES è negativa Ad esempio, per il primo soggetto, si ha y = 17, x1 = 46 e x2 = 84. Per tale individuo ŷ = 28.230 + 0.103(46) − 0.097(84) = 24.8 (il residuo previsto è y − ŷ = 17 − 24.8 = −7.8) Effect Intercept Life events SES R2 (n) Nicola Tedesco (Statistica Sociale) Predictors in Regression Model Multiple Life Events SES 28.230 23.309 32.172 0.103 0.090 – (0.032) (0.036) −0.097 — −0.086 (0.029) (0.032) 0.339 0.138 0.159 (40) (40) (40) R EGRESSIONE M ULTIPLA E C ORRELAZIONE 11 / 16 Introduzione Esempio di output per modello di regressione Esempio — Studio sul disagio mentale Sum of Squares Regression Residual Total R .582 R Square .339 394.238 768.162 1162.400 ANOVA df 2 37 39 Mean Square F Sig. 197.119 20.761 9.495 .000 Model Summary Adjusted R Square Std. Error of the Estimate .303 4.556 Predictors: (Constant), SES, LIFE Dependent Variable: IMPAIR L’equazione di previsione è ŷ = 28.23 + 0.103x1 − 0.097x2 R2 = Nicola Tedesco (Statistica Sociale) TSS − SSE 1162.4 − 768.2 = = 0.339. TSS 1162.4 R EGRESSIONE M ULTIPLA E C ORRELAZIONE 12 / 16 Introduzione Esempio di output per modello di regressione x1 TSS Nicola Tedesco (Statistica Sociale) x2 x3 R EGRESSIONE M ULTIPLA E C ORRELAZIONE 13 / 16 La distribuzione F La distribuzione F Il nome della statistica F e la sua distribuzione fanno riferimento al grande statistico britannico R.A. Fisher che ha scoperto la distribuzione nel 1922 Al pari della distribuzione chi-quadro, la F può assumere solo valori non negativi ed ha una forma asimmetrica positiva P 0 Nicola Tedesco (Statistica Sociale) 1.0 Observed F R EGRESSIONE M ULTIPLA E C ORRELAZIONE 14 / 16 La distribuzione F La media della distribuzione F è approssimativamente uguale a 1 Maggiore è il valore di R 2 , più grande è il rapporto R 2 /(1 − R 2 ) e maggiore è il valore della statistica test F Grandi valori della statistica test F forniscono forti evidenze contro H0 df2 1 2 3 4 1 2 3 . . . . . . 120 161.4 18.51 10.13 . . . . . . 3.92 199.5 19.00 9.55 . . . . . . 3.07 215.7 19.16 9.28 . . . . . . 2.68 224.6 19.25 9.12 . . . . . . 2.45 ∞ 3.84 2.99 2.60 2.37 Nicola Tedesco (Statistica Sociale) α = .05 df1 5 6 8 12 24 ∞ 230.2 19.30 9.01 . . . . . . 2.29 234.0 19.33 8.94 . . . . . . 2.17 238.9 19.37 8.84 . . . . . . 2.02 243.9 19.41 8.74 . . . . . . 1.83 249.0 19.45 8.64 . . . . . . 1.61 254.3 19.50 8.53 . . . . . . 1.25 2.21 2.09 1.94 1.75 1.52 1.00 R EGRESSIONE M ULTIPLA E C ORRELAZIONE 15 / 16 La distribuzione F Esempio — Interazione nel modello sul disagio mentale Esempio — Interazione nel modello sul disagio mentale Riprendiamo l’esempio sulla relazione tra disagio mentale, eventi vita e SES Il software produce questo output Regressione Residua Totale (Costante) LIFE SES LIFE*SES Nicola Tedesco (Statistica Sociale) Summa dei Quadrati 403.631 758.769 1162.400 R .589 B 26.036649 0.155865 -0.060493 -0.000866 DF 3 36 39 R Square .347 Errore Std. 3.948826 0.085338 0.062675 0.001297 R EGRESSIONE M ULTIPLA E Media Quadratica 134.544 21.077 F 6.383 t 6.594 1.826 -0.965 -0.668 Sig 0.0001 0.0761 0.3409 0.5087 C ORRELAZIONE Sig 0.0014 16 / 16