Inferenza statistica nel modello lineare : regressione semplice Volendo costruire un modello che spieghi il Peso (espresso in kg) in funzione dell’Altezza (espressa in cm) si è osservato un campione di n = 10 studenti della facoltà di Economia; i dati ottenuti sono riportati nella tabella seguente: Altezza Peso 165 71 172 75 159 81 168 76 166 88 158 72 157 98 177 89 164 83 172 81 Sia la variabile Altezza la variabile esplicativa X e la variabile Peso la variabile dipendente Y. a. b. c. d. Stimare, con il metodo dei minimi quadrati, i coefficienti di regressione 0 e 1 del modello; costruire un intervallo di confidenza, ad un livello di significatività = 0,05, per l’intercetta 0; costruire un intervallo di confidenza, ad un livello di significatività = 0,05, per il coefficiente angolare 1; sulla base delle osservazioni campionarie verificare l’ipotesi nulla di assenza di un legame lineare tra Altezza e Peso, ad un livello di significatività = 0,01. ___________________________________________________________________________________________________ a. Le stime dei minimi quadrati dei parametri di un modello di regressione si ottengono applicando le formule: b0 y b1 x b1 cov( X , Y ) var( X ) L’equazione della retta è quindi : y cov( X , Y ) ( x - x) y var( X ) Il calcolo dei due valori si può effettuare anche utilizzando la Proc Corr il cui output è riportato sotto The CORR Procedure 2 Variable Peso Altezza Variables: Peso Simple Statistics Altezza N Mean Std Dev Sum Minimum Maximum 10 10 81.40000 165.80000 8.47480 6.62990 814.00000 1658 71.00000 157.00000 98.00000 177.00000 Pearson Correlation Coefficients, N = 10 Peso Altezza Peso Altezza 1.00000 -0.06368 -0.06368 1.00000 Un modo per effettaure i calcoli necessari senza utilizzare SAS sono contenuti nel seguente schema: Totale xi yi xi2 yi2 xi yi 165 71 27.225 5.041 11.715 172 75 29.584 5.625 12.900 159 81 25.281 6.561 12.879 168 76 28.224 5.776 12.768 166 88 27.556 7.744 14.608 158 72 24.964 5.184 11.376 157 98 24.649 9.604 15.386 177 89 31.329 7.921 15.753 164 83 26.896 6.889 13.612 172 81 29.584 6.561 13.932 1.658 814 275.292 66.906 134.929 Le formule da utilizzare sono le seguenti : 1 n cov( X , Y ) xi yi x y n i 1 n 2 1 var( X ) xi2 x n i 1 L’equazione della retta di regressione è quindi: Y 94.9 – 0.081 X Per la determinazione degli intervalli di confidenza i calcoli sono contenuti nello schema seguente: yi y i 2 xi yi y i 94.9 – 0.081 xi 165 71 81,46512 109,5187 172 75 80,89535 34,75516 159 81 81,95349 0,909136 168 76 81,22093 27,25812 166 88 81,38372 43,77515 158 72 82,03488 100,6988 157 98 82,11628 252,2927 177 89 80,48838 72,44774 164 83 81,54651 2,11263 172 81 80,89535 0,010951 814 814 643,779 Totale 1.658 L’errore standard della regressione, dato dalla radice quadrata della varianza residua, è: S b. 1 n 1 2 yi yi 643, 779 8,97064 n 2 i 1 8 L’intervallo di confidenza per 0 è: 0 t ,n2 * SE ( 0 ); 0 t ,n2 * SE ( 0 ) = 2 2 = c. 94.9 2.36*74.83,94.9 2.36*74.83 77.67, 267.46 L’intervallo di confidenza per 1 è: 1 t ,n2 * SE ( 1 ); 1 t ,n2 * SE ( 1 ) = 2 2 = 0.081395 2,36*0.451, 0.081395 2,36*0.451 1.12144,0.9587 Si osservi che per = 0,05 e n – 2 = 8 gradi di libertà è: t 2 d. t0.025,8 2.36 ,n 2 Dove si trovano questi valori nell’output SAS? The REG Procedure Dependent Variable: Peso Number of Observations Read 10 Analysis of Variance DF Sum of Squares Mean Square 1 8 9 2.62093 643.77907 646.40000 2.62093 80.47238 Root MSE Dependent Mean Coeff Var 8.97064 81.40000 11.02044 Source Model Error Corrected Total R-Square Adj R-Sq F Value Pr > F 0.03 0.8613 0.0041 -0.1204 Parameter Estimates Variable DF Parameter Estimate Intercept Altezza 1 1 94.89535 -0.08140 Standard Error 74.83282 0.45102 t Value Pr > |t| 1.27 -0.18 0.2404 0.8613 SE ( 1 ) 0 SE ( 0 ) 1 SE ( 1 ) e. L’ipotesi da verificare è: H 0 : 1 0 H1 : 1 0 A tal fine si può utilizzare la statistica test: T 1 SE ( B1 ) Se l’ipotesi nulla è vera, T si distribuisce, al variare del campione come una variabile casuale t di Student con n – 2 gradi di libertà. Il valore empirico della statistica – test è: T 0.81395 0.1805 0.451 Per n – 2 = 8 gradi di libertà e per /2 = 0,005 è: t0.005,8 3.355 Essendo t t 2 ,n2 si rifiuta l’ipotesi di assenza di dipendenza lineare della variabile Peso (Y) dalla variabile Altezza (X), ad un livello di significatività = 0,01.