MODELLO LINEARE SEMPLICE: aspetti inferenziali Consideriamo un modello di regressione lineare con una variabile esplicativa e supponiamo che i dati osservati per X e Y siano riferiti a un campione di una popolazione. Il modello di regressione riferito alla popolazione è Y 0 1x ε con Y e ε vettori di variabili aleatorie e x vettore di dati deterministici; considerando ciascuna unità sperimentale si ha: Y j 0 1x j j L’approssimazione lineare di Y tramite X con il metodo dei minimi quadrati può essere considerata la stima di Y sulla base delle informazioni campionarie e i coefficienti b0 e b1 sono le stime dei coefficenti del modello sull’intera popolazione. Si fa l’ipotesi che i residui 1 , K , n siano variabili aleatorie con legge normale, con valore atteso 0, varianza costante , sconosciuta, e non correlati fra loro: IE j 0 Var j 2 2 Cov i , j 0 , se i j Di conseguenza le variabili aleatorie risposta Y1 , K ,Y n sono variabili aleatorie con legge normale, con valore atteso 0 1x j , varianza costante 2 , sconosciuta, e non correlati fra loro: IE Y j 0 1x j Var Y j 2 Cov Yi ,Y j 0 , se i j La varianza 2 è un parametro sconosciuto che deve essere stimato sulla base dei dati campionari. Indichiamo con B 0 e B1 gli stimatori dei coefficienti 0 e 1 trovati con il metodo dei minimi quadrati: n x iY i 1 B 0 Y B1 x . e B1 2 i 1 xY x n Gli stimatori B 0 e B1 hanno legge normale, in quanto sono combinazioni lineari delle variabili aleatorie normali Y1 , K ,Y n . Le variabili aleatorie Yµ j , j 1, K , n , Yµ j B 0 B1 x j sono stimatori dei valori attesi delle variabili risposta Y j . La differenza fra Y j e Yµ j , che indichiamo con E j , è uno stimatore del residuo: E j Y j Yµ j Uno stimatore non distorto della varianza 2 è S 2 : n S2 E 2 i 1 i n 2 Yi Yµi n i 1 n 2 2 Stimatori dei coefficienti Indichiamo con B 0 e B1 gli stimatori dei coefficienti 0 e 1 . Si può dimostrare che: n IE B 0 0 Var B 0 2 x i2 IE B1 1 Var B1 e i 1 n 2 X2 2 n X2 Stimatori delle varianze di B 0 e B1 si trovano quindi usando lo stimatore S 2 di 2 : n S B20 S 2 B 0 0 : t [n 2] SB 0 Si ha: x i2 e i 1 n 2 X2 S B21 S2 n X2 B1 1 : t [n 2] SB1 e Questo permette di calcolare intervalli di confidenza ed effettuare test per i coefficienti 0 e 1 . a) Intervallo di confidenza per k , k=0,1, a livello di significatività 1 : B k S Bk t , B k S Bk t dove t è il quantile 1 /2 di una variabile aleatoria t di Student a n-2 gradi di libertà. b) Test sulla nullità dei coefficienti k , k=0,1, a livello : H 1 : k 0 H 0 : k 0 Se H 0 è vera la variabile aleatoria Bk ha legge t [n 2] . Questo permette di effettuare il test. S Bk Stimatori dei valori attesi delle variabili aleatorie Y1 ,… , Yn Il valore atteso di ciascuna variabile aleatoria Y j , con j 1,K , n , è: IE Y j 0 1x j Un suo stimatore non distorto è: Yµj B 0 B1x j Si può dimostrare che la sua varianza è: xj x 2 1 µ Var Y j 1 n X2 che viene anche indicata con S 2h j2 . e che uno stimatore non distorto della varianza di Yµ j è 2 2 2 Var Yµ j hj Gli stimatori Yµ hanno legge normale, in quanto sono combinazioni lineari delle variabili aleatorie normali j B 0 e B1 . Si ha: Yµ j IE Y j S hj : t [n 2] Intervallo di confidenza per IE Y j a livello di significatività 1 : Yµ t j S h j , Yµ j t S hj dove t è il quantile 1 /2 di una variabile aleatoria t di Student a n-2 gradi di libertà. Stimatori dei residui Le variabili aleatorie j non sono osservate nel campione, sono stimate tramite le variabili E j Y j Yµ j . Si ha: 1 n hanno legge normale perché combinazione lineare di variabili aleatorie con IE E j 0 e Var E j 2 h j2 Le variabili aleatorie E 1 , K , E n legge normale. La varianza può essere stimata con lo stimatore S Ej2 : S Ej2 S 2 h j2 Si ha: 1 n Ej : t [n 2] S Ej Le realizzazioni campionarie ej s Ej sono dette residui standardizzati o residui studentizzati utilizzate per il grafico dei residui rispetto ai valori stimati. e sono spesso Se il modello è corretto le realizzazione campionarie dei residui standardizzate stanno, con probabilità 1 , nell’intervallo t ,t . Stimatori dei valori predetti delle variabili aleatorie risposta Dopo aver stimato il modello sulla base di n osservazioni, si effettua una nuova osservazione della variabile esplicativa, che indichiamo con x 0 , di cui non si ha la corrispondente osservazione della variabile risposta. Per la nuova osservazione si considera il modello: Y0 0 1x 0 0 B1 sono Si predice il valore atteso della nuova variabile risposta, IE Y 0 , con Yµ 0 B 0 B1x 0 dove B 0 e calcolati sulla base delle prime n osservazioni. Indichiamo con 2h02 la varianza di Yµ 0 : 2 2 Var Yµ 0 h0 1 x0 x 2 X2 n Intervallo di confidenza per IE Y 0 , valore atteso di Y 0 , a livello di significatività 1 : Yµ S h t 0 0 ,Yµ 0 S h0 t dove t è il quantile 1 /2 di una variabile aleatoria t di Student a n-2 gradi di libertà. “Intervallo di confidenza” per la risposta Y 0 a livello di significatività 1 . Si ha 2 2 2 2 µ 1 IP Yµ 0 t 1 S h0 Y 0 Y 0 t 1 S h0 Osserviamo che Yµ t 0 2 2 1 S 2 h02 , Yµ 0 t 1 S h0 non è propriamente un intervallo di confidenza in quanto non si riferisce a un parametro.