MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello di regressione classico, • stima con i metodi dei minimi quadrati e di massima verosimiglianza, • teorema di Gauss-Markov, • verifica di ipotesi e test di specificazione e adattamento nel modello di regressione. 1 MODELLO DI REGRESSIONE LINEARE 0 yt = xtβ + ut • yt : variabile casuale dipendente i h 0 • xt = 1, xt1, xt2, ..., xtp : vettore dei regres- sori (deterministici o stocastici) h i 0 • β = β0, β1,β2, ..., βp : vettore dei parametri • ut : componente stocastica di valore atteso nullo FUNZIONE DI REGRESSIONE 0 E(yt|xt) = xtβ 2 NOTAZIONE MATRICIALE y = Xβ + u 0 x 1 x0 2 matrice T xP dei regressori • X = 0 xT y1 y 2 • y = yT u1 u • u = 2 .. uT castiche vettore delle variabili risposta vettore delle componenti sto 3 ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE CLASSICO • A0:la funzione di regressione E( y|X) = Xβ è correttamente specificata • A1: u è un vettore di T variabili casuali indipendenti • A2: le componenti di u sono variabili casuali di valore atteso nullo e varianza σ 2(omoschedast • A3: le componenti di u sono variabili casuali normali • A4: X è una matrice di costanti note (regressori non stocastici) • A5: le colonne di X sono linearmente indipendenti =⇒ X0X è invertibile 4 STIMA di β, σ 2 Verosimiglianza 0 Da yt = xtβ + ut e per le A1, A2, A3, A4 (A4bis) si ha che le yt sono variabili casuali indipendenti normali con valore atteso 0 µt = xtβ e varianza σ 2. QUINDI ho la verosimiglianza: T Y 1 0 1 2 √ L(β, σ ) = exp − 2 (yt − xtβ)2 2 2σ t=1 2πσ e la log verosimiglianza: T 2 L(β, σ ) = − ln(2πσ 2) − 2 0 1 X 2= β) (y − x t t 2σ 2 t T 1 2 0 y − Xβ = − ln(2πσ ) − y − X β ( ) ( ) 2 2σ 2 5 se σ 2 è noto massimizzare la log verosimiglianza equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI): Q(β) = (y − Xβ )0 (y − Xβ ) RISULTATO FONDAMENTALE Q(β) = (y − Xβ )0 (y − Xβ ) ha un unico minimo in b −1 0 = XX X0 y è importante notare che: y − Xb = y − X −1 0 XX X 0 y = (I T − M ) y −1 0 0 XX X è una matrice T xT idem- dove M = X potente (M = MM). Quindi anche (IT −M) è idempotente. 6 Ne consegue Q(b) = (y − Xb)0 (y − Xb) = = y0 (IT −M) y = y0y − y0My = = y0 y − y0 X −1 0 XX X0y = y0y − y0Xb più semplicemente (ma non per i calcoli) Q(b) = X t 0 (yt − xtb)2 = X t yt2 − X 0 y t xt b t 7 Verosimiglianza concentrata Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza concentrata: T 2 L(σ ) = − ln(2πσ 2) − 2 1 Q(b) 2σ 2 che ha un massimo in s2 = Q(Tb) . CONCLUDENDO: gli stimatori M.V. sono Q(b) 2 s = T −1 0 b= X X X0y 8 PROPRIETA’ DEGLI STIMATORI A0 - A4bisbis garantiscono che E(b) = β E T s2 T −1−p ! =E Q(b) T −1−p ! = σ2 9 INFERENZA Problemi di stima intervallare e verifica ipotesi concernenti singli coefficienti di regressione βi sono risolti a partire dai seguenti risultati (dimostrazione omessa) dipendenti in linea diretta dalla ipotesi di normalità indipendenza è identica distribuzione degli errori 10 TESTS DI WALD 1-La variabile casuale bi − βi q s̃2cii è un variabile casuale pivotale di Student con T − 1 − p gradi di libertà. 2-Sotto l’ipotesi nulla Cβ = c relativa a v vincoli lineari: −1 −1 1 W = (Cb − c)0 s̃2C X0X C0 (Cb − c) v è una variabile casuale di tipo F con v e T −1−p gradi di libertà. 11 UN CASO PARICOLARE yt = β0 + β1xt + ut X= 1 x1 1 x2 .. .. 1 xt " # P n x P 2t ; X0X= P xt xt # " P P −1 2 1 x − xt 0 Pt XX = P 2 P n n xt − ( xt)2 − xt " b0 b1 # # " P x X0y = P t xtyt = X0X −1 cov(xy) x̄ ȳ − V ar(x) X0y = cov(xy) V ar(x) 12 UNA APPLICAZIONE IMPORTANTE: effetto di una condizione (on /off) sul valore atteso di una risposta sperimentale. yt = µ + δ + ut, i = 1, 2, 3, ....n1(on) yt = µ + ut, i = n1 + 1, ......, n1 + n2 = n (off) X= 1 1 .. 1 1 1 .. 1 1 1 .. 1 0 0 .. 0 13 X0X = X0X −1 X0y " b0 b1 # " n1 + n2 n1 n1 n1 1 = # ; " n1 −n1 −n1 n1 + n2 n 1 + n 2 ) n 1 − (n 1 )2 ( 1 1 −n n2 2 = −1 −1 1 − n n1 + n2 " P 2 # " # ny n1Mn1 + n2Mn2 Pn11 t = = n1Mn1 1 yt −1 = X0X X0y = " Mn2 (Mn1 − Mn2 ) # 14 # = VARIABILI CASUALI PIVOTALI PER INFERENZA Stima corretta di σ 2 σ̃ 2 = = Pn1 2 + Pn2 2 (x − M ) (x − M ) n n i i 1 2 i=1 i=n1 +1 n1 + n2 − 2 (n1 − 1)Sn21 + (n2 − 1)Sn22 n1 + n2 − 2 " T1 T2 # = . Mn2 −µ √ √ n1 σ̃ 2 (M −Mn2 −δ) r n1 −1 +n σ̃ 2 n−1 1 2 15 = UN PROBLEMA INFERENZIALE IMPORTANTE La variabile casuale pivotale T di student con n1 + n2 − 2 gdl: (Mn1 − Mn2 − δ0) r −1 −1 2 σ n1 + n2 è usata per verificare l’ipotesi H0 : δ = δ0 contro alternative unilaterali e bilaterali. 16 PREVISIONE si vuole prevedere y ∗ = x∗0β + u cioè la risposta in corrispondnza di x∗0. Il migliore previsore è il valore atteso E(y ∗) = x∗0βh ( minimizza l’errore i ∗ 2 ∗ quadratico di previsione E (y − g(x )) ). Siccome i parametri non sono noti si usa il previ sore puntuale:x∗0b = x∗0 X0X −1 X0y. Errore quadratico di previsione condizionato ai regressori: E(y ∗ − x∗0 −1 0 XX X 0 y )2 = = E(y ∗ − x∗0β)2 + E(x∗0β − x∗0b)2 = = σ 2 + σ 2x∗0 −1 0 XX x∗ Intervallo di previsione a livello 1-α: x∗0b ± t 2 + s̃2 x∗0 (s̃ 1−α/2,T −1−p −1 0 XX x∗ ) 17 METODO EFFICIENTE PER PREVISIONE Supponiamo di dover prevedere y ∗ = X∗ β + u∗ le previsioni e gli errori quadratici di previsione sono ottenuti dalle”regressione aumentata”: " y 0 # = " X 0 X∗ −I #" β y∗ # + " u u∗ # lo stimatore di y∗ nel modello precedente fornisce le previsioni X∗b richieste e i corrispondenti elementi nella matrice # varianze covari" β le stime degli eranze dello stimatore di y∗ rori quadratici di previsione (Greene pag.309). 18 Varianza spiegata Varianza Residua Indice di determinazione Multipla Somma dei quadrati totale e devianza totale qT2 = y0y 0 y−T ȳ 2 d2 = y T Somma dei quadrati spiegata e devianza spiegata 2 = y0 My qS 0 2 d2 S = y My−T ȳ Somma dei quadrati residua e devianza residua (concetti coincidenti) 2 = y0 I − M y qR ( T ) 0 d2 R = y (I T − M ) y 19 Indice di determinazione multipla centrato, non ¯ centrato e corretto y0My−T ȳ 2 y 0 (I − M ) y =1− 0 2 y y−T ȳ y0y−T ȳ 2 y0My 2 Rnocentr = y0 y 2 Rcentr = y0(I−M)y T −1 T −p 2 2 =1− (1 − Rcentr ) Rcorretto = 1 − 0 2 y y−T ȳ T −p T −1 20 CONFRONTO FRA MODELLI Sia d2 R1 la devianza residua del modello con p regressori e d2 R0 la devianza residua del modello con βi = 0, i = 1, 2, ...., v. d2 −d2 R0 R1 T −1−p è una F di snedecor la statistica v d2 R1 con v e T − 1 − p gdl. Confronto con quanto detto prima!!!!! 21