MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello di regressione classico, • stima con i metodi dei minimi quadrati e di massima verosimiglianza, • teorema di Gauss-Markov, • verifica di ipotesi e test di specificazione e adattamento nel modello di regressione classico. • J.D. Hamilton (1995), Econometria delle serie storiche, Monduzzi. • W. H. Greene (1993), Econometric Analysis, Prentice Hall. 1 MODELLO DI REGRESSIONE LINEARE 0 yt = xtβ + ut • yt : variabile casuale dipendente h i 0 • xt = 1, xt1, xt2, ..., xtp : vettore dei regres- sori (deterministici o stocastici) h i • β 0 = β0, β1,β2, ..., βp : vettore dei parametri • ut : componente stocastica di valore atteso nullo FUNZIONE DI REGRESSIONE 0 E(yt|xt) = xtβ NOTAZIONE MATRICIALE y = Xβ + u • X = 0 0 x1 0 x2 matrice T xP (P = p + 1) dei xT regressori y1 y 2 • y = vettore delle variabili risposta yT u1 u • u = 2 .. uT castiche vettore delle componenti sto 2 ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE CLASSICO • A0:la funzione di regressione E( y|X) = Xβ è correttamente specificata • A1: u è un vettore di T variabili casuali indipendenti • A2: le componenti di u sono variabili casuali di valore atteso nullo e varianza σ 2(omoscheda • A3: le componenti di u sono variabili casuali normali 3 • A4: X è una matrice di costanti note (regressori non stocastici) • A5: le colonne di X sono linearmente indipendenti =⇒ X0X è invertibile • A4bis: X è una matrice stocastica, u e X sono stocasticamente indipendenti ovvero in termini di densità di probabilità: f (u|X) =f (u) • A4bisbis E(u|X) =E(u) 4 STIMA di β, σ 2 Verosimiglianza 0 Da yt = xtβ + ut e per le A1, A2, A3, A4 (A4bis) si ha che le yt sono variabili casuali indipendenti normali con valore atteso 0 µt = xtβ e varianza σ 2. QUINDI ho la verosimiglianza: T Y 0 1 √ exp − 2 (yt − xtβ)2 L(β, σ 2) = 2 2σ t=1 2πσ 1 e la log verosimiglianza: T L(β, σ 2) = − ln(2πσ 2) − 2 =− 0 1 X 2= (y − x β) t t 2σ 2 t 1 T 0 y − Xβ ln(2πσ 2) − y − X β ( ) ( ) 2 2σ 2 5 se σ 2 è noto massimizzare la log verosimiglianza equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI): Q(β) = (y − Xβ )0 (y − Xβ ) 6 RISULTATO FONDAMENTALE Q(β) = (y − Xβ )0 (y − Xβ ) ha un unico minimo in b −1 0 = XX X0y è importante notare che: y − Xb = y − X −1 0 XX X0y = (IT −M) y dove M = X X0X −1 X0 è una matrice T xT idempotente (M = MM). Quindi anche (IT −M) è idempotente. 7 Ne consegue Q(b) = (y − Xb)0 (y − Xb) = = y0 (IT −M) y = y0y − y0My = = y0 y − y0 X −1 0 X0y = XX y0y − y0Xb 8 Verosimiglianza concentrata Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza concentrata: L(σ 2) = − 1 T ln(2πσ 2) − Q(b) 2 2 2σ che ha un massimo in s2 = Q(Tb) . 9 CONCLUDENDO: gli stimatori M.V. sono s2 = b = Q(b) T −1 0 XX X0y 10 PROPRIETA’ DEGLI STIMATORI A0 - A4bisbis garantiscono che E(b) = β E T s2 T −1−p ! =E Q(b) T −1−p ! = σ2 E(b) = β è banalmente verificata infatti condizionatamente ad X : −1 −1 0 0 0 E( X X X y)= X X X0(Xβ + u) = −1 −1 0 0 0 = XX X Xβ+E( X X Xu)= −1 0 XE(u|X) =β = β+E X X b) per la correttezza di TQ( −1−p si procede (condizionatamente ad X) notando che : 11 0 E (Q(b)) = E y (IT −M) y = 0 = E traccia(y (IT −M) y) = = E(traccia (IT −M) yy0) = traccia((IT −M) E(yy0) = 2 0 0 = traccia (IT −M) (σ I + Xββ X = 2 = traccia (IT −M) (σ I = = σ 2(traccia (IT )−traccia(M)) = (T − 1 − p)σ 2 dove l’ultima uguaglianza deriva da: −1 0 traccia(M) = traccia(X X X X0) = −1 0 = traccia( X X X0X) = = traccia(Ip+1) = p + 1 12 quindi s̃2 = Q(b) T −1−p è uno stimatore corretto per σ 2 matrice varianze covarianze dei coeff. di reg. per X fissato 13 Vogliamo trovare la matrice varianze covarianze: V ar(β) = E(b − β)(b − β)0 Notiamo innanzitutto che: b−β = −1 0 XX X0 = −1 0 X0u XX (Xβ + u) −β = e che E(uu0) = σ 2IT per le assunzioni di indipendenza e omoschedasticità. Quindi: E(b − β)(b − β) 0 = −1 −1 0 0 2 0 XX X σ IT X X X = −1 2 0 = σ XX −1 0 0 Inoltre da b − β = X X X u dalla Assunzione di Normalità, dalla proprietà di correttezza e dal precedente risultato deriva che le componenti bi − βi di b − β sono v.c. normali con valore atteso nullo e varianza σ 2cii con cii elemento della iesima riga e iesima colonna di −1 0 XX . 14 DEFINIZIONE DI Variabile Casuale Multinormale Sia z = (z1, z2, ...., zT )0 un vettore di T normali standardizzate indipendenti. La variabile casuale vettoriale: w = µ + L0z è una variabile casuale multinormale di dimensione T con valore atteso µ e matrice varianze covarianze Ω = L0L. Se Ω è diagonale le componenti di w sono stocasticamente indipendenti. Conseguenza:Cw = Cµ + CL0z è una variabile casuale multinormale con valore atteso Mµ e 0 0 matrice varianze covarianze Ω = C L L C . 15 fatto importante: la densità congiunta di una una variabile casuale multinormale con valore atteso µ e matrice varianze covarianze Ω è: f (w; µ, Ω)= 1 1 0 Ω−1 w − µ = exp − w − µ ( ) ( ) T /2 2 (2π det(Ω)) 16 esempio: nel modello di regressione classico normale: u = 0+ (σ I) z è un vettore multinormale con con valore atteso µ = 0 e matrice varianze covarianze Ω = σ 2I. esempio:b − β = X0X −1 X0u = X0X −1 X0 (σ I) z è un vettore multinormale con con valore at−1 2 0 teso µ = 0 e matrice varianze covarianze X X σ . Più in generale la trasformazione lineare C (b − β ) è una variabile casuale multinormale con vettore dei valori attesi nullo e matrice varianze covarianze σ 2C −1 0 XX C0 caso rilevante : C = x∗ . Perchè? 17 INFERENZA Problemi di stima intervallare e verifica ipotesi concernenti singli coefficienti di regressione βi sono risolti a partire dai seguenti risultati (dimostrazione omessa) dipendenti in linea diretta dalla ipotesi di normalità indipendenza è identica distribuzione degli errori 18 TESTS DI WALD 1-La variabile casuale bi − βi q s̃2cii è un variabile casuale pivotale di Student con T − 1 − p gradi di libertà. 2-Sotto l’ipotesi nulla Cβ = c relativa a v vincoli lineari: −1 −1 1 W = (Cb − c)0 s̃2C X0X C0 (Cb − c) v è una variabile casuale di tipo F con v e T −1−p gradi di libertà. 19 PREVISIONE si vuole prevedere y ∗ = x∗0β + u cioè la risposta in corrispondnza di x∗0. Il migliore previsore è il valore atteso E(y ∗) = x∗0βh ( minimizza l’errore i ∗ 2 ∗ quadratico di previsione E (y − g(x )) ). Siccome i parametri non sono noti si usa il previ sore puntuale:x∗0b = x∗0 X0X −1 X0y. Errore quadratico di previsione condizionato ai regressori: E(y ∗ − x∗0 −1 0 XX X0y)2 = = E(y ∗ − x∗0β)2 + E(x∗0β − x∗0b)2 = = σ 2 + σ 2x∗0 −1 0 XX x∗ Intervallo di previsione a livello 1-α: x∗0b ± t 2 + s̃2 x∗0 (s̃ 1−α/2,T −1−p −1 0 XX x∗) 20 METODO EFFICIENTE PER PREVISIONE Supponiamo di dover prevedere y∗ = X∗β + u∗ le previsioni e gli errori quadratici di previsione sono ottenuti dalle”regressione aumentata”: " y 0 # " = X 0 X∗ −I #" β y∗ # " + u u∗ # lo stimatore di y∗ nel modello precedente fornisce le previsioni X∗b richieste e i corrispondenti elementi nella matrice " # varianze covariβ anze dello stimatore di le stime degli ery∗ rori quadratici di previsione (Greene pag.309). 21 Varianza spiegata Varianza Residua Indice di determinazione Multipla Somma dei quadrati totale e devianza totale qT2 = y0y 0 y−T ȳ 2 d2 = y T Somma dei quadrati spiegata e devianza spiegata 2 = y0 My qS 0 My−T ȳ 2 d2 = y S Somma dei quadrati residua e devianza residua (concetti coincidenti) 2 = y0 I − M y qR ( T ) 0 d2 R = y (IT − M) y 22 Indice di determinazione multipla centrato, non ¯ centrato e corretto 2 Rcentr 2 Rnocentr y0My−T ȳ 2 y 0 ( I − M) y =1− = 0 2 y y−T ȳ y0y−T ȳ 2 y0My = y0 y y0(I−M)y T −1 T −p 2 2 Rcorretto = 1 − 0 =1− (1 − Rcentr ) 2 y y−T ȳ T −p T −1 23 CONFRONTO FRA MODELLI Sia d2 R1 la devianza residua del modello con p regressori e d2 R0 la devianza residua del modello con βi = 0, i = 1, 2, ...., v. d2 −d2 R0 R1 T −1−p è una F di snedecor la statistica v d2 R1 con v e T − 1 − p gdl. Confronto con quanto detto prima!!!!! 24 UN CASO PARICOLARE y t = β 0 + β 1 xt + u t X = 1 x1 1 x2 .. .. 1 xt # P n x P 2t ; P X0X = xt xt " P # P −1 2 1 x − xt 0 Pt XX = P 2 P n n x t − ( x t )2 − x t " P # y X0y = P t xt y t " " b0 b1 # −1 0 = XX X0y cov(xy) ȳ − V ar(x) x̄ = cov(xy) V ar(x) 25 UNA APPLICAZIONE IMPORTANTE: effetto di una nuova condizione sul valore atteso di una risposta sperimentale. yt = µ + δ + ut, i = 1, 2, 3, ....n1(on) yt = µ + ut, i = n1 + 1, ......, n1 + n2 = n (off) X = 1 1 .. 1 1 1 .. 1 1 1 .. 1 0 0 .. 0 26 X0X = −1 X0X = " n1 + n2 n1 n1 n1 1 # ; " n1 −n1 −n1 n1 + n2 n1 + n2) n1 − (n1)2 ( 1 1 −n n2 2 = −1 −1 1 − n n1 + n2 " P 2 # " # ny n1Mn1 + n2Mn2 Pn11 t X0y = = n1Mn1 1 yt " # " # −1 0 b0 Mn2 0 = XX Xy= b1 (Mn1 − Mn2 ) 27 # = VARIABILI CASUALI PIVOTALI PER INFERENZA Stima corretta di σ 2 σ̃ 2 = = Pn1 2 + Pn2 2 (x − M ) (x − M ) n n i i 1 2 i=1 i=n1 +1 n1 + n2 − 2 (n1 − 1)Sn21 + (n2 − 1)Sn22 n1 + n2 − 2 " T1 T2 # = . Mn2 −µ √ √ n1 σ̃ 2 (M −Mn2 −δ) r n1 −1 σ̃ 2 n−1 +n 1 2 28 = UN PROBLEMA INFERENZIALE IMPORTANTE La variabile casuale pivotale T di student con n1 + n2 − 2 gdl: (Mn1 − Mn2 − δ0) r −1 −1 2 σ n1 + n2 è usata per verificare l’ipotesi H0 : δ = δ0 contro alternative unilaterali e bilaterali. 29 errori correlati e o eteroschedastici Data una matrice varianze covarianze Ω = σ 2L0L invece che u = 0+ (σ I) z supponiamo u = 0+ σ L0 z per cui y = Xβ+ σ L0 z è multinormale di dimensione T con valore atteso Xβ e matrice varianze covarianze Ω = σ 2L0L. La log verosimiglianza è: L(β, Ω)= 1 T 0 Ω−1 y − Xβ = − ln(2π det(Ω) − y − X β ( ) ( ) 2 2 2σ Continuando ad usare b = X0X −1 X0y si ha che lo stesso è ancora corretto ma che var(b) = Σ = σ2 −1 −1 0 0 0 XX X ΩX X X 30 Conseguenze: stimatore corretto ma non più efficente (o a minima varianza tra gli stimatori lineari in assenza di ipotesi di normalità).Inoltre b − β= X0X −1 X0u adesso è multinormale con valore atteso nullo e matrice var covar Σ. I precedenti risultati concernenti il test di Wald non sono più validi. 31 Stima con Ω noto In questo caso massimizzare la verosimiglianza equivale a minimizzare (metodo minimi quadrati generalizzati) QΩ(β) = (y − Xβ )0 Ω−1 (y − Xβ ) il minimo si ha per (stimatore minimi quadrati generalizzato): b̈ −1 0 −1 = XΩ X X0Ω−1y ed è : 0 QΩ(b̈) = y − Xb̈ Ω−1 y − Xb̈ 32 Log-Verosimiglianza concentrata T 2 L(σ ) = − ln(2πσ 2) − 2 1 QΩ(b̈) 2 2σ che ha un massimo in s̈2 = Q(Tb̈) . Questo sti... b̈) matore non è corretto ma lo è s 2 = TQ( −1−p . I risultati inerenti il test di Wald continuano −1 a valere per b̈ utilizzando però X0Ω−1X al −1 ... 0 posto di X X e s 2 al posto di s̃2. 33 IL PROBLEMA E CHE Ω in genere non è nota e deve essere stimata. Se al posto di Ω si utilizza uno stimatore consistente (da trovare) Ω̂ i risultati precedenti continuano a valere per ... 0 −1 −1 0 −1 X Ω̂ y con le sostituzioni: b = X Ω̂ X • la corretezza diventa correttezza asintotica • la normalità di b̈ − β diventa normalità asintotica i −βi • pb̈... è asintoticamente normale (qui cii s 2 cii è un elemento −1 della diagonale principale di X0Ω̂−1X . 34 • 0 ...2 0 −1 −1 0 −1 C (Cb̈ − c) (Cb̈ − c) s C X Ω̂ X è asintoticamente una chi quadro con v gradi di libertà Discussione dei casi rilevanti: • errori eteroschedastici Ω diagonale • errori autocorrelati di tipo AR(1) o AR(m) 35 Elementi di teoria asintotica Quanto sopra detto perchè nei casi di regressori stocastici o di errori non indipendenti o eteroschedastici o in assenza della ipotesi di normalità si ricorre a risultati asintotici. Notiamo che −1 1 0 −1 1 0 −1 b̈ = β+ XΩ X XΩ u T T 1 0 −1 se p lim T X Ω X = Q è una matrice def. positiva e se plim T1 X0Ω−1u = 0 lo stimatore dei minimi quadrati generalizzati è asintoticamente corretto e consistente inoltre se T1 X0Ω−1u è asintoticamente normale allora lo è anche lo stimatore b̈. Analoghi discorsi valgono per ... 1 X0 Ω̂−1 X −1 1 X0 Ω̂−1 y. = b T T 36 ERRORI E REGRESSORI CORRELATI Supponiamo che la A4bisbis non sia valida E(u|X) 6=0 In questo caso non si ha corretezza infatti: −1 0 E( X X X0y)= −1 0 X0(Xβ + u) = E XX −1 −1 = X0X X0Xβ+E E( X0X Xu)|X = −1 0 =β+E X X XE(u|X) 6=β Discussione di casi rilevanti • errori correlati in presenza di variabili ritardate • modelli ad equazioni simultanee 37 COMPONENTE STOCASTICA AR(1) ut = ρut−1 + zt dove le zt sono normali indipendenti di valore 2. atteso nullo e varianza σZ Assunzione di stazionarietà: V ar(ut) = σ02, Cov(ut, ut0 ) = σ|t−t0| dalla assunzione di stazionarietà si ricava 2 σ02 = ρ2σ02 + σZ e quindi σ02 = 2 σZ 1 − ρ2 Quindi la stazionarietà implica che ρ2 < 1. Viceversa si dimostra che ρ2 < 1 implica la stazionarietà. 38 Se ρ2 = 1 il processo non stazionario è chiamato random walk ( processo autoregressivo con una radice unitaria). Applicando ricorsivamente la definizione ut = ρut−1 + zt si ottiene ut = ρsut−s + s−1 X ρizt−i i=0 da cui Cov(ut, ut−s) = σs = ρsvar(ut−s) = ρs 2 σZ 1 − ρ2 e quindi σ 2Ω 2 σZ = 2 1−ρ 1 ρ ρ2 ... ... :ρ 1 ρ ... ... ρ2 ρ 1 ... ... 3 T −1 ρ ... ρ ρ2 ... ρT −2 ρ ... ρT −3 ... ... ... ... ... ρ ρT −1 ρT −2 ρT −3 ... ρ 1 39 usando la stima di ρ PT etet−1 r = t=2 PT 2 t=1 et (gli et sono residui ottenuti applcando i minimi quadrati ordinari) si ottiene lo stimatore: ... 1 0 −1 −1 1 0 −1 b = T X Ω̂ X T X Ω̂ y. 40 Oppure si può usare il metodo di massima verosimiglia Lo stimatore di massima verosimiglianza b̂ è ottenuto massimizzando la log verosimiglianza: log L1 = log f (y1)+log f (y2|y1)+log(f (y3|y2)+... Calcolo di f (y1): da y1 = x01β+u1 con u1 nor2 σZ male di valore atteso nullo e varianza 1−ρ2 si ha : 2 0β y − x 1 1 1 exp − f (y1) = s 2 σZ 2 σZ 2 2π 1−ρ2 1−ρ2 Calcolo di f (yt|yt−1) : sottraendo ρ · yt−1 = ρ x0t−1β+ut−1 da yt = x0tβ+ρut−1 + zt si ha yt − ρ · yt−1 − x0tβ−ρx0t−1β = zt Si ricordi che zt è normale con valore atteso 2. nullo e varianza σZ 41 Quindi (!!!!!!): f (yt|yt−1) = =q 1 2 2πσZ exp − yt − ρ · yt−1 − x0tβ+ρx0t−1 2 β 2 2σZ 42 Quindi a meno di costanti: 1 T 2 log L1 = − ln σZ + ln(1 − ρ2)+ 2 2 q 2 1 − 2 1 − ρ2 y1 − x01β + 2σZ T 2 1 X 0 0 − 2 yt − ρ · yt−1 − xtβ+ρxt−1β . 2σZ t=2 La matrice varianze covarianze degli stimatori dei coefficienti di regressione è 2 σZ −1 0 −1 XΩ X 2 e ρ le stime che va stimata sostituendo a σZ di massima verosimiglianza. 43 L’ipotesi ρ = 0 può essere verificata o con il Tet di Durbin Watson (vedi Greene pg 538) PT 2 (e − e ) t t−1 d = t=2PT 2 t=1 et o mediante il test del rapporto delle massime verosimiglianze: 2(log L1 − log L0) che ha una distr. asint chi quadro con un gdl. E’ possibile in generale considerare errori AR(p): ut = θ1ut−1 + θ2ut−2 + ... + θput−p + zt 44 Previsione passo 1 in presenza di errori AR(1) ¯ Si deve prevedere yT +1 = xT +1β + ρuT + zT +1 Ora da yT +1 − ρyT = xT +1 − ρxT β + zT +1 si ricava yT +1 = xT +1β + ρ(yT − xT β) + zT +1 da cui si ricava il previsore passo uno: E(yT +1|YT ) = xT +1β + ρ(yT − xT β) e quindi la previsione π̂T +1 = xT +1b+ρ̂(yT − xT b). Analogamente la previsione a passo n è π̂T +n = xT +nb+ρ̂n(yT − xT b). La stima dell’errore quadratico della previsione passo uno è: σ̂02 + xT +1 − ρ̂xT 0 " −1 2 X0 Ω̂−1 X σ̂Z # 2 σ̂0 xT +1 − ρ̂xT + T 45