Regressione lineare con un solo regressore (Cap 4) • La regressione lineare è uno strumento che ci permette di stimare e di fare inferenza sui coefficienti angolari di una popolazione. Il nostro scopo è di stimare l’effetto causale misurato come effetto che l’incremento una unità di X ha su Y. Per ora, restringiamo il problema e pensiamo di far passare una linea retta fra i dati di 2 variabili, Y e X, dove X è l’unico regressore. 1 Il problema di inferenza che ci poniamo è lo stesso di quello che ci siamo posti per le medie, differenze fra le medie etc. Inferenza sulla pendenza di una retta comprende: • Stima: • • • Test di ipotesi: • • In che maniera dovremmo tracciare una linea attraverso i dati per stimarne la pendenza? (risposta: minimi quadrati ordinari Ordinary Least Square, OLS). Quali sono gli svantaggi e i vantaggi dell’ OLS? Come testare se la pendenza è nulla? Intervallo di confidenza: • Come costruire un intervallo di confidenza per tale pendenza? 2 La retta di regressione della popolazione: Voti = β0 + β1STR β1 = pendenza della retta di regressione della popolazione = ∆ Voti ∆ STR = di quanto cambia il voto quando STR cambia di una unità • Perchè β0 e β1 sono parametri della “popolazione”? • Ciò che vorremmo sapere è il vero valore della popolazione di β1. • Non conosciamo β1, dobbiamo stimarlo usando i dati 3 Notazione generale Yi = β0 + β1Xi + ui, i = 1,…, n • X è la variabile indipendente o regressore • Y è la variabile dependente • β0 = intercetta • β1 = pendenza • ui = l’errore di regressione • l’errore di regressione contiene i fattori omessi, o gli errori di misurazione di Y. In genere, questi fattori omessi sono altri fattori, oltre alla variabile X, che influenzano Y. 4 La retta di regressione e il termine di errore 5 Le stime “Ordinary Least Squares” Come possiamo ottenere delle stime di β0 e β1 dai dati? Ricordiamo che Y è lo stimatore dei minimi quadrati di µY: Y è la soluzione di, n min m ∑ (Yi − m) 2 , i =1 minimizza la somma degli errori al quadrato fra tutti i possibili stimatori m, dove m è uno stimatore di µY Analogamente, ci concentreremo sullo stimatore dei minimi quadrati di (“ordinary least squares” o “OLS”) dei parametri sconosciuti β0 e β1, che sono la soluzione di n min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2 i =1 6 Retta di regressione della popolazione: Voti = β0 + β1STR β1 = ∆ Voti ∆ STR = ?? 7 n Lo stimatore OLS risolve : min b ,b ∑[Yi − (b0 + b1 X i )]2 0 1 i =1 • Lo stimatore OLS minimizza le differenze fra i valori “attuali” Yi e valori “predetti” dalla retta di regressione, al quadrato. • I risultati di queste operazioni sono gli stimatori OLS di β0 e β1. 8 Applicazione: Voti – STR Pendenza stimata = βˆ1 = – 2.28 Intercetta stimata = βˆ = 698.9 0 Linea di regressione stimata: V̂oti = 698.9 – 2.28×STR 9 Intercetta e coefficiente angolare V̂oti = 698.9 – 2.28×STR • interpretazione: I distretti con uno studente in più per insegnante in media ricevono voti di 2.28 punti più bassi. ∆ Voti • Cioè, ∆ STR = –2.28 • L’intercetta (letteralmente) significa che, secondo le nostre stime i distretti senza studenti avrebbero un voto predetto di 698.9. • In questo caso questa interpretazione non ha senso. È estrapolata fuori dall’intervallo dei dati e in questo caso non ha senso economicamente. Non sempre così! 10 Valori previsti e residui: Uno dei distretti nel campione è Antelope, CA, per cui STR = 19.33 e Voti = 657.8 Yˆ = 698.9 – 2.28×19.33 = 654.8 Valore predetto: Antelope residui: uˆ Antelope = 657.8 – 654.8 = 3.0 11 OLS : esempio di output regress testscr str, robust Regression with robust standard errors Number of obs F( 1, 418) Prob > F R-squared Root MSE = = = = = 420 19.26 0.0000 0.0512 18.581 ------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 698.933 10.36436 67.44 0.000 678.5602 719.3057 _cons | ------------------------------------------------------------------------- V̂oti = 698.9 – 2.28×STR (discuteremo dopo del resto) 12 Oggetto di interesse: β1 in, Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ∆Y/∆X, per un cambio in X (effetto causale) 13 Test d’ipotesi e SE β̂1 L’obiettivo è di testare un’ipotesi, come β1 = 0 test di significativita’ usando i dati per cercare di concludere se l’H0 è vera o no. General setup Ipotesi nulla e alternativa a due-code: H0: β1 = β1,0 vs. H1: β1 ≠ β1,0 β1,0 il valore ipotizzato sotto la nulla. Ipotesi nulla e alternativa a una-coda: H0: β1 = β1,0 vs. H1: β1 > β1,0 14 Approccio generale: construiamo una statistica t, calcoliamo il pvalore (o confrontiamolo con il valore critico di N(0,1)) • In generale: t =(stima-valore ipotizzato)/SE(stimatore) dove SE(stimatore) è la radice quadrata di uno stimatore della varianza dello stimatore. Y − µY ,0 • Per testare la media di Y: t= sY / n βˆ1 − β1,0 • Per testare β1, t= , ˆ SE ( β1 ) Dove SE( βˆ1 ) = la radice quadrata di uno stimatore della varianza della distribuzione campionaria di βˆ 1 15 Riassunto: H0: β1 = β1,0 vs H1: β1 ≠ β1,0, • t-statistica βˆ1 − β1,0 βˆ1 − β1,0 t= = ˆ SE ( β1 ) σˆ β2ˆ 1 • Rifiutiamo al 5% se |t| > 1.96 • Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è < 5%. • Approssimazione valida per n grande. 16 Esempio: Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR standard errors forniti dal software: SE( βˆ0 ) = 10.4 SE( βˆ1 ) = 0.52 βˆ1 − β1,0 −2.28 − 0 statistica t per testare cheβ1,0 = 0 = = = –4.38 0.52 SE ( βˆ1 ) • All’ 1% il valore critico è di 2.58, perciò… • Alternativamente abbiamo il p-valore 17 The p-valore è di 0.00001 (10–5) 18 Intervalli di confidenza per β1 Poichè la statistica t per β1 è N(0,1) nei grandi campioni, costruire un intervallo di confidenza al 95% è la stessa cosa del caso della media campionaria: intervallo di confidenza al 95% per β1 = { βˆ ± 1.96×SE( βˆ )} 1 1 19 Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR SE( βˆ0 ) = 10.4 SE( βˆ1 ) = 0.52 95% intervallo di confidenza di βˆ1 : { βˆ1 ± 1.96×SE( βˆ1 )} = {–2.28 ± 1.96×0.52} = (–3.30, –1.26) Le seguenti conclusioni sono identiche: • L’intervallo di confidenza al 95% non include lo zero; • L’ipotesi β1 = 0 è rifiutata al livello di significatività del 5% 20 V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6 (10.4) (0.52) Questa espressione ci da molte informazioni: • La retta stimata è V̂oti = 698.9 – 2.28×STR • Lo SE( βˆ0 ) è 10.4 • Lo SE( βˆ ) è 0.52 1 • L’ R2 è 0.05; lo standard error della regressione è 18.6 21 Come leggere un’output regress testscr str, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------.5194892 -4.38 0.000 -3.300945 -1.258671 str | -2.279808 _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 ------------------------------------------------------------------------- so: V̂oti = 698.9 – 2.28×STR, , R2 = .05, SER = 18.6 (10.4) (0.52) t (β1 = 0) = –4.38, p-valore = 0.000 (2-code) 95% 2-code intervallo conf. per β1 è (–3.30, –1.26) 22 Sommario di inferenza su β0 e β1: Stima: • Stime OLS di βˆ0 e βˆ1 • βˆ e βˆ hanno approssimativamente distribuzione 0 1 campionaria normale in grandi campioni Test: • H0: β1 = β1,0 v. β1 ≠ β1,0 (β1,0 è il valore di β1 sotto H0) • t = ( βˆ1 – β1,0)/SE( βˆ1 ) • p-valore = area sotto la normale standard fuori tatt (n grande) Inervallo di confidenza: • intervallo di confidenza al 95% per β1 è { βˆ1 ± 1.96×SE( βˆ1 )} • questo è l’insieme di valori di β1 per cui non si rifiuta l’ipotesi nulla al 5%. • Il 95% CI contiene il vero β1 nel 95% di tutti i campioni. 23 Il modello di regressione multipla della popolazione Consideriamo il caso di 2 regressori: Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n • Y variabile dependente • X1, X2 2 variabili independenti (regressori) • (Yi, X1i, X2i) denotano l’ima osservazione di Y, X1, e X2. • β0 = intercetta della popolazione sconosciuta • β1 = effetto di una variazione di X1 su Y, tenendo X2 constante • β2 = effetto di una variazione di X2 su Y, tenendo X1 constante • ui = errore di regressione (fattori omessi) 24 Interpretazione dei coefficienti nella regressione multipla Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n Consideriamo di far variare X1 di ∆X1 tenendo X2 costante: Retta di regressione della popolazione prima della variazione: Y = β0 + β1X1 + β2X2 E dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 25 Prima: Y = β0 + β1(X1 ) + β2X2 Dopo: Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2 Differenza: Perciò: ∆Y = β1∆X1 ∆Y β1 = , tenendo X2 constante ∆X 1 ∆Y β2 = , tenendo X1 constante ∆X 2 β0 = valore previsto di Y quando X1 = X2 = 0. 26 Con 2 regressori, lo stimatore OLS risolve il seguente problema: n min b0 ,b1 ,b2 ∑ [Yi − (b0 + b1 X 1i + b2 X 2i )]2 i =1 • Lo stimatore OLS minimizza la differenza fra i valori attuali e quelli previsti dalla regressione • Il problema di minimizzazione si risolve utilizzando il calcolo • Otteniamo così β0 e β1. 27 Es: V̂oti = 698.9 – 2.28×STR Includiamo la nuova variabile (PctEL): V̂oti = 686.0 – 1.10×STR – 0.65PctEL • Che succede al coefficiente di STR? • Perchè? (Nota: corr(STR, PctEL) = 0.19) 28 Multiple regression reg testscr str pctel, robust; Regression with robust standard errors Number of obs F( 2, 417) Prob > F R-squared Root MSE = = = = = 420 223.82 0.0000 0.4264 14.464 -----------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------str | -1.101296 .4328472 -2.54 0.011 -1.95213 -.2504616 pctel | -.6497768 .0310318 -20.94 0.000 -.710775 -.5887786 _cons | 686.0322 8.728224 78.60 0.000 668.8754 703.189 ------------------------------------------------------------------------------ V̂oti = 686.0 – 1.10×STR – 0.65PctEL 29 Misure di bontà della regressione Attuale = predetto + residuo: Yi = Yˆi + uˆi SER = deviation standard di uˆi (con correzione per g.l.) R2 = frazione della varianza di Y spiegata da X R 2 = “aggiustato R2” = R2 con correzione per g.l; R 2 < R2 30 (1) V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6 (2) V̂oti = 686.0 – 1.10×STR – 0.65PctEL, R2 = .426, R 2 = .424, SER = 14.5 31 RICHIAMI DI ALGEBRA DELLE MATRICI Definizioni di vettori e matrici Vettore: Colonna di numeri di dimensione (nx1) (vettore colonna) oppure riga di numeri (1x n) (vettore riga) , j=1,..,n b= b1 b2 M bn c= (c 1 L L c n ) Matrice: Tabella rettangolare di numeri di dimensione (nxm) indicato con a11 K a1m M O M A= a L a nm n1 Vettori grassetto. e matrici vengono espressi in Trasposta di una matrice: La matrice trasposta di A si indica con A′ ed è una matrice (mxn) le cui righe sono le colonne di A e viceversa a11 K an1 M O M A′= a L a nm 1m La trasposta del vettore b è b′= ( b 1 L L b n ) Matrice quadrata: Matrice di dimensione (nxn) (numero di righe è uguale al numero di colonne) Matrice simmetrica: Matrice quadrata tale per cui A=A′ Esempio A= 2 2 3 3 4 3 2 1 4 A è una matrice simmetrica. Matrice diagonale: Matrice quadrata che ha gli elementi esterni alla diagonale pari a zero D= a1 1 M 0 K O L 0 M a n k Una matrice diagonale è simmetrica? Matrice identità: Matrice diagonale con elementi sulla diagonale principale pari ad uno I= 1 K M O 0 L 0 M 1 Operazioni su matrici Somma e sottrazione: La somma (sottrazione) di due matrici A e B entrambe di dimensione (nxk) con elementi generici rispettivamente a ij e è la matrice A+B (A-B) il cui elemento bij tipico è cij= a ij + b ij oppure cij = ( a ij − b Esempio A= 1 3 4 2 4 5 3 2 C=A+B= 0 1 1 0 B= 1 5 7 3 7 7 4 2 0 2 2 0 0 2 3 1 3 2 1 0 0 1 1 0 C=A-B= 1 1 1 1 1 3 2 2 0 0 0 0 ij ). Prodotto tra matrici Sia A una matrice (nxk) e B una matrice (kxm) . Il prodotto tra A e B produce una matrice C=AB di dimensione (nxm) con elemento generico. c ij = a i 1b1 j + a i 2 b2 j + ... + a ik bkj E′ importante notare che se AB esiste potrebbe dimensioni non esistere delle due BA perché matrici le non corrispondono e nel caso in cui i due prodotti sono eseguibili (solo nel caso in cui A ha dimensione nxk e B kxn) si verifica che AB ≠ BA. Esempio A = (4 x 3); B = (3 x 3) A= 1 3 4 4 3 2 5 2 0 1 1 0 B= 0 3 3 2 1 2 0 1 1 => c11= a11 x b11 + a12 x b21 + a13 x b31 = 1 x 0 + 3 x3+0x3=9 c12 = a11 x b12 + a12 x b22 + a13 x b32 = 1 x 2 + 3 x1+0x2=5 c13 = a11 x b13 + a12 x b23 + a13 x b33 = 1 x 0 + 3 x1+0x1=3 C=AB = 9 9 18 6 Proprietà 5 12 15 8 3 3 6 2 a) A+B=B+A b) (A+B)+C=A+(B+C) c) (A+B)′=A′+B′ d) Se A ha dimensione n x m allora AI=A e IA=A e) A(BC)=(AB)C f) (A+B)C=AB+BC g) (AB)′=B′A′ Matrice inversa Sia A una matrice quadrata. La matrice inversa (se esiste) si indica nel seguente modo A-1 ed è tale che AA-1 = I Proprietà (A-1)' = (A')−1 ( AB )−1 = B −1A −1 (se A e B sono invertibili) Una matrice quadrata A ammette inversa se e solo se il determinante di A det A 0 . A − 1 = ~ A 11 A ~M A 1 n A L M L ~ A n1 A ~M A nn A a11 a12 ~ det A = = a11a22 − a12a12 A e ij sono a21 a22 dove i complementi ~ A ij = ( − 1 ) i + j (det min algebrici di A, A ij ) Esempio A = 3 1 2 4 dimostrare che AA-1 = I A−1 = 101 −42 −1 3 provate a Matrice singolare Una matrice quadrata si dice singolare se il suo determinante è nullo, una matrice singolare non è invertibile. Matrice idempotente Una matrice simmetrica P è idempotente se PP = P. Una matrice interessante in econometria è la matrice P = A( A ' A)−1 A ' . Come si può verificare P è una matrice idempotente. Definizioni Una matrice quadrata A è definita positiva se x′Ax >0 per ogni vettore x diverso dal vettore nullo. Una matrice definita positiva è sempre invertibile. Una matrice quadrata A è semidefinita positiva se x′Ax >=0 per ogni vettore x diverso dal vettore nullo. Rango di una matrice Il rango colonna di una matrice A è il numero di colonne linearmente indipendenti Se il rango di A è pari al numero di colonne allora la matrice si dice a rango pieno di colonna. Lo stesso avviene per il rango riga di una matrice. Esempio Qual è il rango della matrice A? A = 1 2 2 6 3 2 3 8 4 1 3 5 8 7 9 Operazione di derivazione delle matrici Siano c e x due vettori colonna di dimensione (nx1). c′x è uno scalare e la derivata rispetto a xè ∂c ' x =c ∂x più in generale se A è una matrice ∂Ax = A' ∂x Un risultato interessante nel caso in cui A è simmetrica è: ∂x ' Ax = 2 Ax ∂x nel caso in cui invece A non è simmetrica abbiamo: ∂x ' Ax = ( A + A ') x ∂x 1 Ordinary Least Square - OLS Il modello di regressione lineare e’ usato per studiare la relazione fra una variabile dipendente e piu’ variabili indipendenti. La forma generica del modello di regressione lineare e’: yn = f (xn1, xn2, ...xnk ) dove y e’ la variabile dipendente, x1, x2, ...xk sono le variabili dipendenti, esplicative o regressori e N e’ la grandezza del campione. Esempio 1: Funzione del consumo per l’Italia dal 1970 al 2006 (time-series), k = 2 consumo1970 = f (reddito disp1970, ricchezza1970) consumo1971 = f (reddito disp1971, ricchezza1971) .. consumo2006 = f (reddito disp2006, ricchezza2006) yt = f (xt1, xt2) Obiettivo? Obiettivo studiare la relazione fra salari e caratterisctiche individuali in un campione di N individui. Esempio 2: Equazione del salario per un campione di 3294 individui nel 1987 (cross-sectio), k = 2 w1 = f (genere1, istruzione1) , i = 1 w2 = f (genere2, istruzione2) , i = 2 .. wN = f (genereN , istruzioneN ) , i = N yi = f (xi1, xi2) Indichiamo con y il livello dei salari e x1, x2, ...xk sono K caratteristiche individuali di ciascun lavoratore i. Nota: di solito ci si riferisce a K − 1 caratteristiche perche’ si considera sempre una costante. • Domanda 1): Esiste una relazione lineare fra y e x1, x2, ...xk ? • Domanda 2): una combinazione lineare di x1, x2, ...xk e di una costante fornisce una buona approssimazione di y ? Consideriamo una qualsiasi combinazione lineare che includa una costante (β̃ 1 × 1) + (β̃ 2 × x2), ... + (β̃ k × xk ) dove β̃ 1 β̃ 2, ...β̃ k sono i coefficienti (coefficienti angolari) da scegliere, 1 e’ la costante xk sono le variabili . La differenza fra un valore osservato yi (salario di un individuo i) e la sua approssimazione lineare e’ data da yi − β̃ 1xi1 + β̃ 2xi2, ... + β̃ k xik APPENDICE A per la derivazione In forma vettoriale - in grassetto! x′i (1×k) ′ β̃ (k×1) = = 1 xi2 · · · xik β̃ 1 β̃ 2 · · · β̃ k ′ ′ ; ; (1) possiamo scrivere la (1) come yi (1×1)!! − x′i β̃ (1×k)(k×1) Approccio Ordinary Least Squares: Ci prefiggiamo di scegliere i valori di β̃ in modo da minimizzare queste differenze. Scegliamo il valore di β̃ minimizzando la funzione obiettivo S(β̃) = N i=1 2 ′ yi − xiβ̃ (perche’ al quadrato?) e otteniamo b = N i=1 −1 xix′i xiyi la combinazione lineare delle xi cosi ottenuta e’ data da ŷi = x′ib che costituisce la migliore approssimazione lineare di y ottenibile da xi1, xi2, ...xik Fino ad ora abbiamo solo utilizzato delle nozioni algebriche. L’unica assunzione che dobbiamo fare e’ che la matrice (K × K) infatti N i=1 N xix′i i=1 xix′i sia una matrice invertibile −1 N ′ b = xixi xiyi i=1 i=1 N invertibile ⇒ Ipotesi di assenza di multi- collinearita’ perfetta : Nessuna xi e’ superflua in quanto combinazione lineare esatta di altre variabili esplicative (da approfondire in seguito) Se definiamo ei i residui della regressione come ei = yi − ŷi = yi − x′ib S(b) = N i=1 (ei)2 Somma dei quadrati dei residui y = = y1 y2 .. yN x′1 x′2 .. x′N ; X = (N×K) 1 x12 · · · x1k 1 x22 · · · x2k .. .. .. 1 xN2 · · · xN k = x1 x2 · · · xk S(β̃) = (y − Xβ̃)′(y − Xβ̃) ′ ′ ′ ′ ′ = y y − 2β̃ X y + β̃ X Xβ̃ ∂S(β̃) = −2(X′y − X′Xβ̃ ) = 0 ∂ β̃ b = −1 ′ XX X′y ;β = vedi regole di derivazione Scrivendo il modello come y = X b + e (N×1) (N×K)(K×1) (N×1) possiamo ottenere i seguenti risultati 1. X′e = 0 dalla (3) X′(y − Xb) = 0 β1 β2 .. βk (2) (3) −1 ′ ′ XX X 2. ŷ = PX y dove PX = X e’ chiamata matrice di proiezione, tale che PX PX = PX . In termini geometrici e’ l’esatto equivalente del trovare la migliore approssimazione linearedi y usando le colonne di X (i regressori) 3. e = MX y dove (I − PX ) = MX da e = y − Xb = y − ŷ = y − PX y =(I − PX )y = MX y Nota che valgono i seguenti risultati: MX MX = MX ; PX MX = 0 Nota: assenza di multicollinearita’ ⇒ X rango pieno di colonna ne parliamo in seguito 2 Il modello di regressione lineare Modello statistico yi = β 1 + β 2xi2 + ... + β k xik + εi yi = x′iβ + εi, yie xi sono variabili osservabli mentre εi non e’ osservata e ed e’ chiamata termine di errore o di disturbo. β sono parametri ignoti relativi alla popolazione. I dati consistono in un campione N di osservazioni. Il campione e’ una particolare realizzazione fra tutti i possibili campioni di numerosita’ N che avrebbero potuto essere estratti dalla medesima popolazione ⇒ yi, xi, εi sono v.c. y = X β + ε (N×1) (N×K)(K×1) (N×1) Ipotizziamo tuttavia che le variabili xi sono considerate fisse e non stocastiche =⇒ un nuovo campione presentera’ la stessa X e nuovi valori per εi. Dati non sperimentali. Ipotesi fondamentale E [εi|xi] = 0 ⇒ le variabili xi sono esogene ⇒ E [yi|xi] = x′iβ Interpretazione statistica: i coefficienti β misurano il modo in cui il valore atteso di yi varia al variare di xik mantenendo costanti gli altri elementi di xi Interpretazione economica: i coefficienti β misurano le variazioni di yi causate da una variazione in xik mantenendo costanti gli altri elementi di xi. In questo caso E [εi|xi] = 0 diventa piu’ difficile da giustificare a causa di variabili non osservate contenute in εi. Il valore dei coefficienti β puo’ essere ricavato tramite uno stimatore (dato che il campione puo’ variare lo stimatore e’ un vettore di v.c. ). Il risultato di tale aplicazione e’ detto stima (stima e’ un vettore di numeri) Uno degli stimatori piu’ comuni in econometria e’ lo stimatore OLS 3 Proprieta’ dello stimatore OLS in campioni finiti Quali sono le proprietà dello stomatore OLS? Deve essere corretto e con una varianza piccola. Sotto quali condizioni ciò accade? 3.1 Ipotesi di Gauss-Markov 1. E [εi|Xi] = 0, ∀i la distribuzione dell’errore condizionata a X ha media zero. In media la retta di regressione e’ corretta. 2. {ε1, ε2, ...εn} e {x1, x2, ...xn} sono indipendenti 3. V (εi) = σ2, i = 1, ...N omoschedasticita’ Esempio di eteroschedasticita’ Omoschedastico o Eteroschedastico? 4. Cov(εi, εj ) = 0, i, j = 1, ...N i = j assenza di autocorrelazione 1 + 3 + 4 ⇒ i termini di errore rappresentano estrazioni incorrelate di una distribuzione di valore atteso nullo e varianza costante σ 2 E [ε] = 0 e V (ε) = σ2IN Matrice di varianza covarianza e’ diagonale con σ2 sulla diagonale principale E [(εi − E [εi]) (εi − E [εi])] ′ = E (ε − E [ε]) (ε − E [ε]) = E ε = (N×1) ε ε′ (N×1)(1×N) = ε1 ε2 ; .. εN ε1ε1 ε2ε1 .. εN ε1 ε1ε2 · · · ε2ε2 ... εε′ ε1εN εN εN E = = ε1ε1 ε1ε2 · · · ε1εN ε2ε1 ε2ε2 .. ... εN ε1 εN εN 2 ε1 ε1ε2 · · · ε1εN 2 ε2ε1 ε2 E . . . . . 2 εN εN ε1 var(ε1) cov(ε1ε2) · · · cov(ε ε ) var(ε2) 2 1 .. ... = cov(εN ε1) σ2 ··· 0 0 σ2 .. ... 0 σ2 cov(ε1εN ) var(εN ) = σ 2I N 2 ⇒ X e ε sono indipendenti ⇒ E [ε|X] = E [ε] = 0 e V (ε|X) = V (ε) = σ 2IN . X non fornisce informazioni sui valori attesi di ε e le loro (co)varianze. questi risultati possono essere derivati condizionatamente a xi 3.2 Proprieta’ dello stimatore OLS 1. Corretto (Media, Valore Atteso) ′ −1 E(b) = E (X X) poiche’ y = Xβ + ε ′ −1 = E (X X) X′y X′ (Xβ + ε) poiche’ X e’ non stocastico = (X′X)−1 = β ′ XX β + (X′X)−1 ′ X E(ε) Intuizione: se assumiamo che e’ possibile ripetere il campionamento ci aspettiamo che in media lo stimatore sia pari al valore vero 2. Varianza V (b) = E(b − E(b))(b − E(b))′ (K×1) = (1×K) E(b − β )(b − β)′ dato che ′ −1 ′ −1 ′ ′ = (X X) X y = (X X) X (Xβ + ε) ′ −1 ′ ′ − 1 ′ = (X X) X Xβ + (X X) X ε b = β + (X′X)−1X′ε b − β = (X′X)−1X′ε allora = E(b−β )(b−β)′ ′ −1 = E (X X) Se X′εε′X(X′X)−1 E [εi] = 0, ∀i E ′ εε = σ2I, X sono deterministiche abbiamo V (b) = (X′X)−1X′σ2I = σ2(X′X)−1 N X(X′X)−1 3 Teorema di Gauss-Markov: Si puo’ dimostrare che lo stimatore OLS e’ il migliore (piu’ efficiente) nella classe degli stimatori lineari corretti (Best Unbiased Linear Estimator, BLUE) Se σ2 non e’ nota e deve essere stimata (vedi stima di varianza campionaria) N 1 s2 = e2i =⇒ V (b) = s2(X′X)−1 N − K i=1 V (bk ) = s2ckk dove ckk è quell’ elemento della matrice (X′X)−1 che si riferisce al coefficiente generico k 4 ε ∼ N(0, σ2), =⇒ dato che b e’ una combinazione lineare di ε si ha b ∼ N(β , σ2(X′X)−1) e bk ∼ N(β k , σ2ckk ) Avendo ottenuto la distribuzione campionaria dello stimatore OLS possiamo procedere con test d’ipotesi e intervallo di confidenza utilizzando le statistiche t e F. 3.3 Proprieta’ asintotiche dello stimatore 1. Consistenza p lim b = β al crescere di N la probabilita’ che lo stimatore si discosti dal valore vero β diventa sempre piu’ piccola. Condizione minima affinche’ lo stimatore possa essere utile al nostro scopo. Si verifica sotto ipotesi piu’ deboli di quelle considerate fin’ora. 2. Normalita’ asintotica √ ′ −1 2 N (b − β) = N 0, σ (X X) √ N misura la velocita’ di convergenza. Per N → ∞, (b − β) ha una distribuzione che con tutta la massa di probabilita’ si concentra sullo zero a b∼N β, s2(X′X)−1 la qualita’ dell’approssimazione migliora al crescere di N. Risultati ottenuti sfruttando le ipotesi di Gauss-Markov combinate con l’ipotesi di errori normali ⇒ tutti i risultati ottenuti con le statistiche t e F sono validi anche se i termini di errore non hanno una distribuzione normale. 3.4 Analisi della varianza - digressione Di quanto della variabile y e’ spiegata dal modello di regressione lineare? yi = ŷi + ei yi = x′ib + ei T SS Total Sum of Squares e’ una misura della variabilità del campione osservata ESS Explained Sum of Square = somma dei quadrati spiegata dalla regressione RSS Residual Sum of Square = somma dei quadrati dei residui N T SS = ESS = = = N (yi − ȳ)2 i=1 N − 2 (ŷi − ŷ) + RSS i=1 (yi − ŷi)2 i=1 V (yi) = V (ŷi) + V (ei) Intuitivamente piu’ e’ alto ESS rispetto a RSS tanto migliore e’ la "spiegazione" della variabilita’ di y fornita dalla regressione. Misure di “bonta”’ del modello ESS RSS 2 R = =1− T SS T SS R2 e’ il coefficiente di determinazione 0 ≤ R2 ≤ 1 ossia la proporzione della varianza di y dovuta alla variazione dei regressori x. Nota che se si aggiungono variabili al modello l’R2 presumibilmente aumenta fino a raggiungere 1. Una misura piu’ consona e’ allora l’R2 aggiustato R̄2 N −1 2 =1− 1−R N −K R̄2 aumenta solo se il contributo della nuova variabile al “fit” della regressione piu’ che compensa a correzione per la perdita dei gradi di lierta’, N − K. R2 misura la qualita’ della approssimazione lineare