Regressione lineare con un singolo regressore Eduardo Rossi2 2 Università di Pavia (Italy) Marzo 2013 Rossi Regressione lineare semplice Econometria - 2013 1 / 45 Outline 1 Introduzione 2 Lo stimatore OLS 3 Esempio 4 Assunzioni OLS 5 Distribuzione campionaria degli stimatori OLS 6 Media e varianza campionaria stimatori OLS Rossi Regressione lineare semplice Econometria - 2013 2 / 45 Introduzione Capitolo 4 - Regressione lineare con un singolo regressore Il modello di regressione lineare semplice Lo stimatore dei minimi quadrati ordinari (OLS) e la retta di regressione campionaria Misure di bontà della regressione campionaria Le assunzioni dei minimi quadrati La distribuzione campionaria dello stimatore OLS Rossi Regressione lineare semplice Econometria - 2013 3 / 45 Introduzione Regressione lineare con un singolo regressore La regressione lineare consente di stimare la pendenza della retta di regressione La pendenza della retta di regressione è l’effetto atteso su Y di una variazione unitaria in X. Il nostro scopo ultimo è quello di stimare l’effetto causale su Y di una variazione unitaria in X - ma per ora ci limitiamo a considerare il problema dell’adattamento di una retta ai dati su due variabili Y e X. Rossi Regressione lineare semplice Econometria - 2013 4 / 45 Introduzione Regressione lineare con un singolo regressore Il problema dell’inferenza statistica per la regressione lineare è, a livello generale, identico a quello della stima della media o delle differenze tra medie. L’inferenza statistica, o econometrica, sulla pendenza comporta: 1 Stima: Come tracciare una retta attraverso i dati per stimare la pendenza della regressione? Risposta: minimi quadrati ordinari (OLS). Quali sono vantaggi e svantaggi dei minimi quadrati ordinari? 2 Verifica di ipotesi: Come verificare se la pendenza è zero? 3 Intervalli di confidenza: Come costruire un intervallo di confidenza per la pendenza? Rossi Regressione lineare semplice Econometria - 2013 5 / 45 Introduzione Il modello di regressione lineare La retta di regressione TestScore = β0 + β1 STR Score β1 = pendenza della retta di regressione = ∆Test = variazione nel ∆STR punteggio nei test per una variazione unitaria in STR Perchè β0 e β1 sono parametri della “popolazione”? Vorremmo conoscere il valore di β1 . Non conosciamo β1 , perchè dobbiamo stimarlo utilizzando i dati. Rossi Regressione lineare semplice Econometria - 2013 6 / 45 Introduzione Il modello di regressione lineare Yi = β0 + β1 Xi + ui i = 1, 2, . . . , n Abbiamo n osservazioni,(Yi , Xi ), i = 1, 2, . . . , n X è la variabile indipendente o regressore Y è la variabile dipendente β0 = intercetta β1 = pendenza ui = errore della regressione L’errore di regressione è costituito da fattori omessi. In generale questi fattori omessi sono altri fattori, diversi dalla variabile X, che influenzano Y. L’errore di regressione include anche l’errore nella misura di Y. Rossi Regressione lineare semplice Econometria - 2013 7 / 45 Introduzione Il modello di regressione lineare: esempio Osservazioni su Y e X (n = 7); la retta di regressione; l’errore di regressione (il termine d’errore): Rossi Regressione lineare semplice Econometria - 2013 8 / 45 Lo stimatore OLS Lo stimatore OLS Come possiamo stimare β0 e β1 dai dati? Si ricordi che lo stimatore OLS di µY : Ȳ è min m m X (Yi − m)2 i=1 Per analogia, ci concentreremo sullo stimatore dei minimi quadrati (OLS) ”ordinary least squares” dei parametri ignoti β0 e β1 . Lo stimatore OLS è dato da m X min (Yi − β0 − β1 Xi )2 β0 ,β1 Rossi i=1 Regressione lineare semplice Econometria - 2013 9 / 45 Lo stimatore OLS Meccanismo dei minimi quadrati ordinari La retta di regressione: TestScore = β0 + β1 STR β1 = ?? Rossi Regressione lineare semplice Econometria - 2013 10 / 45 Lo stimatore OLS Lo stimatore OLS Lo stimatore OLS minimizza la differenza quadratica media tra i valori reali di Yi e la previsione (“valori previsti”) basata sulla retta stimata. Questo problema di minimizzazione si può risolvere con il calcolo differenziale (App. 4.2). Il risultato sono gli stimatori OLS di β0 e β1 . Rossi Regressione lineare semplice Econometria - 2013 11 / 45 Lo stimatore OLS Dato: n 2 X Yi − β0 − β1 Xi S(β0 , β1 ) = i=1 Problema: {β̂0 , β̂1 } = min S(β0 , β1 ) β0 ,β1 n X ∂S(β0 , β1 ) = −2 Yi − β̂0 − β̂1 Xi = 0 ∂β0 i=1 n X ∂S(β0 , β1 ) = −2 Yi − β̂0 − β̂1 Xi Xi = 0 ∂β1 i=1 nβ̂0 = n X Yi − β̂1 Xi i=1 n 1 X Yi − β̂1 Xi = Ȳ − β̂1 X̄ β̂0 = n i=1 Rossi Regressione lineare semplice Econometria - 2013 12 / 45 Lo stimatore OLS n X Yi − (Ȳ − β̂1 X̄) − β̂1 Xi Xi = 0 i=1 n X Yi − Ȳ − β̂1 (Xi − X̄) Xi = 0 i=1 n X n X Yi − Ȳ Xi − β̂1 Xi − X̄ Xi = 0 i=1 n X i=1 n hX i Yi − Ȳ Xi − Yi − Ȳ X̄ i=1 − β̂1 i=1 n X Xi − X̄ Xi + β̂1 β̂1 i=1 Rossi Xi − X̄ Xi − X̄ X̄ = 0 i=1 i=1 n X n X 2 = n X Yi − Ȳ Xi − X̄ i=1 Regressione lineare semplice Econometria - 2013 13 / 45 Lo stimatore OLS Lo stimatore OLS Pn β̂1 = − X̄)(Yi − Ȳ ) sXY = 2 2 sX i (Xi − X̄) i=1 (Xi P β̂0 = Ȳ − β̂1 X̄ Valori previsti Ŷi = β̂0 + β̂1 Xi i = 1, 2, . . . , n Residui: ûi = Yi − Ŷi = Yi − β̂0 − β̂1 Xi Rossi Regressione lineare semplice Econometria - 2013 14 / 45 Lo stimatore OLS Residui ûi = Yi − Ŷi = Yi − β̂0 − β̂1 Xi = Yi − (Ȳ − β̂1 X̄) − β̂1 Xi = (Yi − Ȳ ) − β̂1 (Xi − X̄) ne segue che X ûi = X X (Yi − Ȳ ) − β̂1 (Xi − X̄) i i i =0 Rossi Regressione lineare semplice Econometria - 2013 15 / 45 Esempio Applicazione ai dati dei punteggi nei test della California Punteggio nei test - Dimensioni delle classi β̂1 = Pendenza stimata = -2,28 β̂0 = Intercetta stimata = 698,9 \ = 698, 9 − 2, 28 STR [ Retta di regressione stimata: TestScore Rossi Regressione lineare semplice Econometria - 2013 16 / 45 Esempio Interpretazione delle stime di pendenza e intercetta I distretti con uno studente in più per insegnante in media ottengono punteggi nei test inferiori di 2,28 punti. Cioè ∆TestScore ∆STR = −2, 28. L’intercetta (letteralmente) significa che, secondo questa retta stimata, i distretti con zero studenti per insegnante otterrebbero un punteggio nei test stimato in 698,9. Ma questa interpretazione dell’intercetta non ha senso - estrapola la linea al di fuori dell’intervallo dei dati - in questo caso, l’intercetta non ha significato dal punto di vista economico. Rossi Regressione lineare semplice Econometria - 2013 17 / 45 Esempio Valori previsti e residui Uno dei distretti nella banca dati è Antelope, CA, con STR = 19,33 e TestScore = 657,8 Valore previsto: ŶAntelope = 698, 9 − 2, 28 × 19, 33 = 654, 8 residuo: ûAntelope = 657, 8 − 654, 8 Rossi Regressione lineare semplice Econometria - 2013 18 / 45 Esempio Misure di bontà dell’adattamento Due statistiche di regressione forniscono misure complementari della bonta dell’adattamento della regressione ai dati: L’R2 della regressione misura la frazione della varianza di Y spiegata da X; è priva di unità e può variare tra zero (nessun adattamento) e uno (perfetto adattamento); L’errore standard della regressione (SER) misura la dimensione di un tipico residuo di regressione nelle unità di Y. Rossi Regressione lineare semplice Econometria - 2013 19 / 45 Esempio Risultati della regressione Dato che ui = Yi − β̂0 − β̂1 Xi X ûi = 0 i Yi = Ŷi + ûi X 1 1X Yi = Ŷi n i n i ¯ Ȳ = Ŷ Rossi Regressione lineare semplice Econometria - 2013 20 / 45 Esempio Risultati della regressione Inoltre, i residui ûi sono ortogonali a Xi X Xi ûi = Xi (Yi − β̂0 − β̂1 Xi ) X Xi ûi = (Yi − β̂0 − β̂1 Xi )Xi i i = X (Yi − (Ȳ − β̂1 X̄) − β̂1 Xi )Xi = X i (Yi − Ȳ )Xi − β̂1 X (Xi − X̄)Xi i con i Pn (Yi − Ȳ )Xi β̂1 = Pi=1 (X i − X̄)Xi i X i Pn X (Yi − Ȳ )Xi X Xi ûi = (Yi − Ȳ )Xi − Pi=1 (Xi − X̄)Xi = 0 i (Xi − X̄)Xi i i Rossi Regressione lineare semplice Econometria - 2013 21 / 45 Esempio Risultati della regressione TSS = total sum of squares SSR = sum of squared residuals ESS = Explained sum of squares T SS = X = X (Yi − Ȳi )2 = X i (Yi − Ŷi + Ŷi − Ȳi )2 i 2 (Yi − Ŷi ) + X i (Ŷi − Ȳi )2 + 2 i = SSR + ESS + 2 X (Yi − Ŷi )(Ŷi − Ȳi ) i X ûi Ŷi = SSR + ESS i perché X i ûi Ŷi = X ûi (β̂0 + β̂1 Xi ) i = β̂0 X i Rossi ûi + β̂1 X ûi Xi = 0 i Regressione lineare semplice Econometria - 2013 22 / 45 Esempio L’R2 della regressione L’R2 è la frazione della varianza campionaria di Yi “spiegata” dalla regressione. Yi = Ŷi + ûi = stima OLS + residuo OLS Var camp.(Y ) = Var camp.(Ŷi ) + Var camp.(ûi ) Somma dei quadrati = SS “spiegata” + SS “residua” Definizione R2 : R2 = P ¯ (Ŷi − Ŷ )2 ESS = Pi 2 T SS i (Yi − Ȳ ) R2 = 0 significa ESS = 0 R2 = 1 significa ESS = TSS 0 ≤ R2 ≤ 1 Per la regressione con una singola X, R2 coincide con il quadrato del coefficiente di correlazione tra X e Y. Rossi Regressione lineare semplice Econometria - 2013 23 / 45 Esempio L’errore standard della regressione (SER) Il SER misura la dispersione della distribuzione di u. È (quasi) la deviazione standard campionaria dei residui OLS: v u n u 1 X ¯2 SER = t (ûi − û) n − 2 i=1 v u n u 1 X û2 =t n − 2 i=1 i La seconda uguaglianza vale perché n X ¯= 1 û ûi = 0 n i=1 Rossi Regressione lineare semplice Econometria - 2013 24 / 45 Esempio L’errore standard della regressione (SER) Il SER ha le unità di u, che sono le unità di Y misura la “dimensione” media del residuo OLS (l’“errore” medio della retta di regressione OLS) La radice dell’errore quadratico medio (RMSE, Root Mean Squared Error) è strettamente legata al SER: v u n u1 X û2 RM SE = t n i=1 i Misura la stessa cosa del SER: la differenza sta nel fattore 1/n anzichè 1/(n − 2). Rossi Regressione lineare semplice Econometria - 2013 25 / 45 Esempio Nota tecnica Perchè dividere per n − 2 anzichè per n − 1? v u n u 1 X SER = t û2 n − 2 i=1 i La divisione per n − 2 è una correzione dei gradi di libertà - esattamente come la divisione per n − 1, con la differenza che per il SER sono stati stimati due parametri β0 e β1 ), mentre in s2Y ne è stato stimato solo uno µY . Quando n è grande non importa se si utilizza n, n − 1 o n − 2, anche se la formula convenzionale utilizza n − 2 quando c’è un singolo regressore. Rossi Regressione lineare semplice Econometria - 2013 26 / 45 Esempio Esempio di R2 e SER R2 = 0, 05 SER = 18, 6 STR spiega soltanto una piccola frazione della variazione nei punteggi nei test. Ha senso questo? Significa che STR non è una variabile importante? Rossi Regressione lineare semplice Econometria - 2013 27 / 45 Assunzioni OLS Le assunzioni dei minimi quadrati Quali sono, precisamente, le proprietà della distribuzione campionaria dello stimatore OLS? Quando lo stimatore sarà non distorto? Qual è la sua varianza? Per rispondere a queste domande dobbiamo fare alcune assunzioni sulla relazione tra Y e X e su come sono ottenute (lo schema di campionamento) Queste assunzioni - sono tre - sono note come assunzioni dei minimi quadrati. vedi Paragrafo 4.4. Rossi Regressione lineare semplice Econometria - 2013 28 / 45 Assunzioni OLS Le assunzioni dei minimi quadrati Yi = β0 + β1 Xi + ui i = 1, 2, . . . , n La distribuzione di ui condizionata a Xi ha media nulla, cioè E[ui |Xi ] = 0 ui rappresenta l’influenza che altri fattori hanno sulla relazione tra Yi e Xi . Quando ui > 0, Yi < E[Yi |Xi ]; ui < 0, Yi > E[Yi |Xi ]. L’assunzione esclude che i fattori in ui siano correlati con Xi . Questo implica che β̂1 è non distorto. {Xi , Yi }, i = 1, . . . , n, sono i.i.d. Questo è vero se {Xi , Yi } sono ottenuti mediante campionamento casuale Questo fornisce la distribuzione campionaria di e Gli outlier in X e/o Y sono rari. Tecnicamente, X e Y hanno momenti quarti finiti. Gli outlier possono risultare in valori privi di senso di β̂1 . Rossi Regressione lineare semplice Econometria - 2013 29 / 45 Assunzioni OLS Assunzione dei minimi quadrati n. 1 Per ogni dato valore di Xi , la media di ui è zero E[ui |Xi ] = 0 Rossi Regressione lineare semplice Econometria - 2013 30 / 45 Assunzioni OLS Minimi quadrati, Assunzione 1 Consideriamo un esperimento controllato casualizzato ideale: X è assegnato casualmente a persone (studenti assegnati casualmente a classi di dimensioni diverse; pazienti assegnati casualmente a trattamenti medici). La casualizzazione è svolta dal computer - senza utilizzare informazioni sull’individuo. Poiché X è assegnata casualmente, tutte le altre caratteristiche individuali - gli aspetti riassunti da ui - sono distribuite indipendentemente da X, perciò u e X sono indipendenti. Quindi, in un esperimento controllato casualizzato ideale, E[ui |Xi ] = 0 (cioè vale l’assunzione 1) In esperimenti reali, o con dati non sperimentali, dovremo riflettere bene sul fatto che E[ui |Xi = x] = 0 valga o meno. Rossi Regressione lineare semplice Econometria - 2013 31 / 45 Assunzioni OLS Minimi quadrati, Assunzione 2 {Yi , Xi }, i = 1, 2, . . . , n sono i.i.d. Questo si verifica automaticamente se l’unità (individuo, distretto) è campionata mediante campionamento casuale semplice: Le unità sono scelte dalla stessa popolazione, perciò {Xi , Yi } sono identicamente distribuite per ogni i = 1, 2, . . . , n. Le unità sono scelte a caso, perciò i valori di {Xi , Yi } per unità diverse sono indipendentemente distribuite. I campionamenti non i.i.d. si incontrano principalmente quando si registrano dati nel tempo per la stessa unità (dati panel e serie temporali). Rossi Regressione lineare semplice Econometria - 2013 32 / 45 Assunzioni OLS Minimi quadrati, Assunzione 3 Gli outlier sono rari E[Y 4 ] < ∞ E[X 8 ] < ∞ Un outlier è un valore estremo di X o Y A livello tecnico, se X e Y sono limitate, allora hanno momenti quarti finiti (i punteggi nei test standardizzati soddisfano questa condizione, come anche STR, reddito familiare, ecc.) La sostanza di questa assunzione è che un outlier può influenzare fortemente i risultati, perciò dobbiamo escludere i valori estremi. Esaminate i dati! Se avete un outlier, si tratta di un refuso? Non appartiene al dataset? Perchè è un outlier? Rossi Regressione lineare semplice Econometria - 2013 33 / 45 Assunzioni OLS Lo stimatore OLS può essere sensibile a un outlier Il punto isolato è un outlier in X o Y? In pratica, gli outlier sono spesso distorsioni dei dati (problemi nella codifica o nella registrazione). Talvolta sono osservazioni che non dovrebbero stare nel dataset. Rossi Regressione lineare semplice Econometria - 2013 34 / 45 Distribuzione campionaria degli stimatori OLS Distribuzione campionaria degli stimatori OLS (Paragrafo 4.5) Lo stimatore OLS è calcolato da un campione di dati. Un campione diverso porta a un valore diverso di β̂1 . Questa è l’origine della “incertezza campionaria” di β̂1 . Vogliamo: quantificare l’incertezza campionaria associata a β̂1 usare β̂1 per verificare ipotesi quali β1 = 0. costruire un intervallo di confidenza per β1 = 0. Tutti questi punti richiedono di determinare la distribuzione campionaria dello stimatore OLS. Due passaggi... Quadro di riferimento probabilistico per la regressione lineare Distribuzione dello stimatore OLS Rossi Regressione lineare semplice Econometria - 2013 35 / 45 Distribuzione campionaria degli stimatori OLS Quadro di riferimento probabilistico per la regressione lineare Il quadro di riferimento probabilistico per la regressione lineare è riepilogato dalle tre assunzioni dei minimi quadrati. 1 Popolazione Il gruppo di interesse (esempio: tutti i possibili distretti scolastici) 2 Variabili casuali: Y, X Esempio: TestScore, STR 3 Distribuzione congiunta di Y, X. Assumiamo: La funzione di regressione è lineare E[ui |Xi ] = 0 (prima assunzione dei minimi quadrati) X, Y hanno momenti quarti finiti non nulli (terza assunzione) 4 La raccolta dei dati mediante campionamento casuale semplice implica: {Yi , Xi }, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione). Rossi Regressione lineare semplice Econometria - 2013 36 / 45 Distribuzione campionaria degli stimatori OLS Distribuzione campionaria di β̂1 β̂1 ha una distribuzione campionaria. Qual è E[β̂1 ]? Se E[β̂1 ] = β1 , allora lo stimatore OLS è non distorto. Qual è V ar[β̂1 ]? (misura di incertezza campionaria) Dobbiamo derivare una formula per poter calcolare l’errore standard di . Qual è la distribuzione di in piccoli campioni? E’ molto complessa, in generale. Qual è la distribuzione di β̂1 in grandi campioni? In grandi campioni, β̂1 ha distribuzione normale. Rossi Regressione lineare semplice Econometria - 2013 37 / 45 Media e varianza campionaria stimatori OLS Media e varianza della distribuzione campionaria di β̂1 Yi = β0 + β1 Xi + ui Ȳ = β0 + β1 X̄ + ū Yi − Ȳ = β1 (Xi − X̄) + (ui − ū) Pn β̂1 = − X̄)(Yi − Ȳ ) 2 (X i − X̄) i i=1 (Xi P Pn − X̄)(β1 (Xi − X̄) + (ui − ū)) P 2 i (Xi − X̄) Pn Pn (Xi − X̄)(Xi − X̄) i=1 (ui − ū)(Xi − X̄) P = β1 i=1P + 2 2 i (Xi − X̄) i (Xi − X̄) Pn (ui − ū)(Xi − X̄) = β1 + i=1P 2 i (Xi − X̄) Pn (ui − ū)(Xi − X̄) β̂1 − β1 = i=1P 2 i (Xi − X̄) = Rossi i=1 (Xi Regressione lineare semplice Econometria - 2013 38 / 45 Media e varianza campionaria stimatori OLS Media e varianza della distribuzione campionaria di β̂1 Il numeratore: n X (Xi − X̄)(ui − ū) = i=1 n n hX i X (Xi − X̄)ui − (Xi − X̄) ū i=1 i=1 n X = (Xi − X̄)ui − 0 ū i=1 n X = (Xi − X̄)ui i=1 Segue che Pn β̂1 − β1 = Rossi − ū)(Xi − X̄) P = 2 i (Xi − X̄) i=1 (ui Regressione lineare semplice Pn i=1 (Xi − X̄)ui P 2 i (Xi − X̄) Econometria - 2013 39 / 45 Media e varianza campionaria stimatori OLS Media di β̂1 Pn i=1 (Xi − X̄)ui P E[β̂1 ] − β1 = E 2 i (Xi − X̄) per la legge dei valori attesi iterati: Pn i=1 (Xi − X̄)ui P |X1 , X2 , . . . , Xn E[β̂1 ] − β1 = E E 2 i (Xi − X̄) Pn i=1 (Xi − X̄)E [ui |X1 , X2 , . . . , Xn ] P =E 2 i (Xi − X̄) =0 per l’Assunzione 1, cioè E [ui |X1 , X2 , . . . , Xn ] = E[ui |Xi ] = 0. β̂1 è non distorto: E[β̂1 ] = β1 . Rossi Regressione lineare semplice Econometria - 2013 40 / 45 Media e varianza campionaria stimatori OLS Varianza di β̂1 β̂1 − β1 = Pn i=1 (Xi − X̄)ui P = 2 i (Xi − X̄) 1 i vi n n−1 2 n sX P dove vi = (Xi − X̄)ui Se n è grande 2 s2X ≈ σX e n−1 n ≈ 1. Quindi β̂1 − β1 ≈ 1 n P i 2 σX vi dato E[β̂1 ] = β1 V ar[β̂1 − β1 ] = V ar[β̂1 ] P V ar n1 i vi V ar[β̂1 ] ≈ 2 )2 (σX Rossi Regressione lineare semplice Econometria - 2013 41 / 45 Media e varianza campionaria stimatori OLS Varianza di β̂1 " # " # 1X 1X V ar vi = V ar (Xi − X̄)ui n i n i Per l’assunzione 1: " E # X i (Xi − X̄)ui = X E (Xi − X̄)ui = 0 i Per l’assunzione 2: vi ∼ i.i.d. Per l’assunzione 3: V ar (Xi − X̄)ui = E[(Xi − X̄)2 u2i ] = σv2 < ∞ " # 1X 1 V ar (Xi − X̄)ui = 2 nσv2 < ∞ n i n Rossi Regressione lineare semplice Econometria - 2013 42 / 45 Media e varianza campionaria stimatori OLS Varianza di β̂1 V ar[β̂1 ] ≈= 1 nV ar [vi ] 1 σv2 = 2 )2 2 )2 (σX n (σX E[β̂1 ] = β1 . V ar[β̂1 ] è inversamente proporzionale a n. Rossi Regressione lineare semplice Econometria - 2013 43 / 45 Media e varianza campionaria stimatori OLS Distribuzione asintotica di β̂1 v̄ = 1X vi n i v̄ soddisfa le condizioni per l’applicazione dei TLC v̄ √ → N (0, 1) σv / n P P 1 1 vi vi β̂1 − β1 = nn−1 i 2 ≈ n i V ar[X s i] X n V ar[v̄] [V ar(Xi )]2 1 V ar[vi ] = n [V ar(Xi )]2 V ar[β̂1 ] = Quindi, per n grande, la distribuzione di β̂1 σv2 β̂1 ≈ N β1 , 2 )2 n(σX Rossi Regressione lineare semplice Econometria - 2013 44 / 45 Media e varianza campionaria stimatori OLS Distribuzione asintotica di β̂1 Anche la distribuzione approssimata di β̂0 è gaussiana V ar[Hi ui ] β̂0 ≈ N β0 , n[E(Hi2 )]2 i h µ X Xi Hi = 1 − E(Xi2 ) La distrbuzione congiunta di β̂0 e β̂1 è bene approssimata dalla gaussiana bivariata. Rossi Regressione lineare semplice Econometria - 2013 45 / 45