Regressione lineare con un singolo regressore

Regressione lineare con un singolo
regressore
Eduardo Rossi2
2
Università di Pavia (Italy)
Marzo 2013
Rossi
Regressione lineare semplice
Econometria - 2013
1 / 45
Outline
1
Introduzione
2
Lo stimatore OLS
3
Esempio
4
Assunzioni OLS
5
Distribuzione campionaria degli stimatori OLS
6
Media e varianza campionaria stimatori OLS
Rossi
Regressione lineare semplice
Econometria - 2013
2 / 45
Introduzione
Capitolo 4 - Regressione lineare con un singolo
regressore
Il modello di regressione lineare semplice
Lo stimatore dei minimi quadrati ordinari (OLS) e la retta di regressione
campionaria
Misure di bontà della regressione campionaria
Le assunzioni dei minimi quadrati
La distribuzione campionaria dello stimatore OLS
Rossi
Regressione lineare semplice
Econometria - 2013
3 / 45
Introduzione
Regressione lineare con un singolo regressore
La regressione lineare consente di stimare la pendenza della retta di
regressione
La pendenza della retta di regressione è l’effetto atteso su Y di una
variazione unitaria in X.
Il nostro scopo ultimo è quello di stimare l’effetto causale su Y di una
variazione unitaria in X - ma per ora ci limitiamo a considerare il
problema dell’adattamento di una retta ai dati su due variabili Y e X.
Rossi
Regressione lineare semplice
Econometria - 2013
4 / 45
Introduzione
Regressione lineare con un singolo regressore
Il problema dell’inferenza statistica per la regressione lineare è, a livello
generale, identico a quello della stima della media o delle differenze tra medie.
L’inferenza statistica, o econometrica, sulla pendenza comporta:
1
Stima:
Come tracciare una retta attraverso i dati per stimare la pendenza della
regressione?
Risposta: minimi quadrati ordinari (OLS).
Quali sono vantaggi e svantaggi dei minimi quadrati ordinari?
2
Verifica di ipotesi:
Come verificare se la pendenza è zero?
3
Intervalli di confidenza:
Come costruire un intervallo di confidenza per la pendenza?
Rossi
Regressione lineare semplice
Econometria - 2013
5 / 45
Introduzione
Il modello di regressione lineare
La retta di regressione
TestScore = β0 + β1 STR
Score
β1 = pendenza della retta di regressione = ∆Test
= variazione nel
∆STR
punteggio nei test per una variazione unitaria in STR
Perchè β0 e β1 sono parametri della “popolazione”?
Vorremmo conoscere il valore di β1 .
Non conosciamo β1 , perchè dobbiamo stimarlo utilizzando i dati.
Rossi
Regressione lineare semplice
Econometria - 2013
6 / 45
Introduzione
Il modello di regressione lineare
Yi = β0 + β1 Xi + ui
i = 1, 2, . . . , n
Abbiamo n osservazioni,(Yi , Xi ), i = 1, 2, . . . , n
X è la variabile indipendente o regressore
Y è la variabile dipendente
β0 = intercetta
β1 = pendenza
ui = errore della regressione
L’errore di regressione è costituito da fattori omessi. In generale questi
fattori omessi sono altri fattori, diversi dalla variabile X, che influenzano
Y. L’errore di regressione include anche l’errore nella misura di Y.
Rossi
Regressione lineare semplice
Econometria - 2013
7 / 45
Introduzione
Il modello di regressione lineare: esempio
Osservazioni su Y e X (n = 7); la retta di regressione; l’errore di regressione (il
termine d’errore):
Rossi
Regressione lineare semplice
Econometria - 2013
8 / 45
Lo stimatore OLS
Lo stimatore OLS
Come possiamo stimare β0 e β1 dai dati?
Si ricordi che lo stimatore OLS di µY : Ȳ è
min
m
m
X
(Yi − m)2
i=1
Per analogia, ci concentreremo sullo stimatore dei minimi quadrati (OLS)
”ordinary least squares” dei parametri ignoti β0 e β1 . Lo stimatore OLS è
dato da
m
X
min
(Yi − β0 − β1 Xi )2
β0 ,β1
Rossi
i=1
Regressione lineare semplice
Econometria - 2013
9 / 45
Lo stimatore OLS
Meccanismo dei minimi quadrati ordinari
La retta di regressione: TestScore = β0 + β1 STR
β1 = ??
Rossi
Regressione lineare semplice
Econometria - 2013
10 / 45
Lo stimatore OLS
Lo stimatore OLS
Lo stimatore OLS minimizza la differenza quadratica media tra i valori
reali di Yi e la previsione (“valori previsti”) basata sulla retta stimata.
Questo problema di minimizzazione si può risolvere con il calcolo
differenziale (App. 4.2).
Il risultato sono gli stimatori OLS di β0 e β1 .
Rossi
Regressione lineare semplice
Econometria - 2013
11 / 45
Lo stimatore OLS
Dato:
n 2
X
Yi − β0 − β1 Xi
S(β0 , β1 ) =
i=1
Problema:
{β̂0 , β̂1 } = min S(β0 , β1 )
β0 ,β1
n X
∂S(β0 , β1 )
= −2
Yi − β̂0 − β̂1 Xi = 0
∂β0
i=1
n X
∂S(β0 , β1 )
= −2
Yi − β̂0 − β̂1 Xi Xi = 0
∂β1
i=1
nβ̂0 =
n X
Yi − β̂1 Xi
i=1
n
1 X
Yi − β̂1 Xi = Ȳ − β̂1 X̄
β̂0 =
n i=1
Rossi
Regressione lineare semplice
Econometria - 2013
12 / 45
Lo stimatore OLS
n X
Yi − (Ȳ − β̂1 X̄) − β̂1 Xi Xi = 0
i=1
n X
Yi − Ȳ − β̂1 (Xi − X̄) Xi = 0
i=1
n X
n X
Yi − Ȳ Xi − β̂1
Xi − X̄ Xi = 0
i=1
n X
i=1
n hX
i
Yi − Ȳ Xi −
Yi − Ȳ X̄
i=1
− β̂1
i=1
n X
Xi − X̄ Xi + β̂1
β̂1
i=1
Rossi
Xi − X̄
Xi − X̄ X̄ = 0
i=1
i=1
n X
n X
2
=
n X
Yi − Ȳ
Xi − X̄
i=1
Regressione lineare semplice
Econometria - 2013
13 / 45
Lo stimatore OLS
Lo stimatore OLS
Pn
β̂1 =
− X̄)(Yi − Ȳ )
sXY
= 2
2
sX
i (Xi − X̄)
i=1 (Xi
P
β̂0 = Ȳ − β̂1 X̄
Valori previsti
Ŷi = β̂0 + β̂1 Xi
i = 1, 2, . . . , n
Residui:
ûi = Yi − Ŷi = Yi − β̂0 − β̂1 Xi
Rossi
Regressione lineare semplice
Econometria - 2013
14 / 45
Lo stimatore OLS
Residui
ûi = Yi − Ŷi = Yi − β̂0 − β̂1 Xi
= Yi − (Ȳ − β̂1 X̄) − β̂1 Xi
= (Yi − Ȳ ) − β̂1 (Xi − X̄)
ne segue che
X
ûi =
X
X
(Yi − Ȳ ) − β̂1
(Xi − X̄)
i
i
i
=0
Rossi
Regressione lineare semplice
Econometria - 2013
15 / 45
Esempio
Applicazione ai dati dei punteggi nei test della
California
Punteggio nei test - Dimensioni delle classi
β̂1 = Pendenza stimata = -2,28
β̂0 = Intercetta stimata = 698,9
\ = 698, 9 − 2, 28 STR
[
Retta di regressione stimata: TestScore
Rossi
Regressione lineare semplice
Econometria - 2013
16 / 45
Esempio
Interpretazione delle stime di pendenza e intercetta
I distretti con uno studente in più per insegnante in media ottengono
punteggi nei test inferiori di 2,28 punti.
Cioè
∆TestScore
∆STR
= −2, 28.
L’intercetta (letteralmente) significa che, secondo questa retta stimata, i
distretti con zero studenti per insegnante otterrebbero un punteggio nei
test stimato in 698,9. Ma questa interpretazione dell’intercetta non ha
senso - estrapola la linea al di fuori dell’intervallo dei dati - in questo
caso, l’intercetta non ha significato dal punto di vista economico.
Rossi
Regressione lineare semplice
Econometria - 2013
17 / 45
Esempio
Valori previsti e residui
Uno dei distretti nella banca dati è Antelope, CA, con STR = 19,33 e
TestScore = 657,8
Valore previsto:
ŶAntelope = 698, 9 − 2, 28 × 19, 33 = 654, 8
residuo:
ûAntelope = 657, 8 − 654, 8
Rossi
Regressione lineare semplice
Econometria - 2013
18 / 45
Esempio
Misure di bontà dell’adattamento
Due statistiche di regressione forniscono misure complementari della
bonta dell’adattamento della regressione ai dati:
L’R2 della regressione misura la frazione della varianza di Y spiegata
da X; è priva di unità e può variare tra zero (nessun adattamento) e uno
(perfetto adattamento);
L’errore standard della regressione (SER) misura la dimensione di
un tipico residuo di regressione nelle unità di Y.
Rossi
Regressione lineare semplice
Econometria - 2013
19 / 45
Esempio
Risultati della regressione
Dato che
ui = Yi − β̂0 − β̂1 Xi
X
ûi = 0
i
Yi = Ŷi + ûi
X
1
1X
Yi =
Ŷi
n i
n i
¯
Ȳ = Ŷ
Rossi
Regressione lineare semplice
Econometria - 2013
20 / 45
Esempio
Risultati della regressione
Inoltre, i residui ûi sono ortogonali a Xi
X
Xi ûi = Xi (Yi − β̂0 − β̂1 Xi )
X
Xi ûi =
(Yi − β̂0 − β̂1 Xi )Xi
i
i
=
X
(Yi − (Ȳ − β̂1 X̄) − β̂1 Xi )Xi
=
X
i
(Yi − Ȳ )Xi − β̂1
X
(Xi − X̄)Xi
i
con
i
Pn
(Yi − Ȳ )Xi
β̂1 = Pi=1
(X
i − X̄)Xi
i
X
i
Pn
X
(Yi − Ȳ )Xi X
Xi ûi =
(Yi − Ȳ )Xi − Pi=1
(Xi − X̄)Xi = 0
i (Xi − X̄)Xi
i
i
Rossi
Regressione lineare semplice
Econometria - 2013
21 / 45
Esempio
Risultati della regressione
TSS = total sum of squares
SSR = sum of squared residuals
ESS = Explained sum of squares
T SS =
X
=
X
(Yi − Ȳi )2 =
X
i
(Yi − Ŷi + Ŷi − Ȳi )2
i
2
(Yi − Ŷi ) +
X
i
(Ŷi − Ȳi )2 + 2
i
= SSR + ESS + 2
X
(Yi − Ŷi )(Ŷi − Ȳi )
i
X
ûi Ŷi = SSR + ESS
i
perché
X
i
ûi Ŷi =
X
ûi (β̂0 + β̂1 Xi )
i
= β̂0
X
i
Rossi
ûi + β̂1
X
ûi Xi = 0
i
Regressione lineare semplice
Econometria - 2013
22 / 45
Esempio
L’R2 della regressione
L’R2 è la frazione della varianza campionaria di Yi “spiegata” dalla
regressione.
Yi = Ŷi + ûi = stima OLS + residuo OLS
Var camp.(Y ) = Var camp.(Ŷi ) + Var camp.(ûi )
Somma dei quadrati = SS “spiegata” + SS “residua”
Definizione R2 :
R2 =
P
¯
(Ŷi − Ŷ )2
ESS
= Pi
2
T SS
i (Yi − Ȳ )
R2 = 0 significa ESS = 0
R2 = 1 significa ESS = TSS
0 ≤ R2 ≤ 1
Per la regressione con una singola X, R2 coincide con il quadrato del
coefficiente di correlazione tra X e Y.
Rossi
Regressione lineare semplice
Econometria - 2013
23 / 45
Esempio
L’errore standard della regressione (SER)
Il SER misura la dispersione della distribuzione di u.
È (quasi) la deviazione standard campionaria dei residui OLS:
v
u
n
u 1 X
¯2
SER = t
(ûi − û)
n − 2 i=1
v
u
n
u 1 X
û2
=t
n − 2 i=1 i
La seconda uguaglianza vale perché
n
X
¯= 1
û
ûi = 0
n i=1
Rossi
Regressione lineare semplice
Econometria - 2013
24 / 45
Esempio
L’errore standard della regressione (SER)
Il SER ha le unità di u, che sono le unità di Y
misura la “dimensione” media del residuo OLS (l’“errore” medio della
retta di regressione OLS)
La radice dell’errore quadratico medio (RMSE, Root Mean Squared Error)
è strettamente legata al SER:
v
u n
u1 X
û2
RM SE = t
n i=1 i
Misura la stessa cosa del SER: la differenza sta nel fattore 1/n anzichè
1/(n − 2).
Rossi
Regressione lineare semplice
Econometria - 2013
25 / 45
Esempio
Nota tecnica
Perchè dividere per n − 2 anzichè per n − 1?
v
u
n
u 1 X
SER = t
û2
n − 2 i=1 i
La divisione per n − 2 è una correzione dei gradi di libertà - esattamente
come la divisione per n − 1, con la differenza che per il SER sono stati
stimati due parametri β0 e β1 ), mentre in s2Y ne è stato stimato solo uno
µY .
Quando n è grande non importa se si utilizza n, n − 1 o n − 2, anche se la
formula convenzionale utilizza n − 2 quando c’è un singolo regressore.
Rossi
Regressione lineare semplice
Econometria - 2013
26 / 45
Esempio
Esempio di R2 e SER
R2 = 0, 05
SER = 18, 6
STR spiega soltanto una piccola frazione della variazione nei punteggi nei
test. Ha senso questo? Significa che STR non è una variabile importante?
Rossi
Regressione lineare semplice
Econometria - 2013
27 / 45
Assunzioni OLS
Le assunzioni dei minimi quadrati
Quali sono, precisamente, le proprietà della distribuzione campionaria
dello stimatore OLS? Quando lo stimatore sarà non distorto? Qual è la
sua varianza?
Per rispondere a queste domande dobbiamo fare alcune assunzioni sulla
relazione tra Y e X e su come sono ottenute (lo schema di
campionamento)
Queste assunzioni - sono tre - sono note come assunzioni dei minimi
quadrati.
vedi Paragrafo 4.4.
Rossi
Regressione lineare semplice
Econometria - 2013
28 / 45
Assunzioni OLS
Le assunzioni dei minimi quadrati
Yi = β0 + β1 Xi + ui
i = 1, 2, . . . , n
La distribuzione di ui condizionata a Xi ha media nulla, cioè
E[ui |Xi ] = 0
ui rappresenta l’influenza che altri fattori hanno sulla relazione tra Yi e
Xi . Quando ui > 0, Yi < E[Yi |Xi ]; ui < 0, Yi > E[Yi |Xi ]. L’assunzione
esclude che i fattori in ui siano correlati con Xi .
Questo implica che β̂1 è non distorto.
{Xi , Yi }, i = 1, . . . , n, sono i.i.d.
Questo è vero se {Xi , Yi } sono ottenuti mediante campionamento casuale
Questo fornisce la distribuzione campionaria di e
Gli outlier in X e/o Y sono rari.
Tecnicamente, X e Y hanno momenti quarti finiti.
Gli outlier possono risultare in valori privi di senso di β̂1 .
Rossi
Regressione lineare semplice
Econometria - 2013
29 / 45
Assunzioni OLS
Assunzione dei minimi quadrati n. 1
Per ogni dato valore di Xi , la media di ui è zero
E[ui |Xi ] = 0
Rossi
Regressione lineare semplice
Econometria - 2013
30 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 1
Consideriamo un esperimento controllato casualizzato ideale:
X è assegnato casualmente a persone (studenti assegnati casualmente a
classi di dimensioni diverse; pazienti assegnati casualmente a trattamenti
medici). La casualizzazione è svolta dal computer - senza utilizzare
informazioni sull’individuo.
Poiché X è assegnata casualmente, tutte le altre caratteristiche individuali
- gli aspetti riassunti da ui - sono distribuite indipendentemente da X,
perciò u e X sono indipendenti.
Quindi, in un esperimento controllato casualizzato ideale, E[ui |Xi ] = 0
(cioè vale l’assunzione 1)
In esperimenti reali, o con dati non sperimentali, dovremo riflettere bene
sul fatto che E[ui |Xi = x] = 0 valga o meno.
Rossi
Regressione lineare semplice
Econometria - 2013
31 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 2
{Yi , Xi }, i = 1, 2, . . . , n sono i.i.d.
Questo si verifica automaticamente se l’unità (individuo, distretto) è
campionata mediante campionamento casuale semplice:
Le unità sono scelte dalla stessa popolazione, perciò {Xi , Yi } sono
identicamente distribuite per ogni i = 1, 2, . . . , n.
Le unità sono scelte a caso, perciò i valori di {Xi , Yi } per unità diverse
sono indipendentemente distribuite.
I campionamenti non i.i.d. si incontrano principalmente quando si
registrano dati nel tempo per la stessa unità (dati panel e serie temporali).
Rossi
Regressione lineare semplice
Econometria - 2013
32 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 3
Gli outlier sono rari
E[Y 4 ] < ∞
E[X 8 ] < ∞
Un outlier è un valore estremo di X o Y
A livello tecnico, se X e Y sono limitate, allora hanno momenti quarti
finiti (i punteggi nei test standardizzati soddisfano questa condizione,
come anche STR, reddito familiare, ecc.)
La sostanza di questa assunzione è che un outlier può influenzare
fortemente i risultati, perciò dobbiamo escludere i valori estremi.
Esaminate i dati! Se avete un outlier, si tratta di un refuso? Non
appartiene al dataset? Perchè è un outlier?
Rossi
Regressione lineare semplice
Econometria - 2013
33 / 45
Assunzioni OLS
Lo stimatore OLS può essere sensibile a un outlier
Il punto isolato è un outlier in X o Y?
In pratica, gli outlier sono spesso distorsioni dei dati (problemi nella
codifica o nella registrazione). Talvolta sono osservazioni che non
dovrebbero stare nel dataset.
Rossi
Regressione lineare semplice
Econometria - 2013
34 / 45
Distribuzione campionaria degli stimatori OLS
Distribuzione campionaria degli stimatori OLS
(Paragrafo 4.5)
Lo stimatore OLS è calcolato da un campione di dati. Un campione diverso
porta a un valore diverso di β̂1 . Questa è l’origine della “incertezza
campionaria” di β̂1 . Vogliamo:
quantificare l’incertezza campionaria associata a β̂1
usare β̂1 per verificare ipotesi quali β1 = 0.
costruire un intervallo di confidenza per β1 = 0.
Tutti questi punti richiedono di determinare la distribuzione campionaria
dello stimatore OLS. Due passaggi...
Quadro di riferimento probabilistico per la regressione lineare
Distribuzione dello stimatore OLS
Rossi
Regressione lineare semplice
Econometria - 2013
35 / 45
Distribuzione campionaria degli stimatori OLS
Quadro di riferimento probabilistico per la regressione
lineare
Il quadro di riferimento probabilistico per la regressione lineare è riepilogato
dalle tre assunzioni dei minimi quadrati.
1
Popolazione
Il gruppo di interesse (esempio: tutti i possibili distretti scolastici)
2
Variabili casuali: Y, X
Esempio: TestScore, STR
3
Distribuzione congiunta di Y, X. Assumiamo:
La funzione di regressione è lineare
E[ui |Xi ] = 0 (prima assunzione dei minimi quadrati)
X, Y hanno momenti quarti finiti non nulli (terza assunzione)
4
La raccolta dei dati mediante campionamento casuale semplice
implica:
{Yi , Xi }, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).
Rossi
Regressione lineare semplice
Econometria - 2013
36 / 45
Distribuzione campionaria degli stimatori OLS
Distribuzione campionaria di β̂1
β̂1 ha una distribuzione campionaria.
Qual è E[β̂1 ]?
Se E[β̂1 ] = β1 , allora lo stimatore OLS è non distorto.
Qual è V ar[β̂1 ]? (misura di incertezza campionaria)
Dobbiamo derivare una formula per poter calcolare l’errore standard di .
Qual è la distribuzione di in piccoli campioni?
E’ molto complessa, in generale.
Qual è la distribuzione di β̂1 in grandi campioni?
In grandi campioni, β̂1 ha distribuzione normale.
Rossi
Regressione lineare semplice
Econometria - 2013
37 / 45
Media e varianza campionaria stimatori OLS
Media e varianza della distribuzione campionaria di β̂1
Yi = β0 + β1 Xi + ui
Ȳ = β0 + β1 X̄ + ū
Yi − Ȳ = β1 (Xi − X̄) + (ui − ū)
Pn
β̂1 =
− X̄)(Yi − Ȳ )
2
(X
i − X̄)
i
i=1 (Xi
P
Pn
− X̄)(β1 (Xi − X̄) + (ui − ū))
P
2
i (Xi − X̄)
Pn
Pn
(Xi − X̄)(Xi − X̄)
i=1 (ui − ū)(Xi − X̄)
P
= β1 i=1P
+
2
2
i (Xi − X̄)
i (Xi − X̄)
Pn
(ui − ū)(Xi − X̄)
= β1 + i=1P
2
i (Xi − X̄)
Pn
(ui − ū)(Xi − X̄)
β̂1 − β1 = i=1P
2
i (Xi − X̄)
=
Rossi
i=1 (Xi
Regressione lineare semplice
Econometria - 2013
38 / 45
Media e varianza campionaria stimatori OLS
Media e varianza della distribuzione campionaria di β̂1
Il numeratore:
n
X
(Xi − X̄)(ui − ū) =
i=1
n
n
hX
i
X
(Xi − X̄)ui −
(Xi − X̄) ū
i=1
i=1
n
X
=
(Xi − X̄)ui − 0 ū
i=1
n
X
=
(Xi − X̄)ui
i=1
Segue che
Pn
β̂1 − β1 =
Rossi
− ū)(Xi − X̄)
P
=
2
i (Xi − X̄)
i=1 (ui
Regressione lineare semplice
Pn
i=1 (Xi − X̄)ui
P
2
i (Xi − X̄)
Econometria - 2013
39 / 45
Media e varianza campionaria stimatori OLS
Media di β̂1
Pn
i=1 (Xi − X̄)ui
P
E[β̂1 ] − β1 = E
2
i (Xi − X̄)
per la legge dei valori attesi iterati:
Pn
i=1 (Xi − X̄)ui
P
|X1 , X2 , . . . , Xn
E[β̂1 ] − β1 = E E
2
i (Xi − X̄)
Pn
i=1 (Xi − X̄)E [ui |X1 , X2 , . . . , Xn ]
P
=E
2
i (Xi − X̄)
=0
per l’Assunzione 1, cioè E [ui |X1 , X2 , . . . , Xn ] = E[ui |Xi ] = 0.
β̂1 è non distorto: E[β̂1 ] = β1 .
Rossi
Regressione lineare semplice
Econometria - 2013
40 / 45
Media e varianza campionaria stimatori OLS
Varianza di β̂1
β̂1 − β1 =
Pn
i=1 (Xi − X̄)ui
P
=
2
i (Xi − X̄)
1
i vi
n
n−1 2
n sX
P
dove
vi = (Xi − X̄)ui
Se n è grande
2
s2X ≈ σX
e
n−1
n
≈ 1. Quindi
β̂1 − β1 ≈
1
n
P
i
2
σX
vi
dato E[β̂1 ] = β1
V ar[β̂1 − β1 ] = V ar[β̂1 ]
P V ar n1 i vi
V ar[β̂1 ] ≈
2 )2
(σX
Rossi
Regressione lineare semplice
Econometria - 2013
41 / 45
Media e varianza campionaria stimatori OLS
Varianza di β̂1
"
#
"
#
1X
1X
V ar
vi = V ar
(Xi − X̄)ui
n i
n i
Per l’assunzione 1:
"
E
#
X
i
(Xi − X̄)ui =
X
E (Xi − X̄)ui = 0
i
Per l’assunzione 2:
vi ∼ i.i.d.
Per l’assunzione 3:
V ar (Xi − X̄)ui = E[(Xi − X̄)2 u2i ] = σv2 < ∞
"
#
1X
1
V ar
(Xi − X̄)ui = 2 nσv2 < ∞
n i
n
Rossi
Regressione lineare semplice
Econometria - 2013
42 / 45
Media e varianza campionaria stimatori OLS
Varianza di β̂1
V ar[β̂1 ] ≈=
1
nV
ar [vi ]
1 σv2
=
2 )2
2 )2
(σX
n (σX
E[β̂1 ] = β1 .
V ar[β̂1 ] è inversamente proporzionale a n.
Rossi
Regressione lineare semplice
Econometria - 2013
43 / 45
Media e varianza campionaria stimatori OLS
Distribuzione asintotica di β̂1
v̄ =
1X
vi
n i
v̄ soddisfa le condizioni per l’applicazione dei TLC
v̄
√ → N (0, 1)
σv / n
P
P
1
1
vi
vi
β̂1 − β1 = nn−1 i 2 ≈ n i
V
ar[X
s
i]
X
n
V ar[v̄]
[V ar(Xi )]2
1 V ar[vi ]
=
n [V ar(Xi )]2
V ar[β̂1 ] =
Quindi, per n grande, la distribuzione di β̂1
σv2 β̂1 ≈ N β1 ,
2 )2
n(σX
Rossi
Regressione lineare semplice
Econometria - 2013
44 / 45
Media e varianza campionaria stimatori OLS
Distribuzione asintotica di β̂1
Anche la distribuzione approssimata di β̂0 è gaussiana
V ar[Hi ui ] β̂0 ≈ N β0 ,
n[E(Hi2 )]2
i
h µ
X
Xi
Hi = 1 −
E(Xi2 )
La distrbuzione congiunta di β̂0 e β̂1 è bene approssimata dalla gaussiana
bivariata.
Rossi
Regressione lineare semplice
Econometria - 2013
45 / 45