Regressione lineare con un solo
regressore
La regressione lineare è uno strumento che ci
permette di stimare e di fare inferenza sui
coefficienti incogniti di una retta.
Lo scopo principale è di stimare l’effetto causale
misurato come effetto che l’incremento una unità
di X ha su Y – coefficiente angolare. Per ora,
restringiamo il problema e pensiamo a far passare
una linea retta fra i dati di 2 variabili, Y e X, in cui
X è l’unico regressore.
1
Il problema di inferenza che ci poniamo è lo stesso
di quello che ci si pone per le medie, differenze fra
le medie etc.
Inferenza sulla pendenza di una retta comprende:
•
Stima:
•
•
•
Test di ipotesi:
•
•
In che maniera dovremmo tracciare una linea attraverso i dati
per stimarne la pendenza? (Minimi Quadrati Ordinari,
Ordinary Least Square, OLS).
Quali sono gli svantaggi e i vantaggi di OLS?
Come verificare se la pendenza è statisticamente zero?
Intervallo di confidenza:
•
Come costruire un intervallo di confidenza per tale pendenza?
2
La retta di regressione della popolazione:
Voti = β0 + β1STR
β1 = pendenza della retta di regressione della popolazione
=
∆ Voti
∆ STR
= di quanto cambia il voto quando STR cambia di una unità
• Perchè β0 e β1 sono parametri della “popolazione”?
• Vorremmo conoscere è il vero valore della popolazione di β1.
• Dato che non lo conosciamo β1, lo stimiamo usando i dati
3
Notazione generale
Yi = β0 + β1Xi + ui, i = 1,…, n
• X è la variabile indipendente o regressore
• Y è la variabile dependente
• β0 = intercetta
• β1 = pendenza
• ui = l’errore di regressione
• l’errore di regressione contiene i fattori omessi, o gli errori di
misurazione di Y. In genere, questi fattori omessi sono altri
fattori, oltre alla variabile X, che influenzano Y.
4
La retta di regressione e il termine di errore
5
Le stime “Ordinary Least Squares”
Come possiamo ottenere delle stime di β0 e β1 dai dati?
Considerando che Y è lo stimatore dei minimi quadrati di µY , la
media campionaria Y è la soluzione di,
n
min m ∑ (Yi − m ) 2 ,
i =1
minimizza la somma degli errori al quadrato fra tutti i possibili
stimatori m, dove m è uno stimatore di µY
Analogamente, lo stimatore dei minimi quadrati di (“ordinary
least squares” o “OLS”) dei parametri sconosciuti β0 e β1, è
soluzione di
n
min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2
i =1
6
Retta di regressione della popolazione: Voti = β0 + β1STR
β1 =
∆ Voti
∆ STR
7
n
Lo stimatore OLS risolve : min b ,b ∑[Yi − (b0 + b1 X i )]2
0
1
i =1
• Lo stimatore OLS minimizza le differenze fra i valori “attuali”
Yi e valori “predetti” dalla retta di regressione, al quadrato.
Dimostrazione(App. 4.2).
• I risultati di queste operazioni sono gli stimatori OLS di β0 e
β1.
8
Applicazione: Voti – STR
Pendenza stimata = βˆ1 = – 2.28
Intercetta stimata = βˆ = 698.9
0
Linea di regressione stimata: V̂oti = 698.9 – 2.28×STR
9
Intercetta e coefficiente angolare
V̂oti = 698.9 – 2.28×STR
• interpretazione: I distretti con uno studente in più per
insegnante in media ricevono voti di 2.28 punti più bassi.
∆ Voti
• Cioè, ∆ STR
= –2.28
• L’intercetta (letteralmente) significa che, secondo le nostre
stime i distretti senza studenti avrebbero un voto predetto di
698.9.
• Questa interpretazione non ha senso. È estrapolata fuori
dall’intervallo dei dati e in questo caso non ha senso
economicamente. Non sempre così!
10
Valori previsti e residui:
Uno dei distretti nel campione è Antelope, CA, per cui STR =
19.33 e Voti = 657.8
Yˆ
= 698.9 – 2.28×19.33 = 654.8
Valore predetto:
Antelope
residui:
uˆ Antelope = 657.8 – 654.8 = 3.0
11
OLS : esempio di output - stata
regress testscr str, robust
Regression with robust standard errors
Number of obs
F( 1,
418)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
19.26
0.0000
0.0512
18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------str | -2.279808
.5194892
-4.39
0.000
-3.300945
-1.258671
698.933
10.36436
67.44
0.000
678.5602
719.3057
_cons |
-------------------------------------------------------------------------
V̂oti = 698.9 – 2.28×STR
(discuteremo dopo del resto)
12
Misure di “bontà” della regressione
Una domanda che sorge spontanea è: quanto è buona
l’approssimazione della retta di regressione o quanto riesce a
spiegare i dati. Ci sono due statistiche di riferimento
complementari che forniscono misure di adeguatezza:
• L’ R2 della regressione misura la frazione della varianza di Y
che è spiegata da X; è priva di unità di misura e può
assumere valori che vanno da 0 (non c’è approssimazione) a
1 (approssimazione perfetta)
• Errore standard della regressione (SER) misura la grandezza
dei residui di regressione in termini delle unità di Y
13
L’ R2 è la frazione della varianza campionaria di Yi “spiegata”
dalla regressione
Yi = Yˆi + uˆi = previsioni OLS + residui OLS
⇒ var (Y) campionaria = var(Yˆ )campionaria + var( uˆ )campionaria (???)
i
i
⇒ Somma totale dei quadrati (TSS)
= “spiegata” SS (ESS) + “residua” SS (RSS)
⇒ TSS = ESS + RSS
n
2
Definizione di R :
ESS
R =
=
TSS
2
2
ˆ
ˆ
(
Y
−
Y
)
∑ i
i =1
n
2
(
Y
Y
)
−
∑ i
i =1
• R2 = 0 significa che ESS = 0
• R2 = 1 significa che ESS = TSS
• 0 ≤ R2 ≤ 1
14
Lo Standard Error della Regressione (SER)
SER misura la distanza dalla media della distribuzione di u. SER
è (circa) la deviazione standard campionaria dei residui OLS:
SER =
=
1 n
2
ˆ
ˆ
(
u
−
u
)
∑ i
n − 2 i =1
1 n 2
uˆi
∑
n − 2 i =1
1 n
(dato che û = ∑ uˆi = 0).
n i =1
15
SER =
1 n 2
uˆi
∑
n − 2 i =1
• Ha come unità di misura le stesse di u, e dunque di Y
• Misura in media quanto sono “grandi” i residui OLS (l’errore
medio fatto imponendo una certa retta di regressione)
• La radice della media degli errori al quadrato- root mean
squared error (RMSE) è simile al SER:
RMSE =
1 n 2
uˆi
∑
n i =1
Misura la stessa cosa del SER – l’unica differenza è la
divisione per 1/n invece che per 1/(n–2). Correzione gradi di
libertà 2 parametri stimati.
16
V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6
Interpretazione: STR spiega solo una piccola parte della
variazione nei voti. Ha senso questa conclusione? Possiamo
dunque concludere che STR non è importante per trarre delle
conclusioni di politica economica?
17
Le Assunzioni dei Minimi Quadrati
Quali sono le proprietà dello stomatore OLS? Deve essere
corretto e con una varianza piccola. Sotto quali condizioni ciò
accade?
Iniziamo facendo alcune assunzioni su come Y e X sono
correlate e come i dati sono stati raccolti (schema campionario)
18
Assunzioni dei Minimi Quadrati
Yi = β0 + β1Xi + ui, i = 1,…, n
1. u è una v.c., la distribuzione di u condizionata a X ha media zero:
E(u|X = x) = 0.
Ciò implica che βˆ1 è corretto (lo vediamo successivamente)
2. (Xi,Yi), i =1,…,n, sono i.i.d.
• è vero se X, Y sono raccolte con un campionamento casuale
semplice
• ci conduce alla distribuzione campionaria di βˆ0 e βˆ1
3. “outliers” di X e/o Y sono rari.
• Tecnicamente, X e Y hanno un momento di 4° ordine finito
• Outliers possono dare origine ad un valore di βˆ1 privo di
significato
19
Assunzione #1: E(u|X = x) = 0.
Per ogni dato valore di X, la media di u è zero:
Es: Votii = β0 + β1STRi + ui, ui = altri fattori
• Cosa sono questi “altri fattori”?
• E(u|X=x) = 0 è plausibile?
20
Consideriamo un esperimento ideale casuale e controllato:
• X casualmente assegnata (studenti casualmente assegnati a
classi di diversa grandezza; pazienti casualmente assegnati a
trattamenti medici). Un computer assegna X casualmente
senza informazioni sugli individui.
• Poichè X è assegnata casualmente, tutte le altre caratteristiche
inidividuali, u,sono indipendentemente distribuite rispetto a X
• Dunque, un esperimento ideale casuale e controllato,
E(u|X = x) = 0 (Assunzione #1 verificata)
• Negli esperimenti reali, o nel caso di dati osservati dobbiamo
stare più attenti.
21
Assunzione #2: (Xi,Yi), i = 1,…,n
sono i.i.d.
Ciò si verifica automaticamente se le entità (individui,
distretti) sono campionate con un campionamento casuale
semplice: prima l’entità è selezionata poi, per quella entità, X e Y
sono osservate.
Un caso in cui il campionamento è tipicamente non-i.i.d. si
verifica con le “serie storiche”
22
Assunzione #3: E(X4) < ∞ and E(Y4) < ∞
• Un grande outlier è un valore estremo di X o Y
• tecnicamente, se i valori di X e Y cadono all’interno di un
intervallo chiuso, allora hanno quarto momento finito.
• Un outlier molto grande può fortemente influenzare i risultati
23
Un’altra ragione per cui è utile il diagramma a nuvola!
24
Distribuzione campionaria dello
stimatore OLS
Lo stimatore OLS è calcolato usando un campione di dati; un
campione diverso darà origine a valori diversi di βˆ1 . Questa è la
ragione per cui si parla di “incertezza campionaria” di βˆ1 . Dunque
abbiamo bisogno di:
• quantificare l’incertezza campionaria associata a βˆ1
• usare βˆ1 per i test d’ipotesi (es. H0: β1 = 0, H1: β1 ≠ 0 )
• costruire un intervallo di confidenza per β1
• tutto ciò richiede la conoscenza della distribuzione campionaria
dello stimatore OLS. In 2 passi…
• Nozioni di probabilità
• Distribuzione dello stimatore OLS
25
Nozioni di probabilità
Quello che concerne la probabilità può essere riassunto in 3
ipotesi.
Popolazione
Il gruppo di interesse (es: tutti i possibili distretti scolastici)
Variabili casuali: Y, X (es: Voti, STR)
Distribuzione congiunta di (Y, X)
La funzione di regressione per la popolazione è lineare
E(u|X) = 0 (Assunzione #1)
X, Y hanno quarto momento finito (Assunzione #3)
Dati raccolti da campionamento casuale semplice:
{(Xi, Yi)}, i = 1,…, n, sono i.i.d. (Assunzione #2)
26
Come per Y , βˆ1 ha una distribuzione campionaria.
• Cos’è E( βˆ1 )? (qual’è il centro della distribuzione?)
se E( βˆ1 ) = β1, OLS è corretto
• Cos’è var( βˆ1 )? (misura della incertezza campionaria)
• Qual’è la distribuzione campionaria di βˆ1 nei piccoli campioni?
Può essere molto complicato
• Qual’è la distribuzione campionaria di βˆ1 nei grandi campioni?
Relativamente semplice, βˆ1 nei grandi campioni è normalmente
distribuito.
27
L’Appendice 4.3 dimostra che
n
βˆ1 – β1 =
∑( X
i =1
n
i
− X )u i
2
(
X
−
X
)
∑ i
i =1
28
Prova di correttezza
 n

 ∑ ( X i − X )u i 
E( βˆ1 ) – β1 = E  i =n1

 ( X − X )2 
i
 ∑

i =1
  n


  ∑ ( X i − X )u i 



= E  E  i =n1
,...,
X
X
 1
n
  ∑ ( X i − X )2 


  i =1

= 0 poichè E(ui|Xi=x) = 0 da Assunzione #1
• L’Assunzione #1 implica che E( βˆ1 ) = β1
• Cioè, βˆ è uno stimatore corretto di β1.
1
• Per dettagli App. 4.3
29
1 var[( X i − µ x )ui ]
ˆ
var( β1 – β 1) = ×
.
4
n
σX
Riassumendo
• βˆ è corretto: E( βˆ ) = β1 , proprio come Y !
1
1
• var( βˆ1 ) è inversamente proportionale a n, proprio come Y !
30
L’esatta distribuzione campionaria è complicata – dipende
dalla distribuzione di (Y, X) – ma quando n è grande c’è una
buona approssimazione:
(1) Poiché var( βˆ ) è proporzionale a 1/n e E( βˆ ) = β1
1
1
p
βˆ1 → β1
(2) quando n è grande, la distribuzione campionaria di βˆ1 si
approssima alla distribuzione normale (CLT)
31
Approssimazione a n-grande
βˆ1 – β1 ≈
1 n
vi
∑
n i =1
σ
2
X
, dove vi = (Xi – X )ui
1 n
• Quando n è grande dal CLT deriva che ∑ vi si distribuisce
n i =1
approssimativamente come N(0, σ v2 / n ).
• così, per n grande, βˆ si distribuisce approssimativamente
1
2

σ
βˆ1 ~ N  β1 , v4
 nσ X

 , dove vi = (Xi – µX)ui

32
Matematicamente
1 var[( X i − µ x )ui ]
ˆ
var( β1 – β1) = ×
n
σ X4
dove σ X2 = var(Xi). La varianza di X appare al quadrato al
denominatore – quanto più cresce la distanza della media di X più
diminuisce la varianza di β1.
Intuitivamente
Quanto più X varia, più c’è informazione nei dati e questa
informazione può essere utilizzata per approssimare meglio la
retta di regressione…
33
C’è lo stesso numero di punti blu e neri – quali punti forniscono
una retta di regressione più accurata?
34
Riassunto sulla distribuzione di
Se le Assunzioni sono verificate, allora
β̂1
• La distribuzione campionaria esatta (con piccolo n) di βˆ1 ha:
• E( βˆ ) = β1 ( βˆ corretto)
1
1
1 var[( X i − µ x )ui ]
1
ˆ
• var( β1 ) = ×
∝ (proporzionale) .
4
n
σX
n
• A parte media e varianza la distribuzione campionaria esatta
di βˆ1 è complicata e dipende dalla distribuzione di (X,u)
p
• βˆ1 → β1 ( βˆ1 consistente)
βˆ1 − E ( βˆ1 )
• Quando n è grande,
~ N(0,1) (CLT)
var( βˆ1 )
Tutto ciò richiama quanto già visto per Y .
Ora possiamo andare avanti con test e intervalli di confidenza…
•
35
Test d’ipotesi e intervalli di confidenza
Sommario
• Ora che conosciamo la distribuzione campionaria dello
stimatore OLS, possiamo condurre test d’ipotesi su β1 e
costruire un intervalli di confidenza
• Inoltre daremo uno sguardo ai seguenti argomenti:
• Regressioni quando X è binaria (0/1)
• eteroschedasticità e omoschedasticità
• Efficienza dello stimatore OLS
• Uso della statistica-t nel test di ipotesi
36
4 passi principali:
1. definire la popolazione oggetto di interesse
2. derivare la distribuzione campionaria dello stimatore
3. stimare la varianza della distribuzione campionaria (per il
TLC è l’unica cosa di cui abbiamo bisogno se n è grande)
– cioè trovare gli standard error (SE) dello stimatore
usando solo i dati a disposizione
4. Usare βˆ1 per ottenere una stima puntuale e il suo SE per
test di ipotesi e intervallo di confidenza.
37
Oggetto di interesse: β1 in,
Yi = β0 + β1Xi + ui, i = 1,…, n
β1 = ∆Y/∆X, per un cambio in X (effetto causale)
38
Test d’ipotesi e SE β̂1
L’obiettivo è di testare un’ipotesi, come β1 = 0
test di significativita’
usando i dati per cercare di concludere se l’H0 è vera o no.
General setup
Ipotesi nulla e alternativa a due-code:
H0: β1 = β1,0 vs. H1: β1 ≠ β1,0
β1,0 il valore ipotizzato sotto la nulla.
Ipotesi nulla e alternativa a una-coda:
H0: β1 = β1,0 vs. H1: β1 < β1,0
39
Approccio generale: construiamo una statistica t, calcoliamo il pvalore (o lo confrontiamo con il valore critico di N(0,1))
• In generale:
t =(stima-valore ipotizzato)/SE(stimatore)
dove SE(stimatore) è la radice quadrata di uno stimatore della
varianza dello stimatore.
Y − µY ,0
• Per testare la media di Y:
t=
sY / n
βˆ1 − β1,0
• Per testare β1,
t=
,
SE ( βˆ1 )
Dove SE( βˆ1 ) = la radice quadrata di uno stimatore della
varianza della distribuzione campionaria di βˆ ed è calcolato
1
dal software
40
Riassunto: H0: β1 = β1,0 vs
H1: β1 ≠ β1,0,
• t-statistica
βˆ1 − β1,0 βˆ1 − β1,0
t=
=
ˆ
SE ( β1 )
σˆ β2ˆ
1
• Rifiutiamo al 5% se |t| > 1.96
• Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della
distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è <
5%.
• Approssimazione valida per n grande.
41
Esempio:
Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR
standard errors forniti dal software:
SE( βˆ0 ) = 10.4
SE( βˆ1 ) = 0.52
βˆ1 − β1,0 −2.28 − 0
statistica t per testare cheβ1,0 = 0 =
=
= –4.38
0.52
SE ( βˆ1 )
• All’ 1% il valore critico è di 2.58, perciò…
• Alternativamente abbiamo il p-valore
42
The p-valore è di 0.00001 (10–5)
43
Intervalli di confidenza per β1
Poichè la statistica t per β1 è N(0,1) nei grandi campioni,
costruire un intervallo di confidenza al 95% è la stessa cosa del
caso della media campionaria:
intervallo di confidenza al 95% per β1 = { βˆ ± 1.96×SE( βˆ )}
1
1
44
Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR
SE( βˆ0 ) = 10.4
SE( βˆ1 ) = 0.52
95% intervallo di confidenza di βˆ1 :
{ βˆ1 ± 1.96×SE( βˆ1 )} = {–2.28 ± 1.96×0.52}
= (–3.30, –1.26)
Le seguenti conclusioni sono identiche:
• L’intervallo di confidenza al 95% non include lo zero;
• L’ipotesi β1 = 0 è rifiutata al livello di significatività del 5%
45
V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6
(10.4) (0.52)
Questa espressione ci da molte informazioni:
• La retta stimata è
V̂oti = 698.9 – 2.28×STR
• Lo SE( βˆ0 ) è 10.4
• Lo SE( βˆ ) è 0.52
1
• L’ R2 è 0.05; lo standard error della regressione è 18.6
46
Come leggere un’output
regress testscr str, robust
Regression with robust standard errors
Number of obs =
420
F( 1,
418) =
19.26
Prob > F
= 0.0000
R-squared
= 0.0512
Root MSE
= 18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------.5194892
-4.38
0.000
-3.300945
-1.258671
str | -2.279808
_cons |
698.933
10.36436
67.44
0.000
678.5602
719.3057
-------------------------------------------------------------------------
so:
V̂oti = 698.9 – 2.28×STR, , R2 = .05, SER = 18.6
(10.4) (0.52)
t (β1 = 0) = –4.38, p-valore = 0.000 (2-code)
95% 2-code intervallo conf. per β1 è (–3.30, –1.26)
47
Sommario di inferenza su β0 e β1:
Stima:
• Stime OLS di βˆ0 e βˆ1
• βˆ e βˆ hanno approssimativamente distribuzione
0
1
campionaria normale in grandi campioni
Test:
• H0: β1 = β1,0 v. β1 ≠ β1,0 (β1,0 è il valore di β1 sotto H0)
• t = ( βˆ1 – β1,0)/SE( βˆ1 )
• p-valore = area sotto la normale standard fuori tatt (n grande)
Inervallo di confidenza:
• intervallo di confidenza al 95% per β1 è { βˆ1 ± 1.96×SE( βˆ1 )}
• questo è l’insieme di valori di β1 per cui non si rifiuta l’ipotesi
nulla al 5%.
• Il 95% CI contiene il vero β1 nel 95% di tutti i campioni.
48
Regressione quando X è Binaria
A volte il regressore è binario:
• X = 1 se le classi sono piccolo, = 0 se non lo sono
• X = 1 se donna, = 0 se uomo
• X = 1 se trattato, = 0 se non lo è
I regressori binari sono a volte chiamati variabili “dummy”.
Fino ad ora, abbiamo chiamato β1 “pendenza” ma questo non ha
senso se X è binaria
Come interpretare il coefficiente se il regressore è binario?
49
Interpretazione
Yi = β0 + β1Xi + ui, dove Xi = 0 o 1:
quando Xi = 0, Yi = β0 + ui
• La media di Yi è β0
• cioè, E(Yi|Xi=0) = β0
quando Xi = 1, Yi = β0 + β1 + ui
• la media di Yi è β0 + β1
• cioè, E(Yi|Xi=1) = β0 + β1
perciò
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= differenza della popolazione fra medie di gruppo
50
Es
 1seSTR < 20
Di =  0 seSTR ≥ 20
Regressione OLS
V̂oti = 650.0 + 7.4×D
(1.3) (1.8)
Grandezza Classe
Piccola (STR < 20)
Grande(STR ≥ 20)
Voto medio(Y )
657.4
650.0
Differenza nelle medie:
Standard error:
Std. dev. (sY)
19.4
17.9
N
238
182
Ysmall − Ylarge = 657.4 – 650.0 = 7.4
ss2 sl2
19.4 2 17.92
SE =
=
= 1.8
+
+
ns nl
238
182
51
Sommario
Yi = β0 + β1Xi + ui
• β0 = media di Y quando X = 0
• β0 + β1 = media Y quando X = 1
• β1 = differenza nelle medie di gruppo, X =1 meno X = 0
• SE( βˆ ) ha la solita interpretazione
1
• Statistica-t, intervallo di confidenza come al solito
• È semplicemente un’altra maniera per fare un’analisi di
differenze fra medie
52
Eteroschedasticità e omoschedasticità
• Cosa sono?
• Conseguenze dell’omoschedasticità
• Implicazioni per il calcolo degli standard errors
Se var(u|X=x) è costante – cioè, la varianza della
distribuzione di u condizionata a X non dipende da X – allora
u si dice omoschedastica. Altrimenti, u si dice
eteroschedastica.
53
Es: etero/omoschedasticità nel caso di regressore binario)
• Standard error quando le varianze dei gruppi sono diverse:
ss2 sl2
SE =
+
ns nl
• Standard error quando le varianze dei gruppi sono uguali:
SE = s p
1 1
+
ns nl
2
2
(
n
−
1)
s
+
(
n
−
1)
s
s
l
l
(SW, Sez 3.6)
dove s 2p = s
ns + nl − 2
sp = “stima complessiva di σ2” dove σ l2 = σ s2
• varianze dei gruppi uguali = omoschedasticità
• varianze dei gruppi diverse = eteroschedasticità
54
Omoschedasticità
• E(u|X=x) = 0 (u soddisfa Assunzione #1)
• La varianza di u NON dipende da x
55
Eteroschedasticità
• E(u|X=x) = 0 (u soddisfa Assunzione #1)
• La varianza di u DIPENDE da x: u è eteroschedastico.
56
Es: guadagno medio vs anni di istruzione
Eteroschedastico o omoschedastico?
57
Eteroschedastico o omoschedastico?
58
u eteroschedastico?.
Richiamiamo le 3 Assunzioni OLS:
1. E(u|X = x) = 0
2. (Xi,Yi), i =1,…,n, sono i.i.d.
3. grandi “outliers” sono rari
Eteroschedasticità e omoschedasticità hanno a che fare con la
var(u|X=x). Poiché non abbiamo fatto alcuna assunzione
esplicita sull’ omoschedasticità, abbiamo implicitamente assunto
la presenza di eteroschedasticità.
59
• Possiamo provare che lo stimatore OLS ha la varianza minore
fra gli stimatori lineari in Y… ( teorema Gauss-Markov)
• La formula per la varianza di βˆ e degli standard error OLS è:
1
Se var(ui|Xi=x) = σ u2 , allora
2 2
E
[(
X
−
µ
)
ui ]
var[(
X
−
µ
)
u
]
i
x
i
i
x
ˆ
var( β1 ) =
=
2 2
n(σ X )
n(σ X2 )2
σ u2
=
nσ X2
Nota: var( βˆ1 ) è inversamente proporzionale a var(X): più
variabilità in X significa più informazione su βˆ1
60
• Di conseguenza gli standard error omoschedastici sono
SE( βˆ1 ) =
1 n 2
uˆi
∑
n − 2 i =1
1
× n
.
n 1
2
(
X
−
X
)
∑
i
n i =1
61
• gli standard error omoschedastici sono validi solo se gli
errori sono omoschedastici.
• Di solito conviene usare gli standard error eteroschedasticistandard error robusti perchè sono validi in tutti e due i casi.
• Il principale vantaggio degli standard error omoschedastici è
la semplicità della formula. Il maggiore svantaggio è che sono
validi solo con errori omoschedastici
• Dato che le due formule coincidono nel caso di
omoschedasticità conviene sempre usare standard error
robusti !
62