Regressione lineare con un solo
regressore (Cap 4)
•
La regressione lineare è uno strumento che ci
permette di stimare e di fare inferenza sui
coefficienti angolari di una popolazione. Il nostro
scopo è di stimare l’effetto causale misurato come
effetto che l’incremento una unità di X ha su Y. Per
ora, restringiamo il problema e pensiamo di far
passare una linea retta fra i dati di 2 variabili, Y e
X, dove X è l’unico regressore.
1
Il problema di inferenza che ci poniamo è lo stesso di
quello che ci siamo posti per le medie, differenze fra le
medie etc. Inferenza sulla pendenza di una retta
comprende:
•
Stima:
•
•
•
Test di ipotesi:
•
•
In che maniera dovremmo tracciare una linea attraverso i dati
per stimarne la pendenza? (risposta: minimi quadrati ordinari
Ordinary Least Square, OLS).
Quali sono gli svantaggi e i vantaggi dell’ OLS?
Come testare se la pendenza è nulla?
Intervallo di confidenza:
•
Come costruire un intervallo di confidenza per tale pendenza?
2
La retta di regressione della popolazione:
Voti = β0 + β1STR
β1 = pendenza della retta di regressione della popolazione
=
∆ Voti
∆ STR
= di quanto cambia il voto quando STR cambia di una unità
• Perchè β0 e β1 sono parametri della “popolazione”?
• Ciò che vorremmo sapere è il vero valore della popolazione
di β1.
• Non conosciamo β1, dobbiamo stimarlo usando i dati
3
Notazione generale
Yi = β0 + β1Xi + ui, i = 1,…, n
• X è la variabile indipendente o regressore
• Y è la variabile dependente
• β0 = intercetta
• β1 = pendenza
• ui = l’errore di regressione
• l’errore di regressione contiene i fattori omessi, o gli errori di
misurazione di Y. In genere, questi fattori omessi sono altri
fattori, oltre alla variabile X, che influenzano Y.
4
La retta di regressione e il termine di errore
5
Le stime “Ordinary Least Squares”
Come possiamo ottenere delle stime di β0 e β1 dai dati?
Ricordiamo che Y è lo stimatore dei minimi quadrati di µY: Y è
la soluzione di,
n
min m ∑ (Yi − m) 2 ,
i =1
minimizza la somma degli errori al quadrato fra tutti i possibili
stimatori m, dove m è uno stimatore di µY
Analogamente, ci concentreremo sullo stimatore dei minimi
quadrati di (“ordinary least squares” o “OLS”) dei parametri
sconosciuti β0 e β1, che sono la soluzione di
n
min b0 ,b1 ∑ [Yi − (b0 + b1 X i )]2
i =1
6
Retta di regressione della popolazione: Voti = β0 + β1STR
β1 =
∆ Voti
∆ STR
= ??
7
n
Lo stimatore OLS risolve : min b ,b ∑[Yi − (b0 + b1 X i )]2
0
1
i =1
• Lo stimatore OLS minimizza le differenze fra i valori “attuali”
Yi e valori “predetti” dalla retta di regressione, al quadrato.
• I risultati di queste operazioni sono gli stimatori OLS di β0 e
β1.
8
Applicazione: Voti – STR
Pendenza stimata = βˆ1 = – 2.28
Intercetta stimata = βˆ = 698.9
0
Linea di regressione stimata: V̂oti = 698.9 – 2.28×STR
9
Intercetta e coefficiente angolare
V̂oti = 698.9 – 2.28×STR
• interpretazione: I distretti con uno studente in più per
insegnante in media ricevono voti di 2.28 punti più bassi.
∆ Voti
• Cioè, ∆ STR
= –2.28
• L’intercetta (letteralmente) significa che, secondo le nostre
stime i distretti senza studenti avrebbero un voto predetto di
698.9.
• In questo caso questa interpretazione non ha senso. È
estrapolata fuori dall’intervallo dei dati e in questo caso non
ha senso economicamente. Non sempre così!
10
Valori previsti e residui:
Uno dei distretti nel campione è Antelope, CA, per cui STR =
19.33 e Voti = 657.8
Yˆ
= 698.9 – 2.28×19.33 = 654.8
Valore predetto:
Antelope
residui:
uˆ Antelope = 657.8 – 654.8 = 3.0
11
OLS : esempio di output
regress testscr str, robust
Regression with robust standard errors
Number of obs
F( 1,
418)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
19.26
0.0000
0.0512
18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------str | -2.279808
.5194892
-4.39
0.000
-3.300945
-1.258671
698.933
10.36436
67.44
0.000
678.5602
719.3057
_cons |
-------------------------------------------------------------------------
V̂oti = 698.9 – 2.28×STR
(discuteremo dopo del resto)
12
Oggetto di interesse: β1 in,
Yi = β0 + β1Xi + ui, i = 1,…, n
β1 = ∆Y/∆X, per un cambio in X (effetto causale)
13
Test d’ipotesi e SE β̂1
L’obiettivo è di testare un’ipotesi, come β1 = 0
test di significativita’
usando i dati per cercare di concludere se l’H0 è vera o no.
General setup
Ipotesi nulla e alternativa a due-code:
H0: β1 = β1,0 vs. H1: β1 ≠ β1,0
β1,0 il valore ipotizzato sotto la nulla.
Ipotesi nulla e alternativa a una-coda:
H0: β1 = β1,0 vs. H1: β1 > β1,0
14
Approccio generale: construiamo una statistica t, calcoliamo il pvalore (o confrontiamolo con il valore critico di N(0,1))
• In generale:
t =(stima-valore ipotizzato)/SE(stimatore)
dove SE(stimatore) è la radice quadrata di uno stimatore della
varianza dello stimatore.
Y − µY ,0
• Per testare la media di Y:
t=
sY / n
βˆ1 − β1,0
• Per testare β1,
t=
,
ˆ
SE ( β1 )
Dove SE( βˆ1 ) = la radice quadrata di uno stimatore della
varianza della distribuzione campionaria di βˆ
1
15
Riassunto: H0: β1 = β1,0 vs
H1: β1 ≠ β1,0,
• t-statistica
βˆ1 − β1,0 βˆ1 − β1,0
t=
=
ˆ
SE ( β1 )
σˆ β2ˆ
1
• Rifiutiamo al 5% se |t| > 1.96
• Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della
distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è <
5%.
• Approssimazione valida per n grande.
16
Esempio:
Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR
standard errors forniti dal software:
SE( βˆ0 ) = 10.4
SE( βˆ1 ) = 0.52
βˆ1 − β1,0 −2.28 − 0
statistica t per testare cheβ1,0 = 0 =
=
= –4.38
0.52
SE ( βˆ1 )
• All’ 1% il valore critico è di 2.58, perciò…
• Alternativamente abbiamo il p-valore
17
The p-valore è di 0.00001 (10–5)
18
Intervalli di confidenza per β1
Poichè la statistica t per β1 è N(0,1) nei grandi campioni,
costruire un intervallo di confidenza al 95% è la stessa cosa del
caso della media campionaria:
intervallo di confidenza al 95% per β1 = { βˆ ± 1.96×SE( βˆ )}
1
1
19
Retta di regressione stimata: V̂oti = 698.9 – 2.28×STR
SE( βˆ0 ) = 10.4
SE( βˆ1 ) = 0.52
95% intervallo di confidenza di βˆ1 :
{ βˆ1 ± 1.96×SE( βˆ1 )} = {–2.28 ± 1.96×0.52}
= (–3.30, –1.26)
Le seguenti conclusioni sono identiche:
• L’intervallo di confidenza al 95% non include lo zero;
• L’ipotesi β1 = 0 è rifiutata al livello di significatività del 5%
20
V̂oti = 698.9 – 2.28×STR, R2 = .05, SER = 18.6
(10.4) (0.52)
Questa espressione ci da molte informazioni:
• La retta stimata è
V̂oti = 698.9 – 2.28×STR
• Lo SE( βˆ0 ) è 10.4
• Lo SE( βˆ ) è 0.52
1
• L’ R2 è 0.05; lo standard error della regressione è 18.6
21
Come leggere un’output
regress testscr str, robust
Regression with robust standard errors
Number of obs =
420
F( 1,
418) =
19.26
Prob > F
= 0.0000
R-squared
= 0.0512
Root MSE
= 18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------.5194892
-4.38
0.000
-3.300945
-1.258671
str | -2.279808
_cons |
698.933
10.36436
67.44
0.000
678.5602
719.3057
-------------------------------------------------------------------------
so:
V̂oti = 698.9 – 2.28×STR, , R2 = .05, SER = 18.6
(10.4) (0.52)
t (β1 = 0) = –4.38, p-valore = 0.000 (2-code)
95% 2-code intervallo conf. per β1 è (–3.30, –1.26)
22
Sommario di inferenza su β0 e β1:
Stima:
• Stime OLS di βˆ0 e βˆ1
• βˆ e βˆ hanno approssimativamente distribuzione
0
1
campionaria normale in grandi campioni
Test:
• H0: β1 = β1,0 v. β1 ≠ β1,0 (β1,0 è il valore di β1 sotto H0)
• t = ( βˆ1 – β1,0)/SE( βˆ1 )
• p-valore = area sotto la normale standard fuori tatt (n grande)
Inervallo di confidenza:
• intervallo di confidenza al 95% per β1 è { βˆ1 ± 1.96×SE( βˆ1 )}
• questo è l’insieme di valori di β1 per cui non si rifiuta l’ipotesi
nulla al 5%.
• Il 95% CI contiene il vero β1 nel 95% di tutti i campioni.
23
Il modello di regressione multipla
della popolazione
Consideriamo il caso di 2 regressori:
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n
• Y variabile dependente
• X1, X2 2 variabili independenti (regressori)
• (Yi, X1i, X2i) denotano l’ima osservazione di Y, X1, e X2.
• β0 = intercetta della popolazione sconosciuta
• β1 = effetto di una variazione di X1 su Y, tenendo X2 constante
• β2 = effetto di una variazione di X2 su Y, tenendo X1 constante
• ui = errore di regressione (fattori omessi)
24
Interpretazione dei coefficienti nella
regressione multipla
Yi = β0 + β1X1i + β2X2i + ui, i = 1,…,n
Consideriamo di far variare X1 di ∆X1 tenendo X2 costante:
Retta di regressione della popolazione prima della variazione:
Y = β0 + β1X1 + β2X2
E dopo:
Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2
25
Prima:
Y = β0 + β1(X1 ) + β2X2
Dopo:
Y + ∆Y = β0 + β1(X1 + ∆X1) + β2X2
Differenza:
Perciò:
∆Y = β1∆X1
∆Y
β1 =
, tenendo X2 constante
∆X 1
∆Y
β2 =
, tenendo X1 constante
∆X 2
β0 = valore previsto di Y quando X1 = X2 = 0.
26
Con 2 regressori, lo stimatore OLS risolve il seguente problema:
n
min b0 ,b1 ,b2 ∑ [Yi − (b0 + b1 X 1i + b2 X 2i )]2
i =1
• Lo stimatore OLS minimizza la differenza fra i valori attuali e
quelli previsti dalla regressione
• Il problema di minimizzazione si risolve utilizzando il calcolo
• Otteniamo così β0 e β1.
27
Es:
V̂oti = 698.9 – 2.28×STR
Includiamo la nuova variabile (PctEL):
V̂oti = 686.0 – 1.10×STR – 0.65PctEL
• Che succede al coefficiente di STR?
• Perchè? (Nota: corr(STR, PctEL) = 0.19)
28
Multiple regression
reg testscr str pctel, robust;
Regression with robust standard errors
Number of obs
F( 2,
417)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
223.82
0.0000
0.4264
14.464
-----------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------str | -1.101296
.4328472
-2.54
0.011
-1.95213
-.2504616
pctel | -.6497768
.0310318
-20.94
0.000
-.710775
-.5887786
_cons |
686.0322
8.728224
78.60
0.000
668.8754
703.189
------------------------------------------------------------------------------
V̂oti = 686.0 – 1.10×STR – 0.65PctEL
29
Misure di bontà della regressione
Attuale = predetto + residuo: Yi = Yˆi + uˆi
SER = deviation standard di uˆi (con correzione per g.l.)
R2 = frazione della varianza di Y spiegata da X
R 2 = “aggiustato R2” = R2 con correzione per g.l; R 2 < R2
30
(1)
V̂oti = 698.9 – 2.28×STR,
R2 = .05, SER = 18.6
(2)
V̂oti = 686.0 – 1.10×STR – 0.65PctEL,
R2 = .426, R 2 = .424, SER = 14.5
31
RICHIAMI DI ALGEBRA DELLE
MATRICI
Definizioni di vettori e matrici
Vettore: Colonna di numeri di dimensione
(nx1) (vettore colonna) oppure riga di numeri
(1x n) (vettore riga) , j=1,..,n
b=
 b1 
 
 b2 
M 
 
 bn 
c=
(c 1 L
L c
n
)
Matrice: Tabella rettangolare di numeri di
dimensione (nxm) indicato con
 a11 K a1m 


M
O
M


A=  a L a 
nm 
 n1
Vettori
grassetto.
e
matrici
vengono
espressi
in
Trasposta di una matrice: La matrice trasposta
di A si indica con A′ ed è una matrice (mxn)
le cui righe sono le colonne di A e viceversa
 a11 K an1 


M
O
M
A′=  a L a 
nm 
 1m
La trasposta del vettore b è
b′=
( b
1
L
L
b
n
)
Matrice quadrata:
Matrice di dimensione
(nxn) (numero di righe è uguale al numero di
colonne)
Matrice simmetrica: Matrice quadrata tale per
cui A=A′
Esempio
A=
 2

 2
 3

3 

4 
3 
2
1
4
A è una matrice simmetrica.
Matrice diagonale: Matrice quadrata che ha
gli elementi esterni alla diagonale pari a zero
D=
 a1 1

 M
 0

K
O
L
0 

M 
a n k 
Una matrice diagonale è simmetrica?
Matrice identità: Matrice diagonale con
elementi sulla diagonale principale pari ad
uno
I=
1 K

M O
0 L

0

M
1 
Operazioni su matrici
Somma e sottrazione: La somma (sottrazione)
di due matrici A e B entrambe di dimensione
(nxk) con elementi generici rispettivamente a
ij
e
è la matrice A+B (A-B) il cui elemento
bij
tipico è cij= a
ij
+ b ij
oppure cij = ( a
ij
− b
Esempio
A=






1
3
4
2
4
5
3
2
C=A+B=
0 

1 
1 

0 






B=
1
5
7
3
7
7
4
2
0

2
2

0






0
2
3
1
3
2
1
0
0 

1 
1 

0 
C=A-B=






1
1
1
1
1
3
2
2
0 

0 
0 

0 
ij
).
Prodotto tra matrici
Sia A una matrice (nxk) e B una matrice
(kxm) . Il prodotto tra A e B produce una
matrice C=AB di dimensione (nxm) con
elemento generico.
c ij = a i 1b1 j + a i 2 b2 j + ... + a ik bkj
E′ importante notare che se AB esiste
potrebbe
dimensioni
non
esistere
delle
due
BA
perché
matrici
le
non
corrispondono e nel caso in cui i due prodotti
sono eseguibili (solo nel caso in cui A ha
dimensione nxk e B kxn) si verifica che
AB ≠ BA.
Esempio
A = (4 x 3); B = (3 x 3)
A=






1
3
4
4
3
2
5
2
0

1
1

0
B=
 0

 3
 3


2
1
2
0 

1 
1 


=>
c11= a11 x b11 + a12 x b21 + a13 x b31 = 1 x 0 + 3
x3+0x3=9
c12 = a11 x b12 + a12 x b22 + a13 x b32 = 1 x 2 + 3
x1+0x2=5
c13 = a11 x b13 + a12 x b23 + a13 x b33 = 1 x 0 + 3
x1+0x1=3
C=AB =
 9

9
18

 6
Proprietà
5
12
15
8
3

3
6

2
a) A+B=B+A
b) (A+B)+C=A+(B+C)
c) (A+B)′=A′+B′
d) Se A ha dimensione n x m allora AI=A e
IA=A
e) A(BC)=(AB)C
f) (A+B)C=AB+BC
g) (AB)′=B′A′
Matrice inversa
Sia A una matrice quadrata. La matrice
inversa (se esiste) si indica nel seguente modo
A-1
ed è tale che AA-1 = I
Proprietà
(A-1)' = (A')−1
( AB )−1 = B −1A −1
(se A e B sono invertibili)
Una matrice quadrata A ammette inversa se e
solo se il determinante di A det A 0 .
A
− 1
=
~
 A 11

A


~M
 A
1 n


A

L
M
L
~
A n1
A
~M
A nn
A








a11 a12
~
det A =
= a11a22 − a12a12
A
e ij sono
a21 a22
dove
i
complementi
~
A ij = ( − 1 ) i + j (det
min
algebrici
di
A,
A ij )
Esempio
A = 
3
 1
2 
4 
dimostrare che AA-1 = I
A−1
= 101  −42

−1
3 
provate a
Matrice singolare
Una matrice quadrata si dice singolare se il
suo determinante è
nullo, una matrice
singolare non è invertibile.
Matrice idempotente
Una matrice simmetrica P è idempotente se
PP = P. Una matrice interessante in
econometria è la matrice P = A( A ' A)−1 A ' .
Come si può verificare P è una matrice
idempotente.
Definizioni
Una matrice quadrata A è definita positiva se
x′Ax >0 per ogni vettore x diverso dal vettore
nullo. Una matrice definita positiva è sempre
invertibile.
Una matrice quadrata A è semidefinita
positiva se x′Ax >=0 per ogni vettore x
diverso dal vettore nullo.
Rango di una matrice
Il rango colonna di una matrice A è il numero
di colonne linearmente indipendenti Se il
rango di A è pari al numero di colonne allora
la matrice si dice a rango pieno di colonna.
Lo stesso avviene per il rango riga di una
matrice.
Esempio
Qual è il rango della matrice A?



A = 




1
2
2
6
3
2
3
8
4
1
3

5
8

7
9 
Operazione di derivazione delle matrici
Siano c e x due vettori colonna di dimensione
(nx1). c′x è uno scalare e la derivata rispetto a
xè
∂c ' x
=c
∂x
più in generale se A è una matrice
∂Ax
= A'
∂x
Un risultato interessante nel caso in cui A è
simmetrica è:
∂x ' Ax
= 2 Ax
∂x
nel caso in cui invece A non è simmetrica
abbiamo:
∂x ' Ax
= ( A + A ') x
∂x
1
Ordinary Least Square - OLS
Il modello di regressione lineare e’ usato per studiare la
relazione fra una variabile dipendente e piu’ variabili indipendenti. La forma generica del modello di regressione
lineare e’:
yn = f (xn1, xn2, ...xnk )
dove y e’ la variabile dipendente, x1, x2, ...xk sono le
variabili dipendenti, esplicative o regressori e N e’ la
grandezza del campione.
Esempio 1: Funzione del consumo per l’Italia dal 1970 al
2006 (time-series), k = 2
consumo1970 = f (reddito disp1970, ricchezza1970)
consumo1971 = f (reddito disp1971, ricchezza1971)
..
consumo2006 = f (reddito disp2006, ricchezza2006)
yt = f (xt1, xt2)
Obiettivo?
Obiettivo studiare la relazione fra salari e caratterisctiche
individuali in un campione di N individui. Esempio 2:
Equazione del salario per un campione di 3294 individui
nel 1987 (cross-sectio), k = 2
w1 = f (genere1, istruzione1) , i = 1
w2 = f (genere2, istruzione2) , i = 2
..
wN = f (genereN , istruzioneN ) , i = N
yi = f (xi1, xi2)
Indichiamo con y il livello dei salari e x1, x2, ...xk sono
K caratteristiche individuali di ciascun lavoratore i.
Nota: di solito ci si riferisce a K − 1 caratteristiche
perche’ si considera sempre una costante.
• Domanda 1): Esiste una relazione lineare fra y e
x1, x2, ...xk ?
• Domanda 2): una combinazione lineare di x1, x2, ...xk
e di una costante fornisce una buona approssimazione
di y ?
Consideriamo una qualsiasi combinazione lineare che includa una costante
(β̃ 1 × 1) + (β̃ 2 × x2), ... + (β̃ k × xk )
dove β̃ 1 β̃ 2, ...β̃ k sono i coefficienti (coefficienti angolari)
da scegliere, 1 e’ la costante xk sono le variabili .
La differenza fra un valore osservato yi (salario di un
individuo i) e la sua approssimazione lineare e’ data da
yi − β̃ 1xi1 + β̃ 2xi2, ... + β̃ k xik
APPENDICE A per la derivazione
In forma vettoriale - in grassetto!
x′i
(1×k)
′
β̃
(k×1)
=
=
1 xi2 · · · xik
β̃ 1 β̃ 2 · · · β̃ k
′
′
;
;
(1)
possiamo scrivere la (1) come
yi
(1×1)!!
− x′i
β̃
(1×k)(k×1)
Approccio Ordinary Least Squares: Ci prefiggiamo di
scegliere i valori di β̃ in modo da minimizzare queste
differenze.
Scegliamo il valore di β̃ minimizzando la funzione obiettivo S(β̃) =
N i=1
2
′
yi − xiβ̃
(perche’ al quadrato?) e
otteniamo

b =
N
i=1
−1
xix′i xiyi
la combinazione lineare delle xi cosi ottenuta e’ data da
ŷi = x′ib
che costituisce la migliore approssimazione lineare di y
ottenibile da xi1, xi2, ...xik
Fino ad ora abbiamo solo utilizzato delle nozioni algebriche. L’unica assunzione
che
dobbiamo fare e’ che la
matrice (K × K)
infatti
N
i=1

N
xix′i
i=1
xix′i sia una matrice invertibile
−1
N
′
b =  xixi
xiyi
i=1
i=1
N
invertibile ⇒ Ipotesi di assenza di multi-
collinearita’ perfetta : Nessuna xi e’ superflua in quanto
combinazione lineare esatta di altre variabili esplicative
(da approfondire in seguito)
Se definiamo ei i residui della regressione come ei =
yi − ŷi = yi − x′ib
S(b) =
N
i=1
(ei)2 Somma dei quadrati dei residui


y = 





= 

y1
y2
..
yN
x′1
x′2
..
x′N






; X =
 (N×K) 

1 x12 · · · x1k
1 x22 · · · x2k
..
..
..
1 xN2 · · · xN k



 = x1 x2 · · ·

xk
S(β̃) = (y − Xβ̃)′(y − Xβ̃)
′ ′
′ ′
′
= y y − 2β̃ X y + β̃ X Xβ̃
∂S(β̃)
= −2(X′y − X′Xβ̃ ) = 0
∂ β̃
b =
−1
′
XX
X′y


;β = 

vedi regole di derivazione
Scrivendo il modello come
y = X
b + e
(N×1) (N×K)(K×1) (N×1)
possiamo ottenere i seguenti risultati
1. X′e = 0
dalla (3) X′(y − Xb) = 0





β1
β2
..
βk





(2)
(3)
−1 ′
′
XX
X
2. ŷ = PX y dove PX = X
e’ chiamata
matrice di proiezione, tale che PX PX = PX . In
termini geometrici e’ l’esatto equivalente del trovare
la migliore approssimazione linearedi y usando le
colonne di X (i regressori)
3. e = MX y
dove (I − PX ) = MX
da e = y − Xb = y − ŷ = y − PX y =(I − PX )y = MX y
Nota che valgono i seguenti risultati: MX MX = MX ;
PX MX = 0
Nota: assenza di multicollinearita’ ⇒ X rango pieno di
colonna ne parliamo in seguito
2
Il modello di regressione lineare
Modello statistico
yi = β 1 + β 2xi2 + ... + β k xik + εi
yi = x′iβ + εi,
yie xi sono variabili osservabli mentre εi non e’ osservata e ed e’ chiamata termine di errore o di disturbo.
β sono parametri ignoti relativi alla popolazione. I dati
consistono in un campione N di osservazioni. Il campione e’ una particolare realizzazione fra tutti i possibili
campioni di numerosita’ N che avrebbero potuto essere
estratti dalla medesima popolazione
⇒
yi, xi,
εi sono v.c.
y = X
β + ε
(N×1) (N×K)(K×1) (N×1)
Ipotizziamo tuttavia che le variabili xi sono considerate
fisse e non stocastiche =⇒ un nuovo campione presentera’ la stessa X e nuovi valori per εi. Dati non sperimentali.
Ipotesi fondamentale
E [εi|xi] = 0 ⇒ le variabili xi sono esogene ⇒ E [yi|xi] =
x′iβ
Interpretazione statistica: i coefficienti β misurano il
modo in cui il valore atteso di yi varia al variare di xik
mantenendo costanti gli altri elementi di xi
Interpretazione economica: i coefficienti β misurano
le variazioni di yi causate da una variazione in xik mantenendo costanti gli altri elementi di xi. In questo caso
E [εi|xi] = 0 diventa piu’ difficile da giustificare a causa
di variabili non osservate contenute in εi.
Il valore dei coefficienti β puo’ essere ricavato tramite uno
stimatore (dato che il campione puo’ variare lo stimatore
e’ un vettore di v.c. ). Il risultato di tale aplicazione e’
detto stima (stima e’ un vettore di numeri)
Uno degli stimatori piu’ comuni in econometria e’ lo stimatore OLS
3
Proprieta’ dello stimatore OLS
in campioni finiti
Quali sono le proprietà dello stomatore OLS? Deve essere corretto e con una varianza piccola. Sotto quali
condizioni ciò accade?
3.1
Ipotesi di Gauss-Markov
1. E [εi|Xi] = 0, ∀i la distribuzione dell’errore condizionata a X ha media zero. In media la retta di
regressione e’ corretta.
2. {ε1, ε2, ...εn} e {x1, x2, ...xn} sono indipendenti
3. V (εi) = σ2, i = 1, ...N omoschedasticita’
Esempio di eteroschedasticita’
Omoschedastico o Eteroschedastico?
4. Cov(εi, εj ) = 0, i, j = 1, ...N i = j assenza di
autocorrelazione
1 + 3 + 4 ⇒ i termini di errore rappresentano estrazioni
incorrelate di una distribuzione di valore atteso nullo e
varianza costante σ 2
E [ε] = 0 e V (ε) = σ2IN Matrice di varianza covarianza e’ diagonale con σ2 sulla diagonale principale
E [(εi − E [εi]) (εi − E [εi])]
′
= E (ε − E [ε]) (ε − E [ε]) = E



ε
= 

(N×1)
ε
ε′
(N×1)(1×N)



= 


ε1
ε2 

;
.. 

εN
ε1ε1
ε2ε1
..
εN ε1
ε1ε2 · · ·
ε2ε2
...
εε′
ε1εN
εN εN








E

=
=

ε1ε1 ε1ε2 · · · ε1εN
ε2ε1 ε2ε2
..
...
εN ε1
εN εN






2
ε1 ε1ε2 · · · ε1εN


2
 ε2ε1

ε2


E .
.

.
.
.


2
εN
εN ε1

var(ε1) cov(ε1ε2) · · ·
 cov(ε ε )
var(ε2)

2 1

..
...




= 


cov(εN ε1)
σ2
··· 0
0 σ2
..
...
0
σ2

cov(ε1εN )
var(εN )







 = σ 2I
N


2 ⇒ X e ε sono indipendenti ⇒ E [ε|X] = E [ε] = 0
e V (ε|X) = V (ε) = σ 2IN .
X non fornisce informazioni sui valori attesi di ε e le
loro (co)varianze. questi risultati possono essere derivati
condizionatamente a xi
3.2
Proprieta’ dello stimatore OLS
1. Corretto (Media, Valore Atteso)
′
−1
E(b) = E (X X)
poiche’ y = Xβ + ε
′
−1
= E (X X)
X′y
X′ (Xβ
+ ε)
poiche’ X e’ non stocastico
=
(X′X)−1
= β
′
XX β
+ (X′X)−1
′
X E(ε)
Intuizione: se assumiamo che e’ possibile ripetere il
campionamento ci aspettiamo che in media lo stimatore sia pari al valore vero
2. Varianza
V (b) = E(b − E(b))(b − E(b))′
(K×1)
=
(1×K)
E(b − β )(b − β)′
dato che
′
−1
′
−1
′
′
= (X X) X y = (X X) X (Xβ + ε)
′
−1
′
′
−
1
′
= (X X) X Xβ + (X X) X ε
b
= β + (X′X)−1X′ε
b − β = (X′X)−1X′ε
allora
=
E(b−β )(b−β)′
′
−1
= E (X X)
Se
X′εε′X(X′X)−1
E [εi] = 0, ∀i
E
′
εε
= σ2I,
X sono deterministiche
abbiamo
V (b) =
(X′X)−1X′σ2I
= σ2(X′X)−1
N
X(X′X)−1
3 Teorema di Gauss-Markov: Si puo’ dimostrare che
lo stimatore OLS e’ il migliore (piu’ efficiente) nella
classe degli stimatori lineari corretti (Best Unbiased
Linear Estimator, BLUE)
Se σ2 non e’ nota e deve essere stimata (vedi stima di
varianza campionaria)
N
1
s2 =
e2i =⇒ V (b) = s2(X′X)−1
N − K i=1
V (bk ) = s2ckk
dove ckk è quell’ elemento della matrice (X′X)−1 che si
riferisce al coefficiente generico k
4 ε ∼ N(0, σ2),
=⇒
dato che b e’ una combinazione lineare di ε si ha b ∼ N(β , σ2(X′X)−1)
e bk ∼ N(β k , σ2ckk )
Avendo ottenuto la distribuzione campionaria
dello stimatore OLS possiamo procedere con test
d’ipotesi e intervallo di confidenza utilizzando le
statistiche t e F.
3.3
Proprieta’ asintotiche dello stimatore
1. Consistenza
p lim b = β
al crescere di N la probabilita’ che lo stimatore si discosti dal valore vero β diventa sempre piu’ piccola.
Condizione minima affinche’ lo stimatore possa essere utile al nostro scopo. Si verifica sotto ipotesi
piu’ deboli di quelle considerate fin’ora.
2. Normalita’ asintotica
√
′
−1
2
N (b − β) = N 0, σ (X X)
√
N misura la velocita’ di convergenza. Per N →
∞, (b − β) ha una distribuzione che con tutta la
massa di probabilita’ si concentra sullo zero
a
b∼N
β, s2(X′X)−1
la qualita’ dell’approssimazione migliora al crescere
di N.
Risultati ottenuti sfruttando le ipotesi di Gauss-Markov
combinate con l’ipotesi di errori normali ⇒ tutti i
risultati ottenuti con le statistiche t e F sono validi anche se i termini di errore non hanno una distribuzione
normale.
3.4
Analisi della varianza - digressione
Di quanto della variabile y e’ spiegata dal modello di
regressione lineare?
yi = ŷi + ei
yi = x′ib + ei
T SS Total Sum of Squares e’ una misura della variabilità
del campione osservata
ESS Explained Sum of Square = somma dei quadrati
spiegata dalla regressione
RSS Residual Sum of Square = somma dei quadrati dei
residui


N
T SS =


ESS =




=
=
N
(yi − ȳ)2
i=1
 
N

− 
2
(ŷi − ŷ) + RSS
 
i=1

(yi − ŷi)2
i=1
V (yi) = V (ŷi) + V (ei)



Intuitivamente piu’ e’ alto ESS rispetto a RSS tanto
migliore e’ la "spiegazione" della variabilita’ di y fornita
dalla regressione.
Misure di “bonta”’ del modello
ESS
RSS
2
R =
=1−
T SS
T SS
R2 e’ il coefficiente di determinazione
0 ≤ R2 ≤ 1
ossia la proporzione della varianza di y dovuta alla variazione dei regressori x.
Nota che se si aggiungono variabili al modello l’R2 presumibilmente aumenta fino a raggiungere 1. Una misura
piu’ consona e’ allora l’R2 aggiustato
R̄2
N −1 2
=1−
1−R
N −K
R̄2 aumenta solo se il contributo della nuova variabile al
“fit” della regressione piu’ che compensa a correzione per
la perdita dei gradi di lierta’, N − K.
R2 misura la qualita’ della approssimazione lineare