MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello di

MODELLO DI REGRESSIONE
LINEARE
• le ipotesi del modello di regressione classico,
• stima con i metodi dei minimi quadrati e
di massima verosimiglianza,
• teorema di Gauss-Markov,
• verifica di ipotesi e test di specificazione e
adattamento nel modello di regressione.
1
MODELLO DI REGRESSIONE
LINEARE
0
yt = xtβ + ut
• yt : variabile casuale dipendente
i
h
0
• xt = 1, xt1, xt2, ..., xtp : vettore dei regres-
sori (deterministici o stocastici)
h
i
0
• β = β0, β1,β2, ..., βp : vettore dei parametri
• ut : componente stocastica di valore atteso
nullo
FUNZIONE DI REGRESSIONE
0
E(yt|xt) = xtβ
2
NOTAZIONE MATRICIALE
y = Xβ + u

0

x

 1
 x0 
2  matrice T xP dei regressori
• X =




0
xT


y1
 y 
 2 
• y =


yT
u1
 u

• u = 2
 ..
uT
castiche
 vettore delle variabili risposta




 vettore delle componenti sto
3
ASSUNZIONI DEL MODELLO DI
REGRESSIONE LINEARE CLASSICO
• A0:la funzione di regressione E( y|X) = Xβ
è correttamente specificata
• A1: u è un vettore di T variabili casuali
indipendenti
• A2: le componenti di u sono variabili casuali di valore atteso nullo e varianza σ 2(omoschedast
• A3: le componenti di u sono variabili casuali normali
• A4: X è una matrice di costanti note (regressori non stocastici)
• A5: le colonne di X sono linearmente indipendenti =⇒ X0X è invertibile
4
STIMA di β, σ 2
Verosimiglianza
0
Da yt = xtβ + ut e per le A1, A2, A3, A4
(A4bis) si ha che le yt
sono variabili casuali indipendenti normali con
valore atteso
0
µt = xtβ e varianza σ 2.
QUINDI ho la verosimiglianza:
T
Y
1
0
1
2
√
L(β, σ ) =
exp − 2 (yt − xtβ)2
2
2σ
t=1 2πσ
e la log verosimiglianza:
T
2
L(β, σ ) = − ln(2πσ 2) −
2
0
1 X
2=
β)
(y
−
x
t
t
2σ 2 t
T
1
2
0 y − Xβ
= − ln(2πσ ) −
y
−
X
β
(
)
(
)
2
2σ 2
5
se σ 2 è noto massimizzare la log verosimiglianza
equivale a minimizzare (CRITERIO DEI MINIMI QUADRATI):
Q(β) = (y − Xβ )0 (y − Xβ )
RISULTATO FONDAMENTALE
Q(β) = (y − Xβ )0 (y − Xβ ) ha un unico minimo
in
b
−1
0
= XX
X0 y
è importante notare che:
y − Xb = y − X
−1
0
XX
X 0 y = (I T − M ) y
−1 0
0
XX
X è una matrice T xT idem-
dove M = X
potente (M = MM). Quindi anche (IT −M) è
idempotente.
6
Ne consegue
Q(b) = (y − Xb)0 (y − Xb) =
= y0 (IT −M) y = y0y − y0My =
= y0 y − y0 X
−1
0
XX
X0y =
y0y − y0Xb
più semplicemente (ma non per i calcoli)
Q(b) =
X
t
0
(yt − xtb)2 =
X
t
yt2 −
X
0
y t xt b
t
7
Verosimiglianza concentrata
Sostituendo b a β nella log verosimiglianza si
ottiene la log verosimiglianza concentrata:
T
2
L(σ ) = − ln(2πσ 2) −
2
1
Q(b)
2σ 2
che ha un massimo in s2 = Q(Tb) .
CONCLUDENDO: gli stimatori M.V. sono
Q(b)
2
s =
T
−1
0
b= X X
X0y
8
PROPRIETA’ DEGLI STIMATORI
A0 - A4bisbis garantiscono che
E(b) = β
E
T
s2
T −1−p
!
=E
Q(b)
T −1−p
!
= σ2
9
INFERENZA
Problemi di stima intervallare e verifica ipotesi
concernenti singli coefficienti di regressione βi
sono risolti a partire dai seguenti risultati (dimostrazione omessa) dipendenti in linea diretta dalla ipotesi di normalità indipendenza è
identica distribuzione degli errori
10
TESTS DI WALD
1-La variabile casuale
bi − βi
q
s̃2cii
è un variabile casuale pivotale di Student con
T − 1 − p gradi di libertà.
2-Sotto l’ipotesi nulla Cβ = c relativa a v vincoli lineari:
−1
−1
1
W = (Cb − c)0 s̃2C X0X
C0
(Cb − c)
v
è una variabile casuale di tipo F con v e T −1−p
gradi di libertà.
11
UN CASO PARICOLARE
yt = β0 + β1xt + ut


X=



1 x1
1 x2 


.. .. 
1 xt
"
#
P
n
x
P 2t ;
X0X= P
xt
xt
#
" P
P
−1
2
1
x
− xt
0
Pt
XX
= P 2
P
n
n xt − ( xt)2 − xt
"
b0
b1
#
#
" P
x
X0y = P t
xtyt
= X0X
−1


cov(xy)
x̄
ȳ
−

V ar(x) 
X0y = 
cov(xy)
V ar(x)

12
UNA APPLICAZIONE IMPORTANTE: effetto di una condizione (on /off) sul valore
atteso di una risposta sperimentale.
yt = µ + δ + ut, i = 1, 2, 3, ....n1(on)
yt = µ + ut, i = n1 + 1, ......, n1 + n2 = n (off)







X=







1
1
..
1
1
1
..
1
1
1
..
1
0
0
..
0















13
X0X =
X0X
−1
X0y
"
b0
b1
#
"
n1 + n2 n1
n1
n1
1
=
#
;
"
n1
−n1
−n1 n1 + n2
n 1 + n 2 ) n 1 − (n 1 )2
(


1
1
−n
n2
2


=
−1
−1
1
− n n1 + n2
" P 2
#
"
#
ny
n1Mn1 + n2Mn2
Pn11 t
=
=
n1Mn1
1 yt
−1
= X0X
X0y =
"
Mn2
(Mn1 − Mn2 )
#
14
#
=
VARIABILI CASUALI PIVOTALI PER
INFERENZA
Stima corretta di σ 2
σ̃ 2 =
=
Pn1
2 + Pn2
2
(x
−
M
)
(x
−
M
)
n
n
i
i
1
2
i=1
i=n1 +1
n1 + n2 − 2
(n1 − 1)Sn21 + (n2 − 1)Sn22
n1 + n2 − 2
"
T1
T2
#



=


.
Mn2 −µ √
√
n1
σ̃ 2
(M −Mn2 −δ)
r n1
−1
+n
σ̃ 2 n−1
1
2






15
=
UN PROBLEMA INFERENZIALE
IMPORTANTE
La variabile casuale pivotale T di student con
n1 + n2 − 2 gdl:
(Mn1 − Mn2 − δ0)
r
−1
−1
2
σ n1 + n2
è usata per verificare l’ipotesi H0 : δ = δ0 contro alternative unilaterali e bilaterali.
16
PREVISIONE
si vuole prevedere y ∗ = x∗0β + u cioè la risposta
in corrispondnza di x∗0. Il migliore previsore è il
valore atteso E(y ∗) = x∗0βh ( minimizza l’errore
i
∗ 2
∗
quadratico di previsione E (y − g(x )) ). Siccome i parametri non sono noti si usa il previ
sore puntuale:x∗0b = x∗0 X0X −1 X0y.
Errore quadratico di previsione condizionato ai regressori:
E(y ∗ − x∗0
−1
0
XX
X 0 y )2 =
= E(y ∗ − x∗0β)2 + E(x∗0β − x∗0b)2 =
= σ 2 + σ 2x∗0
−1
0
XX
x∗
Intervallo di previsione a livello 1-α:
x∗0b ± t
2 + s̃2 x∗0
(s̃
1−α/2,T −1−p
−1
0
XX
x∗ )
17
METODO EFFICIENTE PER
PREVISIONE
Supponiamo di dover prevedere
y ∗ = X∗ β + u∗
le previsioni e gli errori quadratici di previsione
sono ottenuti dalle”regressione aumentata”:
"
y
0
#
=
"
X 0
X∗ −I
#"
β
y∗
#
+
"
u
u∗
#
lo stimatore di y∗ nel modello precedente fornisce le previsioni X∗b richieste e i corrispondenti elementi nella matrice
# varianze covari"
β
le stime degli eranze dello stimatore di
y∗
rori quadratici di previsione (Greene pag.309).
18
Varianza spiegata Varianza Residua Indice
di determinazione Multipla
Somma dei quadrati totale e devianza totale
qT2 = y0y
0 y−T ȳ 2
d2
=
y
T
Somma dei quadrati spiegata e devianza spiegata
2 = y0 My
qS
0
2
d2
S = y My−T ȳ
Somma dei quadrati residua e devianza residua
(concetti coincidenti)
2 = y0 I − M y
qR
( T
)
0
d2
R = y (I T − M ) y
19
Indice di determinazione multipla centrato, non
¯
centrato e corretto
y0My−T ȳ 2
y 0 (I − M ) y
=1−
0
2
y y−T ȳ
y0y−T ȳ 2
y0My
2
Rnocentr =
y0 y
2
Rcentr
=
y0(I−M)y
T −1
T −p
2
2
=1−
(1 − Rcentr
)
Rcorretto = 1 − 0
2
y y−T ȳ
T −p
T −1
20
CONFRONTO FRA MODELLI
Sia d2
R1 la devianza residua del modello con p
regressori e d2
R0 la devianza residua del modello con βi = 0, i = 1, 2, ...., v.
d2
−d2
R0
R1 T −1−p è una F di snedecor
la statistica
v
d2
R1
con v e T − 1 − p gdl.
Confronto con quanto detto prima!!!!!
21