Lucidi su criticità e estensioni del modello lineare

annuncio pubblicitario
Modelli statistici
Criticità e estensioni del modello lineare
F. Pauli
A.A. 2016/2017
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Il modello lineare: ipotesi
Il modello lineare – e l’inferenza sullo stesso – si basano sugli assunti
(a) Y = X β + ε;
(b) ε ∼ N 0, σ 2 I ;
(c) X non stocastica, rango(X ) = p.
Dall’analisi dei residui possono emergere discrepanze tra i dati e uno o più
assunti.
Che si fa?
1. Niente (cioè uso il modello come se non ci fossero discrepanze)
I
I
Ragionevole se lo scostamento dalle ipotesi è contenuto.
Occorre essere coscienti delle conseguenze (quali proprietà non
valgono, quali procedure non sono giustificate)
2. Aggiustare il modello.
3. Usare un altro metodo di stima.
4. Abbandonare il modello per un’estensione.
F. Pauli
Criticità e estensioni del modello lineare
2 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Limiti del modello lineare, cosa può andare storto
Si possono avere diverse discrepanze tra dati e assunzioni, in particolare
esplodiamo gli assunti sopra e consideriamo
Yi = β1 xi1 + . . . + βp xip + εi
Y
= Xβ + ε
V (ε) = Ω
E (εi ) = 0
E (Y ) = µ = X β
Yi ∼ N (·, ·)
εi ∼ N (·, ·)
ε ∼ N n (·, ·)
omoschedasticità
V (Yi ) = V (Y1 )
V (εi ) = V (ε1 )
ωii = ω11
(4)
incorrelazione
(indipendenza con (2))
Yi ⊥Yj , ∀i 6= j
εi ⊥εj , ∀i 6= j
ωij = 0, ∀i 6= j
(5)
X non stocastica
a rango pieno
(1)
linearità
(2)
normalità
(3)
E (Yi ) =
Pp
j=1 xij βj
(x1 , . . . , xp ) lin. indip.
rango(X ) = p
Le espressioni in i si intendono valide per i = 1, . . . , n
F. Pauli
Criticità e estensioni del modello lineare
3 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
4 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non linearità
La media di Y è funzione non lineare delle x = (x1 , . . . , xp )
E (Yi |xi ) = f (xi ) 6= xT
i β
(xi indica qui la riga i-esima della matrice X ).
A meno che non sia sufficiente un’approssimazione lineare di f , una
condizione di questo tipo rende il modello inadeguato.
Due prospettive:
1. una forma funzionale per la relazione tra Y e x è suggerita, a meno di
alcuni parametri, dalla teoria sottostante al fenomeno che Y e x
descrivono (ad es. una teoria fisica o economica),
2. dobbiamo studiare la relazione tra le quantità senza pregiudizi
(suggerimenti).
F. Pauli
Criticità e estensioni del modello lineare
5 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non linearità: trasformazioni
Nella prima prospettiva, ci si può ricondurre al ML (NB: lineare nei
parametri) se la relazione è linearizzabile attraverso
I
trasformazioni delle xj (g2 , . . . , gp funzioni note)
Yi = β1 + β2 g2 (xi2 ) + . . . + βp gp (xip ) + εi
I
trasformazioni di x e Y , ad es.
α2 α3 xi3
Yi = α1 xi2
e
εi
diviene
log Yi = log α1 + α2 log xi2 + α3 xi3 + log εi ,
F. Pauli
Criticità e estensioni del modello lineare
6 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non linearità: trasformazioni
Nella seconda prospettiva
I
si osserva che la relazione tra Y e x non è adeguatamente descritta
da un’applicazione lineare;
I
si cerca una trasformazione su x e, eventualmente, Y , che ‘linearizzi’
la relazione;
I
tranne che nel caso di un’unica variabile esplicativa questo è un modo
poco realistico di procedere, e anche poco efficiente dato che le
trasformazioni possibili sono infinite;
√
è in ogni caso ragionevole provarne alcune, tipicamente x, 1/x, x 2 o
log x o analoghe per y .
I
F. Pauli
Criticità e estensioni del modello lineare
7 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Modelli non lineari
Sarebbe utile un metodo per stimare una funzione
f (x) = E (Y |x)
senza fare particolari ipotesi sulla forma di f .
A questa esigenza rispondono i modelli di regressione semiparametrici e
non parametrici
I
modello polinomiale (naı̈f)
I
regressione col metodo del nucleo (kernel regression)
I
polinomi locali (loess)
funzioni spline
I
I
I
di regressione (regression splines)
di lisciamento (smoothing splines)
F. Pauli
Criticità e estensioni del modello lineare
8 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Modello polinomiale
Un’alternativa alle trasformazione è usare un modello che stimi una
relazione non lineare, la cosa più semplice è specificare un modello
polinomiale (consideriamo un’unica esplicativa)
Yi = β1 +
p
X
β1+j x j + εi
j=1
+ i polinomi, se di grado sufficiente, possono approssimare qualunque
funzione
− la scelta del grado è cruciale.
− può portare problemi di multicollinearità.
In pratica, funziona in casi semplici con grado basso (ma non estrapolare).
F. Pauli
Criticità e estensioni del modello lineare
9 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
0.4
0.6
0.8
1.0
2
−2 −1
0
0.0
0.2
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
1
p= 6
−3
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0
−2
−2
−1 0 1 2
p= 8
p= 9
−4
−3
−4
p= 7
0.2
2
0.2
0.0
p= 5
0 1 2
0.0
−2
p= 4
p= 3
−1 0
0
0
1
1
2
2
0.2
p= 2
2
p= 1
0.0
−2 −1
1
2
1
0
−2 −1
−2 −1
0
1
2
Modello polinomiale: esempio
0.0
0.2
0.4
0.6
F. Pauli
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
Criticità e estensioni del modello lineare
10 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
0.2
0.4
0.6
0.8
1.0
2
0.0
0.2
−2 −1
0.4
0.6
0.8
1.0
p= 3
0.0
0.2
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0
1
2
1 2
0.0
p= 2
2
p= 1
0
1
2
1
0
−2 −1
−2 −1
0
1
2
Modello polinomiale: esempio
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.2
−2
p= 7
0.0
F. Pauli
p= 8
0.0
0.2
0.0
−2 0 2 4 6 8
2 4 6 8
0 1 2 3 4
0.2
−8
p= 4
0.0
−2
−4
−1
−3
−2 −1
0
p= 6
p= 5
0.2
p= 9
0.0
0.2
Criticità e estensioni del modello lineare
10 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
Regressione col metodo del nucleo, stimatore di
Nadaraya-Watson
0.8
L’obiettivo è la stima di
−0.2
0.0
0.2
y
0.4
0.6
f (x) = E (Y |X = x)
0.2
0.4
0.6
0.8
1.0
L’idea più semplice è la media dei punti vicini
P
i:|x−xi |<h yi
fˆ(x) =
#{i : |x − xi | < h}
x
F. Pauli
Criticità e estensioni del modello lineare
11 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
Regressione col metodo del nucleo, stimatore di
Nadaraya-Watson
0.8
L’obiettivo è la stima di
−0.2
0.0
0.2
y
0.4
0.6
f (x) = E (Y |X = x)
0.2
0.4
0.6
0.8
1.0
L’idea più semplice è la media dei punti vicini
P
i:|x−xi |<h yi
fˆ(x) =
#{i : |x − xi | < h}
x
F. Pauli
Criticità e estensioni del modello lineare
11 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
Regressione col metodo del nucleo, stimatore di
Nadaraya-Watson
0.8
L’obiettivo è la stima di
y
−0.2
0.0
0.2
0.4
0.6
f (x) = E (Y |X = x)
0.2
0.4
0.6
0.8
1.0
L’idea più semplice è la media dei punti vicini
P
i:|x−xi |<h yi
fˆ(x) =
#{i : |x − xi | < h}
x
Una versione più sofisticata prevede di pesare le osservazioni in base alla
vicinanza a x
Pn
x−xi
K
yi
i=1
h
fˆ(x) = Pn
x−xi
i=1 K
h
dove K è una funzione opportuna, ad esempio la densità della N (0, 1)
F. Pauli
Criticità e estensioni del modello lineare
11 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
12 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non normalità
La normalità ‘serve’ per l’inferenza sui parametri.
In assenza di normalità
I
non valgono gli i.c. o test;
I
d’altra parte, gli SMQ sono corretti e efficienti (cioè a varianza
minore) tra gli stimatori lineari corretti (teorema di Gauss-Markov);
I
non sono di massima verosimiglianza;
I
vale l’interpretazione geometrica.
Le opzioni in caso di non normalità includono
I
tenersi gli SMQ con le proprietà che hanno;
I
trasformazioni normalizzanti (Box-Cox);
I
GLM
F. Pauli
Criticità e estensioni del modello lineare
13 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Ipotesi del II ordine e teorema di Gauss-Markov
Teorema di Gauss-Markov
Si assume
(a) Y = X β + ε;
(b’) V (ε) = σ 2 I ;
(c) X non stocastica a rango pieno.
indicando con β̂ lo SMQ, se β̃ è uno stimatore lineare
e corretto di β, allora
V (β̃i ) ≥ V (β̂i )
per i = 1, . . . , p.
F. Pauli
Criticità e estensioni del modello lineare
14 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, dimostrazione
Essendo lineare, β̃ può essere scritto, posto A = (X T X )−1 X T
β̃ = Ly = (A + C )y = β̂ + C y
Essendo β̃ corretto, si ha ∀β
β = E (β̃) = (A + C )E (y) = (A + C )X β = β(I + CX )
⇒ CX = 0
La varianza è dunque
V (β̃) = V ((A + C )y)
= (A + C )V (y)(A + C )T
= σ 2 (AAT + CAT + AC T + CC T )
= σ 2 (X T X )−1 + σ 2 CC T
= V (β̂) + σ 2 CC T
poiché
AC T = CAT = C ((X T X )−1 X T )T = CX (X T X )−1 = 0.
F. Pauli
Criticità e estensioni del modello lineare
15 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, dimostrazione
Essendo lineare, β̃ può essere scritto, posto A = (X T X )−1 X T
β̃ = Ly = (A + C )y = β̂ + C y
Essendo β̃ corretto, si ha ∀β
β = E (β̃) = (A + C )E (y) = (A + C )X β = β(I + CX )
⇒ CX = 0
La varianza è dunque
V (β̃) = V ((A + C )y) = V (β̂) + σ 2 CC T
Siccome i termini diagonali di CC T sono non negativi (somma di
quadrati) si ha la tesi.
F. Pauli
Criticità e estensioni del modello lineare
15 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, estensione
Questa proprietà si estende a combinazioni lineari di β nel senso che
ψ̂ = aT β̂ è lo stimatore più efficiente di ψ = aT β tra gli stimatori lineari
non distorti.
Entrambe le affermazioni seguono immediatamente dalla seguente
formulazione del teorema.
Teorema di Gauss-Markov II
Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei minimi quadrati, se β̃ è uno stimatore lineare
e corretto di β, allora
V (β̃) ≥ V (β̂)
nel senso che V (β̃) − V (β̂) è semidefinita positiva.
F. Pauli
Criticità e estensioni del modello lineare
16 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, estensione, dimostrazione
Sia β̃ lineare,
I β̃ = C T y con C (n × p),
I V (β̃) = σ 2 C T C
ricordando anche che V (β̂) = σ 2 (X T X )−1 ,
V (β̃) − V (β̂) =σ 2 (C T C − (X T X )−1 ).
Essendo poi β̃ corretto si ha C T E (y) = C T X β = β e quindi
C T X = X T C = I , si può scrivere perciò
V (β̃) − V (β̂) =σ 2 (C T C − C T X (X T X )−1 X T C )
=σ 2 C T (I − P)C ,
essendo però (I − P) idempotente si ha, per qualunque a ∈ Rp ,
aT C T (I − P)C a = aT C T (I − P)T (I − P)C a = ||(I − P)C a||2 ≥ 0,
come volevasi dimostrare.
F. Pauli
Criticità e estensioni del modello lineare
17 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, estensione, conseguenze
Da questo discende
1. essendo i termini sulla diagonale di una matrice semidefinita positiva
non negativi
V (β̃i ) ≥ V (β̂i )
(cioè la prima formulazione del teorema diventa un caso particolare);
2. posto ψ̃ = aT β̃ si ha allora
V (ψ̃) = aT V (β̃)a
e quindi
V (ψ̃) − V (ψ̂) = aT V (β̃)a − aT V (β̂)a = aT (V (β̃) − V (β̂))a ≥ 0.
F. Pauli
Criticità e estensioni del modello lineare
18 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox
Un’altra strategia è di rintracciare una trasformazione f tale per cui
f (Y ) ∼ N () e modellare il trasformato.
Una classe di trasformazioni tra cui cercare è quella di Box-Cox, per y > 0
( λ
y −1
λ 6= 0,
λ
yλ = φλ (y ) =
log y λ = 0;
che può essere estesa a y qualunque come
(
λ
yλ,ν = φλ,ν (y ) =
(y +ν) −1
λ
log(y + ν)
λ 6= 0,
λ = 0.
Il parametro λ può essere scelto per tentativi, provando l’effetto di diversi
valori sulla distribuzione, oppure stimato col metodo della massima
verosimiglianza.
F. Pauli
Criticità e estensioni del modello lineare
19 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, stima di λ
L’obiettivo è trovare un λ per il quale il trasformato yλ soddisfa
yλ ∼ N X β, σ 2 I
cioè tale che la densità di yλ è
2 −n/2
f (yλ ) = (2πσ )
1
T
exp − 2 (yλ − X β) (yλ − X β)
2σ
da questo, la densità di y è
f (y) = f (yλ )J(λ, y) = f (yλ )
n
Y
yiλ−1
i=1
allora
Y
n
1
yiλ−1 .
L(λ, β, σ 2 ) ∝ f (y) = (2πσ 2 )−n/2 exp − 2 (yλ − X β)T (yλ − X β)
2σ
i=1
F. Pauli
Criticità e estensioni del modello lineare
20 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, stima di λ
Vogliamo usare
Y
n
1
L(λ, β, σ 2 ) ∝ f (y) = (2πσ 2 )−n/2 exp − 2 (yλ − X β)T (yλ − X β)
yiλ−1 .
2σ
i=1
per l’inferenza su λ, un modo è ricavare la verosimiglianza profilo,
notiamo che fissato λ il massimo si ha per
β̂λ = (X T X )−1 X T yλ
σ̂λ2 = (yλ − X β̂λ )T (yλ − X β̂λ )/n
la verosimiglianza (profilo) per λ è dunque
Lp (λ) = argmaxL(λ, β, σ 2 ) = L(λ, β̂λ , σ̂λ2 )
β,σ 2
n
n n
oY
2
∝ exp − log σ̂λ
yiλ−1 .
2
i=1
F. Pauli
Criticità e estensioni del modello lineare
21 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, stima di MV per λ
Si ha quindi
n
X
n
n
lp (λ) = − log σ̂λ2 + (λ − 1)
log yi = − log
2
2
i=1
σ̂λ2
(
!
2(λ−1)/n
i=1 yi )
Qn
Si noti che

sλ2 =
σ̂λ2
Qn
( i=1 yi )2(λ−1)/n
=
T 

1  yλ − X β̂λ
  yλ − X β̂λ

 Q
λ−1   Q
λ−1 
n
1/n
1/n
n
n
i=1 yi
i=1 yi
1 T
y (I − P)yλ,g
n λ,g
Q
1/n
dove yλ,g = yλ /( ni=1 yi ) e P è la matrice di proiezione associata al
modello. La quantità nsλ2 è quindi la somma dei quadrati dei residui per il
modello
yλ,g = X β + ε,
=
F. Pauli
Criticità e estensioni del modello lineare
22 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, procedura
1. per una griglia di valori di λ ottengo la verosimiglianza profilo lp (λ)
I
I
stimo il modello yλ,g = X β + ε
ricavo σ̂λ2 e quindi lp (λ) con le formule sopra
2. determino λ ottimale
3. calcolo il trasformato conseguente e poi impiego il modello lineare sul
trasformato.
Si noti che cosı̀ facendo l’inferenza sul modello lineare (su β e σ 2 ) è fatta
condizionatamente al valore scelto per λ, è stato argomentato che questo
ha un effetto contenuto sui risultati.
F. Pauli
Criticità e estensioni del modello lineare
23 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazione di Box-Cox: esempio
25
(Intercept)
x
Estimate
4.6271
11.9775
Std. Error
2.5185
1.8616
t value
1.84
6.43
Pr(>|t|)
0.0724
0.0000
10
15
20
y
30
35
40
Il ML Yi = β1 + β2 xi + εi porta a
0.5
1.0
1.5
2.0
10
5
0
−5
Sample Quantiles
15
x
−2
−1
0
1
2
Theoretical Quantiles
F. Pauli
Criticità e estensioni del modello lineare
24 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazione di Box-Cox: esempio
25
Estimate
4.6271
11.9775
(Intercept)
x
Std. Error
2.5185
1.8616
t value
1.84
6.43
Pr(>|t|)
0.0724
0.0000
10
15
20
y
30
35
40
Il ML Yi = β1 + β2 xi + εi porta a
Si disegna perciò la log-verosimiglianza profilo.
1.0
1.5
2.0
−25
0.5
95%
−35
−40
−45
10
5
−1
0
1
2
0
−2
λ
−5
Sample Quantiles
15
log−Likelihood
−30
x
−2
−1
0
Theoretical Quantiles
1
2
Questa è massima in λ̂ = −0.1, si trasformano perciò i dati
secondo la
yλ̂ = (y −0.1 − 1)/ − 0.1
e si stima un nuovo modello,
yλ̂,i = β10 + β20 xi + ε0i
F. Pauli
Criticità e estensioni del modello lineare
24 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazione di Box-Cox: esempio
25
(Intercept)
x
Estimate
4.6271
11.9775
Std. Error
2.5185
1.8616
t value
1.84
6.43
Pr(>|t|)
0.0724
0.0000
t value
21.84
8.02
Pr(>|t|)
0.0000
0.0000
10
15
20
y
30
35
40
Il ML Yi = β1 + β2 xi + εi porta a
0.5
1.0
1.5
2.0
Il modello yλ̂,i = β10 + β20 xi + ε0i porta a
Std. Error
0.0862
0.0637
0
Confrontiamo la previsione di Y ottenuta col modello iniziale
(in nero) e quella ottenuta col modello trasformato (in rosso),
−2
−1
0
1
2
ŷˆ = (λ̂ŷλ̂ + 1)1/λ̂
0.4
Theoretical Quantiles
0.0
0.2
= (λ̂(β̂10 + β̂20 x) + 1)1/λ̂
−0.2
Sample Quantiles
Estimate
1.8823
0.5109
5
10
(Intercept)
x
−5
Sample Quantiles
15
x
−2
−1
0
Theoretical Quantiles
F. Pauli
1
2
Criticità e estensioni del modello lineare
24 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Limiti delle trasformazioni
Il metodo di trasformare la variabile risposta è spesso efficace.
Si noti anche che si hanno diverse classi all’interno delle quali fare la
ricerca.
Ha i limiti insiti nelle trasformazioni (discussi poi).
In ogni caso, ci sono situazioni in cui nessuna trasformazione può
normalizzare la y , ad esempio quando questa ha valori discreti (si pensi al
caso limite in cui Y è una variabile di Bernoulli), in questi casi occorre
cambiare il modello.
F. Pauli
Criticità e estensioni del modello lineare
25 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Modelli lineari generalizzati (GLM)
Classe di modelli per variabile risposta non normale, si assume
y θi − b(θi )
Yi ∼ f (y , θi , ν) = exp −
+ κ(y , ν)
ν
e che una funzione della media sia funzione lineare delle variabili
esplicative,
g (E (Yi )) = xT
i β.
Nella classe esponenziale rientrano numerose distribuzioni, continue e
discrete quali la distribuzione gamma, la Poisson, la binomiale.
Con i GLM si modella dunque la media della variabile risposta, legando
quest’ultima a una funzione lineare delle variabili esplicative. Si noti che
non si ha la struttura additiva segnale+errore del modello lineare.
F. Pauli
Criticità e estensioni del modello lineare
26 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
27 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Eteroschedasticità
Sia
V (εi ) = V (Yi |xi ) = σi2
lo SMQ è corretto ma non efficiente, è ancora normale ma la matrice di
varianza è
(X T X )−1 X T V (ε)X (X T X )−1
e risultati conseguenti.
Nel seguito si trattano tre possibili rimedi,
I
si stima il modello con i minimi quadrati, ma si calcola la matrice di
varianza dello stimatore tenendo conto dell’eteroschedasticità;
I
si modifica il modello trasformando la variabile risposta (si parla di
trasformazioni per stabilizzare la varianza);
I
il modello è invariato ma si modifica il metodo di stima, usando i
minimi quadrati generalizzati.
F. Pauli
Criticità e estensioni del modello lineare
28 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Stimatori consistenti per V (β̂) in presenza di
eteroschedasticità
Se V (ε) = Ω con Ω diagonale, allora si hanno degli stimatori consistenti
per V (β̂) ponendo
V̂ (β̂) = (X T X )−1 X T Ω̂X (X T X )−1
dove Ω̂ = diag(ω1 , . . . , ωn ) e
HC 0 : ωi = ei2
n
e2
n−p i
1
HC 2 : ωi =
e2
1 − hii i
1
HC 3 : ωi =
e2
(1 − hii )2 i
1
HC 4 : ωi =
e 2 , δi = min{4, hii /h̄}
(1 − hii )δi i
HC 1 : ωi =
F. Pauli
Criticità e estensioni del modello lineare
29 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni per stabilizzare la varianza
Un’opzione è, anche qui, operare una trasformazione della Y , questa è
un’alternativa efficace se la varianza di Y è legata alla media,
V (Yi ) ≈ φh(E (Yi )),
in tal caso infatti una trasformazione
Yi∗ = g (Yi )
ha, usando il metodo delta, varianza approssimativamente pari a
V (g (Yi )) ≈ g 0 (E (Yi ))2 V (Yi ) = g 0 (E (Yi ))2 φh(E (Yi )) = φ,
che è costante se
h(·) ∝ 1/(g 0 (·))2 .
F. Pauli
Criticità e estensioni del modello lineare
30 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni per stabilizzare la varianza
Un’opzione è, anche qui, operare una trasformazione della Y , questa è
un’alternativa efficace se la varianza di Y è legata alla media,
V (Yi ) ≈ φh(E (Yi )),
Alcune trasformazioni che stabilizzano specifici schemi di varianza:
schema
h(µ)
V (Y ) = φE (Y )
V (Y ) = φE (Y )2
V (Y ) = φE (Y )3
V (Y ) = φE (Y )(1 − E (Y ))
µ
µ2
µ3
µ(1 − µ)
F. Pauli
g (y )
√
y
log y
y −1/2
√
sin−1 y
(g 0 (y ))−2
4y
y2
4y 3
4y (1 − y )
Criticità e estensioni del modello lineare
30 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
Trasformazioni per stabilizzare la varianza:
√
• Trasformazioni
•
Y
0
20
y
40
Si considerino i dati (xi , Yi ) nella figura,
stimando su essa il modello
0
2
4
6
8
Yi = β1 + β2 x + εi
10
2
si ottiene
0
(Intercept)
x
10
20
30
40
50
fitted(fit)
Std. Error
1.5151
0.2798
t value
1.15
17.00
Pr(>|t|)
0.2560
0.0000
e residui evidentemente eteroschedastici.
0
1
Si procede perciò a trasformare
la variabile
√
risposta definendo Yi∗ = Yi e si ha
(Intercept)
x
−2
rstandard(fit1)
Estimate
1.7419
4.7575
−2
rstandard(fit)
x
2
3
4
5
fitted(fit1)
F. Pauli
6
7
Estimate
2.0945
0.5388
Std. Error
0.1769
0.0327
t value
11.84
16.49
Pr(>|t|)
0.0000
0.0000
e l’analisi dei residui è soddisfacente.
Criticità e estensioni del modello lineare
31 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Minimi quadrati generalizzati
I minimi quadrati generalizzati sono un metodo di stima alternativo,
usando il quale si mantiene invariata la struttura di base del modello, si ha
cioè ancora
Y = X β + ε.
ma V (ε) = σ 2 Ω, dove Ω è una matrice nota.
La log-verosimiglianza del modello è allora
n
1
l(β, σ 2 ) = − log σ 2 − 2 (y − X β)T Ω−1 (y − X β)
2
2σ
e quindi lo SMV è
β̂ = argmin(y − X β)T Ω−1 (y − X β) = (X T Ω−1 X )−1 X T Ω−1 y.
β
Diventa poi banale calcolare la matrice di varianza e successivamente fare
inferenza sui parametri, si noti infatti che β̂ è ancora una funzione lineare
delle osservazioni.
F. Pauli
Criticità e estensioni del modello lineare
32 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Minimi quadrati generalizzati
Se Ω è diagonale con i GLS si minimizza la funzione
SQg =
n
X
1
2
(yi − xT
i β)
ωii
i=1
Peso lo scarto i-esimo in ragione del rapporto tra varianze (pesano meno
gli scostamenti dalle yi ove la varianza è maggiore).
Si può interpretare la stima GLS come una stima OLS su dei dati
trasformati linearmente:
I
posto Ω−1 = G T G
I
lo stimatore GLS è lo stimatore OLS per il modello con risposta
Y ∗ = G Y e X = GX .
Se la matrice Ω non è nota o è solo parzialmente nota, l’inferenza si
complica.
F. Pauli
Criticità e estensioni del modello lineare
33 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
4
Minimi quadrati generalizzati: esempio
−1
0
1
y
2
3
È noto che la varianza è 16 volte più grande
quando x < 1/4 o x > 3/4, il vero modello è
E (Y ) = 1 + x
0.0
0.2
0.4
0.6
0.8
1.0
x
F. Pauli
Criticità e estensioni del modello lineare
34 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
4
Minimi quadrati generalizzati: esempio
−1
0
1
y
2
3
È noto che la varianza è 16 volte più grande
quando x < 1/4 o x > 3/4, il vero modello è
E (Y ) = 1 + x
0.0
0.2
0.4
0.6
0.8
1.0
2
3
x
0
−1
−2
rstandard(fit)
1
Stima OLS, s = 0.656
−3
(Intercept)
x
1.0
1.2
1.4
1.6
1.8
Std. Error
0.0717
0.1211
t value
14.33
7.92
Pr(>|t|)
0.0000
0.0000
2.0
(gli s.e. consistenti sono 0.082 e 0.156)
2
fitted(fit)
−1
0
1
Stime GLS, s = 0.201
−2
(Intercept)
x
−3
residuals(fit1, type = "pearson")
Estimate
1.0270
0.9599
1.0
1.2
1.4
1.6
1.8
Value
1.03
0.98
Std.Error
0.05
0.09
t-value
21.01
10.45
p-value
0.00
0.00
2.0
fitted(fit1)
F. Pauli
Criticità e estensioni del modello lineare
34 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
4
Minimi quadrati generalizzati: esempio
−1
0
1
y
2
3
È noto che la varianza è 16 volte più grande
quando x < 1/4 o x > 3/4, il vero modello è
E (Y ) = 1 + x
0.0
0.2
0.4
0.6
0.8
1.0
−2
−1
0
1
Stima OLS, s = 0.656
(Intercept)
x
−3
Sample Quantiles
2
3
x
−3
−2
−1
0
1
2
Estimate
1.0270
0.9599
Std. Error
0.0717
0.1211
t value
14.33
7.92
Pr(>|t|)
0.0000
0.0000
3
(gli s.e. consistenti sono 0.082 e 0.156)
−1
0
1
Stime GLS, s = 0.201
−2
(Intercept)
x
−3
Sample Quantiles
2
Theoretical Quantiles
−3
−2
−1
0
1
2
Value
1.03
0.98
Std.Error
0.05
0.09
t-value
21.01
10.45
p-value
0.00
0.00
3
Theoretical Quantiles
F. Pauli
Criticità e estensioni del modello lineare
34 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
y
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Minimi quadrati generalizzati: esempio
È noto che la varianza è proporzionale a x, il
vero modello è E (Y ) = 1 + x.
0.5
1.0
1.5
2.0
x
F. Pauli
Criticità e estensioni del modello lineare
35 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
y
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Minimi quadrati generalizzati: esempio
È noto che la varianza è proporzionale a x, il
vero modello è E (Y ) = 1 + x.
0.5
1.0
1.5
2.0
x
1
−1
0
(Intercept)
x
Estimate
1.0808
0.8903
Std. Error
0.0804
0.0664
t value
13.45
13.41
Pr(>|t|)
0.0000
0.0000
−3
−2
rstandard(fit)
2
3
Stima OLS, s = 0.485
1.5
2.0
2.5
(gli s.e. consistenti sono 0.058 e 0.072)
fitted(fit)
0
Estimate
1.0402
0.9356
Std. Error
0.0303
0.0474
t value
34.34
19.73
Pr(>|t|)
0.0000
0.0000
−2
−1
(Intercept)
x
−3
rstandard(fit1)
1
2
Stime GLS, s = 0.391
1.5
2.0
2.5
fitted(fit1)
F. Pauli
Criticità e estensioni del modello lineare
35 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
y
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Minimi quadrati generalizzati: esempio
È noto che la varianza è proporzionale a x, il
vero modello è E (Y ) = 1 + x.
0.5
1.0
1.5
2.0
x
1
−1
0
(Intercept)
x
Estimate
1.0808
0.8903
Std. Error
0.0804
0.0664
t value
13.45
13.41
Pr(>|t|)
0.0000
0.0000
−3
−2
Sample Quantiles
2
3
Stima OLS, s = 0.485
−3
−2
−1
0
1
2
3
(gli s.e. consistenti sono 0.058 e 0.072)
Theoretical Quantiles
0
Estimate
1.0402
0.9356
Std. Error
0.0303
0.0474
t value
34.34
19.73
Pr(>|t|)
0.0000
0.0000
−2
−1
(Intercept)
x
−3
Sample Quantiles
1
2
Stime GLS, s = 0.391
−3
−2
−1
0
1
2
3
Theoretical Quantiles
F. Pauli
Criticità e estensioni del modello lineare
35 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Quale opzione?
Stimatore consistente per V (β̂)
+ semplice, non cambio le stime
− ha una giustificazione asintotica, è comunque una soluzione
approssimata
Trasformazione
+ soluzione “esatta” (se la trasformazione funziona, ma questo è
verificabile)
− modello una variabile diversa, l’interpretazione sulla scala originale
può essere difficile
Minimi quadrati generalizzati
+ soluzione “esatta”, purché valgano le ipotesi che facciamo sulle
varianze
− richiede ipotesi sulle varianze che possono non essere facili da
formulare
F. Pauli
Criticità e estensioni del modello lineare
36 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
37 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Dipendenza
La dipendenza può assumere molte forme.
In genere è legata alla struttura delle unità statistiche
I
se le u.s. sono osservazioni di un fenomeno nello spazio, punti
spazialmente vicini possono essere “simili”, Yi sarà tanto più correlato
a Yj quanto più i siti delle osservazioni i e j sono vicini.
I
se le osservazioni sono raggruppate: ciascuna osservazione è uno
studente, gli studenti appartengono a diverse classi, le u.s. che
appartengono alla stessa classe sono correlate.
I
ci sono osservazioni ripetute dello stesso individuo: pressione
sanguigna misurata in momenti diversi della giornata per n individui.
I
se le osservazioni sono temporali (Yt , xt ) (dove t rappresenta il
tempo) è possibile che osservazioni vicine nel tempo siano correlate.
Spesso la correlazione nei residui può essere legata all’omissione di
un’esplicativa rilevante.
F. Pauli
Criticità e estensioni del modello lineare
38 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Dipendenza temporale
Illustriamo il problema nel caso di dipendenza temporale, si hanno cioè
osservazioni nel tempo (Yt , xt ) (per semplicità consideriamo un’unica
esplicativa), i dati provengono da
Yt = β1 + β2 xt + εt
εt = ρεt−1 + ut , ut ∼ IID(N (0, σ 2 ))
si dice che gli errori εt seguono un processo autoregressivo di ordine 1
(AR(1)).
Ci sono due passi
I
verificare se vi è dipendenza → test di Durbin-Watson
I
se la dipendenza c’è, stimare il modello tenendone conto → metodo
di Cochrane-Orcutt
F. Pauli
Criticità e estensioni del modello lineare
39 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
0.5
et
0.0
−1.0
−0.5
0.0
−1.0
−0.5
et
0.5
1.0
Individuazione della dipendenza temporale
0
50
100
150
200
t
Il grafico dei residui contro l’indice
temporale, in presenza di
autocorrelazione positiva, residui
successivi tendono ad avere lo stesso
segno ed essere vicini tra loro.
F. Pauli
−1.0
−0.5
0.0
0.5
1.0
et−1
Può essere utile anche un grafico di
et contro et−1 , in caso di
correlazione dovrebbe mostrare un
andamento lineare.
Criticità e estensioni del modello lineare
40 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
0.5
et
0.0
−0.5
−1.0
−1.0
−0.5
et
0.0
0.5
1.0
Individuazione della dipendenza temporale
0
50
100
150
200
t
Il grafico dei residui contro l’indice
temporale, in presenza di
autocorrelazione negativa, residui
successivi tendono ad avere segno
opposto ed essere lontani.
F. Pauli
−1.0
−0.5
0.0
0.5
1.0
et−1
Può essere utile anche un grafico di
ei contro ei−1 , in caso di correlazione
dovrebbe mostrare un andamento
lineare con pendenza negativa.
Criticità e estensioni del modello lineare
41 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Individuazione della dipendenza: test di Durbin-Watson
Ci si basa sulla statistica
Pn
(et − et−1 )2
d = t=2Pn
2
t=1 et
F. Pauli
Criticità e estensioni del modello lineare
42 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Individuazione della dipendenza: test di Durbin-Watson
Ci si basa sulla statistica
Pn
Pn
Pn
Pn
2
2
(et − et−1 )2
t=1 et +
t=2 et−1 − 2
t=2 et et−1
t=2
Pn
Pn
d=
=
2
2
t=1 et
t=1 et
Pn
t=1 et et−1
≈2 1− P
= 2(1 − r )
n
2
t=1 et
dove r è la correlazione empirica tra et e et−1 , dunque d ∈ [0, 4] e
I d vicino a 2 indica assenza di correlazione
I d vicino a 0 (4) indica correlazione positiva (negativa)
si hanno dei valori tabulati dL e dU tali per cui


se d < dL o d > 4 − dL
rifiuto H0 : ρ = 0
accetto H0 : ρ = 0 se dU < d < 4 − dU


inconclusivo
altrimenti
Valori critici esatti dipendono dalle specifiche X a disposizione.
F. Pauli
Criticità e estensioni del modello lineare
42 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochrane-Orcutt
Se la struttura del modello è
Yt = β1 + β2 xt + εt
εt = ρεt−1 + ut , ut ∼ IID(N (0, σ 2 ))
allora si ha, per t = 2, . . . , n
Yt − ρYt−1 = β1 (1 − ρ) +β2 (xt − ρxt−1 ) + (εt − ρεt−1 )
|
{z
} | {z }
|
{z
} |
{z
}
=Yt∗
=β1∗
=xt∗
=ut
si ha il modello lineare con errori indipendenti
Yt∗ = β1∗ + β2 xt∗ + ut , t = 2, . . . , n
si potrebbe allora stimare β2 da questo, richiede però di conoscere ρ.
F. Pauli
Criticità e estensioni del modello lineare
43 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochrane-Orcutt
Il metodo procede come segue
1. stimo Yt = β1 + β2 xt + εt e ottengo et
2. sulla base degli et stimo et = ρet−1 + ut e ottengo ρ̂
3. calcolo
Yt∗∗ = Yt − ρ̂Yt−1 , xt∗∗ = xt − ρ̂xt−1
4. stimo
Yt∗∗ = β1∗∗ + β2 xt∗∗ + ut , t = 2, . . . , n
da cui β̂1∗∗ (e quindi β̂1 ) e β̂2
5. usando β̂1 e β̂2 calcolo nuovi residui et
6. riprendo da 2 a meno che stime successive di ρ̂ siano molto simili.
Si noti che gli stimatori cosı̀ ottenuti non sono corretti e che le procedure
di inferenza usuali sono solo approssimate.
F. Pauli
Criticità e estensioni del modello lineare
44 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Stimatori consistenti per V (β̂) in presenza di correlazione
Una soluzione più generale, ma approssimata, prevede di continuare a
usare gli stimatori dei MQ ma calcolare la matrice divarianza e covaranza
tenendo conto della dipendenza, detta V (ε) = Ω
−1
−1
T
T
X
ΩX
V (β̂) = X T X
X
X
| {z }
=nΦ
dove Φ è la matrice di varianza e covarianza delle Si (β) = xi (yi − xT
i β), si
può allora stimare Φ con
1 XX
w|i−j| Si (β̂)Sj (β̂)
Φ̂ =
n
i
j
dove w|i−j| sono pesi, generalmente decrescenti con |i − j|, ad esempio
(
1 − |i−j|
se |i − j| ≤ L
L+1
w|i−j| =
0
altrimenti
F. Pauli
Criticità e estensioni del modello lineare
45 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
−2
−1
0
1
y
2
3
4
Stimatori consistenti per V (β̂): esempio
−2
−1
0
1
2
La stima “solita” porta a
1.0
x
et
−0.5
0.0
0.5
(Intercept)
x
Estimate
1.0000
1.0009
Std. Error
0.0353
0.0355
t value
28.30
28.17
Pr(>|t|)
0.0000
0.0000
−1.0
Se si impiega la correzione
0
50
100
150
200
t
Estimate
1.0000
1.0009
Std. Error
0.0353
0.0355
Corr s.e.
0.0722
0.0665
−1.0
−0.5
et
0.0
0.5
1.0
(Intercept)
x
−1.0
−0.5
0.0
0.5
1.0
et−1
F. Pauli
Criticità e estensioni del modello lineare
46 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochran-Orcutt
La statistica di Durbin-Watson vale 0.801 e corrisponde a un valore p
(tabulato) 0.
F. Pauli
Criticità e estensioni del modello lineare
47 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochran-Orcutt
A partire dalle stime β̂1 e β̂2 in tabella
(Intercept)
x
Estimate
1.0000
1.0009
Std. Error
0.0353
0.0355
t value
28.30
28.17
Pr(>|t|)
0.0000
0.0000
calcoliamo et = yt − β̂1 − β̂2 xt e con essi stimiamo il modello
et = ρet−1 + ut → ρ̂ = 0.5977
usando ρ̂ stimiamo il modello
Yt − ρ̂Yt−1 = β1∗ + β2 (xt − ρ̂xt−1 ) + ut
(Intercept)
x.i
Estimate
0.4031
0.9708
Std. Error
0.0284
0.0708
t value
14.18
13.72
Pr(>|t|)
0.0000
0.0000
da cui β̂2 = 0.9708 e
β̂1 =
F. Pauli
0.4031
β̂1∗
=
= 1.002
1 − ρ̂
1 − 0.5977
Criticità e estensioni del modello lineare
47 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochran-Orcutt
Al passo successivo si ha
ρ̂ = 0.5981
e la stima
(Intercept)
x.i
Estimate
0.4027
0.9708
Std. Error
0.0284
0.0708
t value
14.16
13.70
Pr(>|t|)
0.0000
0.0000
t value
14.16
13.70
Pr(>|t|)
0.0000
0.0000
e ancora
ρ̂ = 0.5981
e la stima
(Intercept)
x.i
F. Pauli
Estimate
0.4027
0.9708
Std. Error
0.0284
0.0708
Criticità e estensioni del modello lineare
47 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Effetto della correlazione
Nel seguito si simulano dei campioni (xi , Yi ), i = 1, . . . , n con n = 200, e
Yi = 1 + xi + εi
con
εi = ρεt−1 + ut , ut ∼ IID(N (0, 1))
(in altri termini σ = 1, β1 = β2 = 1) per diversi valori di ρ.
ρ
0.00
0.25
0.50
0.75
0.90
-0.25
-0.50
-0.75
-0.90
β̂2
1.01
0.82
1.26
0.70
2.50
1.09
1.05
1.03
1.02
F. Pauli
Stima
OLS
q
V̂ (β̂2 )
s
0.0733
1.0341
0.0681
0.9603
0.0824
1.1624
0.0964
1.3595
0.1588
2.2405
0.0836
1.1789
0.0762
1.0744
0.0983
1.3866
0.1510
2.1307
Stima con Cochrane-Orcutt
q
β̂2
V̂ (β̂2 )
s
1.00
0.0689
1.0313
0.84
0.0809
0.9460
1.27
0.1613
0.9416
0.65
0.2261
0.9287
2.42
0.5631
1.0227
1.08
0.0607
1.1155
1.05
0.0499
0.9786
1.03
0.0419
0.9839
1.01
0.0366
0.9579
ρ̂
-0.08
0.16
0.59
0.71
0.89
-0.33
-0.42
-0.70
-0.90
Criticità e estensioni del modello lineare
48 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Altre soluzioni: modelli specifici
La soluzione più appropriata è comunque modellare la dipendenza con
ipotesi specifiche, e allora si impiegano, a seconda dei casi
I
modelli per dati spaziali
I
modelli per serie storiche
I
modelli per dati longitudinali
I
modelli per dati gerarchici (a effetti misti)
F. Pauli
Criticità e estensioni del modello lineare
49 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
50 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Multicollinearità
I
I
rango(X ) < p, il modello non è identificato, è necessario ridurre il
numero di variabili esplicative.
rango(X ) = p ma |X T X | vicino a 0
⇒ esplicative fortemente correlate.
⇒ varianze degli stimatori elevate e, spesso, stime difficilmente
interpretabili.
l’esclusione di alcune delle esplicative è una possibile soluzione, se
però si vogliono mantenere tutte le variabili nel modello si può usare
la ridge regression (regressione contratta).
F. Pauli
Criticità e estensioni del modello lineare
51 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Ridge regression
Modifico X T X in modo da incrementare il valore del determinante, si ha
lo stimatore
β̂R = (X T X + λI )−1 X T y
è distorto ma ha varianza minore dello stimatore dei minimi quadrati β̂.
1. penalizzo nella stima valori elevati dei coefficienti
β̂R = argmin(y − X β)T (y − X β) + λβ T β
β
2. impone una contrazione dei coefficienti verso lo zero
β̂R = argmin (y − X β)T (y − X β)
β:||β||2 ≤c
Scelta di λ è problema di selezione del modello (compromesso distorsione
(che cresce con λ) - varianza (che decresce con λ).
Sono quindi utilizzabili metodi per il confronto tra modelli (non nidificati)
come ad esempio la validazione incrociata.
F. Pauli
Criticità e estensioni del modello lineare
52 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Riepilogando
Ipotesi
Conseguenze
Rimedio
Estensione
Linearità
Valido come approssimazione;
Trasformazioni, cambia l’interpretazione
Modelli non lineari (polinomiali, semiparametrici)
Normalità
Non valgono i test,
però le stime sono BLUE
Trasformazioni (Box-Cox)
GLM
Omoschedasticità
Stimatori corretti
ma non efficienti
Trasformazioni
stima aggiustata di V (β̂)
GLS
Incorrelazione
stimatori corretti
ma non efficienti
Cochrane-Orcutt (caso part.)
stima aggiustata di V (β̂)
GLS
modelli specifici(ad es.
serie storiche)
stimatori fortemente correlati
varianze stim elevate
Eliminazione esplicative
Ridge regression
X a rango pieno
F. Pauli
Criticità e estensioni del modello lineare
per
53 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
54 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sulle trasformazioni
Le trasformazioni compaiono come possibile soluzione per
I
non linearità
I
non normalità
I
eteroschedasticità
e se funzionano sono anche la soluzione più semplice (si usa il modello
lineare senza variazioni).
Ci sono però dei problemi
I
interpretazione
I
coperta corta
F. Pauli
Criticità e estensioni del modello lineare
55 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione con un modello trasformato
Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza
l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità,
E (Y ) varia di βr a parità delle altre.
E (Y |x2 , x3 ) = β1 + β2 x2 + β3 x3
e si ha
∆(E (Y )) = E (Y |x2 + ∆, x3 ) − E (Y |x2 , x3 ) = β2 ∆
Questa semplicità si perde se si impiegano trasformazioni.
F. Pauli
Criticità e estensioni del modello lineare
56 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione con un modello trasformato
Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza
l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità,
E (Y ) varia di βr a parità delle altre.
Se si impiega una trasformazione della x, ad esempio il modello è
E (Y ) = β1 + β2 (x2 )2 + β3 x3
si ha
∆(E (Y )) = E (Y |x2 + 1) − E (Y |x2 ) = β2 (2∆x2 + ∆2 )
F. Pauli
Criticità e estensioni del modello lineare
56 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione con un modello trasformato
Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza
l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità,
E (Y ) varia di βr a parità delle altre.
Se si impiega una trasformazione della y , ad esempio il modello è
√
E (f (Y )) = E ( Y ) = β1 + β2 x2 + β3 x3
trovare E (Y ) non è banale, ragionando in termini di stima e usando
\
E
(Y ) = f −1 (E \
(f (Y ))) = (β̂1 + β̂2 x2 + β̂3 x3 )2
si ha
\
∆(E
(Y )) = β̂22 ∆2 + 2β̂22 x2 ∆ + 2β̂1 β̂2 ∆ + 2β̂2 β̂3 x3 ∆
la variazione dipende dunque da x2 , da x3 e da tutti i coefficienti.
F. Pauli
Criticità e estensioni del modello lineare
56 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione di un modello trasformato: log-normale
Si consideri il modello
Yi∗ = log Yi ∼ N β1 + β2 xi , σ 2
Si ha allora la previsione di Yi
Ŷi = f −1 (β1 + β2 xi ) = exp {β1 + β2 xi }
Tuttavia Yi è log-normale con parametri β1 + β2 xi e σ 2 , quindi
σ2
E (Yi ) = exp β1 + β2 xi +
,
2
quindi potremmo stimare Yi con
s2
\
Ŷi = E (Yi ) = exp β̂1 + β̂2 xi +
,
2
(che è maggiore della previsione sopra dato che s 2 > 0 e quindi e s
F. Pauli
Criticità e estensioni del modello lineare
2 /2
> 1.)
57 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
30
Y
20
1
10
0
0
−1
log(Y)
2
40
3
50
4
Interpretazione di un modello trasformato: log-normale
0.0
0.5
1.0
x
F. Pauli
1.5
0.0
0.5
1.0
1.5
x
Criticità e estensioni del modello lineare
58 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni: coperta corta
Per quanto visto, una trasformazione della Y ha effetto su
I
linearità della relazione
I
varianza di Y
I
distribuzione di Y
una specifica trasformazione che risolva uno dei problemi non è detto ne
risolva un altro.
Non è detto, poi, anche in presenza di un solo problema, che esista una
trasformazione adatta.
F. Pauli
Criticità e estensioni del modello lineare
59 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Un esempio di coperta corta
10
8
6
4
rstandard(fit)
0
2
8
6
4
0
0
2
Sample Quantiles
80
40
y
120
10
Per i dati (x, y ) in alto a sinistra si ottiene una trasformazione
normalizzante (riga sotto), che però non produce un modello
omoschedastico.
1.0
1.5
2.0
−3
−2
−1
0
1
2
3
1.0
x
F. Pauli
1.5
2.0
10
2
rstandard(fit1)
2
0
−4
−4
0.5
5
fitted(fit)
−2
Sample Quantiles
2
ytr
0
−2
0.0
0
Theoretical Quantiles
4
x
0
0.5
−2
0.0
−3
−2
−1
0
1
2
Theoretical Quantiles
3
0.0
0.5
1.0
1.5
2.0
fitted(fit1)
Criticità e estensioni del modello lineare
60 / 60
Scarica