Lucidi su criticità e estensioni del modello lineare

Modelli statistici
Criticità e estensioni del modello lineare
F. Pauli
A.A. 2016/2017
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Il modello lineare: ipotesi
Il modello lineare – e l’inferenza sullo stesso – si basano sugli assunti
(a) Y = X β + ε;
(b) ε ∼ N 0, σ 2 I ;
(c) X non stocastica, rango(X ) = p.
Dall’analisi dei residui possono emergere discrepanze tra i dati e uno o più
assunti.
Che si fa?
1. Niente (cioè uso il modello come se non ci fossero discrepanze)
I
I
Ragionevole se lo scostamento dalle ipotesi è contenuto.
Occorre essere coscienti delle conseguenze (quali proprietà non
valgono, quali procedure non sono giustificate)
2. Aggiustare il modello.
3. Usare un altro metodo di stima.
4. Abbandonare il modello per un’estensione.
F. Pauli
Criticità e estensioni del modello lineare
2 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Limiti del modello lineare, cosa può andare storto
Si possono avere diverse discrepanze tra dati e assunzioni, in particolare
esplodiamo gli assunti sopra e consideriamo
Yi = β1 xi1 + . . . + βp xip + εi
Y
= Xβ + ε
V (ε) = Ω
E (εi ) = 0
E (Y ) = µ = X β
Yi ∼ N (·, ·)
εi ∼ N (·, ·)
ε ∼ N n (·, ·)
omoschedasticità
V (Yi ) = V (Y1 )
V (εi ) = V (ε1 )
ωii = ω11
(4)
incorrelazione
(indipendenza con (2))
Yi ⊥Yj , ∀i 6= j
εi ⊥εj , ∀i 6= j
ωij = 0, ∀i 6= j
(5)
X non stocastica
a rango pieno
(1)
linearità
(2)
normalità
(3)
E (Yi ) =
Pp
j=1 xij βj
(x1 , . . . , xp ) lin. indip.
rango(X ) = p
Le espressioni in i si intendono valide per i = 1, . . . , n
F. Pauli
Criticità e estensioni del modello lineare
3 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
4 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non linearità
La media di Y è funzione non lineare delle x = (x1 , . . . , xp )
E (Yi |xi ) = f (xi ) 6= xT
i β
(xi indica qui la riga i-esima della matrice X ).
A meno che non sia sufficiente un’approssimazione lineare di f , una
condizione di questo tipo rende il modello inadeguato.
Due prospettive:
1. una forma funzionale per la relazione tra Y e x è suggerita, a meno di
alcuni parametri, dalla teoria sottostante al fenomeno che Y e x
descrivono (ad es. una teoria fisica o economica),
2. dobbiamo studiare la relazione tra le quantità senza pregiudizi
(suggerimenti).
F. Pauli
Criticità e estensioni del modello lineare
5 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non linearità: trasformazioni
Nella prima prospettiva, ci si può ricondurre al ML (NB: lineare nei
parametri) se la relazione è linearizzabile attraverso
I
trasformazioni delle xj (g2 , . . . , gp funzioni note)
Yi = β1 + β2 g2 (xi2 ) + . . . + βp gp (xip ) + εi
I
trasformazioni di x e Y , ad es.
α2 α3 xi3
Yi = α1 xi2
e
εi
diviene
log Yi = log α1 + α2 log xi2 + α3 xi3 + log εi ,
F. Pauli
Criticità e estensioni del modello lineare
6 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non linearità: trasformazioni
Nella seconda prospettiva
I
si osserva che la relazione tra Y e x non è adeguatamente descritta
da un’applicazione lineare;
I
si cerca una trasformazione su x e, eventualmente, Y , che ‘linearizzi’
la relazione;
I
tranne che nel caso di un’unica variabile esplicativa questo è un modo
poco realistico di procedere, e anche poco efficiente dato che le
trasformazioni possibili sono infinite;
√
è in ogni caso ragionevole provarne alcune, tipicamente x, 1/x, x 2 o
log x o analoghe per y .
I
F. Pauli
Criticità e estensioni del modello lineare
7 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Modelli non lineari
Sarebbe utile un metodo per stimare una funzione
f (x) = E (Y |x)
senza fare particolari ipotesi sulla forma di f .
A questa esigenza rispondono i modelli di regressione semiparametrici e
non parametrici
I
modello polinomiale (naı̈f)
I
regressione col metodo del nucleo (kernel regression)
I
polinomi locali (loess)
funzioni spline
I
I
I
di regressione (regression splines)
di lisciamento (smoothing splines)
F. Pauli
Criticità e estensioni del modello lineare
8 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Modello polinomiale
Un’alternativa alle trasformazione è usare un modello che stimi una
relazione non lineare, la cosa più semplice è specificare un modello
polinomiale (consideriamo un’unica esplicativa)
Yi = β1 +
p
X
β1+j x j + εi
j=1
+ i polinomi, se di grado sufficiente, possono approssimare qualunque
funzione
− la scelta del grado è cruciale.
− può portare problemi di multicollinearità.
In pratica, funziona in casi semplici con grado basso (ma non estrapolare).
F. Pauli
Criticità e estensioni del modello lineare
9 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
0.4
0.6
0.8
1.0
2
−2 −1
0
0.0
0.2
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
1
p= 6
−3
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0
−2
−2
−1 0 1 2
p= 8
p= 9
−4
−3
−4
p= 7
0.2
2
0.2
0.0
p= 5
0 1 2
0.0
−2
p= 4
p= 3
−1 0
0
0
1
1
2
2
0.2
p= 2
2
p= 1
0.0
−2 −1
1
2
1
0
−2 −1
−2 −1
0
1
2
Modello polinomiale: esempio
0.0
0.2
0.4
0.6
F. Pauli
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
Criticità e estensioni del modello lineare
10 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
0.2
0.4
0.6
0.8
1.0
2
0.0
0.2
−2 −1
0.4
0.6
0.8
1.0
p= 3
0.0
0.2
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0
1
2
1 2
0.0
p= 2
2
p= 1
0
1
2
1
0
−2 −1
−2 −1
0
1
2
Modello polinomiale: esempio
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.4
0.6
0.8
1.0
0.2
−2
p= 7
0.0
F. Pauli
p= 8
0.0
0.2
0.0
−2 0 2 4 6 8
2 4 6 8
0 1 2 3 4
0.2
−8
p= 4
0.0
−2
−4
−1
−3
−2 −1
0
p= 6
p= 5
0.2
p= 9
0.0
0.2
Criticità e estensioni del modello lineare
10 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
Regressione col metodo del nucleo, stimatore di
Nadaraya-Watson
0.8
L’obiettivo è la stima di
−0.2
0.0
0.2
y
0.4
0.6
f (x) = E (Y |X = x)
0.2
0.4
0.6
0.8
1.0
L’idea più semplice è la media dei punti vicini
P
i:|x−xi |<h yi
fˆ(x) =
#{i : |x − xi | < h}
x
F. Pauli
Criticità e estensioni del modello lineare
11 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
Regressione col metodo del nucleo, stimatore di
Nadaraya-Watson
0.8
L’obiettivo è la stima di
−0.2
0.0
0.2
y
0.4
0.6
f (x) = E (Y |X = x)
0.2
0.4
0.6
0.8
1.0
L’idea più semplice è la media dei punti vicini
P
i:|x−xi |<h yi
fˆ(x) =
#{i : |x − xi | < h}
x
F. Pauli
Criticità e estensioni del modello lineare
11 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
Regressione col metodo del nucleo, stimatore di
Nadaraya-Watson
0.8
L’obiettivo è la stima di
y
−0.2
0.0
0.2
0.4
0.6
f (x) = E (Y |X = x)
0.2
0.4
0.6
0.8
1.0
L’idea più semplice è la media dei punti vicini
P
i:|x−xi |<h yi
fˆ(x) =
#{i : |x − xi | < h}
x
Una versione più sofisticata prevede di pesare le osservazioni in base alla
vicinanza a x
Pn
x−xi
K
yi
i=1
h
fˆ(x) = Pn
x−xi
i=1 K
h
dove K è una funzione opportuna, ad esempio la densità della N (0, 1)
F. Pauli
Criticità e estensioni del modello lineare
11 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
12 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Non normalità
La normalità ‘serve’ per l’inferenza sui parametri.
In assenza di normalità
I
non valgono gli i.c. o test;
I
d’altra parte, gli SMQ sono corretti e efficienti (cioè a varianza
minore) tra gli stimatori lineari corretti (teorema di Gauss-Markov);
I
non sono di massima verosimiglianza;
I
vale l’interpretazione geometrica.
Le opzioni in caso di non normalità includono
I
tenersi gli SMQ con le proprietà che hanno;
I
trasformazioni normalizzanti (Box-Cox);
I
GLM
F. Pauli
Criticità e estensioni del modello lineare
13 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Ipotesi del II ordine e teorema di Gauss-Markov
Teorema di Gauss-Markov
Si assume
(a) Y = X β + ε;
(b’) V (ε) = σ 2 I ;
(c) X non stocastica a rango pieno.
indicando con β̂ lo SMQ, se β̃ è uno stimatore lineare
e corretto di β, allora
V (β̃i ) ≥ V (β̂i )
per i = 1, . . . , p.
F. Pauli
Criticità e estensioni del modello lineare
14 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, dimostrazione
Essendo lineare, β̃ può essere scritto, posto A = (X T X )−1 X T
β̃ = Ly = (A + C )y = β̂ + C y
Essendo β̃ corretto, si ha ∀β
β = E (β̃) = (A + C )E (y) = (A + C )X β = β(I + CX )
⇒ CX = 0
La varianza è dunque
V (β̃) = V ((A + C )y)
= (A + C )V (y)(A + C )T
= σ 2 (AAT + CAT + AC T + CC T )
= σ 2 (X T X )−1 + σ 2 CC T
= V (β̂) + σ 2 CC T
poiché
AC T = CAT = C ((X T X )−1 X T )T = CX (X T X )−1 = 0.
F. Pauli
Criticità e estensioni del modello lineare
15 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, dimostrazione
Essendo lineare, β̃ può essere scritto, posto A = (X T X )−1 X T
β̃ = Ly = (A + C )y = β̂ + C y
Essendo β̃ corretto, si ha ∀β
β = E (β̃) = (A + C )E (y) = (A + C )X β = β(I + CX )
⇒ CX = 0
La varianza è dunque
V (β̃) = V ((A + C )y) = V (β̂) + σ 2 CC T
Siccome i termini diagonali di CC T sono non negativi (somma di
quadrati) si ha la tesi.
F. Pauli
Criticità e estensioni del modello lineare
15 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, estensione
Questa proprietà si estende a combinazioni lineari di β nel senso che
ψ̂ = aT β̂ è lo stimatore più efficiente di ψ = aT β tra gli stimatori lineari
non distorti.
Entrambe le affermazioni seguono immediatamente dalla seguente
formulazione del teorema.
Teorema di Gauss-Markov II
Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei minimi quadrati, se β̃ è uno stimatore lineare
e corretto di β, allora
V (β̃) ≥ V (β̂)
nel senso che V (β̃) − V (β̂) è semidefinita positiva.
F. Pauli
Criticità e estensioni del modello lineare
16 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, estensione, dimostrazione
Sia β̃ lineare,
I β̃ = C T y con C (n × p),
I V (β̃) = σ 2 C T C
ricordando anche che V (β̂) = σ 2 (X T X )−1 ,
V (β̃) − V (β̂) =σ 2 (C T C − (X T X )−1 ).
Essendo poi β̃ corretto si ha C T E (y) = C T X β = β e quindi
C T X = X T C = I , si può scrivere perciò
V (β̃) − V (β̂) =σ 2 (C T C − C T X (X T X )−1 X T C )
=σ 2 C T (I − P)C ,
essendo però (I − P) idempotente si ha, per qualunque a ∈ Rp ,
aT C T (I − P)C a = aT C T (I − P)T (I − P)C a = ||(I − P)C a||2 ≥ 0,
come volevasi dimostrare.
F. Pauli
Criticità e estensioni del modello lineare
17 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Teorema di Gauss-Markov, estensione, conseguenze
Da questo discende
1. essendo i termini sulla diagonale di una matrice semidefinita positiva
non negativi
V (β̃i ) ≥ V (β̂i )
(cioè la prima formulazione del teorema diventa un caso particolare);
2. posto ψ̃ = aT β̃ si ha allora
V (ψ̃) = aT V (β̃)a
e quindi
V (ψ̃) − V (ψ̂) = aT V (β̃)a − aT V (β̂)a = aT (V (β̃) − V (β̂))a ≥ 0.
F. Pauli
Criticità e estensioni del modello lineare
18 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox
Un’altra strategia è di rintracciare una trasformazione f tale per cui
f (Y ) ∼ N () e modellare il trasformato.
Una classe di trasformazioni tra cui cercare è quella di Box-Cox, per y > 0
( λ
y −1
λ 6= 0,
λ
yλ = φλ (y ) =
log y λ = 0;
che può essere estesa a y qualunque come
(
λ
yλ,ν = φλ,ν (y ) =
(y +ν) −1
λ
log(y + ν)
λ 6= 0,
λ = 0.
Il parametro λ può essere scelto per tentativi, provando l’effetto di diversi
valori sulla distribuzione, oppure stimato col metodo della massima
verosimiglianza.
F. Pauli
Criticità e estensioni del modello lineare
19 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, stima di λ
L’obiettivo è trovare un λ per il quale il trasformato yλ soddisfa
yλ ∼ N X β, σ 2 I
cioè tale che la densità di yλ è
2 −n/2
f (yλ ) = (2πσ )
1
T
exp − 2 (yλ − X β) (yλ − X β)
2σ
da questo, la densità di y è
f (y) = f (yλ )J(λ, y) = f (yλ )
n
Y
yiλ−1
i=1
allora
Y
n
1
yiλ−1 .
L(λ, β, σ 2 ) ∝ f (y) = (2πσ 2 )−n/2 exp − 2 (yλ − X β)T (yλ − X β)
2σ
i=1
F. Pauli
Criticità e estensioni del modello lineare
20 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, stima di λ
Vogliamo usare
Y
n
1
L(λ, β, σ 2 ) ∝ f (y) = (2πσ 2 )−n/2 exp − 2 (yλ − X β)T (yλ − X β)
yiλ−1 .
2σ
i=1
per l’inferenza su λ, un modo è ricavare la verosimiglianza profilo,
notiamo che fissato λ il massimo si ha per
β̂λ = (X T X )−1 X T yλ
σ̂λ2 = (yλ − X β̂λ )T (yλ − X β̂λ )/n
la verosimiglianza (profilo) per λ è dunque
Lp (λ) = argmaxL(λ, β, σ 2 ) = L(λ, β̂λ , σ̂λ2 )
β,σ 2
n
n n
oY
2
∝ exp − log σ̂λ
yiλ−1 .
2
i=1
F. Pauli
Criticità e estensioni del modello lineare
21 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, stima di MV per λ
Si ha quindi
n
X
n
n
lp (λ) = − log σ̂λ2 + (λ − 1)
log yi = − log
2
2
i=1
σ̂λ2
(
!
2(λ−1)/n
i=1 yi )
Qn
Si noti che

sλ2 =
σ̂λ2
Qn
( i=1 yi )2(λ−1)/n
=
T 

1  yλ − X β̂λ
  yλ − X β̂λ

 Q
λ−1   Q
λ−1 
n
1/n
1/n
n
n
i=1 yi
i=1 yi
1 T
y (I − P)yλ,g
n λ,g
Q
1/n
dove yλ,g = yλ /( ni=1 yi ) e P è la matrice di proiezione associata al
modello. La quantità nsλ2 è quindi la somma dei quadrati dei residui per il
modello
yλ,g = X β + ε,
=
F. Pauli
Criticità e estensioni del modello lineare
22 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni di Box-Cox, procedura
1. per una griglia di valori di λ ottengo la verosimiglianza profilo lp (λ)
I
I
stimo il modello yλ,g = X β + ε
ricavo σ̂λ2 e quindi lp (λ) con le formule sopra
2. determino λ ottimale
3. calcolo il trasformato conseguente e poi impiego il modello lineare sul
trasformato.
Si noti che cosı̀ facendo l’inferenza sul modello lineare (su β e σ 2 ) è fatta
condizionatamente al valore scelto per λ, è stato argomentato che questo
ha un effetto contenuto sui risultati.
F. Pauli
Criticità e estensioni del modello lineare
23 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazione di Box-Cox: esempio
25
(Intercept)
x
Estimate
4.6271
11.9775
Std. Error
2.5185
1.8616
t value
1.84
6.43
Pr(>|t|)
0.0724
0.0000
10
15
20
y
30
35
40
Il ML Yi = β1 + β2 xi + εi porta a
0.5
1.0
1.5
2.0
10
5
0
−5
Sample Quantiles
15
x
−2
−1
0
1
2
Theoretical Quantiles
F. Pauli
Criticità e estensioni del modello lineare
24 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazione di Box-Cox: esempio
25
Estimate
4.6271
11.9775
(Intercept)
x
Std. Error
2.5185
1.8616
t value
1.84
6.43
Pr(>|t|)
0.0724
0.0000
10
15
20
y
30
35
40
Il ML Yi = β1 + β2 xi + εi porta a
Si disegna perciò la log-verosimiglianza profilo.
1.0
1.5
2.0
−25
0.5
95%
−35
−40
−45
10
5
−1
0
1
2
0
−2
λ
−5
Sample Quantiles
15
log−Likelihood
−30
x
−2
−1
0
Theoretical Quantiles
1
2
Questa è massima in λ̂ = −0.1, si trasformano perciò i dati
secondo la
yλ̂ = (y −0.1 − 1)/ − 0.1
e si stima un nuovo modello,
yλ̂,i = β10 + β20 xi + ε0i
F. Pauli
Criticità e estensioni del modello lineare
24 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazione di Box-Cox: esempio
25
(Intercept)
x
Estimate
4.6271
11.9775
Std. Error
2.5185
1.8616
t value
1.84
6.43
Pr(>|t|)
0.0724
0.0000
t value
21.84
8.02
Pr(>|t|)
0.0000
0.0000
10
15
20
y
30
35
40
Il ML Yi = β1 + β2 xi + εi porta a
0.5
1.0
1.5
2.0
Il modello yλ̂,i = β10 + β20 xi + ε0i porta a
Std. Error
0.0862
0.0637
0
Confrontiamo la previsione di Y ottenuta col modello iniziale
(in nero) e quella ottenuta col modello trasformato (in rosso),
−2
−1
0
1
2
ŷˆ = (λ̂ŷλ̂ + 1)1/λ̂
0.4
Theoretical Quantiles
0.0
0.2
= (λ̂(β̂10 + β̂20 x) + 1)1/λ̂
−0.2
Sample Quantiles
Estimate
1.8823
0.5109
5
10
(Intercept)
x
−5
Sample Quantiles
15
x
−2
−1
0
Theoretical Quantiles
F. Pauli
1
2
Criticità e estensioni del modello lineare
24 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Limiti delle trasformazioni
Il metodo di trasformare la variabile risposta è spesso efficace.
Si noti anche che si hanno diverse classi all’interno delle quali fare la
ricerca.
Ha i limiti insiti nelle trasformazioni (discussi poi).
In ogni caso, ci sono situazioni in cui nessuna trasformazione può
normalizzare la y , ad esempio quando questa ha valori discreti (si pensi al
caso limite in cui Y è una variabile di Bernoulli), in questi casi occorre
cambiare il modello.
F. Pauli
Criticità e estensioni del modello lineare
25 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Modelli lineari generalizzati (GLM)
Classe di modelli per variabile risposta non normale, si assume
y θi − b(θi )
Yi ∼ f (y , θi , ν) = exp −
+ κ(y , ν)
ν
e che una funzione della media sia funzione lineare delle variabili
esplicative,
g (E (Yi )) = xT
i β.
Nella classe esponenziale rientrano numerose distribuzioni, continue e
discrete quali la distribuzione gamma, la Poisson, la binomiale.
Con i GLM si modella dunque la media della variabile risposta, legando
quest’ultima a una funzione lineare delle variabili esplicative. Si noti che
non si ha la struttura additiva segnale+errore del modello lineare.
F. Pauli
Criticità e estensioni del modello lineare
26 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
27 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Eteroschedasticità
Sia
V (εi ) = V (Yi |xi ) = σi2
lo SMQ è corretto ma non efficiente, è ancora normale ma la matrice di
varianza è
(X T X )−1 X T V (ε)X (X T X )−1
e risultati conseguenti.
Nel seguito si trattano tre possibili rimedi,
I
si stima il modello con i minimi quadrati, ma si calcola la matrice di
varianza dello stimatore tenendo conto dell’eteroschedasticità;
I
si modifica il modello trasformando la variabile risposta (si parla di
trasformazioni per stabilizzare la varianza);
I
il modello è invariato ma si modifica il metodo di stima, usando i
minimi quadrati generalizzati.
F. Pauli
Criticità e estensioni del modello lineare
28 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Stimatori consistenti per V (β̂) in presenza di
eteroschedasticità
Se V (ε) = Ω con Ω diagonale, allora si hanno degli stimatori consistenti
per V (β̂) ponendo
V̂ (β̂) = (X T X )−1 X T Ω̂X (X T X )−1
dove Ω̂ = diag(ω1 , . . . , ωn ) e
HC 0 : ωi = ei2
n
e2
n−p i
1
HC 2 : ωi =
e2
1 − hii i
1
HC 3 : ωi =
e2
(1 − hii )2 i
1
HC 4 : ωi =
e 2 , δi = min{4, hii /h̄}
(1 − hii )δi i
HC 1 : ωi =
F. Pauli
Criticità e estensioni del modello lineare
29 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni per stabilizzare la varianza
Un’opzione è, anche qui, operare una trasformazione della Y , questa è
un’alternativa efficace se la varianza di Y è legata alla media,
V (Yi ) ≈ φh(E (Yi )),
in tal caso infatti una trasformazione
Yi∗ = g (Yi )
ha, usando il metodo delta, varianza approssimativamente pari a
V (g (Yi )) ≈ g 0 (E (Yi ))2 V (Yi ) = g 0 (E (Yi ))2 φh(E (Yi )) = φ,
che è costante se
h(·) ∝ 1/(g 0 (·))2 .
F. Pauli
Criticità e estensioni del modello lineare
30 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni per stabilizzare la varianza
Un’opzione è, anche qui, operare una trasformazione della Y , questa è
un’alternativa efficace se la varianza di Y è legata alla media,
V (Yi ) ≈ φh(E (Yi )),
Alcune trasformazioni che stabilizzano specifici schemi di varianza:
schema
h(µ)
V (Y ) = φE (Y )
V (Y ) = φE (Y )2
V (Y ) = φE (Y )3
V (Y ) = φE (Y )(1 − E (Y ))
µ
µ2
µ3
µ(1 − µ)
F. Pauli
g (y )
√
y
log y
y −1/2
√
sin−1 y
(g 0 (y ))−2
4y
y2
4y 3
4y (1 − y )
Criticità e estensioni del modello lineare
30 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
Trasformazioni per stabilizzare la varianza:
√
• Trasformazioni
•
Y
0
20
y
40
Si considerino i dati (xi , Yi ) nella figura,
stimando su essa il modello
0
2
4
6
8
Yi = β1 + β2 x + εi
10
2
si ottiene
0
(Intercept)
x
10
20
30
40
50
fitted(fit)
Std. Error
1.5151
0.2798
t value
1.15
17.00
Pr(>|t|)
0.2560
0.0000
e residui evidentemente eteroschedastici.
0
1
Si procede perciò a trasformare
la variabile
√
risposta definendo Yi∗ = Yi e si ha
(Intercept)
x
−2
rstandard(fit1)
Estimate
1.7419
4.7575
−2
rstandard(fit)
x
2
3
4
5
fitted(fit1)
F. Pauli
6
7
Estimate
2.0945
0.5388
Std. Error
0.1769
0.0327
t value
11.84
16.49
Pr(>|t|)
0.0000
0.0000
e l’analisi dei residui è soddisfacente.
Criticità e estensioni del modello lineare
31 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Minimi quadrati generalizzati
I minimi quadrati generalizzati sono un metodo di stima alternativo,
usando il quale si mantiene invariata la struttura di base del modello, si ha
cioè ancora
Y = X β + ε.
ma V (ε) = σ 2 Ω, dove Ω è una matrice nota.
La log-verosimiglianza del modello è allora
n
1
l(β, σ 2 ) = − log σ 2 − 2 (y − X β)T Ω−1 (y − X β)
2
2σ
e quindi lo SMV è
β̂ = argmin(y − X β)T Ω−1 (y − X β) = (X T Ω−1 X )−1 X T Ω−1 y.
β
Diventa poi banale calcolare la matrice di varianza e successivamente fare
inferenza sui parametri, si noti infatti che β̂ è ancora una funzione lineare
delle osservazioni.
F. Pauli
Criticità e estensioni del modello lineare
32 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Minimi quadrati generalizzati
Se Ω è diagonale con i GLS si minimizza la funzione
SQg =
n
X
1
2
(yi − xT
i β)
ωii
i=1
Peso lo scarto i-esimo in ragione del rapporto tra varianze (pesano meno
gli scostamenti dalle yi ove la varianza è maggiore).
Si può interpretare la stima GLS come una stima OLS su dei dati
trasformati linearmente:
I
posto Ω−1 = G T G
I
lo stimatore GLS è lo stimatore OLS per il modello con risposta
Y ∗ = G Y e X = GX .
Se la matrice Ω non è nota o è solo parzialmente nota, l’inferenza si
complica.
F. Pauli
Criticità e estensioni del modello lineare
33 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
4
Minimi quadrati generalizzati: esempio
−1
0
1
y
2
3
È noto che la varianza è 16 volte più grande
quando x < 1/4 o x > 3/4, il vero modello è
E (Y ) = 1 + x
0.0
0.2
0.4
0.6
0.8
1.0
x
F. Pauli
Criticità e estensioni del modello lineare
34 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
4
Minimi quadrati generalizzati: esempio
−1
0
1
y
2
3
È noto che la varianza è 16 volte più grande
quando x < 1/4 o x > 3/4, il vero modello è
E (Y ) = 1 + x
0.0
0.2
0.4
0.6
0.8
1.0
2
3
x
0
−1
−2
rstandard(fit)
1
Stima OLS, s = 0.656
−3
(Intercept)
x
1.0
1.2
1.4
1.6
1.8
Std. Error
0.0717
0.1211
t value
14.33
7.92
Pr(>|t|)
0.0000
0.0000
2.0
(gli s.e. consistenti sono 0.082 e 0.156)
2
fitted(fit)
−1
0
1
Stime GLS, s = 0.201
−2
(Intercept)
x
−3
residuals(fit1, type = "pearson")
Estimate
1.0270
0.9599
1.0
1.2
1.4
1.6
1.8
Value
1.03
0.98
Std.Error
0.05
0.09
t-value
21.01
10.45
p-value
0.00
0.00
2.0
fitted(fit1)
F. Pauli
Criticità e estensioni del modello lineare
34 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
4
Minimi quadrati generalizzati: esempio
−1
0
1
y
2
3
È noto che la varianza è 16 volte più grande
quando x < 1/4 o x > 3/4, il vero modello è
E (Y ) = 1 + x
0.0
0.2
0.4
0.6
0.8
1.0
−2
−1
0
1
Stima OLS, s = 0.656
(Intercept)
x
−3
Sample Quantiles
2
3
x
−3
−2
−1
0
1
2
Estimate
1.0270
0.9599
Std. Error
0.0717
0.1211
t value
14.33
7.92
Pr(>|t|)
0.0000
0.0000
3
(gli s.e. consistenti sono 0.082 e 0.156)
−1
0
1
Stime GLS, s = 0.201
−2
(Intercept)
x
−3
Sample Quantiles
2
Theoretical Quantiles
−3
−2
−1
0
1
2
Value
1.03
0.98
Std.Error
0.05
0.09
t-value
21.01
10.45
p-value
0.00
0.00
3
Theoretical Quantiles
F. Pauli
Criticità e estensioni del modello lineare
34 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
y
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Minimi quadrati generalizzati: esempio
È noto che la varianza è proporzionale a x, il
vero modello è E (Y ) = 1 + x.
0.5
1.0
1.5
2.0
x
F. Pauli
Criticità e estensioni del modello lineare
35 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
y
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Minimi quadrati generalizzati: esempio
È noto che la varianza è proporzionale a x, il
vero modello è E (Y ) = 1 + x.
0.5
1.0
1.5
2.0
x
1
−1
0
(Intercept)
x
Estimate
1.0808
0.8903
Std. Error
0.0804
0.0664
t value
13.45
13.41
Pr(>|t|)
0.0000
0.0000
−3
−2
rstandard(fit)
2
3
Stima OLS, s = 0.485
1.5
2.0
2.5
(gli s.e. consistenti sono 0.058 e 0.072)
fitted(fit)
0
Estimate
1.0402
0.9356
Std. Error
0.0303
0.0474
t value
34.34
19.73
Pr(>|t|)
0.0000
0.0000
−2
−1
(Intercept)
x
−3
rstandard(fit1)
1
2
Stime GLS, s = 0.391
1.5
2.0
2.5
fitted(fit1)
F. Pauli
Criticità e estensioni del modello lineare
35 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
y
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5
Minimi quadrati generalizzati: esempio
È noto che la varianza è proporzionale a x, il
vero modello è E (Y ) = 1 + x.
0.5
1.0
1.5
2.0
x
1
−1
0
(Intercept)
x
Estimate
1.0808
0.8903
Std. Error
0.0804
0.0664
t value
13.45
13.41
Pr(>|t|)
0.0000
0.0000
−3
−2
Sample Quantiles
2
3
Stima OLS, s = 0.485
−3
−2
−1
0
1
2
3
(gli s.e. consistenti sono 0.058 e 0.072)
Theoretical Quantiles
0
Estimate
1.0402
0.9356
Std. Error
0.0303
0.0474
t value
34.34
19.73
Pr(>|t|)
0.0000
0.0000
−2
−1
(Intercept)
x
−3
Sample Quantiles
1
2
Stime GLS, s = 0.391
−3
−2
−1
0
1
2
3
Theoretical Quantiles
F. Pauli
Criticità e estensioni del modello lineare
35 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Quale opzione?
Stimatore consistente per V (β̂)
+ semplice, non cambio le stime
− ha una giustificazione asintotica, è comunque una soluzione
approssimata
Trasformazione
+ soluzione “esatta” (se la trasformazione funziona, ma questo è
verificabile)
− modello una variabile diversa, l’interpretazione sulla scala originale
può essere difficile
Minimi quadrati generalizzati
+ soluzione “esatta”, purché valgano le ipotesi che facciamo sulle
varianze
− richiede ipotesi sulle varianze che possono non essere facili da
formulare
F. Pauli
Criticità e estensioni del modello lineare
36 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
37 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Dipendenza
La dipendenza può assumere molte forme.
In genere è legata alla struttura delle unità statistiche
I
se le u.s. sono osservazioni di un fenomeno nello spazio, punti
spazialmente vicini possono essere “simili”, Yi sarà tanto più correlato
a Yj quanto più i siti delle osservazioni i e j sono vicini.
I
se le osservazioni sono raggruppate: ciascuna osservazione è uno
studente, gli studenti appartengono a diverse classi, le u.s. che
appartengono alla stessa classe sono correlate.
I
ci sono osservazioni ripetute dello stesso individuo: pressione
sanguigna misurata in momenti diversi della giornata per n individui.
I
se le osservazioni sono temporali (Yt , xt ) (dove t rappresenta il
tempo) è possibile che osservazioni vicine nel tempo siano correlate.
Spesso la correlazione nei residui può essere legata all’omissione di
un’esplicativa rilevante.
F. Pauli
Criticità e estensioni del modello lineare
38 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Dipendenza temporale
Illustriamo il problema nel caso di dipendenza temporale, si hanno cioè
osservazioni nel tempo (Yt , xt ) (per semplicità consideriamo un’unica
esplicativa), i dati provengono da
Yt = β1 + β2 xt + εt
εt = ρεt−1 + ut , ut ∼ IID(N (0, σ 2 ))
si dice che gli errori εt seguono un processo autoregressivo di ordine 1
(AR(1)).
Ci sono due passi
I
verificare se vi è dipendenza → test di Durbin-Watson
I
se la dipendenza c’è, stimare il modello tenendone conto → metodo
di Cochrane-Orcutt
F. Pauli
Criticità e estensioni del modello lineare
39 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
0.5
et
0.0
−1.0
−0.5
0.0
−1.0
−0.5
et
0.5
1.0
Individuazione della dipendenza temporale
0
50
100
150
200
t
Il grafico dei residui contro l’indice
temporale, in presenza di
autocorrelazione positiva, residui
successivi tendono ad avere lo stesso
segno ed essere vicini tra loro.
F. Pauli
−1.0
−0.5
0.0
0.5
1.0
et−1
Può essere utile anche un grafico di
et contro et−1 , in caso di
correlazione dovrebbe mostrare un
andamento lineare.
Criticità e estensioni del modello lineare
40 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
1.0
0.5
et
0.0
−0.5
−1.0
−1.0
−0.5
et
0.0
0.5
1.0
Individuazione della dipendenza temporale
0
50
100
150
200
t
Il grafico dei residui contro l’indice
temporale, in presenza di
autocorrelazione negativa, residui
successivi tendono ad avere segno
opposto ed essere lontani.
F. Pauli
−1.0
−0.5
0.0
0.5
1.0
et−1
Può essere utile anche un grafico di
ei contro ei−1 , in caso di correlazione
dovrebbe mostrare un andamento
lineare con pendenza negativa.
Criticità e estensioni del modello lineare
41 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Individuazione della dipendenza: test di Durbin-Watson
Ci si basa sulla statistica
Pn
(et − et−1 )2
d = t=2Pn
2
t=1 et
F. Pauli
Criticità e estensioni del modello lineare
42 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Individuazione della dipendenza: test di Durbin-Watson
Ci si basa sulla statistica
Pn
Pn
Pn
Pn
2
2
(et − et−1 )2
t=1 et +
t=2 et−1 − 2
t=2 et et−1
t=2
Pn
Pn
d=
=
2
2
t=1 et
t=1 et
Pn
t=1 et et−1
≈2 1− P
= 2(1 − r )
n
2
t=1 et
dove r è la correlazione empirica tra et e et−1 , dunque d ∈ [0, 4] e
I d vicino a 2 indica assenza di correlazione
I d vicino a 0 (4) indica correlazione positiva (negativa)
si hanno dei valori tabulati dL e dU tali per cui


se d < dL o d > 4 − dL
rifiuto H0 : ρ = 0
accetto H0 : ρ = 0 se dU < d < 4 − dU


inconclusivo
altrimenti
Valori critici esatti dipendono dalle specifiche X a disposizione.
F. Pauli
Criticità e estensioni del modello lineare
42 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochrane-Orcutt
Se la struttura del modello è
Yt = β1 + β2 xt + εt
εt = ρεt−1 + ut , ut ∼ IID(N (0, σ 2 ))
allora si ha, per t = 2, . . . , n
Yt − ρYt−1 = β1 (1 − ρ) +β2 (xt − ρxt−1 ) + (εt − ρεt−1 )
|
{z
} | {z }
|
{z
} |
{z
}
=Yt∗
=β1∗
=xt∗
=ut
si ha il modello lineare con errori indipendenti
Yt∗ = β1∗ + β2 xt∗ + ut , t = 2, . . . , n
si potrebbe allora stimare β2 da questo, richiede però di conoscere ρ.
F. Pauli
Criticità e estensioni del modello lineare
43 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochrane-Orcutt
Il metodo procede come segue
1. stimo Yt = β1 + β2 xt + εt e ottengo et
2. sulla base degli et stimo et = ρet−1 + ut e ottengo ρ̂
3. calcolo
Yt∗∗ = Yt − ρ̂Yt−1 , xt∗∗ = xt − ρ̂xt−1
4. stimo
Yt∗∗ = β1∗∗ + β2 xt∗∗ + ut , t = 2, . . . , n
da cui β̂1∗∗ (e quindi β̂1 ) e β̂2
5. usando β̂1 e β̂2 calcolo nuovi residui et
6. riprendo da 2 a meno che stime successive di ρ̂ siano molto simili.
Si noti che gli stimatori cosı̀ ottenuti non sono corretti e che le procedure
di inferenza usuali sono solo approssimate.
F. Pauli
Criticità e estensioni del modello lineare
44 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Stimatori consistenti per V (β̂) in presenza di correlazione
Una soluzione più generale, ma approssimata, prevede di continuare a
usare gli stimatori dei MQ ma calcolare la matrice divarianza e covaranza
tenendo conto della dipendenza, detta V (ε) = Ω
−1
−1
T
T
X
ΩX
V (β̂) = X T X
X
X
| {z }
=nΦ
dove Φ è la matrice di varianza e covarianza delle Si (β) = xi (yi − xT
i β), si
può allora stimare Φ con
1 XX
w|i−j| Si (β̂)Sj (β̂)
Φ̂ =
n
i
j
dove w|i−j| sono pesi, generalmente decrescenti con |i − j|, ad esempio
(
1 − |i−j|
se |i − j| ≤ L
L+1
w|i−j| =
0
altrimenti
F. Pauli
Criticità e estensioni del modello lineare
45 / 60
•
• Non normalità
Non linearità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
−2
−1
0
1
y
2
3
4
Stimatori consistenti per V (β̂): esempio
−2
−1
0
1
2
La stima “solita” porta a
1.0
x
et
−0.5
0.0
0.5
(Intercept)
x
Estimate
1.0000
1.0009
Std. Error
0.0353
0.0355
t value
28.30
28.17
Pr(>|t|)
0.0000
0.0000
−1.0
Se si impiega la correzione
0
50
100
150
200
t
Estimate
1.0000
1.0009
Std. Error
0.0353
0.0355
Corr s.e.
0.0722
0.0665
−1.0
−0.5
et
0.0
0.5
1.0
(Intercept)
x
−1.0
−0.5
0.0
0.5
1.0
et−1
F. Pauli
Criticità e estensioni del modello lineare
46 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochran-Orcutt
La statistica di Durbin-Watson vale 0.801 e corrisponde a un valore p
(tabulato) 0.
F. Pauli
Criticità e estensioni del modello lineare
47 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochran-Orcutt
A partire dalle stime β̂1 e β̂2 in tabella
(Intercept)
x
Estimate
1.0000
1.0009
Std. Error
0.0353
0.0355
t value
28.30
28.17
Pr(>|t|)
0.0000
0.0000
calcoliamo et = yt − β̂1 − β̂2 xt e con essi stimiamo il modello
et = ρet−1 + ut → ρ̂ = 0.5977
usando ρ̂ stimiamo il modello
Yt − ρ̂Yt−1 = β1∗ + β2 (xt − ρ̂xt−1 ) + ut
(Intercept)
x.i
Estimate
0.4031
0.9708
Std. Error
0.0284
0.0708
t value
14.18
13.72
Pr(>|t|)
0.0000
0.0000
da cui β̂2 = 0.9708 e
β̂1 =
F. Pauli
0.4031
β̂1∗
=
= 1.002
1 − ρ̂
1 − 0.5977
Criticità e estensioni del modello lineare
47 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Metodo di Cochran-Orcutt
Al passo successivo si ha
ρ̂ = 0.5981
e la stima
(Intercept)
x.i
Estimate
0.4027
0.9708
Std. Error
0.0284
0.0708
t value
14.16
13.70
Pr(>|t|)
0.0000
0.0000
t value
14.16
13.70
Pr(>|t|)
0.0000
0.0000
e ancora
ρ̂ = 0.5981
e la stima
(Intercept)
x.i
F. Pauli
Estimate
0.4027
0.9708
Std. Error
0.0284
0.0708
Criticità e estensioni del modello lineare
47 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Effetto della correlazione
Nel seguito si simulano dei campioni (xi , Yi ), i = 1, . . . , n con n = 200, e
Yi = 1 + xi + εi
con
εi = ρεt−1 + ut , ut ∼ IID(N (0, 1))
(in altri termini σ = 1, β1 = β2 = 1) per diversi valori di ρ.
ρ
0.00
0.25
0.50
0.75
0.90
-0.25
-0.50
-0.75
-0.90
β̂2
1.01
0.82
1.26
0.70
2.50
1.09
1.05
1.03
1.02
F. Pauli
Stima
OLS
q
V̂ (β̂2 )
s
0.0733
1.0341
0.0681
0.9603
0.0824
1.1624
0.0964
1.3595
0.1588
2.2405
0.0836
1.1789
0.0762
1.0744
0.0983
1.3866
0.1510
2.1307
Stima con Cochrane-Orcutt
q
β̂2
V̂ (β̂2 )
s
1.00
0.0689
1.0313
0.84
0.0809
0.9460
1.27
0.1613
0.9416
0.65
0.2261
0.9287
2.42
0.5631
1.0227
1.08
0.0607
1.1155
1.05
0.0499
0.9786
1.03
0.0419
0.9839
1.01
0.0366
0.9579
ρ̂
-0.08
0.16
0.59
0.71
0.89
-0.33
-0.42
-0.70
-0.90
Criticità e estensioni del modello lineare
48 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Altre soluzioni: modelli specifici
La soluzione più appropriata è comunque modellare la dipendenza con
ipotesi specifiche, e allora si impiegano, a seconda dei casi
I
modelli per dati spaziali
I
modelli per serie storiche
I
modelli per dati longitudinali
I
modelli per dati gerarchici (a effetti misti)
F. Pauli
Criticità e estensioni del modello lineare
49 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
50 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Multicollinearità
I
I
rango(X ) < p, il modello non è identificato, è necessario ridurre il
numero di variabili esplicative.
rango(X ) = p ma |X T X | vicino a 0
⇒ esplicative fortemente correlate.
⇒ varianze degli stimatori elevate e, spesso, stime difficilmente
interpretabili.
l’esclusione di alcune delle esplicative è una possibile soluzione, se
però si vogliono mantenere tutte le variabili nel modello si può usare
la ridge regression (regressione contratta).
F. Pauli
Criticità e estensioni del modello lineare
51 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Ridge regression
Modifico X T X in modo da incrementare il valore del determinante, si ha
lo stimatore
β̂R = (X T X + λI )−1 X T y
è distorto ma ha varianza minore dello stimatore dei minimi quadrati β̂.
1. penalizzo nella stima valori elevati dei coefficienti
β̂R = argmin(y − X β)T (y − X β) + λβ T β
β
2. impone una contrazione dei coefficienti verso lo zero
β̂R = argmin (y − X β)T (y − X β)
β:||β||2 ≤c
Scelta di λ è problema di selezione del modello (compromesso distorsione
(che cresce con λ) - varianza (che decresce con λ).
Sono quindi utilizzabili metodi per il confronto tra modelli (non nidificati)
come ad esempio la validazione incrociata.
F. Pauli
Criticità e estensioni del modello lineare
52 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Riepilogando
Ipotesi
Conseguenze
Rimedio
Estensione
Linearità
Valido come approssimazione;
Trasformazioni, cambia l’interpretazione
Modelli non lineari (polinomiali, semiparametrici)
Normalità
Non valgono i test,
però le stime sono BLUE
Trasformazioni (Box-Cox)
GLM
Omoschedasticità
Stimatori corretti
ma non efficienti
Trasformazioni
stima aggiustata di V (β̂)
GLS
Incorrelazione
stimatori corretti
ma non efficienti
Cochrane-Orcutt (caso part.)
stima aggiustata di V (β̂)
GLS
modelli specifici(ad es.
serie storiche)
stimatori fortemente correlati
varianze stim elevate
Eliminazione esplicative
Ridge regression
X a rango pieno
F. Pauli
Criticità e estensioni del modello lineare
per
53 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sommario
Non linearità
Non normalità
Eteroschedasticità
Dipendenza
Multicollinearità
Sulle trasformazioni
F. Pauli
Criticità e estensioni del modello lineare
54 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Sulle trasformazioni
Le trasformazioni compaiono come possibile soluzione per
I
non linearità
I
non normalità
I
eteroschedasticità
e se funzionano sono anche la soluzione più semplice (si usa il modello
lineare senza variazioni).
Ci sono però dei problemi
I
interpretazione
I
coperta corta
F. Pauli
Criticità e estensioni del modello lineare
55 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione con un modello trasformato
Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza
l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità,
E (Y ) varia di βr a parità delle altre.
E (Y |x2 , x3 ) = β1 + β2 x2 + β3 x3
e si ha
∆(E (Y )) = E (Y |x2 + ∆, x3 ) − E (Y |x2 , x3 ) = β2 ∆
Questa semplicità si perde se si impiegano trasformazioni.
F. Pauli
Criticità e estensioni del modello lineare
56 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione con un modello trasformato
Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza
l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità,
E (Y ) varia di βr a parità delle altre.
Se si impiega una trasformazione della x, ad esempio il modello è
E (Y ) = β1 + β2 (x2 )2 + β3 x3
si ha
∆(E (Y )) = E (Y |x2 + 1) − E (Y |x2 ) = β2 (2∆x2 + ∆2 )
F. Pauli
Criticità e estensioni del modello lineare
56 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione con un modello trasformato
Uno dei vantaggi del modello lineare è che il coefficiente βj sintetizza
l’effetto della variabile esplicativa xr su E (Y ): se xr varia di un’unità,
E (Y ) varia di βr a parità delle altre.
Se si impiega una trasformazione della y , ad esempio il modello è
√
E (f (Y )) = E ( Y ) = β1 + β2 x2 + β3 x3
trovare E (Y ) non è banale, ragionando in termini di stima e usando
\
E
(Y ) = f −1 (E \
(f (Y ))) = (β̂1 + β̂2 x2 + β̂3 x3 )2
si ha
\
∆(E
(Y )) = β̂22 ∆2 + 2β̂22 x2 ∆ + 2β̂1 β̂2 ∆ + 2β̂2 β̂3 x3 ∆
la variazione dipende dunque da x2 , da x3 e da tutti i coefficienti.
F. Pauli
Criticità e estensioni del modello lineare
56 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Interpretazione di un modello trasformato: log-normale
Si consideri il modello
Yi∗ = log Yi ∼ N β1 + β2 xi , σ 2
Si ha allora la previsione di Yi
Ŷi = f −1 (β1 + β2 xi ) = exp {β1 + β2 xi }
Tuttavia Yi è log-normale con parametri β1 + β2 xi e σ 2 , quindi
σ2
E (Yi ) = exp β1 + β2 xi +
,
2
quindi potremmo stimare Yi con
s2
\
Ŷi = E (Yi ) = exp β̂1 + β̂2 xi +
,
2
(che è maggiore della previsione sopra dato che s 2 > 0 e quindi e s
F. Pauli
Criticità e estensioni del modello lineare
2 /2
> 1.)
57 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
30
Y
20
1
10
0
0
−1
log(Y)
2
40
3
50
4
Interpretazione di un modello trasformato: log-normale
0.0
0.5
1.0
x
F. Pauli
1.5
0.0
0.5
1.0
1.5
x
Criticità e estensioni del modello lineare
58 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Trasformazioni: coperta corta
Per quanto visto, una trasformazione della Y ha effetto su
I
linearità della relazione
I
varianza di Y
I
distribuzione di Y
una specifica trasformazione che risolva uno dei problemi non è detto ne
risolva un altro.
Non è detto, poi, anche in presenza di un solo problema, che esista una
trasformazione adatta.
F. Pauli
Criticità e estensioni del modello lineare
59 / 60
•
Non linearità
• Non normalità
• Eteroschedasticità
• Dipendenza
• Multicollinearità
• Trasformazioni
•
Un esempio di coperta corta
10
8
6
4
rstandard(fit)
0
2
8
6
4
0
0
2
Sample Quantiles
80
40
y
120
10
Per i dati (x, y ) in alto a sinistra si ottiene una trasformazione
normalizzante (riga sotto), che però non produce un modello
omoschedastico.
1.0
1.5
2.0
−3
−2
−1
0
1
2
3
1.0
x
F. Pauli
1.5
2.0
10
2
rstandard(fit1)
2
0
−4
−4
0.5
5
fitted(fit)
−2
Sample Quantiles
2
ytr
0
−2
0.0
0
Theoretical Quantiles
4
x
0
0.5
−2
0.0
−3
−2
−1
0
1
2
Theoretical Quantiles
3
0.0
0.5
1.0
1.5
2.0
fitted(fit1)
Criticità e estensioni del modello lineare
60 / 60