Il modello di regressione lineare multipla

Il modello di regressione lineare multipla
Il modello di regressione lineare multipla
Introduzione
E’ la generalizzazione del modello di regressione lineare semplice:
per spiegare il fenomeno d’interesse Y vengono introdotte p, con
p > 1, variabili esplicative. Tale generalizzazione diventa molto più
semplice utilizzando l’algebra delle matrici. Il modello di regressione
multipla genera però nuovi problemi:
1
scelta delle variabili,
2
multicollinearità,
3
test multipli.
Il modello di regressione lineare multipla
Specificazione del modello (1)
Siano:
Y = (Y1 , Y2 , . . . , Yn )0 il vettore delle v.c. dipendenti, le cui
realizzazioni campionarie saranno contenute nel vettore
y = (y1 , y2 , . . . , yn )0 ;
X la matrice di dimensione (n × (p + 1)), contenente le
osservazioni sulle variabili esplicative (regressori) e secondo la
notazione usuale xij indica il valore assunto dalla variabile Xj ,
con j = 1, 2, . . . , p, relativamente all’ i-esima unità statistica,
i = 1, 2, . . . , n;
= (1 , 2 , . . . , n )0 il vettore delle v.c. i le cui realizzazioni
(scarti) sono contenute nel vettore e = (e1 , e2 , . . . , en )0 ;
β = (β0 , β1 , . . . , βp )0 il vettore dei (p + 1) parametri da
stimare.
Il modello di regressione lineare multipla
Specificazione del modello (2)
Pertanto, avendo posto:






Y=


Y1
Y2
...
Yi
...
Yn






X = 




1 x11
1 x21
... ...
1 xi1
... ...
1 xn1
...
...
...
...
...
···
x1p
x2p
...
xip
...
xnp








β = 




β0
β1
...
βi
...
βp








 = 




1
2
...
i
...
n
utilizzando la notazione matriciale, il modello di regressione
multipla è dato da
Y = Xβ + ,
ed esplicitando tale relazione per le singole unità statistiche
equivale a
Yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + i , i = 1, 2, . . . , n.
Il modello di regressione lineare multipla







(1)
Specificazione del modello (3)
Sul campione osservato la relazione (1) diventa
y = Xβ + e.
e, a livello delle singole unità statistiche, si specifica come segue
yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + ei , i = 1, 2, . . . , n.
Il vettore e contiene le realizzazioni del vettore di v.c. . Tali
realizzazioni sono determinabili se conosciamo i parametri β,
perchè:
e = y − Xβ
e, ovviamente, si esplicitano nel modo seguente:
ei = yi −(β0 +β1 xi1 +β2 xi2 +. . .+βp xip ) = yi −yi (β), i = 1, 2, . . . , n.
Il modello di regressione lineare multipla
Le ipotesi classiche
Le ipotesi del modello di regressione lineare multipla sono
1
Y = Xβ + ;
2
E() = 0;
3
Var() = E(0 ) = σ 2 In ;
4
X è una matrice (non stocastica) tale che r(X) = p + 1.
Dopo aver ottenuto le stime β̂j per i parametri βj , il modello
diventa
yi = β̂0 + β̂1 xi1 + β̂2 xi2 + . . . + β̂p xip + êi = ŷi + êi .
I residui êi sono dati dalla differenza tra i valori osservati yi e i
valori stimati ŷi calcolati secondo il modello di regressione.
Il modello di regressione lineare multipla
Stima dei parametri
Per stimare i parametri del modello di regressione multipla, senza
fare ulteriori assunzioni circa la forma distributiva degli errori, si
utilizza il metodo dei minimi quadrati (LS). Tale metodo consente
di trovare il vettore β che minimizza la somma degli scarti al
quadrato, ovvero la funzione G(β) data da
G(β) = e0 e = (y − Xβ)0 (y − Xβ).
Sviluppando si ha che
G(β) = y0 y + β 0 (X0 X)β − 2β 0 X0 y
ed uguagliando a 0 la derivata prima di G(β) rispetto a β si ottiene
0 = G0 (β) = −2X0 y + 2(X0 X)β =⇒ β̂ = (X0 X)−1 X0 y.
Il modello di regressione lineare multipla
L’iperpiano di regressione
Geometricamente l’equazione
ŷi = β̂0 + β̂1 xi1 + β̂2 xi2 + . . . + β̂p xip , i = 1, 2, . . . , n,
definisce un iperpiano nello spazio a p + 1 dimensioni. Per avere
un’idea del procedimento di stima dei minimi quadrati, il piano
rappresentato in figura è, tra gli infiniti piani, quello che rende
minima la somma dei quadrati delle lunghezze dei segmenti
congiungenti i punti osservati al piano stesso.
Il modello di regressione lineare multipla
Proprietà degli stimatori LS e ML
Teorema di Gauss-Markov
Sotto le ipotesi del modello di regressione lineare, gli stimatori LS
B per i parametri β, sono lineari, non distorti,ed i più efficienti nella
classe degli stimatori lineari e non distorti (BLUE).
Per applicare il metodo ML, occorre aggiungere l’ipotesi che il
vettore ∼ N (0, σ 2 I). Si può dimostrare che gli stimatori ML
coincidono con quelli LS prima ricavati, che sono lineari, non
distorti, sufficienti ed efficienti nella classe di tutti gli stimatori non
distorti.
Il modello di regressione lineare multipla
Stima del parametro σ 2
Consideriamo innanzitutto l’identità
n
X
i=1
(yi − ȳ)2 =
n
X
i=1
(yi − ŷi )2 +
n
X
(ŷi − ȳ)2 ,
i=1
che rappresenta la scomposizione della devianza totale in devianza
residua e devianza spiegata (o della regressione), ovvero
SQT = SQE + SQR.
La stima della varianza delle v.c. errori è data da
Pn
(yi − ŷi )2
ê0 ê
2
s =
= i=1
.
n−p−1
n−p−1
Il modello di regressione lineare multipla
Test su un singolo parametro
Per ottenere la regione critica di un test o un intervallo di
confidenza per i parametri del modello di regressione, è necessario
ipotizzare, per n finito, che le v.c. errori siano normali e
indipendenti, utilizzando quindi gli stimatori ML. Per verificare
H0 : β̂i = 0 contro l’alternativa H1 : β̂i 6= 0 basta calcolare il
rapporto
β̂i − 0
, j = 0, 1, 2, . . . , p.
T = √
s v j+1,j+1
Infatti la stima della varianza dello stimatore Bj per il parametro βj
è data da es2 (Bj ) = s2 v j+1,j+1 dove v j+1,j+1 è l’elemento di
posto (j + 1, j + 1) sulla diagonale principale della matrice (X0 X).
Tale rapporto, sotto H0 , si distribuisce come una v.c. t di Student
con n − p − 1 gradi di libertà.
Il modello di regressione lineare multipla
ANOVA per un modello di regressione lineare multipla
Consiste in un test globale su tutti i parametri del modello (eccetto
β0 ) e in particolare nel confronto tra la devianza del modello saturo
Y = Xβ + e quella del modello vincolato Y = β0 1n + . Le
ipotesi saranno:
H0 : β1 = β2 = · · · = βp = 0 vs. H1 : almeno un βj 6= 0
Se indichiamo con
Q1 la devianza della regressione
Q2 la devianza dei residui
siamo interessati a valutare la statistica
F =
Q1 /p
Q2 /n − p − 1
che sotto H0 ha distribuzione F (p, n − p − 1).
Il modello di regressione lineare multipla
Confronto tra modelli annidati
Per confrontare il modello vincolato (ridotto) con in modello non
vincolato (saturo) si utilizza un test di tipo ANOVA, in cui il valore
della statistica
F =
(SQEv − SQEnv )/(dfv − dfnv )
∼ Fα,dfv −dfnv ,dfnv .
SQEnv /(dfnv )
Sia F1 il modello minimale con la sola intercetta (p = 1). Sia Fp il
modello corrente con p parametri e sia Fp0 un modello ridotto con
1 < p0 < p. la perdita di bontà di adattamento del modello Fp0
rispetto a Fp può essere valutata attraverso la statistica:
F =
(SQEp0 − SQEp )/(p − p0 )
∼ Fp−p0 ,n−p
SQEp0 /(n − p0 )
Il modello di regressione lineare multipla
Bontà del modello
Ricordando che SQT = SQE + SQR, il modello si adatterà tanto
più ai dati quanto più modesta sarà la variabilità dell’errore rispetto
alla variabilità totale. Si introduce pertanto l’indice di
determinazione multipla R2 dato da
Pn
Pn
2
2
2
i=1 (ŷi − ȳ)
i=1 (yi − ŷi )
P
P
R = n
=
1
−
.
n
2
2
i=1 (yi − ȳ)
i=1 (yi − ȳ)
L’indice R2 varia in [0, 1] e più si avvicina a 1 migliore è
l’adattamento del modello ai dati. Tuttavia è opportuno
sottolineare che il valore R2 aumenta con l’aumentare del numero
di regressori, per cui è conveniente considerare la versione corretta
dell’indice R2 , data da
Pn
2
2
i=1 (yi − ŷi ) /(n − p − 1)
.
R =1− P
n
2
i=1 (yi − ȳ) /(n − 1)
Il modello di regressione lineare multipla
Scelta delle variabili esplicative
Oltre all’indice R2 , vi è l’indice proposto da Mallows (1973)
Cp =
(1 − Rp2 )(n − T )
− [n − 2(p + 1)]
1 − RT2
Quando le variabili esplicative sono molte si ricorre a procedure di
tipo stepwise, nelle varianti per inclusione e per eliminazione. In
particolare, partendo da un modello parziale si procede per passi e di
volta in volta si aggiunge una variabile che contribuisce in maniera
significativa al miglioramento del modello o si elimina una variabile
il cui coefficiente non significativo. Altro approccio è il best-subset,
in cui si valutano tutti i possibili modelli di regressione ricavabili da
un certo insieme di variabili esplicative e si individuano i sottinsiemi
migliori secondo uno dei criteri sopra riportati (R2 e Cp ).
Il modello di regressione lineare multipla
Multicollinearità
Si verifica quando il rango della matrice X non è massimo e si
traduce nella presenza di un’elevata correlazione tra le variabili
esplicative. Le variabili collineari non forniscono informazioni
aggiuntive e risulta difficile individuare l’effetto che ciascuna di esse
ha sulla variabile risposta. Una misura della multicollinearità è data
dall’indice V IF (Variance Inflationary Factor). In particolare, per la
j-esima variabile si ha
V IFj =
1
,
1 − Rj2
dove Rj2 è il coefficiente di determinazione che caratterizza il
modello in cui la variabile dipendente è Xj e tutte le altre variabili
esplicative sono incluse nel modello.
Il modello di regressione lineare multipla
Regressione quadratica e polinomiale
Supponiamo ora che tra Y e X non vi sia una relazione di tipo
lineare. Tra le relazioni non lineari più comuni vi è quella
quadratica. Il modello di regressione quadratica è simile ad un
modello di regressione multipla con due variabili esplicative in cui la
seconda variabile esplicativa è il quadrato della prima. In
particolare:
Yi = β0 + β1 xi1 + β2 x2i2 + i , i = 1, 2, . . . , n.
dove
β0 è l’intercetta,
β1 è il coefficiente che esprime l’effetto lineare su Y ,
β2 è il coefficiente che esprime l’effetto quadratico su Y ,
i è l’errore casuale.
Tale modello è generalizzabile ad un modello polinomiale.
Il modello di regressione lineare multipla
Variabili dummy
Nel caso di variabili esplicative discrete è opportuno ricorrere ad un
modello che includa variabili indicatrici (dummy) per poter valutare
l’effetto di un fenomeno che presenta modalità qualitative su una
risposta. Sia E un evento che si suppone abbia un effetto nel
modificare Yi . Sia
1 se per l’unità i-esima E è presente
Di =
0 altrimenti
la variabile indicatrice (dummy). Se consideriamo il modello
Yi = β0 + β1 xi1 + β2 Di + i , i = 1, 2, . . . , n
si avrà che
β0 + β1 xi1 + i ,
per le unità dove E è assente
Yi =
(β0 + β2 ) + β1 xi1 + i , per le unità dove E è presente
Il modello di regressione lineare multipla