Regressione lineare

Analisi statistica multivariata
La regressione multipla
Conoscenze necessarie
Metodo dei minimi quadrati
 Inferenza nel modello di regressione lineare
semplice

Autore
Stefania Mignani
Data
12/10/2009
Regressione multipla
La regressione multipla
 E’ il modello che esprime la relazione di DIPENDENZA LINEARE della variabile Y dalle variabili
indipendenti (o regressori) X1, X2, …. , Xm :
Y  0  1 X1  2 X 2  .........  m X m  
β0 intercetta del modello (parametro costante)
β1, β2,…, βm coefficienti di regressione (βm indica quanto varia in media Y per variazioni
unitarie di Xm, a parità di tutti gli altri regressori)
ε  variabile casuale, detta termine d’errore (esprime la variabilità di Y non spiegata dalla
relazione lineare con i regressori). Si suppone che abbia media nulla E(ε)=0 e varianza finita
var(ε)=σ2.
Regressione multipla
La regressione multipla
 Questo modello descrive un iper-piano in uno spazio (m + 1) dimensionale:.
Figura 1. Esempio di regressione lineare multipla con due regressori
 Si suppone che la variabile dipendente Y sia una variabile casuale che, condizionatamente al valore dei
regressori x = x1, x2,…., xm, ha valore atteso pari a :
E (Y | x)   0  1 x1  .....   m xm   (Y |x )
e varianza pari a:
var(Y | x)  var(  0  1 x1  .....   m xm   )  var(  )   2
che non dipende dal valore dei regressori.
Regressione multipla
Lo stimatore dei minimi quadrati
 In ambito campionario, date m variabili esplicative Xj (j=1,….,m) e una variabile dipendente Y osservata in n
unità statistiche, i parametri β1, β2,…, βm possono essere stimati con il metodo dei minimi quadrati. Tale metodo
permette di ottenere stimatori con buone proprietà (corretti ed efficienti).
Per una generica unità i il modello di regressione multipla si esprime come segue:
yi   0  1 xi1   2 xi 2  .........   m xim   i
e per residuo si intende la differenza tra il valore osservato yi e il valore teorico dedotto dal modello yi*, per cui
la funzione dei residui da minimizzare rispetto ai parametri β1, β2,…, βm è:
n
 (  0 , 1 ,......,  m )    i2 
i 1
n
(y
i 1
n
i
 y )   ( yi   0  1 xi1   2 xi 2  ......   m xim ) 2
* 2
i
i 1
Regressione multipla
Lo stimatore dei minimi quadrati
 È molto più conveniente trattare con i modelli di regressione lineare multipla se sono espressi in notazione
matriciale. Questo permette una più compatta visione del modello, dati e risultati.
Il modello può essere sinteticamente espresso dalla relazione:
y=Xβ+ε
dove:
y è un vettore colonna di dimensioni n × 1 dei valori della variabile dipendente
X è la matrice n × (m + 1) dei valori dei regressori (è stata aggiunta ai valori osservati delle m variabili
esplicative una colonna di 1 in corrispondenza dell’intercetta).
β vettore (m + 1) × 1 dei coefficienti di regressione
ε vettore n × 1 dei termini d’errore


Regressione multipla
Lo stimatore dei minimi quadrati
 y1 
y 
 2
. 
y 
. 
. 
 
 y n 
1 x11 x12
1 x x
X   21 22
. .
.

1 x n1 x n 2
... x1m 
... x 2 m 
... . 

... x nm 
 0 
 
 1 
. 
  
. 
. 
 
  m 
Si vuole determinare il vettore b delle stime di β che minimizza la funzione:
n
 (  )    i2   '  

i 1
 y X
 y  X   
'
 y' y  y' X    ' X ' y   ' X ' X  
 y' y  2 y' X    ' X ' X 

 1 
 
 2
. 
  
. 
. 
 
 n 
Regressione multipla
Lo stimatore dei minimi quadrati
Derivando rispetto a β e uguagliando a zero:


 2 X  y  2 X  X   0

Si ricava lo stimatore dei minimi quadrati dell’intercetta e dei coefficienti di regressione:
b  X  X  X  y
1
purché (X’X)-1 esista. La matrice (X’X)-1 esiste se le variabili di regressione sono linearmente indipendenti, che si
verifica, se nessuna colonna della matrice X è una combinazione lineare delle altre colonne.
Regressione multipla
Alcune assunzioni…
 Una volta ricavato il vettore b che contiene le stime dei parametri, è necessario valutare la bontà del modello
stimato. Prima però, per affrontare problemi di stima – puntuale o intervallare – e di verifica di ipotesi sui
coefficienti, si devono porre alcune assunzioni:
1. la variabile d’errore ε si distribuisce come una normale, da cui segue la normalità distributiva della
variabile dipendente Y;
2. le distribuzioni di Y condizionate alle diverse combinazioni dei regressori sono omoschedastiche;
3. le distribuzioni di Y sono indipendenti tra loro e indipendenti dai relativi termini d’errore;
4. linearità delle medie nella popolazione di riferimento
Date queste condizioni si può determinare la distribuzione campionaria di alcune statistiche utili per controllare
la significatività del modello, per saggiare ipotesi e costruire intervalli di confidenza.
Regressione multipla
Stimatore dei minimi quadrati
 Dato che lo stimatore dei minimi quadrati B è una combinazione lineare delle varie yi anch’esso si distribuisce
normalmente, con media il vettore β, sia:
b  X  X  X  y
1
B   X  X  X Y si ha:
1
e
E ( B) 
 E[( X ' X ) 1 ( X ' Y )]  E[( X ' X ) 1 ( X ' ( X    )] 
 E[( X ' X ) 1 ( X ' X   X '  )] 
 E[( X ' X ) 1 ( X ' X )   ( X ' X ) 1 X '  )] 
 E[ I   ( X ' X ) 1 X '  ] 
 E (  )  ( X ' X ) 1 X ' E ( )  
Regressione multipla
Stimatore dei minimi quadrati
e varianza la matrice σ2(X’X)-1:
V ( B )  V [( X ' X ) 1 X 'Y ] 
 V [( X ' X ) 1 X ' ( X    )] 
 V [( X ' X ) 1 ( X ' X   X '  )] 
 V [( X ' X ) 1 ( X ' X )   ( X ' X ) 1 X '  ] 
 V [ I   ( X ' X ) 1 X '  ] 
 V (  )  V [( X ' X ) 1 X '  ] 
 0  V ( a ) 
 a 2V ( ) 
 [( X ' X ) 1 X ' ]V ( )[( X ' X ) 1 X ' ]' 
 V ( )( X ' X ) 1 X ' X ( X ' X ) 1 
  2 ( X ' X ) 1
In sintesi, la legge distributiva dello stimatore B è quella di una normale multivariata:
L( B)  N ( , 2 ( X ' X ) 1 )
Regressione multipla
Controllo di ipotesi sul modello
 Stimato il modello, è importante verificare se esiste, effettivamente, un legame lineare tra la variabile dipendente
e i regressori. Si valuta in quale misura la variabilità complessiva risulta spiegata dalla relazione lineare tra le
variabili scelte, saggiando l’ipotesi di indipendenza lineare:
H0: β1=β2=…=βk=…=βm= 0
Se H0 viene rifiutata almeno uno dei regressori contribuisce a spiegare, nei termini di relazione lineare, la
variabilità della Y.
La devianza totale si può scomporre in devianza di regressione e devianza di dispersione (o residua):
SST = SSR + SSE
n
(y
i 1
n
i
n
 y )   ( yi  y )   ( yi  yi ) 2
2
i 1
*
2
*
i 1
Per ottenere le varianze si dividono le devianze per i rispettivi gradi di libertà:
var(Y ) 
SST
SSR
SSE
2
 sY2 var( Y ) reg 
 sreg
var( Y ) e 
 se2
n 1
m
n  m 1
Regressione multipla
Controllo di ipotesi sul modello
Per saggiare l’ipotesi di indipendenza lineare ci si avvale del test F, che si basa sull’analisi della varianza:
F 
2
sreg
se2
tale rapporto si distribuisce, appunto, come una F di Fisher con m e n-m-1 gradi di libertà.
Quando siano soddisfatte le condizioni di normalità distributiva della Y, di omoschedasticità e di indipendenza
delle osservazioni, posta l’ipotesi di indipendenza lineare, le due variabili casuali campionarie s 2reg e s2e sono
entrambi stimatori corretti di σ2.
Invece, quando non vale l’ipotesi di indipendenza lineare il rapporto F tende a crescere, pertanto se il valore
concreto di F è maggiore del valore teorico Fα;m,n-m-1 dedotto dalle tavole, si rifiuta H0 e si può ritenere che la
variabilità spiegata dal modello sia significativamente più elevata della variabilità residua.
Regressione multipla
Controllo di ipotesi sul modello
 È interessante verificare ipotesi anche riguardo ai coefficienti individuali di regressione. L’ipotesi per testare la
significatività di un singolo coefficiente è:
H0: βj = 0
se vale tale ipotesi la variabile Xj ha un potere esplicativo irrilevante e può essere eliminata dal modello.
Oppure si può valutare il valore numerico di un coefficiente, ossia saggiare l’ipotesi:
H0: βj = β*
Si ricorre alle statistiche già viste nell’ambito degli intervalli di confidenza, infatti il test per saggiare l’ipotesi
sopra è:
t
| bj   * |
se c jj
Per saggiare l’ipotesi di indipendenza lineare della Y da Xi, tale espressione della t si riduce a:
t
| bj |
se c jj
Se il valore calcolato di t è maggiore del valore teorico t α;n-m-1 dedotto dalle tavole si rifiuta H0.
Regressione multipla
Verifica dell’adeguatezza del modello
 Esistono molti metodi per valutare l’adeguatezza del modello di regressione multipla.
 L’indice di determinazione lineare multiplo R2:
R2 
SSR
SSE
 1
SST
SST
che varia tra 0 e 1e misura la frazione di variabilità di Y attribuibile alla dipendenza lineare dei regressori
è spesso usato come unica grandezza per valutare la bontà del modello. In realtà tale indice potrebbe
risultare elevato anche quando la relazione non è di tipo lineare e aggiungendo un regressore al modello
R2 aumenta, quasi certamente, indipendentemente dal fatto che il regressore addizionale influisca sul
modello oppure no.
L’indice R2, aumentando al ridursi della devianza residua, non consente di operare una scelta fra modelli
con un diverso numero di variabili esplicative.
Regressione multipla
Verifica dell’adeguatezza del modello
2
 Un indice utile per confrontare modelli con un diverso numero di variabili esplicative è l’ R (R2 corretto):
2
R  1
SSE /( n  m  1)
SST /( n  1)
2
Il secondo termine dell’ R confronta la stima non distorta della varianza degli errori con la stima non distorta
della varianza della variabile dipendente.
2
Nel confronto fra diversi modelli si sceglie quello per il quale l’indice R è maggiore. Tale indice può essere
riscritto nel seguente modo:
2
R  1
SSE n  1
n 1
 1  (1  R 2 )
SST n  m  1
n  m 1
Se si aggiunge al modello un ulteriore regressore la quantità (1-R2) diminuisce, in quanto misura il
miglioramento nell’adattamento dovuto all’inserimento della nuova variabile, mentre il rapporto (n-1)/(n-m-1)
aumenta, impone cioè una penalità perché, avendo aggiunto un regressore il modello è più complicato e si deve
stimare un ulteriore parametro. Se il miglioramento nell’adattamento compensa la penalità si preferisce il
modello con un più elevato numero di regressori.
Regressione multipla
Verifica dell’adeguatezza del modello
 È opportuno, per una ulteriore verifica della bontà del modello adattato e per valutare se valgono alcune
assunzioni fondamentali alla base del modello lineare, ricorrere anche ad altre tecniche, tra le più note ci sono
quelle che si basano sull’analisi dei residui.
L’analisi dei residui si realizza ispezionando il grafico dei residui; i residui dovrebbero disporsi in maniera
casuale intorno all’asse delle ascisse.
Se gli errori sono normali, ε ~ N (0, I), la trasformazione lineare M ε di ε è ancora normale: M ε ~ N (0, σ2M).
I residui sono i valori assunti da M ε e quindi sono la realizzazione di un vettore casuale normale. Di
^
conseguenza, sotto l’ipotesi di normalità, il 95% di essi dovrebbe essere compreso tra + 1,96  :
Figura 2. Residui
 hjkh
Regressione multipla
Verifica dell’adeguatezza del modello
La presenza di strutture nel grafico dei residui può indicare errori di specificazione nel modello. Ad esempio se
nel grafico dei residui, rispetto all’indice i o ad una variabile esplicativa o alla variabile dipendente, si modifica
l’ordine di grandezza ciò può indicare la presenza di eteroschedasticità. Si veda la figura 3, dove sull’asse delle
ascisse si può considerare alternativamente l’indice i, il valore di un regressore xj, la variabile dipendente o i
valori della funzione di regressione.
Figura 3.
Residui in presenza di
eteroschedasticità
Regressione multipla
Verifica dell’adeguatezza del modello
Se nella dinamica dei residui si rilevano valori successivi tra loro vicini, ciò può indicare la presenza di
autocorrelazione positiva degli errori:
Figura 4.
Residui in presenza
di autocorrelazione
È importante tenere presente che se le ipotesi di omoschedasticità e incorrelazione non sono soddisfatte esistono
stimatori più efficienti dello stimatore dei minimi quadrati.
Regressione multipla
Verifica dell’adeguatezza del modello
L’omissione dell’intercetta dà luogo a residui con media non nulla perché nella stima dei parametri non si
^
impone il vincolo

i
 0 , (figura 4). L’omissione di una variabile esplicativa invece può determinare un
trend (figura 5).
Figura 5.
Residui nel modello di
regressione nel quale è stata
omessa l’intercetta
Figura 6.
Residui nel modello di
regressione nel quale è stata
omessa una variabile esplicativa
Regressione multipla
Verifica dell’adeguatezza del modello
L’approssimazione lineare di una relazione non lineare può generare un andamento non lineare nei residui
(figura 6). Quando, invece, è possibile individuare dei gruppi nei residui ciò può indicare che si è verificato un
cambiamento strutturale nella relazione fra la variabile dipendente e le variabili esplicative. Le osservazioni sono
divise in due gruppi (o periodi) generati da due modelli con diversi valori dei parametri (figura 7).
Figura 7.
Residui in presenza di una relazione non
lineare
Figura 8.
Residui in presenza di cambiamenti strutturali
Regressione multipla
Verifica dell’adeguatezza del modello
Infine, residui molto distanti dagli altri possono indicare la presenza di valori anomali, ossia osservazioni distanti
dalla maggioranza dei dati.
Figura 9.
Residui in presenza di valori anomali