Analisi statistica multivariata La regressione multipla Conoscenze necessarie Metodo dei minimi quadrati Inferenza nel modello di regressione lineare semplice Autore Stefania Mignani Data 12/10/2009 Regressione multipla La regressione multipla E’ il modello che esprime la relazione di DIPENDENZA LINEARE della variabile Y dalle variabili indipendenti (o regressori) X1, X2, …. , Xm : Y 0 1 X1 2 X 2 ......... m X m β0 intercetta del modello (parametro costante) β1, β2,…, βm coefficienti di regressione (βm indica quanto varia in media Y per variazioni unitarie di Xm, a parità di tutti gli altri regressori) ε variabile casuale, detta termine d’errore (esprime la variabilità di Y non spiegata dalla relazione lineare con i regressori). Si suppone che abbia media nulla E(ε)=0 e varianza finita var(ε)=σ2. Regressione multipla La regressione multipla Questo modello descrive un iper-piano in uno spazio (m + 1) dimensionale:. Figura 1. Esempio di regressione lineare multipla con due regressori Si suppone che la variabile dipendente Y sia una variabile casuale che, condizionatamente al valore dei regressori x = x1, x2,…., xm, ha valore atteso pari a : E (Y | x) 0 1 x1 ..... m xm (Y |x ) e varianza pari a: var(Y | x) var( 0 1 x1 ..... m xm ) var( ) 2 che non dipende dal valore dei regressori. Regressione multipla Lo stimatore dei minimi quadrati In ambito campionario, date m variabili esplicative Xj (j=1,….,m) e una variabile dipendente Y osservata in n unità statistiche, i parametri β1, β2,…, βm possono essere stimati con il metodo dei minimi quadrati. Tale metodo permette di ottenere stimatori con buone proprietà (corretti ed efficienti). Per una generica unità i il modello di regressione multipla si esprime come segue: yi 0 1 xi1 2 xi 2 ......... m xim i e per residuo si intende la differenza tra il valore osservato yi e il valore teorico dedotto dal modello yi*, per cui la funzione dei residui da minimizzare rispetto ai parametri β1, β2,…, βm è: n ( 0 , 1 ,......, m ) i2 i 1 n (y i 1 n i y ) ( yi 0 1 xi1 2 xi 2 ...... m xim ) 2 * 2 i i 1 Regressione multipla Lo stimatore dei minimi quadrati È molto più conveniente trattare con i modelli di regressione lineare multipla se sono espressi in notazione matriciale. Questo permette una più compatta visione del modello, dati e risultati. Il modello può essere sinteticamente espresso dalla relazione: y=Xβ+ε dove: y è un vettore colonna di dimensioni n × 1 dei valori della variabile dipendente X è la matrice n × (m + 1) dei valori dei regressori (è stata aggiunta ai valori osservati delle m variabili esplicative una colonna di 1 in corrispondenza dell’intercetta). β vettore (m + 1) × 1 dei coefficienti di regressione ε vettore n × 1 dei termini d’errore Regressione multipla Lo stimatore dei minimi quadrati y1 y 2 . y . . y n 1 x11 x12 1 x x X 21 22 . . . 1 x n1 x n 2 ... x1m ... x 2 m ... . ... x nm 0 1 . . . m Si vuole determinare il vettore b delle stime di β che minimizza la funzione: n ( ) i2 ' i 1 y X y X ' y' y y' X ' X ' y ' X ' X y' y 2 y' X ' X ' X 1 2 . . . n Regressione multipla Lo stimatore dei minimi quadrati Derivando rispetto a β e uguagliando a zero: 2 X y 2 X X 0 Si ricava lo stimatore dei minimi quadrati dell’intercetta e dei coefficienti di regressione: b X X X y 1 purché (X’X)-1 esista. La matrice (X’X)-1 esiste se le variabili di regressione sono linearmente indipendenti, che si verifica, se nessuna colonna della matrice X è una combinazione lineare delle altre colonne. Regressione multipla Alcune assunzioni… Una volta ricavato il vettore b che contiene le stime dei parametri, è necessario valutare la bontà del modello stimato. Prima però, per affrontare problemi di stima – puntuale o intervallare – e di verifica di ipotesi sui coefficienti, si devono porre alcune assunzioni: 1. la variabile d’errore ε si distribuisce come una normale, da cui segue la normalità distributiva della variabile dipendente Y; 2. le distribuzioni di Y condizionate alle diverse combinazioni dei regressori sono omoschedastiche; 3. le distribuzioni di Y sono indipendenti tra loro e indipendenti dai relativi termini d’errore; 4. linearità delle medie nella popolazione di riferimento Date queste condizioni si può determinare la distribuzione campionaria di alcune statistiche utili per controllare la significatività del modello, per saggiare ipotesi e costruire intervalli di confidenza. Regressione multipla Stimatore dei minimi quadrati Dato che lo stimatore dei minimi quadrati B è una combinazione lineare delle varie yi anch’esso si distribuisce normalmente, con media il vettore β, sia: b X X X y 1 B X X X Y si ha: 1 e E ( B) E[( X ' X ) 1 ( X ' Y )] E[( X ' X ) 1 ( X ' ( X )] E[( X ' X ) 1 ( X ' X X ' )] E[( X ' X ) 1 ( X ' X ) ( X ' X ) 1 X ' )] E[ I ( X ' X ) 1 X ' ] E ( ) ( X ' X ) 1 X ' E ( ) Regressione multipla Stimatore dei minimi quadrati e varianza la matrice σ2(X’X)-1: V ( B ) V [( X ' X ) 1 X 'Y ] V [( X ' X ) 1 X ' ( X )] V [( X ' X ) 1 ( X ' X X ' )] V [( X ' X ) 1 ( X ' X ) ( X ' X ) 1 X ' ] V [ I ( X ' X ) 1 X ' ] V ( ) V [( X ' X ) 1 X ' ] 0 V ( a ) a 2V ( ) [( X ' X ) 1 X ' ]V ( )[( X ' X ) 1 X ' ]' V ( )( X ' X ) 1 X ' X ( X ' X ) 1 2 ( X ' X ) 1 In sintesi, la legge distributiva dello stimatore B è quella di una normale multivariata: L( B) N ( , 2 ( X ' X ) 1 ) Regressione multipla Controllo di ipotesi sul modello Stimato il modello, è importante verificare se esiste, effettivamente, un legame lineare tra la variabile dipendente e i regressori. Si valuta in quale misura la variabilità complessiva risulta spiegata dalla relazione lineare tra le variabili scelte, saggiando l’ipotesi di indipendenza lineare: H0: β1=β2=…=βk=…=βm= 0 Se H0 viene rifiutata almeno uno dei regressori contribuisce a spiegare, nei termini di relazione lineare, la variabilità della Y. La devianza totale si può scomporre in devianza di regressione e devianza di dispersione (o residua): SST = SSR + SSE n (y i 1 n i n y ) ( yi y ) ( yi yi ) 2 2 i 1 * 2 * i 1 Per ottenere le varianze si dividono le devianze per i rispettivi gradi di libertà: var(Y ) SST SSR SSE 2 sY2 var( Y ) reg sreg var( Y ) e se2 n 1 m n m 1 Regressione multipla Controllo di ipotesi sul modello Per saggiare l’ipotesi di indipendenza lineare ci si avvale del test F, che si basa sull’analisi della varianza: F 2 sreg se2 tale rapporto si distribuisce, appunto, come una F di Fisher con m e n-m-1 gradi di libertà. Quando siano soddisfatte le condizioni di normalità distributiva della Y, di omoschedasticità e di indipendenza delle osservazioni, posta l’ipotesi di indipendenza lineare, le due variabili casuali campionarie s 2reg e s2e sono entrambi stimatori corretti di σ2. Invece, quando non vale l’ipotesi di indipendenza lineare il rapporto F tende a crescere, pertanto se il valore concreto di F è maggiore del valore teorico Fα;m,n-m-1 dedotto dalle tavole, si rifiuta H0 e si può ritenere che la variabilità spiegata dal modello sia significativamente più elevata della variabilità residua. Regressione multipla Controllo di ipotesi sul modello È interessante verificare ipotesi anche riguardo ai coefficienti individuali di regressione. L’ipotesi per testare la significatività di un singolo coefficiente è: H0: βj = 0 se vale tale ipotesi la variabile Xj ha un potere esplicativo irrilevante e può essere eliminata dal modello. Oppure si può valutare il valore numerico di un coefficiente, ossia saggiare l’ipotesi: H0: βj = β* Si ricorre alle statistiche già viste nell’ambito degli intervalli di confidenza, infatti il test per saggiare l’ipotesi sopra è: t | bj * | se c jj Per saggiare l’ipotesi di indipendenza lineare della Y da Xi, tale espressione della t si riduce a: t | bj | se c jj Se il valore calcolato di t è maggiore del valore teorico t α;n-m-1 dedotto dalle tavole si rifiuta H0. Regressione multipla Verifica dell’adeguatezza del modello Esistono molti metodi per valutare l’adeguatezza del modello di regressione multipla. L’indice di determinazione lineare multiplo R2: R2 SSR SSE 1 SST SST che varia tra 0 e 1e misura la frazione di variabilità di Y attribuibile alla dipendenza lineare dei regressori è spesso usato come unica grandezza per valutare la bontà del modello. In realtà tale indice potrebbe risultare elevato anche quando la relazione non è di tipo lineare e aggiungendo un regressore al modello R2 aumenta, quasi certamente, indipendentemente dal fatto che il regressore addizionale influisca sul modello oppure no. L’indice R2, aumentando al ridursi della devianza residua, non consente di operare una scelta fra modelli con un diverso numero di variabili esplicative. Regressione multipla Verifica dell’adeguatezza del modello 2 Un indice utile per confrontare modelli con un diverso numero di variabili esplicative è l’ R (R2 corretto): 2 R 1 SSE /( n m 1) SST /( n 1) 2 Il secondo termine dell’ R confronta la stima non distorta della varianza degli errori con la stima non distorta della varianza della variabile dipendente. 2 Nel confronto fra diversi modelli si sceglie quello per il quale l’indice R è maggiore. Tale indice può essere riscritto nel seguente modo: 2 R 1 SSE n 1 n 1 1 (1 R 2 ) SST n m 1 n m 1 Se si aggiunge al modello un ulteriore regressore la quantità (1-R2) diminuisce, in quanto misura il miglioramento nell’adattamento dovuto all’inserimento della nuova variabile, mentre il rapporto (n-1)/(n-m-1) aumenta, impone cioè una penalità perché, avendo aggiunto un regressore il modello è più complicato e si deve stimare un ulteriore parametro. Se il miglioramento nell’adattamento compensa la penalità si preferisce il modello con un più elevato numero di regressori. Regressione multipla Verifica dell’adeguatezza del modello È opportuno, per una ulteriore verifica della bontà del modello adattato e per valutare se valgono alcune assunzioni fondamentali alla base del modello lineare, ricorrere anche ad altre tecniche, tra le più note ci sono quelle che si basano sull’analisi dei residui. L’analisi dei residui si realizza ispezionando il grafico dei residui; i residui dovrebbero disporsi in maniera casuale intorno all’asse delle ascisse. Se gli errori sono normali, ε ~ N (0, I), la trasformazione lineare M ε di ε è ancora normale: M ε ~ N (0, σ2M). I residui sono i valori assunti da M ε e quindi sono la realizzazione di un vettore casuale normale. Di ^ conseguenza, sotto l’ipotesi di normalità, il 95% di essi dovrebbe essere compreso tra + 1,96 : Figura 2. Residui hjkh Regressione multipla Verifica dell’adeguatezza del modello La presenza di strutture nel grafico dei residui può indicare errori di specificazione nel modello. Ad esempio se nel grafico dei residui, rispetto all’indice i o ad una variabile esplicativa o alla variabile dipendente, si modifica l’ordine di grandezza ciò può indicare la presenza di eteroschedasticità. Si veda la figura 3, dove sull’asse delle ascisse si può considerare alternativamente l’indice i, il valore di un regressore xj, la variabile dipendente o i valori della funzione di regressione. Figura 3. Residui in presenza di eteroschedasticità Regressione multipla Verifica dell’adeguatezza del modello Se nella dinamica dei residui si rilevano valori successivi tra loro vicini, ciò può indicare la presenza di autocorrelazione positiva degli errori: Figura 4. Residui in presenza di autocorrelazione È importante tenere presente che se le ipotesi di omoschedasticità e incorrelazione non sono soddisfatte esistono stimatori più efficienti dello stimatore dei minimi quadrati. Regressione multipla Verifica dell’adeguatezza del modello L’omissione dell’intercetta dà luogo a residui con media non nulla perché nella stima dei parametri non si ^ impone il vincolo i 0 , (figura 4). L’omissione di una variabile esplicativa invece può determinare un trend (figura 5). Figura 5. Residui nel modello di regressione nel quale è stata omessa l’intercetta Figura 6. Residui nel modello di regressione nel quale è stata omessa una variabile esplicativa Regressione multipla Verifica dell’adeguatezza del modello L’approssimazione lineare di una relazione non lineare può generare un andamento non lineare nei residui (figura 6). Quando, invece, è possibile individuare dei gruppi nei residui ciò può indicare che si è verificato un cambiamento strutturale nella relazione fra la variabile dipendente e le variabili esplicative. Le osservazioni sono divise in due gruppi (o periodi) generati da due modelli con diversi valori dei parametri (figura 7). Figura 7. Residui in presenza di una relazione non lineare Figura 8. Residui in presenza di cambiamenti strutturali Regressione multipla Verifica dell’adeguatezza del modello Infine, residui molto distanti dagli altri possono indicare la presenza di valori anomali, ossia osservazioni distanti dalla maggioranza dei dati. Figura 9. Residui in presenza di valori anomali