Il modello di regressione lineare multipla Il modello di regressione lineare multipla Introduzione E’ la generalizzazione del modello di regressione lineare semplice: per spiegare il fenomeno d’interesse Y vengono introdotte p, con p > 1, variabili esplicative. Tale generalizzazione diventa molto più semplice utilizzando l’algebra delle matrici. Il modello di regressione multipla genera però nuovi problemi: 1 scelta delle variabili, 2 multicollinearità, 3 test multipli. Il modello di regressione lineare multipla Specificazione del modello (1) Siano: Y = (Y1 , Y2 , . . . , Yn )0 il vettore delle v.c. dipendenti, le cui realizzazioni campionarie saranno contenute nel vettore y = (y1 , y2 , . . . , yn )0 ; X la matrice di dimensione (n × (p + 1)), contenente le osservazioni sulle variabili esplicative (regressori) e secondo la notazione usuale xij indica il valore assunto dalla variabile Xj , con j = 1, 2, . . . , p, relativamente all’ i-esima unità statistica, i = 1, 2, . . . , n; = (1 , 2 , . . . , n )0 il vettore delle v.c. i le cui realizzazioni (scarti) sono contenute nel vettore e = (e1 , e2 , . . . , en )0 ; β = (β0 , β1 , . . . , βp )0 il vettore dei (p + 1) parametri da stimare. Il modello di regressione lineare multipla Specificazione del modello (2) Pertanto, avendo posto: Y= Y1 Y2 ... Yi ... Yn X = 1 x11 1 x21 ... ... 1 xi1 ... ... 1 xn1 ... ... ... ... ... ··· x1p x2p ... xip ... xnp β = β0 β1 ... βi ... βp = 1 2 ... i ... n utilizzando la notazione matriciale, il modello di regressione multipla è dato da Y = Xβ + , ed esplicitando tale relazione per le singole unità statistiche equivale a Yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + i , i = 1, 2, . . . , n. Il modello di regressione lineare multipla (1) Specificazione del modello (3) Sul campione osservato la relazione (1) diventa y = Xβ + e. e, a livello delle singole unità statistiche, si specifica come segue yi = β0 + β1 xi1 + β2 xi2 + . . . + βp xip + ei , i = 1, 2, . . . , n. Il vettore e contiene le realizzazioni del vettore di v.c. . Tali realizzazioni sono determinabili se conosciamo i parametri β, perchè: e = y − Xβ e, ovviamente, si esplicitano nel modo seguente: ei = yi −(β0 +β1 xi1 +β2 xi2 +. . .+βp xip ) = yi −yi (β), i = 1, 2, . . . , n. Il modello di regressione lineare multipla Le ipotesi classiche Le ipotesi del modello di regressione lineare multipla sono 1 Y = Xβ + ; 2 E() = 0; 3 Var() = E(0 ) = σ 2 In ; 4 X è una matrice (non stocastica) tale che r(X) = p + 1. Dopo aver ottenuto le stime β̂j per i parametri βj , il modello diventa yi = β̂0 + β̂1 xi1 + β̂2 xi2 + . . . + β̂p xip + êi = ŷi + êi . I residui êi sono dati dalla differenza tra i valori osservati yi e i valori stimati ŷi calcolati secondo il modello di regressione. Il modello di regressione lineare multipla Stima dei parametri Per stimare i parametri del modello di regressione multipla, senza fare ulteriori assunzioni circa la forma distributiva degli errori, si utilizza il metodo dei minimi quadrati (LS). Tale metodo consente di trovare il vettore β che minimizza la somma degli scarti al quadrato, ovvero la funzione G(β) data da G(β) = e0 e = (y − Xβ)0 (y − Xβ). Sviluppando si ha che G(β) = y0 y + β 0 (X0 X)β − 2β 0 X0 y ed uguagliando a 0 la derivata prima di G(β) rispetto a β si ottiene 0 = G0 (β) = −2X0 y + 2(X0 X)β =⇒ β̂ = (X0 X)−1 X0 y. Il modello di regressione lineare multipla L’iperpiano di regressione Geometricamente l’equazione ŷi = β̂0 + β̂1 xi1 + β̂2 xi2 + . . . + β̂p xip , i = 1, 2, . . . , n, definisce un iperpiano nello spazio a p + 1 dimensioni. Per avere un’idea del procedimento di stima dei minimi quadrati, il piano rappresentato in figura è, tra gli infiniti piani, quello che rende minima la somma dei quadrati delle lunghezze dei segmenti congiungenti i punti osservati al piano stesso. Il modello di regressione lineare multipla Proprietà degli stimatori LS e ML Teorema di Gauss-Markov Sotto le ipotesi del modello di regressione lineare, gli stimatori LS B per i parametri β, sono lineari, non distorti,ed i più efficienti nella classe degli stimatori lineari e non distorti (BLUE). Per applicare il metodo ML, occorre aggiungere l’ipotesi che il vettore ∼ N (0, σ 2 I). Si può dimostrare che gli stimatori ML coincidono con quelli LS prima ricavati, che sono lineari, non distorti, sufficienti ed efficienti nella classe di tutti gli stimatori non distorti. Il modello di regressione lineare multipla Stima del parametro σ 2 Consideriamo innanzitutto l’identità n X i=1 (yi − ȳ)2 = n X i=1 (yi − ŷi )2 + n X (ŷi − ȳ)2 , i=1 che rappresenta la scomposizione della devianza totale in devianza residua e devianza spiegata (o della regressione), ovvero SQT = SQE + SQR. La stima della varianza delle v.c. errori è data da Pn (yi − ŷi )2 ê0 ê 2 s = = i=1 . n−p−1 n−p−1 Il modello di regressione lineare multipla Test su un singolo parametro Per ottenere la regione critica di un test o un intervallo di confidenza per i parametri del modello di regressione, è necessario ipotizzare, per n finito, che le v.c. errori siano normali e indipendenti, utilizzando quindi gli stimatori ML. Per verificare H0 : β̂i = 0 contro l’alternativa H1 : β̂i 6= 0 basta calcolare il rapporto β̂i − 0 , j = 0, 1, 2, . . . , p. T = √ s v j+1,j+1 Infatti la stima della varianza dello stimatore Bj per il parametro βj è data da es2 (Bj ) = s2 v j+1,j+1 dove v j+1,j+1 è l’elemento di posto (j + 1, j + 1) sulla diagonale principale della matrice (X0 X). Tale rapporto, sotto H0 , si distribuisce come una v.c. t di Student con n − p − 1 gradi di libertà. Il modello di regressione lineare multipla ANOVA per un modello di regressione lineare multipla Consiste in un test globale su tutti i parametri del modello (eccetto β0 ) e in particolare nel confronto tra la devianza del modello saturo Y = Xβ + e quella del modello vincolato Y = β0 1n + . Le ipotesi saranno: H0 : β1 = β2 = · · · = βp = 0 vs. H1 : almeno un βj 6= 0 Se indichiamo con Q1 la devianza della regressione Q2 la devianza dei residui siamo interessati a valutare la statistica F = Q1 /p Q2 /n − p − 1 che sotto H0 ha distribuzione F (p, n − p − 1). Il modello di regressione lineare multipla Confronto tra modelli annidati Per confrontare il modello vincolato (ridotto) con in modello non vincolato (saturo) si utilizza un test di tipo ANOVA, in cui il valore della statistica F = (SQEv − SQEnv )/(dfv − dfnv ) ∼ Fα,dfv −dfnv ,dfnv . SQEnv /(dfnv ) Sia F1 il modello minimale con la sola intercetta (p = 1). Sia Fp il modello corrente con p parametri e sia Fp0 un modello ridotto con 1 < p0 < p. la perdita di bontà di adattamento del modello Fp0 rispetto a Fp può essere valutata attraverso la statistica: F = (SQEp0 − SQEp )/(p − p0 ) ∼ Fp−p0 ,n−p SQEp0 /(n − p0 ) Il modello di regressione lineare multipla Bontà del modello Ricordando che SQT = SQE + SQR, il modello si adatterà tanto più ai dati quanto più modesta sarà la variabilità dell’errore rispetto alla variabilità totale. Si introduce pertanto l’indice di determinazione multipla R2 dato da Pn Pn 2 2 2 i=1 (ŷi − ȳ) i=1 (yi − ŷi ) P P R = n = 1 − . n 2 2 i=1 (yi − ȳ) i=1 (yi − ȳ) L’indice R2 varia in [0, 1] e più si avvicina a 1 migliore è l’adattamento del modello ai dati. Tuttavia è opportuno sottolineare che il valore R2 aumenta con l’aumentare del numero di regressori, per cui è conveniente considerare la versione corretta dell’indice R2 , data da Pn 2 2 i=1 (yi − ŷi ) /(n − p − 1) . R =1− P n 2 i=1 (yi − ȳ) /(n − 1) Il modello di regressione lineare multipla Scelta delle variabili esplicative Oltre all’indice R2 , vi è l’indice proposto da Mallows (1973) Cp = (1 − Rp2 )(n − T ) − [n − 2(p + 1)] 1 − RT2 Quando le variabili esplicative sono molte si ricorre a procedure di tipo stepwise, nelle varianti per inclusione e per eliminazione. In particolare, partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa al miglioramento del modello o si elimina una variabile il cui coefficiente non significativo. Altro approccio è il best-subset, in cui si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo uno dei criteri sopra riportati (R2 e Cp ). Il modello di regressione lineare multipla Multicollinearità Si verifica quando il rango della matrice X non è massimo e si traduce nella presenza di un’elevata correlazione tra le variabili esplicative. Le variabili collineari non forniscono informazioni aggiuntive e risulta difficile individuare l’effetto che ciascuna di esse ha sulla variabile risposta. Una misura della multicollinearità è data dall’indice V IF (Variance Inflationary Factor). In particolare, per la j-esima variabile si ha V IFj = 1 , 1 − Rj2 dove Rj2 è il coefficiente di determinazione che caratterizza il modello in cui la variabile dipendente è Xj e tutte le altre variabili esplicative sono incluse nel modello. Il modello di regressione lineare multipla Regressione quadratica e polinomiale Supponiamo ora che tra Y e X non vi sia una relazione di tipo lineare. Tra le relazioni non lineari più comuni vi è quella quadratica. Il modello di regressione quadratica è simile ad un modello di regressione multipla con due variabili esplicative in cui la seconda variabile esplicativa è il quadrato della prima. In particolare: Yi = β0 + β1 xi1 + β2 x2i2 + i , i = 1, 2, . . . , n. dove β0 è l’intercetta, β1 è il coefficiente che esprime l’effetto lineare su Y , β2 è il coefficiente che esprime l’effetto quadratico su Y , i è l’errore casuale. Tale modello è generalizzabile ad un modello polinomiale. Il modello di regressione lineare multipla Variabili dummy Nel caso di variabili esplicative discrete è opportuno ricorrere ad un modello che includa variabili indicatrici (dummy) per poter valutare l’effetto di un fenomeno che presenta modalità qualitative su una risposta. Sia E un evento che si suppone abbia un effetto nel modificare Yi . Sia 1 se per l’unità i-esima E è presente Di = 0 altrimenti la variabile indicatrice (dummy). Se consideriamo il modello Yi = β0 + β1 xi1 + β2 Di + i , i = 1, 2, . . . , n si avrà che β0 + β1 xi1 + i , per le unità dove E è assente Yi = (β0 + β2 ) + β1 xi1 + i , per le unità dove E è presente Il modello di regressione lineare multipla