Regressione Lineare Multipla Fabio Ruini Abstract La regressione ha come scopo principale la previsione: si mira, cioè, alla costruzione di un modello attraverso cui prevedere i valori di una variabile dipendente (o risposta), a partire dai valori di una (regressione lineare semplice) o più (regressione lineare multipla) variabili indipendenti (o esplicative). In questa breve tesina, si applicheranno alcuni algoritmi di regressione ad un caso reale. Dato un insieme di soggetti, ciascuno di essi accompagnato dalla misurazione del livello di colesterolo nel sangue e da una serie di indici di rifrazione (ricavati dalla analisi di un campione sanguigno), l’obiettivo sarà identificare quali sono gli indici più significativi, individuando in tal modo il miglior modello di regressione multipla in grado di spiegare la variabilità del colesterolo nel sangue. Introduzione Il dataset originale al centro della nostra analisi consiste in un elenco, espresso in forma tabellare, di 263 pazienti. Per ciascuno di essi sono riportati 22 valori. I primi 21 di essi sono indici di rifrazione, ricavati dalle analisi di un campione di sangue prelevato da ogni soggetto; il rimanente valore è invece una misurazione del loro livello di colesterolo nel sangue. Il nostro obiettivo è quello di generare il miglior modello regressivo possibile, a partire da questi parametri, che sia in grado di spiegare la variabilità del colesterolo del sangue sulla base delle variabili esplicative a disposizione. Una volta terminato lo studio, i dati verranno sottoposti ad una analisi delle componenti principali e, sul dataset modificato, sarà effettuata una nuova analisi di regressione lineare multipla. Le analisi sono state svolte con l’ausilio del pacchetto software Matlab. A tal fine sono stati predisposti tre script (regressione_lineare_multipla.m, pvalue.m ed output_grafici.m), che effettuano in maniera automatica tutte le operazioni necessarie, generando gli output grafici e mostrando a video le caratteristiche di quello che viene individuato come “miglior modello di regressione lineare multipla possibile”. A questi script se ne aggiunge un quarto (pca.m), in grado di “risistemare” il dataset, mediante una Principal Component Analysis, prima della seconda analisi dei cluster. Descrizione del problema e teoria Il dataset CHOLES, estrapolato dai dati originari, consiste in una matrice di ordine 263x22, contenente sia la variabile risposta, sia le 21 variabili esplicative. Prima di iniziare l’analisi, si sono dunque rese necessarie operazioni supplementari sul dataset: la separazione dell’ultima colonna (variabile dipendente) e l’aggiunta di un vettore colonna di ordine 263x1, contenente esclusivamente valori “1”. Quest’ultima operazione è indispensabile affinché Matlab sia in grado di stimare anche il parametro β0. Beta 0 Beta 1 Beta 2 Beta 3 Beta i Osservazione 1 1 0,274 0,311 0,304 … Osservazione 2 1 1 0,242 0,232 0,278 0,265 0,274 0,26 … … 0,147 1 1 0,276 0,275 0,317 0,316 0,309 0,308 … … 0,181 1 1 … 0,227 … 0,256 … 0,248 … … Osservazione 3 Osservazione 4 Osservazione 5 Osservazione i Osservazione 263 Beta 22 0,167 0,158 0,183 … 0,136 Y 38 38 11 35 14 … 30 Figura 1 – Estratto del dataset di riferimento L’algoritmo che si occupa dell’individuazione del miglior modello lineare funziona in maniera iterativa, seguendo uno schema concettuale molto semplice. Esso prende il via effettuando la regressione su tutte le variabili a disposizione ed elaborando, per ciascuno dei 22 parametri stimati, il rispettivo p-value. Tutti i p-value vengono quindi confrontati con il livello di significatività, nel nostro caso impostato al 95%, ossia 0.05. Nell’ipotesi in cui almeno uno di questi regressori evidenzi un p-value maggiore rispetto al livello di significatività del test (ovvero nel caso in cui sia altamente probabile che almeno un regressore assuma il valore zero), l’algoritmo provvede ad eliminare il parametro stimato a cui è associato il p-value maggiore. Viene quindi effettuata una nuova regressione sulle variabili rimaste (22-1) ed un nuovo controllo sui parametri stimati. Il procedimento si ripete fino a quando tutti i coefficienti beta risultano essere, in base all’analisi del p-value, significativi. Risultati Nel giungere al miglior modello lineare, l’algoritmo ha eliminato, in sequenza, i regressori di posizione: 19, 11, 7, 17, 0, 12, 15, 14, 1, 16, 13, 5. E’ importante tenere in considerazione proprio l’ordine con cui sono state eliminate le variabili, in quanto il processo è di tipo “path-dependent” ed i risultati possono variare, anche fortemente, a seconda del percorso seguito dall’algoritmo. Sui parametri rimasti (2, 3, 4, 6, 8, 9, 10, 18, 20, 21) è stata effettuata una ulteriore analisi di significatività, che ha portato ai risultati riassunti nella tabella che segue: Stima Int. di confidenza (estremo inferiore) Int. di confidenza (estremo superiore) P-Value Beta 2 -0,3198 -0,5263 -0,1132 0,002542 Beta 3 0,714 0,3005 1,128 0,000781 Beta 4 -0,49 -0,8375 -0,1425 0,005893 Beta 6 0,3383 0,1691 0,5074 0,000105 Beta 8 -0,8494 -1,0408 -0,6581 0 Beta 9 1,3634 1,0918 1,635 0 Beta 10 -0,7846 -0,9544 -0,6148 0 Beta 18 0,4209 0,2412 0,6006 0,000006 Beta 20 -0,9499 -1,3261 -0,5736 0,000001 Beta 21 0,5547 0,3304 0,779 0,000001 Figura 2 – I risultati dell’analisi di significatività effettuata sui parametri del modello lineare individuato (NB: con l’eccezione di quella dei p-value, su tutte le altre colonne vale l’elevamento a potenza 1.0e+004) Come si può notare, oltre al p-value, per ciascun regressore sono stati calcolati anche gli estremi degli intervalli di confidenza. Si tratta di un ulteriore strumenti con il quale è possibile approntare un’analisi di significatività sui parametri, ancora più dettagliata rispetto al solo esame del p-value. I risultati mostrano chiaramente come l’algoritmo abbia svolto in maniera corretta le proprie elaborazioni. Dei 10 parametri che compongono il modello di regressione lineare multipla, infatti, nessuno di questi ha un p-value superiore a 0.05 (livello di significatività delle regressioni effettuate) e nessuno di essi ha un intervallo di confidenza che comprende al suo interno il valore zero. Relativamente all’intero modello, l’analisi di significatività è stata effettuata ricorrendo al test di ipotesi F. L’ipotesi nulla e quella alternativa sono state specificate nel modo seguente: ⎧ H 0 : β 2 = β 3 = β 4 = β 6 = β 8 = β 9 = β10 = β18 = β 20 = β 21 = 0 ⎨ ⎩ H 1 : almeno _ un _ β j ≠ 0 La statistica F, data dal rapporto tra la media dei quadrati della regressione (MQR) e la media dei quadrati dell’errore (MQE), è stata valutata in 137.7189. Cifra ben al di sopra di 0.3909, individuato dall’algoritmo quale valore critico della distribuzione F con 10 e 252 gradi di libertà. Ciò ha consentito di rifiutare con un margine di errore pressoché inesistente l’ipotesi nulla e decretare di conseguenza la significatività del modello. A confermare questa tesi vi è anche il p-value relativo all’intero modello. Esso è risultato essere uguale a zero e pertanto minore rispetto al livello di significatività alfa della regressione (uguale a 0.05). Anche l’analisi dei residui ha confermato l’adeguatezza del modello di regressione individuato. Osservando il grafico, infatti, non si riconosce alcun andamento regolare dei dati, che al contrario appaiono correttamente disseminati intorno al valore zero. Unica anomalia sono 11 residui il cui intervallo di confidenza non comprende il valore zero. Il loro numero è tuttavia troppo basso per influenzare negativamente l’adozione del modello in questione. Figura 3 – Grafico dei residui relativo al modello lineare individuato dall’algoritmo La successiva applicazione della Principal Component Analysis, ha consentito di ridurre il dataset a sole 3 colonne. In compenso, l’utilizzo dell’algoritmo di regressione sui nuovi dati non ha portato ad un ulteriore riduzione del numero di variabili esplicative utilizzabili per la creazione del modello lineare. Esso è stato dunque identificato come un modello regressivo a tre parametri, tutti significativi (in tutte e tre le circostanze, il p-value è risultato uguale a zero, mentre gli intervalli di confidenza si sono assestati su valori ben distanti dallo zero). Beta 1 Stima Int. di confidenza (estremo inferiore) Int. di confidenza (estremo superiore) P-Value -13,5695 -14,2949 -12,8442 0 Beta 2 36,5997 33,0625 40,1368 0 Beta 3 -86,1008 -93,0983 -79,1032 0 Figura 4 - I risultati dell’analisi di significatività effettuata sui parametri del modello lineare individuato, successiva all’analisi delle componenti principali (PCA) L’analisi di significatività dell’intero modello, anche in questo caso è stata effettuata mediante il test di ipotesi F ed il p-value. Per quanto riguarda il primo, le due ipotesi sono state specificate nel modo seguente: ⎧ H 0 : β1 = β 2 = β 3 ⎨ ⎩ H 1 : almeno _ un _ β j ≠ 0 Il valore della statistica F (469,6767) è risultato ben maggiore rispetto al valore critico (0.1171) della distribuzione F con 3 e 259 gradi di libertà, portando ad un netto rifiuto dell’ipotesi nulla. Come nel caso precedente, il p- value è risultato essere uguale a zero e di conseguenza minore del livello di significatività scelto all’inizio dell’analisi (95%, ossia 0.05). Il grafico dei residui ha evidenziato un generale andamento irregolare degli stessi. Rispetto al grafico del modello individuato precedentemente (prima che sul dataset venisse applicata la PCA), si nota un numero maggiore di residui il cui intervallo di confidenza non contempla al suo interno il valore zero. Per l’esattezza, essi sono 16, contro gli 11 riscontrati in precedenza. Rimane tuttavia un numero basso, se raffrontato alle 263 osservazioni presenti nel dataset e pertanto insufficiente come indicatore di una presunta inadeguatezza del modello di regressione in esame. Figura 5 - Grafico dei residui relativo al modello lineare individuato dall’algoritmo, successivo all’analisi delle componenti principali (PCA) Conclusioni Gli algoritmi utilizzati hanno permesso una significativa riduzione del numero di variabili necessarie per elaborare il modello di regressione, mantenendo al tempo stesso una buona capacità di sintesi. Modello pre-PCA Modello post-PCA R2 0,827 0,7853 R2 corretto (adjusted R2) Asymptotic Information Criterion (AIC) Corrected AIC (AICC) Indicatore di Schwarz 0,8202 1678,7 1679,7 1714,4 0,7828 1731,2 1731,3 1741,9 Figura 6 – Confronto tra i due modelli di regressione individuati (pre e post PCA), sulla base di alcuni indici di valutazione Osservando la tabella qui sopra, si scopre che, com’era lecito attendersi, il modello a 10 variabili risulta più esplicativo rispetto a quello a 3 variabili. La scelta dell’uno o dell’altro spetta in ultima istanza all’analista, che dovrà valutare il grado di trade-off disposto a sopportare, in funzione del problema in esame. Nel caso specifico, le differenze tutto sommato ridotte spingono a favore del modello a tre variabili ottenuto in seguito alla PCA. Bibliografia D.M. Levine, “Statistica” – in particolare: capitolo 9: “La regressione lineare semplice e la correlazione”; capitolo 10: “I modelli di regressione multipla”; T. Minerva, “La costruzione di modelli con algoritmi genetici” – in part.: capitolo 1: “Tecniche di selezione di un modello statistico”; M. Pastore, G. Vidotto, "Verifica di ipotesi sulla varianza": http://zip2002.psy.unipd.it/statistica/hp_varianza.pdf Valori critici della distribuzione F: http://www.dss.uniud.it/utenti/lagazio/tavole/tavole_f.pdf Roadmap MATLAB - in particolare: "Getting started with Matlab (Version 6)"; "Using Matlab (Version 6)"; "Statistics Toolbox - for use with Matlab".