Regressione Lineare Multipla

Regressione Lineare Multipla
Fabio Ruini
Abstract
La regressione ha come
scopo
principale
la
previsione: si mira, cioè, alla
costruzione di un modello
attraverso cui prevedere i
valori di una variabile
dipendente (o risposta), a
partire dai valori di una
(regressione
lineare
semplice) o più (regressione
lineare multipla) variabili
indipendenti (o esplicative).
In questa breve tesina, si
applicheranno
alcuni
algoritmi di regressione ad
un caso reale. Dato un
insieme di soggetti, ciascuno
di essi accompagnato dalla
misurazione del livello di
colesterolo nel sangue e da
una serie di indici di
rifrazione (ricavati dalla
analisi di un campione
sanguigno), l’obiettivo sarà
identificare quali sono gli
indici
più
significativi,
individuando in tal modo il
miglior
modello
di
regressione multipla in grado
di spiegare la variabilità del
colesterolo nel sangue.
Introduzione
Il dataset originale al centro della nostra analisi consiste in un elenco,
espresso in forma tabellare, di 263 pazienti. Per ciascuno di essi sono riportati
22 valori. I primi 21 di essi sono indici di rifrazione, ricavati dalle analisi di
un campione di sangue prelevato da ogni soggetto; il rimanente valore è
invece una misurazione del loro livello di colesterolo nel sangue.
Il nostro obiettivo è quello di generare il miglior modello regressivo
possibile, a partire da questi parametri, che sia in grado di spiegare la
variabilità del colesterolo del sangue sulla base delle variabili esplicative a
disposizione.
Una volta terminato lo studio, i dati verranno sottoposti ad una analisi delle
componenti principali e, sul dataset modificato, sarà effettuata una nuova
analisi di regressione lineare multipla.
Le analisi sono state svolte con l’ausilio del pacchetto software Matlab. A tal
fine sono stati predisposti tre script (regressione_lineare_multipla.m,
pvalue.m ed output_grafici.m), che effettuano in maniera automatica tutte le
operazioni necessarie, generando gli output grafici e mostrando a video le
caratteristiche di quello che viene individuato come “miglior modello di
regressione lineare multipla possibile”. A questi script se ne aggiunge un
quarto (pca.m), in grado di “risistemare” il dataset, mediante una Principal
Component Analysis, prima della seconda analisi dei cluster.
Descrizione del problema e teoria
Il dataset CHOLES, estrapolato dai dati originari, consiste in una matrice di
ordine 263x22, contenente sia la variabile risposta, sia le 21 variabili
esplicative. Prima di iniziare l’analisi, si sono dunque rese necessarie
operazioni supplementari sul dataset: la separazione dell’ultima colonna
(variabile dipendente) e l’aggiunta di un vettore colonna di ordine 263x1,
contenente esclusivamente valori “1”. Quest’ultima operazione è
indispensabile affinché Matlab sia in grado di stimare anche il parametro β0.
Beta 0
Beta 1
Beta 2
Beta 3
Beta i
Osservazione 1
1
0,274
0,311
0,304
…
Osservazione 2
1
1
0,242
0,232
0,278
0,265
0,274
0,26
…
…
0,147
1
1
0,276
0,275
0,317
0,316
0,309
0,308
…
…
0,181
1
1
…
0,227
…
0,256
…
0,248
…
…
Osservazione 3
Osservazione 4
Osservazione 5
Osservazione i
Osservazione 263
Beta 22
0,167
0,158
0,183
…
0,136
Y
38
38
11
35
14
…
30
Figura 1 – Estratto del dataset di riferimento
L’algoritmo che si occupa dell’individuazione del miglior modello lineare
funziona in maniera iterativa, seguendo uno schema concettuale molto
semplice. Esso prende il via effettuando la regressione su tutte le variabili a
disposizione ed elaborando, per ciascuno dei 22 parametri stimati, il
rispettivo p-value. Tutti i p-value vengono quindi confrontati con il livello di
significatività, nel nostro caso impostato al 95%, ossia 0.05. Nell’ipotesi in
cui almeno uno di questi regressori evidenzi un p-value maggiore rispetto al
livello di significatività del test (ovvero nel caso in cui sia altamente
probabile che almeno un regressore assuma il valore zero), l’algoritmo
provvede ad eliminare il parametro stimato a cui è associato il p-value
maggiore. Viene quindi effettuata una nuova regressione sulle variabili
rimaste (22-1) ed un nuovo controllo sui parametri stimati. Il procedimento si
ripete fino a quando tutti i coefficienti beta risultano essere, in base all’analisi
del p-value, significativi.
Risultati
Nel giungere al miglior modello lineare, l’algoritmo ha eliminato, in
sequenza, i regressori di posizione: 19, 11, 7, 17, 0, 12, 15, 14, 1, 16, 13, 5.
E’ importante tenere in considerazione proprio l’ordine con cui sono state
eliminate le variabili, in quanto il processo è di tipo “path-dependent” ed i
risultati possono variare, anche fortemente, a seconda del percorso seguito
dall’algoritmo.
Sui parametri rimasti (2, 3, 4, 6, 8, 9, 10, 18, 20, 21) è stata effettuata una
ulteriore analisi di significatività, che ha portato ai risultati riassunti nella
tabella che segue:
Stima
Int. di confidenza
(estremo inferiore)
Int. di confidenza
(estremo superiore)
P-Value
Beta 2
-0,3198
-0,5263
-0,1132
0,002542
Beta 3
0,714
0,3005
1,128
0,000781
Beta 4
-0,49
-0,8375
-0,1425
0,005893
Beta 6
0,3383
0,1691
0,5074
0,000105
Beta 8
-0,8494
-1,0408
-0,6581
0
Beta 9
1,3634
1,0918
1,635
0
Beta 10
-0,7846
-0,9544
-0,6148
0
Beta 18
0,4209
0,2412
0,6006
0,000006
Beta 20
-0,9499
-1,3261
-0,5736
0,000001
Beta 21
0,5547
0,3304
0,779
0,000001
Figura 2 – I risultati dell’analisi di significatività effettuata sui parametri del modello
lineare individuato (NB: con l’eccezione di quella dei p-value, su tutte le altre colonne
vale l’elevamento a potenza 1.0e+004)
Come si può notare, oltre al p-value, per ciascun regressore sono stati
calcolati anche gli estremi degli intervalli di confidenza. Si tratta di un
ulteriore strumenti con il quale è possibile approntare un’analisi di
significatività sui parametri, ancora più dettagliata rispetto al solo esame del
p-value.
I risultati mostrano chiaramente come l’algoritmo abbia svolto in maniera
corretta le proprie elaborazioni. Dei 10 parametri che compongono il modello
di regressione lineare multipla, infatti, nessuno di questi ha un p-value
superiore a 0.05 (livello di significatività delle regressioni effettuate) e
nessuno di essi ha un intervallo di confidenza che comprende al suo interno il
valore zero.
Relativamente all’intero modello, l’analisi di significatività è stata effettuata
ricorrendo al test di ipotesi F. L’ipotesi nulla e quella alternativa sono state
specificate nel modo seguente:
⎧ H 0 : β 2 = β 3 = β 4 = β 6 = β 8 = β 9 = β10 = β18 = β 20 = β 21 = 0
⎨
⎩ H 1 : almeno _ un _ β j ≠ 0
La statistica F, data dal rapporto tra la media dei quadrati della regressione
(MQR) e la media dei quadrati dell’errore (MQE), è stata valutata in
137.7189. Cifra ben al di sopra di 0.3909, individuato dall’algoritmo quale
valore critico della distribuzione F con 10 e 252 gradi di libertà. Ciò ha
consentito di rifiutare con un margine di errore pressoché inesistente l’ipotesi
nulla e decretare di conseguenza la significatività del modello. A confermare
questa tesi vi è anche il p-value relativo all’intero modello. Esso è risultato
essere uguale a zero e pertanto minore rispetto al livello di significatività alfa
della regressione (uguale a 0.05).
Anche l’analisi dei residui ha confermato l’adeguatezza del modello di
regressione individuato. Osservando il grafico, infatti, non si riconosce alcun
andamento regolare dei dati, che al contrario appaiono correttamente
disseminati intorno al valore zero. Unica anomalia sono 11 residui il cui
intervallo di confidenza non comprende il valore zero. Il loro numero è
tuttavia troppo basso per influenzare negativamente l’adozione del modello
in questione.
Figura 3 – Grafico dei residui relativo al modello lineare individuato dall’algoritmo
La successiva applicazione della Principal Component Analysis, ha
consentito di ridurre il dataset a sole 3 colonne. In compenso, l’utilizzo
dell’algoritmo di regressione sui nuovi dati non ha portato ad un ulteriore
riduzione del numero di variabili esplicative utilizzabili per la creazione del
modello lineare. Esso è stato dunque identificato come un modello regressivo
a tre parametri, tutti significativi (in tutte e tre le circostanze, il p-value è
risultato uguale a zero, mentre gli intervalli di confidenza si sono assestati su
valori ben distanti dallo zero).
Beta 1
Stima
Int. di confidenza
(estremo inferiore)
Int. di confidenza
(estremo superiore)
P-Value
-13,5695
-14,2949
-12,8442
0
Beta 2
36,5997
33,0625
40,1368
0
Beta 3
-86,1008
-93,0983
-79,1032
0
Figura 4 - I risultati dell’analisi di significatività effettuata sui parametri del modello
lineare individuato, successiva all’analisi delle componenti principali (PCA)
L’analisi di significatività dell’intero modello, anche in questo caso è stata
effettuata mediante il test di ipotesi F ed il p-value. Per quanto riguarda il
primo, le due ipotesi sono state specificate nel modo seguente:
⎧ H 0 : β1 = β 2 = β 3
⎨
⎩ H 1 : almeno _ un _ β j ≠ 0
Il valore della statistica F (469,6767) è risultato ben maggiore rispetto al
valore critico (0.1171) della distribuzione F con 3 e 259 gradi di libertà,
portando ad un netto rifiuto dell’ipotesi nulla. Come nel caso precedente, il p-
value è risultato essere uguale a zero e di conseguenza minore del livello di
significatività scelto all’inizio dell’analisi (95%, ossia 0.05).
Il grafico dei residui ha evidenziato un generale andamento irregolare degli
stessi. Rispetto al grafico del modello individuato precedentemente (prima
che sul dataset venisse applicata la PCA), si nota un numero maggiore di
residui il cui intervallo di confidenza non contempla al suo interno il valore
zero. Per l’esattezza, essi sono 16, contro gli 11 riscontrati in precedenza.
Rimane tuttavia un numero basso, se raffrontato alle 263 osservazioni
presenti nel dataset e pertanto insufficiente come indicatore di una presunta
inadeguatezza del modello di regressione in esame.
Figura 5 - Grafico dei residui relativo al modello lineare individuato dall’algoritmo,
successivo all’analisi delle componenti principali (PCA)
Conclusioni
Gli algoritmi utilizzati hanno permesso una significativa riduzione del
numero di variabili necessarie per elaborare il modello di regressione,
mantenendo al tempo stesso una buona capacità di sintesi.
Modello
pre-PCA
Modello
post-PCA
R2
0,827
0,7853
R2 corretto (adjusted R2)
Asymptotic Information Criterion (AIC)
Corrected AIC (AICC)
Indicatore di Schwarz
0,8202
1678,7
1679,7
1714,4
0,7828
1731,2
1731,3
1741,9
Figura 6 – Confronto tra i due modelli di regressione individuati (pre e post PCA),
sulla base di alcuni indici di valutazione
Osservando la tabella qui sopra, si scopre che, com’era lecito attendersi, il
modello a 10 variabili risulta più esplicativo rispetto a quello a 3 variabili. La
scelta dell’uno o dell’altro spetta in ultima istanza all’analista, che dovrà
valutare il grado di trade-off disposto a sopportare, in funzione del problema
in esame. Nel caso specifico, le differenze tutto sommato ridotte spingono a
favore del modello a tre variabili ottenuto in seguito alla PCA.
Bibliografia
D.M. Levine, “Statistica” – in particolare:
capitolo 9: “La regressione lineare semplice e la correlazione”;
capitolo 10: “I modelli di regressione multipla”;
T. Minerva, “La costruzione di modelli con algoritmi genetici” – in part.:
capitolo 1: “Tecniche di selezione di un modello statistico”;
M. Pastore, G. Vidotto, "Verifica di ipotesi sulla varianza":
http://zip2002.psy.unipd.it/statistica/hp_varianza.pdf
Valori critici della distribuzione F:
http://www.dss.uniud.it/utenti/lagazio/tavole/tavole_f.pdf
Roadmap MATLAB - in particolare:
"Getting started with Matlab (Version 6)";
"Using Matlab (Version 6)";
"Statistics Toolbox - for use with Matlab".