REGRESSIONE Un modello di regressione può essere espresso

REGRESSIONE
Un modello di regressione può essere espresso attraverso una relazione del tipo:
Y=f(X)
dove Y rappresenta la variabile spiegata e X l’insieme delle variabili esplicative ed f la
funzione di tipo matematico.
Se le variabili esplicative previste sono in grado di determinare i valori e le variazioni
della variabile da spiegare il modello è detto deterministico ed assume la forma di cui
sopra. Difficilmente, però, le variabili previste sono in grado di spiegare compiutamente la
variabile endogena in quanto essa è influenzata da altre variabili che pur svolgendo un
ruolo preminente sono trascurate nel modello o perché di difficile misurazione o perché
non rilevabili in maniera obiettiva, inoltre, trattandosi di dati rilevati sono soggetti a varie
tipologie di errori quali ad esempio quelli di misurazione.
Quindi, affinché il modello sia più aderente alla realtà è necessario tener conto anche
dei fattori trascurati che sono raggruppati in un’unica componente di natura casuale, per
cui diventa:
Y=f(X) + ε
dove f(X) resta la componente deterministica ed ε individua la componente erratica di
natura casuale detta anche componente stocastica.
Occorre, adesso, procedere alla specificazione della funzione f detta anche forma
funzionale. Qualora i casi osservati sono poco numerosi e le variabili esplicative sono
soltanto una o due è possibile ricorrere all'ausilio grafico per individuare la forma
funzionale più idonea a descrivere la relazione tra variabili esplicative e variabile da
spiegare, così se i valori dei ricavi si dispongono grosso modo lungo una retta la funzione
è di tipo lineare, oppure in caso contrario potrà essere di tipo logaritmico, esponenziale a
seconda dei casi.
Quando, invece, i casi sono molto numerosi come pure il numero delle variabili
esplicative la scelta è guidata principalmente dall’esperienza del ricercatore rinviando alla
fase della verifica del modello l’adozione di forme funzionali alternative. In genere, viene
adottata la forma lineare ed il modello prende il nome di regressione multipla e diventa:
y i = a + b1 x i 1 + b2 x i 2 + ............. + bn x ik + ε i
Dove: y è la variabile endogena
a è una costante (intercetta all’origine),
bj con j = 1,….,k sono i coefficienti
xik sono i valori delle variabili considerate
εi è la componente erratica relativa al contribuente i-mo.
50
D. Lucev
Per meglio evidenziare il ruolo della componente erratica nel modello si ritiene
opportuno fornire la seguente esemplificazione che per comodità, soltanto da un punto di
vista grafico, prevede il riferimento al modello di regressione lineare semplice che
differisce dal precedente in quanto contempla una sola variabile esplicativa, naturalmente
per analogia è possibile ricondursi, poi, al modello di regressione multipla.
In presenza di un modello deterministico in cui è assente la componente erratica i
punti osservati si dispongono lungo una retta:
y i = a + bx i
La retta che scaturisce dalla stima dei parametri a e b del modello passa esattamente
per i punti osservati, come ben si può vedere dalla seguente figura.
Y
Y
•
••
• •
0
•
a
•
••
• •
•
b
0
Modello lineare deterministico
E’ questo il caso in cui la variabile o le variabili esplicative nella regressione multipla
riescono a determinare compiutamente il valore di y, caso poco realistico che comporta
l’esistenza della componente erratica nel modello, per cui, il valore di y è determinato in
parte dalla componente deterministica espressa dalla forma funzionale f(X), che nel caso
specifico assume la forma lineare, e nella restante parte dalla componente erratica.
Minore è il valore assoluto della componente erratica maggiore è l’adeguatezza del
modello a spiegare i valori osservati della variabile ricavo; situazione descritta dalla Fig.
seguente:
Y
Y
•
•
•
•
•
•
•
•
a
0
•
•
X
•
•
b
X
0
Modello lineare stocastico con basso valore assoluto della componente erratica.
Viceversa, qualora il valore assoluto della componente erratica è abbastanza elevato
il potere esplicativo della componente deterministica si riduce fino al caso limite di
invalidazione del modello.
Y
Y
•
•
•
•
•
•
•
•
0
•
a
•
X
b
•
•
0
X
Modello stocastico con elevato valore assoluto della componente erratica
IL MODELLO DI REGRESSIONE LINEARE MULTIPLA
Il modello che prevede una sola variabile da spiegare e k variabili esplicative,
entrambe definite in uno spazio metrico, legate da una combinazione lineare a cui è
aggiunta una componente di natura stocastica, prende il nome di regressione lineare
multipla.
52
D. Lucev
LE IPOTESI ALLA BASE DEL MODELLO
Il modello può essere così formulato:
yt = Σk Xtk β k + εt
con
t= (1,2,..........n) e k= (1,2,..........k)
dove Xtk individua il valore relativo alla t-ma osservazione e alla k-ma variabile
esplicativa, βk è il coefficiente incognito della k-ma variabile esplicativa e εt è la
componente erratica (incognita) riferita alla t-ma osservazione.
L'applicabilità del modello richiede che siano verificate una serie di ipotesi, quali:
- la linearità del modello, intrinseca nella sua formulazione, la linearità si riferisce al modo
in cui i parametri e l’errore entrano nell’equazione e non necessariamente alla relazione
tra le variabili
- la non sistematicità della componente erratica, cioè:
E( εt ) = 0
dove E è l'operatore di media (value expected). Tale ipotesi sulla componente erratica
denota la natura casuale degli errori che devono risultare mediamente nulli, ossia gli errori
con segno positivo si devono compensare con quelli di segno negativo,
-la non sfericità degli errori:
/
σ2
per t = τ
\
0
per t ≠ τ
E ( εt ετ ) =
cioè la media del prodotto degli scarti dalla media degli errori, rilevati in due osservazioni
è uguale alla varianza se le due osservazioni coincidono ( t = τ ), a zero (covarianza
nulla) se le due osservazioni sono diverse (t ≠ τ ), questa ultima ipotesi implica
l'assenza di relazione tra gli errori riferiti a due diverse osservazioni,
- la non stocasticità delle variabili esplicative, ossia i relativi valori sono fissi e non casuali,
- la non collinearità delle variabili esplicative, ovvero esse devono essere tra di loro
indipendenti, cioè nessuna variabile è desumibile dalle altre per combinazione lineare. Se
le variabili esplicative sono fortemente correlate il modello di regressione ha difficoltà a
distinguere quali siano le variabili esplicative che influenzano la variabile dipendente.
Alcune conseguenze della multicollinearità sono valori bassi della statistica t e quindi alti
valori di significatività. In caso estremo è possibile trovare tutti i coefficienti non
significativi, mentre il valore dell’ R2 è elevato e significativo. Intuitivamente ciò significa
che le variabili esplicative influenzano nel loro complesso, la variabile dipendente, ma la
multicollinearità rende impossibile decidere quali siano le singole variabili che determinano
la variabile dipendente.
- la numerosità N delle osservazioni deve risultare di gran lunga superiore al numero k
delle variabili esplicative.
In forma compatta il modello assume la seguente formulazione:
y =
X β + ε
con dimensioni
(n,1)= (n,k)(k,1) + (n,1)
LA SPECIFICAZIONE DEL MODELLO
La specificazione del modello può avvenire in vari modi, pur se concettualmente il
risultato finale a cui si perviene è identico: la considerazione di un insieme di variabili
esplicative (i vari metodi in genere non pervengono allo stesso numero e alle stesse
variabili esplicative) collegate teoricamente alla variabile da spiegare e nel contempo
statisticamente significative, cioè non sono prese in considerazione quelle variabili che,
essendo correlate con altre variabili esplicative, forniscono un apporto nullo o molto debole
alla variazione della variabile da spiegare.
I vari modi di procedere nella fase di specificazione del modello dipendono dalle
conoscenze che si hanno intorno al fenomeno da analizzare e fanno riferimento alla
significatività statistica delle variabili esplicative.
Se il ricercatore possiede tali conoscenze, è in grado di formulare con immediatezza il
modello essendo in grado di individuare l'insieme delle variabili esplicative, è questo il
caso classico della formulazione del modello di regressione multipla. In caso contrario,
specie quando uno stesso fenomeno statistico può essere misurato da più variabili
naturalmente tra loro correlate, prende in considerazione un insieme costituito da m
variabili esplicative, con m > k, che ritiene collegate alla variabile dipendente.
La selezione delle variabili da includere nel modello può avvenire in diversi modi:
tramite un algoritmo di inclusione in avanti (forward selection) o con una procedura
all'indietro (backward selection). Nella procedura forward si parte dal modello con nessuna
variabile esplicativa e si include per primo la variabile esplicativa con il più elevato
coefficiente di correlazione con la variabile dipendente. Se il coefficiente di regressione di
questa variabile è significativamente diverso da zero essa è ritenuta nel modello e si
passa alla ricerca della seconda variabile. La seconda variabile è quella che presenta il più
elevato coefficiente di correlazione parziale con la variabile dipendente al netto della
variabile già inclusa. Se il coefficiente di regressione di questa seconda variabile supera il
test di significatività essa è ritenuta nel modello e si passa alla ricerca della terza variabile.
54
D. Lucev
Il procedimento termina quando o tutte le variabili sono incluse nel modello o quando sono
esaurite le variabili esplicative con coefficiente di regressione significativo. La significatività
dei coefficienti di regressione è verificata tramite il test t di Student.
L'algoritmo di eliminazione backward parte dal considerare il modello con tutte le m
variabili esplicative procedendo poi all'eliminazione di una variabile alla volta. Le variabili
sono eliminate sulla base del loro apporto nella riduzione della somma al quadrato degli
errori. La prima variabile eliminata è infatti quella con il più piccolo contributo alla riduzione
della somma al quadrato degli errori. Si prende in considerazione la variabile che ha il più
piccolo t rapporto (dove il rapporto è dato dal valore del coefficiente di regressione sul suo
errore standard), se questo non è significativo la variabile è eliminata. Il procedimento
prosegue calcolando una nuova regressione sulle restanti variabili e considerando la
variabile con il più piccolo t rapporto. Il procedimento termina quando o tutte le variabili
hanno coefficienti di regressione significativi o sono significativi i restanti coefficienti delle
variabili non eliminate.
Un altro metodo molto diffuso è quello noto come "stepwise" (passo passo) in cui la
procedura di selezione delle variabili esplicative è basata principalmente sul metodo
forward o su entrambi, sia forward che backward, che oltre all'inclusione prevede anche
l'eliminazione di variabili. Sotto questa ultima forma dando valori nulli alla significatività
statistica delle variabili in entrata vengono ad essere inserite nel modello tutte le variabili
per cui la procedura si trasforma in backward.
In genere le procedure di stepwise utilizzano il test statistico F, che considera il
rapporto tra la variabilità di regressione e la variabilità residua calcolate introducendo nel
modello la nuova variabile, confrontato con il valore critico di F con m (numero di variabili
esplicative del modello) e n-m ( n = numero osservazioni) gradi di libertà relativo ad un
prefissato livello di significatività α.
Nel caso delle procedure forward, backward e naturalmente stepwise il dubbio del
ricercatore non riguarda il modello da adottare bensì la scelta delle variabili esplicative in
quanto uno stesso fenomeno statistico può essere, come si è detto, misurato da più
variabili statistiche, correlate fra di loro. Il ricercatore selezionerà quella che fornisce il più
elevato apporto alla variabilità della variabile dipendente.
Tali procedure differiscono da quella dell'analisi fattoriale. In entrambi i casi si è nella
condizione di incertezza, ciò che le diversifica sono le soluzioni. Nel caso della
regressione il problema è risolto eliminando le variabili statisticamente non significative,
mentre nei metodi fattoriali la riduzione avviene introducendo nuove variabili tra di loro
incorrelate, ciascuna combinazione lineare delle variabili di partenza.
I METODI PER LA STIMA DEI PARAMETRI INCOGNITI
Si consideri il caso in cui le variabili esplicative sono già individuate e, senza perdere
in genericità, si supponga di operare con variabili centrate ossia sia la variabile dipendente
che le variabili esplicative espresse sotto forma di scarti dalla media.
Nel modello di regressione lineare multipla, così come formulato, intervengono:
- una parte empirica relativa alle determinazioni della variabile dipendente e dell'insieme
delle variabili esplicative, la quale può essere considerata come un campione di
osservazioni della realtà;
- una parte non osservabile del modello e quindi incognita, costituita dal vettore dei
coefficienti β delle variabili esplicative, dal vettore ε della componente erratica e dal
vettore diagonale σ2 della matrice varianze e covarianze di ε.
Il modello viene quindi espresso tramite un'equazione parametrica, caratterizzata
dalla presenza di una componente di natura erratica o stocastica.
Si assume che per la determinazione, tramite procedimenti di stima, dei valori
2
numerici da attribuire ai parametri incogniti (β, ε, σ ) di cui sopra, il ricercatore possa
disporre di un campione di n osservazioni relative alla variabile dipendente y e alle
variabili esplicative X. Il modello in forma compatta preso in considerazione diventa:
y=Xb+e
dove i vettori b ed e sono rispettivamente gli stimatori di β ed ε, mentre s2 individua lo
stimatore della varianza σ2 di ε.
I metodi utilizzati per la stima dei parametri incogniti del modello si possono
distinguere in base ai criteri seguiti, in:
a- metodi fondati sulla nozione di efficienza;
b- metodi basati su criteri di accostamento;
c- metodi di natura probabilistica basati sulla nozione di verosimiglianza.
Il primo, degli approcci considerati, si basa sull'equivalenza formale del problema
statistico della ricerca di uno stimatore efficiente con un problema matematico di minimo
condizionato, in cui la funzione obiettivo è rappresentata dalla varianza dello stimatore ed
il vincolo dalla condizione di correttezza a cui lo stimatore deve soddisfare. Lo stimatore
risultante è per costruzione efficiente, cioè ottimale nella classe degli stimatori corretti.
I metodi basati sui criteri di accostamento si rifanno al noto metodo dei minimi
quadrati, il quale minimizza il quadrato dello scostamento tra i valori osservati ed i valori
teorici rappresentati dall'interpolante dei valori osservati.
Il terzo, ed ultimo degli approcci sopra citati, poggia a differenza degli altri, su
considerazioni di natura prettamente probabilistica e presuppone una specificazione
stocastica del modello che precisi la forma funzionale della distribuzione congiunta delle
componenti stocastiche di disturbo.
Tralasciando il criterio basato sulla nozione di efficienza, si procederà alla descrizione
del metodo basato sull'accostamento e del metodo basato sulla funzione di
verosimiglianza.
LA STIMA DEL PARAMETRO β CON IL METODO DEI MINIMI
QUADRATI
56
D. Lucev
Mancando le precisazioni riguardanti la forma della distribuzione della componente
erratica si seguirà l'approccio di accostamento.
Dal modello campionario formulato in precedenza si consideri il vettore di residui o
scarti :
e=y-Xb
Un possibile criterio per la determinazione di b può essere individuato nel metodo dei
minimi quadrati basato sulla minimizzazione del quadrato dei residui e quindi su un buon
accostamento fra valori effettivi y e valori teorici Xb. Traducendo in termini formali, con il
metodo dei minimi quadrati, si tratta di minimizzare la quantità:
min (e'e)= (y-Xb)'(y-Xb)
e derivando rispetto a b si ha :
δ ( e' e )
= 2 X' e
δ b
uguagliando a zero la derivata, si ha:
X' e = 0
da cui sostituendo ad e il proprio valore si ha:
X' (y - Xb) = 0
X'y - X'Xb = 0
X'y = X' Xb
da cui
b = ( X'X)-1 X'y
che rappresenta lo stimatore dei minimi quadrati del vettore del parametro β. Tale
stimatore si può dimostrare coincide con lo stimatore efficiente del parametro.
LA STIMA DELLE COMPONENTI STOCASTICHE DI DISTURBO
Dopo aver esaminato il problema della stima dei parametri b, passiamo a calcolare la
stima del vettore ε delle componenti stocastiche di disturbo.
Il vettore ε risulta legato al vettore y dalla relazione lineare:
ε=y-Xβ
disponendo di uno stimatore soddisfacente b di β, una procedura ovvia per stimare ε
potrebbe essere quella di sostituire al secondo membro lo stimatore b in luogo di β, cioè:
ε=y-Xb
e quindi stimare ε tramite il vettore e.
In base a queste argomentazioni si è così condotti a calcolare il vettore e dei residui o
scarti, con:
e = y - X b = y - X (X'X)-1 X' y = (I - X (X'X)-1 X') y
che è uno stimatore verosimilmente ottimale del vettore ε.
LA STIMA DELLA VARIANZA
2
Resta ora da risolvere il problema della stima della costante σ , che rappresenta la
varianza comune delle componenti stocastiche di disturbo (e degli elementi del vettore y
della variabile osservata).
Il problema della stima della varianza della componente erratica si rifà al fatto che pur
non conoscendo il vettore ε si dispone di un suo stimatore efficiente rappresentato dal
vettore dei residui e. E' quindi spontaneo il suggerimento di formulare il problema di stima
in termini di e:
s2 =
1
1
e' e =
( y − Xb)' ( y − Xb)
n−k
n−k
tale stimatore è corretto e sotto opportune condizioni può essere considerato ottimale.
L'IPOTESI DI NORMALITÀ DEGLI ERRORI E LE SUE IMPLICAZIONI
Quando la specificazione del modello non si limita a quanto sopra detto, ma postula
altresì che le componenti stocastiche di disturbo siano indipendenti ed identicamente
distribuite sotto la forma della distribuzione normale, il modello si trasforma in :
y=Xβ+ε
ε
N (0, σ2 I)
l'ipotesi di normalità degli errori prevede una media nulla e matrice di varianze e
covarianze pari a σ2 I, e introducendo il modello campionario si ha:
58
D. Lucev
y = X b+ e
e
N (0, s2 I)
2
in cui il vettore e ha sempre media nulla e matrice di varianze e covarianze pari a s I.
LA STIMA DI β COL METODO DELLA MASSIMA VEROSIMIGLIANZA
L'approccio della massima verosimiglianza nella stima di β è possibile in quanto è
stata precisata la distribuzione degli errori di natura stocastica.
Si tratta allora di dare forma alla densità di probabilità che è data da:
p(ε ) =
1
n
2 2
(2πσ )
e
−
ε 'ε
2σ 2
avendo il vettore y la stessa distribuzione di probabilità di ε si ha:
p( y ) =
1
n
2 2
(2πσ )
e
−
( y − Xβ )'( y − Xβ )
2σ 2
che prende il nome di funzione di verosimiglianza.
Con il modello campionario le due precedenti funzioni diventano:
p(e) =
1
n
2 2
(2πs )
e
−
e 'e
2s 2
e
p( y ) =
1
n
(2πs 2 ) 2
e
−
( y − Xb )'( y − Xb )
2s 2
Applicando ad entrambi i membri della funzione i logaritmi :
Logp ( y ) =
-
N
Log 2 π
2
-
N
Logs
2
2
-
(y
Xb )' ( y
2s
Xb )
2
e derivando la funzione rispetto a b si ha:
δp
=
δb
2
2s 2
( X ' y - X ' Xb ) = 0
da cui il valore stimato di β è : b= (X'X)-1 X' y
che coincide con lo stimatore ottenuto con i minimi quadrati.
LA STIMA DELLA VARIANZA
Derivando la funzione di verosimiglianza campionaria rispetto a s2 si ha:
δp
δs 2
=
N
2s 2
+
(y
Xb)' ( y
Xb)
2s 4
=0
da cui :
s2 =
1
( y − Xb)' ( y − Xb)
N
2
che è lo stimatore di massima verosimiglianza di σ . Tale stimatore non è però corretto,
per cui occorre introdurre un fattore di correzione dato da
N
N −k
e la stima corretta è data
da:
s2 =
1
( y − Xb)' ( y − Xb)
N −k
che è lo stimatore corretto di σ2.
LA VERIFICA DELLA VALIDITÀ DEL MODELLO
Nella fase di verifica vengono ad essere utilizzati una serie di criteri o di test statistici
allo scopo di valutare, innanzitutto, la coerenza tra il modello formulato ed i risultati forniti
dal campione di dati osservati. In effetti, si vuole verificare la validità delle variabili
esplicative, considerate nel loro insieme, a spiegare le variazioni della variabile
dipendente.
Successivamente, per verificare la capacità predittiva del modello viene quantificato o
testato l'apporto della singola variabile esplicativa alla variabilità di quella dipendente.
I due approcci che in genere sono seguiti fanno riferimento ai criteri ed alle condizioni
esaminate per la stima dei parametri del modello. Così, nel caso si ignori il tipo di
distribuzione della componente erratica i criteri si basano sulla nozione di accostamento
tramite il coefficiente di determinazione R2, dato da:
R 2=
dev . Re gr .
dev . Re s.
= 1−
dev .Tot .
dev .Tot .
che misura l'incidenza della variabilità spiegata dal complesso di variabili esplicative
sulla variabilità totale della variabile dipendente.
60
D. Lucev
Tale coefficiente non tiene conto del numero di variabili esplicative inserite nel
modello, per cui spesso è utilizzato al suo posto il coefficiente di determinazione corretto,
dato da:
Rc2 = 1 − (1 − R 2 )
n −1
n−k
dove n è il numero di osservazioni campionarie e k il numero di variabili esplicative del
modello.
Spesso, infatti, nel modello l'aggiunta di una nuova variabile esplicativa con una bassa
relazione con la variabile dipendente comporta un aumento nel coefficiente di
determinazione R2 anziché una diminuzione. Ciò è dovuto al fatto che mentre la devianza
totale resta pressoché invariata, l'inclusione della nuova variabile aumenta la devianza di
regressione.
Il coefficiente di determinazione varia tra 0 e 1. Valori prossimo a 1 (superiori a 0,80)
indicano una buona coerenza tra modello e dati osservati, mentre il coefficiente di
determinazione corretto può assumere anche valori negativi e ciò si verifica quando R2
<(k-1)/(n-1).
Il ricorso a tale tipo di indice si rende necessario soprattutto qualora si vogliono
confrontare modelli di regressione che intendono spiegare la medesima variabile
dipendente, impiegando un numero diverso di variabili esplicative.
L'apporto, invece, di una singola variabile esplicativa, alla variazione della variabile
dipendente viene misurato facendo ricorso al coefficiente di determinazione parziale, dato
dal rapporto tra la devianza parziale di regressione tra la variabile in esame e la variabile
dipendente: al netto delle altre variabili, rapportata alla devianza di regressione. Tale
rapporto misura la parte di variabilità della variabile dipendente spiegata dalle variazioni
della i-ma variabile esplicativa, al netto delle variazioni delle altre variabili esplicative.
Nel caso sia nota la distribuzione di probabilità della componente erratica, per facilità
si supponga normale, per verificare la validità del modello si utilizza il test F ricavato
dall'analisi della varianza, con cui si confronta la varianza spiegata dal modello o varianza
di regressione con la varianza della componente erratica o varianza degli errori. Il test F
discende da un procedimento inferenziale e precisamente dalla verifica delle ipotesi in cui
come ipotesi nulla si assume:
Ho : β 1 = β 2 = .............= β k
= 0
cioè che non vi sia rapporto lineare tra la variabile dipendente e le variabili esplicative,
contro l'ipotesi alternativa:
H1 : β 1 ≠ β 2 ≠ ............≠ β k
≠ 0
almeno uno dei coefficienti di regressione è diverso da zero.
Tramite una analisi della varianza si ricavano i valori delle due varianze da sottoporre
al test F, cioè:
F=
var . Re gr.
var .Err.
ed il valore empirico F, viene confrontato con il valore teorico F* con (k, n-k) gradi di libertà
rilevato dalle tavola F in relazione ad un prefissato livello di significatività α. In presenza di
un valore F osservato superiore al valore teorico F* si rigetta l'ipotesi nulla e si conclude
sulla bontà della relazione in quanto almeno una delle variabili esplicative è in relazione
con la variabile dipendente.
Volendo verificare l'apporto delle singole variabili esplicative alla variabilità di quella
dipendente, si può procedere in due modi:
1- sottoponendo a test la significatività della relazione tra una qualsiasi variabile
esplicativa, si supponga la i-ma, e la variabile dipendente. Il test in questo caso fa
riferimento alla regressione semplice tra una variabile esplicativa e la dipendente.
L'ipotesi nulla è data da:
Ho: βi = 0
e quella alternativa
H1: βi ≠ 0
Il test utilizzato, come nella regressione semplice, è la t di Student dato dal rapporto
tra la stima bi del coefficiente di regressione della i-ma variabile ed il suo errore standard
sbi, cioè:
t=
bi
s bi
dove bi è la stima del coefficiente di regressione e sbi è l'errore standard dello stesso e
misura la variabilità dei valori teorici della variabile dipendente ottenuti considerando la ima variabile esplicativa.
Il valore di t empirico è confrontato con quello teorico t* rilevato in corrispondenza di
(n-k) gradi di libertà ed in base ad un prefissato livello α di significatività. Se il valore di t
osservato è maggiore di t* si rigetta l'ipotesi nulla e si rileva l'esistenza di una relazione
significativa tra la i-ma variabile esplicativa e la variabile dipendente;
2- sottoponendo a test il coefficiente di regressione parziale tra la i-ma variabile esplicativa
e la variabile dipendente (criterio parziale del test F). Tale metodo comporta il calcolo
del contributo che ciascuna variabile esplicativa dà alla somma dei quadrati dopo che
tutte le altre variabili esplicative sono state incluse nel modello.
62
D. Lucev
LA VERIFICA DELL’IPOTESI DI NON SISTEMATICITA’ DEGLI ERRORI
La validità dei risultati ottenuti con la stima dei parametri, è collegata al verificarsi
dell'insieme di ipotesi che accompagnano il modello.
La fase di verifica si interessa di: controllare se tali ipotesi sono state rispettate, di
valutare, nel caso che una o più ipotesi vengano meno, le conseguenze sui risultati
ottenuti oltre a stabilire le procedure correttive che permettano di ottenere risultati migliori
ritornando alla fase interessata alla caduta delle ipotesi.
Nel precedente paragrafo si è fatto cenno alla prima ipotesi che riguarda la linearità
del modello.
L'ipotesi invece di non sistematicità degli errori:
E ( ei ) = 0
è facilmente superabile in quanto aumentando la numerosità n del campione per il
teorema del limite centrale essa sarà soddisfatta.
LA VERIFICA DELL’IPOTESI DI NON SFERICITA’ DEGLI ERRORI
La terza ipotesi formulata, quella di sfericità degli errori, dev'essere scomposta in due
parti: la prima riguardante l'ipotesi di varianza costante degli errori, omoschedasticità, data
da:
var ( ei ) = σ2
e la seconda, riguardante la covarianza tra errori rilevati in tempi diversi:
cov (ei , ej ) = 0
per i ≠j =1,2, .....n
Se non è verificata l'ipotesi di omoschedasticità, cioè se:
var ( ei ) = σi2
si ha eteroschedasticità, e ciò si verifica quando la variabilità dei residui è differente nei
diversi tempi di rilevazione. In tal caso i residui si dispongono rispetto all'iperpiano di
regressione in maniera crescente o decrescente in funzione del tempo.
Si può dimostrare che se nel modello vi è eteroschedasticità e le stime sono ottenute
facendo riferimento all'omoschedasticità, esse risultano non distorte, consistenti ma poco
efficienti, comportanti poco attendibilità dei test e degli intervalli di confidenza per i
coefficienti.
Il problema viene superato apportando opportune trasformazioni alle variabili in modo
da ottenere un modello con residui omoschedastici. Una procedura di trasformazione va
sotto il nome di minimi quadrati ponderati (WLS, Weight Least Squares).
Tale metodo parte dal presupposto di conoscere le N varianze dei residui, nel qual
caso le stime dei parametri ottenute dal modello di regressione trasformato, dividendo le
variabili del modello per σt (t=1,........N) sono stime corrette ed efficienti. Le varianze,
però, non sono note e quindi tale modello è inapplicabile eccetto la situazione in cui si
dispone di dati cross-section, cioè per ogni tempo t di osservazione si hanno più rilevazioni
da cui si ottengono delle stime delle varianze incognite.
Si pone allora il problema di adottare delle procedure differenti. Supponendo, infatti, di
poter attribuire la eteroschedasticità di et ad una delle variabili esplicative, cioè:
σ t2 = c 2 X kt2
per cui il modello viene ad essere trasformato dividendo le variabili del modello per Xkt.
Tale modello risulta essere omoschedastico, essendo:
var(
et
) = c2
Xkt
Tale ipotesi può essere generalizzata assumendo:
σ t2 = c 2f ( X kt )
con f funzione strettamente positiva che lega l'eteroschedasticità alla variabile esplicativa.
a- La verifica dell’eteroschedasticità nel modello
Nell'ambito delle tre precedenti situazioni di eteroschedasticità sono posti in essere tre
particolari test che permettono innanzitutto di stabilire la presenza o meno di
eteroschedasticità.
Nella situazione che dà luogo ai minimi quadrati ponderati, si è ipotizzato la presenza
di più osservazioni con riferimento allo stesso tempo t. In questo caso è utilizzato il test di
Bartlett che si sviluppa in due fasi:
1- si supponga di avere N osservazioni ed n gruppi e siano ki le osservazioni nel gruppo imo. Si calcola la stima della varianza di ciascun gruppo di osservazioni nei t tempi,
tramite:
Si2 =
ki
∑
j =1
(Yij − Yi ) 2
ki
64
D. Lucev
2- si calcola:
 n k
 n
N log  ( i )Si2  −
k i log Si2
 i =1 N
 i =1
χ c2 =
n
1
1 

1
1 +  (n − 1)  ( ) − ( )
N 
  i =1 k i
3
∑
∑
∑
che si distribuisce come una variabile casuale chi quadrato con n-1 gradi di libertà. Si
calcola, infine, il test assumendo come ipotesi nulla l'assenza di eteroschedasticità. Se
il valore calcolato risulta maggiore del valore teorico al livello α si rigetta l'ipotesi nulla
rilevando quindi la presenza di eteroschedasticità.
Nella situazione di eteroschedasticità prevista dalla relazione:
σ t2 = c 2 X kt2
si utilizza il test di Goldfeld -Quandt.
Innanzitutto, si ordinano in senso crescente i dati della variabile Xk. Trascurando nella
distribuzione ottenuta h-termini centrali (con h pari ad un quarto dei termini) si perviene a
due distribuzioni estreme indipendenti fra di loro. Si applica il modello di regressione sulla
prima e sulla seconda distribuzione estrema dei dati e si calcola per entrambe la somma
dei quadrati dei residui, indicate rispettivamente con S21 e S22.
Si sottopone a test l'ipotesi nulla H0 : σ 2t = σ 2e = cos tan te , contro l'ipotesi
alternativa: H1 : σ 2t = c 2 X kt2 .
Si calcola la F di Fisher:
Fc =
S12
S22
che si distribuisce con ((N-h)/2)-p ed ((N-h)/2)-p gradi di libertà. Si rigetta l'ipotesi nulla se
al livello di significatività α risulta Fc > Fα .
Maggiormente complicata perlomeno a mole di calcoli è la situazione prevista da:
σ t2 = c 2f ( X kt )
Il test utilizzato in questa situazione è quello di Glejser, il quale oltre a verificare
l'esistenza di eteroschedasticità fornisce anche informazioni sulla forma della funzione f.
Si stimano i parametri ed i residui del modello originale di regressione. Poi si ipotizza
una serie di forme funzionali (funzione inversa, radice, logaritmo, etc.) che possano
esprimere i residui stimati in funzione di ogni variabile esplicativa. Su queste relazioni
vengono ad essere applicate una serie di regressioni una per ogni variabile (se k sono le
relazioni si tratta di effettuare k*(p-1) regressioni.
Si sottopone a test
alternativa: H1 : σ 2t = c 2 f ( X kt ) .
l'ipotesi
nulla
H0 : σ 2t = σ 2e = cos tan te ,
contro
l'ipotesi
Dalle regressioni calcolate si sceglie quella che presenta il più elevato valore di R2,
che risponde alla funzione più adeguata per effettuare la trasformazione. Se il valore di R2
è basso in tutte le regressioni, si rigetta l'ipotesi nulla e si rileva la presenza di
eteroschedasticità.
b- L'ipotesi di errori incorrelati
L'ipotesi riguardante la cov(ei,ej)=0 che presuppone errori non correlati nelle
osservazioni è la più esposta a cadere specie in presenza di serie storiche. Inoltre, risulta
abbastanza complicato poter stabilire il tipo di relazione che intercorre fra gli errori, in
quanto esso risulta dalla combinazione della forma funzionale e dal lag temporale che lega
gli errori stessi, dando luogo ad una vastissima casistica di situazioni.
Di seguito sarà esaminato un caso particolare di relazione e precisamente:
e t = ρe t
1
+ vt
con ρ < 1
che prende il nome di autocorrelazione del primo ordine. Questa relazione è di tipo lineare
ed il lag che lega gli errori è di ordine 1. Le vt sono variabili casuali incorrelate con media
nulla e varianza costante.
La presenza di tale autocorrelazione nel modello di regressione comporta delle stime
corrette e consistenti ma non tra le più efficienti. Pertanto anche gli intervalli di confidenza
ed i test risulteranno non attendibili, come pure risulta alterato il coefficiente di
determinazione R2. L'introduzione della relazione di autocorrelazione nel modello di
regressione comporta invece delle stime corrette, consistenti ed efficienti a patto che si
conosca il valore di ρ. Si può dimostrare che ρ è il coefficiente di correlazione tra et ed et1.
Le procedure che permettono di verificare l'esistenza di autocorrelazione sono
molteplici. Le principali fanno riferimento a: Durbin-Watson, Cochran-Orcutt e HildrethLu.
Il test di Durbin-Watson è basato sull'analisi dei residui stimati del modello di
regressione originale sotto l'ipotesi H0 : ρ = 0 contro quella alternativa H1 : ρ ≠ 0 .
Il test è effettuato ricorrendo all'indice:
N
d=
∑ (eˆ
t
− eˆ t −1 ) 2
t =2
N
∑ eˆ
2
t
t =1
il cui valore è dato da:
66
D. Lucev
d ≅ 2(1 − ρˆ )
N
∑ eˆ eˆ
t t −1
dove ρˆ =
t =2
N
∑
e risulta ρ ≤ 1.
eˆ t2
t =1
In effetti, si avrà che, il valore dell'indice d sarà compreso tra 4 se ρ̂ =-1 e 0 se ρ̂ = 1,
mentre se ρ̂ = 0 si avrà il valore 2.
Se quindi, il valore dell'indice d sarà prossimo a 2 si accetterà l'ipotesi nulla e quindi
assenza di autocorrelazione, mentre se prossimo a 0 si rigetta l'ipotesi nulla e si rileva la
presenza di autocorrelazione positiva, viceversa, se prossimo a 4 si rigetta l'ipotesi nulla e
si riscontra la presenza di autocorrelazione negativa.
Dipendendo l'indice d oltre che dal valore di ρ anche dalla struttura delle variabili
esplicative Durbin-Watson hanno tabulato la distribuzione teorica di d in funzione della
numerosità N delle osservazioni, del numero p delle variabili esplicative, di un limite
inferiore dl (d low) funzione di N e di p, al di sotto del quale molto probabilmente si ha un
valore di ρ positivo ed al di sopra il risultato può essere dovuto ad un ρ positivo o alle
relazioni esistenti tra le variabili esplicative, di un limite superiore du (d up) al di sopra del
quale è molto probabile l'esistenza di un ρ vicino a zero e al di sotto del quale il risultato
può essere dovuto sia ad un ρ vicino a zero sia alle relazioni esistenti fra le variabili
esplicative.
Il metodo di Cochrane-Orcutt consiste in una procedura iterativa che partendo dalla
stima dei residui del modello originale, dalla relazione di autocorrelazione si ottiene una
prima stima di ρ che a sua volta si sostituisce nel modello di regressione completo di
autocorrelazione, ottenendo le nuove stime dei residui utilizzati per una nuova stima di ρ. Il
procedimento termina quando la differenza tra due successive stime di ρ è minore di un
valore piccolissimo prefissato.
Il metodo di Hildreth-Lu prevede un procedimento per approssimazione successiva.
Una volta assodata l'esistenza di autocorrelazione(es. di tipo positiva), si considerano i
valori di ρ tra 0 e 1 con passo 0,1 e si stima il modello di regressione comprensivo di
autocorrelazione scegliendo quello che presenta la minima somma dei quadrati degli
scarti. Dopo si considera il valore di ρ che ha prodotto tale valore minore e si considera
l'intervallo 0,1 centrato sul valore di ρ (es. se il valore di ρ corrisponde a 0,5 si considera
l'intervallo 0,45-0,55) e si procede al calcolo della regressione aumentando di volta in volta
di 0,01 il valore dell'estremo inferiore dell'intervallo e procedendo come sopra. Tale
metodo in genere fornisce risultati migliori degli altri metodi.