REGRESSIONE Un modello di regressione può essere espresso attraverso una relazione del tipo: Y=f(X) dove Y rappresenta la variabile spiegata e X l’insieme delle variabili esplicative ed f la funzione di tipo matematico. Se le variabili esplicative previste sono in grado di determinare i valori e le variazioni della variabile da spiegare il modello è detto deterministico ed assume la forma di cui sopra. Difficilmente, però, le variabili previste sono in grado di spiegare compiutamente la variabile endogena in quanto essa è influenzata da altre variabili che pur svolgendo un ruolo preminente sono trascurate nel modello o perché di difficile misurazione o perché non rilevabili in maniera obiettiva, inoltre, trattandosi di dati rilevati sono soggetti a varie tipologie di errori quali ad esempio quelli di misurazione. Quindi, affinché il modello sia più aderente alla realtà è necessario tener conto anche dei fattori trascurati che sono raggruppati in un’unica componente di natura casuale, per cui diventa: Y=f(X) + ε dove f(X) resta la componente deterministica ed ε individua la componente erratica di natura casuale detta anche componente stocastica. Occorre, adesso, procedere alla specificazione della funzione f detta anche forma funzionale. Qualora i casi osservati sono poco numerosi e le variabili esplicative sono soltanto una o due è possibile ricorrere all'ausilio grafico per individuare la forma funzionale più idonea a descrivere la relazione tra variabili esplicative e variabile da spiegare, così se i valori dei ricavi si dispongono grosso modo lungo una retta la funzione è di tipo lineare, oppure in caso contrario potrà essere di tipo logaritmico, esponenziale a seconda dei casi. Quando, invece, i casi sono molto numerosi come pure il numero delle variabili esplicative la scelta è guidata principalmente dall’esperienza del ricercatore rinviando alla fase della verifica del modello l’adozione di forme funzionali alternative. In genere, viene adottata la forma lineare ed il modello prende il nome di regressione multipla e diventa: y i = a + b1 x i 1 + b2 x i 2 + ............. + bn x ik + ε i Dove: y è la variabile endogena a è una costante (intercetta all’origine), bj con j = 1,….,k sono i coefficienti xik sono i valori delle variabili considerate εi è la componente erratica relativa al contribuente i-mo. 50 D. Lucev Per meglio evidenziare il ruolo della componente erratica nel modello si ritiene opportuno fornire la seguente esemplificazione che per comodità, soltanto da un punto di vista grafico, prevede il riferimento al modello di regressione lineare semplice che differisce dal precedente in quanto contempla una sola variabile esplicativa, naturalmente per analogia è possibile ricondursi, poi, al modello di regressione multipla. In presenza di un modello deterministico in cui è assente la componente erratica i punti osservati si dispongono lungo una retta: y i = a + bx i La retta che scaturisce dalla stima dei parametri a e b del modello passa esattamente per i punti osservati, come ben si può vedere dalla seguente figura. Y Y • •• • • 0 • a • •• • • • b 0 Modello lineare deterministico E’ questo il caso in cui la variabile o le variabili esplicative nella regressione multipla riescono a determinare compiutamente il valore di y, caso poco realistico che comporta l’esistenza della componente erratica nel modello, per cui, il valore di y è determinato in parte dalla componente deterministica espressa dalla forma funzionale f(X), che nel caso specifico assume la forma lineare, e nella restante parte dalla componente erratica. Minore è il valore assoluto della componente erratica maggiore è l’adeguatezza del modello a spiegare i valori osservati della variabile ricavo; situazione descritta dalla Fig. seguente: Y Y • • • • • • • • a 0 • • X • • b X 0 Modello lineare stocastico con basso valore assoluto della componente erratica. Viceversa, qualora il valore assoluto della componente erratica è abbastanza elevato il potere esplicativo della componente deterministica si riduce fino al caso limite di invalidazione del modello. Y Y • • • • • • • • 0 • a • X b • • 0 X Modello stocastico con elevato valore assoluto della componente erratica IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Il modello che prevede una sola variabile da spiegare e k variabili esplicative, entrambe definite in uno spazio metrico, legate da una combinazione lineare a cui è aggiunta una componente di natura stocastica, prende il nome di regressione lineare multipla. 52 D. Lucev LE IPOTESI ALLA BASE DEL MODELLO Il modello può essere così formulato: yt = Σk Xtk β k + εt con t= (1,2,..........n) e k= (1,2,..........k) dove Xtk individua il valore relativo alla t-ma osservazione e alla k-ma variabile esplicativa, βk è il coefficiente incognito della k-ma variabile esplicativa e εt è la componente erratica (incognita) riferita alla t-ma osservazione. L'applicabilità del modello richiede che siano verificate una serie di ipotesi, quali: - la linearità del modello, intrinseca nella sua formulazione, la linearità si riferisce al modo in cui i parametri e l’errore entrano nell’equazione e non necessariamente alla relazione tra le variabili - la non sistematicità della componente erratica, cioè: E( εt ) = 0 dove E è l'operatore di media (value expected). Tale ipotesi sulla componente erratica denota la natura casuale degli errori che devono risultare mediamente nulli, ossia gli errori con segno positivo si devono compensare con quelli di segno negativo, -la non sfericità degli errori: / σ2 per t = τ \ 0 per t ≠ τ E ( εt ετ ) = cioè la media del prodotto degli scarti dalla media degli errori, rilevati in due osservazioni è uguale alla varianza se le due osservazioni coincidono ( t = τ ), a zero (covarianza nulla) se le due osservazioni sono diverse (t ≠ τ ), questa ultima ipotesi implica l'assenza di relazione tra gli errori riferiti a due diverse osservazioni, - la non stocasticità delle variabili esplicative, ossia i relativi valori sono fissi e non casuali, - la non collinearità delle variabili esplicative, ovvero esse devono essere tra di loro indipendenti, cioè nessuna variabile è desumibile dalle altre per combinazione lineare. Se le variabili esplicative sono fortemente correlate il modello di regressione ha difficoltà a distinguere quali siano le variabili esplicative che influenzano la variabile dipendente. Alcune conseguenze della multicollinearità sono valori bassi della statistica t e quindi alti valori di significatività. In caso estremo è possibile trovare tutti i coefficienti non significativi, mentre il valore dell’ R2 è elevato e significativo. Intuitivamente ciò significa che le variabili esplicative influenzano nel loro complesso, la variabile dipendente, ma la multicollinearità rende impossibile decidere quali siano le singole variabili che determinano la variabile dipendente. - la numerosità N delle osservazioni deve risultare di gran lunga superiore al numero k delle variabili esplicative. In forma compatta il modello assume la seguente formulazione: y = X β + ε con dimensioni (n,1)= (n,k)(k,1) + (n,1) LA SPECIFICAZIONE DEL MODELLO La specificazione del modello può avvenire in vari modi, pur se concettualmente il risultato finale a cui si perviene è identico: la considerazione di un insieme di variabili esplicative (i vari metodi in genere non pervengono allo stesso numero e alle stesse variabili esplicative) collegate teoricamente alla variabile da spiegare e nel contempo statisticamente significative, cioè non sono prese in considerazione quelle variabili che, essendo correlate con altre variabili esplicative, forniscono un apporto nullo o molto debole alla variazione della variabile da spiegare. I vari modi di procedere nella fase di specificazione del modello dipendono dalle conoscenze che si hanno intorno al fenomeno da analizzare e fanno riferimento alla significatività statistica delle variabili esplicative. Se il ricercatore possiede tali conoscenze, è in grado di formulare con immediatezza il modello essendo in grado di individuare l'insieme delle variabili esplicative, è questo il caso classico della formulazione del modello di regressione multipla. In caso contrario, specie quando uno stesso fenomeno statistico può essere misurato da più variabili naturalmente tra loro correlate, prende in considerazione un insieme costituito da m variabili esplicative, con m > k, che ritiene collegate alla variabile dipendente. La selezione delle variabili da includere nel modello può avvenire in diversi modi: tramite un algoritmo di inclusione in avanti (forward selection) o con una procedura all'indietro (backward selection). Nella procedura forward si parte dal modello con nessuna variabile esplicativa e si include per primo la variabile esplicativa con il più elevato coefficiente di correlazione con la variabile dipendente. Se il coefficiente di regressione di questa variabile è significativamente diverso da zero essa è ritenuta nel modello e si passa alla ricerca della seconda variabile. La seconda variabile è quella che presenta il più elevato coefficiente di correlazione parziale con la variabile dipendente al netto della variabile già inclusa. Se il coefficiente di regressione di questa seconda variabile supera il test di significatività essa è ritenuta nel modello e si passa alla ricerca della terza variabile. 54 D. Lucev Il procedimento termina quando o tutte le variabili sono incluse nel modello o quando sono esaurite le variabili esplicative con coefficiente di regressione significativo. La significatività dei coefficienti di regressione è verificata tramite il test t di Student. L'algoritmo di eliminazione backward parte dal considerare il modello con tutte le m variabili esplicative procedendo poi all'eliminazione di una variabile alla volta. Le variabili sono eliminate sulla base del loro apporto nella riduzione della somma al quadrato degli errori. La prima variabile eliminata è infatti quella con il più piccolo contributo alla riduzione della somma al quadrato degli errori. Si prende in considerazione la variabile che ha il più piccolo t rapporto (dove il rapporto è dato dal valore del coefficiente di regressione sul suo errore standard), se questo non è significativo la variabile è eliminata. Il procedimento prosegue calcolando una nuova regressione sulle restanti variabili e considerando la variabile con il più piccolo t rapporto. Il procedimento termina quando o tutte le variabili hanno coefficienti di regressione significativi o sono significativi i restanti coefficienti delle variabili non eliminate. Un altro metodo molto diffuso è quello noto come "stepwise" (passo passo) in cui la procedura di selezione delle variabili esplicative è basata principalmente sul metodo forward o su entrambi, sia forward che backward, che oltre all'inclusione prevede anche l'eliminazione di variabili. Sotto questa ultima forma dando valori nulli alla significatività statistica delle variabili in entrata vengono ad essere inserite nel modello tutte le variabili per cui la procedura si trasforma in backward. In genere le procedure di stepwise utilizzano il test statistico F, che considera il rapporto tra la variabilità di regressione e la variabilità residua calcolate introducendo nel modello la nuova variabile, confrontato con il valore critico di F con m (numero di variabili esplicative del modello) e n-m ( n = numero osservazioni) gradi di libertà relativo ad un prefissato livello di significatività α. Nel caso delle procedure forward, backward e naturalmente stepwise il dubbio del ricercatore non riguarda il modello da adottare bensì la scelta delle variabili esplicative in quanto uno stesso fenomeno statistico può essere, come si è detto, misurato da più variabili statistiche, correlate fra di loro. Il ricercatore selezionerà quella che fornisce il più elevato apporto alla variabilità della variabile dipendente. Tali procedure differiscono da quella dell'analisi fattoriale. In entrambi i casi si è nella condizione di incertezza, ciò che le diversifica sono le soluzioni. Nel caso della regressione il problema è risolto eliminando le variabili statisticamente non significative, mentre nei metodi fattoriali la riduzione avviene introducendo nuove variabili tra di loro incorrelate, ciascuna combinazione lineare delle variabili di partenza. I METODI PER LA STIMA DEI PARAMETRI INCOGNITI Si consideri il caso in cui le variabili esplicative sono già individuate e, senza perdere in genericità, si supponga di operare con variabili centrate ossia sia la variabile dipendente che le variabili esplicative espresse sotto forma di scarti dalla media. Nel modello di regressione lineare multipla, così come formulato, intervengono: - una parte empirica relativa alle determinazioni della variabile dipendente e dell'insieme delle variabili esplicative, la quale può essere considerata come un campione di osservazioni della realtà; - una parte non osservabile del modello e quindi incognita, costituita dal vettore dei coefficienti β delle variabili esplicative, dal vettore ε della componente erratica e dal vettore diagonale σ2 della matrice varianze e covarianze di ε. Il modello viene quindi espresso tramite un'equazione parametrica, caratterizzata dalla presenza di una componente di natura erratica o stocastica. Si assume che per la determinazione, tramite procedimenti di stima, dei valori 2 numerici da attribuire ai parametri incogniti (β, ε, σ ) di cui sopra, il ricercatore possa disporre di un campione di n osservazioni relative alla variabile dipendente y e alle variabili esplicative X. Il modello in forma compatta preso in considerazione diventa: y=Xb+e dove i vettori b ed e sono rispettivamente gli stimatori di β ed ε, mentre s2 individua lo stimatore della varianza σ2 di ε. I metodi utilizzati per la stima dei parametri incogniti del modello si possono distinguere in base ai criteri seguiti, in: a- metodi fondati sulla nozione di efficienza; b- metodi basati su criteri di accostamento; c- metodi di natura probabilistica basati sulla nozione di verosimiglianza. Il primo, degli approcci considerati, si basa sull'equivalenza formale del problema statistico della ricerca di uno stimatore efficiente con un problema matematico di minimo condizionato, in cui la funzione obiettivo è rappresentata dalla varianza dello stimatore ed il vincolo dalla condizione di correttezza a cui lo stimatore deve soddisfare. Lo stimatore risultante è per costruzione efficiente, cioè ottimale nella classe degli stimatori corretti. I metodi basati sui criteri di accostamento si rifanno al noto metodo dei minimi quadrati, il quale minimizza il quadrato dello scostamento tra i valori osservati ed i valori teorici rappresentati dall'interpolante dei valori osservati. Il terzo, ed ultimo degli approcci sopra citati, poggia a differenza degli altri, su considerazioni di natura prettamente probabilistica e presuppone una specificazione stocastica del modello che precisi la forma funzionale della distribuzione congiunta delle componenti stocastiche di disturbo. Tralasciando il criterio basato sulla nozione di efficienza, si procederà alla descrizione del metodo basato sull'accostamento e del metodo basato sulla funzione di verosimiglianza. LA STIMA DEL PARAMETRO β CON IL METODO DEI MINIMI QUADRATI 56 D. Lucev Mancando le precisazioni riguardanti la forma della distribuzione della componente erratica si seguirà l'approccio di accostamento. Dal modello campionario formulato in precedenza si consideri il vettore di residui o scarti : e=y-Xb Un possibile criterio per la determinazione di b può essere individuato nel metodo dei minimi quadrati basato sulla minimizzazione del quadrato dei residui e quindi su un buon accostamento fra valori effettivi y e valori teorici Xb. Traducendo in termini formali, con il metodo dei minimi quadrati, si tratta di minimizzare la quantità: min (e'e)= (y-Xb)'(y-Xb) e derivando rispetto a b si ha : δ ( e' e ) = 2 X' e δ b uguagliando a zero la derivata, si ha: X' e = 0 da cui sostituendo ad e il proprio valore si ha: X' (y - Xb) = 0 X'y - X'Xb = 0 X'y = X' Xb da cui b = ( X'X)-1 X'y che rappresenta lo stimatore dei minimi quadrati del vettore del parametro β. Tale stimatore si può dimostrare coincide con lo stimatore efficiente del parametro. LA STIMA DELLE COMPONENTI STOCASTICHE DI DISTURBO Dopo aver esaminato il problema della stima dei parametri b, passiamo a calcolare la stima del vettore ε delle componenti stocastiche di disturbo. Il vettore ε risulta legato al vettore y dalla relazione lineare: ε=y-Xβ disponendo di uno stimatore soddisfacente b di β, una procedura ovvia per stimare ε potrebbe essere quella di sostituire al secondo membro lo stimatore b in luogo di β, cioè: ε=y-Xb e quindi stimare ε tramite il vettore e. In base a queste argomentazioni si è così condotti a calcolare il vettore e dei residui o scarti, con: e = y - X b = y - X (X'X)-1 X' y = (I - X (X'X)-1 X') y che è uno stimatore verosimilmente ottimale del vettore ε. LA STIMA DELLA VARIANZA 2 Resta ora da risolvere il problema della stima della costante σ , che rappresenta la varianza comune delle componenti stocastiche di disturbo (e degli elementi del vettore y della variabile osservata). Il problema della stima della varianza della componente erratica si rifà al fatto che pur non conoscendo il vettore ε si dispone di un suo stimatore efficiente rappresentato dal vettore dei residui e. E' quindi spontaneo il suggerimento di formulare il problema di stima in termini di e: s2 = 1 1 e' e = ( y − Xb)' ( y − Xb) n−k n−k tale stimatore è corretto e sotto opportune condizioni può essere considerato ottimale. L'IPOTESI DI NORMALITÀ DEGLI ERRORI E LE SUE IMPLICAZIONI Quando la specificazione del modello non si limita a quanto sopra detto, ma postula altresì che le componenti stocastiche di disturbo siano indipendenti ed identicamente distribuite sotto la forma della distribuzione normale, il modello si trasforma in : y=Xβ+ε ε N (0, σ2 I) l'ipotesi di normalità degli errori prevede una media nulla e matrice di varianze e covarianze pari a σ2 I, e introducendo il modello campionario si ha: 58 D. Lucev y = X b+ e e N (0, s2 I) 2 in cui il vettore e ha sempre media nulla e matrice di varianze e covarianze pari a s I. LA STIMA DI β COL METODO DELLA MASSIMA VEROSIMIGLIANZA L'approccio della massima verosimiglianza nella stima di β è possibile in quanto è stata precisata la distribuzione degli errori di natura stocastica. Si tratta allora di dare forma alla densità di probabilità che è data da: p(ε ) = 1 n 2 2 (2πσ ) e − ε 'ε 2σ 2 avendo il vettore y la stessa distribuzione di probabilità di ε si ha: p( y ) = 1 n 2 2 (2πσ ) e − ( y − Xβ )'( y − Xβ ) 2σ 2 che prende il nome di funzione di verosimiglianza. Con il modello campionario le due precedenti funzioni diventano: p(e) = 1 n 2 2 (2πs ) e − e 'e 2s 2 e p( y ) = 1 n (2πs 2 ) 2 e − ( y − Xb )'( y − Xb ) 2s 2 Applicando ad entrambi i membri della funzione i logaritmi : Logp ( y ) = - N Log 2 π 2 - N Logs 2 2 - (y Xb )' ( y 2s Xb ) 2 e derivando la funzione rispetto a b si ha: δp = δb 2 2s 2 ( X ' y - X ' Xb ) = 0 da cui il valore stimato di β è : b= (X'X)-1 X' y che coincide con lo stimatore ottenuto con i minimi quadrati. LA STIMA DELLA VARIANZA Derivando la funzione di verosimiglianza campionaria rispetto a s2 si ha: δp δs 2 = N 2s 2 + (y Xb)' ( y Xb) 2s 4 =0 da cui : s2 = 1 ( y − Xb)' ( y − Xb) N 2 che è lo stimatore di massima verosimiglianza di σ . Tale stimatore non è però corretto, per cui occorre introdurre un fattore di correzione dato da N N −k e la stima corretta è data da: s2 = 1 ( y − Xb)' ( y − Xb) N −k che è lo stimatore corretto di σ2. LA VERIFICA DELLA VALIDITÀ DEL MODELLO Nella fase di verifica vengono ad essere utilizzati una serie di criteri o di test statistici allo scopo di valutare, innanzitutto, la coerenza tra il modello formulato ed i risultati forniti dal campione di dati osservati. In effetti, si vuole verificare la validità delle variabili esplicative, considerate nel loro insieme, a spiegare le variazioni della variabile dipendente. Successivamente, per verificare la capacità predittiva del modello viene quantificato o testato l'apporto della singola variabile esplicativa alla variabilità di quella dipendente. I due approcci che in genere sono seguiti fanno riferimento ai criteri ed alle condizioni esaminate per la stima dei parametri del modello. Così, nel caso si ignori il tipo di distribuzione della componente erratica i criteri si basano sulla nozione di accostamento tramite il coefficiente di determinazione R2, dato da: R 2= dev . Re gr . dev . Re s. = 1− dev .Tot . dev .Tot . che misura l'incidenza della variabilità spiegata dal complesso di variabili esplicative sulla variabilità totale della variabile dipendente. 60 D. Lucev Tale coefficiente non tiene conto del numero di variabili esplicative inserite nel modello, per cui spesso è utilizzato al suo posto il coefficiente di determinazione corretto, dato da: Rc2 = 1 − (1 − R 2 ) n −1 n−k dove n è il numero di osservazioni campionarie e k il numero di variabili esplicative del modello. Spesso, infatti, nel modello l'aggiunta di una nuova variabile esplicativa con una bassa relazione con la variabile dipendente comporta un aumento nel coefficiente di determinazione R2 anziché una diminuzione. Ciò è dovuto al fatto che mentre la devianza totale resta pressoché invariata, l'inclusione della nuova variabile aumenta la devianza di regressione. Il coefficiente di determinazione varia tra 0 e 1. Valori prossimo a 1 (superiori a 0,80) indicano una buona coerenza tra modello e dati osservati, mentre il coefficiente di determinazione corretto può assumere anche valori negativi e ciò si verifica quando R2 <(k-1)/(n-1). Il ricorso a tale tipo di indice si rende necessario soprattutto qualora si vogliono confrontare modelli di regressione che intendono spiegare la medesima variabile dipendente, impiegando un numero diverso di variabili esplicative. L'apporto, invece, di una singola variabile esplicativa, alla variazione della variabile dipendente viene misurato facendo ricorso al coefficiente di determinazione parziale, dato dal rapporto tra la devianza parziale di regressione tra la variabile in esame e la variabile dipendente: al netto delle altre variabili, rapportata alla devianza di regressione. Tale rapporto misura la parte di variabilità della variabile dipendente spiegata dalle variazioni della i-ma variabile esplicativa, al netto delle variazioni delle altre variabili esplicative. Nel caso sia nota la distribuzione di probabilità della componente erratica, per facilità si supponga normale, per verificare la validità del modello si utilizza il test F ricavato dall'analisi della varianza, con cui si confronta la varianza spiegata dal modello o varianza di regressione con la varianza della componente erratica o varianza degli errori. Il test F discende da un procedimento inferenziale e precisamente dalla verifica delle ipotesi in cui come ipotesi nulla si assume: Ho : β 1 = β 2 = .............= β k = 0 cioè che non vi sia rapporto lineare tra la variabile dipendente e le variabili esplicative, contro l'ipotesi alternativa: H1 : β 1 ≠ β 2 ≠ ............≠ β k ≠ 0 almeno uno dei coefficienti di regressione è diverso da zero. Tramite una analisi della varianza si ricavano i valori delle due varianze da sottoporre al test F, cioè: F= var . Re gr. var .Err. ed il valore empirico F, viene confrontato con il valore teorico F* con (k, n-k) gradi di libertà rilevato dalle tavola F in relazione ad un prefissato livello di significatività α. In presenza di un valore F osservato superiore al valore teorico F* si rigetta l'ipotesi nulla e si conclude sulla bontà della relazione in quanto almeno una delle variabili esplicative è in relazione con la variabile dipendente. Volendo verificare l'apporto delle singole variabili esplicative alla variabilità di quella dipendente, si può procedere in due modi: 1- sottoponendo a test la significatività della relazione tra una qualsiasi variabile esplicativa, si supponga la i-ma, e la variabile dipendente. Il test in questo caso fa riferimento alla regressione semplice tra una variabile esplicativa e la dipendente. L'ipotesi nulla è data da: Ho: βi = 0 e quella alternativa H1: βi ≠ 0 Il test utilizzato, come nella regressione semplice, è la t di Student dato dal rapporto tra la stima bi del coefficiente di regressione della i-ma variabile ed il suo errore standard sbi, cioè: t= bi s bi dove bi è la stima del coefficiente di regressione e sbi è l'errore standard dello stesso e misura la variabilità dei valori teorici della variabile dipendente ottenuti considerando la ima variabile esplicativa. Il valore di t empirico è confrontato con quello teorico t* rilevato in corrispondenza di (n-k) gradi di libertà ed in base ad un prefissato livello α di significatività. Se il valore di t osservato è maggiore di t* si rigetta l'ipotesi nulla e si rileva l'esistenza di una relazione significativa tra la i-ma variabile esplicativa e la variabile dipendente; 2- sottoponendo a test il coefficiente di regressione parziale tra la i-ma variabile esplicativa e la variabile dipendente (criterio parziale del test F). Tale metodo comporta il calcolo del contributo che ciascuna variabile esplicativa dà alla somma dei quadrati dopo che tutte le altre variabili esplicative sono state incluse nel modello. 62 D. Lucev LA VERIFICA DELL’IPOTESI DI NON SISTEMATICITA’ DEGLI ERRORI La validità dei risultati ottenuti con la stima dei parametri, è collegata al verificarsi dell'insieme di ipotesi che accompagnano il modello. La fase di verifica si interessa di: controllare se tali ipotesi sono state rispettate, di valutare, nel caso che una o più ipotesi vengano meno, le conseguenze sui risultati ottenuti oltre a stabilire le procedure correttive che permettano di ottenere risultati migliori ritornando alla fase interessata alla caduta delle ipotesi. Nel precedente paragrafo si è fatto cenno alla prima ipotesi che riguarda la linearità del modello. L'ipotesi invece di non sistematicità degli errori: E ( ei ) = 0 è facilmente superabile in quanto aumentando la numerosità n del campione per il teorema del limite centrale essa sarà soddisfatta. LA VERIFICA DELL’IPOTESI DI NON SFERICITA’ DEGLI ERRORI La terza ipotesi formulata, quella di sfericità degli errori, dev'essere scomposta in due parti: la prima riguardante l'ipotesi di varianza costante degli errori, omoschedasticità, data da: var ( ei ) = σ2 e la seconda, riguardante la covarianza tra errori rilevati in tempi diversi: cov (ei , ej ) = 0 per i ≠j =1,2, .....n Se non è verificata l'ipotesi di omoschedasticità, cioè se: var ( ei ) = σi2 si ha eteroschedasticità, e ciò si verifica quando la variabilità dei residui è differente nei diversi tempi di rilevazione. In tal caso i residui si dispongono rispetto all'iperpiano di regressione in maniera crescente o decrescente in funzione del tempo. Si può dimostrare che se nel modello vi è eteroschedasticità e le stime sono ottenute facendo riferimento all'omoschedasticità, esse risultano non distorte, consistenti ma poco efficienti, comportanti poco attendibilità dei test e degli intervalli di confidenza per i coefficienti. Il problema viene superato apportando opportune trasformazioni alle variabili in modo da ottenere un modello con residui omoschedastici. Una procedura di trasformazione va sotto il nome di minimi quadrati ponderati (WLS, Weight Least Squares). Tale metodo parte dal presupposto di conoscere le N varianze dei residui, nel qual caso le stime dei parametri ottenute dal modello di regressione trasformato, dividendo le variabili del modello per σt (t=1,........N) sono stime corrette ed efficienti. Le varianze, però, non sono note e quindi tale modello è inapplicabile eccetto la situazione in cui si dispone di dati cross-section, cioè per ogni tempo t di osservazione si hanno più rilevazioni da cui si ottengono delle stime delle varianze incognite. Si pone allora il problema di adottare delle procedure differenti. Supponendo, infatti, di poter attribuire la eteroschedasticità di et ad una delle variabili esplicative, cioè: σ t2 = c 2 X kt2 per cui il modello viene ad essere trasformato dividendo le variabili del modello per Xkt. Tale modello risulta essere omoschedastico, essendo: var( et ) = c2 Xkt Tale ipotesi può essere generalizzata assumendo: σ t2 = c 2f ( X kt ) con f funzione strettamente positiva che lega l'eteroschedasticità alla variabile esplicativa. a- La verifica dell’eteroschedasticità nel modello Nell'ambito delle tre precedenti situazioni di eteroschedasticità sono posti in essere tre particolari test che permettono innanzitutto di stabilire la presenza o meno di eteroschedasticità. Nella situazione che dà luogo ai minimi quadrati ponderati, si è ipotizzato la presenza di più osservazioni con riferimento allo stesso tempo t. In questo caso è utilizzato il test di Bartlett che si sviluppa in due fasi: 1- si supponga di avere N osservazioni ed n gruppi e siano ki le osservazioni nel gruppo imo. Si calcola la stima della varianza di ciascun gruppo di osservazioni nei t tempi, tramite: Si2 = ki ∑ j =1 (Yij − Yi ) 2 ki 64 D. Lucev 2- si calcola: n k n N log ( i )Si2 − k i log Si2 i =1 N i =1 χ c2 = n 1 1 1 1 + (n − 1) ( ) − ( ) N i =1 k i 3 ∑ ∑ ∑ che si distribuisce come una variabile casuale chi quadrato con n-1 gradi di libertà. Si calcola, infine, il test assumendo come ipotesi nulla l'assenza di eteroschedasticità. Se il valore calcolato risulta maggiore del valore teorico al livello α si rigetta l'ipotesi nulla rilevando quindi la presenza di eteroschedasticità. Nella situazione di eteroschedasticità prevista dalla relazione: σ t2 = c 2 X kt2 si utilizza il test di Goldfeld -Quandt. Innanzitutto, si ordinano in senso crescente i dati della variabile Xk. Trascurando nella distribuzione ottenuta h-termini centrali (con h pari ad un quarto dei termini) si perviene a due distribuzioni estreme indipendenti fra di loro. Si applica il modello di regressione sulla prima e sulla seconda distribuzione estrema dei dati e si calcola per entrambe la somma dei quadrati dei residui, indicate rispettivamente con S21 e S22. Si sottopone a test l'ipotesi nulla H0 : σ 2t = σ 2e = cos tan te , contro l'ipotesi alternativa: H1 : σ 2t = c 2 X kt2 . Si calcola la F di Fisher: Fc = S12 S22 che si distribuisce con ((N-h)/2)-p ed ((N-h)/2)-p gradi di libertà. Si rigetta l'ipotesi nulla se al livello di significatività α risulta Fc > Fα . Maggiormente complicata perlomeno a mole di calcoli è la situazione prevista da: σ t2 = c 2f ( X kt ) Il test utilizzato in questa situazione è quello di Glejser, il quale oltre a verificare l'esistenza di eteroschedasticità fornisce anche informazioni sulla forma della funzione f. Si stimano i parametri ed i residui del modello originale di regressione. Poi si ipotizza una serie di forme funzionali (funzione inversa, radice, logaritmo, etc.) che possano esprimere i residui stimati in funzione di ogni variabile esplicativa. Su queste relazioni vengono ad essere applicate una serie di regressioni una per ogni variabile (se k sono le relazioni si tratta di effettuare k*(p-1) regressioni. Si sottopone a test alternativa: H1 : σ 2t = c 2 f ( X kt ) . l'ipotesi nulla H0 : σ 2t = σ 2e = cos tan te , contro l'ipotesi Dalle regressioni calcolate si sceglie quella che presenta il più elevato valore di R2, che risponde alla funzione più adeguata per effettuare la trasformazione. Se il valore di R2 è basso in tutte le regressioni, si rigetta l'ipotesi nulla e si rileva la presenza di eteroschedasticità. b- L'ipotesi di errori incorrelati L'ipotesi riguardante la cov(ei,ej)=0 che presuppone errori non correlati nelle osservazioni è la più esposta a cadere specie in presenza di serie storiche. Inoltre, risulta abbastanza complicato poter stabilire il tipo di relazione che intercorre fra gli errori, in quanto esso risulta dalla combinazione della forma funzionale e dal lag temporale che lega gli errori stessi, dando luogo ad una vastissima casistica di situazioni. Di seguito sarà esaminato un caso particolare di relazione e precisamente: e t = ρe t 1 + vt con ρ < 1 che prende il nome di autocorrelazione del primo ordine. Questa relazione è di tipo lineare ed il lag che lega gli errori è di ordine 1. Le vt sono variabili casuali incorrelate con media nulla e varianza costante. La presenza di tale autocorrelazione nel modello di regressione comporta delle stime corrette e consistenti ma non tra le più efficienti. Pertanto anche gli intervalli di confidenza ed i test risulteranno non attendibili, come pure risulta alterato il coefficiente di determinazione R2. L'introduzione della relazione di autocorrelazione nel modello di regressione comporta invece delle stime corrette, consistenti ed efficienti a patto che si conosca il valore di ρ. Si può dimostrare che ρ è il coefficiente di correlazione tra et ed et1. Le procedure che permettono di verificare l'esistenza di autocorrelazione sono molteplici. Le principali fanno riferimento a: Durbin-Watson, Cochran-Orcutt e HildrethLu. Il test di Durbin-Watson è basato sull'analisi dei residui stimati del modello di regressione originale sotto l'ipotesi H0 : ρ = 0 contro quella alternativa H1 : ρ ≠ 0 . Il test è effettuato ricorrendo all'indice: N d= ∑ (eˆ t − eˆ t −1 ) 2 t =2 N ∑ eˆ 2 t t =1 il cui valore è dato da: 66 D. Lucev d ≅ 2(1 − ρˆ ) N ∑ eˆ eˆ t t −1 dove ρˆ = t =2 N ∑ e risulta ρ ≤ 1. eˆ t2 t =1 In effetti, si avrà che, il valore dell'indice d sarà compreso tra 4 se ρ̂ =-1 e 0 se ρ̂ = 1, mentre se ρ̂ = 0 si avrà il valore 2. Se quindi, il valore dell'indice d sarà prossimo a 2 si accetterà l'ipotesi nulla e quindi assenza di autocorrelazione, mentre se prossimo a 0 si rigetta l'ipotesi nulla e si rileva la presenza di autocorrelazione positiva, viceversa, se prossimo a 4 si rigetta l'ipotesi nulla e si riscontra la presenza di autocorrelazione negativa. Dipendendo l'indice d oltre che dal valore di ρ anche dalla struttura delle variabili esplicative Durbin-Watson hanno tabulato la distribuzione teorica di d in funzione della numerosità N delle osservazioni, del numero p delle variabili esplicative, di un limite inferiore dl (d low) funzione di N e di p, al di sotto del quale molto probabilmente si ha un valore di ρ positivo ed al di sopra il risultato può essere dovuto ad un ρ positivo o alle relazioni esistenti tra le variabili esplicative, di un limite superiore du (d up) al di sopra del quale è molto probabile l'esistenza di un ρ vicino a zero e al di sotto del quale il risultato può essere dovuto sia ad un ρ vicino a zero sia alle relazioni esistenti fra le variabili esplicative. Il metodo di Cochrane-Orcutt consiste in una procedura iterativa che partendo dalla stima dei residui del modello originale, dalla relazione di autocorrelazione si ottiene una prima stima di ρ che a sua volta si sostituisce nel modello di regressione completo di autocorrelazione, ottenendo le nuove stime dei residui utilizzati per una nuova stima di ρ. Il procedimento termina quando la differenza tra due successive stime di ρ è minore di un valore piccolissimo prefissato. Il metodo di Hildreth-Lu prevede un procedimento per approssimazione successiva. Una volta assodata l'esistenza di autocorrelazione(es. di tipo positiva), si considerano i valori di ρ tra 0 e 1 con passo 0,1 e si stima il modello di regressione comprensivo di autocorrelazione scegliendo quello che presenta la minima somma dei quadrati degli scarti. Dopo si considera il valore di ρ che ha prodotto tale valore minore e si considera l'intervallo 0,1 centrato sul valore di ρ (es. se il valore di ρ corrisponde a 0,5 si considera l'intervallo 0,45-0,55) e si procede al calcolo della regressione aumentando di volta in volta di 0,01 il valore dell'estremo inferiore dell'intervallo e procedendo come sopra. Tale metodo in genere fornisce risultati migliori degli altri metodi.