\\ TRACCIA PER UN’ INTRODUZIONE AI METODI ECONOMETRICI Introduzione Per ottenere delle rappresentazioni quantitative di relazioni tra variabili economiche di interesse si adoperano varie tipologie di modelli in relazione alle informazioni utilizzabili per la loro costruzione. Ad esempio, se interessa effettuare una previsione del livello dei consumi aggregati per il sistema economico italiano nel prossimo anno ci si può basare: 1) sulla sola conoscenza dei livelli (stimati) dei consumi aggregati nel passato e allora si farà tipicamente riferimento ai modelli dell’analisi delle serie temporali (modelli ARMA o ARIMA); 2) sulla conoscenza, oltre che della serie temporale dei consumi aggregati, anche delle serie temporali di variabili diverse che, in base alle nostre opinioni, esercitano una influenza “di tipo causale” sul livello dei consumi; l’approccio metodologico più frequentemente adoperato in questo caso è l’analisi di regressione; 3) sulla conoscenza delle serie temporali di più variabili (inclusi i consumi aggregati) che la teoria economica ritiene si determinino simultaneamente (variabili endogene) interagendo fra loro e venendo influenzate da un altro insieme di variabili (variabili esogene); si parla in questo caso di modelli ad equazioni simultanee. I vari tipi di analisi prevedono quindi il ricorso a differenti basi informative e a differenti livelli di conoscenza teorica dei fenomeni in esame. Sembrerebbe logico aspettarsi che la qualità della previsione migliori con l’aumento dei dati disponibili e con la più approfondita conoscenza delle relazioni esistenti tra le variabili. Bisogna però tener conto che la maggiore complessità del modello moltiplica le difficoltà che l’analista incontra nella sua costruzione e nel suo utilizzo; può darsi quindi che un semplice modello ARMA produca una previsione dei consumi migliore rispetto a quella ottenibile con un sofisticato modello econometrico ad equazioni simultanee costituito da centinaia di variabili ed equazioni. La costruzione di un qualunque modello quantitativo dei tre tipi su indicati (per esempio riguardante i livelli dei consumi aggregati) è un processo complesso che si articola in più fasi successive: la specificazione (scelta di una formalizzazione tra le infinite possibili), la stima dei parametri presenti nel modello, la verifica dell’adeguatezza del modello stimato e la sua utilizzazione. Se la verifica dell’adeguatezza del modello stimato non desse risultati giudicati accettabili sarà necessario modificare la specificazione iniziale e ripetere il ciclo: è dunque un processo iterativo nel quale intervengono sia strumenti di tipo statistico, che dovrebbero fornire elementi oggettivi di giudizio, che l’abilità e l’esperienza personale del costruttore del modello. Poiché i fenomeni economici sono generalmente molto complessi e tipicamente evolutivi, la loro rappresentazione più efficace si ottiene con l’impiego di modelli dinamici e stocastici. I modelli economici statici (e quindi non dinamici) e/o deterministici (e quindi non stocastici) devono essere considerati solo strumenti didattici, di scarso interesse per la risoluzione di problemi economici concreti. In tutti i modelli su menzionati intervengono serie storiche economiche: si tratta di sequenze di valori di grandezze economiche osservabili concernenti fenomeni di tipo microeconomico (per esempio la sequenza dei prezzi di un dato bene rilevabili giorno per giorno) o macroeconomico (per esempio la sequenza dei valori del prodotto interno lordo dell’economia italiana rilevabili annualmente). Con riferimento, per esempio, alla sequenza dei livelli del consumo aggregato delle famiglie italiane, una possibile rappresentazione di tale serie storica sarebbe la seguente: 1 c1, c2, ………….., cT, C T+1, C T+2,……………. ove le lettere minuscole rappresentano numeri certi, ossia valori osservati o stimati dei livelli di consumo nei periodi da 1 a T, mentre le lettere maiuscole rappresentano numeri aleatori, cioè livelli non noti (in quanto, per esempio, non ancora osservabili) dei consumi nei periodi successivi a quella T-esimo . Con riferimento ai termini non noti della serie temporale, l’analisi dev’essere di tipo probabilistico: la sequenza dei livelli di consumo da C T+1 in poi va riguardata come un processo stocastico (cioè un insieme di numeri aleatori) descrivibile a vari livelli di precisione: per esempio, mediante la famiglia delle distribuzioni di probabilità congiunte finite-dimensionali oppure, più semplicemente, mediante i soli momenti del primo e del secondo ordine e cioè specificando i valori medi E(C t), le varianze V(C t) e le covarianze Cov(C s , C t) per C T+1, C T+2,……………. Con riferimento alla sequenza di numeri certi c1, c2, ………….., cT può avere senso procedere al calcolo di taluni momenti campionari quali: 2 1 T 1 T la media campionaria m1(T ) c j , la varianza campionaria m2(T ) (0) c j m1(T ) e le T j 1 T j 1 T h 1 covarianze campionarie m2(T ) (h) c j m1(T ) . c j h m1(T ) . T j 1 Ci si può chiedere a questo punto in quali circostanze il calcolo di questi momenti campionari ha un qualche significato operativo e, in particolare, quando tali momenti campionari hanno una qualche relazione con i corrispondenti momenti E(C t), V(C t) e Cov(C s , C t) della parte non nota della serie temporale. Si tratta del “problema ergodico” al quale accenneremo nel seguito. Va detto che, in generale, l’analisi delle serie temporali si propone di utilizzare la sequenza di livelli noti dei consumi c1, c2, ………….., cT per la costruzione di un modello stocastico riguardante la sequenza dei consumi non ancora noti : per esempio il modello stimato potrebbe fornire previsioni per i valori futuri dei consumi aggragati. E’ però fondamentale chiarire in quali condizioni tale approccio metodologico risulta praticabile e concretamente utile; in altre parole, è di primaria importanza stabilire per quali serie temporali dal modello stocastico costruito sulla base della sequenza di valori noti c1, c2, ………….., cT si possono ricavare informazioni attendibili sull’evoluzione futura del fenomeno. PARTE I . ANALISI DELLE SERIE TEMPORALI Come si è già detto, tipicamente una serie temporale (o storica) si presenta al modo seguente: x1 , x2 ,............., xT , X T 1 , X T 2 ,............... ove il primo segmento x1 , x2 ,............., xT è costituito da numeri noti (già osservati o stimati), mentre la sequenza rimanente X T 1 , X T 2 ,............... è costituita da numeri non noti o aleatori: diremo anche che tale sequenza è un processo stocastico. Il processo stocastico X T 1 , X T 2 ,............... si dirà noto quando si è in grado di specificare in modo coerente la sequenza di distribuzioni di probabilità congiunte F1 ( x1 ), F1,2 ( x1 , x2 ), F1,2,3 ( x1 , x2 , x3 ), ……………… ; 2 frequentemente si usano livelli di specificazione più semplici perché è ben difficile, nei problemi pratici, disporre di informazioni sul fenomeno rappresentato dal processo stocastico così dettagliate da consentire la scelta dell’indicata sequenza di distribuzioni. E’ detto livello di conoscenza “del secondo ordine” quello che si basa sulla specificazione dei soli momenti del primo e secondo ordine per i numeri aleatori del processo X T 1 , X T 2 ,............... e cioè dei valori medi E ( X T k ), k 1, delle varianze Var ( X T k ), k 1, e delle covarianze Cov( X T k , X T ), k . Un problema importante riguarda la possibilità di stimare tali momenti mediante i corrispondenti momenti campionari calcolati per la sequenza nota x1 , x2 ,............., xT : media campionaria: m1(T ) 1 T xt ; T t 1 varianza campionaria: m2(T ) (0) covarianze campionarie: m2(T ) (h) 1 T ( xt m1(T ) ) 2 ; T t 1 1 T h ( xt m1(T ) ).( xt h m1(T ) ), h 1 . T t 1 Sussiste eventualmente la detta possibilità di stima soltanto per le serie temporali stazionarie (in senso lato), quelle cioè per le quali i valori medi E ( X T k ) e le varianze Var ( X T k ) sono tutte tra loro uguali e le covarianze Cov( X T k , X T ) sono tra loro uguali quando la differenza degli indici (T k ) (T ) k è la medesima. Introducendo per comodità la “funzione valor medio” X (T k ) E X T k e la “funzione di covarianza” X (T k , T ) Cov X T k , X T l possiamo affermare che per le serie temporali stazionarie la funzione valor medio X (T k ) è costante e la funzione di covarianza X (T k , T ) dipende solo dalla differenza (T k ) (T ) k l degli indici dei numeri aleatori considerati. Per queste serie temporali e quando esse sono altresì ergodiche, i momenti campionari sono buone stime per i corrispondenti momenti dei numeri aleatori del processo stocastico nel senso che, 1 T quando T è sufficientemente grande, m1(T ) xt è una buona stima per X (T k ) , che è T t 1 T h 1 costante, e i valori m2(T ) (h) ( xt m1(T ) ).( xt h m1(T ) ) , per h 0 , sono buone stime per i T t 1 corrispondenti valori di X (h) , h 0. Chiediamoci ora per una qualunque serie storica X1 , X 2 ,..........., X t ,.......... stazionaria in senso lato: quando essa è ergodica per i momenti fino al secondo ordine? La risposta è quando accade che : 1 n 1 nh p lim X t E X 1 X (1) e p lim X t m1( n ) . X t h m1( n ) X (h) . n n n n t 1 t 1 3 E’ il caso di precisare che il simbolo p lim Yn si riferisce alla “convergenza in probabilità” n della successione di numeri aleatori Yn al limite certo α con il seguente significato: fissato un ε > 0 arbitrariamente, accade che Pr X n → 0 per n . Avvisiamo subito il lettore che non è semplice fornire condizioni sufficienti per l’ergodicità nel caso generale. Se il processo X t ; t 1 è Gaussiano e stazionario in senso lato allora esso è ergodico se X (h) tende a zero abbastanza velocemente per h ; non è quindi sufficiente che la funzione di covarianza sia infinitesima. Una condizione sufficiente per l’ergodicità di tutti i momenti nelle stesse ipotesi di stazionarietà e Gaussianità è che (h) , cioè che la funzione h0 di covarianza sia “assolutamente sommabile”. Rinviamo il lettore interessato alla letteratura specializzata per ulteriori approfondimenti sulla nozione di ergodicità. Un’introduzione all’approccio Box – Jenkins. Tale approccio all’analisi delle serie temporali è costituito da quattro fasi successive denominate a. fase di pre-processing : in essa si attua una trasformazione preliminare della serie storica per eliminare eventuali elementi di non stazionarietà; b. fase di identificazione o specificazione del modello : si sceglie entro la classe dei modelli ARMA(p,q), che introdurremo tra breve, un modello che sembra il più adatto per la serie storica considerata (sostanzialmente si scelgono gli interi non negativi p e q); c. fase di stima statistica degli elementi non noti del modello; d. fase di verifica dell’affidabilità del modello stimato . Se l’ultima verifica non dà risultati accettabili occorre ritornare alla seconda fase e modificare la specificazione del modello ripetendo poi l’intera procedura di stima e verifica finale. L’approccio Box – Jenkins ha quindi natura ricorsiva o iterativa: dopo la fase di pre-processing, si avvia un procedimento iterativo fino all’ottenimento di un modello stimato ritenuto accettabile. a. Pre-processing. Sostanzialmente possiamo individuare due diverse impostazioni; la più antica parte dall’ipotesi che la serie temporale X t ; t 1 possa essere rappresentata come somma di una componente di trend (che individua “l’andamento medio” della serie), di una componente stagionale (detta anche componente ciclica e non sempre presente nelle serie storiche) e di una componente residua ( approssimativamente stazionaria). La componente di trend {Tt}è particolarmente importante nelle previsioni di lungo periodo per la serie X(t), quella stagionale {St}, assieme al trend, interviene nelle previsioni di medio periodo mentre il residuo {Rt} è essenziale nelle previsioni di breve e brevissimo periodo. Per la stima del trend si ricorre spesso a procedimenti di “perequazione” con il “metodo dei minimi quadrati”: indicato con x1 , x2 ,.........., xT il segmento noto della serie temporale e con {f(t), } una famiglia di funzioni perequatrici caratterizzate da un vettore parametrico , si determina la “migliore” funzione perequatrice individuando i valori delle componenti di che minimizzano la T funzione obiettivo x f (t ) t 1 2 t . 4 Se, per esempio, la famiglia {f(t), } è costituita dalla totalità dei polinomi di secondo grado nella variabile t, f(t) = 0 1.t 2 .t 2 , i valori ottimali dei parametri si otterranno uguagliando a zero le derivate parziali, rispetto a i , della funzione obiettivo T x t 1 t 0 1.t 2 .t 2 2 e risolvendo il sistema di equazioni lineari trovato. Un diverso e più elementare procedimento di stima del trend (smoothing) consiste nella determinazione dei valori (medie mobili) Tt n a .x j n j t j quando si siano fissati i valori dei pesi a j ; nel caso più semplice i cofficienti a j sono posti tutti uguali tra loro e pari a 1/(2n+1). Il valore n è ovviamente dipendente dalla lunghezza del segmento noto x1 , x2 ,.........., xT e va fissato preliminarmente. Nell’ipotesi che i dati x1 , x2 ,.........., xT siano rilevati mensilmente e indicato con x jk il valore rilevato nel mese k-esimo dell’anno j-esimo, una stima della componente stagionale si può ottenere al modo seguente: se n è il numero degli anni di osservazione, calcolati preliminarmente i 1 12 valori mj = x jk , si determinano i valori 12 k 1 1 n Sk ( x jk m j ) . n j 1 Le componenti stimate di trend e stagionale possono essere impiegate, come già si è detto, per effettuare previsioni di lungo e medio termine, ma possono essere sottratte dalla serie storica osservata x1 , x2 ,.........., xT per ottenere una stima del residuo secondo la Rt xt T t S t . Una differente e più moderna impostazione nell’operazione di pre-processing tendente ad eliminare le eventuali componenti di non-stazionarietà dalla serie temporale è quella suggerita da Box e Jenkins e consiste nel passaggio dalla serie osservata x1 , x2 ,.........., xT a quella delle differenze prime yt xt 1 xt oppure a quella delle differenze seconde zt yt 1 yt e così via finchè si ritiene di avere ottenuto una sequenza approssimativamente stazionaria. In generale, nei casi più semplici, è sufficiente arrivare alle differenze seconde o terze per ottenere una serie temporale trasformata che possa essere considerata approssimativamente stazionaria. Ci accontenteremo, in questa introduzione, di questi brevi cenni sulla prima fase dell’approccio Box – Jenkins che invece, per la sua importanza, meriterebbe una ben più approfondita trattazione. 5 b. Fase di identificazione o specificazione del modello La categoria di modelli ARMA(p,q) è costituita da equazioni del tipo X t a1. X t 1 ................ a p . X t p Zt b1.Zt 1 ............... bq .Zt q , ove le variabili { Zt ; t 1}, non osservabili, costituiscono un processo stocastico molto semplice avente le seguenti caratteristiche: la funzione valor medio Z (t ) è nulla e la funzione di covarianza Z (h) ha due soli valori e precisamente Z (h) = 0 se h 0 e Z (h) Z2 se h 0 . Esso è detto “processo di rumore bianco” (white noise) e va considerato noto a meno del valore comune Z2 delle varianze delle variabili Z t . Sinteticamente lo si indica con Z t WN (0, Z2 ) . Dal punto di vista matematico i modelli ARMA(p,q) sono equazioni alle differenze finite, lineari, di ordine p, a coefficienti costanti, stocastiche: X t a1. X t 1 ................ a p . X t p Yt ove Yt Zt b1.Zt 1 ............... bq .Z t q . Fissata una condizione iniziale, di cui si dirà nel seguito, la soluzione dell’equazione è un processo stocastico {X(t)} specificato in termini della funzione valor medio X (t ) e della funzione di covarianza X (h) . Particolare importanza hanno le soluzioni stazionarie e “quasi stazionarie”; vediamo alcuni esempi. 1. Modello ARMA(0,1) o modello MA(1): X t Zt b.Zt 1 , Zt WN (0, Z2 ) . Chiaramente, la funzione valor medio X (t ) E ( X t ) è identicamente nulla; la funzione di covarianza ha i seguenti valori (1 b2 ). Z2 se s t 0 X ( s, t ) b. Z2 se s t 1 0 se s t 1 e quindi il processo generato da questo modello è stazionario in senso lato. q Per un modello ARMA(0,q), o MA(q), X t Zt b j .Zt j si ha che Cov X s , X t = 0 se s t j 1 q, cioè i n.a. X t sono “definitivamente non correlati”. I processi stocastici definiti da questi modelli sono dunque tutti stazionari in senso lato ed ergodici (come si potrebbe verificare). 2. Modello ARMA(1,0) o modello AR(1): X t a. X t 1 Zt , Zt WN (0, Z2 ), Cov( X 0 , Zt ) 0 . Per prima cosa ci procureremo una soluzione dell’equazione procedendo per sostituzioni successive a ritroso: X t a. X t 1 Z t a a. X t 2 Z t 1 Z t a a a. X t 3 Z t 2 Z t 1 Z t ............. ottenendo X t a t . X 0 a t 1.Z1 a t 2 .Z 2 .............. a.Z t 1 Z t . Sul numero aleatorio X 0 è necessario formulare una qualche ipotesi detta “condizione iniziale” per l’equazione e basata su eventuali informazioni disponibili. Per esempio si potrebbe assegnare ad X 0 6 una qualche distribuzione di probabilità F0 ( x) o assegnare valori numerici a E ( X 0 ) e V ( X 0 ) o altro ancora. In particolare, se il valore ξ di X 0 è noto, si pone X 0 nell’espressione ottenuta sopra che t diventa X t a t . a t k .Z k e che rappresenta il processo stocastico X t ; t 0 soluzione k 1 dell’equazione X t a. X t 1 Zt corrispondente a X 0 . Si ha anche chiaramente X (t ) E ( X t ) a t . Assumendo invece come condizione iniziale E ( X 0 ) m e V ( X 0 ) v , il processo stocastico t soluzione dell’equazione X t a. X t 1 Zt è X t a t . X 0 a t k .Z k con X (t ) E ( X t ) a t .m . k 1 In entrambi gli esempi fatti la funzione valor medio X (t ) del processo X t non è costante per cui X t non è stazionario in senso lato. Assumendo ancora come condizione iniziale E ( X 0 ) m e V ( X 0 ) v , per la funzione di covarianza X (t h, t ) del processo X t si trova l’espressione X (t h, t ) a 2t h .v a h . Z2 1 a 2t 1 a2 che dipende da h e da t, cioè da t+h e t, confermando la non stazionarietà di X t . Una situazione di “quasi stazionarietà” per il processo X t si consegue se il coefficiente della parte autoregressiva soddisfa la condizione a 1 perché in tale caso per valori del parametro operativo t sufficientemente elevati si ottiene X (t ) 0 e X (t h, t ) a h . Z2 /(1 a 2 ) : più propriamente tale situazione viene detta “stazionarietà asintotica”. Ci limitiamo ad affermare che alla stazionarietà asintotica si accompagna anche la proprietà di ergodicità. p Per un modello AR(p), X t ai . X t i Z t , si dimostrano risultati analoghi a condizione che i i 1 coefficienti ai della parte autoregressiva siano tali da far sì che l’equazione caratteristica associata p al modello, p ai . p i 0 , abbia radici j tutte minori di uno in modulo. i 1 3. Modello ARMA(1,1): X t a. X t 1 Zt b.Zt 1 , Zt WN (0, Z2 ), Cov( X 0 , Zt ) 0 . Ponendo Yt Zt b.Zt 1 , il modello ARMA(1,1) è simile a quello AR(1) ove però il processo input Yt ; t 1 non è di tipo White Noise, ma ha le caratteristiche di un processo generato da un modello MA(1). Si ottiene, con un calcolo diretto, che il processo X t non è stazionario, e che esso è asintoticamente stazionario se a 1. In questa ipotesi, la funzione di covarianza X (t h, t ) si può determinare mediante le equazioni di Yule – Walker che si ottengono come segue. Moltiplicando entrambi i membri del modello ARMA(1,1) per X t k e uguagliando i valori medi dei due membri si ottengono, per k = 0, 1, 2 ……, le equazioni (dette appunto di Yule – Walker): E X t .X t k a.E X t 1.X t k E Zt .X t k b.E Zt 1.X t k . 7 Asintoticamente ( t ), il primo membro coincide con Cov X t , X t k a.Cov X t 1 , X t k = X (k ) a. X (k 1) per cui, con facili calcoli, si ottiene il seguente sistema di equazioni: X (0) a. X (1) = [1 + ( a + b).b] . Z2 , X (1) a. X (0) = b . Z2 , X (k ) a. X (k 1) = 0 . per k = 0, per k = 1, per k 2, Risolvendo le prime due equazioni si ottengono Var X t X (0) Z2 .(a b)2 /(1 a2 ) e X (1) Z2 .(a b).(1 a.b) /(1 a 2 ) ; i rimanenti valori delle covarianze si ottengono utilizzando l’ultima equazione : X (h) a h 1. X (1) . Per i dettagli si veda l’Appendice n. 3. Questo procedimento ha carattere generale e può essere applicato a qualunque modello ARMA(p,q) nell’ipotesi che l’equazione caratteristica associata alla parte autoregressiva, p p ai . p i 0 , abbia tutte le radici j minori di 1 in modulo. i 1 Quanto visto per il modello ARMA(1,1) sussiste sostanzialmente anche per modelli generali ARMA(p,q) nel senso che il comportamento asintotico della funzione di covarianza dipende dalla parte autoregressiva del modello: se j 1, j 1, 2,........., p, e questo fatto dipende soltanto dai coefficienti ai , allora X (t h, t ) è infinitesima al crescere di h (e sussiste anche l’ergodicità). Una giustificazione del ricorso ai suddetti modelli stocastici ARMA(p,q) chiama in causa il teorema di H.Wold sulla rappresentazione dei processi stazionari in senso lato mediante modelli MA(), che a loro volta possono essere approssimati da modelli ARMA(p,q); diremo di più su ciò in una delle appendici a queste note. La fase di identificazione (o specificazione) del modello entro la famiglia ARMA(p,q) consiste nell’individuazione degli interi p e q che determinano, a meno dei valori dei coefficienti, la parte AR e quella MA del modello lineare. Gli strumenti statistici che possono dare prime indicazioni su tale scelta sono la funzione di autocorrelazione stimata ( h) (o correlogramma) e la funzione di autocorrelazione parziale stimata { mm ; m 1}. Si ha: T h ( xt x).( xt h x) (h) = t 1 T ( xt x)2 , per h 0 ; t 1 Per quanto concerne i valori mm della funzione di autocorrelazione parziale, le loro stime si ottengono mediante il procedimento dei minimi quadrati ordinari applicato ai seguenti modelli lineari: m X t im . X t i Z t , m 1 . i 1 Si dimostra che le funzioni di autocorrelazione (ACF) e di autocorrelazione parziale (PACF) hanno comportamenti opposti nei modelli AR(p) e MA(q) nel senso che l’andamento della ACF nei modelli MA(q) (identicamente nulla per h q+1) è analogo a quello della PACF nei modelli AR(p), 8 mentre l’andamento della ACF nei modelli AR(p) (infinitesima se i coefficienti soddisfano la condizione di stazionarietà asintotica) è analogo a quello della PACF nei modelli MA(q). Si parla anche di comportamento “duale” di tali funzioni nelle due classi di modelli. Purtroppo, l’andamento delle due funzioni è molto meno semplice per modelli ARMA con p e q entrambi positivi per cui la loro efficacia nell’identificazione di modelli ARMA è molto minore che non per i casi particolari AR(p) e MA(q). c) Fase di stima del modello Scelto l’ordine del modello ARMA, cioè la coppia (p,q), si tratta di stimare i p+q+1 parametri numerici a1 , a2 ,......., a p , b1 , b2 ,........, bq , Z2 A causa della non osservabilità del processo di rumore bianco Zt solo la stima dei coefficienti a1 , a2 ,......., a p può ottenersi con l’applicazione diretta del procedimento di stima dei minimi quadrati ordinari (metodo OLS); per la stima degli altri coefficienti si devono impiegare metodi più potenti, ad esempio il metodo di massima verosimiglianza che richiede però una specificazione probabilistica delle distribuzioni congiunte delle variabili Zt . Tipicamente si assume che Zt sia un processo Gaussiano. p Cominceremo ad affrontare la stima dei coefficienti di un modello AR(p) X t ai . X t i Z t i 1 utilizzando il metodo di stima dei minimi quadrati che non richiede nessuna ipotesi sulla forma funzionale delle distribuzioni del processo White Noise Zt . Si definiscono stime dei minimi quadrati per i coefficienti ai quei valori a i che rendono minima la funzione 2 p X t ai . X t i ; t p 1 i 1 sotto convenienti ipotesi esiste unica la soluzione del sistema di equazioni lineari che si ottiene uguagliando a zero le derivate parziali di f( a1 , a2 ,......., a p ) rispetto a ciascuno dei coefficienti ed essa individua proprio il punto di minimo della suddetta funzione. Il metodo dei minimi quadrati non fornisce invece alcuna stima della varianza Z2 ; ci limitiamo ad affermare che il metodo di T f( a1 , a2 ,......., a p ) = massima verosimiglianza (nell’ipotesi di Gaussianità delle variabili Z t ) fornisce il valore 2 p (T-p-1) . xt ai .xt i . t p 1 i 1 2 Z –1 T Si prova che gli stimatori dei coefficienti del modello AR(p) sono corretti e consistenti; la consistenza deriva dall’ipotesi Cov( X 0 , Zt ) 0 la quale implica che l’errore Zt non è correlato con le variabili osservabili Xt-i per i > 0. Illustreremo ora con un unico semplice esempio un procedimento di stima, che costituisce una variante del metodo OLS, che può essere applicato ad un qualunque modello ARMA(p,q) con p e q entrambi positivi. Considereremo precisamente per il modello X t a. X t 1 Zt b.Zt 1 il problema di stima dei parametri a e b. Il primo membro X t a. X t 1 costituisce chiaramente una trasformazione lineare Λ( X t ) del processo { X t } ; il modello ARMA(1,1) può quindi essere espresso dalla Λ( X t ) Zt b.Zt 1 . Indicando con -1 la corrispondente trasformazione inversa e ricordando che l’inversa di una trasformazione lineare è ancora lineare si può allora rappresentare lo stesso modello con la 9 X t = -1 [ Zt b.Zt 1 ] = -1 [ Z t ] + b. -1 [ Z t 1 ] = Yt b.Yt 1 , avendo posto -1 [ Z t ] = Yt per ogni t. Allo scopo di ricavare una stima del processo { Yt } a partire dai valori osservati della serie storica X t scriviamo la suddetta uguaglianza come Yt X t b.Yt 1 assumendo Y0 = 0 e assegnando un valore numerico b1 al coefficiente incognito b : si determinano quindi ricorsivamente i valori di stima delle variabili Yt . Esprimendo la Yt 1 ( Zt ) come [ Yt ] = Yt a.Yt 1 = Z t otteniamo un modello AR(1) nel processo { Yt } contenente il parametro a da stimare; il metodo OLS applicato a questo modello fornisce una stima a(b1 ) dipendente dal valore assegnato all’altro parametro b ed inoltre il valore 2 t Y (t ) a(b1 ).Y (t 1) che costituisce la “cifra di merito” del modello stimato. Ripetendo il procedimento di stima per altri valori bj assegnati al parametro b si ottengono altre numerico S(b1) = coppie [ a(b j ) , S(bj) ] per j 2 . Si considerano infine “valori di stima ottimali” per i parametri incogniti la coppia a (bk ) , bk in corrispondenza alla quale la cifra di merito S(bk) risulta minima . In generale, per la stima dei parametri di un modello ARMA(p,q) si usano procedimenti iterativi non lineari che in questa introduzione non saranno considerati. 10 d) Fase di verifica di affidabilità del modello stimato Una volta che il modello sia stato specificato e stimato si tratta di verificare l’affidabilità (goodness of fit) della specificazione scelta. Un primo controllo consiste nel confronto dei valori osservati della serie storica, cioè il segmento iniziale x1 , x2 ,............., xT , con quelli prodotti dal modello stimato mediante “simulazione”. Per una prima idea sul procedimento di simulazione si assuma che il modello stimato sia del tipo AR(2) e precisamente X t 1,317. X t 1 0, 634. X t 2 Zt , Zt WN (0 ; 0, 289) ; se il generatore di numeri pseudo-casuali del vostro computer fornisce valori numerici t ; t 1 di variabili aleatorie con distribuzione Gaussiana N(0;1) e se la condizione iniziale della suddetta equazione alle differenze finite è costituita dalla coppia di valori X 1 ; X 0 allora la serie storica simulata xt ; t 1 è data dalla sequenza x1 1,317. 0, 634. 1. 0, 289 x2 1,317.x1 0, 634. 2 . 0, 289 x3 1,317.x2 0, 634.x1 3 . 0, 289 .......................................................... xT 1,317.xT 1 0, 634.xT 2 T . 0, 289 Se il confronto ha esito positivo si può analizzare la funzione di autocorrelazione dei residui stimati: se la specificazione è corretta tali residui dovrebbero simulare un processo White Noise, cioè un processo con variabili non correlate, e quindi il loro correlogramma ( h) dovrebbe essere approssimativamente nullo per h 1. L’impiego di test statistici opportuni consente di valutare l’accettabilità dell’approssimazione. Se invece tali verifiche danno esito negativo o dubbio si procede ad una diversa specificazione del modello e alla stima dei nuovi parametri. Si tratta dunque di un procedimento di approssimazioni successive tendente ad individuare un modello ARMA(p,q) giudicato compatibile con i dati. Cenni sulla previsione mediante modelli ARMA Avendo a disposizione un modello ARMA(p,q) giudicato attendibile si supponga di essere interessati a fare una previsione sul valore X T s non ancora osservabile della nostra serie storica. Per “previsione di X T s ” si intende un valore numerico approssimato xT s costruito mediante il modello stimato. Strettamente connesso alla previsione è “l’errore di previsione” X T s xT s ; esso è un numero aleatorio che, con probabilità 1, riesce diverso da 0 . Supponiamo che sia stato specificato e stimato una modello ARMA(1,2) rappresentato dall’equazione 11 X t a . X t 1 Zt b1 .Zt 1 b2 .Zt 2 , (*) Zt WN (0, Z2 ) , Se s = 1, la previsione di X T 1 deriva dall’equazione precedente, con t = T + 1, X T 1 a . X T ZT 1 b1 .ZT b 2 .ZT 1 ponendo X T xT (ultimo valore osservato) , ZT 1 E ZT 1 = 0 , ZT z T e ZT 1 z T 1 essendo gli ultimi due valori z T e z T 1 i residui stimati ricorsivamente mediante l’equazione Zt X t a . X t 1 b1 .Z t 1 b 2 .Z t 2 ricavata dalla (*). Se s = 2, la previsione di X T 2 deriva dall’equazione (*) con t = T + 2 X T 2 a . X T 1 ZT 2 b1 .ZT 1 b 2 .ZT ponendo X T 1 xT 1 (previsione ricavata precedentemente), ZT 2 ZT 1 0 e ZT z T (ultimo residuo stimato). Se s > 2, le previsioni successive alla x T 2 si ottengono, per le considerazioni già fatte, dalle equazioni X T s a . X T s 1 ponendo s = 3, 4, ……… Considerando, per esempio, il caso s = 4 dalle espressioni precedenti si ha: X T 4 a . X T 3 a . a . X T 2 a . a . a . X T 1 ZT 2 b1 .ZT 1 b 2 .ZT = = a . a . a . a . X T ZT 1 b1 .ZT b 2 .Z T 1 Z T 2 b1 .Z T 1 b 2 .Z T = = (a) 4 . X T ( a)3.ZT 2 ( a) 3. 1 b1 .Z T 1 ( a) 3. b1 b 2 .Z T ( a) 3. b 2 .Z T 1 Ovviamente, al crescere di s l’incertezza sulla previsione xT s aumenta in quanto: - alle perturbazioni Z t vengono sostituiti i loro valori medi 0 (per t > T), oppure, per t T, i corrispondenti residui stimati - i coefficienti a, b1 e b 2 sono a loro volta valori stimati e tutte le stime sono affette da errori di stima! Per eventuali approfondimenti sull’argomento dell’analisi delle serie storiche e della previsione segnaliamo alcuni testi di riferimento: 1) 2) 3) 4) 5) M.Verbeek (2004), Econometria. Zanichelli. P.J.Brockwell, R.A.Davis (1991), Time Series: Theory and Methods. Springer. B.Abraham, J.Ledolter (1983), Statistical Methods for Forecasting. J.Wiley. D.J.Hamilton (1995), Econometria delle serie storiche. Monduzzi. R.S.Pindyck, D.L.Rubinfeld: Econometrics models and economic forecast. McGraw-Hill. 12 APPENDICE n. 1. Sui fondamenti dell’analisi delle serie temporali. Cercheremo di giustificare l’uso dei modelli ARMA nell’analisi delle serie temporali senza entrare in dettagli eccessivi e facendo ricorso soprattutto all’intuizione; il lettore più esigente potrà consultare i testi indicati nel seguito o altri più approfonditi. Dalla teoria dei processi stazionari è noto (teorema di H. Wold) che ogni processo stocastico {Xt} stazionario in senso lato, avente cioè momenti secondi E(Xt2) finiti, funzione valor medio E(Xt) identicamente nulla e funzione di covarianza Cov(Xt , Xt-h) dipendente solo dalla differenza h degli indici, può essere rappresentato secondo la X t j .Zt j Vt , ove {Zt} WN(0, Z2 ) . j 0 Il processo stocastico Vt è detto “linearmente deterministico”; ha funzione valor medio nulla e Cov(Zs , Vt) = 0 per ogni coppia di indici (s,t). Inoltre è 0 = 1, 2 j . j 1 Se la componente Vt è trascurabile, si può affermare che un processo {Xt}, stazionario in senso lato, può essere rappresentato approssimativamente da un modello MA(). Poiché un modello MA(), X t j .Zt j , contiene infiniti parametri che non si possono j 0 stimare sulla base di un segmento noto finito (x1,x2,………,xT) della serie temporale, occorre approssimare il processo generato dal modello MA() con uno che sia generato da un modello avente solo un numero finito, e possibilmente piccolo, di parametri. In questa necessità si rivelano preziosi i modelli ARMA(p,q) nel senso che per molti processi {Xt} stazionari in senso lato è possibile trovare un processo approssimante {Yt} generato da un modello ARMA(p,q) p q i 1 j 1 Yt ai .Yt i Zt b j .Zt j . Il grado di approssimazione può essere misurato in vari modi: si può misurarlo in termini della “distanza” tra i processi, sup E [Xt - Yt ] 2 , oppure in termini di scarto massimo tra le “densità spettrali” f X ( ) ed f X ( ) che ora definiremo. La nozione di funzione spettrale F() interviene nel seguente Teorema di Herglotz: la funzione di covarianza di un processo stazionario in senso lato, X (h) = Cov(Xt , Xt-h), può essere espressa dalla X ( h) cos( h)dF ( ) , ove F() è monotona non decrescente e limitata; se h = f(), e la suddetta rappresentazione diventa: X ( h) cos(h). f ( )d 13 X (h) + allora F() è derivabile, F’() 1 con f X ( ) 2 h X (h).cos h funzione pari, non negativa e tale che f ( )d + . La funzione f X ( ) è denominata “densità spettrale del processo {Xt}”. Ora possiamo enunciare con maggior precisione il teorema di approssimazione : fissato arbitrariamente un 0, per ogni processo {Xt} stazionario in senso lato con funzione di densità spettrale f X ( ) continua è possibile trovare un processo {Yt} generato da un modello p q i 1 j 1 ARMA(p,q), Yt ai .Yt i Zt b j Zt j , tale che la densità spettrale fY ( ) verifichi per ogni (-,) la condizione f X ( ) fY ( ) . Per approfondire l’argomento qui accennato si possono consultare per esempio: 1) W.A.Fuller : Introduction to Statistical Time Series. J.Wiley, 1976. 2) P.J.Brockwell, R.A.Davis : Time Series – Theory and Methods. Springer-Verlag, 1987. 3) L.H.Koopmans : The Spectral Analysis of Time Series. Academic Press, 1974. 14 APPENDICE n. 2. Cenni sulle equazioni alle differenze finite, lineari, con coefficienti costanti, deterministiche Le equazioni alle differenze finite sono equazioni “funzionali”, cioè equazioni nelle quali l’incognita è costituita da una funzione numerica; altri tipi di equazioni funzionali sono le equazioni differenziali, le equazioni integrali e altre ancora. Delle equazioni alle differenze finite, in questa sede si considerano quelle lineari e con coefficienti costanti, che in generale sono del tipo p xt ai .xt i bt . i 1 L’intero p è detto “ordine dell’equazione”; il secondo membro bt è il termine generico di una successione numerica nota Denomineremo “equazione omogenea associata all’equazione p xt ai .xt i bt ” la seguente: i 1 p xt ai .xt i 0 . i 1 Si può provare che: 1) l’equazione omogenea ammette infinite soluzioni, che costituiscono uno spazio lineare di dimensione p (uguale cioè all’ordine dell’equazione); 2) se {s’t} è una qualsiasi soluzione particolare dell’equazione completa e se {s’’t} è la soluzione generale dell’equazione omogenea allora {s’t + s’’t} è la soluzione generale dell’equazione completa. p Si verifica che risolvendo l’equazione caratteristica p ai . p i 0 associata alla i 1 p equazione omogenea xt ai .xt i 0 , che xt tj è una soluzione dell’equazione omogenea, ove i 1 j è la j-ma radice dell’equazione caratteristica. Poiché le soluzioni xt tj , j = 1, 2,………., p , formano una base dello spazio lineare delle soluzioni (se sono linearmente indipendenti), la p soluzione generale dell’equazione omogenea è data dalla combinazione lineare s k j . tj delle " t j 1 soluzioni particolari xt (quando le radici j sono tutte distinte). t j p Per trovare una soluzione particolare st' dell’equazione completa xt ai .xt i bt si possono i 1 impiegare vari metodi (metodo dei coefficienti indeterminati, metodo della riduzione dell’ordine, ecc.) che non è qui il caso di precisare. Trovata una qualunque soluzione particolare st' la somma p st st' st" st' k j . tj fornisce la soluzione generale dell’equazione completa. j 1 Rimane ora soltanto da determinare i coefficienti k j mediante la fissazione di una condizione iniziale per l’equazione di partenza: essendo questa di ordine p si dovranno fissare p valori numerici 15 per p termini successivi della successione incognita. Tipicamente si fisseranno i valori di x p 1 , x p 2 ,......, x1 , x0 e si risolverà il sistema di p equazioni algebriche lineari nelle incognite k j : p st' k j .j x , p 1, p 2,.........,0 . j 1 xt a.xt 1 b 1) Equazione del primo ordine: x0 x*, (condizione iniziale) Metodo ricorsivo di soluzione. t=1 → x1 a.x0 b a.x * b t=2 → x2 a.x1 b a 2 .x * b a.b t=3 …… → x3 a.x2 b a 3 .x * b a.b a 2 .b 1 at t generico → xt a.xt 1 b a .x * b a.b ......... a .b a .x b. a = a .x b. . 1 a h0 t 1 t t t 1 h t Teorema 1: esiste unica la soluzione dell’equazione xt a.xt 1 b che corrisponde a x0 = x* 1 at se a 1 e xt x0 t.b se a 1 . 1 a b b Osservazione 1: se nel caso a 1 è x0 allora è xt (valore di equilibrio). 1 a 1 a 1 at Osservazione 2: nella soluzione xt at .x0 b. , il primo addendo a t .x0 è la soluzione 1 a 1 at dell’equazione omogenea xt a.xt 1 0 , mentre il secondo addendo b. è la soluzione 1 a dell’equazione completa xt a.xt 1 b nel caso x0 0 . (condizione iniziale) il cui termine generale è xt at .x0 b. Osservazione 3: poiché è xt at .x0 b. b 1 at b b , la differenza xt = at . x0 1 a 1 a 1 a 1 a b a t . x0 rappresenta lo scostamento dal valore di equilibrio; esso, al crescere di t, riesce 1 a infinitesimo, costante in modulo o crescente a seconda che sia a 1, a 1, a 1. Teorema 2: per l’equazione alle differenze xt a.xt 1 bt , ove { bt ; t 1 } è una successione nota non costante, esiste unica la soluzione che ha come primo termine x0 (condizione iniziale) e come t 1 termine generale xt a t .x0 a h .bt h . h 0 Metodo standard di soluzione: Ispirandosi all’Osservazione 2, si può costruire la soluzione generale dell’equazione completa trovando prima la soluzione generale dell’equazione omogenea, poi una soluzione dell’equazione completa e combinandole assieme. 16 a) Soluzione generale dell’equazione omogenea xt a.xt 1 0 . 0 0 Ponendo xt t si trova l’equazione caratteristica t a. t 1 t 1.( a) 0 a 1 t che fornisce la soluzione generale dell’equazione omogenea xt k .a ove il valore k è determinato dalla condizione iniziale. b) Occorre ancora trovare una qualsiasi soluzione particolare dell’equazione completa xt a.xt 1 b : poiché il secondo membro è una costante si ponga (per analogia) xt c b . Sommando le due soluzioni ottenute si ha la soluzione 1 a b generale dell’equazione completa (o non omogenea): xt k .a t . 1 a ottenendo c a.c b , da cui c b x * e risolvendo rispetto k 1 a b b t b 1 at t si ottiene k x * , per cui infine si trova xt x * = a .x * b. . .a 1 a 1 a 1 a 1 a c) Utilizzando la condizione iniziale x0 x * si ha: x0 k 2) Equazione del secondo ordine : xt a1.xt 1 a2 .xt 2 b x1 x ', x0 x ", (condizione iniziale) Metodo standard: a) Soluzione generale dell’equazione omogenea xt a1.xt 1 a2 .xt 2 0 . Ponendo xt t si trova l’equazione caratteristica 0 0 a1. a2 . . a1. a2 0 1 2 e le radici significative 1 e 2 forniscono la soluzione generale dell’equazione omogenea nei tre casi seguenti: t t 1 - Radici reali e distinte: t 2 t 2 2 1 ≠ 2 , 1 e 2 R xt k1.1t k2 .2t . - Radici reali coincidenti: 1 = 2 = λ R 17 xt k3 . t k4 .t. t . - Radici complesse coniugate: 1 i. e 2 i. xt k5 .1t k6 .2t . Grazie alla formula di De Moivre, i. .(cos i.sin ) , ove 2 2 e tg θ = β/α , che implica la ( i. )t t .(cos .t i.sin .t ) , la soluzione nel terzo caso si può scrivere xt k5 . t . cos .t i.sin .t k6 . t . cos .t i.sin .t = = t . k7 .cos .t k8 .sin .t ove k7 k5 k6 e k8 i.(k5 k6 ) . Soluzione particolare dell’equazione completa xt a1.xt 1 a2 .xt 2 b . Poiché il secondo membro è una costante, per analogia tentiamo una soluzione del tipo xt c ; b sostituendo tale posizione nell’equazione si ottiene c . ( 1 a1 a2 ) b da cui c . 1 a1 a2 Le soluzioni generali dell’equazione data hanno le tre possibili forme: radici reali e distinte: → xt k1.1t k2 .2t b.(1 a1 a2 ) 1 , radici reali coincidenti: → xt k3 . t k4 .t. t b.(1 a1 a2 ) 1 , radici complesse coniugate: → xt t . k7 .cos .t k8 .sin .t + b.(1 a1 a2 ) 1 Esempio numerico Consideriamo l’equazione alle differenze non omogenea x t + x t-1 –2.x t-2 = 6 ; si tratta di una equazione alle differenze lineare, a coefficienti costanti, del secondo ordine. Ogni sua soluzione è costituita da una successione numerica. La relativa equazione omogenea è la x t + x t-1 –2.x t-2 = 0 e l’equazione caratteristica corrispondente è la 2 2 0 ; risolvendo quest’ultima si trovano le radici 1 1 e 2 2 alle quali corrispondono le successioni xt' 1t 1 e xt" 2t = (-2)t che risolvono l’equazione omogenea (e si potrebbe provare che sono soluzioni linearmente indipendenti). Allora esse costituiscono una base dello spazio lineare delle soluzioni dell’equazione omogenea e ognuna delle infinite soluzioni di quest’ultima è rappresentabile con la combinazione lineare k1.xt' k2 .xt" , ove k1 e k2 sono numeri reali . Dunque, la soluzione generale dell’equazione omogenea è data dalla st" k1.xt' k2 .xt" k1 k2 .(2)t . Per trovare una soluzione particolare dell’equazione completa si possono impiegare vari metodi. Si verifica facilmente che la successione st' = 2.t è una delle soluzioni della x t + x t-1 –2.x t-2 = 6 per cui la soluzione generale dell’equazione completa è rappresentabile secondo la x t = st' st" 2.t k1 k2 .(2)t . 18 Se si specifica una condizione iniziale, cioè i valori di due termini contigui della successione che deve soddisfare l’equazione x t + x t-1 –2.x t-2 = 6 si ottengono i corrispondenti valori per k1 e k2 ; per esempio, ponendo x2 = -1 e x3 = 1 si ricava k1 = -5 e k2 = 0 e quindi la successione numerica che risolve l’equazione completa e che soddisfa le condizioni iniziali è la x t = s’t + s’’t = 2.t – 5 . Si verifica facilmente che la corrispondente successione numerica ha come segmento iniziale x1 7, x0 5, x1 3, x2 1, x3 1, x4 3,............... . Abbiamo considerato finora equazioni alle differenze finite lineari in cui la successione nota bt a secondo membro è costante; accenniamo soltanto per le equazioni del primo ordine al caso in cui questo non accade, cioè al caso in cui l’equazione è xt a.xt 1 bt . L’applicazione del procedimento ricorsivo già adoperato ci porta alla soluzione t xt a t .x0 a t k .bk k 1 sul cui comportamento asintotico (per t ) nulla può però dirsi se bt non viene specificata. Per approfondire l’argomento qui accennato e le nozioni date in questa traccia si può consultare per esempio: 1) A.C. Chiang (1967), Fundamental Methods of Mathematical Economics. McGraw-Hill 2) G.Gandolfo: Metodi di dinamica economica. ISEDI 3) G. Gandolfo: Economic Dynamics. Springer. oppure altri testi e manuali di Economia matematica o di Matematica per economisti. APPENDICE n. 3 Alcune dimostrazioni riguardanti i modelli ARMA Lemma: h = t-1 → h = t-2 → Cov X 0 , Z t 0 Cov X t h , Z t 0 , se h > 0 . Cov X 1 , Z t E X 1 .Z t Ea. X 0 Z1 b.Z 0 .Z t a.E X 0 .Z t E Z1 .Z t b.E Z 0 .Z t 0 se t 1 ; Cov X 2 , Z t E X 2 .Z t Ea. X 1 Z 2 b.Z1 .Z t a.E X 1 .Z t E Z 2 .Z t b.E Z1 .Z t 0 se t2 e cosi via. Equazioni di Yule – Walker. Modello X t a. X t 1 Z t b.Z t 1 con a 1; Z t WN (0, Z2 ) ; Cov X 0 , Z T 0 E ( X t . X t h ) a.E ( X t 1 . X t h ) E (Z t . X t h ) b.E (Z t 1 . X t h ) h = 0 → (0) a. (1) E ( Z t . X t ) b.E ( Z t 1 . X t 1 ) (1 a.b b 2 ). Z2 poiche’ E ( Z t . X t ) EZ t a. X t 1 Z t b.Z t 1 E Z t2 Z2 19 e E ( Z t 1 . X t ) EZ t 1 a. X t 1 Z t b.Z t 1 (a.b b 2 ). Z2 ; h = 1 → (1) a. (0) E ( Z t . X t 1 ) b.E ( Z t 1 . X t 1 ) b. Z2 ; h ≥ 2 → (h) a. (h 1) 0 . Risolvendo le prime due equazioni nelle incognite (0) e (1) si trovano i valori (0) (a b) 2 . Z2 (1 a 2 ) e (1) (a b).(1 a.b). Z2 (1 a 2 ) mentre i valori successivi sono dati dalle (h) a. (h 1) a . (1) a h 1 h 1 (a b).(1 a.b). Z2 . . (1 a 2 ) Esercizio. Ritrovare con le equazioni di Yule – Walker la funzione di covarianza a k . Z2 asintotica per il modello AR(1) con a 1 : (k ) . 1 a2 PARTE II. ANALISI DI REGRESSIONE LINEARE Funzione di regressione Considerati due numeri aleatori (n.a.) Y e X, è detta “funzione di regressione di Y rispetto X” il n.a. E(Y/X) dipendente da X secondo una funzione [cioè E(Y/X) = (X)] determinata dalla distribuzione subordinata di Y rispetto X. I valori del n.a. (X) sono le speranze matematiche condizionate E(Y/X = x) e l’evento {(X) = E(Y/X = x)} ha probabilità P(X = x) quando il n.a. X è discreto [altrimenti ad esso è associata una densità di probabilità f(x)]. Alcune proprietà della funzione di regressione sono le seguenti: 1) E(a.Y + b.Z / X) = a.E(Y/X) + b.E(Z/X) , se a e b sono numeri certi e X, Y e Z sono numeri aleatori ; 2) E[E(Y/X)] = E(Y) ; 3) E[Y.(X) / X] = (X).E(Y/X) ; 4) E(Y/X) = E(Y) , se i numeri aleatori X e Y sono stocasticamente indipendenti ; 5) E[E(Y/X) / X,Z] = E[E(Y / X,Z) / X] = E(Y/X) ; 6) E[Y – E(Y/X)]2 E[Y - (X)]2 per ogni funzione reale (.) tale che E[(X)]2 . Una definizione assiomatica di funzione di regressione E(Y/X) è la seguente: essa è quel numero aleatorio dipendente da X che verifica la condizione E Y E Y / X . f ( X ) 0 per ogni funzione f (.) per la quale esista la speranza matematica a primo membro. La nozione di funzione di regressione è fondamentale nella teoria e calcolo delle probabilità; è il caso di osservare che in lingua inglese E(Y/X) è detta “conditional expectation”, ma con lo stesso nome si indicano anche i suoi possibili valori E(Y/X=x) e ciò può ingenerare fraintendimenti. In 20 questi appunti indicheremo con il nome di funzione di regressione il numero aleatorio E(Y/X) e con quello di valor medio condizionato le possibili determinazioni E(Y/X=x) di E(Y/X) che sono numeri certi. Un esempio di funzione di regressione. Con riferimento ad un unico lancio di un dado regolare si considerino il numero aleatorio N che individua il numero uscito nel lancio e l’indicatore D dell’evento D = “Esce un numero dispari”, cioè il n.a. che vale 1 se esce uno dei tre risultati 1, 3, 5 e che vale 0 se esce uno dei tre risultati 2, 4, 6. Se si è convinti che il lancio del dado è fatto senza trucchi è plausibile che si assegni probabilità 1/6 ad ognuno dei sei risultati possibili; in questo caso si ha anche P(D) = ½ . La distribuzione di probabilità congiunta dei n.a. D ed N è la seguente N 1 2 D 1/ 6 D 0 3 4 5 6 0 1/ 6 0 1/ 6 0 1/ 6 0 1/ 6 0 1/ 6 in quanto, per esempio, l’evento [(N = 1) D] coincide con (N = 1) (si ricordi che (N = 1) implica D), per cui è P[(N = 1) D] = P(N = 1) = 1/6 ed inoltre l’evento [(N = 1) D ] è impossibile, per cui è P[(N = 1) D ] = 0. La distribuzione condizionata di N all’evento D , cioè al verificarsi di un numero pari, assegna evidentemente una probabilità pari a 1/3 ai valori 2, 4 e 6 e probabilità nulla ai rimanenti; similmente la distribuzione condizionata di N all’evento D, cioè al verificarsi di un numero dispari, assegna la probabilità 1/3 ai valori 1, 3, 5 e la probabilità nulla ai rimanenti. Di conseguenza, per le speranze matematiche condizionate di N a ciascuno dei due eventi D e D si ha: E(N/ D ) = (2 + 4 + 6) . 1 =4 3 e E(N/ D ) = (1 + 3 + 5) . 1 =3. 3 In questo esempio, la funzione di regressione di N rispetto all’indicatore D , indicata con E( N / D ) , è il numero aleatorio dipendente da D che assume il valore 4 , cioè E(N/ D ) , se D = 0 (evento di probabilità ½) ed il valore 3 , cioè E(N/ D ) , se D = 1 (evento di probabilità ½) . Avendo perciò specificato i valori possibili del n.a. E( N / D ) e le corrispondenti probabilità, esso è compiutamente noto. Si osservi infine che risulta E[ E( N / D ) ] = 4 . ½ + 3 . ½ = 3.5 = E( N ) . Lasciando al lettore i facili calcoli, ci limitiamo ad affermare che la funzione di regressione dell’indicatore D rispetto ad N, E( D / N ) , è il n.a. che assume valore 1 quando N assume valori dispari e 0 quando N è pari ; ovviamente, risulta E [E( D / N ) ] = ½ = P (D) . Un altro esempio di funzione di regressione 21 Supponiamo che due n.a. X e Y abbiano una distribuzione congiunta di tipo normale bivariato con valori medi E(X) ed E(Y), varianze V(X) e V(Y) e covarianza Cov(X,Y) = c ; si prova che le due distribuzioni condizionate sono entrambe normali univariate con parametri espressi dalle: c . y E (Y ) V (Y ) ; V ( X / Y y) V ( X ) c . x E ( X ) V (X ) ; V (Y / X x) V (Y ) f ( x / y) E ( X / Y y) E ( X ) f ( y / x) E (Y / X x) E (Y ) c2 . V (Y ) c2 . V (X ) Poiché i primi momenti di queste densità subordinate sono i possibili valori delle corrispondenti funzioni di regressione, si ha: c c ; E( X / Y ) E( X ) .Y E (Y ) E (Y / X ) E (Y ) . X E ( X ) . V (Y ) V (X ) Modelli di regressione lineare Operativamente, l’analisi di regressione viene usata per studiare l’influenza del n.a. X sul valor medio di Y; se si volesse analizzare l’influenza di X su Y bisognerebbe far ricorso alla distribuzione subordinata di Y rispetto X, la qual cosa risulta decisamente più impegnativa (si consideri che i valori della funzione di regressione sono i momenti primi delle distribuzioni subordinate di Y rispetto ai possibili valori di X: nell’analisi di regressione gli altri infiniti momenti di quelle distribuzioni dunque non intervengono !). Nelle applicazioni concrete, il più delle volte non si ha nessuna idea sulla forma funzionale della funzione di regressione E(Y/X) = (X) per cui è necessario introdurre un’ipotesi di lavoro per : ogni ipotesi su tale forma funzionale (per esempio (X) = . ln X , oppure (X) = exp{-a.X}, oppure (X) = . X . X 2 ,………..) costituisce un modello di regressione. Il modello di gran lunga più usato per la sua semplicità è quello di regressione lineare (affine) E(Y/X) = 0 1 . X . Una forma equivalente dello stesso modello lineare è Y 0 1 . X U , ove U = Y – E(Y/X) ; utilizzando le suddette proprietà della funzione di regressione si prova che risulta E(U) = 0 e Cov (U , X) = 0 . Si osservi che mentre Y e X sono variabili osservabili, non lo è la variabile U. La stima dei parametri del modello di regressione, 0 , 1 e Var (U ) U2 , si effettua con uno dei procedimenti statistici di stima puntuale: il metodo di massima verosimiglianza, il metodo dei minimi quadrati, etc. Nel seguito useremo il secondo dei due, e cioè il metodo dei minimi quadrati, che ora brevemente richiamiamo. Supponendo di poter conoscere i valori di T coppie di variabili osservabili ( X t , Yt ) e avendo introdotto per esse il modello di regressione lineare Yt 0 1 . X t U t , t = 1,……….,T , accompagnato dall’ipotesi abituale U t WN (0, U2 ) , si stimano i due coefficienti, 0 e 1 , con quei valori numerici che rendono minima la funzione T f ( 0 , 1 ) ( yt 0 1.xt ) 2 ; t 1 22 si prova che i valori che annullano le due derivate parziali di f ( 0 , 1 ) sono le coordinate del punto di minimo. La condizione di annullamento delle due derivate parziali può essere espressa con notazione matriciale dalla ( M '.M ). M '. y ove 1 x1 1 x 2 ; M (1, X ) 1 xT se M ha caratteristica massima, e cioè 2, si ottiene la soluzione 0 ( M '.M ) 1.M '. y . 1 Si prova che gli stimatori B0 e B1 dei due coefficienti 0 e 1 sono lineari, corretti, consistenti, sufficienti e i più efficienti tra tutti gli stimatori lineari e corretti. Si ottiene così la retta di regressione stimata Y 0 1 . X . La correttezza è dimostrata in appendice. Se il modello di regressione lineare affine contiene k 1 variabili esplicative (e si parla allora di modello di regressione multipla in contrapposizione col precedente che è detto di regressione k semplice) e cioè se risulta Yt 0 j . X tj U t , l’espressione del vettore di stime OLS per i j 1 coefficienti j è ancora quella vista sopra e cioè ( M '.M ) 1.M '. y ove ora la matrice M ha k+1 colonne ed è supposta avere caratteristica massima (e cioè k+1, nell’ipotesi che sia T k+1). Per quanto riguarda la stima della varianza incognita U2 comune a tutte le perturbazioni aleatorie U t (ipotesi di omoscedasticità) il metodo OLS non è in grado di fornire alcun valore; supponendo che le perturbazioni abbiano distribuzione normale, cioè che U t metodo di massima verosimiglianza fornisce lo stimatore U2 NWN (0, U2 ) , il k 1 T . (Yt 0 j . X tj )2 che si T t 1 j 1 dimostra essere consistente. Ricordiamo a questo punto la proprietà di consistenza di uno stimatore ST (costituito da una qualche funzione di T variabili osservabili) di un qualche parametro incognito θ: ST è consistente se p-lim ST = θ al divergere di T. Il significato della condizione p-lim ST = θ è il seguente: fissato arbitrariamente un ε > 0, accade che lim Pr ST 0 per T . In termini discorsivi, uno stimatore è consistente se al crescere del numero T delle variabili osservabili diminuisce la probabilità di commettere errori di stima maggiori di ε in modulo. Si osservi che ciò che diminuisce al crescere dell’informazione campionaria (rappresentata dal numero T delle osservazioni) non è l’errore di stima, ma la probabilità che l’errore ST sia maggiore di ε ! Alcune proprietà concernenti il modello di regressione lineare semplice e gli stimatori OLS dei coefficienti. 23 Enunceremo alcuni risultati che si riveleranno utili nel seguito. Si verifica facilmente che la retta di regressione stimata Y 0 1 . X contiene il punto ( x, y ) le cui coordinate sono le medie aritmetiche dei valori osservati. Per quanto concerne i residui U t yt y t yt 0 1 .xt sussistono le relazioni seguenti, T facilmente dimostrabili: U 0; t T U t 1 t 1 t .xt 0 ; T (y t t 1 T y t ).( y t y ) U t .( y t y ) 0 . t 1 B 3) Si prova che lo stimatore vettoriale B 0 ( M '.M )1.M '.Y ha vettore medio E( B ) = B1 (cioè B è uno stimatore corretto, o non distorto) e matrice di dispersione Cov ( ) = .( M ' M ) 2 U 1 , essendo 2 U = Var ( U t ) . Se si assume che il vettore delle perturbazioni aleatorie U abbia una distribuzione congiunta normale N (0; U2 .I T ) , riesce B N ( ; U2 .( M ' M ) 1 ) . Si prova inoltre che lo stimatore OLS B ( M '.M ) 1.M '.Y coincide con lo stimatore di massima verosimiglianza per il vettore dei coefficienti di regressione nell’ipotesi U N (0; U2 .I T ) . T t 1 T T (Yt Y ) 2 (Yt Y t ) 2 (Y t Y ) 2 ed il In forza dell’ultima proprietà del punto 2) risulta t 1 t 1 rapporto (Y t Y ) 2 / (Yt Y ) 2 , indicato con il simbolo R 2 e denominato indice di determinazione , viene usato come indice di affidabilità del modello di regressione stimato nel senso che quanto più prossimo ad 1 risulta essere R 2 , tanto più affidabile è ritenuto il modello stimato . Si noti che la definizione data di R 2 è valida anche per i modelli di regressione multipla. Sussiste un’interessante rappresentazione geometrica delle stime OLS di un modello di regressione lineare: scrivendo il sistema di equazioni Yt 0 1 . X t U t , t = 1,……….,T , come Y M . U si consideri la totalità L = { b0 .1 b1. X ; b0 , b1 R } dei vettori che sono combinazioni lineari delle due colonne di M . Poiché in genere il vettore Y non appartiene allo spazio lineare L , si può considerare il vettore “proiezione ortogonale di Y su L “ , nel seguito indicato con Y . Esso è definito da due proprietà: Y L e Y Y L (da intendersi come: Y Y ortogonale ad ogni vettore di L ) e coincide, come afferma il “principio di ortogonalità”, con l’elemento di L a minima distanza da Y ( la distanza di un qualunque elemento di L , b0 .1 b1 . X , da Y è espressa dalla (Yt b0 b1 . X t ) 2 t 1/ 2 ). Si prova facilmente che è Y 0 .1 1 . X M . , cioè che le stime dei minimi quadrati dei 24 coefficienti di regressione 0 e 1 sono i pesi della combinazione lineare delle due colonne di M che esprime il vettore Y . Riteniamo utile approfondire questa rappresentazione geometrica nel prossimo paragrafo; si capirà anche perché il metodo di stima dei minimi quadrati (o dei minimi quadrati ordinari, indicato brevemente col simbolo OLS) è anche denominato “metodo di minima distanza”. Su una rappresentazione geometrica per modelli di regressione lineare . La seguente rappresentazione geometrica avrà luogo nello spazio ambiente R T delle sequenze ordinate di T numeri reali. In esso la lunghezza (o norma) di un vettore z ( z1 ,........, zT ) ' è definita dalla z ( zt2 )1/ 2 ; la distanza tra due vettori z e v è definita dalla d( z , v ) = ( ( zt vt )2 )1/ 2 ; t la condizione di ortogonalità tra z e v è espressa dalla z .v t t t 0 ed infine la misura t dell’angolo tra z e v è data dalla cos( ) zt .vt ( zt2 )1/ 2 .( vt2 )1/ 2 . Con riferimento al sottospazio L ={ 0 .1 1. x ; 0 , 1 R } di R T dimostreremo ora il cosiddetto “principio di ortogonalità” il cui enunciato può essere espresso al modo seguente: Teorema: considerato un qualunque vettore y di RT , il vettore di L a minima distanza da esso coincide con la proiezione ortogonale di y su L , y . Dimostrazione: le proprietà caratteristiche di y sono 1) y L e 2) y y L ; per la 1) si può scrivere y = 0 .1 1. x e per la 2) la differenza y y y 0 .1 1. x dev’essere ortogonale ai due generatori di L e cioè i vettori 1 e x . Queste due ultime condizioni di ortogonalità sono espresse dalle stesse equazioni che si ottengono uguagliando a 0 le derivate parziali rispetto a 0 e 1 della funzione f ( 0 , 1 ) = T (Y t 1 t 0 1. X t ) 2 e cioè : T .0 1. xt yt e 0 . xt 1. xt2 xt . yt le cui soluzioni sono le già note stime dei minimi quadrati 0 e 1 . Quindi si può concludere affermando che riesce y = 0 .1 1 . x . La T dimostrazione del principio di ortogonalità si consegue notando che la funzione (y t 1 t 0 1.xt ) 2 esprime il quadrato della distanza tra y e il generico vettore 0 .1 1. x del sottospazio L e che l’elemento di L a distanza minima da y è 0 .1 1 . x M . . 25 Osservando che Y M . M ( M '.M ) 1 .M '.Y , si ricava che la matrice P M (M '.M ) 1 .M ' è la “matrice di proiezione ortogonale di vettori di R T sul sottospazio L”. Essa definisce un’applicazione lineare di R T in L che può essere denominata “proiettore ortogonale su L”. Inoltre, si prova facilmente che sussistono le uguaglianze P P 2 P' . La proiezione ortogonale di y su L determina la seguente decomposizione ortogonale del vettore y : y = y + ( y y) y U e importa notare che sussiste la seguente generalizzazione del teorema di Pitagora 2 2 2 y y U . Si osservi infine che è : R 2 2 2 ( yt y)2 / ( yt y)2 = y / y . Approssimazioni lineari dei minimi quadrati per numeri aleatori. La rappresentazione geometrica per vettori T-dimensionali di numeri reali che abbiamo presentato nel paragrafo precedente si può riproporre per numeri aleatori e vettori di numeri aleatori; è quello che si vedrà in questo paragrafo. Si consideri lo spazio lineare S (di dimensione infinita) dei numeri aleatori X, Y, Z, …… che supponiamo dotati di speranza matematica nulla e momento secondo finito. Sia X il n.a. di interesse per il quale si voglia costruire una stima (o previsione o approssimazione) in termini di una qualche funzione dei n.a. Y1 ,........., Yn costituenti il vettore aleatorio Y. Se non si introducono vincoli particolari per la funzione (Y) stimatore, eccetto quello E[(Y)]2 , si prova che la funzione ottimale, nel senso dei minimi quadrati, è la funzione di regressione E( X/Y ) ; formalmente, per ogni ammissibile funzione (.) si ha : E X E ( X / Y ) E X (Y ) . 2 2 Se per (Y) si impone il vincolo di linearità , cioè se si assume che (Y) sia una funzione n lineare, .Y j 1 j j , dei n.a. Y1 ,........., Yn , si devono trovare gli n coefficienti j , j = 1,…….,n , per i quali risulta: 2 2 E X j .Y j E X j .Y j j j in corrispondenza ad ogni n-pla 1 ,........., n di numeri reali. 26 Si dimostra facilmente che il vettore dei coefficienti ottimali è dato da = [Cov(Y)] -1. E(X.Y) sotto la condizione che la matrice di dispersione di Y sia invertibile (il che accade se i n.a. Yj sono linearmente indipendenti). Per dimostrarlo si tratta di porre uguali a 0 le derivate parziali rispetto ad ogni j di 2 E X j .Y j : il sistema lineare che si ottiene ha l’espressione Cov (Y) . = E( X.Y ) e la j sua soluzione è unica se Cov (Y) è invertibile . Il previsore ( o stimatore o approssimatore ) lineare ottimale per X è allora X (Y1 ,........., Yn ).Cov(Y ) .E ( X .Y ) . 1 Tale numero aleatorio ha un’interessante interpretazione geometrica: X coincide con la proiezione ortogonale , P ( X / L) ,di X sul sottospazio lineare L di S generato dai n.a. Y1 ,........., Yn . Per attribuire un significato preciso a tale proposizione è necessario introdurre le seguenti definizioni: in S la lunghezza (o norma) del vettore geometrico associato ad un n.a. Z è definita 1/ 2 1/ 2 dalla Z Var (Z ) ; la distanza tra due n.a. Z e V è definita dalla d(Z,V) = Var ( Z V ) ; la condizione di ortogonalità tra Z e V è espressa dalla E( Z.V ) = 0 ( poiché E(Z) = E(V) = 0, Z e V sono ortogonali se Cov(Z,V) = 0 ). La suddetta interpretazione geometrica di X si consegue applicando il “principio di ortogonalità” il cui enunciato in questo caso stabilisce che considerato un qualunque n.a. X di S, il n.a. di L a minima distanza da esso coincide con la proiezione ortogonale di X su L quando si osservi che 2 E X j .Y j esprime il quadrato della distanza tra X ed il generico elemento del sottospazio L j . Importa osservare che mentre l’utilizzazione dell’approssimatore ottimale di X , costituito dalla funzione di regressione E(X/Y), richiede la conoscenza della distribuzione congiunta F( x, y1 ,........, y n ) dei n.a. considerati, o almeno della distribuzione subordinata F( x / y1 ,........, y n ) , la costruzione dell’approssimatore lineare ottimale di X, costituito dal n.a. X P( X / L) , richiede la conoscenza (o meglio la specificazione) dei soli momenti del primo e secondo ordine dei n.a. X , Y1 ,........, Yn . Una seconda osservazione rilevante è che per le distribuzioni implicanti una funzione di regressione E(X/Y) lineare negli elementi di Y accade che gli approssimatori E(X/Y) e X P( X / L) coincidono ; le distribuzioni più note aventi questa caratteristica sono quella normale e quella Student – t multivariate. APPENDICE: ALCUNE DIMOSTRAZIONI Proprietà dello stimatore vettoriale OLS B per i coefficienti di regressione. 1) Correttezza di B . 27 Indicato con B = (M’.M)–1.M’. Y lo stimatore del vettore dei coefficienti di un modello di regressione lineare, ove la matrice M, e quindi anche (M’.M)–1.M’, è considerata nota, e ricordando che è Y = M. + U si ha : B = (M’.M)–1.M’M. + (M’.M)–1.M’ U = + (M’.M)–1.M’ U . E’ allora: E( B ) = E[(M’.M)–1.M’ Y ] = E{ + (M’M)–1.M’ U } = E( ) + (M’M)–1.M’.E( U ) = , poiché il parametro vettoriale incognito non è considerato aleatorio per cui è E( ) = , mentre per ipotesi è E( U ) = 0 . 2) Momenti secondi di B . Indicando con Cov ( B ) la matrice di dispersione, o matrice dei momenti secondi, dello stimatore vettoriale B , per definizione è Cov ( B ) = E { [ B - E( B )] . [ B - E( B )]’ }= E { [ B - ] . [ B - ]’}. Poiché, come visto sopra, è B - = (M’.M)–1.M’ U otteniamo le: Cov ( B ) = E { [ B - ] . [ B - ]’} = E { [(M’.M)–1.M’ U ] . [(M’.M)–1.M’ U ] ‘} = –1 –1 = E { (M’.M) .M’ U . U ’M. (M’.M) } = (M’.M) .M’. E ( U . U ’) . M. (M’.M)–1 . –1 Le ipotesi sul vettore di perturbazioni U determinano la E ( U . U ’) = .I N per cui si ha: 2 U Cov ( B ) = U2 .(M’.M)–1 . Se il modello di regressione lineare è semplice, cioè se esiste un’unica variabile esplicativa, e se si dispone di N osservazioni sulla variabile dipendente Yt e sulla variabile esplicativa Xt allora la matrice M ha due sole colonne e la matrice (M’.M)–1 ha l’espressione: –1 (M’.M) N = x t t x x t t 1 xt2 1 = . t 2 2 t xt N . xt2 xt t t t t xt . t N Moltiplicando per U2 questa matrice si ottiene Cov ( B ) per l’esempio considerato. Poiché però il valore di 2 U non è noto bisognerà sostituirlo con un valore di stima, solitamente 2 1 . y t 1 2 .xt N 2 t 28 PARTE III. MODELLI ECONOMETRICI AD EQUAZIONI SIMULTANEE L’ econometria è la disciplina il cui scopo principale è quello di fornire rappresentazioni quantitative delle relazioni tra le variabili economiche, utilizzabili usualmente a scopo applicativo (per esempio a fini previsionali). Un modello economico è una rappresentazione semplificata del fenomeno economico di interesse che assume il più spesso la forma di un sistema di equazioni e che mira ad evidenziare le sue caratteristiche qualitative essenziali. C (t ) a b.Y (t ), 0 b 1; Esempio di modello macroeconomico: I (t ) c d .Y (t 1) e.R(t ); Y (t ) C (t ) I (t ) G(t ). ove C(t) = consumo aggregato, Y(t) = produzione aggregata, I(t) = investimento aggregato, R(t) = tasso di interesse, G(t) = spesa della pubblica amministrazione in beni e servizi. La specificazione di un modello come il precedente richiede che si precisi quali variabili osservabili sono da considerarsi endogene e quali esogene : per il modello indicato assumeremo che le variabili endogene siano C(t), I(t) e Y(t) e che invece G(t) ed R(t) siano esogene. Il suddetto modello è chiaramente lineare, completo (tante equazioni quante le variabili endogene) e dinamico (almeno una delle variabili, Y(t-1), è riferita ad un’epoca diversa da quella corrente t). Le prime due equazioni sono dette equazioni “di comportamento”, l’ultima è una “condizione di equilibrio”; altri tipi di equazioni possono essere “equazioni di definizione”, “equazioni tecniche”, etc.). Un modello econometrico: mira a “raccordare” il modello economico con il fenomeno reale attraverso l’introduzione, nelle equazioni di comportamento, di variabili atte a rappresentare cumulativamente l’influenza sulle variabili endogene di tutti i fattori trascurati dal modello. Le nuove variabili, denominate “perturbazioni” o “errori” o “disturbi”, sono numeri aleatori (cioè numeri non noti e non osservabili) per i quali si richiede una qualche specificazione probabilistica. Indicando le perturbazioni aleatorie con U(t) e V(t), la versione econometrica del modello su esposto è la seguente: C(t) = a + b.Y(t) + U(t), 0 b 1, I(t) = c + d.Y(t-1) + e.R(t) + V(t), Y(t) = C(t) + I(t) + G(t). La più frequente specificazione probabilistica per le perturbazioni si limita ad assumere che sia: E [U(t)] 0, Var [U(t)] 2u , E [V(t)] 0, Var [V(t)] 2v , Cov [U(s),V(t)] 0 se s t , Cov [U(s),U(t)] 0 ; Cov [V(s),V(t)] 0 ; Cov [U(t),V(t)] . I tre parametri diversi da zero, U2 , V2 e , come anche i coefficienti a, b, c, d, e , non sono in generale noti e devono essere stimati con procedimenti statistici di vario tipo (metodi dei minimi 29 quadrati ordinari, dei minimi quadrati indiretti, dei minimi quadrati a due stadi, di massima verosimiglianza, etc.). Da un punto di vista formale si può pensare il suddetto modello econometrico come un “trasformatore” il cui input è costituito dalle sequenze {R(t)},{G(t)}, {U(t)}, {V(t)} e il cui output è costituito dalle sequenze {C(t)}, {I(t)} e {Y(t)} . Dal momento che {U(t)} e {V(t)} sono famiglie di numeri aleatori, cioè processi stocastici, saranno aleatorie anche le tre sequenze dell’output; inoltre, poiché la specificazione probabilistica delle perturbazioni su menzionata riguarda solo i momenti fino al secondo ordine, per le sequenze dell’output si potranno corrispondentemente determinare i soli momenti del primo e secondo ordine (cioè valori medi, varianze e covarianze). Si è detto che il modello presentato è dinamico a causa della presenza di Y(t-1): esso può quindi fornire le traiettorie temporali delle tre variabili endogene in corrispondenza ad ogni fissata traiettoria delle variabili esogene G(t) ed R(t) . A rigore, poiché trattasi di un modello stocastico, esso può fornire le funzioni “valor medio” (che raccoglie i valori medi) e di “covarianza” (che raccoglie le varianze e le covarianze) per ciascuno dei tre processi stocastici {C(t)}, {I(t)} e {Y(t)}. Per ottenerle bisogna risolvere opportune “equazioni alle differenze finite” ricavate dal modello su esposto nel modo che vedremo. Distingueremo per i modelli dinamici (e lineari) la “forma strutturale” (costituita nel nostro esempio dalle tre equazioni su riportate) , la “forma ridotta” (che esprime ogni variabile endogena in funzione di sole variabili esogene, perturbazioni e variabili endogene ritardate rispetto al periodo corrente t) e la “forma finale” ( costituita appunto da equazioni alle differenze finite). In questa introduzione ci limitiamo ad indicare la forma ridotta del suddetto modello: C(t) = (1-b)-1.{[a + b.c.Y(t-1) + b.d.R(t) + b.G(t)] + [U(t) +b.V(t)]} ; I(t) = c.Y(t-1) + d.R(t) + V(t) ; Y(t) = (1-b)-1. {[a + c.Y(t-1) + d.R(t) + G(t)] + [U(t) + V(t)]} . 30 Dal modello economico (deterministico) al modello econometrico (stocastico). 1) Modello reddito - spesa (o del moltiplicatore) in versione statica. Forma strutturale: Forma ridotta: C(t) = a + b.Y(t) , Y(t) = C(t) + Z(t) . C(t) = + .Z(t) , = a / (1-b) , Y(t) = + .Z(t) , ove = b / (1-b) , = 1 / (1-b) . I valori C(t) e Y(t) espressi dalla forma ridotta sono interpretabili come livelli di equilibrio corrispondenti al valore assunto dalla variabile esogena Z(t). Se si devono stimare i parametri a e b (e , , ) sulla base di valori osservati {c(t), y(t) ; t = 1, 2, ........., T} il suddetto modello va “raccordato” con il (complicato) fenomeno reale tenendo conto, in qualche modo, dei fattori non considerati dal modello: il modo più semplice è quello di riassumere il loro effetto globale sulle variabili endogene mediante perturbazioni aleatorie. La versione econometrica è la seguente: Forma strutturale: C(t) = a + b.Y(t) + U(t) , Y(t) = C(t) + Z(t) , E[U(t)] 0, Var[U(t)] 2 , Cov[U(s),U(t)] 0 . Forma ridotta: C(t) = + .Z(t) + W(t) , Y(t) = + .Z(t) + W(t) , ove W(t) = U(t) / (1-b) = .U(t) . Le variabili endogene C(t) e Y(t), essendo funzioni lineari delle variabili aleatorie W(t), sono anch’esse quantità aleatorie per le quali riesce possibile soltanto una valutazione probabilistica: dal momento che è E[W(t)] = 0 e Var[W(t)] = 2.Var[U(t)] si ottiene E[C(t)] = + .Z(t) , E[Y(t)] = + .Z(t) , Var[C(t)] = Var[Y(t)] = 2.Var[U(t)] . 2) Una versione dinamica del modello reddito – spesa. Forma strutturale: C(t) = a + b.Y(t-1) + U(t) , Y(t) = C(t) + Z(t) , E[U(t)] 0 , Var[U(t)] 2 , Cov[U(s),U(t)] 0 . Forma ridotta: C(t) = a + b.Y(t-1) + U(t) , Forma finale: C(t) = a + b.C(t-1) + b.Z(t-1) + U(t) , Y(t) = a + b.Y(t-1) + Z(t) + U(t) . Y(t) = a + b.Y(t-1) + Z(t) + U(t) . Le due equazioni della forma finale sono equazioni alle differenze finite del primo ordine, lineari, con coefficienti costanti, stocastiche. Le loro soluzioni, fissate che siano due condizioni iniziali (per esempio C(0) = c e Y(0) = y) e supponendo nota la successione dei valori {Z(t); t 0} dell’unica variabile esogena, sono due processi stocastici {C(t); t 1} e {Y(t); t 1} definiti dalle: t t i 1 i 1 t t i 1 i 1 C (t ) bt .c bt i .si bt i .U (i ) , ove s i a b.Z (i 1) ; Y (t ) bt . y bt i .ri bt i .U (i ) , ove ri a Z (i) . 31 Tenendo presenti le specificazioni stocastiche per le perturbazioni U(t) nella forma strutturale, si possono facilmente ottenere le due funzioni valor medio e le due funzioni di covarianza per i due processi. In particolare, le funzioni valor medio hanno le espressioni seguenti: t E[C(t)] = bt .c bt i .si ; i 1 t E[Y(t)] = bt . y bt i .ri . i 1 Un problema importante sul piano teorico riguarda l’eventuale convergenza di tali funzioni al divergere di t. Supponendo che le due successioni numeriche note { rt } ed { st } siano costanti nel tempo, il che accade se {Z(t)} è costante (per esempio identicamente uguale a z), si ha che condizione sufficiente per la convergenza è che sia -1 b 1 ; i due limiti, per t , hanno le espressioni: lim E[C(t)] = s / (1-b) = (1-b)–1.(a + b.z) ; lim E[Y(t)] = r / (1-b) = (1-b)–1.(a + z) . 3) Il modello moltiplicatore - acceleratore di P. Samuelson. Nelle intenzioni di P. Samuelson, l'obiettivo del modello era quello di illustrare il fatto che un andamento approssimativamente ciclico delle variabili endogene C(t), I(t), Y(t) poteva manifestarsi, anche se la variabile esogena G(t) rimaneva costante nel tempo, in corrispondenza ad opportuni valori dei parametri b e c . Forma strutturale: C(t) = b.Y(t-1) + U(t) , I(t) = c[C(t) - C(t-1)] + V(t) , Y(t) = C(t) + I(t) + G(t) . Forma ridotta: C(t) = b.Y(t-1) + U(t) , I(t) = b.c.[Y(t-1) - Y(t-2)] + [c.U(t) - c.U(t-1) + V(t)] , Y(t) = b.(1 + c).Y(t-1) - b.c.Y(t-2) + G(t) + [(1 + c).U(t) - c.U(t-1) + V(t)] . Forma finale: C(t) - b.(1 + c).C(t-1) + b.c.C(t-2) = b.G(t-1) + W1 ( t) , I(t) - b.(1 + c).I(t-1) + b.c.I(t-2) = b.c.[G(t-1) - G(t-2)] + W2 ( t) , Y(t) - b.(1 + c).Y(t-1) + b.c.Y(t-2) = G(t) + W3 ( t) , ove, come facilmente si verifica, le tre perturbazioni aleatorie Wi ( t), i = 1,2,3 , sono combinazioni lineari dei valori correnti e ritardati delle U(t) e V(t) , aventi quindi valor medio nullo. Le equazioni della forma finale sono equazioni alle differenze finite del secondo ordine, lineari, con coefficienti costanti, stocastiche. Le soluzioni delle singole equazioni corrispondenti a fissate condizioni iniziali (per esempio, valori numerici assegnati per due periodi successivi per ogni variabile endogena) e ad un fissato “sentiero temporale” per G(t) sono processi stocastici {C(t)}, {I(t)} e {Y(t)} per i quali si possono determinare la funzione valor medio e quella di covarianza se per le perturbazioni aleatorie {U(t)} e {V(t)} si è fatta una specificazione probabilistica al livello dei momenti del primo e secondo ordine (cioè mediante valori medi, varianze e covarianze). Dunque, fissati che siano il “sentiero temporale” per tutte le variabili esogene e le condizioni iniziali per le variabili endogene, un modello economico, dinamico e stocastico “trasforma” le funzioni valor medio e le funzioni di covarianza delle perturbazioni aleatorie nelle funzioni valor medio e di covarianza dei processi stocastici delle variabili endogene. 32 In alternativa alla risoluzione di ciascuna equazione alle differenze finite con il metodo tradizionale, è possibile procedere al modo seguente: rappresentato il modello di Samuelson in forma vettoriale, B0 . yt B1. yt1 C.x t et , e cioè 0 0 C(t) 0 0 b C(t - 1) 0 1 U(t) c 1 0. I(t) c 0 0 . I(t - 1) 0 .G(t) = V(t) , 1 1 1 Y(t) 0 0 0 Y(t - 1) 1 0 si ricava la forma ridotta trovando la matrice inversa B-10 e moltiplicando per essa, a sinistra, i due membri dell'uguaglianza, ottenendo così l'espressione y t B-1o . B1 . y t 1 B-10 . C. x t B-10 . e t = 1. yt1 2 .x t t . Si tratta di una equazione vettoriale alle differenze del primo ordine nella successione incognita di vettori { y t }, lineare, a coefficienti costanti, stocastica; fissata una condizione iniziale (per esempio y0 y *) e un sentiero temporale per { x t } si determina il processo stocastico vettoriale t 1 t 1 h 0 h 0 y t 1t . y * 1h .2 .x th 1h . th per il quale la funzione valor medio ha l'espressione t 1 E(y t ) 1t . y * 1h . 2 .x th . h 0 Le matrici 1h .2 contengono i moltiplicatori “d’impatto” (h = 0) ed i moltiplicatori “ritardati” di h periodi (h 0) : l’elemento ij in esse indica la variazione dell’ i-ma variabile endogena nel periodo t-mo causata da una variazione unitaria (e di durata unitaria) nella j-ma variabile esogena avvenuta nel periodo t-h . Addizionando più moltiplicatori ritardati, per esempio quelli relativi da h = fino ad h = n si ottengono i moltiplicatori “interim” che forniscono la variazione dell’ i-ma variabile endogena nel periodo t-mo determinata da una variazione unitaria nella j-ma variabile esogena durata n periodi. Se la suddetta somma dei moltiplicatori ritardati converge ad un limite finito al divergere di n tale limite è denominato “moltiplicatore asintotico”. Problema di T. Haavelmo : stima della propensione al consumo nel modello reddito–spesa statico; metodo di stima ILS (indirect least squares). Si afferma che con la risoluzione di questo problema ha avuto inizio l’Econometria come disciplina distinta dalla Statistica o dalla Statistica economica. L’economista scandinavo T. Haavelmo ha ricevuto il premio Nobel per l’Economia nell’anno 1946 (?). Con riferimento al modello econometrico reddito – spesa nella versione statica C(t) = a + b.Y(t) + U(t) , Y(t) = C(t) + Z(t) si supponga che i parametri a e b siano incogniti; per la loro stima si potrebbe pensare di applicare il metodo di stima dei minimi quadrati (OLS Ordinary Least Squares) all’equazione lineare della forma strutturale C(t) = a + b.Y(t) + U(t) . 33 Denotando con c*(t ) e y*(t ) gli scarti dei valori osservati c(t) e y(t) dalle medie aritmetiche c e, rispettivamente, y si ha che b , la stima OLS del coefficiente b (propensione marginale al consumo), è data dal rapporto T b= T c *(t ). y *(t ) [ y *(t )] t 1 2 . t 1 Si dimostra che questo stimatore non è corretto e neanche consistente, per cui esso non è affidabile dal punto di vista statistico. Un’altra possibilità è quella di applicare il metodo OLS alle equazioni della forma ridotta per la stima dei parametri e , oppure di e : per quanto riguarda, in particolare, le stime dei coefficienti angolari e si ha: = T T c *(t ).z *(t ) [ z *(t )]2 t 1 e T y *(t ).z *(t ) t 1 t 1 T [ z *(t )] 2 . t 1 Si dimostra che questi stimatori sono invece entrambi corretti e consistenti e perciò affidabili. Il metodo di stima dei minimi quadrati indiretti (ILS Indirect Least Squares) consiste nella determinazione delle stime dei parametri a e b della forma strutturale del modello a partire da quelle dei parametri , e della forma ridotta. Per quanto riguarda la propensione al consumo b ciò si ottiene risolvendo l’equazione b /(1 b) oppure l’equazione 1 /(1 b) : poiché la condizione di equilibrio Y(t) = C(t) + Z(t) implica la medesima relazione per gli scarti y*(t) = c*(t) + z*(t) , è facile verificare che da entrambe le suddette equazioni si ottiene il medesimo stimatore per b e cioè T T t 1 t 1 b ILS [ c *(t ).z *(t )] /[ y *(t ).z *(t )] . Si prova che lo stimatore b ILS risulta essere corretto e consistente. Nell’articolo “Methods of measuring the propensity to consume”, T. Haavelmo, uno dei fondatori dell’econometria, utilizza dati macroeconomici per gli USA nel periodo 1922 – 1941 allo scopo di stimare la propensione al consumo; la stima ottenuta con il metodo OLS è pari a 0.732 , mentre quella più affidabile ottenuta con il metodo ILS è pari a 0.672 . Prendendo in considerazione un generale modello lineare B. yt C.xt et ( ove il vettore xt contiene tutte le variabili predeterminate del modello e cioè quelle esogene e quelle endogene ritardate) le cui matrici di coefficienti B e C abbiano qualche elemento non noto, il procedimento dei minimi quadrati indiretti si articola nelle due seguenti fasi: 1) stima OLS dei parametri (elementi di ) della forma ridotta yt B-1 .C.xt B-1.et = .xt t corrispondente alla forma strutturale B. yt C.xt et ; 2) risoluzione del sistema B 1 .C , oppure del sistema equivalente C B . , nelle incognite costituite dagli elementi non noti delle matrici B e C , essendo la matrice stimata nella prima fase. Se tale sistema di equazioni lineari ammette un’unica soluzione allora il metodo di stima ILS fornisce le stime richieste. 34 Il problema di identificazione (in una forma semplificata che trascura i momenti secondi delle perturbazioni aleatorie) concerne la possibilità di ottenere stime univoche per alcuni o tutti i parametri della forma strutturale assumendo noti (stimati) quelli della forma ridotta. Ci limitiamo, in questa sede, ad enunciare una condizione necessaria per la stima univoca (mediante il procedimento ILS) dei parametri incogniti della generica equazione della forma strutturale: il numero delle variabili (endogene e/o predeterminate) escluse in quell’equazione dev’essere almeno uguale al numero delle equazioni del modello meno una. Un esempio concreto riguardante un modello già noto : il coefficiente di accelerazione c dell’equazione degli investimenti nel modello di Samuelson non può essere stimato con il metodo ILS (si dice che tale equazione è “sovraidentificata” ) perché per esso il sistema C B . comprende due equazioni linearmente indipendenti nell’unica incognita c. Un altro esempio già noto: entrambi i parametri a e b del modello reddito – spesa in versione statica possono essere stimati univocamente con il metodo ILS (si dice che l’equazione è “esattamente identificata”). Su alcuni procedimenti di stima per i parametri di modelli ad equazioni simultanee. Prendiamo in considerazione, a titolo esemplificativo, un’equazione dell’investimento aggregato che tipicamente compare in un modello ad equazioni simultanee tipo IS-LM: I (t ) 1 .C (t ) C (t 1) 2 .R(t ) 3 .R(t 1) V (t ) , ove R(t) rappresenta un opportuno tasso di interesse a breve termine e V (t ) una perturbazione aleatoria non osservabile. Si osservi che tale equazione generalizza quella del modello di Samuelson nella quale non si considera esplicitamente il costo R (t ) degli investimenti. Sulla base di valori osservati per T periodi di tempo e per tutte le variabili osservabili dell’equazione si voglia stimare i parametri incogniti j , j 1,2,3. 1) Procedimento OLS (Ordinary Least Squares) : è noto che la presenza a secondo membro delle variabili endogene correnti C(t) ed R(t), correlate con V(t), rende statisticamente non affidabili gli stimatori OLS per i coefficienti j (si può provare che essi non sono né corretti nè consistenti). Pertanto, il vettore di stime OLS , OLS ( M 0 ' M 0 ) 1 M 0 ' I , non è da considerarsi accettabile. 2) Procedimento ILS (Indirect Least Squares) : richiede la conoscenza completa del modello in quanto la prima fase riguarda la stima OLS dei parametri della forma ridotta. Può avvenire però che sussistano perplessità su qualcuna delle altre equazioni, particolarmente per quanto concerne la loro specificazione dinamica, cioè la struttura dei ritardi delle variabili esplicative. Inoltre, anche se le altre equazioni della forma strutturale fossero note, non è sicuro che la suddetta equazione degli investimenti sia esattamente identificata, cioè che il sottosistema concernente i parametri j del sistema di equazioni C B . fornisca un’unica soluzione per essi. 35 3) Procedimento 2SLS (Two Stage Least Squares) : non richiede la conoscenza dettagliata delle altre equazioni del modello, ma soltanto le variabili predeterminate che compaiono in tutte le sue equazioni. Anch’esso, come il metodo ILS, si articola in due fasi: nella prima si tratta di costruire “simulatori” o approssimatori (proxies) per tutte le variabili endogene correnti che compaiono a secondo membro dell’equazione, e cioè C(t) ed R(t). Tali simulatori si costruiscono mediante combinazioni lineari di tutte le variabili predeterminate del modello; nel nostro caso i simulatori necessari (denotati con l’asterisco) sono i seguenti: Y * (t ) 0 1 .Y (t 1) 2 .R(t 1) 3 .G(t ) 4 .M (t ) (t ) , R * (t ) 0 1 .Y (t 1) 2 .R(t 1) 3 .G(t ) 4 .M (t ) (t ) , supponendo che le variabili che compaiono a secondo membro siano tutte e sole le variabili predeterminate del modello ( il che accade se, per esempio, l’equazione del consumo fa dipendere C(t) solo da Y(t-1) come nel modello di Samuelson e se le variabili esogene sono soltanto la spesa della Pubblica amministrazione G(t) e l’offerta di moneta M(t) ). Indicata con M la matrice che contiene i valori osservati per le variabili predeterminate, la prima fase si conclude con l’applicazione del metodo OLS per le stime dei vettori e : ( M ' M ) 1 M ' r . ( M ' M ) 1 M ' y La seconda fase richiede la stima dei parametri (mediante il metodo OLS) dell’equazione trasformata I (t ) 1 .C* (t ) C (t 1) 2 . R* (t ) 3 .R(t 1) V * (t ) ottenuta sostituendo i simulatori costruiti nella prima fase alle corrispondenti variabili endogene correnti. Indicata con N la matrice dei valori delle variabili esplicative in quest’ultima equazione riesce 2 SLS ( N ' N ) 1 N ' I . Si dimostra che i corrispondenti stimatori per le variabili j trovati con questo procedimento di stima sono consistenti. Alcuni riferimenti bibliografici M. Verbeek : Econometria. Zanichelli R.S.Pindyck-D.L.Rubinfeld: Econometrics models and economic forecast McGraw-Hill (III ed.) R.Golinelli: Metodi econometrici di base per l’analisi delle serie storiche. CLUEB, Bologna. A.Gardini e altri: Econometria (due volumi). Franco Angeli. 36