\\
TRACCIA PER UN’ INTRODUZIONE AI METODI ECONOMETRICI
Introduzione
Per ottenere delle rappresentazioni quantitative di relazioni tra variabili economiche di interesse
si adoperano varie tipologie di modelli in relazione alle informazioni utilizzabili per la loro
costruzione. Ad esempio, se interessa effettuare una previsione del livello dei consumi aggregati per
il sistema economico italiano nel prossimo anno ci si può basare:
1) sulla sola conoscenza dei livelli (stimati) dei consumi aggregati nel passato e allora si farà
tipicamente riferimento ai modelli dell’analisi delle serie temporali (modelli ARMA o
ARIMA);
2) sulla conoscenza, oltre che della serie temporale dei consumi aggregati, anche delle serie
temporali di variabili diverse che, in base alle nostre opinioni, esercitano una influenza “di tipo
causale” sul livello dei consumi; l’approccio metodologico più frequentemente adoperato in
questo caso è l’analisi di regressione;
3) sulla conoscenza delle serie temporali di più variabili (inclusi i consumi aggregati) che la teoria
economica ritiene si determinino simultaneamente (variabili endogene) interagendo fra loro e
venendo influenzate da un altro insieme di variabili (variabili esogene); si parla in questo caso
di modelli ad equazioni simultanee.
I vari tipi di analisi prevedono quindi il ricorso a differenti basi informative e a
differenti livelli di conoscenza teorica dei fenomeni in esame. Sembrerebbe logico aspettarsi che la
qualità della previsione migliori con l’aumento dei dati disponibili e con la più approfondita
conoscenza delle relazioni esistenti tra le variabili. Bisogna però tener conto che la maggiore
complessità del modello moltiplica le difficoltà che l’analista incontra nella sua costruzione e nel
suo utilizzo; può darsi quindi che un semplice modello ARMA produca una previsione dei consumi
migliore rispetto a quella ottenibile con un sofisticato modello econometrico ad equazioni
simultanee costituito da centinaia di variabili ed equazioni.
La costruzione di un qualunque modello quantitativo dei tre tipi su indicati (per esempio
riguardante i livelli dei consumi aggregati) è un processo complesso che si articola in più fasi
successive: la specificazione (scelta di una formalizzazione tra le infinite possibili), la stima dei
parametri presenti nel modello, la verifica dell’adeguatezza del modello stimato e la sua
utilizzazione. Se la verifica dell’adeguatezza del modello stimato non desse risultati giudicati
accettabili sarà necessario modificare la specificazione iniziale e ripetere il ciclo: è dunque un
processo iterativo nel quale intervengono sia strumenti di tipo statistico, che dovrebbero fornire
elementi oggettivi di giudizio, che l’abilità e l’esperienza personale del costruttore del modello.
Poiché i fenomeni economici sono generalmente molto complessi e tipicamente evolutivi, la loro
rappresentazione più efficace si ottiene con l’impiego di modelli dinamici e stocastici. I modelli
economici statici (e quindi non dinamici) e/o deterministici (e quindi non stocastici) devono essere
considerati solo strumenti didattici, di scarso interesse per la risoluzione di problemi economici
concreti.
In tutti i modelli su menzionati intervengono serie storiche economiche: si tratta di sequenze di
valori di grandezze economiche osservabili concernenti fenomeni di tipo microeconomico (per
esempio la sequenza dei prezzi di un dato bene rilevabili giorno per giorno) o macroeconomico
(per esempio la sequenza dei valori del prodotto interno lordo dell’economia italiana rilevabili
annualmente). Con riferimento, per esempio, alla sequenza dei livelli del consumo aggregato delle
famiglie italiane, una possibile rappresentazione di tale serie storica sarebbe la seguente:
1
c1, c2, ………….., cT, C T+1, C T+2,…………….
ove le lettere minuscole rappresentano numeri certi, ossia valori osservati o stimati dei livelli di
consumo nei periodi da 1 a T, mentre le lettere maiuscole rappresentano numeri aleatori, cioè
livelli non noti (in quanto, per esempio, non ancora osservabili) dei consumi nei periodi successivi a
quella T-esimo .
Con riferimento ai termini non noti della serie temporale, l’analisi dev’essere di tipo
probabilistico: la sequenza dei livelli di consumo da C T+1 in poi va riguardata come un processo
stocastico (cioè un insieme di numeri aleatori) descrivibile a vari livelli di precisione: per esempio,
mediante la famiglia delle distribuzioni di probabilità congiunte finite-dimensionali oppure, più
semplicemente, mediante i soli momenti del primo e del secondo ordine e cioè specificando i valori
medi E(C t), le varianze V(C t) e le covarianze Cov(C s , C t) per C T+1, C T+2,…………….
Con riferimento alla sequenza di numeri certi c1, c2, ………….., cT può avere senso procedere
al calcolo di taluni momenti campionari quali:
2
1 T
1 T
la media campionaria m1(T )   c j , la varianza campionaria m2(T ) (0)    c j  m1(T )  e le
T j 1
T j 1
T h
1
covarianze campionarie m2(T ) (h)    c j  m1(T ) .  c j h  m1(T )  .
T j 1
Ci si può chiedere a questo punto in quali circostanze il calcolo di questi momenti campionari ha
un qualche significato operativo e, in particolare, quando tali momenti campionari hanno una
qualche relazione con i corrispondenti momenti E(C t), V(C t) e Cov(C s , C t) della parte non nota
della serie temporale. Si tratta del “problema ergodico” al quale accenneremo nel seguito.
Va detto che, in generale, l’analisi delle serie temporali si propone di utilizzare la sequenza di
livelli noti dei consumi c1, c2, ………….., cT per la costruzione di un modello stocastico
riguardante la sequenza dei consumi non ancora noti : per esempio il modello stimato potrebbe
fornire previsioni per i valori futuri dei consumi aggragati. E’ però fondamentale chiarire in quali
condizioni tale approccio metodologico risulta praticabile e concretamente utile; in altre parole, è di
primaria importanza stabilire per quali serie temporali dal modello stocastico costruito sulla base
della sequenza di valori noti c1, c2, ………….., cT si possono ricavare informazioni attendibili
sull’evoluzione futura del fenomeno.
PARTE I . ANALISI DELLE SERIE TEMPORALI
Come si è già detto, tipicamente una serie temporale (o storica) si presenta al modo seguente:
x1 , x2 ,............., xT , X T 1 , X T 2 ,...............
ove il primo segmento x1 , x2 ,............., xT è costituito da numeri noti (già osservati o stimati), mentre
la sequenza rimanente X T 1 , X T  2 ,............... è costituita da numeri non noti o aleatori: diremo anche
che tale sequenza è un processo stocastico.
Il processo stocastico X T 1 , X T  2 ,............... si dirà noto quando si è in grado di specificare in
modo coerente la sequenza di distribuzioni di probabilità congiunte
F1 ( x1 ), F1,2 ( x1 , x2 ), F1,2,3 ( x1 , x2 , x3 ), ……………… ;
2
frequentemente si usano livelli di specificazione più semplici perché è ben difficile, nei problemi
pratici, disporre di informazioni sul fenomeno rappresentato dal processo stocastico così dettagliate
da consentire la scelta dell’indicata sequenza di distribuzioni.
E’ detto livello di conoscenza “del secondo ordine” quello che si basa sulla specificazione dei
soli momenti del primo e secondo ordine per i numeri aleatori del processo X T 1 , X T  2 ,............... e
cioè dei valori medi E ( X T  k ), k  1, delle varianze Var ( X T  k ), k  1, e delle covarianze
Cov( X T  k , X T  ), k  .
Un problema importante riguarda la possibilità di stimare tali momenti mediante i corrispondenti
momenti campionari calcolati per la sequenza nota x1 , x2 ,............., xT :
media campionaria: m1(T ) 
1 T
 xt ;
T t 1
varianza campionaria: m2(T ) (0) 
covarianze campionarie: m2(T ) (h) 
1 T
( xt  m1(T ) ) 2 ;

T t 1
1 T h
( xt  m1(T ) ).( xt h  m1(T ) ), h  1 .

T t 1
Sussiste eventualmente la detta possibilità di stima soltanto per le serie temporali stazionarie
(in senso lato), quelle cioè per le quali i valori medi E ( X T  k ) e le varianze Var ( X T  k ) sono tutte tra
loro uguali e le covarianze Cov( X T k , X T  ) sono tra loro uguali quando la differenza degli indici
(T  k )  (T  )  k  è la medesima.
Introducendo per comodità la “funzione valor medio”  X (T  k )  E  X T k  e la “funzione di
covarianza”  X (T  k , T  )  Cov  X T k , X T l  possiamo affermare che per le serie temporali
stazionarie la funzione valor medio  X (T  k ) è costante e la funzione di covarianza
 X (T  k , T  ) dipende solo dalla differenza (T  k )  (T  )  k  l degli indici dei numeri
aleatori considerati.
Per queste serie temporali e quando esse sono altresì ergodiche, i momenti campionari sono
buone stime per i corrispondenti momenti dei numeri aleatori del processo stocastico nel senso che,
1 T
quando T è sufficientemente grande, m1(T )   xt è una buona stima per  X (T  k ) , che è
T t 1
T h
1
costante, e i valori m2(T ) (h)   ( xt  m1(T ) ).( xt  h  m1(T ) ) , per h  0 , sono buone stime per i
T t 1
corrispondenti valori di  X (h) , h  0.
Chiediamoci ora per una qualunque serie storica X1 , X 2 ,..........., X t ,.......... stazionaria in senso
lato: quando essa è ergodica per i momenti fino al secondo ordine? La risposta è quando accade
che :
1 n
1 nh
p  lim  X t  E  X 1    X (1) e p  lim   X t  m1( n ) .  X t  h  m1( n )    X (h) .
n  n
n  n
t 1
t 1
3
E’ il caso di precisare che il simbolo p  lim Yn   si riferisce alla “convergenza in probabilità”
n 
della successione di numeri aleatori Yn al limite certo α con il seguente significato: fissato un ε > 0
arbitrariamente, accade che Pr  X n      → 0 per n   .
Avvisiamo subito il lettore che non è semplice fornire condizioni sufficienti per l’ergodicità nel
caso generale. Se il processo  X t ; t  1 è Gaussiano e stazionario in senso lato allora esso è
ergodico se  X (h) tende a zero abbastanza velocemente per h   ; non è quindi sufficiente che la
funzione di covarianza sia infinitesima. Una condizione sufficiente per l’ergodicità di tutti i

momenti nelle stesse ipotesi di stazionarietà e Gaussianità è che
  (h)   , cioè che la funzione
h0
di covarianza sia “assolutamente sommabile”. Rinviamo il lettore interessato alla letteratura
specializzata per ulteriori approfondimenti sulla nozione di ergodicità.
Un’introduzione all’approccio Box – Jenkins.
Tale approccio all’analisi delle serie temporali è costituito da quattro fasi successive denominate
a. fase di pre-processing : in essa si attua una trasformazione preliminare della serie storica per
eliminare eventuali elementi di non stazionarietà;
b. fase di identificazione o specificazione del modello : si sceglie entro la classe dei modelli
ARMA(p,q), che introdurremo tra breve, un modello che sembra il più adatto per la serie storica
considerata (sostanzialmente si scelgono gli interi non negativi p e q);
c. fase di stima statistica degli elementi non noti del modello;
d. fase di verifica dell’affidabilità del modello stimato .
Se l’ultima verifica non dà risultati accettabili occorre ritornare alla seconda fase e modificare la
specificazione del modello ripetendo poi l’intera procedura di stima e verifica finale. L’approccio
Box – Jenkins ha quindi natura ricorsiva o iterativa: dopo la fase di pre-processing, si avvia un
procedimento iterativo fino all’ottenimento di un modello stimato ritenuto accettabile.
a. Pre-processing.
Sostanzialmente possiamo individuare due diverse impostazioni; la più antica parte
dall’ipotesi che la serie temporale  X t ; t  1 possa essere rappresentata come somma di una
componente di trend (che individua “l’andamento medio” della serie), di una componente
stagionale (detta anche componente ciclica e non sempre presente nelle serie storiche) e di una
componente residua ( approssimativamente stazionaria).
La componente di trend {Tt}è particolarmente importante nelle previsioni di lungo periodo per la
serie X(t), quella stagionale {St}, assieme al trend, interviene nelle previsioni di medio periodo
mentre il residuo {Rt} è essenziale nelle previsioni di breve e brevissimo periodo.
Per la stima del trend si ricorre spesso a procedimenti di “perequazione” con il “metodo dei
minimi quadrati”: indicato con x1 , x2 ,.........., xT il segmento noto della serie temporale e con {f(t),
} una famiglia di funzioni perequatrici caratterizzate da un vettore parametrico , si determina
la “migliore” funzione perequatrice individuando i valori delle componenti di  che minimizzano la
T
funzione obiettivo
  x  f (t )
t 1
2
t
.
4
Se, per esempio, la famiglia {f(t), } è costituita dalla totalità dei polinomi di secondo grado
nella variabile t, f(t) =  0  1.t   2 .t 2 , i valori ottimali dei parametri si otterranno uguagliando a
zero le derivate parziali, rispetto a i , della funzione obiettivo
T
  x  
t 1
t
0
 1.t   2 .t 2 
2
e risolvendo il sistema di equazioni lineari trovato.
Un diverso e più elementare procedimento di stima del trend (smoothing) consiste nella

determinazione dei valori (medie mobili)
Tt 
n
 a .x
j  n
j
t j
quando si siano fissati i valori dei pesi
a j ; nel caso più semplice i cofficienti a j sono posti tutti uguali tra loro e pari a 1/(2n+1). Il valore
n è ovviamente dipendente dalla lunghezza del segmento noto x1 , x2 ,.........., xT e va fissato
preliminarmente.
Nell’ipotesi che i dati x1 , x2 ,.........., xT siano rilevati mensilmente e indicato con x jk il valore
rilevato nel mese k-esimo dell’anno j-esimo, una stima della componente stagionale si può
ottenere al modo seguente: se n è il numero degli anni di osservazione, calcolati preliminarmente i
1 12
valori mj =
 x jk , si determinano i valori
12 k 1

1 n
Sk   ( x jk  m j ) .
n j 1
Le componenti stimate di trend e stagionale possono essere impiegate, come già si è detto, per
effettuare previsioni di lungo e medio termine, ma possono essere sottratte dalla serie storica



osservata x1 , x2 ,.........., xT per ottenere una stima del residuo secondo la Rt  xt  T t  S t .
Una differente e più moderna impostazione nell’operazione di pre-processing tendente ad
eliminare le eventuali componenti di non-stazionarietà dalla serie temporale è quella suggerita da
Box e Jenkins e consiste nel passaggio dalla serie osservata x1 , x2 ,.........., xT a quella delle
differenze prime  yt  xt 1  xt  oppure a quella delle differenze seconde zt  yt 1  yt  e così via
finchè si ritiene di avere ottenuto una sequenza approssimativamente stazionaria.
In generale, nei casi più semplici, è sufficiente arrivare alle differenze seconde o terze per
ottenere una serie temporale trasformata che possa essere considerata approssimativamente
stazionaria.
Ci accontenteremo, in questa introduzione, di questi brevi cenni sulla prima fase dell’approccio
Box – Jenkins che invece, per la sua importanza, meriterebbe una ben più approfondita trattazione.
5
b. Fase di identificazione o specificazione del modello
La categoria di modelli ARMA(p,q) è costituita da equazioni del tipo
X t  a1. X t 1  ................  a p . X t  p  Zt  b1.Zt 1  ...............  bq .Zt q ,
ove le variabili { Zt ; t  1}, non osservabili, costituiscono un processo stocastico molto semplice
avente le seguenti caratteristiche: la funzione valor medio  Z (t ) è nulla e la funzione di covarianza
 Z (h) ha due soli valori e precisamente  Z (h) = 0 se h  0 e  Z (h)   Z2 se h  0 . Esso è detto
“processo di rumore bianco” (white noise) e va considerato noto a meno del valore comune  Z2
delle varianze delle variabili Z t . Sinteticamente lo si indica con Z t WN (0,  Z2 ) .
Dal punto di vista matematico i modelli ARMA(p,q) sono equazioni alle differenze finite,
lineari, di ordine p, a coefficienti costanti, stocastiche: X t  a1. X t 1  ................  a p . X t  p  Yt ove
Yt  Zt  b1.Zt 1  ...............  bq .Z t q . Fissata una condizione iniziale, di cui si dirà nel seguito, la
soluzione dell’equazione è un processo stocastico {X(t)} specificato in termini della funzione valor
medio  X (t ) e della funzione di covarianza  X (h) . Particolare importanza hanno le soluzioni
stazionarie e “quasi stazionarie”; vediamo alcuni esempi.
1. Modello ARMA(0,1) o modello MA(1): X t  Zt  b.Zt 1 , Zt WN (0,  Z2 ) .
Chiaramente, la funzione valor medio  X (t )  E ( X t ) è identicamente nulla; la funzione di
covarianza ha i seguenti valori
(1  b2 ). Z2 se s  t  0


 X ( s, t )   b. Z2 se s  t  1

0 se s  t  1


e quindi il processo generato da questo modello è stazionario in senso lato.
q
Per un modello ARMA(0,q), o MA(q), X t  Zt   b j .Zt  j si ha che Cov  X s , X t  = 0 se s  t
j 1
 q, cioè i n.a. X t sono “definitivamente non correlati”. I processi stocastici definiti da questi
modelli sono dunque tutti stazionari in senso lato ed ergodici (come si potrebbe verificare).
2. Modello ARMA(1,0) o modello AR(1): X t  a. X t 1  Zt , Zt WN (0,  Z2 ), Cov( X 0 , Zt )  0 .
Per prima cosa ci procureremo una soluzione dell’equazione procedendo per sostituzioni
successive a ritroso:
X t  a. X t 1  Z t  a  a. X t  2  Z t 1   Z t  a  a  a. X t 3  Z t  2   Z t 1   Z t  .............
ottenendo
X t  a t . X 0   a t 1.Z1  a t  2 .Z 2  ..............  a.Z t 1  Z t  .
Sul numero aleatorio X 0 è necessario formulare una qualche ipotesi detta “condizione iniziale” per
l’equazione e basata su eventuali informazioni disponibili. Per esempio si potrebbe assegnare ad X 0
6
una qualche distribuzione di probabilità F0 ( x) o assegnare valori numerici a E ( X 0 ) e V ( X 0 ) o
altro ancora.
In particolare, se il valore ξ di X 0 è noto, si pone X 0   nell’espressione ottenuta sopra che
t
diventa X t  a t .   a t k .Z k e che rappresenta il processo stocastico  X t ; t  0 soluzione
k 1
dell’equazione X t  a. X t 1  Zt corrispondente a X 0   . Si ha anche chiaramente
 X (t )  E ( X t )  a t .
Assumendo invece come condizione iniziale E ( X 0 )  m e V ( X 0 )  v , il processo stocastico
t
soluzione dell’equazione X t  a. X t 1  Zt è X t  a t . X 0   a t  k .Z k con  X (t )  E ( X t )  a t .m .
k 1
In entrambi gli esempi fatti la funzione valor medio  X (t ) del processo X t non è costante per
cui X t non è stazionario in senso lato.
Assumendo ancora come condizione iniziale E ( X 0 )  m e V ( X 0 )  v , per la funzione di
covarianza  X (t  h, t ) del processo X t si trova l’espressione  X (t  h, t )  a 2t  h .v  a h . Z2
1  a 2t
1  a2
che dipende da h e da t, cioè da t+h e t, confermando la non stazionarietà di X t .
Una situazione di “quasi stazionarietà” per il processo X t si consegue se il coefficiente della
parte autoregressiva soddisfa la condizione a  1 perché in tale caso per valori del parametro
operativo t sufficientemente elevati si ottiene  X (t )  0 e  X (t  h, t )  a h . Z2 /(1  a 2 ) : più
propriamente tale situazione viene detta “stazionarietà asintotica”. Ci limitiamo ad affermare che
alla stazionarietà asintotica si accompagna anche la proprietà di ergodicità.
p
Per un modello AR(p), X t   ai . X t i  Z t , si dimostrano risultati analoghi a condizione che i
i 1
coefficienti ai della parte autoregressiva siano tali da far sì che l’equazione caratteristica associata
p
al modello,  p   ai . p i  0 , abbia radici  j tutte minori di uno in modulo.
i 1
3. Modello ARMA(1,1): X t  a. X t 1  Zt  b.Zt 1 , Zt
WN (0,  Z2 ), Cov( X 0 , Zt )  0 .
Ponendo Yt  Zt  b.Zt 1 , il modello ARMA(1,1) è simile a quello AR(1) ove però il processo
input Yt ; t  1 non è di tipo White Noise, ma ha le caratteristiche di un processo generato da un
modello MA(1). Si ottiene, con un calcolo diretto, che il processo X t non è stazionario, e che esso
è asintoticamente stazionario se a  1.
In questa ipotesi, la funzione di covarianza  X (t  h, t ) si può determinare mediante le
equazioni di Yule – Walker che si ottengono come segue. Moltiplicando entrambi i membri del
modello ARMA(1,1) per X t  k e uguagliando i valori medi dei due membri si ottengono, per k = 0,
1, 2 ……, le equazioni (dette appunto di Yule – Walker):
E  X t .X t k   a.E  X t 1.X t k   E  Zt .X t k   b.E  Zt 1.X t k  .
7
Asintoticamente ( t   ), il primo membro coincide con Cov  X t , X t k   a.Cov  X t 1 , X t k  =
 X (k )  a. X (k 1) per cui, con facili calcoli, si ottiene il seguente sistema di equazioni:
 X (0)  a. X (1) = [1 + ( a + b).b] .  Z2 ,
 X (1)  a. X (0) = b .  Z2 ,
 X (k )  a. X (k  1) = 0 .
per k = 0,
per k = 1,
per k  2,
Risolvendo le prime due equazioni si ottengono Var  X t    X (0)   Z2 .(a  b)2 /(1  a2 ) e
 X (1)   Z2 .(a  b).(1  a.b) /(1  a 2 ) ; i rimanenti valori delle covarianze si ottengono utilizzando
l’ultima equazione :  X (h)  a h 1. X (1) . Per i dettagli si veda l’Appendice n. 3.
Questo procedimento ha carattere generale e può essere applicato a qualunque modello
ARMA(p,q) nell’ipotesi che l’equazione caratteristica associata alla parte autoregressiva,
p
 p   ai . p i  0 , abbia tutte le radici  j minori di 1 in modulo.
i 1
Quanto visto per il modello ARMA(1,1) sussiste sostanzialmente anche per modelli generali
ARMA(p,q) nel senso che il comportamento asintotico della funzione di covarianza dipende dalla
parte autoregressiva del modello: se  j  1, j  1, 2,........., p, e questo fatto dipende soltanto dai
coefficienti ai , allora  X (t  h, t ) è infinitesima al crescere di h (e sussiste anche l’ergodicità).
Una giustificazione del ricorso ai suddetti modelli stocastici ARMA(p,q) chiama in causa il
teorema di H.Wold sulla rappresentazione dei processi stazionari in senso lato mediante modelli
MA(), che a loro volta possono essere approssimati da modelli ARMA(p,q); diremo di più su ciò
in una delle appendici a queste note.
La fase di identificazione (o specificazione) del modello entro la famiglia ARMA(p,q) consiste
nell’individuazione degli interi p e q che determinano, a meno dei valori dei coefficienti, la parte
AR e quella MA del modello lineare.
Gli strumenti statistici che possono dare prime indicazioni su tale scelta sono la funzione di

autocorrelazione stimata  ( h) (o correlogramma) e la funzione di autocorrelazione parziale

stimata {  mm ; m  1}. Si ha:
T h


 ( xt  x).( xt h  x)

 (h) =
t 1
T

 ( xt  x)2
, per h  0 ;
t 1
Per quanto concerne i valori mm della funzione di autocorrelazione parziale, le loro stime si
ottengono mediante il procedimento dei minimi quadrati ordinari applicato ai seguenti modelli
lineari:
m
X t    im . X t i  Z t , m  1 .
i 1
Si dimostra che le funzioni di autocorrelazione (ACF) e di autocorrelazione parziale (PACF)
hanno comportamenti opposti nei modelli AR(p) e MA(q) nel senso che l’andamento della ACF nei
modelli MA(q) (identicamente nulla per h  q+1) è analogo a quello della PACF nei modelli AR(p),
8
mentre l’andamento della ACF nei modelli AR(p) (infinitesima se i coefficienti soddisfano la
condizione di stazionarietà asintotica) è analogo a quello della PACF nei modelli MA(q).
Si parla anche di comportamento “duale” di tali funzioni nelle due classi di modelli. Purtroppo,
l’andamento delle due funzioni è molto meno semplice per modelli ARMA con p e q entrambi
positivi per cui la loro efficacia nell’identificazione di modelli ARMA è molto minore che non per i
casi particolari AR(p) e MA(q).
c) Fase di stima del modello
Scelto l’ordine del modello ARMA, cioè la coppia (p,q), si tratta di stimare i p+q+1 parametri
numerici a1 , a2 ,......., a p , b1 , b2 ,........, bq , Z2 A causa della non osservabilità del processo di rumore
bianco Zt  solo la stima dei coefficienti a1 , a2 ,......., a p può ottenersi con l’applicazione diretta del
procedimento di stima dei minimi quadrati ordinari (metodo OLS); per la stima degli altri
coefficienti si devono impiegare metodi più potenti, ad esempio il metodo di massima
verosimiglianza che richiede però una specificazione probabilistica delle distribuzioni congiunte
delle variabili Zt  . Tipicamente si assume che Zt  sia un processo Gaussiano.
p
Cominceremo ad affrontare la stima dei coefficienti di un modello AR(p) X t   ai . X t i  Z t
i 1
utilizzando il metodo di stima dei minimi quadrati che non richiede nessuna ipotesi sulla forma
funzionale delle distribuzioni del processo White Noise Zt  . Si definiscono stime dei minimi

quadrati per i coefficienti ai  quei valori a i che rendono minima la funzione
2
p



 X t   ai . X t i  ;
t  p 1 
i 1

sotto convenienti ipotesi esiste unica la soluzione del sistema di equazioni lineari che si ottiene
uguagliando a zero le derivate parziali di f( a1 , a2 ,......., a p ) rispetto a ciascuno dei coefficienti ed
essa individua proprio il punto di minimo della suddetta funzione. Il metodo dei minimi quadrati
non fornisce invece alcuna stima della varianza  Z2 ; ci limitiamo ad affermare che il metodo di
T
f( a1 , a2 ,......., a p ) =
massima verosimiglianza (nell’ipotesi di Gaussianità delle variabili Z t ) fornisce il valore
2
p 


  (T-p-1) .   xt   ai .xt i  .
t  p 1 
i 1


2
Z
–1
T
Si prova che gli stimatori dei coefficienti del modello AR(p) sono corretti e consistenti; la
consistenza deriva dall’ipotesi Cov( X 0 , Zt )  0 la quale implica che l’errore Zt non è correlato con
le variabili osservabili Xt-i per i > 0.
Illustreremo ora con un unico semplice esempio un procedimento di stima, che costituisce una
variante del metodo OLS, che può essere applicato ad un qualunque modello ARMA(p,q) con p e q
entrambi positivi. Considereremo precisamente per il modello X t  a. X t 1  Zt  b.Zt 1 il problema
di stima dei parametri a e b.
Il primo membro X t  a. X t 1 costituisce chiaramente una trasformazione lineare Λ( X t ) del
processo { X t } ; il modello ARMA(1,1) può quindi essere espresso dalla Λ( X t )  Zt  b.Zt 1 .
Indicando con -1 la corrispondente trasformazione inversa e ricordando che l’inversa di una
trasformazione lineare è ancora lineare si può allora rappresentare lo stesso modello con la
9
X t = -1 [ Zt  b.Zt 1 ] = -1 [ Z t ] + b. -1 [ Z t 1 ] = Yt  b.Yt 1 ,
avendo posto -1 [ Z t ] = Yt per ogni t. Allo scopo di ricavare una stima del processo { Yt } a partire
dai valori osservati della serie storica X t scriviamo la suddetta uguaglianza come Yt  X t  b.Yt 1
assumendo Y0 = 0 e assegnando un valore numerico b1 al coefficiente incognito b : si determinano
quindi ricorsivamente i valori di stima delle variabili Yt .
Esprimendo la Yt   1 ( Zt ) come [ Yt ] = Yt  a.Yt 1 = Z t otteniamo un modello AR(1) nel
processo { Yt } contenente il parametro a da stimare; il metodo OLS applicato a questo modello

fornisce una stima a(b1 ) dipendente dal valore assegnato all’altro parametro b ed inoltre il valore
2

t Y (t )  a(b1 ).Y (t  1)  che costituisce la “cifra di merito” del modello stimato.
Ripetendo il procedimento di stima per altri valori bj assegnati al parametro b si ottengono altre
numerico S(b1) =

coppie [ a(b j ) , S(bj) ] per j  2 . Si considerano infine “valori di stima ottimali” per i parametri

incogniti la coppia a (bk ) , bk in corrispondenza alla quale la cifra di merito S(bk) risulta minima .
In generale, per la stima dei parametri di un modello ARMA(p,q) si usano procedimenti iterativi
non lineari che in questa introduzione non saranno considerati.
10
d) Fase di verifica di affidabilità del modello stimato
Una volta che il modello sia stato specificato e stimato si tratta di verificare l’affidabilità
(goodness of fit) della specificazione scelta. Un primo controllo consiste nel confronto dei valori
osservati della serie storica, cioè il segmento iniziale x1 , x2 ,............., xT , con quelli prodotti dal
modello stimato mediante “simulazione”.
Per una prima idea sul procedimento di simulazione si assuma che il modello stimato sia del tipo
AR(2) e precisamente
X t  1,317. X t 1  0, 634. X t  2  Zt ,
Zt
WN (0 ; 0, 289) ;
se il generatore di numeri pseudo-casuali del vostro computer fornisce valori numerici  t ; t  1 di
variabili aleatorie con distribuzione Gaussiana N(0;1) e se la condizione iniziale della suddetta


equazione alle differenze finite è costituita dalla coppia di valori  X 1   ; X 0    allora la serie



storica simulata  xt ; t  1 è data dalla sequenza
x1  1,317.  0, 634.  1. 0, 289
x2  1,317.x1  0, 634.   2 . 0, 289
x3  1,317.x2  0, 634.x1   3 . 0, 289
..........................................................
xT  1,317.xT 1  0, 634.xT  2   T . 0, 289
Se il confronto ha esito positivo si può analizzare la funzione di autocorrelazione dei residui
stimati: se la specificazione è corretta tali residui dovrebbero simulare un processo White Noise,

cioè un processo con variabili non correlate, e quindi il loro correlogramma  ( h) dovrebbe essere
approssimativamente nullo per h  1. L’impiego di test statistici opportuni consente di valutare
l’accettabilità dell’approssimazione.
Se invece tali verifiche danno esito negativo o dubbio si procede ad una diversa specificazione
del modello e alla stima dei nuovi parametri. Si tratta dunque di un procedimento di
approssimazioni successive tendente ad individuare un modello ARMA(p,q) giudicato compatibile
con i dati.
Cenni sulla previsione mediante modelli ARMA
Avendo a disposizione un modello ARMA(p,q) giudicato attendibile si supponga di essere
interessati a fare una previsione sul valore X T  s non ancora osservabile della nostra serie storica.

Per “previsione di X T  s ” si intende un valore numerico approssimato xT  s costruito mediante il

modello stimato. Strettamente connesso alla previsione è “l’errore di previsione” X T  s  xT  s ; esso
è un numero aleatorio che, con probabilità 1, riesce diverso da 0 .
Supponiamo che sia stato specificato e stimato una modello ARMA(1,2) rappresentato
dall’equazione
11




X t  a . X t 1  Zt  b1 .Zt 1  b2 .Zt 2 ,
(*)
Zt
WN (0,  Z2 ) ,
Se s = 1, la previsione di X T 1 deriva dall’equazione precedente, con t = T + 1,



X T 1  a . X T  ZT 1  b1 .ZT  b 2 .ZT 1


ponendo X T  xT (ultimo valore osservato) , ZT 1  E  ZT 1  = 0 , ZT  z T e ZT 1  z T 1 essendo gli


ultimi due valori z T e z T 1 i residui stimati ricorsivamente mediante l’equazione



Zt  X t  a . X t 1  b1 .Z t 1  b 2 .Z t  2 ricavata dalla (*).
Se s = 2, la previsione di X T  2 deriva dall’equazione (*) con t = T + 2



X T  2  a . X T 1  ZT  2  b1 .ZT 1  b 2 .ZT


ponendo X T 1  xT 1 (previsione ricavata precedentemente), ZT  2  ZT 1  0 e ZT  z T (ultimo
residuo stimato).

Se s > 2, le previsioni successive alla x T  2 si ottengono, per le considerazioni già fatte, dalle

equazioni X T  s  a . X T  s 1 ponendo s = 3, 4, ………
Considerando, per esempio, il caso s = 4 dalle espressioni precedenti si ha:








 

X T  4  a . X T 3  a . a . X T  2  a . a .  a . X T 1  ZT  2  b1 .ZT 1  b 2 .ZT   =

 
 




  


= a . a . a .  a . X T  ZT 1  b1 .ZT  b 2 .Z T 1   Z T  2  b1 .Z T 1  b 2 .Z T   =


  






  
  
= (a) 4 . X T  ( a)3.ZT  2  ( a) 3. 1  b1  .Z T 1  ( a) 3. b1  b 2  .Z T  ( a) 3. b 2 .Z T 1





Ovviamente, al crescere di s l’incertezza sulla previsione xT  s aumenta in quanto:
- alle perturbazioni Z t vengono sostituiti i loro valori medi 0 (per t > T), oppure, per t  T, i
corrispondenti residui stimati
 

- i coefficienti a, b1 e b 2 sono a loro volta valori stimati
e tutte le stime sono affette da errori di stima!
Per eventuali approfondimenti sull’argomento dell’analisi delle serie storiche e della previsione
segnaliamo alcuni testi di riferimento:
1)
2)
3)
4)
5)
M.Verbeek (2004), Econometria. Zanichelli.
P.J.Brockwell, R.A.Davis (1991), Time Series: Theory and Methods. Springer.
B.Abraham, J.Ledolter (1983), Statistical Methods for Forecasting. J.Wiley.
D.J.Hamilton (1995), Econometria delle serie storiche. Monduzzi.
R.S.Pindyck, D.L.Rubinfeld: Econometrics models and economic forecast. McGraw-Hill.
12
APPENDICE n. 1.
Sui fondamenti dell’analisi delle serie temporali.
Cercheremo di giustificare l’uso dei modelli ARMA nell’analisi delle serie temporali senza
entrare in dettagli eccessivi e facendo ricorso soprattutto all’intuizione; il lettore più esigente potrà
consultare i testi indicati nel seguito o altri più approfonditi.
Dalla teoria dei processi stazionari è noto (teorema di H. Wold) che ogni processo stocastico
{Xt} stazionario in senso lato, avente cioè momenti secondi E(Xt2) finiti, funzione valor medio
E(Xt) identicamente nulla e funzione di covarianza Cov(Xt , Xt-h) dipendente solo dalla differenza h

degli indici, può essere rappresentato secondo la X t    j .Zt  j  Vt , ove {Zt}  WN(0,  Z2 ) .
j 0
Il processo stocastico Vt  è detto “linearmente deterministico”; ha funzione valor medio nulla
e Cov(Zs , Vt) = 0 per ogni coppia di indici (s,t). Inoltre è 0 = 1,


2
j
.
j 1
Se la componente Vt  è trascurabile, si può affermare che un processo {Xt}, stazionario in
senso lato, può essere rappresentato approssimativamente da un modello MA().

Poiché un modello MA(), X t    j .Zt  j , contiene infiniti parametri che non si possono
j 0
stimare sulla base di un segmento noto finito (x1,x2,………,xT) della serie temporale, occorre
approssimare il processo generato dal modello MA() con uno che sia generato da un modello
avente solo un numero finito, e possibilmente piccolo, di parametri. In questa necessità si rivelano
preziosi i modelli ARMA(p,q) nel senso che per molti processi {Xt} stazionari in senso lato è
possibile trovare un processo approssimante {Yt} generato da un modello ARMA(p,q)
p
q
i 1
j 1
Yt   ai .Yt i Zt   b j .Zt  j .
Il grado di approssimazione può essere misurato in vari modi: si può misurarlo in termini della
“distanza” tra i processi, sup E [Xt - Yt ] 2 , oppure in termini di scarto massimo tra le “densità
spettrali” f X ( ) ed f X ( ) che ora definiremo.
La nozione di funzione spettrale F() interviene nel seguente
Teorema di Herglotz: la funzione di covarianza di un processo stazionario in senso
lato,  X (h) = Cov(Xt , Xt-h), può essere espressa dalla
 X ( h) 

 cos( h)dF ( ) ,


ove F() è monotona non decrescente e limitata; se

h  
= f(), e la suddetta rappresentazione diventa:

 X ( h) 
 cos(h). f ( )d

13
X
(h)  + allora F() è derivabile, F’()
1
con f X ( ) 
2


h 
X
(h).cos  h funzione pari, non negativa e tale che

 f ( )d  + .

La funzione f X ( ) è denominata “densità spettrale del processo {Xt}”.
Ora possiamo enunciare con maggior precisione il teorema di approssimazione : fissato
arbitrariamente un   0, per ogni processo {Xt} stazionario in senso lato con funzione di densità
spettrale f X ( ) continua è possibile trovare un processo {Yt} generato da un modello
p
q
i 1
j 1
ARMA(p,q), Yt   ai .Yt i  Zt   b j Zt  j , tale che la densità spettrale fY ( ) verifichi per ogni 
 (-,) la condizione f X ( )  fY ( )   .
Per approfondire l’argomento qui accennato si possono consultare per esempio:
1) W.A.Fuller : Introduction to Statistical Time Series. J.Wiley, 1976.
2) P.J.Brockwell, R.A.Davis : Time Series – Theory and Methods. Springer-Verlag, 1987.
3) L.H.Koopmans : The Spectral Analysis of Time Series. Academic Press, 1974.
14
APPENDICE n. 2.
Cenni sulle equazioni alle differenze finite, lineari, con coefficienti costanti, deterministiche
Le equazioni alle differenze finite sono equazioni “funzionali”, cioè equazioni nelle quali
l’incognita è costituita da una funzione numerica; altri tipi di equazioni funzionali sono le equazioni
differenziali, le equazioni integrali e altre ancora. Delle equazioni alle differenze finite, in questa
sede si considerano quelle lineari e con coefficienti costanti, che in generale sono del tipo
p
xt   ai .xt i  bt .
i 1
L’intero p è detto “ordine dell’equazione”; il secondo membro bt è il termine generico di una
successione numerica nota Denomineremo “equazione omogenea associata all’equazione
p
xt   ai .xt i  bt ” la seguente:
i 1
p
xt   ai .xt i  0 .
i 1
Si può provare che:
1) l’equazione omogenea ammette infinite soluzioni, che costituiscono uno spazio lineare di
dimensione p (uguale cioè all’ordine dell’equazione);
2) se {s’t} è una qualsiasi soluzione particolare dell’equazione completa e se {s’’t} è la soluzione
generale dell’equazione omogenea allora {s’t + s’’t} è la soluzione generale dell’equazione
completa.
p
Si verifica che risolvendo l’equazione caratteristica  p   ai . p i  0 associata alla
i 1
p
equazione omogenea xt   ai .xt i  0 , che xt   tj è una soluzione dell’equazione omogenea, ove
i 1
 j è la j-ma radice dell’equazione caratteristica. Poiché le soluzioni xt   tj , j = 1, 2,………., p ,
formano una base dello spazio lineare delle soluzioni (se sono linearmente indipendenti), la
p
soluzione generale dell’equazione omogenea è data dalla combinazione lineare s   k j . tj delle
"
t
j 1
soluzioni particolari xt   (quando le radici  j sono tutte distinte).
t
j
p
Per trovare una soluzione particolare st' dell’equazione completa xt   ai .xt i  bt si possono
i 1
impiegare vari metodi (metodo dei coefficienti indeterminati, metodo della riduzione dell’ordine,
ecc.) che non è qui il caso di precisare. Trovata una qualunque soluzione particolare st' la somma
p
st  st'  st"  st'   k j . tj fornisce la soluzione generale dell’equazione completa.
j 1
Rimane ora soltanto da determinare i coefficienti k j mediante la fissazione di una condizione
iniziale per l’equazione di partenza: essendo questa di ordine p si dovranno fissare p valori numerici
15
per p termini successivi della successione incognita. Tipicamente si fisseranno i valori di
x p 1 , x p  2 ,......, x1 , x0 e si risolverà il sistema di p equazioni algebriche lineari nelle incognite k j :
p
st'   k j .j  x ,    p  1,  p  2,.........,0 .
j 1
xt  a.xt 1  b
1) Equazione del primo ordine:
x0  x*,
(condizione iniziale)
Metodo ricorsivo di soluzione.
t=1
→
x1  a.x0  b  a.x * b
t=2
→
x2  a.x1  b  a 2 .x * b  a.b
t=3
……
→
x3  a.x2  b  a 3 .x * b  a.b  a 2 .b
1  at
t generico → xt  a.xt 1  b  a .x * b  a.b  .........  a .b  a .x  b. a = a .x  b.
.
1 a
h0
t 1
t
t

t 1
h
t

Teorema 1: esiste unica la soluzione dell’equazione xt  a.xt 1  b che corrisponde a x0 = x*
1  at
se a  1 e xt  x0  t.b se a  1 .
1 a
b
b
Osservazione 1: se nel caso a  1 è x0 
allora è xt 
(valore di equilibrio).
1 a
1 a
1  at
Osservazione 2: nella soluzione xt  at .x0  b.
, il primo addendo a t .x0 è la soluzione
1 a
1  at
dell’equazione omogenea xt  a.xt 1  0 , mentre il secondo addendo b.
è la soluzione
1 a
dell’equazione completa xt  a.xt 1  b nel caso x0  0 .
(condizione iniziale) il cui termine generale è xt  at .x0  b.
Osservazione 3: poiché è xt  at .x0  b.
b
1  at
b 
b

, la differenza xt 
=
 at .  x0 

1 a
1 a
1 a  1 a

b 

a t .  x0 
 rappresenta lo scostamento dal valore di equilibrio; esso, al crescere di t, riesce
1 a 

infinitesimo, costante in modulo o crescente a seconda che sia a  1, a  1, a  1.
Teorema 2: per l’equazione alle differenze xt  a.xt 1  bt , ove { bt ; t  1 } è una successione nota
non costante, esiste unica la soluzione che ha come primo termine x0 (condizione iniziale) e come
t 1
termine generale xt  a t .x0   a h .bt  h .
h 0
Metodo standard di soluzione:
Ispirandosi all’Osservazione 2, si può costruire la soluzione generale dell’equazione completa
trovando prima la soluzione generale dell’equazione omogenea, poi una soluzione dell’equazione
completa e combinandole assieme.
16
a) Soluzione generale dell’equazione omogenea
xt  a.xt 1  0 .
0  0

Ponendo xt   t si trova l’equazione caratteristica  t  a. t 1   t 1.(  a)  0 
  a
 1
t
che fornisce la soluzione generale dell’equazione omogenea xt  k .a ove il valore k è determinato
dalla condizione iniziale.
b) Occorre ancora trovare una qualsiasi soluzione particolare dell’equazione completa
xt  a.xt 1  b : poiché il secondo membro è una costante si ponga (per analogia) xt  c
b
. Sommando le due soluzioni ottenute si ha la soluzione
1 a
b
generale dell’equazione completa (o non omogenea): xt  k .a t 
.
1 a
ottenendo c  a.c  b , da cui
c
b
 x * e risolvendo rispetto k
1 a
b
b  t
b
1  at

t
si ottiene k  x * 
, per cui infine si trova xt   x * 
= a .x *  b.
.
 .a 
1 a
1 a 
1 a
1 a

c) Utilizzando la condizione iniziale x0  x * si ha: x0  k 
2) Equazione del secondo ordine :
xt  a1.xt 1  a2 .xt 2  b
x1  x ', x0  x ",
(condizione iniziale)
Metodo standard:
a) Soluzione generale dell’equazione omogenea xt  a1.xt 1  a2 .xt 2  0 .
Ponendo xt   t si trova l’equazione caratteristica
0  0

  a1.  a2 .   .    a1.  a2   0  1
 
 2
e le radici significative 1 e 2 forniscono la soluzione generale dell’equazione omogenea nei tre
casi seguenti:
t
t 1
- Radici reali e distinte:
t 2
t 2
2
1 ≠ 2 , 1 e 2  R  xt  k1.1t  k2 .2t .
- Radici reali coincidenti: 1 = 2 = λ  R
17
 xt  k3 . t  k4 .t. t .
- Radici complesse coniugate:
1    i. e 2    i.

xt  k5 .1t  k6 .2t .
Grazie alla formula di De Moivre,   i.   .(cos   i.sin  ) , ove    2   2 e tg θ = β/α ,
che implica la (  i. )t   t .(cos  .t  i.sin  .t ) , la soluzione nel terzo caso si può scrivere
xt  k5 . t .  cos .t  i.sin  .t   k6 . t .  cos .t  i.sin  .t  =
=  t .  k7 .cos .t  k8 .sin  .t  ove k7  k5  k6 e k8  i.(k5  k6 ) .
Soluzione particolare dell’equazione completa xt  a1.xt 1  a2 .xt 2  b .
Poiché il secondo membro è una costante, per analogia tentiamo una soluzione del tipo xt  c ;
b
sostituendo tale posizione nell’equazione si ottiene c . ( 1  a1  a2 )  b da cui c 
.
1  a1  a2
Le soluzioni generali dell’equazione data hanno le tre possibili forme:
radici reali e distinte:
→
xt  k1.1t  k2 .2t  b.(1  a1  a2 ) 1 ,
radici reali coincidenti:
→
xt  k3 . t  k4 .t. t  b.(1  a1  a2 ) 1 ,
radici complesse coniugate: →
xt   t . k7 .cos .t  k8 .sin  .t  + b.(1  a1  a2 ) 1
Esempio numerico
Consideriamo l’equazione alle differenze non omogenea x t + x t-1 –2.x t-2 = 6 ; si tratta di una
equazione alle differenze lineare, a coefficienti costanti, del secondo ordine. Ogni sua soluzione è
costituita da una successione numerica.
La relativa equazione omogenea è la x t + x t-1 –2.x t-2 = 0 e l’equazione caratteristica
corrispondente è la  2    2  0 ; risolvendo quest’ultima si trovano le radici 1  1 e 2  2 alle
quali corrispondono le successioni xt'  1t  1 e xt"  2t = (-2)t che risolvono l’equazione omogenea
(e si potrebbe provare che sono soluzioni linearmente indipendenti). Allora esse costituiscono una
base dello spazio lineare delle soluzioni dell’equazione omogenea e ognuna delle infinite soluzioni
di quest’ultima è rappresentabile con la combinazione lineare k1.xt'  k2 .xt" , ove k1 e k2 sono
numeri reali . Dunque, la soluzione generale dell’equazione omogenea è data dalla
st"  k1.xt'  k2 .xt"  k1  k2 .(2)t .
Per trovare una soluzione particolare dell’equazione completa si possono impiegare vari metodi.
Si verifica facilmente che la successione st' = 2.t è una delle soluzioni della x t + x t-1 –2.x t-2 = 6
per cui la soluzione generale dell’equazione completa è rappresentabile secondo la
x t = st'  st"  2.t  k1  k2 .(2)t .
18
Se si specifica una condizione iniziale, cioè i valori di due termini contigui della successione che
deve soddisfare l’equazione x t + x t-1 –2.x t-2 = 6 si ottengono i corrispondenti valori per k1 e k2 ;
per esempio, ponendo x2 = -1 e x3 = 1 si ricava k1 = -5 e k2 = 0 e quindi la successione numerica
che risolve l’equazione completa e che soddisfa le condizioni iniziali è la x t = s’t + s’’t = 2.t – 5 .
Si verifica facilmente che la corrispondente successione numerica ha come segmento iniziale
x1  7, x0  5, x1  3, x2  1, x3  1, x4  3,............... .
Abbiamo considerato finora equazioni alle differenze finite lineari in cui la successione nota
bt  a secondo membro è costante; accenniamo soltanto per le equazioni del primo ordine al caso in
cui questo non accade, cioè al caso in cui l’equazione è xt  a.xt 1  bt .
L’applicazione del procedimento ricorsivo già adoperato ci porta alla soluzione
t
xt  a t .x0   a t  k .bk
k 1
sul cui comportamento asintotico (per t   ) nulla può però dirsi se bt  non viene specificata.
Per approfondire l’argomento qui accennato e le nozioni date in questa traccia si può consultare
per esempio:
1) A.C. Chiang (1967), Fundamental Methods of Mathematical Economics. McGraw-Hill
2) G.Gandolfo: Metodi di dinamica economica. ISEDI
3) G. Gandolfo: Economic Dynamics. Springer.
oppure altri testi e manuali di Economia matematica o di Matematica per economisti.
APPENDICE n. 3
Alcune dimostrazioni riguardanti i modelli ARMA
Lemma:
h = t-1 →
h = t-2 →
Cov  X 0 , Z t   0

Cov X t  h , Z t   0 , se h > 0 .
Cov X 1 , Z t   E  X 1 .Z t   Ea. X 0  Z1  b.Z 0 .Z t  
a.E  X 0 .Z t   E Z1 .Z t   b.E Z 0 .Z t   0
se
t 1
;
Cov X 2 , Z t   E  X 2 .Z t   Ea. X 1  Z 2  b.Z1 .Z t  
a.E  X 1 .Z t   E Z 2 .Z t   b.E Z1 .Z t   0
se
t2
e cosi via.
Equazioni di Yule – Walker.
Modello X t  a. X t 1  Z t  b.Z t 1 con a  1;
Z t  WN (0,  Z2 ) ; Cov  X 0 , Z T   0
E ( X t . X t h )  a.E ( X t 1 . X t h )  E (Z t . X t h )  b.E (Z t 1 . X t h )
h = 0 →  (0)  a. (1)  E ( Z t . X t )  b.E ( Z t 1 . X t 1 )  (1  a.b  b 2 ). Z2
poiche’ E ( Z t . X t )  EZ t a. X t 1  Z t  b.Z t 1   E Z t2    Z2
19
e
E ( Z t 1 . X t )  EZ t 1 a. X t 1  Z t  b.Z t 1   (a.b  b 2 ). Z2 ;
h = 1 →  (1)  a. (0)  E ( Z t . X t 1 )  b.E ( Z t 1 . X t 1 )  b. Z2 ;
h ≥ 2 →  (h)  a. (h  1)  0 .
Risolvendo le prime due equazioni nelle incognite  (0) e  (1) si trovano i valori
 (0) 
(a  b) 2 . Z2
(1  a 2 )
e  (1) 
(a  b).(1  a.b). Z2
(1  a 2 )
mentre i valori successivi sono dati dalle
 (h)  a. (h  1)  a . (1)  a
h 1
h 1
(a  b).(1  a.b). Z2
.
.
(1  a 2 )
Esercizio. Ritrovare con le equazioni di Yule – Walker la funzione di covarianza
a k . Z2
asintotica per il modello AR(1) con a  1 :  (k ) 
.
1 a2
PARTE II. ANALISI DI REGRESSIONE LINEARE
Funzione di regressione
Considerati due numeri aleatori (n.a.) Y e X, è detta “funzione di regressione di Y rispetto X” il
n.a. E(Y/X) dipendente da X secondo una funzione  [cioè E(Y/X) = (X)] determinata dalla
distribuzione subordinata di Y rispetto X. I valori del n.a. (X) sono le speranze matematiche
condizionate E(Y/X = x) e l’evento {(X) = E(Y/X = x)} ha probabilità P(X = x) quando il n.a. X è
discreto [altrimenti ad esso è associata una densità di probabilità f(x)].
Alcune proprietà della funzione di regressione sono le seguenti:
1) E(a.Y + b.Z / X) = a.E(Y/X) + b.E(Z/X) , se a e b sono numeri certi e X, Y e Z sono numeri
aleatori ;
2) E[E(Y/X)] = E(Y) ;
3) E[Y.(X) / X] = (X).E(Y/X) ;
4) E(Y/X) = E(Y) , se i numeri aleatori X e Y sono stocasticamente indipendenti ;
5) E[E(Y/X) / X,Z] = E[E(Y / X,Z) / X] = E(Y/X) ;
6) E[Y – E(Y/X)]2  E[Y - (X)]2 per ogni funzione reale (.) tale che E[(X)]2   .
Una definizione assiomatica di funzione di regressione E(Y/X) è la seguente: essa è quel numero
aleatorio dipendente da X che verifica la condizione E Y  E Y / X   . f ( X )  0 per ogni


funzione f (.) per la quale esista la speranza matematica a primo membro.
La nozione di funzione di regressione è fondamentale nella teoria e calcolo delle probabilità; è il
caso di osservare che in lingua inglese E(Y/X) è detta “conditional expectation”, ma con lo stesso
nome si indicano anche i suoi possibili valori E(Y/X=x) e ciò può ingenerare fraintendimenti. In
20
questi appunti indicheremo con il nome di funzione di regressione il numero aleatorio E(Y/X) e con
quello di valor medio condizionato le possibili determinazioni E(Y/X=x) di E(Y/X) che sono
numeri certi.
Un esempio di funzione di regressione.
Con riferimento ad un unico lancio di un dado regolare si considerino il numero aleatorio N che
individua il numero uscito nel lancio e l’indicatore D dell’evento D = “Esce un numero dispari”,
cioè il n.a. che vale 1 se esce uno dei tre risultati 1, 3, 5 e che vale 0 se esce uno dei tre risultati 2, 4,
6. Se si è convinti che il lancio del dado è fatto senza trucchi è plausibile che si assegni probabilità
1/6 ad ognuno dei sei risultati possibili; in questo caso si ha anche P(D) = ½ .
La distribuzione di probabilità congiunta dei n.a. D ed N è la seguente
N
1
2
D 1/ 6

D
0
3
4
5
6
0
1/ 6
0
1/ 6
0
1/ 6
0
1/ 6
0
1/ 6
in quanto, per esempio, l’evento [(N = 1)  D] coincide con (N = 1) (si ricordi che (N = 1) implica

D), per cui è P[(N = 1)  D] = P(N = 1) = 1/6 ed inoltre l’evento [(N = 1)  D ] è impossibile, per

cui è P[(N = 1)  D ] = 0.

La distribuzione condizionata di N all’evento D , cioè al verificarsi di un numero pari, assegna
evidentemente una probabilità pari a 1/3 ai valori 2, 4 e 6 e probabilità nulla ai rimanenti;
similmente la distribuzione condizionata di N all’evento D, cioè al verificarsi di un numero dispari,
assegna la probabilità 1/3 ai valori 1, 3, 5 e la probabilità nulla ai rimanenti. Di conseguenza, per le

speranze matematiche condizionate di N a ciascuno dei due eventi D e D si ha:

E(N/ D ) = (2 + 4 + 6) .
1
=4
3
e
E(N/ D ) = (1 + 3 + 5) .
1
=3.
3
In questo esempio, la funzione di regressione di N rispetto all’indicatore D , indicata con

E( N / D ) , è il numero aleatorio dipendente da D che assume il valore 4 , cioè E(N/ D ) , se D =
0 (evento di probabilità ½) ed il valore 3 , cioè E(N/ D ) , se D = 1 (evento di probabilità ½) .
Avendo perciò specificato i valori possibili del n.a. E( N / D ) e le corrispondenti probabilità, esso
è compiutamente noto. Si osservi infine che risulta
E[ E( N / D ) ] = 4 . ½ + 3 . ½ = 3.5 = E( N ) .
Lasciando al lettore i facili calcoli, ci limitiamo ad affermare che la funzione di regressione
dell’indicatore D rispetto ad N, E( D / N ) , è il n.a. che assume valore 1 quando N assume valori
dispari e 0 quando N è pari ; ovviamente, risulta E [E( D / N ) ] = ½ = P (D) .
Un altro esempio di funzione di regressione
21
Supponiamo che due n.a. X e Y abbiano una distribuzione congiunta di tipo normale bivariato
con valori medi E(X) ed E(Y), varianze V(X) e V(Y) e covarianza Cov(X,Y) = c ; si prova che le
due distribuzioni condizionate sono entrambe normali univariate con parametri espressi dalle:
c
. y  E (Y ) 
V (Y )
;
V ( X / Y  y)  V ( X ) 
c
. x  E ( X ) 
V (X )
;
V (Y / X  x)  V (Y ) 
f ( x / y)  E ( X / Y  y)  E ( X ) 
f ( y / x)  E (Y / X  x)  E (Y ) 
c2
.
V (Y )
c2
.
V (X )
Poiché i primi momenti di queste densità subordinate sono i possibili valori delle corrispondenti
funzioni di regressione, si ha:
c
c
;
E( X / Y )  E( X ) 
.Y  E (Y )
E (Y / X )  E (Y ) 
. X  E ( X ) .
V (Y )
V (X )
Modelli di regressione lineare
Operativamente, l’analisi di regressione viene usata per studiare l’influenza del n.a. X sul valor
medio di Y; se si volesse analizzare l’influenza di X su Y bisognerebbe far ricorso alla
distribuzione subordinata di Y rispetto X, la qual cosa risulta decisamente più impegnativa (si
consideri che i valori della funzione di regressione sono i momenti primi delle distribuzioni
subordinate di Y rispetto ai possibili valori di X: nell’analisi di regressione gli altri infiniti momenti
di quelle distribuzioni dunque non intervengono !).
Nelle applicazioni concrete, il più delle volte non si ha nessuna idea sulla forma funzionale 
della funzione di regressione E(Y/X) = (X) per cui è necessario introdurre un’ipotesi di lavoro per
 : ogni ipotesi su tale forma funzionale (per esempio (X) = . ln X , oppure (X) = exp{-a.X},
oppure (X) =    . X   . X 2 ,………..) costituisce un modello di regressione. Il modello di
gran lunga più usato per la sua semplicità è quello di regressione lineare (affine)
E(Y/X) =  0   1 . X .
Una forma equivalente dello stesso modello lineare è Y   0  1 . X  U , ove U = Y – E(Y/X) ;
utilizzando le suddette proprietà della funzione di regressione si prova che risulta E(U) = 0 e
Cov (U , X) = 0 . Si osservi che mentre Y e X sono variabili osservabili, non lo è la variabile U.
La stima dei parametri del modello di regressione,  0 , 1 e Var (U )   U2 , si effettua con uno
dei procedimenti statistici di stima puntuale: il metodo di massima verosimiglianza, il metodo dei
minimi quadrati, etc. Nel seguito useremo il secondo dei due, e cioè il metodo dei minimi
quadrati, che ora brevemente richiamiamo.
Supponendo di poter conoscere i valori di T coppie di variabili osservabili ( X t , Yt ) e avendo
introdotto per esse il modello di regressione lineare Yt   0  1 . X t  U t , t = 1,……….,T ,
accompagnato dall’ipotesi abituale U t WN (0,  U2 ) , si stimano i due coefficienti,  0 e 1 , con
quei valori numerici che rendono minima la funzione
T
f (  0 , 1 )   ( yt   0  1.xt ) 2 ;
t 1
22
si prova che i valori che annullano le due derivate parziali di f ( 0 , 1 ) sono le coordinate del punto
di minimo.
La condizione di annullamento delle due derivate parziali può essere espressa con notazione
matriciale dalla ( M '.M ).   M '. y ove


1 x1 
1 x 
2
;
M  (1, X )  
 




1 xT 
 

se M ha caratteristica massima, e cioè 2, si ottiene la soluzione     0   ( M '.M ) 1.M '. y .
 


1 

Si prova che gli stimatori B0 e B1 dei due coefficienti  0 e 1 sono lineari, corretti,
consistenti, sufficienti e i più efficienti tra tutti gli stimatori lineari e corretti. Si ottiene così la



retta di regressione stimata Y   0   1 . X . La correttezza è dimostrata in appendice.
Se il modello di regressione lineare affine contiene k  1 variabili esplicative (e si parla allora di
modello di regressione multipla in contrapposizione col precedente che è detto di regressione
k
semplice) e cioè se risulta Yt  0    j . X tj  U t , l’espressione del vettore di stime OLS per i
j 1

coefficienti  j è ancora quella vista sopra e cioè   ( M '.M ) 1.M '. y ove ora la matrice M ha k+1


colonne ed è supposta avere caratteristica massima (e cioè k+1, nell’ipotesi che sia T  k+1).
Per quanto riguarda la stima della varianza incognita  U2 comune a tutte le perturbazioni
aleatorie U t (ipotesi di omoscedasticità) il metodo OLS non è in grado di fornire alcun valore;
supponendo che le perturbazioni abbiano distribuzione normale, cioè che U t

metodo di massima verosimiglianza fornisce lo stimatore  U2 
NWN (0,  U2 ) , il
k 

1 T
. (Yt   0    j . X tj )2 che si
T t 1
j 1
dimostra essere consistente.
Ricordiamo a questo punto la proprietà di consistenza di uno stimatore ST (costituito da una
qualche funzione di T variabili osservabili) di un qualche parametro incognito θ: ST è consistente
se p-lim ST = θ al divergere di T. Il significato della condizione p-lim ST = θ è il seguente: fissato
arbitrariamente un ε > 0, accade che lim Pr  ST       0 per T   . In termini discorsivi, uno
stimatore è consistente se al crescere del numero T delle variabili osservabili diminuisce la
probabilità di commettere errori di stima maggiori di ε in modulo. Si osservi che ciò che diminuisce
al crescere dell’informazione campionaria (rappresentata dal numero T delle osservazioni) non è
l’errore di stima, ma la probabilità che l’errore ST   sia maggiore di ε !
Alcune proprietà concernenti il modello di regressione lineare semplice e gli stimatori OLS
dei coefficienti.
23
Enunceremo alcuni risultati che si riveleranno utili nel seguito.





Si verifica facilmente che la retta di regressione stimata Y   0   1 . X contiene il punto ( x, y ) le
cui coordinate sono le medie aritmetiche dei valori osservati.




Per quanto concerne i residui U t  yt  y t  yt   0   1 .xt sussistono le relazioni seguenti,
T
facilmente dimostrabili:

U
0;
t

T
U
t 1
t 1
t
.xt  0 ;

T
(y
t
t 1



T


 y t ).( y t  y )   U t .( y t  y ) 0 .
t 1
B 
3) Si prova che lo stimatore vettoriale B   0   ( M '.M )1.M '.Y ha vettore medio E( B ) = 




 B1 

(cioè B è uno stimatore corretto, o non distorto) e matrice di dispersione Cov (  ) =


 .( M ' M )
2
U
1
, essendo 
2
U
= Var ( U t ) .
Se si assume che il vettore delle perturbazioni aleatorie U abbia una distribuzione congiunta

normale N (0; U2 .I T ) , riesce B  N (  ;  U2 .( M ' M ) 1 ) . Si prova inoltre che lo stimatore



OLS B  ( M '.M ) 1.M '.Y coincide con lo stimatore di massima verosimiglianza per il vettore


dei coefficienti di regressione  nell’ipotesi U  N (0; U2 .I T ) .




T
t 1



T
T


 (Yt  Y ) 2   (Yt  Y t ) 2   (Y t  Y ) 2 ed il
In forza dell’ultima proprietà del punto 2) risulta
t 1
t 1

rapporto  (Y t  Y ) 2 /  (Yt  Y ) 2 , indicato con il simbolo R 2 e denominato indice di
determinazione , viene usato come indice di affidabilità del modello di regressione stimato nel
senso che quanto più prossimo ad 1 risulta essere R 2 , tanto più affidabile è ritenuto il modello
stimato . Si noti che la definizione data di R 2 è valida anche per i modelli di regressione
multipla.
Sussiste un’interessante rappresentazione geometrica delle stime OLS di un modello di regressione
lineare: scrivendo il sistema di equazioni Yt   0  1 . X t  U t , t = 1,……….,T , come
Y  M .   U si consideri la totalità L = { b0 .1 b1. X ; b0 , b1  R } dei vettori che sono





combinazioni lineari delle due colonne di M . Poiché in genere il vettore Y non appartiene allo

spazio lineare L , si può considerare il vettore “proiezione ortogonale di Y su L “ , nel seguito







indicato con Y . Esso è definito da due proprietà: Y  L e Y  Y L (da intendersi come:

Y  Y ortogonale ad ogni vettore di L ) e coincide, come afferma il “principio di ortogonalità”,

con l’elemento di L a minima distanza da Y ( la distanza di un qualunque elemento di L ,



b0 .1 b1 . X , da Y è espressa dalla  (Yt  b0  b1 . X t ) 2 



 t





1/ 2
).
Si prova facilmente che è Y   0 .1  1 . X  M .  , cioè che le stime dei minimi quadrati dei




24
coefficienti di regressione  0 e 1 sono i pesi della combinazione lineare delle due colonne

di M che esprime il vettore Y . Riteniamo utile approfondire questa rappresentazione

geometrica nel prossimo paragrafo; si capirà anche perché il metodo di stima dei minimi
quadrati (o dei minimi quadrati ordinari, indicato brevemente col simbolo OLS) è anche
denominato “metodo di minima distanza”.
Su una rappresentazione geometrica per modelli di regressione lineare .
La seguente rappresentazione geometrica avrà luogo nello spazio ambiente R T delle sequenze
ordinate di T numeri reali. In esso la lunghezza (o norma) di un vettore z  ( z1 ,........, zT ) ' è definita

dalla z  ( zt2 )1/ 2 ; la distanza tra due vettori z e v è definita dalla d( z , v ) = ( ( zt  vt )2 )1/ 2 ;


t
 

la condizione di ortogonalità tra z e v è espressa dalla


 z .v
t
t
t
 0 ed infine la misura
t
dell’angolo  tra z e v è data dalla cos( )   zt .vt ( zt2 )1/ 2 .( vt2 )1/ 2  .


Con riferimento al sottospazio L ={ 0 .1 1. x ; 0 , 1  R } di R T dimostreremo ora il


cosiddetto “principio di ortogonalità” il cui enunciato può essere espresso al modo seguente:
Teorema: considerato un qualunque vettore y di RT , il vettore di L a minima distanza da


esso coincide con la proiezione ortogonale di y su L , y .





Dimostrazione: le proprietà caratteristiche di y sono 1) y  L e 2) y  y  L ; per la 1) si può






scrivere y =  0 .1 1. x e per la 2) la differenza y  y  y   0 .1 1. x dev’essere ortogonale ai due








generatori di L e cioè i vettori 1 e x . Queste due ultime condizioni di ortogonalità sono espresse


dalle stesse equazioni che si ottengono uguagliando a 0 le derivate parziali rispetto a  0 e 1 della
funzione f (  0 , 1 ) =
T
 (Y  
t 1
t
0
 1. X t ) 2 e cioè :
T .0  1. xt   yt e 0 . xt  1. xt2   xt . yt le cui soluzioni sono le già note stime dei





minimi quadrati  0 e  1 . Quindi si può concludere affermando che riesce y =  0 .1  1 . x . La



T
dimostrazione del principio di ortogonalità si consegue notando che la funzione
(y
t 1
t
  0  1.xt ) 2
esprime il quadrato della distanza tra y e il generico vettore  0 .1 1. x del sottospazio L e che





l’elemento di L a distanza minima da y è  0 .1  1 . x  M .  .



25






Osservando che Y  M .   M ( M '.M ) 1 .M '.Y , si ricava che la matrice P  M (M '.M ) 1 .M ' è

la “matrice di proiezione ortogonale di vettori di R T sul sottospazio L”. Essa definisce
un’applicazione lineare di R T in L che può essere denominata “proiettore ortogonale su L”. Inoltre,
si prova facilmente che sussistono le uguaglianze P  P 2  P' .
La proiezione ortogonale di y su L determina la seguente decomposizione ortogonale del

vettore y :








y = y + ( y  y)  y  U



e importa notare che sussiste la seguente generalizzazione del teorema di Pitagora
2
 2
 2


y  y U

. Si osservi infine che è : R 2 


 2

2
 ( yt  y)2 /  ( yt  y)2 = y / y .


Approssimazioni lineari dei minimi quadrati per numeri aleatori.
La rappresentazione geometrica per vettori T-dimensionali di numeri reali che abbiamo
presentato nel paragrafo precedente si può riproporre per numeri aleatori e vettori di numeri
aleatori; è quello che si vedrà in questo paragrafo.
Si consideri lo spazio lineare S (di dimensione infinita) dei numeri aleatori X, Y, Z, …… che
supponiamo dotati di speranza matematica nulla e momento secondo finito. Sia X il n.a. di interesse
per il quale si voglia costruire una stima (o previsione o approssimazione) in termini di una qualche
funzione dei n.a. Y1 ,........., Yn costituenti il vettore aleatorio Y.
Se non si introducono vincoli particolari per la funzione (Y) stimatore, eccetto quello E[(Y)]2
  , si prova che la funzione ottimale, nel senso dei minimi quadrati, è la funzione di regressione
E( X/Y ) ; formalmente, per ogni ammissibile funzione (.) si ha :
E X  E ( X / Y )  E X   (Y ) .
2
2
Se per (Y) si impone il vincolo di linearità , cioè se si assume che (Y) sia una funzione

n
lineare,
 .Y
j 1
j
j
, dei n.a. Y1 ,........., Yn , si devono trovare gli n coefficienti  j , j = 1,…….,n , per
i quali risulta:
2
2





E  X   j .Y j   E  X   j .Y j 
j
j




in corrispondenza ad ogni n-pla 1 ,........., n di numeri reali.
26




Si dimostra facilmente che il vettore dei coefficienti ottimali  è dato da  = [Cov(Y)] -1. E(X.Y)
sotto la condizione che la matrice di dispersione di Y sia invertibile (il che accade se i n.a. Yj sono
linearmente indipendenti).
Per dimostrarlo si tratta di porre uguali a 0 le derivate parziali rispetto ad ogni  j di
2



E  X   j .Y j  : il sistema lineare che si ottiene ha l’espressione Cov (Y) .  = E( X.Y ) e la

j


sua soluzione è unica se Cov (Y) è invertibile . Il previsore ( o stimatore o approssimatore ) lineare

ottimale per X è allora X  (Y1 ,........., Yn ).Cov(Y ) .E ( X .Y ) .
1

Tale numero aleatorio ha un’interessante interpretazione geometrica: X coincide con la
proiezione ortogonale , P ( X / L) ,di X sul sottospazio lineare L di S generato dai n.a. Y1 ,........., Yn .
Per attribuire un significato preciso a tale proposizione è necessario introdurre le seguenti
definizioni: in S la lunghezza (o norma) del vettore geometrico associato ad un n.a. Z è definita
1/ 2
1/ 2
dalla Z  Var (Z ) ; la distanza tra due n.a. Z e V è definita dalla d(Z,V) = Var ( Z  V ) ; la
condizione di ortogonalità tra Z e V è espressa dalla E( Z.V ) = 0 ( poiché E(Z) = E(V) = 0, Z e V
sono ortogonali se Cov(Z,V) = 0 ).

La suddetta interpretazione geometrica di X si consegue applicando il “principio di ortogonalità”
il cui enunciato in questo caso stabilisce che considerato un qualunque n.a. X di S, il n.a. di L a
minima distanza da esso coincide con la proiezione ortogonale di X su L quando si osservi che
2


E  X   j .Y j  esprime il quadrato della distanza tra X ed il generico elemento del sottospazio L
j


.
Importa osservare che mentre l’utilizzazione dell’approssimatore ottimale di X , costituito dalla
funzione di regressione E(X/Y), richiede la conoscenza della distribuzione congiunta
F( x, y1 ,........, y n ) dei n.a. considerati, o almeno della distribuzione subordinata F( x / y1 ,........, y n ) ,

la costruzione dell’approssimatore lineare ottimale di X, costituito dal n.a. X  P( X / L) , richiede
la conoscenza (o meglio la specificazione) dei soli momenti del primo e secondo ordine dei n.a.
X , Y1 ,........, Yn . Una seconda osservazione rilevante è che per le distribuzioni implicanti una
funzione di regressione E(X/Y) lineare negli elementi di Y accade che gli approssimatori E(X/Y) e

X  P( X / L) coincidono ; le distribuzioni più note aventi questa caratteristica sono quella normale
e quella Student – t multivariate.
APPENDICE: ALCUNE DIMOSTRAZIONI
Proprietà dello stimatore vettoriale OLS B per i coefficienti di regressione.

1) Correttezza di B .

27
Indicato con B = (M’.M)–1.M’. Y lo stimatore del vettore dei coefficienti di un modello di


regressione lineare, ove la matrice M, e quindi anche (M’.M)–1.M’, è considerata nota, e ricordando
che è Y = M.  + U si ha : B = (M’.M)–1.M’M.  + (M’.M)–1.M’ U =  + (M’.M)–1.M’ U .








E’ allora:
E( B ) = E[(M’.M)–1.M’ Y ] = E{  + (M’M)–1.M’ U } = E(  ) + (M’M)–1.M’.E( U ) =  ,







poiché il parametro vettoriale incognito  non è considerato aleatorio per cui è E(  ) =  , mentre



per ipotesi è E( U ) = 0 .


2) Momenti secondi di B .

Indicando con Cov ( B ) la matrice di dispersione, o matrice dei momenti secondi, dello stimatore

vettoriale B , per definizione è Cov ( B ) = E { [ B - E( B )] . [ B - E( B )]’ }= E { [ B -  ] . [ B -  ]’}.










Poiché, come visto sopra, è B -  = (M’.M)–1.M’ U otteniamo le:



Cov ( B ) = E { [ B -  ] . [ B -  ]’} = E { [(M’.M)–1.M’ U ] . [(M’.M)–1.M’ U ] ‘} =






–1

–1
= E { (M’.M) .M’ U . U ’M. (M’.M) } = (M’.M) .M’. E ( U . U ’) . M. (M’.M)–1 .

–1



Le ipotesi sul vettore di perturbazioni U determinano la E ( U . U ’) =  .I N per cui si ha:



2
U
Cov ( B ) =  U2 .(M’.M)–1 .

Se il modello di regressione lineare è semplice, cioè se esiste un’unica variabile esplicativa, e se
si dispone di N osservazioni sulla variabile dipendente Yt e sulla variabile esplicativa Xt allora la
matrice M ha due sole colonne e la matrice (M’.M)–1 ha l’espressione:
–1
(M’.M)
 N
= 
 x t
 t
x
x
t
t
1

  xt2
1
 =
. t
2
2 

t

   xt

N . xt2    xt   t
t
 t

t
  xt 
.
t
N 

Moltiplicando per  U2 questa matrice si ottiene Cov ( B ) per l’esempio considerato. Poiché però

il valore di 
2
U
non è noto bisognerà sostituirlo con un valore di stima, solitamente
2


1


.
y






t
1
2 .xt 
N 2 t 

28
PARTE III. MODELLI ECONOMETRICI AD EQUAZIONI SIMULTANEE
L’ econometria è la disciplina il cui scopo principale è quello di fornire rappresentazioni
quantitative delle relazioni tra le variabili economiche, utilizzabili usualmente a scopo applicativo
(per esempio a fini previsionali).
Un modello economico è una rappresentazione semplificata del fenomeno economico di interesse
che assume il più spesso la forma di un sistema di equazioni e che mira ad evidenziare le sue
caratteristiche qualitative essenziali.
C (t )  a  b.Y (t ), 0  b  1;

Esempio di modello macroeconomico:  I (t )  c  d .Y (t  1)  e.R(t );
 Y (t )  C (t )  I (t )  G(t ).

ove C(t) = consumo aggregato, Y(t) = produzione aggregata, I(t) = investimento aggregato,
R(t) = tasso di interesse, G(t) = spesa della pubblica amministrazione in beni e servizi.
La specificazione di un modello come il precedente richiede che si precisi quali variabili
osservabili sono da considerarsi endogene e quali esogene : per il modello indicato assumeremo
che le variabili endogene siano C(t), I(t) e Y(t) e che invece G(t) ed R(t) siano esogene.
Il suddetto modello è chiaramente lineare, completo (tante equazioni quante le variabili
endogene) e dinamico (almeno una delle variabili, Y(t-1), è riferita ad un’epoca diversa da quella
corrente t).
Le prime due equazioni sono dette equazioni “di comportamento”, l’ultima è una “condizione di
equilibrio”; altri tipi di equazioni possono essere “equazioni di definizione”, “equazioni tecniche”,
etc.).
Un modello econometrico: mira a “raccordare” il modello economico con il fenomeno reale
attraverso l’introduzione, nelle equazioni di comportamento, di variabili atte a rappresentare
cumulativamente l’influenza sulle variabili endogene di tutti i fattori trascurati dal modello. Le
nuove variabili, denominate “perturbazioni” o “errori” o “disturbi”, sono numeri aleatori (cioè
numeri non noti e non osservabili) per i quali si richiede una qualche specificazione probabilistica.
Indicando le perturbazioni aleatorie con U(t) e V(t), la versione econometrica del modello su
esposto è la seguente:
C(t) = a + b.Y(t) + U(t),
0  b  1,
I(t) = c + d.Y(t-1) + e.R(t) + V(t),
Y(t) = C(t) + I(t) + G(t).
La più frequente specificazione probabilistica per le perturbazioni si limita ad assumere che sia:
E [U(t)]  0, Var [U(t)]  2u ,
E [V(t)]  0, Var [V(t)]  2v ,
Cov [U(s),V(t)]  0 se s  t ,
Cov [U(s),U(t)]  0 ;
Cov [V(s),V(t)]  0 ;
Cov [U(t),V(t)]   .
I tre parametri diversi da zero,  U2 ,  V2 e  , come anche i coefficienti a, b, c, d, e , non sono in
generale noti e devono essere stimati con procedimenti statistici di vario tipo (metodi dei minimi
29
quadrati ordinari, dei minimi quadrati indiretti, dei minimi quadrati a due stadi, di massima
verosimiglianza, etc.).
Da un punto di vista formale si può pensare il suddetto modello econometrico come un
“trasformatore” il cui input è costituito dalle sequenze {R(t)},{G(t)}, {U(t)}, {V(t)} e il cui output
è costituito dalle sequenze {C(t)}, {I(t)} e {Y(t)} . Dal momento che {U(t)} e {V(t)} sono famiglie
di numeri aleatori, cioè processi stocastici, saranno aleatorie anche le tre sequenze dell’output;
inoltre, poiché la specificazione probabilistica delle perturbazioni su menzionata riguarda solo i
momenti fino al secondo ordine, per le sequenze dell’output si potranno corrispondentemente
determinare i soli momenti del primo e secondo ordine (cioè valori medi, varianze e covarianze).
Si è detto che il modello presentato è dinamico a causa della presenza di Y(t-1): esso può quindi
fornire le traiettorie temporali delle tre variabili endogene in corrispondenza ad ogni fissata
traiettoria delle variabili esogene G(t) ed R(t) . A rigore, poiché trattasi di un modello stocastico,
esso può fornire le funzioni “valor medio” (che raccoglie i valori medi) e di “covarianza” (che
raccoglie le varianze e le covarianze) per ciascuno dei tre processi stocastici {C(t)}, {I(t)} e {Y(t)}.
Per ottenerle bisogna risolvere opportune “equazioni alle differenze finite” ricavate dal modello su
esposto nel modo che vedremo.
Distingueremo per i modelli dinamici (e lineari) la “forma strutturale” (costituita nel nostro
esempio dalle tre equazioni su riportate) , la “forma ridotta” (che esprime ogni variabile endogena
in funzione di sole variabili esogene, perturbazioni e variabili endogene ritardate rispetto al periodo
corrente t) e la “forma finale” ( costituita appunto da equazioni alle differenze finite). In questa
introduzione ci limitiamo ad indicare la forma ridotta del suddetto modello:
C(t) = (1-b)-1.{[a + b.c.Y(t-1) + b.d.R(t) + b.G(t)] + [U(t) +b.V(t)]} ;
I(t) = c.Y(t-1) + d.R(t) + V(t) ;
Y(t) = (1-b)-1. {[a + c.Y(t-1) + d.R(t) + G(t)] + [U(t) + V(t)]} .
30
Dal modello economico (deterministico) al modello econometrico (stocastico).
1) Modello reddito - spesa (o del moltiplicatore) in versione statica.
Forma strutturale:
Forma ridotta:
C(t) = a + b.Y(t) ,
Y(t) = C(t) + Z(t) .
C(t) =  + .Z(t) ,
 = a / (1-b) ,
Y(t) =  + .Z(t) , ove  = b / (1-b) ,
 = 1 / (1-b) .
I valori C(t) e Y(t) espressi dalla forma ridotta sono interpretabili come livelli di equilibrio
corrispondenti al valore assunto dalla variabile esogena Z(t). Se si devono stimare i parametri a e b
(e , , ) sulla base di valori osservati {c(t), y(t) ; t = 1, 2, ........., T} il suddetto modello va
“raccordato” con il (complicato) fenomeno reale tenendo conto, in qualche modo, dei fattori non
considerati dal modello: il modo più semplice è quello di riassumere il loro effetto globale sulle
variabili endogene mediante perturbazioni aleatorie. La versione econometrica è la seguente:
Forma strutturale:
C(t) = a + b.Y(t) + U(t) , Y(t) = C(t) + Z(t) ,
E[U(t)]  0, Var[U(t)]  2 , Cov[U(s),U(t)]  0 .
Forma ridotta:
C(t) =  + .Z(t) + W(t) , Y(t) =  + .Z(t) + W(t) ,
ove W(t) = U(t) / (1-b) = .U(t) .
Le variabili endogene C(t) e Y(t), essendo funzioni lineari delle variabili aleatorie W(t), sono
anch’esse quantità aleatorie per le quali riesce possibile soltanto una valutazione probabilistica: dal
momento che è E[W(t)] = 0 e Var[W(t)] = 2.Var[U(t)] si ottiene
E[C(t)] =  + .Z(t) ,
E[Y(t)] =  + .Z(t) ,
Var[C(t)] = Var[Y(t)] = 2.Var[U(t)] .
2) Una versione dinamica del modello reddito – spesa.
Forma strutturale:
C(t) = a + b.Y(t-1) + U(t) , Y(t) = C(t) + Z(t) ,
E[U(t)]  0 , Var[U(t)]   2 , Cov[U(s),U(t)]  0 .
Forma ridotta:
C(t) = a + b.Y(t-1) + U(t) ,
Forma finale:
C(t) = a + b.C(t-1) + b.Z(t-1) + U(t) , Y(t) = a + b.Y(t-1) + Z(t) + U(t) .
Y(t) = a + b.Y(t-1) + Z(t) + U(t) .
Le due equazioni della forma finale sono equazioni alle differenze finite del primo ordine,
lineari, con coefficienti costanti, stocastiche. Le loro soluzioni, fissate che siano due condizioni
iniziali (per esempio C(0) = c e Y(0) = y) e supponendo nota la successione dei valori {Z(t); t  0}
dell’unica variabile esogena, sono due processi stocastici {C(t); t  1} e
{Y(t); t  1} definiti dalle:
t
t
i 1
i 1
t
t
i 1
i 1
C (t )  bt .c   bt  i .si   bt  i .U (i ) ,
ove s i  a  b.Z (i  1) ;
Y (t )  bt . y   bt  i .ri   bt  i .U (i ) ,
ove ri  a  Z (i) .
31
Tenendo presenti le specificazioni stocastiche per le perturbazioni U(t) nella forma strutturale, si
possono facilmente ottenere le due funzioni valor medio e le due funzioni di covarianza per i due
processi. In particolare, le funzioni valor medio hanno le espressioni seguenti:
t
E[C(t)] = bt .c   bt  i .si ;
i 1
t
E[Y(t)] = bt . y   bt  i .ri .
i 1
Un problema importante sul piano teorico riguarda l’eventuale convergenza di tali funzioni al
divergere di t. Supponendo che le due successioni numeriche note { rt } ed { st } siano costanti nel
tempo, il che accade se {Z(t)} è costante (per esempio identicamente uguale a z), si ha che
condizione sufficiente per la convergenza è che sia -1  b  1 ; i due limiti, per t   , hanno le
espressioni:
lim E[C(t)] = s / (1-b) = (1-b)–1.(a + b.z) ;
lim E[Y(t)] = r / (1-b) = (1-b)–1.(a + z) .
3) Il modello moltiplicatore - acceleratore di P. Samuelson.
Nelle intenzioni di P. Samuelson, l'obiettivo del modello era quello di illustrare il fatto che un
andamento approssimativamente ciclico delle variabili endogene C(t), I(t), Y(t) poteva manifestarsi,
anche se la variabile esogena G(t) rimaneva costante nel tempo, in corrispondenza ad opportuni
valori dei parametri b e c .
Forma strutturale: C(t) = b.Y(t-1) + U(t) , I(t) = c[C(t) - C(t-1)] + V(t) , Y(t) = C(t) + I(t) + G(t) .
Forma ridotta:
C(t) = b.Y(t-1) + U(t) , I(t) = b.c.[Y(t-1) - Y(t-2)] + [c.U(t) - c.U(t-1) + V(t)] ,
Y(t) = b.(1 + c).Y(t-1) - b.c.Y(t-2) + G(t) + [(1 + c).U(t) - c.U(t-1) + V(t)] .
Forma finale:
C(t) - b.(1 + c).C(t-1) + b.c.C(t-2) = b.G(t-1) + W1 ( t) ,
I(t) - b.(1 + c).I(t-1) + b.c.I(t-2) = b.c.[G(t-1) - G(t-2)] + W2 ( t) ,
Y(t) - b.(1 + c).Y(t-1) + b.c.Y(t-2) = G(t) + W3 ( t) ,
ove, come facilmente si verifica, le tre perturbazioni aleatorie Wi ( t), i = 1,2,3 , sono combinazioni
lineari dei valori correnti e ritardati delle U(t) e V(t) , aventi quindi valor medio nullo.
Le equazioni della forma finale sono equazioni alle differenze finite del secondo ordine,
lineari, con coefficienti costanti, stocastiche. Le soluzioni delle singole equazioni corrispondenti a
fissate condizioni iniziali (per esempio, valori numerici assegnati per due periodi successivi per
ogni variabile endogena) e ad un fissato “sentiero temporale” per G(t) sono processi stocastici
{C(t)}, {I(t)} e {Y(t)} per i quali si possono determinare la funzione valor medio e quella di
covarianza se per le perturbazioni aleatorie {U(t)} e {V(t)} si è fatta una specificazione
probabilistica al livello dei momenti del primo e secondo ordine (cioè mediante valori medi,
varianze e covarianze).
Dunque, fissati che siano il “sentiero temporale” per tutte le variabili esogene e le condizioni
iniziali per le variabili endogene, un modello economico, dinamico e stocastico “trasforma” le
funzioni valor medio e le funzioni di covarianza delle perturbazioni aleatorie nelle funzioni valor
medio e di covarianza dei processi stocastici delle variabili endogene.
32
In alternativa alla risoluzione di ciascuna equazione alle differenze finite con il metodo
tradizionale, è possibile procedere al modo seguente: rappresentato il modello di Samuelson in
forma vettoriale,
B0 . yt  B1. yt1  C.x t  et ,
e cioè
0 0 C(t)  0 0  b C(t - 1)   0 
1
U(t) 
 c 1 0. I(t)   c 0 0 . I(t - 1)    0 .G(t) = V(t)  ,


 

  


  1  1 1 Y(t)  0 0 0  Y(t - 1)  1
 0 
si ricava la forma ridotta trovando la matrice inversa B-10 e moltiplicando per essa, a sinistra, i due
membri dell'uguaglianza, ottenendo così l'espressione
y t   B-1o . B1 . y t 1  B-10 . C. x t  B-10 . e t = 1. yt1  2 .x t  t .
Si tratta di una equazione vettoriale alle differenze del primo ordine nella successione incognita di
vettori { y t }, lineare, a coefficienti costanti, stocastica; fissata una condizione iniziale (per esempio
y0  y *) e un sentiero temporale per { x t } si determina il processo stocastico vettoriale
t 1
t 1
h 0
h 0
y t  1t . y *   1h .2 .x th   1h . th
per il quale la funzione valor medio ha l'espressione
t 1
E(y t )  1t . y *   1h . 2 .x th .
h 0
Le matrici 1h .2 contengono i moltiplicatori “d’impatto” (h = 0) ed i moltiplicatori “ritardati”
di h periodi (h  0) : l’elemento  ij in esse indica la variazione dell’ i-ma variabile endogena nel
periodo t-mo causata da una variazione unitaria (e di durata unitaria) nella j-ma variabile esogena
avvenuta nel periodo t-h .
Addizionando più moltiplicatori ritardati, per esempio quelli relativi da h = fino ad h = n si
ottengono i moltiplicatori “interim” che forniscono la variazione dell’ i-ma variabile endogena nel
periodo t-mo determinata da una variazione unitaria nella j-ma variabile esogena durata n periodi.
Se la suddetta somma dei moltiplicatori ritardati converge ad un limite finito al divergere di n tale
limite è denominato “moltiplicatore asintotico”.
Problema di T. Haavelmo : stima della propensione al consumo nel modello reddito–spesa
statico; metodo di stima ILS (indirect least squares).
Si afferma che con la risoluzione di questo problema ha avuto inizio l’Econometria come
disciplina distinta dalla Statistica o dalla Statistica economica. L’economista scandinavo T.
Haavelmo ha ricevuto il premio Nobel per l’Economia nell’anno 1946 (?).
Con riferimento al modello econometrico reddito – spesa nella versione statica
C(t) = a + b.Y(t) + U(t) ,
Y(t) = C(t) + Z(t)
si supponga che i parametri a e b siano incogniti; per la loro stima si potrebbe pensare di applicare il
metodo di stima dei minimi quadrati (OLS  Ordinary Least Squares) all’equazione lineare della
forma strutturale C(t) = a + b.Y(t) + U(t) .
33

Denotando con c*(t ) e y*(t ) gli scarti dei valori osservati c(t) e y(t) dalle medie aritmetiche c


e, rispettivamente, y si ha che b , la stima OLS del coefficiente b (propensione marginale al
consumo), è data dal rapporto

T
b=
T
 c *(t ). y *(t ) [ y *(t )]
t 1
2
.
t 1
Si dimostra che questo stimatore non è corretto e neanche consistente, per cui esso non è
affidabile dal punto di vista statistico.
Un’altra possibilità è quella di applicare il metodo OLS alle equazioni della forma ridotta per la
stima dei parametri  e , oppure di  e  : per quanto riguarda, in particolare, le stime dei
coefficienti angolari  e  si ha:

=
T

T
 c *(t ).z *(t )
[ z *(t )]2
t 1
e
T
 y *(t ).z *(t )
 
t 1
t 1
T
[ z *(t )]
2
.
t 1
Si dimostra che questi stimatori sono invece entrambi corretti e consistenti e perciò affidabili.
Il metodo di stima dei minimi quadrati indiretti (ILS  Indirect Least Squares) consiste nella
determinazione delle stime dei parametri a e b della forma strutturale del modello a partire da quelle
dei parametri ,  e  della forma ridotta. Per quanto riguarda la propensione al consumo b ciò si


ottiene risolvendo l’equazione   b /(1  b) oppure l’equazione   1 /(1  b) : poiché la condizione
di equilibrio Y(t) = C(t) + Z(t) implica la medesima relazione per gli scarti y*(t) = c*(t) + z*(t) , è
facile verificare che da entrambe le suddette equazioni si ottiene il medesimo stimatore per b e cioè

T
T
t 1
t 1
b ILS  [ c *(t ).z *(t )] /[ y *(t ).z *(t )] .

Si prova che lo stimatore b ILS risulta essere corretto e consistente.
Nell’articolo “Methods of measuring the propensity to consume”, T. Haavelmo, uno dei
fondatori dell’econometria, utilizza dati macroeconomici per gli USA nel periodo 1922 – 1941 allo
scopo di stimare la propensione al consumo; la stima ottenuta con il metodo OLS è pari a 0.732 ,
mentre quella più affidabile ottenuta con il metodo ILS è pari a 0.672 .
Prendendo in considerazione un generale modello lineare B. yt  C.xt  et ( ove il vettore xt
contiene tutte le variabili predeterminate del modello e cioè quelle esogene e quelle endogene
ritardate) le cui matrici di coefficienti B e C abbiano qualche elemento non noto, il procedimento
dei minimi quadrati indiretti si articola nelle due seguenti fasi:
1) stima OLS dei parametri (elementi di ) della forma ridotta yt  B-1 .C.xt  B-1.et =
.xt   t corrispondente alla forma strutturale B. yt  C.xt  et ;


2) risoluzione del sistema  B 1 .C   , oppure del sistema equivalente  C  B .  , nelle

incognite costituite dagli elementi non noti delle matrici B e C , essendo  la matrice stimata
nella prima fase. Se tale sistema di equazioni lineari ammette un’unica soluzione allora il
metodo di stima ILS fornisce le stime richieste.
34
Il problema di identificazione (in una forma semplificata che trascura i momenti secondi delle
perturbazioni aleatorie) concerne la possibilità di ottenere stime univoche per alcuni o tutti i
parametri della forma strutturale assumendo noti (stimati) quelli della forma ridotta. Ci limitiamo,
in questa sede, ad enunciare una condizione necessaria per la stima univoca (mediante il
procedimento ILS) dei parametri incogniti della generica equazione della forma strutturale: il
numero delle variabili (endogene e/o predeterminate) escluse in quell’equazione dev’essere almeno
uguale al numero delle equazioni del modello meno una.
Un esempio concreto riguardante un modello già noto : il coefficiente di accelerazione c
dell’equazione degli investimenti nel modello di Samuelson non può essere stimato con il metodo

ILS (si dice che tale equazione è “sovraidentificata” ) perché per esso il sistema  C  B . 
comprende due equazioni linearmente indipendenti nell’unica incognita c.
Un altro esempio già noto: entrambi i parametri a e b del modello reddito – spesa in versione
statica possono essere stimati univocamente con il metodo ILS (si dice che l’equazione è
“esattamente identificata”).
Su alcuni procedimenti di stima per i parametri di modelli ad equazioni simultanee.
Prendiamo in considerazione, a titolo esemplificativo, un’equazione dell’investimento aggregato
che tipicamente compare in un modello ad equazioni simultanee tipo IS-LM:
I (t )   1 .C (t )  C (t  1)   2 .R(t )   3 .R(t  1)  V (t ) ,
ove R(t) rappresenta un opportuno tasso di interesse a breve termine e V (t ) una perturbazione
aleatoria non osservabile. Si osservi che tale equazione generalizza quella del modello di Samuelson
nella quale non si considera esplicitamente il costo R (t ) degli investimenti. Sulla base di valori
osservati per T periodi di tempo e per tutte le variabili osservabili dell’equazione si voglia stimare i
parametri incogniti  j , j  1,2,3.
1) Procedimento OLS (Ordinary Least Squares) : è noto che la presenza a secondo membro delle
variabili endogene correnti C(t) ed R(t), correlate con V(t), rende statisticamente non affidabili
gli stimatori OLS per i coefficienti  j (si può provare che essi non sono né corretti nè

consistenti). Pertanto, il vettore di stime OLS ,  OLS  ( M 0 ' M 0 ) 1 M 0 ' I , non è da considerarsi

accettabile.
2) Procedimento ILS (Indirect Least Squares) : richiede la conoscenza completa del modello in
quanto la prima fase riguarda la stima OLS dei parametri della forma ridotta. Può avvenire però
che sussistano perplessità su qualcuna delle altre equazioni, particolarmente per quanto
concerne la loro specificazione dinamica, cioè la struttura dei ritardi delle variabili esplicative.
Inoltre, anche se le altre equazioni della forma strutturale fossero note, non è sicuro che la
suddetta equazione degli investimenti sia esattamente identificata, cioè che il sottosistema

concernente i parametri  j del sistema di equazioni  C  B .  fornisca un’unica soluzione
per essi.
35
3) Procedimento 2SLS (Two Stage Least Squares) : non richiede la conoscenza dettagliata delle
altre equazioni del modello, ma soltanto le variabili predeterminate che compaiono in tutte le
sue equazioni. Anch’esso, come il metodo ILS, si articola in due fasi: nella prima si tratta di
costruire “simulatori” o approssimatori (proxies) per tutte le variabili endogene correnti che
compaiono a secondo membro dell’equazione, e cioè C(t) ed R(t). Tali simulatori si
costruiscono mediante combinazioni lineari di tutte le variabili predeterminate del modello; nel
nostro caso i simulatori necessari (denotati con l’asterisco) sono i seguenti:
Y * (t )   0  1 .Y (t  1)   2 .R(t  1)   3 .G(t )   4 .M (t )  (t ) ,
R * (t )   0  1 .Y (t  1)   2 .R(t  1)   3 .G(t )   4 .M (t )   (t ) ,
supponendo che le variabili che compaiono a secondo membro siano tutte e sole le variabili
predeterminate del modello ( il che accade se, per esempio, l’equazione del consumo fa
dipendere C(t) solo da Y(t-1) come nel modello di Samuelson e se le variabili esogene sono
soltanto la spesa della Pubblica amministrazione G(t) e l’offerta di moneta M(t) ).
Indicata con M la matrice che contiene i valori osservati per le variabili predeterminate,
la prima fase si conclude con l’applicazione del metodo OLS per le stime dei vettori  e  :


  ( M ' M ) 1 M ' r .
  ( M ' M ) 1 M ' y






La seconda fase richiede la stima dei parametri (mediante il metodo OLS) dell’equazione
trasformata



I (t )   1 .C* (t )  C (t  1)   2 . R* (t )   3 .R(t  1)  V * (t )


ottenuta sostituendo i simulatori costruiti nella prima fase alle corrispondenti variabili endogene
correnti. Indicata con N la matrice dei valori delle variabili esplicative in quest’ultima
equazione riesce


 2 SLS
 ( N ' N ) 1 N ' I .

Si dimostra che i corrispondenti stimatori per le variabili  j trovati con questo procedimento di
stima sono consistenti.
Alcuni riferimenti bibliografici
M. Verbeek : Econometria. Zanichelli
R.S.Pindyck-D.L.Rubinfeld: Econometrics models and economic forecast McGraw-Hill (III ed.)
R.Golinelli: Metodi econometrici di base per l’analisi delle serie storiche. CLUEB, Bologna.
A.Gardini e altri: Econometria (due volumi). Franco Angeli.
36