Documento 128025

ELEMENTI DI ECONOMETRIA
Francesco Carlucci
Dip. di Economia Pubblica
Significato dell’Econometria:
Teoria economica + matematica + statistica
cy
economia :
relazioni tra le variabili c ed y
matem.
:
forma lineare
statist.
:
stima dei parametri  e 
E. come sintesi delle tre discipline
Può la teoria economica sviluppare ipotesi compiute?
Spesso le sue indicazioni sono solo un punto di part.
ESEMPIO
La relazione tra c e y è corrente?
ct
yt
E’ ritardata?
ct
yt-1
1
Quanti ritardi?
La forma mat. è lineare?
E se non è lineare, quale è la non lineare ottimale?
Potrebbe essere la log-lineare?
ln c = μ + ln y
Come si stimano μ e ? C’è un criterio di stima ottimale?
L’E. tenta di rispondere congiuntamente a questi quesiti.
In altre parole:
non un semplice strumento della teoria economica che
serve per applicarla ai dati, ma produttrice essa stessa di
teorie economiche
non un semplice strumento di verifica empirica per poter
scegliere tra ipotesi alternative, ma produttrice essa stessa
di ipotesi da valutare, di cui verificare la consistenza con la
realtà
Microeconometria e Macroeconometria
2
Obiettivi primari di questa disciplina sono:
i)
lo studio empirico di ipotesi economiche determinate
dalla teoria economica e di altre che l’E. stessa produce;
ii) l’analisi e la sintesi delle caratteristiche dei fenomeni
economici di cui si posseggono dati (analisi della
domanda, analisi di dati localizzati territ., ecc.);
iii) la sintesi descrittiva delle caratteristiche di fenomeni
economici sulla base di una teoria o anche dei soli dati
osservati (analisi delle serie storiche, analisi
congiunturali, ecc.);
iv) la costruzione di modelli formali che rappresentino la
realtà economica a vari livelli di aggregazione, per settori
più o meno specifici e per ripartizioni geografiche più o
meno ampie;
v)
l’uso di questi modelli per:
- l’analisi strutturale, vale a dire, a titolo esemplificativo,
la determinazione delle elasticità o delle propensioni,
marginali o medie;
- la
valutazione
delle
politiche
economiche
effettivamente realizzate e l’analisi di strategie
alternative sulla base di simulazioni di dinamiche
economiche diverse;
- la previsione dell’andamento temporale di variabili
economiche ed aziendali;
3
Relazioni dell’E. con :
Economia matematica
Statistica economica
Informatica
Struttura dei corsi di E.:
I – introduttivo
(Elementi di Econometria)
II – avanzato (Econometria)
III – Modelli di serie storiche economiche e finanziarie
Suddivisione in:
parte (teorica) metodologica con esercitazioni :
Propedeuticità:
-
analisi empirica con dati reali ed
interpretazione dei risultati
-
alfabetizzazione informatica
-
uso dei programmi di calcolo
-
elaborazione delle tesine in ogni corso
Nessuna istituzionale, ma (consigliate)
- Economia politica (macro)
- Matematica generale
- Statistica
4
Utilità del corso:
- in aziende manifatturiere e commerciali
(previsione, finanza, marketing)
- aziende di credito e di servizi in generale
- uffici studi
- prosecuzione degli studi in Italia ed all‘estero
- dispense del corso: Lezioni di Analisi econometrica
(scaricabili dal materiale didattico del sito Web:
dep.eco.uniroma1.it/~carlucci)
- dispense metodologiche per tutti i corsi: Traccia per un
corso di Econometria
(scaricabili dal materiale didattico del sito Web,
dep.eco.uniroma1.it/~carlucci)
- monografie citate nelle dispense consigliate (soltanto) per
approfondimenti
- software di calcolo econometrico per le tesine
5
Lezioni teoriche: in aula standard
Esercitazioni: in aula standard
Esercitazioni personali: aula informatica (pianterreno)
Elaborazione calcoli per tesi: laboratorio del Dip. di
Economia Pubblica
6
IL MODELLO LINEARE
Analisi economica e analisi econometrica
J.M. Keynes (1936)
relazione tra il consumo c e il reddito y
c y
c y variabili
  parametri
- la funzione è stabile nel tempo
- l’intercetta è positiva e la propensione marginale al
consumo è positiva e inferiore all’unità
  0 , 0   1
- la propensione  è inferiore alla propensione media
c y
7
Osservazione – La stabilità indica che la funzione può
essere considerata valida per periodi di tempo
relativamente lunghi, ad esempio per alcuni decenni.
Questo, ovviamente, in media, perché da un tempo
all’altro, ad esempio da un anno all’altro, ci possono
essere leggere discrepanze tra il membro a sinistra e
quello a destra.
Osservazione – Matematicamente, la propensione
marginale al consumo è

d f  y
dy
la propensione media è data dal rapporto c y
Osservazione – La forma è lineare rispetto sia ai
parametri che alle variabili.
reddito disponibile
yd  y  v
8
imposta complessiva sul reddito
c      y  v
Modelli rappresentativi del modo di consumare
statiche, in quanto legano le variabili allo stesso
tempo
dinamiche
ct     yt 1
ct    0 yt  1 yt 1  2 yt 2
schema a ritardi distribuiti infiniti

ct     0 yt  1 yt 1   2 yt 2  ...      j yt  j
j 0
9
se si fanno le ipotesi
j    j,
0   1
fortemente vincolanti dal punto di vista economico
ct     yt   yt 1   2 yt 2  ...
ritardata di un’unità temporale
ct 1     yt 1   yt 2   2 yt 3  ...
Sottraendo
c   c  1       y
t
t 1
t
ct   ' ct 1   yt
Primi obiettivi dell’Econometria
1. discriminare tra le funzioni che presentano il
reddito ed il consumo associati ad indici temporali
diversi
10
2. stimare i parametri
3. valutarli secondo un criterio di ottimo prestabilito
Dall’analisi economica si passa all’analisi econometria
Modelli statici e dinamici
Questi modelli sono rappresentazioni formali ed
idealizzate delle caratteristiche osservate di regolarità
e stabilità dei fenomeni economici sotto studio e
vengono specificati in base al processo interattivo di
speculazione teorica ed indagine empirica descritto
nel paragrafo precedente.
Tali
caratteristiche
sono
anche
chiamate
fatti
stilizzati .
statici
solo variabili correnti
dinamici
variabili sia correnti che ritardate
11
Il sentiero di equilibrio di lungo periodo
il consumo cresce al saggio costante di

per unità di
tempo
c  1    c
t
t 1
Sostituendo
ct   
(1   )
(1   )

yt
1   
1   
analogo al modello statico
forma
ct  ct 1    ct 1
o ancora, più concisamente,
ct    ct 1
operatore Δ opera su ct
differenza ct  ct 1
12
La
tendenza
di
lungo
periodo
come
modello
semilogaritmico
c1  (1   )c0
c2  (1   )c1  (1   ) 2 c0
...
ct  (1   )t c0
c0
costante
condizione iniziale
serie storica
ct   c1, c2 ,..., cn 
funzione scritta in un altro modo
ln ct  ln c0  t  ln(1   )
cioè
ln ct      t
modello semilogaritmico
forma non lineare nelle variabili
13
saggio di crescita

tra il tempo t–1 e il t
  exp( )  1
tendenza di lungo periodo
Approssimazione del saggio di crescita
   xt  xt 1  xt 1
approssimato da una differenza prima logaritmica
 ln xt  ln xt  ln xt 1
xt
0.000
0.0200 0.0400 0.0600 0.0800 0.1000
 ln xt 0.000
0.0198 0.0392 0.0583 0.0769 0.0953
Γ:
14
Dimostriamo che
 ln xt  ln xt  ln xt 1   xt  xt 1  xt 1
Sviluppando in serie di Taylor la funzione
ln 1        2 2   3 3   4 4  ...
e ponendo
  xt xt 1  1
si ottiene
ln  xt xt 1    xt  xt 1  xt 1  ...
Primi caratteri delle serie storiche:
tendenza, stagionalità e ciclo
tendenza lineare, esponenziale, quadratica, cubica, …,
conformazione
stilizzata
delle
serie
storiche
economiche
15
cadenza
infraannuale,
ad
esempio
mensile
o
stagionalità
trimestrale,
40000
35000
30000
25000
20000
15000
10000
1970Q1 1972Q3 1975Q1 1977Q3 1980Q1 1982Q3 1985Q1 1987Q3
M
Fitted
La serie storica non destagionalizzata delle
importazioni di beni e servizi a prezzi 1980 in Italia e
la stima dei fattori di destagionalizzazione
alternarsi di fasi di espansione dell’attività economica
con fasi di recessione:
ciclo economico
16
50
0,08
40
0,06
30
0,04
20
0,02
10
0
0,00
-10
-0,02
-20
-0,04
-30
-0,06
-40
-50
1970 1972 1974
-0,08
1976 1978 1980 1982 1984
reddito tot
1986 1988 1990 1992 1994
1996 1998 2000
consumo medio
Andamento del PIL e della propensione media al
consumo in Italia negli anni 1970 – 2000; ambedue le
serie sono state depurate della tendenza con funzioni
lineari.
recessione avvenuta repentinamente (1 – 3 anni)
ripresa più espansione più lentamente (in 5 – 7 anni)
 altro fatto stilizzato
asimmetria del ciclo
economico
17
La stima dei minimi quadrati della tendenza lineare
stimare i parametri della
ln ct      t
campione di dati
utilizzando il criterio di stima dei minimi quadrati
equazione lineare non solo nei parametri ma anche
nelle variabili
Linearizziamo ponendo
t = 1, 2, 3, ... , n
ln ct  zt
si ottiene il modello lineare semplice
zt     t
18
zt
z4
u4
zt     t
z2
u2
u3
z3
z1
u1
1
3
2
4
t
Nuvola di punti zt distanti (lungo l’asse delle ordinate)
ut da una generica retta zt     t
Criterio:
minimizzare la somma delle ut
4
min  ut
t 1
non buono
19
altro criterio:
minimizzare la somma delle ut prese in valore
assoluto
4
min  ut
t 1
criterio:
minimizzare i quadrati delle ut
4
min  ut2
t 1
criterio dei minimi quadrati e determina una retta i
cui parametri sono detti stime dei minimi quadrati
Esempio – Estraiamo dal CD dell’OECD (Statistical
Compendium, Versione 2004-1) la serie dei consumi
privati reali totali dell’Italia ITACPV, espressi in
milioni di euro. Moltiplicando la serie per il deflatore
dei consumi ITAPCP otteniamo la serie dei consumi in
termini nominali, ne prendiamo il logaritmo e ne
costruiamo il modello; se stimiamo i parametri del
20
modello (più semplicemente si dice: stimiamo il
modello) con i minimi quadrati otteniamo
ln c  13.248  0.129 t
t
ln(c t )
ln(consumi)
Lineare (ln(consumi))
17
16
15
14
t
13
1960
1965
1970
1975
1980
Serie storica dei logaritmi dei consumi privati totali
nominali in Italia interpolati con la retta; anni 19601980.
ˆ  1.138  1  0.138
cioè il 13.8% (Il saggio sembra alto, ma si ricordi che i
consumi sono nominali).
21
c  exp 13.248  0.129 t
t
cons nom
Espo. (cons nom)
ct
10500
5500
t
500
1960
1965
1970
1975
1980
Serie storica dei consumi privati totali nominali in
Italia interpolati con l’esponenziale; anni 1960-1980;
dati miliardi di euro.
consumo nominale ct
pari al prodotto del
consumo reale ct per il prezzo pt

il
suo
saggio
di
crescita
è
approssimativamente uguale alla somma dei
saggi di crescita di ct e pt
ct  ct  pt
22
ln ct  ln ct  ln pt
ritardando di un’unità temporale
ln ct 1  ln ct 1  ln pt 1
 ln ct   ln ct   ln pt
zt  ct
cons nom
ct
Lineare (cons nom)
10000
6000
2000
t
1960
1965
1970
1975
1980
-2000
Serie storica dei consumi privati totali nominali in
Italia interpolati con la funzione lineare; anni 19601980, dati in miliardi di euro.
23
Osservazione – Conviene sempre prestare
attenzione al numero di cifre significative
(diverse dallo zero) che manteniamo nei calcoli.
Un numero troppo grande rende farraginosa la
scrittura ed è foriero di errori di imputazione
(ad esempio nei computer); un numero troppo
piccolo
può
condurre
ad
approssimazioni
imprecise. Dal punto di vista statistico della
significatività dei dati è difficile che possano
servire più di quattro cifre significative perché
già con esse si ottiene un’approssimazione
inferiore al millesimo. Da quello economico, poi,
già
tre
cifre
significative
danno
un’approssimazione inferiore al centesimo, più
che sufficiente per ogni tipo di analisi.
I logaritmi, tuttavia, sono molto sensibili ai
decimali ed è quindi consigliabile calcolarli con
almeno cinque cifre decimali.
24
I residui
distanze ut tra i dati osservati e quelli con la stessa
ascissa sulla retta nella figura, detti teorici,
non errori ma residui, derivanti dall’aver voluto
approssimare i punti della nuvola con quelli della
retta
zˆt  ˆ  ˆt
uˆt  zt  zˆt  zt  ˆ  ˆt
t  1,2,..., n
t  1,2,..., n
uˆt è determinato una volta che siano determinate ̂ e
̂
se queste ancora non lo sono, anche uˆt non lo è, per cui
ut  zt     t
oppure
zt     t  ut
25
il residuo
termine da aggiungere ( o sottrarre,
se negativo) al valore teorico     t  per aversi il dato
osservato zt
uˆt considerate come stime delle ut e quindi considerate
come residui stimati
Box
I residui
Dati osservati  z1 z2 ... zn 
Retta generica interpolante (tendenza lineare) i dati
osservati
zt     t
Retta interpolante stimata (con un certo criterio)
zˆt  ˆ  ˆt
da cui i dati teorici  zˆ1 zˆ2 ... zˆn 
Residui stimati
uˆt  zt  zˆt  zt  ˆ  ˆt
26
molto utile rappresentare graficamente i residui
ln ct     t  ut
residui
ut
0.6
0.3
t
0
1960
-0.3
1965
1970
1975
1980
-0.6
Serie storica dei residui stimati relativi al modello dei
consumi privati totali nominali in Italia; anni 1960 –
1980.
c  exp    t  u
t
t
ut
5000
2500
0
1960
-2500
t
1965
1970
1975
1980
-5000
Serie storica dei residui stimati relativi al modello dei
consumi privati totali nominali in Italia; anni 1960 –
1980; dati espressi in miliardi di euro.
27
ct     t  ut
ut
residui
4000
2000
0
1960
-2000
t
1965
1970
1975
1980
-4000
Serie storica dei residui stimati relativi al modello dei
consumi privati totali nominali in Italia; anni 1960 –
1980; dati espressi in miliardi di euro.
28
Il breve e il lungo periodo
differenziazione tra il breve e il lungo periodo
esempio di questo concetto:
negli anni compresi tra le due guerre mondiali negli
U.S.A.
- nel lungo periodo la propensione media al consumo
c y era costante;
- nel
breve
periodo
tale
rapporto
oscillava,
aumentando nelle fasi di recessione e diminuendo
in quelle di espansione
per ogni dato individuo tale rapporto diminuiva
all’aumentare del reddito
29
J.S. Duesenberry [1949] lo spiegò con la ipotesi del
reddito relativo, secondo la quale la percentuale di
reddito consumato da ogni individuo non dipendeva
direttamente dal suo reddito assoluto, ma dalla sua
posizione,
in
termini
di
percentili,
nella
sua
distribuzione; in altre parole, dal suo reddito relativo.
Analiticamente
ct
y
    0t ,
yt
y
  0,   0;
y 0  max  ys ; s  t 
y 0 è il reddito massimo goduto dall’individuo nel
passato
nel lungo periodo si può ritenere che il reddito cresca
ad un saggio costante   0 per unità di tempo
yt  1    yt 1
y 0  yt 1
30
ct
    1   
yt
con rapporto ct / yt costante. Nel breve periodo, d’altro
canto, si ha che durante le fasi di recessione è yt  y 0 e
quindi ct / yt aumenta, mentre in quelle di espansione
è yt  y 0 ed il rapporto consumo su reddito diminuisce.
.
Esempio: ipotesi del Duesenberry per l’Italia negli
anni 1970 – 2002 con l’aiuto della figura. In questa
sono raffigurate la serie del reddito totale italiano
(scala a sinistra): anni di recessione (aree in grigio) e
la serie della propensione media al consumo (scala a
destra).
Alla serie del reddito è stata sottratta una tendenza
esponenziale
al rapporto è stata sottratta una tendenza lineare
31
I periodi di recessione segnati in grigio sono
conseguenze dei due shock petroliferi degli anni
settanta (1974 e 1979): tendenza al rialzo della
propensione
media
al
consumo,
come
prevista
dall’ipotesi del Duesenberry.
Figura – Andamento del PIL e della propensione
media al consumo in Italia negli anni 1970 – 2000;
ambedue le serie sono state depurate della tendenza
con funzioni lineari. Le aree tratteggiate indicano i
periodi di recessione degli anni settanta innescati
dalle crisi petrolifere; in questi periodi la propensione
media aumenta, come previsto dall’ipotesi del
Duesenberry.
32
Le stime dei minimi quadrati nel modello
lineare semplice
yt     xt  ut
variabile endogena
generica esplicativa xt
variabile
esogena,
in
quanto
determinata
esogenamente (all’esterno) al modello
Il modello lineare è detto semplice perché contiene
una sola variabile esplicativa oltre l’intercetta
Se ne contenesse di più sarebbe multiplo
Ovviamente
yˆ  ˆ  ˆ xt
uˆt  yt  yˆt
33
Il criterio di stima dei minimi quadrati consiste nel
trovare i valori di  e di  che rendono minima la
somma dei quadrati dei residui
n
n
min  u  min   yt     xt 
 ,
t 1
2
t
 ,
2
t 1
S(  ,  )
condizioni necessarie (ma non sufficienti) per ottenere
il minimo
 S
   2  y     x  1  0

 S  2  y     x   x   0
 
n
t 1
t
t
t
t
n
t 1
t
cioè
n
 n
y

n




xt

 t
 t 1
t 1
 n
n
n
 x y   x   x2



t t
t
t
 t 1
t 1
t 1
equazioni normali
34
Se si pone
1
x  x
n
1
y  y
n
n
t 1
n
t
,
t 1
t
1
m  x
n
n
,
xx
t 1
2
t
1
m  x y
n
n
,
xy
t 1
t
t
dividendo per n
y  x
e dalla seconda, sostituendo
n
n
n
 x y   y   x  x    x
t 1
t
t
t 1
t
t 1
2
t
cioè
mxy  yx    mxx  x 2 
dalle quali si ottiene la stima dei minimi quadrati
ˆ 
mxy  yx
mxx  x 2
mxx  x 2
e, sostituendo
ˆ  y  ˆ x
)
35
Le condizioni sufficienti per la stima dei minimi
quadrati
S S  S 
S
S


 0;
 0,
 0,
     


2
2
2
2
2
2
2
2
2
2
2
2
Infatti si ha
S
S
 2 x  0 ,
 2n  0 ,


2
2
n
2
2
t 1
S
 2 x
 
2
2
t
2
n
2
t
t 1
dalle quali segue
n

n
2n  2 x  2 x
t 1
2
t
t 1
t

2
 4n  m  x
2
xx
2
  4n  x  x   0
n
t 1
2
t
residui stimati
uˆt  yt  yˆt  yt  ˆ  ˆ xt
36
Osservazione – la retta
yt     xt
passa sempre nel punto  y , x 
Osservazione – in corrispondenza del punto di ottimo
le equazioni normali possono essere scritte




n
 n
ˆ
 yt  ˆ   xt  uˆt  0
 t 1
t 1
 n
n

yt  ˆ  ˆ xt xt  uˆt xt  0

 t 1
t 1
La prima mostra che la somma dei residui stimati è
nulla
la seconda che i residui stimati sono ortogonali alla
variabile esplicativa
37
Osservazione – Utilizzeremo nel seguito il risultato
che consegue dalla catena di uguaglianze


n
1 n
1 n
1

ˆx 
ˆ x   ˆ  ˆ x
ˆ
ˆ
ˆ
y




n



 t n

t
t 
n t 1
n 
t 1
t 1

che per l’osservazione è pari a y . Quindi
1 n
1 n
yˆt  y   yt

n t 1
n t 1
38
Interpretazione statistica
criterio dei minimi quadrati
sviluppato indipendentemente da K. F. Gauss e A. M.
Legendre
tra la fine del 18° e gli inizi del 19° secolo
utilizza concetti puramente matematici
interpretazione statistica che riguarda solamente i
nomi:
modello di regressione
la somma dei quadrati
n
u
t 1
2
t
 S  ,  
è la devianza
(dei residui o residuale)
le serie storiche  xt  e  yt  costituiscono il campione di
dati
i valori x e y sono le medie aritmetiche delle due
variabili
39
mxx è il momento secondo
m xy il momento secondo misto
i valori ̂ e ˆ sono ancora delle stime, ma in senso
statistico
allora la stima ˆ è data dal rapporto
(covarianza tra x e y ) / (varianza di x ).
40
La scomposizione della devianza e il
coefficiente di determinazione
la serie del consumo {ct } può essere interpolata sia con
un’esponenziale sia con una retta
dando luogo a stime delle devianze dei residui
fortemente diverse
indicatore basato sulle devianze che permetta di
“misurare” il grado di adattamento di un modello al
campione di dati
coefficiente di determinazione
il modello contiene l’intercetta (che, stimata, può
anche valere zero)
41
scomponiamo la devianza (la somma dei quadrati
degli scarti dalla media) delle yt
n
n
2
ˆ
ˆ
(
y

y
)

(
y

y

y

y
)

 t
 t t t
2
t 1
t 1
n
n
n
  ( yt  yˆt )   ( yˆt  y )  2 ( yt  yˆt )( yˆt  y )
2
t 1
2
t 1
t 1
1 n
dove y   yt
n t 1
e si è tolta e aggiunta la stessa quantità yˆ t
Il termine misto è nullo:
n
 k ˆ 
( yt  yˆt )( yˆt  y )   uˆt yˆt  y  uˆt  uˆt   i xit   y  uˆt 

 i 1

t 1
t 1
t 1
t 1
t 1
n
n
k
n
n
i 1
t 1
t 1
n
n
  ˆi  xit uˆt  y  uˆt 0
42
scomposizione della devianza (totale TSS) di yt
nella devianza di regressione ESS ed in quella residua
RSS
( y  y)
2
t
t

 ( yˆ  y )
2
t

 ( y  yˆ )
t
t
Dev. totale
Dev. di regress.
2
t
t
Dev. residua
Se dividiamo i due membri per la devianza totale
otteniamo
1  (Dev. di regressione)/(Dev. totale) + (Dev.
residua)/(Dev. totale)
coefficiente di determinazione
R2 
Dev. di regressione
Dev. residua
 1
Dev. totale
Dev. totale
43
pari al quadrato del coefficiente di correlazione
multipla tra yt e l’insieme delle variabili esplicative
tutta la variabilità spiegata da quella di regressione
andamento del modello è perfetto, la devianza residua
è nulla ed R2  1
nel caso opposto la parte sistematica del modello non
spiega niente e la variabilità totale coincide con quella
residua, per cui R2  0
dunque
0  R2  1
coefficiente di determinazione non centrato
devianza totale scrivibile nella forma
n
 y
t 1
t
n
n
n
n
t 1
t 1
t 1
 y    y   y  2 y  yt   yt2  ny 2
2
t 1
2
t
44
per cui il coefficiente di determinazione
n
R2  1 
 uˆ
t 1
y
2
t
2
t
 ny 2
detto centrato
se si elimina ny 2 si ottiene il coefficiente di
determinazione non centrato
n
Ru 2  1 
 uˆ
t 1
2
t
y
2
t
mentre questo è utile nell’effettuare particolari
diagnosi
sul
modello
il
primo
è
direttamente
utilizzabile per valutare la bontà di adattamento del
modello ai dati
45
Cautela nell’uso del coefficiente di determinazione
può accadere che un valore molto alto (prossimo ad 1)
di R2 sia dovuto ad  e che invece β sia poco
significativo
yt    ut
Questo problema assume una particolare rilevanza
anche quando l’endogena e l’esplicativa contengono
ambedue
eventuale
una
R2
tendenza:
può
accadere
che
un
alto sia la conseguenza di questa e non di
una effettiva relazione economica tra le due variabili.
Una semplice verifica di questo fatto può essere
realizzata stimando nelle differenze ed eliminando
un’eventuale differenza lineare.
Ritardando di una unità temporale si ottiene
yt 1     xt 1  ut 1
46
e facendo la differenza
yt  xt   t
con  t  ut  ut 1
R 2 non influenzato dalla tendenza
una differenza prima elimina un’eventuale tendenza
lineare
yt     t  ut
e prendendo la differenza prima si ha
yt  yt  yt 1      t  ut        t  1  ut 1      t
con  t  ut  ut 1
47
una differenza seconda
    2
elimina un’eventuale
tendenza parabolica (un polinomio di secondo grado in
t)
in
generale
una
differenza
d–esima
elimina
un’eventuale tendenza rappresentabile mediante un
polinomio di grado d nel tempo
Stima di una funzione del consumo
non più un’equazione che esprime il consumo in
funzione del tempo bensì
zt     yt  ut
che esprime il consumo in funzione del reddito
diagramma di dispersione delle coppie di valori ( zt , yt )
zˆt  53684  0.657 yt
48
funzione consumo
zt
680
630
580
530
480
430
yt
380
680
730
780
830
880
930
980
1030
1080
Diagramma di dispersione che rappresenta il consumo
in funzione del reddito; dati annuali reali per l’Italia
1980 – 2002 espressi in miliardi di euro.
ut
600
400
200
t
0
-200
-400
-600
Serie storica dei residui
uˆt  zt  zˆt
della relazione lineare
tra il consumo e il reddito reali (annuali) in Italia,
anni 1980 – 2002.
49
coefficiente di determinazione centrato
R 2  0.993
molto alto
 dubbio che sia derivato essenzialmente dalla
presenza della tendenza
 calcoliamo le due serie delle differenze, stimiamo e
otteniamo
un
coefficiente
di
determinazione
relativamente alto
zˆt  0.674 yt
R 2  0.609
si può concludere che effettivamente sussiste una
relazione economica tra il reddito e consumi nell’Italia
degli anni ’80 e ’90
l’ R 2 è più basso quando si usano le differenze delle
variabili al posto dei loro livelli
50
Coefficiente di determinazione e scelta del modello
Omogeneità dei dati
campione diviso in due parti, dal 1980 al 1994, e dal
1990 al 2002
zˆt  86408  0.701 yt
per gli anni 1980 – 1994, e
zˆt  15545  0.617 yt
per gli anni 1990 – 2002
modello sbagliato? Non necessariamente.
Dipende dagli obiettivi:
periodo 1980 – 2002 da considerare come un tutt’uno
oppure: numerosità del campione
51
Non linearità rispetto alle variabili
propensione marginale al consumo decrescente; allora
potremo interpolarla con una retta
    t
per cui
zt       t  yt     yt   t yt
non lineare rispetto alle variabili (a causa del prodotto
t yt )
Ma potremo porre
wt  t yt
zt     yt   wt
lineare
anche
rispetto
alle
variabili
(e
quindi
facilmente stimabile) ma contenente tre parametri.
52
Propensione media
Stimiamo
zt   yt  ut
 rappresenta una sorta di propensione media al
consumo
come sia variata in Italia negli ultimi quaranta anni
base di dati dell’OCSE: consumi ITACPV e reddito
GDPV, trimestrali, nel 2° e nel 4° trimestre di ogni
anno dal 1965 al 2002
dividiamo il campione in cinque sottocampioni
Sottocampione N° osservazioni

R2
1965/1-1972/2
16
0.557
0.986
1973/1-1980/2
16
0.560
0.966
1981/1-1988/2
16
0.585
0.976
1989/1-1996/2
16
0.599
0.603
1995/1-2002/2
16
0.600
0.943
53
Elasticità
variabili logaritmizzate
ln ct   ln yt  ut
β elasticità del consumo rispetto al reddito
derivata logaritmica
matematicamente:

d  ln ct  d ct / ct yt d ct


d  ln yt  d yt / yt ct d yt
approssimativamente uguale al rapporto di due
differenze logaritmiche

 ln ct
 ln yt
cioè di due variazioni percentuali
54
β è pari all’incremento percentuale del consumo
dovuto all’aumento percentuale unitario (cioè dell’1%)
del reddito
Esempio – per l’Italia
ln cˆt  0.962ln yt
campione 1980-2002
R2  0.975
L’elasticità del consumo privato totale rispetto al
reddito reale   0.962.
Ad un incremento dell’1% del reddito corrisponde un
incremento dello 0.962% del consumo privato.
Se si utilizzasse il reddito disponibile reale l’elasticità
varrebbe   0.979.
55
Altri esempi
La legge di Okun
Arthur Okun, basandosi su dati USA relativi al
periodo 1947 – 1960
relazione tra il tasso di disoccupazione e la crescita
economica
ut    xt   
dove
ut  ut  ut 1
variazione del tasso di disoccupazione
xt   xt  xt 1  xt 1

tasso di crescita economica
tasso di crescita (medio) di lungo periodo
Osservazione – equazione priva dell’intercetta  Ru2
non molto alto
56
Applicazione all’economia degli USA:
serie USAGDPV della base di dati OCSE dal 1960 al
1980
ln xˆt  14.684  0.036  t
saggio di crescita di lungo periodo
  exp  0.036   1  1.037  1  0.037
variazione annua del tasso di disoccupazione
 ut 
dalla base di dati OCSE (USAUNR)
 uˆt  37.423( xt  0.037)
campione 1960 – 1980
Ru2  0.758
ogni punto percentuale di crescita del PIL degli USA
sopra il 3.7% corrisponde ad una diminuzione del
tasso di disoccupazione pari a 0.374
Okun: circa 0.4
57
Osservazione –la variazione della disoccupazione
 ut
è
misurata in punti percentuali (3, 5, …) mentre
l’esplicativa è misurata in unità (0.03, 0.05), per cui il
parametro  della deve essere diviso per 100 al fine di
poter essere ricondotto all’unità di misura di  ut
(essendo l’esplicativa 100 volte più piccola,  è nella
stima 100 volte più grande).
Applicazione all’economia dell’Italia per gli anni dal
1960 al 1980
 uˆt  7.12 ( xt  0.046)
Ru2  0.129
campione 1960 – 1980
e per gli anni dal 1981 al 2002
 uˆt  10.594( xt  0.019)
campione 1981 – 2002
Ru2  0.0288
58
coefficienti di determinazione così come le due
diminuzioni del tasso di disoccupazione molto piccoli
 la legge di Okun nell’ultimo mezzo secolo non vale
per l’Italia
spesso gli assunti economici valgono soltanto per
specifiche economie e specifici periodi campionari.
Relazione tra tasso di cambio nominale e prezzi
relativi
Siano
t
il tasso di cambio
(valuta nazionale italiana)/dollaro USA
[ITAEXCHUD nella base di dati OCSE in euro/$]
xt
il rapporto tra l’indice dei prezzi al consumo
USA [USACPI] e l’indice dei prezzi al consumo
per l’Italia [ITACPI] per gli anni 1970 – 2002
59
relazione tra tasso di cambio nominale e prezzi
relativi
t     xt
che mostra come il primo vari in funzione (lineare) dei
secondi. Si ottiene
ˆt  1.156  0.325 xt
campione 1970 – 2002
Ru2  0.742
il coefficiente angolare negativo indica che ad ogni
diminuzione unitaria di xt (che tende a diminuire
perché i prezzi dell’Italia crescono più rapidamente di
quelli USA) corrisponde un aumento (deprezzamento
della valuta italiana rispetto al dollaro USA) del tasso
di cambio
su questo fatto si basa il principio della parità dei
poteri d’acquisto (PPP)
60
Serie storiche, dati sezionali e longitudinali
dati temporali
unità di consumo e di reddito (ad esempio famiglie),
i = 1, 2, …, N, considerate allo stesso tempo t
le osservazioni compongono dati sezionali
ci     yi
i = 1, 2, …, N
dati contemporaneamente sezionali e temporali
cit  i  i yit
t = 1,2,…,n
i = 1, 2, …, N
ciascuna famiglia possiede una propria funzione
definita dai parametri i e i , considerati costanti nel
periodo di osservazione campionario
61
Se poniamo
N
ct   cit ,
i 1
N
   i ,
i 1
N
yt   yit
i 1
e nell’ipotesi che tutte le propensioni marginali al
consumo siano uguali, 1  2  ...   N   , le equazioni
possono essere sommate membro a membro in modo
da dare
ct     yt
t = 1, 2, …, n
aggregazione sezionale
Dati longitudinali (panel data)
Se il campione di famiglie rimane costante negli n
tempi, i dati ad esso relativi, c  e y  sono chiamati
it
it
longitudinali, alludendo al fatto che un campione di
più individui viene seguito lungo il tempo.
62
L’AMBIENTE STOCASTICO
I residui come enti aleatori: le ipotesi deboli
le stime ottenute sono buone (rispetto ad un dato
criterio) oppure cattive?
E’ possibile decidere se le stime dei parametri si
influenzano reciprocamente?
Se i residui sono legati in qualche modo tra di loro?
Se il campione è sufficientemente omogeneo?
ambiente stocastico, non più deterministico
i residui variano di valore al variare di  e  ; non
sono noti finché  e  non vengono fissati; quindi
prima di ottenere
̂
e
̂
considerati variabili aleatorie ut ,
essi possono essere
t = 1, 2, …,n
63
Box
Le variabili aleatorie
E’ aleatoria una variabile x che può assumere diversi valori.
risultato del lancio di un dado: valore da 1 a 6
realizzazioni
In questo caso ciascuna realizzazione ha la stessa probabilità
di realizzarsi; in altri casi alcune hanno maggiore probabilità
di altre.
l’altezza di un individuo è una variabile aleatoria; se la
misuriamo in centimetri, i valori 150, 163, 180, …, sono sue
realizzazioni
quelle comprese tra 160 e 170 hanno, ovviamente, maggiore
probabilità di verificarsi di quelle comprese tra 140 e 150
64
variabili aleatorie dette discrete perché le loro realizzazioni
possono essere o finite o infinite ma numerabili
realizzazioni con potenza del continuo (in modo grossolano
possiamo dire che appartengono ad un intervallo) le variabili
aleatorie sono dette continue
La media delle realizzazioni ponderate con la probabilità che
si verifichino costituisce il valor medio della variabile
aleatoria ed è indicato con il simbolo E  xt  expectation
il valor medio è un indice di localizzazione delle realizzazioni.
La quantità
E  x  E  x   2
varianza
pari alla media dei quadrati degli scarti tra le realizzazioni e
il valor medio, ponderati con la probabilità che esse si
verifichino
65
è un indice di dispersione delle realizzazioni intorno al valor
medio
Tanto più grande è la varianza e tanto più sono disperse le
realizzazioni di x rispetto al suo valor medio.
La quantità
E  x  E  x   y  E  y 
covarianza tra le variabile aleatorie x e y
è un indicatore del legame lineare esistente tra le due
variabili aleatorie rilevanti
La varianza di una variabile aleatoria è anche indicata con
Var  x 
la covarianza con Cov  x, y 
si dimostra che
Var  x  y   Var  x   Var  y   2Cov  x, y 
66
modello inserito in un ambiente stocastico
yt     xt  ut
membro a destra aleatorio  lo è anche quello a
sinistra
il segno di uguaglianza indica l’uguaglianza delle
caratteristiche (anche stocastiche) dei due membri
l’insieme più semplice di ipotesi stocastiche
i) xt
valori noti t
ii) E (ut )  0 t
0
iii) E (ut us )   2

ts
ts
La prima ipotesi indica che la variabile esplicativa è
conosciuta  misurata senza errori.
La seconda ipotesi non è affatto restrittiva
67
La terza ipotesi è restrittiva in quanto presuppone:
sia che i residui in tempi diversi non siano legati
linearmente tra di loro (la loro covarianza è sempre
nulla) (incorrelati)
sia che abbiano tutti la stessa varianza 
Ambedue
queste
verificate
nella
sottoipotesi
realtà,
ma
sono
sono
2
raramente
molto
utili
nell’introduzione didattica in ambiente stocastico.
Le ipotesi non presuppongono alcuna forma di
distribuzione di probabilità per le u e sono per questo
t
motivo dette deboli
nel caso di assunzione di una distribuzione di
probabilità, le ipotesi che vengono assunte sono
chiamate forti
68
Box
Distribuzioni di probabilità
Ogni variabile aleatoria può assumere dei valori,
realizzazioni, ciascuno dei quali si può verificare con
una data probabilità.
L’insieme di queste forma la distribuzione di
probabilità della variabile aleatoria.
Nel lancio di un dado ognuna delle sei possibili
realizzazioni ha la stessa probabilità di uscire e
quindi la distribuzione di probabilità, discreta, è
costituita da
1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6
per convenzione la somma delle probabilità di tutte le
realizzazioni possibili è uno
69
distribuzione continua  variabile aleatoria che
assume un valore costante in un certo intervallo
se questo vale b  a tale valore è p  1/  b  a  qualora
 p  dx  p  dx  p  b  a   1
b
b
a
a
Nel caso discreto la funzione di distribuzione di
probabilità indica come questa si ripartisce nelle
varie realizzazioni che la variabile aleatoria discreta
può assumere.
nel lancio di un dado tale funzione è
f  xi   P  x  xi   1 6
i  1, 2,
,6
dove P  x  xi  indica la probabilità del evento x  xi .
70
Nel caso continuo la funzione di densità di
probabilità, che definisce la probabilità che la
variabile aleatoria continua
x
assume un valore
contenuto in un dato intervallo
x
P  x  x  x    f  x   dx
x
variabile aleatoria continua costante: la probabilità
che x assume un valore contenuto nell’intervallo
 x, x , con a  x  x  b , è
P  x  x  x   
x
x
1
x  x
dx 
ba
ba
Box
Valor medio di una distribuzione
nel caso discreto
E  x    xi  pi
i
71
dove la sommatoria è estesa a tutte le realizzazioni
possibili ciascuna moltiplicata per la probabilità che
si verifichi
nel lancio di un dado
E  x 
1
xi  7 2

6 i
nel caso continuo
x
E  x    x  f  x   dx
x
estremi dell’intervallo di variazione
nell’esempio della variabile continua in  a, b 
E  x  
b
a
1
1 b2  a 2
x  dx 
 a  b 2
ba
ba 2
72
Definizioni e risultati nell’approccio stocastico
ipotesi ii) e iii)
(successione
residuo rumore bianco

temporale
di
variabili
aleatorie
incorrelate con valor medio nullo e varianza costante)
ambiente stocastico  anche yt variabile aleatoria
componente
sistematica
=
combinazione
lineare
   xt
componente aleatoria = residuo ut
c. sistematica in quanto rappresenta la struttura di yt
in funzione:
 dei
parametri,
invariabili
nel
tempo
per
l’omogeneità del campione,
 e dell’esplicativa, supposta nota
73
componente sistematica: denota i fatti stilizzati della
relazione tra la variabile endogena e le esplicative
ipotesi
stocastiche
in
termini
dei
residui
non
osservabili ma anche ipotesi sulle variabili osservabili
yt , realizzazioni di una variabile aleatoria yt
E  yt   E     xt  ut      xt

ut  yt  E  yt 

2
Var  yt   E  yt  E  yt     E  ut2    2


Cov  yt , ys   E  yt  E  yt    ys  E  ys    E ut us   0
t  s
struttura di varianza–covarianza per la ut si applica
anche alla yt , dato che le due variabili aleatorie
differiscono soltanto per una costante additiva, la
componente sistematica    xt
74
omoschedasticità
eteroschedasticità
quando l’una o l’altra di queste ipotesi vale per i
residui vale anche per la variabile endogena
spesso la crescenza della variabilità è associata alla
crescenza della tendenza
Retribuzioni lorde
Italia 1970-1996
250000
200000
150000
100000
50000
0
1970.1
1974.1
1978.1
1982.1
1986.1
1990.1
1994.1
Le retribuzioni lorde complessive in Italia; dati
trimestrali grezzi dal 1970 al 1996 (fonte ISTAT). Sia
la tendenza che la variabilità sono crescenti nel tempo.
75
da un punto di vista empirico crescenza della
tendenza
e
crescenza
della
variabilità,
pur
presentandosi spesso insieme nella stessa serie
storica, sono da trattarsi in modo ben diverso:
un’eventuale tendenza nella
 yt 
può essere spiegata
dalla componente sistematica per cui l’ipotesi E  ut  = 0
può valere
una eteroschedasticità nella
 yt 
si riflette in una
variabilità analoga nei residui
Stime e stimatori dei minimi quadrati
la minimizzazione è la stessa
ciò che cambia è semplicemente la natura della serie
storica dei residui u1 u2
un  , che ora è costituita da
variabili aleatorie
76
mxy  yx
ˆ

mxx  x 2
ˆ  y  ˆ x
Ma nell’ambito stocastico yt è una variabile aleatoria
per cui, sostituendo    xt  ut al posto della yt
n
1
1
ˆ   
  xt  x   ut
mxx  x 2 n t 1


n
1
ˆ    x    ˆ   ut
n t 1
̂ e ̂ variabili aleatorie:
stimatori
prima loro buona proprietà: la non distorsione
 
E ˆ  
stimatori ̂ e ̂
E  ˆ   
non distorti
77
Box
La proprietà di non distorsione
stimatore  del parametro  non distorto se
E ( ) = 
non distorsione
buona proprietà per uno
stimatore se la sua distribuzione di probabilità è
concentrata intorno al valor medio  le stime,
realizzazioni dello stimatore, hanno alta probabilità
di trovarsi vicino al valore vero  del parametro
teorema di Gauss–Markov
Gli
stimatori
dei
minimi
quadrati:
possiedono
variabilità minima nel senso del teorema di Gauss–
Markov
78
Teorema di Gauss–Markov - Tra tutti gli stimatori
lineari rispetto alle yt e non distorti, se ̂ e ̂ sono gli
stimatori dei minimi quadrati e  e  sono qualsiasi
altri stimatori, si ha


Var c1ˆ  c2 ˆ  Var  c1  c2  
dove c1 e c2 è una qualsiasi coppia di costanti reali non
ambedue nulle.
stimatori con variabilità minima nel senso del
teorema di Gauss–Markov detti ottimi
BLU:
Best (ottimi)
Linear (lineari)
Unbiased (non distorti).
79
correlazione tra variabili e tra stimatori dei
parametri
covarianza Cov  y, x  tra due variabili aleatorie 
relazione lineare esistente tra di loro
dipende dalla dimensione delle due variabili e quindi
non
può
essere
utilizzata
come
un
indicatore
dell’intensità della relazione
normalizziamo per escludere la dipendenza dalla
dimensione
dividendo la covarianza per la radice quadrata del
prodotto delle varianze delle due variabili aleatorie

Cov  y, x 
Var  y   Var  x 

 yx2
 y2   x2
ottenendosi il coefficiente di correlazione
80
tale che
1    1
se  è vicino allo zero non vi è relazione lineare
se  è vicino all’unità la relazione è molto forte e
positiva
se  è vicino a -1 è ugualmente forte ma negativa: se
una variabile aumenta l’altra diminuisce e viceversa
stima
stime campionarie
 valori medi campionari
1 n
x   xt
n t 1
1 n
y   yt
n t 1
81
 varianze campionarie
1 n
1 n 2
2
ˆ    xt  x    xt  x 2  mxx  x 2
n t 1
n t 1
2
x
1 n
1 n 2
2
ˆ    yt  y    yt  y 2  m yy  y 2
n t 1
n t 1
2
y
 covarianza campionaria
1 n
1 n
    yt  y  xt  x    yt  xt  y  x  m yx  y  x
n t 1
n t 1
2
xy
Esempio - Il coefficiente di correlazione tra il consumo
e il reddito vale ˆ  0.998
tra il consumo e il reddito disponibile ˆ  0.915 .
Esempio - Il coefficiente di correlazione tra la variazione
della disoccupazione e la crescita del PIL reale dell’Italia
vale ˆ  0.405
82
La correlazione tra gli stimatori dei parametri
stimatori ̂ e ̂ non correlati tra di loro
altrimenti accade che la stima di un parametro
influenza quella dell’altro
Modello
̂
ln ct     t  ut
-0.876
c  exp    t  u
t
t
-0.522
ct     t  ut
-0.876
zt     yt  ut
-0.992
Stime dei coefficienti di correlazione dei parametri
dei tre modelli di tendenza per i consumi e di un
modello per la funzione del consumo.
83
Le ipotesi forti sui residui
Riassunto delle ipotesi in relazione al modello lineare:
i)
ii)
iii)
il campione è omogeneo e i parametri sono
invariabili nel tempo;
i valori di xt sono noti, cioè non aleatori;
0 ts
E (ut )  0 , E (ut  us )   2
 t  s
t,s
i) si suppone che la struttura dell’economia
rimanga invariata nel periodo campionario
ii) è un’ipotesi semplificatrice che limita gli
elementi stocastici del modello al residuo ed
alla variabile endogena
iii) ipotesi deboli utilizzate per determinare
 la non distorsione
 l’efficienza
 le matrici di dispersione e di correlazione
 la distorsione della varianza campionaria dei
residui.
84
Stima dei parametri con il criterio dei minimi
quadrati
iv)
mxx  x 2  0
Intervalli di confidenza
un intervallo di confidenza per lo stimatore  è un
indicatore della probabilità p che una stima ˆ sia
vicina a 
più l’intervallo è corto maggiore è la nostra confidenza
che esso contenga tale valore vero
  e   gli estremi dell’intervallo
P la probabilità che un evento si verifichi
P        p
85
intervallo è al 100 p%
intervallo di confidenza indicato con  , 
probabilità p presa pari a 0.95
talvolta pari a 0.90 e talaltra a 0.99
distanza      la più corta
p  1
con  = 0.05, 0.01, 0.10
livello di significatività dell’intervallo di confidenza
Stima intervallare (o per intervalli)
intervallo di confidenza  , 
 localizza  all’interno dell’intervallo
 fornisce un’indicazione (denotata dalla lunghezza
     ) della precisione di questa localizzazione
86
Verifiche (o test) di ipotesi
il campione a disposizione può essere usato per
verificare se esso spinge a rendere vera o falsa
un’ipotesi
ipotesi nulle indicate con H 0
H0 :   0
,
H0 :   1
sottoposte a test contro delle ipotesi alternative H1
ad esempio
H1 :   0
,
H1 :   1
ipotesi alternative dette bilaterali
  0 (primo lato) oppure   0 (secondo lato)
  1 oppure   1
se il lato è uno solo, ad esempio H0 :   0 , ipotesi detta
monolaterale.
87
in generale: ipotesi (lineare) nulla
H0 :   r
t
ipotesi alternativa
H1 :   r
verifiche di ipotesi = test di ipotesi
standardizzazione dell’intervallo di confidenza
stimatore  ha valore medio E   e varianza Var  
che variano ogni volta che si ha a che fare con un
campione diverso
si trasforma  in modo che abbia un tipo standard di
distribuzione di probabilità
88
si standardizza cioè le si toglie il valor medio e la si
divide per la radice quadrata (presa con il segno
positivo) della varianza
z
 , 
  E  
Var  
trasformato nell’altro
 z, z
di immediata
determinazione poiché gli estremi non dipendono dal
campione

z  z  z
per la quale è P  z  z  z   p
distanza z  z sia la più corta
Dunque
  E  
z 
 z

dove Var    
89
  z     E      z  
  z    E      z  
  z    E      z  
doppia disuguaglianza per la quale:
 si definisce un intervallo di confidenza non più
per lo stimatore  ma per il suo valor medio
E   , che però è funzione di  ; così l’intervallo di
confidenza limita  e non più 
 l’intervallo è divenuto aleatorio   z   ,   z   
ma si possiede una realizzazione (la stima di ˆ ) di
 e la si sostituisce
ˆ  z    E    ˆ  z  
intervallo di confidenza
ˆ  z   , ˆ  z   
90
L’intervallo di confidenza
Per lo stimatore generico  di  è  , 
P  z  z  z   p
Si standardizza  e si ottiene


  E  


P z 
z  p






intervallo di confidenza per E   , che è aleatorio
ˆ  z    E    ˆ  z  
E   contiene 
si sostituisce lo stimatore  con la stima ˆ
ˆ  z    E    ˆ  z  
intervallo di confidenza
ˆ  z   , ˆ  z    .
91
Residui normali
Per inferenze statistiche sul modello lineare occorre
aggiungere l’ipotesi forte
ut  N (0, 2 )
t
funzione di densità di probabilità del tipo normale (o
di Gauss o gaussiana)
f (ut )  (2 2 )1/ 2 exp  ut2 / 2 2 
ut /   z
normale standardizzata
gran parte dei residui si distribuisce normalmente
teorema centrale del calcolo della probabilità:
Dato un numero n di variabili aleatorie indipendenti
e identicamente distribuite, la distribuzione (di
probabilità) della loro somma tende ad essere
normale al tendere di n verso infinito.
92
Grafico della funzione di densità di probabilità
normale standardizzata, N  0,1
residuo assimilato ad una somma molto grande di
forze della dinamica economica
(variabili aleatorie che supponiamo abbiano la stessa
distribuzione)
hanno effetto sull’endogena al di fuori dell’esplicativa
 il teorema centrale può essere applicato
 la (approssimata) normalità di ut
93
Indipendenza in probabilità
teorema centrale: ipotesi che le variabili aleatorie
siano indipendenti (in probabilità)
approssimativamente: vuol dire che non c’è alcun tipo
di relazione probabilistica tra di esse
f  u1 , u2 ,
, un   f  u1   f  u2  
 f  un 
se due variabili aleatorie sono indipendenti esse sono
anche incorrelate
ma non vale il viceversa almeno che esse abbiano
distribuzione normale
le ipotesi forti assumono implicitamente che i residui
siano indipendenti (in probabilità)
94
Inferenza per i parametri del modello lineare semplice
 2 sia noto
determiniamo la distribuzione di probabilità degli
stimatori ̂ e ̂
valori medi
varianze:
 
Var ˆ   2  a2 ,
Var  ˆ    2  a2
dove
1
,
a 
2
n  mxx  x 
2
1
x2
a  
n n  mxx  x 2 
2
ˆ  z    a    ˆ  z    a
per l’intercetta
ˆ  z    a    ˆ  z    a
per il parametro 
95
estremi z e z ricavabili dalla tavola statistica dei
quantili della distribuzione normale standardizzata
stimatori combinazioni lineari di variabili aleatorie
normali (distribuite normalmente)
 sono anch’essi normali
ˆ
N   ,  2 a2 
ˆ
N   ,  2 a2 
estremi dell’intervallo di confidenza per la variabile
aleatoria standardizzata :
-0.658
e
0.658
se   0.05
-0.678
e
0.678
se   0.01
-0.632
e
0.632
se   0.10
96
Intervalli di confidenza per  e 
1) Si sceglie il livello di significatività   1  p
desiderato.
2) Si traggono dalle tavole della variabile aleatoria
normale standardizzata gli estremi.
3) Si standardizzano le variabili aleatorie ̂ e ̂ ,
cioè
le
si
trasformano
nella
normale
standardizzata
ˆ  
,
  a
ˆ  
  a
4) Si costruiscono gli intervalli di confidenza
ˆ    a  z    ˆ    a  z
ˆ    a  z    ˆ    a  z
97
Esempio
intervalli di confidenza (stima intervallare) per i
parametri della funzione del consumo
nell’ipotesi di conoscere  2  39000000
a  0.0000002 , a  1.6469
per cui gli intervalli al 95% sono
0.6491    0.66486
60505    46863
e quelli al 99% sono
0.6488    0.6651
60712    46656
98
Verifica di ipotesi
funzione di densità normale standardizzata con
l’indicazione dell’intervallo di confidenza al 95%
P( z  1.96 )=0.025
P( z  1.96 )=0.025
intervallo di confidenza utilizzato per costruire un test
di ipotesi:
ipotesi nulla H0 :   0
contro l’alternativa H1 :   0 .
Se è valida l’ipotesi nulla 
z
ˆ
  a
99
che ha probabilità pari al 95% di cadere nell’intervallo
 z, z
si è spinti ad accettare l’ipotesi nulla se z  ˆ   a
cade nell’intervallo
si è spinti a rifiutarla se il valore che si ottiene cade
fuori dell’intervallo, cioè nelle code
l’intervallo di confidenza è anche detto regione di
accettazione del test, mentre le due code formano la
sua regione di rifiuto
i due estremi e prendono il nome di valori critici del
test
non certezza:
“si è spinti ad
accettare H 0 ” e non “si accetta H 0 con certezza”
Se si è spinti a rifiutare H 0 nonostante sia vera:
errore di I specie con probabilità 
100
errore di II specie:
accettare H 0
nonostante che sia falsa.
l’ipotesi H 0 può riguardare
H0 :   m
si controlla che
z   ˆ  m    a cada nell’una o
nell’altra regione
analogamente
H0 :   b
Esempio
funzione
del
consumo
nell’ipotesi
di
conoscere
  6325
H0 :   0
z   ˆ  0   a  51.937
H0 :   1


z  ˆ  1   a  5.178
101
regione di accettazione al 95% è  1.96,  1.96 
Si è quindi spinti a rifiutare ambedue le ipotesi nulle
Test di ipotesi
1) ipotesi nulla H0 :   r
varianza (nota)  2
2) si standardizza




z  ˆ    
3) si pone   r
z  ˆ  r  
4) si sceglie il livello di significatività
5) si traggono dalle tavole i valori critici e si
costruisce la regione di accettazione  z, z 
6) se z   z, z  si è spinti ad accettare H 0
102
Inferenza statistica per la varianza dei residui
stima campionaria
1 n 2
ˆ   uˆt
n t 1
2
distorta
stima non distorta
1 n 2
 
 uˆt
n  2 t 1
2
radice quadrata presa positivamente ==
errore standard (SE) (dei residui) della regressione,
bontà di adattamento del modello ai dati,
alla stessa stregua del coefficiente di determinazione
 n  2  == gradi di libertà (g.d.l.) con cui si stima  2
103
Stima intervallare per  2
variabili
uˆt 
aleatorie
normali
standardizzate
indipendenti 
la somma dei loro quadrati si distribuisce come un 
1

2
n
 uˆ
t 1
2
t
2
 n22
 2  1 n 2

P   n 2  2  uˆt   n22   1  
 t 1


quantili di probabilità  2 e 1   2 della distribuzione
del chi quadrato
1
 n2 2
 uˆt2   2 
1
uˆ

 n2 2
2
t
stima intervallare
104
Funzione di densità di probabilità del  2 per i tre
numeri di g.d.l.
n-2=10, 20, 30
Verifica di ipotesi lineari semplici
L’ipotesi nulla
H0 :  2  r
verificata contro l’alternativa utilizzando l’intervallo
di confidenza
105
oppure: inserendo  2  r nella
n
   uˆt2 r
2
t 1
e verificando che il valore ottenuto sia compreso nella

regione di accettazione   n22 ,  n22 oppure in quello di

rifiuto
0   2   n22
e
 2   n22
test del  2 per la varianza dei residui
 n22  0 per cui la regione di accettazione 0,  n22


quella di rifiuto è composta dal solo intervallo
 2   n22
106
Esempio
funzione del consumo
verifichiamo l’ipotesi nulla
H 0 :  2  39614436
intervalli
di
accettazione
0, 29.62 per   0.01, 0.05 ,
0, 38.93 ,
0, 32.67  ,
0.10
 2  21.001
107
Inferenza statistica per i parametri del modello
lineare semplice con  2 ignoto
sostituito dalla stima campionaria
intervalli di confidenza
ˆ  

  a
ˆ  
  a
n
 uˆ
t 1
ˆ  

  a
2
t
 2   n  2
ˆ  
  a
n
 uˆ
t 1
2
t
 2   n  2
distribuzione del  2 , divisa per il numero dei g.d.l.
t di Student centrale , funzione del numero dei g.d.l.
ˆ  
~t
  a n2
ˆ  
~t
  a n  2
108
intervalli di confidenza
ˆ    a  tn 2    ˆ    a  tn  2
ˆ    a  tn 2    ˆ    a  tn  2
quantili tn  2 e tn  2 sono di probabilità  2 e 1   2
Errori standard delle stime
  a  e   a
errori standard
109
Intervalli di confidenza con  2 ignoto
1) livello di significatività   1  p
2) tavole della t di Student con n  2 g.d.l. i valori
critici
3) varianza campionaria
n
   uˆt2  n  2 
2
t 1
4) errori standard   a e   a
5) t di Student
ˆ  
  a
ˆ  
  a
6) intervalli di confidenza
ˆ    a  tn 2    ˆ    a  tn  2
ˆ    a  tn 2    ˆ    a  tn  2
110
Verifica di ipotesi
Test di ipotesi con  2 ignoto
1) ipotesi nulla H 0 :   r
2) varianza campionaria dei residui e l’errore
standard SE della stima
3) si trasforma ˆ con la trasformazione


t  ˆ   SE
4) si pone   r e si sostituisce la stima al posto del
suo stimatore


t  ˆ  r SE
5) si sceglie il livello di significatività
6) dalle tavole della t di Student con n  2 g.d.l. gli
estremi e si costituisce la regione di accettazione
del test tn  2 , tn 2  .
7) Se t  tn  2 , tn 2  si
è spinti ad accettare H 0 ,
altrimenti si è indotti a rifiutarla.
111
Tre esempi
Obbligatorio:
verificare l’ipotesi nulla che i
parametri siano uguali a zero
se si è spinti ad accettare l’ipotesi nulla si è indotti ad
eliminare (l’effetto di) una variabile esplicativa!
H0 :   0 , H0 :   0
Inserendo queste ipotesi
tn2  ˆ SE 
Se
tn  2
è compreso nell’intervallo
tn2  ˆ SE 
t  tn 2 , tn2 
si è spinti ad
accettare l’ipotesi nulla, altrimenti a rifiutarla.
112
Retta interpolante il logaritmo dei consumi
ln cˆt  13.248  0.129t
SE:
t:
 0.066 
 201.610 
 0.052 
 24.741
campione 1960–1980 ; R 2  0.970
SE dei residui = 0.145 ; RSS = 0.401 ; TSS = 13.310
n  2  19
e regione di accettazione
 2.093, 2.093
se   0.05
Funzione del consumo
zˆt  53684  0.657 yt
SE :
t:
(10366)
(0.012)
(-5.179)
(55.009)
113
campione 1980–2002 R 2  0.993
SE dei residui = 6294 ;
RSS = 831954500 ;
TSS =120710590000
Relazione tra tasso di cambio nominale e prezzi
relativi
ˆt  1.156  0.325xt
SE :
t:
(0.056)
(0.034)
(20.543)
(-9.444)
campione 1970–2002 R 2  0.742
SE dei residui =0.128 ; RSS =0.511 ; TSS =1.982
114
Distribuzioni di probabilità rilevanti
Distribuzione normale
(o di Gauss o gaussiana) che ha la forma della sezione
di una campana con i lembi infiniti
f  x    2

2 1 2
2

 x   

 exp 

2
2





indicata con il simbolo N   , 2 
proprietà:
 Man mano che ci si allontana dal valor medio la
probabilità che x assuma i valori contenuti in un
intervallo infinitesimale a destra o a sinistra di 
diminuisce.
115
 Approssim. la superficie che giace sotto la curva
normale vale 68 100 in     ,     ;
95 100 in    2 ,   2 
99.7 100 in    3 ,   3 
 La combinazione lineare di due o più variabili
aleatorie normali è normale
 Minore è la varianza e più concentrata è la
distribuzione normale intorno al valor medio.
 Se due o più variabili aleatorie normali
x1 , x2 ,
, xk sono incorrelate tra di loro, allora
sono indipendenti, cioè
f  x1 , x2 ,
, xk   f  x1   f  x2  
 f  xk 
 Se   0 e  2  1, la variabile aleatoria normale è
detta standardizzata.
116
  3
  2
 

 
  2
  3
≈68/100
≈95/100
≈99.7/100
Funzione di densità della distribuzione normale N (,  )
con l’indicazione del valore approssimato di tre
superfici sotto di essa
2
Distribuzione del chi quadrato
k
variabili
aleatorie
indipendenti z1, z2 ,
normali
standardizzate
, zk
z12  z22 
 zk2  w
117
chi quadrato, che dipende da k , numero dei gradi di
libertà (g.d.l.)
w k2
proprietà:
 Il valor medio della distribuzione k e la sua
varianza è 2 k .
 Se due variabili aleatorie indipendenti hanno
distribuzione
del
2
con
k1
e
k2
g.d.l.
rispettivamente, la loro somma è una variabile
aleatoria con stessa distribuzione con g.d.l. pari
alla somma k1  k2 .
 La distribuzione è asimmetrica, con il grado di
asimmetria che dipende dal numero di g.d.l. Più
grande è questo e meno asimmetrica è la
distribuzione; al tendere all’  , la distribuzione
del  2 tende alla distribuzione normale.
118
Distribuzione della t di Student
Il rapporto di una variabile aleatoria standardizzata e
la
radice
quadrata
di
una
variabile
aleatoria
distribuita come un  2 con k g.d.l. possiede una
distribuzione detta t di Student, se le due variabili
aleatorie sono indipendenti (in probabilità).
proprietà:
 La distribuzione della t di Student è simmetrica
intorno allo zero, che è anche il suo valor medio.
 La varianza della t di Student è k  k  2  .
 All’aumentare di k la distribuzione della t di
Student si avvicina alla distribuzione normale
standardizzata.
Dal
punto
di
vista
delle
applicazioni la t di Student con k  60 è da
considerarsi praticamente uguale alla normale
standardizzata.
119
Distribuzione della F di Fisher
Il rapporto di due variabili aleatorie distribuite come
un  2 , ciascuna divisa per il proprio numero di g.d.l.,
possiede una distribuzione detta F di Fisher, se le due
variabili
aleatorie
sono
indipendenti.
Questa
distribuzione dipende dai due g.d.l., k1 e k 2 , ed è
quindi indicata con Fk1 ,k2 .
proprietà:
 La distribuzione della F di Fisher è asimmetrica.
 Il suo intervallo di variazione va da zero ad
infinito.
 Al
tendere
ad
infinito
dei
suoi
g.d.l.
la
distribuzione della F di Fisher tende a quella
normale.
 La distribuzione della F di Fisher con 1 e k g.d.l.
è uguale a quella del quadrato di una t di Student
con k g.d.l.
120
LA PROIEZIONE
proiezione e proiettore nei modelli lineari
modello lineare semplice
yt     xt  ut
Problema: proiettare yt fuori dal campione
t  1,2,
,n
ynh per h  1,2, , n1 ,
n  1, n  2, , n  n1
periodo di proiezione
121
supponiamo che:
-
la
struttura
dell’economia,
già
ipotizzata
sostanzialmente invariante nel campione, rimanga la
stessa nei due periodi
-
i
valori
dell’esplicativa
per
i
tempi
t  n  1, n  2, , n  n1, siano noti
- valgano anche per il futuro le ipotesi deboli per i
residui
E (unh )  0
2
E (un  h  us )  
0
s nh
s  n  h;
s  1,2 ,...,n  n1
per ogni h,
valor medio dei residui nullo
122
proiezione yˆnh al tempo nh
yˆ nh  ˆ  ˆ xnh
h  1,2, , n1
yˆnh
proiezione della componente sistematica
poiché
la
proiezione
di
ut
è
stata
posta
arbitrariamente uguale a zero
procedura giustificata in senso probabilistico :
de Finetti [1970]
proiezione di una variabile
aleatoria come suo valor medio
stimatori e non stime  yˆnh variabile aleatoria:
proiettore della parte sistematica
123
fonti di incertezza per la proiezione:
- i parametri ̂ e ˆ sono stime e non i valori veri;
- la variabile esplicativa non è generalmente nota e va
sostituita con una proiezione;
- nella proiezione si annulla il residuo ma nella realtà
non è affatto detto che valga zero.
L’errore di proiezione
il proiettore non è uno stimatore non distorto di ynh
ma lo è della sua componente sistematica
errore di proiezione


en h  yn h  yˆ n h    ˆ    ˆ xn h  un  h
124
valor medio dell’errore considerato come variabile
aleatoria nullo


E (en h )  E    ˆ   E    ˆ xnh   E  unh   0
proiettore incondizionatamente non distorto
altra buona proprietà delle proiezioni ottenute con i
minimi quadrati.
Proiezioni ex post ed ex ante
errore
- aleatorio se è espresso in termini di stimatori e di
residuo
- numero se yˆnh è la proiezione e xn h è noto
realizzazioni ynh conosciute  proiezione ex post
non note  proiezione ex ante.
125
proiezione con il criterio dei minimi quadrati
proiettore BLU
- lineare rispetto alle yt poiché lineari sono gli
stimatori OLS
- non distorto rispetto alla parte sistematica




E  yˆ n h   E ˆ  ˆ xn h  E  ˆ   E ˆ xn h     xn h
h  1,2, , n1
- ottimo in quanto


Var  yˆ n h   Var ˆ  ˆ xn h  Var     xn h 
h  1,2, , n1
 e  stimatori qualsiasi tra i lineari e non distorti,
costanti pari a 1 e a xn h
126
L’errore quadratico medio di proiezione
varianza dell’errore di proiezione
Var (en h ) 
x  x
1  nh
2 

n 
mxx  x 2
2

 n

errore quadratico medio di proiezione
indicatore della precisione della proiezione
Teorema – Tra i proiettori lineari e non distorti
incondizionatamente, se ̂ e ˆ sono gli stimatori dei
minimi quadrati il proiettore è quello che possiede
errore quadratico medio minimo
127
Intervalli di confidenza per le proiezioni
proiezione di variabili economiche: meglio intervallare
che puntuale
ipotesi
un h
N  0, 2 
h  1,2, , n1
en  h  N (0, 2  an2h ) h  1,2, , n1

se poniamo
an2 h
2

1   xn h  x 
 1 
 n
n 
mxx  x 2

Standardizziamo
en  h
y  yˆ n h
 nh
  an h
  an  h
N  0,1
h  1,2, , n1
per cui
128
yn  h  yˆ n  h
1/ 2


an  h   ut2 /(n  k ) 
 t 1

n

yn  h  yˆ n  h
an  h
tn  h
h  1,2, , n1
poiché en  h e
n
u
t 1
t
sono stocasticamente indipendenti.
intervallo di confidenza al livello 


y  yˆ n  h
P  tn 2  n h
 tn2   1  
an h


yˆnh  anh    tn 2  ynh  yˆnh  anh    tn2
intervallo più corto che contiene il valore aleatorio ynh
con probabilità 1
129
Tre esempi
proiezione intervallare ex post per tre tempi al livello
  0.05
Retta interpolante il logaritmo dei consumi
ynh
yˆnh
h
effettivo
1
SE di
previsto
errore di
previsione
previsione
1.580
1.556
0.024
0.012
2
1.601
1.567
0.034
0.013
3
1.626
1.579
0.047
0.013
130
Funzione del consumo
ynh
yˆnh
h
effettivo
1
SE di
previsto
errore di
previsione
previsione
616498
615667
832
7508
2
622931
627839
-4908
7615
3
625708
630388
-4680
7638
Relazione tra tasso di cambio nominale e prezzi
relativi
ynh
yˆnh
h
effettivo
1
SE di
previsto
errore di
previsione
previsione
1.085
0.796
0.289
0.106
2
1.117
0.796
0.321
0.106
3
1.061
0.798
0.263
0.106
131
Indicatori dell’accuratezza delle proiezioni
proiezioni effettuate ex post
errore medio
1 n1
MPE   en h
n1 h1
errore medio assoluto
1 n1
MAE   en  h
n1 h 1
errore quadratico medio
1 n1 2
MSE   en  h
n1 h 1
132
radice dell ’errore quadratico medio
RMSE  MSE1 2
indice della stessa dimensione dell’errore
coefficiente di disuguaglianza di Theil
1/ 2
 n1 2 
  en  h 
 h 1

U
1/
2
1/ 2
 n1 2 
 n1 2 
  yn  h     yˆ n  h 
 h 1

 h 1

vale zero quando tutti gli errori di proiezione sono
nulli e tende ad uno man mano che l’accuratezza delle
proiezioni peggiora
errore medio assoluto percentuale (MAPE)
errore quadratico medio percentuale (MSPE).
133
Modello
MAE
MSE
RMSE
U
MAPE MSPE
Retta
interpolante 0.352
0.133
0.364 0.011 0.022 0.0005
il log dei
consumi
Funzione
3473 15561577 3945 0.003 0.006 0.00004
del consumo
Relazione tra
tasso di
0.291
0.085
0.292 0.155 0.267 0.072
cambio
nominale e
prezzi relativi
Errore medio assoluto, errore quadratico medio,
radice quadrata dell’errore quadratico medio,
coefficiente di Theil, errore medio assoluto
percentuale ed errore quadratico medio percentuale
per le proiezioni uno, due e tre tempi in avanti di tre
modelli.
134
LA MALASPECIFICAZIONE
modello lineare semplice
y     xt  ut
ipotesi:
a.
il campione è omogeneo
b.
parametri invariabili nel tempo
c.
i valori xt sono noti
d.
E  ut   0
 2 0

0 2

E  ut  us  


0 0
ut
0 

0  0

  2
 
2
 
N  0,  2 
ts
ts
t
135
test di malaspecificazione
omoschedasticità dei residui
autocorrelazione di ordine uno
normalità dei residui
omogeneità del campione
cioè test di cambiamento strutturale
136
Eteroschedasticità dei residui
variabilità non costante nel tempo, ma crescente o più
raramente decrescente, oppure ancora crescente e poi
decrescente a tratti
0 ts
E (ut  us )   2
t t  s
stima dei minimi quadrati ponderati (WLS)
t2  exp(1z1t )  exp(2 z2t )  ...  exp( s zst )
s  2 e z1t  1
Ipotesi I
t2  exp(1 )  exp(2 z2t )  2  wt2
 2  exp 1 
z2t  ln wt
137
Ipotesi II

2  2
t2  2  wt2
se wt  1  ipotesi standard di omoschedasticità
per eliminare l’eteroschedasticità
yt
x u
1
  t  t
wt
wt
wt wt
stimabile con gli OLS; infatti
u  1
E  t   E (ut )  0
 wt  wt
t
0
ts

u u 
1

E t  s  
E (ut  us )   1 2
2



ts
t
2
 wt ws  wt  ws
w
 t
cioè valgono le ipotesi deboli
stima dei minimi quadrati ponderati, poiché ogni
elemento t-esimo del campione viene pesato con un
fattore; in questo specifico caso 1 wt
138
Esempio
Funzione del consumo (variabili nominali)
ct
80
70
60
50
40
30
20
10
0
1980
1985
1990
1995
2000
t
Serie storica annuale del consumo nominale in Italia
espressa in migliaia di miliardi; anni 1980-2002.
stima dei minimi quadrati
yˆt
x
1
 772503  0.608 t
wt
wt
wt
t:
(-4.863)
campione 1980-2002,
SE dei residui=6514 ;
(203.284)
R 2  0.993
RSS=891158910 ;
TSS=120710590000
139
Test di omoschedasticità
Il test di Breusch e Pagan
sotto l’alternativa H1 :
t2  2
 t2  h 1 z1t   2 z2t 
  s zst 
h funzione indeterminata poiché il test ne è
indipendente
Ipotesi:
z1t  1 ed s  2
la nulla
H0 : 2  0
suggerisce omoschedasticità poiché in questo caso
 t2  h 1    2  costante
140
Passi:
1) si stima il modello con gli OLS e si calcolano i
residui stimati
2) si calcolano le quantità
uˆt2
ˆ 2
1 n 2
ˆ   uˆt
n t 1
2
t
3) uˆt2 / ˆ 2 come variabile proxy di t2 e quindi si
stimano i parametri della regressione ausiliaria
uˆt2
 1   2 z2t  vt
ˆ 2
4) si calcola la devianza residua
n
 vˆ
t 1
2
t
5) approssimativamente e per un campione grande,
ESS
2
12
test del chi quadrato
141
Il test del chi quadrato
sotto la H 0
ESS
2
12
quindi nel 95% dei casi si collocherà nella regione di
accettazione del test  0, 12 
nel 5% dei casi si collocherà nella regione di rifiuto
 12 ,  
Ovviamente il 95% di probabilità può essere sostituito
con il 99% o il 90%
142
Esempio – Consideriamo l’equazione che lega i
consumi privati nominali in Italia con il tempo e
verifichiamo che i residui siano omoschedastici
Stimiamo
ct     t  ut
con gli OLS e calcoliamo ˆ 2 nonché la serie uˆt2 ˆ 2  .
Stimiamo la regressione ausiliaria
uˆt2
 1   2 z2t  t
2
ˆ
e calcoliamo ESS 2  4.960 > 3.84 , quantile al 95%
della distribuzione del chi quadrato con 1 g.d.l.
Siamo
spinti
a
rifiutare
l’ipotesi
nulla
di
omoschedasticità.
143
La formulazione di Koenker
di più rapida implementazione del precedente in
quanto prescinde dal calcolo di ̂ 2
si stima con i minimi quadrati il modello
uˆt2  1   2 z2t  t
 asintoticamente e per un campione grande:
nRu2
12
Esempio precedente – è possibile prendere come z2t il
quadrato dei valori dell’endogena stimata yˆ t2
uˆt2  200000000000  0.102ct
Ru2  0.279
n  21
nRu2  5.838
> 3.84
 rifiuto dell’ipotesi nulla di
omoschedasticità
144
La correzione per l’eteroschedasticità di White
in presenza di eteroschedasticità:
le stime ottenute con gli OLS non sono buone
gli errori standard, così come le t di Student, non sono
affidabili
H. White ha sviluppato un metodo che permette di
ottenere gli errori standard delle stime tenendo conto
dell’eteroschedasticità
Esempio - stima OLS
cˆt  1333928  420437t
SE:
t:
(673610) (53646)
(-1.98)
(7.837)
campione 1960–1980;
SE dei residui =1488618;
R 2  0.764
RSS = 42103686000000;
TSS = 178214800000000
145
stima
corretta
per
l’eteroschedasticità
con
il
procedimento di White
cˆt  1333928  420437t
SE:
t:
(624420) (66359)
(-2.136)
campione 1960–1980;
SE dei residui =1488618;
(6.336)
R 2  0.764
RSS = 42103686000000
TSS = 178214800000000
146
Fonti e conseguenze dell’autocorrelazione
ipotesi di covarianze tra i residui nulle molto
restrittiva
Queste relazioni non spiegate  autocorrelazione dei
residui in seguito a:
- presenza di tendenza nella serie  yt  ,
- presenza di autocorrelazione già nella  yt  ,
- specificazione inesatta
- errori di misurazione
conseguenze dell'autocorrelazione:
- gli errori standard degli stimatori dei parametri
sono sottostimati,
- le t di Student sono sovrastimate,
- gli indicatori R2 sono sopravvalutati.
147
Test di autocorrelazione dei residui
Il test di Durbin e Watson
Nei primi anni ’50 costruirono un test per verificare
l'ipotesi di esistenza di autocorrelazione del primo
ordine
H0 :
Corr (ut , ut 1 )  (1)  0
contro l'alternativa
H1 :
Corr (ut , ut 1 )  (1)  0
l'ipotesi nulla riguarda il processo  ut  ma a
disposizione dell'econometrico non c'è tale processo
bensì la serie storica  uˆt  dei residui stimati
così occorrerebbe costruire un test di autocorrelazione
specifico per ogni campione, cosa possibile ma
chiaramente inaccettabile
148
n
d
 (uˆ  uˆ
t 2
t 1
t
n
 uˆ
t 2
n
)
2

n
n
 uˆ   uˆ
t 2
2
t
t 2
 2 uˆt uˆt 1
2
t 1
t 2
n
 uˆ
2
t
t 2
n

n
2 uˆ  2 uˆt uˆt 1
t 2
2
t
t 2
n
 uˆ
2
t
t 2

2
t
 2[1  ˆ (1)]
 indica l'uguaglianza approssimata e
n
1 n
uˆt uˆt 1
 uˆt uˆt 1 
n  1 t 2
ˆ 
 t 2n
n
1
uˆt2
uˆt2


n  1 t 2
t 2
stima campionaria del coefficiente di autocorrelazione
del primo ordine
le
due
sommatorie
n
 uˆ
t 2
2
t
e
n
 uˆ
t 2
2
t 1
non
sono
perfettamente uguali ma differiscono per il primo e
l'ultimo termine
149
n è sufficientemente grande e poiché E (uˆt )  0 , t,
l'approssimazione è generalmente buona 
se
ˆ 1  0
d 2
se
ˆ 1  0
2  d  4
se
ˆ 1  0
0  d  2
l'ipotesi nulla è accettata se la statistica d è vicina a 2
distribuzione di d non standard
estremi d1 e d2 dell'intervallo che conterrebbe il valore
2 con una data probabilità
ma la distribuzione di d dipende dal campione
e
quindi d1 e d2 sono funzioni di esso
ma, al variare del campione, d1 si muove in un
intervallo abbastanza ristretto, delimitato da dL e dU
150
similmente d2, suo simmetrico rispetto al punto d2,
si muove nell'intervallo delimitato da 4dU e 4dL
d:
0
ˆ 1 +1
dL
dU
4- d U
0
4- d L
4
-1
In definitiva:
Se d è compresa tra dU e 4dU il test suggerisce di
accettare l'ipotesi nulla di assenza di autocorrelazione
di primo ordine
Se 0d<dL il test suggerisce di rifiutare tale nulla e di
accettare l'alternativa di autocorrelazione positiva
L’autocorrelazione diventa negativa se 4dLd<4
Se d cade in uno dei due intervalli [dL,dU), [4dU,4dL),
il risultato del test è indeterminato.
151
condizioni:
i)
l’equazione contiene l'intercetta,
ii) la variabile esplicativa x non è stocastica.
i residui sono generati dallo schema
iii)
ut  ut 1   t
1    1
con  t tale che
E  t   0
0
E  t   s    2
 
t
ts
ts
x non può essere l’endogena ritardata poiché yt  è
sempre stocastica
L’ipotesi iii) è teoricamente limitativa
Nella
pratica
la
limitazione
non
è
presa
in
considerazione
152
passi per l'esecuzione del test:
1) si stima l'equazione e si determina la serie  uˆt ;
2) si calcola il valore della statistica d ;
3) in funzione di n, e di k  1 (non considerando
quindi l’intercetta) e del livello di significatività
del test, ad esempio il 5%, si estraggono dalle
tavole statistiche i due valori dL e dU;
 se d[dU, 4dU) si è indotti ad accettare l'ipotesi
nulla,
 se d[0, dL) si è indotti ad accettare l'alternativa
con (1)>0,
 se
d[4dL,
4)
si
è
indotti
ad
accettare
l'alternativa con (1)<0,
 se d[dL, dU) oppure d[4dU, 4dL) il risultato
del test è indeterminato.
153
Tre esempi
Modello
dU
DW
n
Retta
interpolante il log 0.975
dei consumi
1.161
0.158
21
Funzione del
consumo
1.018
1.187
0.748
23
Relazione tra
tasso di cambio
nominale e prezzi
relativi
1.172
1.291
0.359
33
dL
154
il trattamento dell’autocorrelazione di ordine uno
ritardiamo di una unità temporale
yt 1     xt 1  ut 1
poi
 yt 1       xt 1   ut 1
e sottraiamo membro a membro
yt   yt 1   1       xt   xt 1    t
quasi differenza
Qualora si conoscesse  si potrebbe stimare con gli
OLS
Ma  non è generalmente noto e quindi va stimato
155
Vari metodi di stima:
 determinato dalla statistica d di Durbin e Watson
ˆ 1  1  d 2
non molto precisa ma immediatamente ottenuta
ˆ 1  ˆ
yt   yt 1   1       xt   xt 1    t
Esempio – relazione tra tasso di cambio nominale e
prezzi relativi
d = 0.359 e approssimativamente ˆ  ˆ 1  0.821
ˆ t  0.821ˆt 1  1.156 1  0.821  0.325  xt  0.821xt 1 
ˆt  0.821ˆt 1  0.207  0.325  xt  0.821xt 1 
campione 1970–2002
SE dei residui = 0.128;
; R 2  0.742
RSS =0.511;
TSS =1.982
156
Il metodo di Cochrane e Orcutt
procedura iterativa che utilizza per la stima gli OLS
procedura innescata da un valore iniziale arbitrario
per 
passi:
1) si prefigura un valore ̂ 1 arbitrario; ad esempio
ˆ 1  0 ;
2) si calcolano le serie delle quasi differenze con
ˆ  ˆ1 e si stima con gli OLS:
3) si calcola la serie ˆt  e su di essa si stima ˆ  ˆ 2 ;
4) si iterano i passi 2) e 3) finché la differenza
ˆ i  ˆ i1 sia minore di una soglia prefissata.
157
due difetti possibili
è possibile che la convergenza non venga raggiunta
 è necessario cambiare il valore di innesco
è possibile che la convergenza sia sì raggiunta, ma su
di un minimo locale, e non globale, per la devianza dei
residui
 è utile ripetere la procedura più volte con valori di
innesco differenti
158
Test di cambiamento strutturale per il modello
semplice (Test del Chow)
campione non è tutto omogeneo ma presenta un punto
in cui cambia
yt  1  1xt  u1t
yt  2  2 xt  u2t
t  1,2, , n1
t  n1  1, n1  2, , n1  n2
H0 : 1  2   ,
1  2  
Se vale questa ipotesi nulla non c’è cambiamento
strutturale e le due equazioni sono identiche :
yt     xt  ut
t  1,2, , n1  n2
Esempio - relazione tra il tasso di cambio nominale
(valuta nazionale italiana)/$USA e i prezzi relativi
possibile cambiamento di struttura nel 1979
159
primo sottocampione: dal 1960 al 1979
ˆt  0.610  0.100 xt
t:
(17.349)
t  1960,1961,
,1979
(-7.647)
R 2  0.764
campione 1960–1979;
SE dei residui =0.024 ;
RSS =0.011;
TSS =0.046
secondo sottocampione: dal 1980 al 1992
ˆt  1.006  0.249 xt
t:
(4.537)
t  1980,1981,
,1992
(-1.392)
campione 1980-1992;
SE dei residui = 0.134;
R 2  0.150
RSS =0.197;
ˆt  0.953  0.224 xt
TSS =0.232
t  1960,1961,
,1992
campione 1960-1992; R 2  0.788
SE dei residui =0.094 ;
RSS =0.272;
TSS =1.282
160
Il caso n1  k , n2  k
RSSV il pedice “v” indica il fatto che la stima è stata
effettuata sotto il “vincolo” dell’ipotesi nulla
numero di g.d.l. = n1  n2 meno il numero dei
parametri da stimare, 2, ma che nel test prendiamo
genericamente pari a k per poter usare questo anche
in relazione ai modelli multipli
RSS NV è data dalla somma delle devianze dei residui
delle due equazioni
numero di g.d.l. = n1  k più n2  k , cioè n1  n2  2k
RSSV  RSS NV
  RSSV  RSS NV  k
 n1  n2  k    n1  n2  2k 
distribuzione del  2 divisa per il proprio numero di
g.d.l.
161
 RSSV  RSS NV  k
RSS NV  n1  n2  2k 
distribuzione della F di Fisher con k e  n1  n2  2k 
g.d.l.
Il test della F di Fisher
il rapporto ha distribuzione Fk , n1  n2 2 k nel 95% dei casi
si colloca nella regione di accettazione del test 0, F 
dove F è il quantile di probabilità 95%, mentre nel 5%
dei casi si colloca nella regione di rifiuto
Ovviamente il 95% di probabilità può essere sostituito
con il 99% o il 90%
passi:
1) si determina RSSV
2) si determina RSS1
3) si determina RSS2
162
4) si determina RSSV  RSS1  RSS2
5) si calcola il rapporto con k  2
6) si trova il valore soglia F nelle tavole della
F2, n1  n2 4 avendo scelto il livello di significatività
al 90 o al 95 o al 99%
7) se il rapporto cade nell’intervallo 0, F  si è
spinti ad accettare l’ipotesi nulla di omogeneità
del campione; se cade in  F ,    si è spinti ad
accettare l’ipotesi alternativa di cambiamento
strutturale
Nel caso dell’esempio precedente
RSSV  0.272
RSS NV  RSS1  RSS2  0.011+0.197 = 0.208
k  2, n1  20, n2  13
il rapporto vale 4.462 e cade nell’intervallo  F ,   
F = 3.33 , e quindi si è spinti ad accettare l’ipotesi di
cambiamento strutturale
163
Il caso n1  k , n2  k
RSSV  RSS1
  RSSV  RSS1  n2
 n1  n2  k    n1  k 
 RSSV  RSS1  n2
RSS1  n1  k 
passi:
1) e 2) Come sopra.
3) e 4) RSS2  0 per cui RSS NV  RSS1 .
5) Si calcola il rapporto con k  2 .
6) Si trova il valore soglia avendo scelto il livello di
significatività al 90 o al 95 o al 99%.
7) Come sopra.
test del Chow
164
Il test di normalità di Jarque – Bera
controlla due caratteristiche della normale, dette
simmetria e curtosi, di definizione ovvia la prima e
concernente la piattezza del picco la seconda
non normale la distribuzione con valori degli indici
lontani da quelli della normale
indice di asimmetria
3 
1
3



E
x




3



con   E  x 
è 3 = 0 per la normale
indice di curtosi
4 
1
4



E
x




4



165
sotto l’ipotesi nulla di normalità la variabile aleatoria
n
1
2
JB  ˆ32  ˆ 4  3 
6
4

approssimativamente e per n grande ha distribuzione
del  2 con 2 g.d.l.
test del chi quadrato per verificare la normalità dei
residui
166
IL MODELLO LINEARE MULTIPLO
I vettori e la moltiplicazione righe per colonne
yt   x1t   x2t  ut
x1t  1
t
modo vettoriale e matriciale, relativo cioè ai vettori e
alle matrici
  
vettore riga
 x1t
x2t 
vettore riga delle variabili
elementi dei vettori riga
scalari
167
Il numero degli elementi componenti un vettore ne
costituisce la dimensione
vettori colonna
il vettore colonna dei parametri
 
 
 
il vettore colonna delle variabili esplicative
 x1t 
x 
 2t 
 
β 
 
 x1t 
xt   
 x2t 
,
I vettori riga sono detti trasposti dei vettori colonna e
β e x
viceversa
β   

,
xt   x1t
x2t 
168
operazione di trasposizione
moltiplicazione righe per colonne tra un vettore riga
ed un vettore colonna, che si effettua moltiplicando
ciascun elemento del vettore riga per l’elemento di
posto corrispondente nel vettore colonna e sommando
i prodotti ottenuti
x 
      1t    x1t   x2t
 x2t 
Risultato:
scalare
chiamato prodotto scalare
β xt
Inoltre, poiché
 x1t   x2t  x1t   x2t 

β xt  xt β
yt  xt β  ut
169
Il modello lineare multiplo
yt  1 x1t  2 x2t 
β   1  2
βxt   1  2
k 
,
 k xkt  ut
x   x1t x2t
 x1t 
x 
 k   2t   1 x1t   2 x2t 
 
 
 xkt 
xkt 
  k xkt
modello lineare e multiplo
il termine additivo ut misura tutto quanto non è
spiegato dalle variabili esplicative:
residuo
170
ut è costituito dalla possibile aggregazione di:
- variabili che non sono state inserite tra le
esplicative (omesse),
- impulsi accidentali prodotti dal sistema economico,
- elementi
caratteristici
di
yt ,
ad
esempio
le
stagionalità,
- errori nella misurazione,
- elementi
di
disturbo
dovuti
al
fatto
che
la
specificazione è lineare, mentre avrebbe dovuto
essere non lineare rispetto ad alcune delle variabili
esplicative.
due esempi
171
funzione delle esportazioni
ln yt  1  2 ln x2t  3 ln x3t  4 ln x4t  5 ln x5t  ut
intercetta 1 ,
yt  importazioni di beni e servizi,
x2t  consumi finali interni delle famiglie più
consumi collettivi,
x3t  investimenti fissi lordi più esportazioni di
beni e servizi più variazione delle scorte,
x4t  deflatore implicito delle importazioni,
x5t  deflatore implicito del PIL,
per cui 2  0 , 3  0 , 4  0 , 5  0
equazione log–lineare, cioè lineare nei logaritmi delle
variabili
linearizzabile
sostituendo
una
variabile
non
logaritmizzata al posto di ogni logaritmizzata
172
funzione della domanda di moneta
ln yt  1  2 ln x2t  3 ln x3t  ut
yt  domanda di moneta in termini reali
x2t  prodotto interno lordo in termini reali
x3t  tasso d’interesse a breve
per cui
 2  0 , 3  0
I minimi quadrati nel modello lineare multiplo

uˆt  yt  yˆt  yt  ˆ1 x1t  ˆ2 x2t 
 ˆk xkt

componente sistematica
componente aleatoria
173
criterio dei minimi quadrati
n
n
min  u  min   yt  βxt   min S  β 
β
t 1
2
t
β
2
β
t 1
 y1   x11 x21 xk1  β  u1

 y2   x12 x22 xk 2  β  u2


y  x x
xkn  β  un
1n 2 n
 n
 y1   x11 x21
 y  x x
 2    12 22
  
  
 yn   x1n x2 n
xk1 
u1 
u 
xk 2 
β   2 

 

 
xkn 
un 
moltiplicazione righe per colonne
 x11 x21
x x
Xβ   12 22


 x1n x2 n
xk1 
 1 x11  2 x21
 x  x
xk 2 
 β   1 12 2 22




xkn 
 1 x1n  2 x2 n
 k xk1 
 k xk 2 


 k xkn 
174
y = Xβ + u
addizione tra vettori che hanno la stessa dimensione
Per trovare S  β 
uu  u1 u2
u1 
u 
un   2   u12  u22 
 
 
un 
n
 u   ut2
2
n
t 1
S  β    ut2  uu   y - Xβ   y - Xβ 
n
t 1
u  y - Xβ
175
La matrice inversa
inversa sinistra della matrice quadrata
A-1A = I
inversa destra della matrice quadrata
AA-1 = I
Poiché AA-1  A-1A = I , l’inversa destra e l'inversa
sinistra di una matrice quadrata coincidono e sono
semplicemente dette inversa
Il determinante
Data una matrice quadrata di ordine n, si dimostra
che la sua inversa consiste nel prodotto dell'inverso
del suo determinante, che è uno scalare, per la sua
matrice aggiunta
A 1 
1
aggA
detA
matrice non singolare
Se det A 0, la matrice è chiamata singolare.
176
Le stime dei minimi quadrati
equazioni normali
 XX  βˆ = Xy
1
βˆ =  XX  Xy
det  XX   0
Le stime dei residui
yˆ  Xβˆ
uˆ = y  yˆ  y  Xβˆ
177
R 2 corretto
1 n
1 n 2
2
( yt  yˆt )
uˆt


n
n
R 2  1  t n1
 1  n t 1
1
1
2
(
y

y
)
( yt  y ) 2


t
n t 1
n t 1
Rc2  1 
1 n 2
uˆt

n  k t 1
1 n
( yt  y ) 2

n  1 t 1
178