Facoltà di Economia - Università di Sassari Dispense Corso di

Facoltà di Economia - Università di Sassari
Anno Accademico 2004-2005
Dispense Corso di Econometria
Docente: Luciano Gutierrez
La Regressione Lineare
Programma:
Introduzione
2.1.1 Il modello di regressione lineare
2.1.2 Le ipotesi del metodo dei minimi quadrati ordinari
2.1.3 Stima dei coefficienti del modello di regressione lineare
2.1.4 Distribuzione campionaria degli stimatori minimi quadrati
2.1.5 I test di ipotesi sui coefficienti di regressione
2.1.6 Intervalli di confidenza.
2.1.7 La regressione quando la variabile dipendente è binaria
2.1.8 Il coefficiente di determinazione
2.1.9 Eteroschedasticità e omoschedasticità
Luciano Gutierrez
Departimento di Economia e Sistemi Arborei
Università of Sassari
Via E. De Nicola 1, Sassari 07100
Tel.: +39.079.229.256
Fax: +39.079.229.356
e-mail: [email protected]
web: http://www.gutierrezluciano.net
15
Introduzione
Diverse decisioni in economia, nel governo del paese, nell’attività imprenditoriale, si
fondano su relazioni tra variabili e spesso impongono risposte di tipo quantitativo a
domande di tipo quantitativo. Ecco solo alcune di queste domande.
Domanda 1 : Di quanto aumenteranno i consumi delle famiglie italiane a seguito
della recente riduzione delle imposte dirette sul reddito?
Se si osservano i dati del Conto Economico delle Risorse e degli Impieghi (disponibili
nel sito dell’Istat http://www.istat.it) si nota che nel periodo 1980-1 e 2001-2 il Prodotto
Interno Lordo (PIL) a prezzi costanti è aumentato del 2.0%. Nel periodo 2001-3 2004-3,
il PIL è aumentato mediamente dello 0.7%. L’incremento dei Consumi Finali Interni
della Famiglie, la componente più importante della domanda interna
del paese
(mediamente nel periodo 1980-2004 costituisce il 60% del PIL), sempre nel periodo
1980-1 - 2001-2 è risultato del 2.0%, contro lo 0.6% del periodo 2001-3 2004-3.
1
Nell’intento di stimolare l’economia, il Governo ha ridotto le imposte sul reddito delle
famiglie con l’obbiettivo di aumentare il reddito disponibile e stimolare in questo modo
i consumi della famiglie (ricorda la funzione di domanda studiata nel corso di
Macroeconomia). Tuttavia non è mancato l’aumentato di una serie di tariffe che,
chiaramente, hanno un effetto opposto a que llo relativo alla riduzione delle imposte sul
reddito. Quale sarà l’effetto netto della manovra sui consumi delle famiglie?
Aumenteranno e se si (o no), di quanto?
Domanda 2. Se si aumenta l’imposta sulla benzina dell’1%, di quanto si ridurrà il
consumo di benzina?
La teoria economica consente di affermare che se il prezzo della benzina aumenta, il suo
consumo deve diminuire (la benzina è un bene normale).
Come è noto, parte dei
problemi di inquinamento nelle nostre città sono legati al consumo di benzina. Uno dei
modi di ridurre il consumo di benzina potrebbe essere quello di aumentarne il livello di
tassazione. Quale è la percentuale di riduzione del consumo di benzina nel caso in cui il
prezzo della benzina aumenti ad esempio dell’1%? La teoria econo mica ci dice che per
risolvere questo problema dobbiamo calcolare l’elasticità della domanda del bene
1
Altri dati: importazioni +5% 1980-1/2001-2, -0.1 2001-3/2004-3, investimenti fissi lordi +1.8%19801/2001-2, +0.4% 2001-3/2004-3, esportazioni +5.3%1980-1/2001-2, -1.6 2001-3/2004-3.
16
rispetto al suo prezzo, tuttavia non ci dice quale è il valore dell’elasticità. Un modo di
calcolarla è quello di utilizzare gli strumenti econometrici per stimare un funzione di
domanda di benzina, funzione in cui compariranno (almeno) il consumo di benzina, il
suo prezzo, le imposte di fabbricazione sugli olii minerali che incidono sul prezzo della
benzina e, naturalmente, il reddito.
Domanda 3. Quanto crescerà il PIL italiano nel 2005?
L’Unione Monetaria Europea richiede, ai paesi che vi aderiscono, che il rapporto
deficit/PIL non superi il 3%. Al fine di rispettare l’obiettivo è chiaramente importante
per ciascun Governo oltre a prevede le entrate e le spese per l’anno successivo,
prevedere anche l’incremento del PIL. Solitamente la previsione del PIL è fatta
mediante l’uso di modelli econometrici. In Italia esistono diversi enti pubblici, Banca
d’Italia, l’Istituto di Studi e Analisi Economiche (ISAE), e privati, Prometeia e REF,
che utilizzano modelli econometrici per la previsione delle più importanti variabili
macroeconomiche (PIL, prezzi, import/export…).
Ciascuna delle domande proposte sono di tipo quantitativo e richiedono, quindi, delle
risposte di tipo quantitativo. Nel corso presenteremo alcuni strumenti econometrici,
principalmente basati sul modello di regressione multipla che consentono di rispondere
alle domande prima esposte. Il modello di regressione consente di analizzare l’effetto su
una variabile, ad esempio il consumo di benzina, dell’incremento di un’altra variabile,
l’imposta di fabbricazione sulla benzina, mantenendo costanti le altre variabili che
possono influenzare il consumo di benzina quali, ad esempio, il prezzo della benzina ed
il reddito dei consumatori.
Al fine di introdurre il modello di regressione multipla gradualmente, inizieremo con
l’analizzare il modello di regressione semplice.
Prima di introdurre i modelli, è utile una breve rassegna dei dati solitamente utilizzati in
econometria. Sono principalmente di tre tipi:
a) Dati cross-section: si tratta di dati raccolti per diverse unità rilevate tutte nello
stesso periodo temporale
17
Reddito procapite
Figura 1. Reddito medio pro-capite in 140 regioni
UE anno 2002 - (dati in Euro pps)
50000
40000
30000
20000
10000
0
35
70
105
140
Regioni
Nella figura 1 sono presentati i dati relativi al reddito medi pro-capite rilevato in 140
regioni europee nel 2002 (fonte: Eurostat). Il reddito maggiore, poco più di 45000
euro nel 2002, è del Lussemburgo, mentre il reddito minore è della regione di Dytiki
in Grecia con poco più di 12000 euro annui. Utilizzando i dati cross-section è
possibile studiare le differenze tra le variabili in un singolo periodo. Ad esempio
possiamo dire che il reddito medio dei lussemburghesi nel 2002 è stato circa 3,6
volte il reddito degli abitanti di Dytiki .
b) Serie storiche: la serie storica è invece un dato raccolto per una singola unità in
diversi istanti temporali.
Figura 2. Reddito procapite Sardegna
euro pps - 1980-2002
Reddito procapite
22000
17000
12000
7000
2000
1980
1984
1988
1992
1996
2000
Anni
Nella figura 1 è osservabile la serie storica del reddito medio pro-capite della
regione Sardegna nel periodo 1980-2002. E’ possibile notare come il reddito sia
aumentato, passando da poco meno di 6000 euro del 1980 ai 17422 euro del 2002.
18
c) Dati Panel: i dati panel, detti anche longit udinali, sono dati relativi ad almeno
due o più unità e ciascuna unità è osservata in almeno due o più periodi (nel caso
fosse un solo periodo ci troveremo nel caso di dati cross.section, mentre nel caso
avessimo una solo unità avremo una serie storica).
Figura 3. Reddito procapite regioni UE
euro pps - 1980-2002
Reddito procapite
50000
40000
30000
20000
10000
0
1980
1984
1988
1992
1996
2000
Anni
Nella figura 3 possiamo osservare l’andamento del reddito pro-capite in 140 regioni
europee durante il periodo 1980-2002.
Prima di introdurre il modello di regressione è bene rivedere alcuni concetti molto
importanti.
1. Valore Atteso :
Il valore atteso di una variabile casuale, che denoteremo con E ( y ) , è il valore
medio che assumerà la variabile casuale y dopo una “lunga” serie di estrazioni. Il
valore atteso è quindi calcolato come una media ponderata degli eventi associati alla
variabile casuale osservata e i pesi sono dati dalla probabilità associata a ciascun
evento.
Ad esempio, immaginiamo che prestiamo ad un amico 100 euro ad un tasso del 2%.
L’amico (se vuol rimanere un amico) dovrà rimborsare 102 euro. Immaginiamo che
la probabilità che ci rimborsi sia del 99% (dopo tutto è un amico!!). Allora la
probabilità che non rimborsi è dell’1%. Il valore atteso sarà dato da
0,99*102+0,01*0=100,98 euro. Il valore atteso della variabile casuale
spesso scritto come µ y .
y viene
19
2. Varianza ed errore standard
La varianza e la deviazione standard misurano la dispersione della distribuzione di
probabilità. La varianza di una variabile casuale, di solito indicata con
VAR ( y ) o σ 2y , viene calcolata, per eventi
discreti, come media ponderata del
quadrato degli scarti di tutti i singoli degli eventi dal valore atteso della variabile
casuale. Anche in questo caso i pesi sono dati dalle probabilità associate a ciascun
evento. La deviazione standard è invece la radice quadrata dell’errore standard.
Possiamo misurare la varianza e l’errore standard dell’esempio precedente. La
varianza sarà calcolata come
σ y2 = (102 − 100,98) ∗ 0,99 + ( 0 −100,98) *0,01 = 102,9996
2
2
mentre la deviazione standard sarà uguale a σ y = σ y2 = 10,1489 .
3. Media e varianza di funzioni lineari.
Se la variabile casuale y e la variabile casuale x sono legate dalla seguente relazione
lineare y = a + bx , in cui a e b sono due costanti, avremo che
E ( y ) = a + bE ( x )
2
VAR( y ) = bVAR
( x)
(2.1)
4. Distribuzioni di probabilità congiunte e marginali, e distribuzioni
condizionate
La distribuzione di probabilità congiunta di due variabili casuali discrete, ad
esempio x e y, è pari alla probabilità che le due variabili assumano simultaneamente
determinati valori, diciamo xi e yi . Le probabilità di tutti i possibili eventi
( xi , yi )
sommerà chiaramente a uno.
La distribuzione di probabilità marginale è un altro modo di definire la
distribuzione di una singola variabile casuale a partire dalla distribuzione di
probabilità congiunta.
Un esempio può essere utile. Le condizioni meteorologiche influenzano i temi di
percorrenza di uno studente che si reca ogni giorno a lezione. Possiamo definire due
variabili casuali che assumono valore 0 o 1, cioè binarie. La prima variabile x
assume valore 0 se piove e valore 1 se non piove. La seconda variabile y assume
20
valore 0 se il tempo di percorrenza è maggiore di venti minuti e assume un valore
uguale a 1 se invece si impiegano meno di venti minuti.
Possiamo associare ai possibili eventi le probabilità congiunte
Tabella 1 Probabilità congiunta tempo di percorrenza e condizioni meteo.
Piove (x=0)
Non Piove (x=1)
Totale
Percorrenza lunga (y=0)
0,15
0,07
0,22
Percorrenza corta (y=1)
0,15
0,63
0,78
Totale
0,30
0,70
1,00
La distribuzione marginale di y è inserita nell’ultima colonna. A prescindere dal
fatto se piova o non piova, la probabilità che occorrano più di venti minuti per
percorrere il percorso è molto bassa e pari al 22%. Molto più alta è la probabilità di
impiegare meno diventi minuti. In questo caso la probabilità è pari al 78%.
Naturalmente possiamo definire una distribuzione di probabilità per le condizioni
meteo. In media nella città le probabilità di pioggia sono del 30% e di non pioggia
del 70%.
In econometria è molto importante la definizione di distribuzione condizionata. La
distribuzione di una variabile casuale y condizionata ad un'altra variabile casuale x
che assume valori specifici è denominata distribuzione condizionata. Ad esempio,
quale è la probabilità di un lungo tempo di percorrenza se sappiamo che piove?
Dalla tabella vediamo che la probabilità di un lungo tempo di percorrenza e la
probabilità di breve tempo di percorrenza quando piove è identica, e pari al 15%.
Allora la probabilità condizionata al fatto che si abbia un lungo tempo di
percorrenza quando piove è del 50%, uguale al caso di breve percorrenza quando
piove. I due valori sono ottenuti dividendo le due probabilità congiunte per la
marginale 0,30. Dal corso di statistica è noto che P ( y x ) =
P ( x , y ) 0,15
=
. Si
P ( x)
0,30
calcoli per esercizio la probabilità condizionata di avere un lungo tempo di
percorrenza quando non piove. E’ maggiore o minore di quella di avere un lungo
tempo di percorrenza?
21
5. Valore atteso condizionato e varianza condizionata
Il valore atteso di y condizionato a x è la media della distribuzione condizionata di y
dato x. Nell’esempio precedente il valore atteso condizionato del tempo di
percorrenza
condizionato
al
fatto
0 ∗ ( 0,15 0,30 ) + 1 ∗ ( 0,15 0,30 ) = 0,5 ,
nota
che
piova
che
rispetto
è
al
uguale
valore
a
atteso
precedentemente definito, qui dobbiamo utilizzare le probabilità condizionate. Nel
caso che
invece
non
piova
il
valore
atteso
condizionato
è
dato
da
0 ∗ ( 0,07 0,70 ) +1 ∗ ( 0,63 0,70 ) = 0,9 . Una volta calcolato il valore atteso
condizionato è possibile calcolare la varianza condizionata come somma ponderata
degli scarti elevati al quadrato dell’evento dal valore atteso condizionato. Gli scarti,
naturalmente, devono essere ponderati per le probabilità condizionate.
Una volta definito il valore atteso condizionato è possibile scrivere la seguente
relazione che è nota come legge delle aspettative iterate, cioè
(
E ( y ) = E E (y x )
)
(2.2)
Abbiamo quindi che se calcoliamo il valore atteso dei valori attesi condizionati a
tutti i valori che può assumere la variabile x, otteniamo il valore atteso di y.
Dall’ultima colonna della tabella 1 è facile osservare che E ( y ) = 0,78 . Il valore può
essere ottenuto anche come
E ( y ) = E ( y x = 0 ) ∗ P ( x = 0 ) + E ( y x = 1) ∗ P ( x = 1) = 0,5 ∗ 0,3 + 0,9 ∗0,7 = 0,78
6. Correlazione e valore atteso condizionato
Se y non dipende (linearmente) da x, allora la correlazione tra le due variabili casuali
è
uguale
a
zero.
Possiamo
anche
affermare
che
se
E ( y x ) = µ y → cov ( y, x ) = corr ( y , x ) = 0 .
7. Media e varianza dello stimatore media della distribuzione campionaria
Nel corso utilizzeremo sempre medie o medie ponderate di dati campionari. Capire
bene le distribuzioni delle medie campionarie è quindi importante per capire bene le
metodologie econometriche.
Dall’analisi statistica sappiamo che data un popolazione è possibile estrarre dei
valori casualmente mediante una procedura di estrazione campionaria. Definiamo
22
con y1 , y2 ,..., y N gli N eventi estratti dalla popolazione. Se ripetiamo l’esercizio
estraendo una seconda N-upla, otterremo generalmente dei valori diversi. Allora la
N-upla estratta y1 , y2 ,..., y N è una variabile casuale.
Dato che l’estrazione è casuale ed è effettuata sulla stessa popolazione per ciascun
yi i = 1,2,..., N , la distribuzione marginale di ciascun yi sarà identica. Se tutti gli yi
hanno una stessa distribuzio ne si dice che
y1 , y2 ,..., y N
sono distribuiti
identicamente. Se la l’estrazione di y2 non dipende dal fatto che abbiamo estratto
y1 , ossia la distribuzione condizionata di y2 a y1 è uguale alla distribuzione
marginale di y2 , allora sappiamo che y2 è indipendente da y1 . Se ciò vale per
qualsiasi
y1 , y2 ,..., y N
allora
diciamo
che
il
campione
è
distribuito
indipendentemente.
In conclusione, se y1 , y2 ,..., y N hanno la stessa distribuzione e sono distribuiti
indipendentemente sono detti indipendentemente e identicamente distribuiti o i.i.d.
8. La distribuzione campionaria della media semplice.
Come è noto la media semplice dei valori y1 , y2 ,..., y N è data da
y=
1
N
N
∑y
i =1
(2.3)
i
Dato che una media di valori casuali anche la media sarà un variabile casuale. E’
possibile infatti che se si estrae una seconda N-upla di valori e si calcola la media,
questa non coinciderà con la media calcolata con i valori inseriti nella (2.3). Allora
anche la media campionaria avrà una distribuzione e possiamo calcolarne ad
esempio i due primi momenti, la media e la varianza. Se tutti gli y1 , y2 ,..., y N sono
i.i.d. avranno la stessa media µ y e la stessa varianza σ y2 .
Allora la media della media semplice (campionaria) y sarà uguale a
E( y ) = µy =
1 N
1
E ( yi ) = Nµ y = µ y
∑
N i =1
N
(2.4)
cioè identica alla media dei singoli yi .
Possiamo definire la varianza della media campionaria
1
VAR ( y ) = σ 2y = VAR 
N
 1
yi  = 2
∑
i =1
 N
N
N
∑VAR ( yi ) =
i =1
σ 2y
1
2
N
σ
=
y
N2
N
(2.5)
23
Nota che questo risultato è valido qualsiasi sia il tipo di distribuzione degli yi . 2 Se
gli yi sono distribuiti normalmente, data che la somma di variabili normali è ancora
una variabile normale, anche la media campionaria avrà una distribuzione normale
N ( µ y , σ 2y N ) .
Ma in quale modo possiamo affermare che, ad esempio, la distribuzione della media
campionaria è normale? Purtroppo la distribuzione esatta, cioè la distribuzione di
y che vale qualsiasi sia il numero di eventi i non sempre è assegnabile, anzi quasi
mai è possibile assegnarla. Si procede solitamente per approssimazioni successive o
come più corretto dire si detefinisce la distribuzione asintotica. In questo caso
avremo che la distribuzione asintotica sarà uguale a quella esatta solo per N → ∞ .
Tuttavia, come vedremo, sarà possibile a volte avere che anche per N non così vicini
all’infinito, la distribuzione sia “abbastanza simile” a quella esatta.
Esistono due strumenti chiave utilizzati per approssimare le distribuzioni
campionarie quando il campione è grande: la legge dei grandi numeri e il teorema
del limite centrale. La legge dei grandi numeri dice che al crescere di N , y → µ y
con una probabilità “molto alta”. In particolare la legge afferma che se
p
yi , i = 1,2,..., N sono i.i.d. con E ( yi ) = µ y e VAR ( yi ) = σ y2 allora y → µ y in cui o
(
)
in altri termini P y − µ y < c = 1 quando N aumenta per qualsiasi costante c > 0.
Il teorema del limite centrale afferma invece che la distribuzione della media
campionaria standardizzata, cioè dell’espressione
(y−µ )
y
σ
2
y
N
(2.6)
è asintoticamente uguale a una normale standardizzata, ossia N ( 0,1) , qualsiasi sia
la distribuzione degli y1 , y2 ,..., y N . Questo teorema semplifica enormemente la
teoria della regressione, in quanto almeno asintoticamente potremo affermare, ad
esempio, che lo stimatore ha uno distribuzione normale, anche non conoscendo la
distribuzione degli yi . Dato che la distribuzione di y tende ad una normale per N
che aumenta, y è detto asintoticamente normalmente distribuito.
2
Naturalmente sono escluse dalla (2.5) le covarianze in quanto abbiamo l’ipotesi di indipendenza.
24
2.1.1 Il modello di regressione lineare
Possiamo ora introdurre il modello lineare di regressione semplice. Come abbiamo
visto nell’introduzione, un obiettivo della ricerca economia è la specificazione di
una relazione funzionale tra due variabili tale che y = f ( x ) . La variabile y è nota
come variabile dipendente, mentre la variabile
x è la variabile indipendente o
regressore. Non possiamo attendere che la variabile indipendente “spieghi”
perfettamente il comportamento della variabile dipendente, per cui scriviamo la
relazione come y = f ( x ) + ε , in cui ε è una variabile casuale chiamata residuo o
errore. La relazione y = f ( x ) + ε è nota come equazione di regressione di y su x. Il
termine di errore è connesso a
1) errori di misurazione della variabile y
2) imperfezioni nella specificazione della funzione f ( x ) , ad esempio, la funzione
non tiene conto di altre variabili non incluse nella funzione che, oltre alla
variabile x, influenzano la variabile y.
Ipotizziamo di disporre di T osservazioni della variabile y e della variabile x.
Possiamo scrivere la relazione come :
yt = α + β xt + ε t t = 1,2,..., T
(2.7)
L’obiettivo è quello di stimare i parametri α , la costante, e β , la pendenza, della
retta di regressione espressa nell’equazione (2.7). Utilizzeremo il metodo dei minimi
quadrati ordinari, cioè scegliere gli stimatori α̂ e β̂ di α e β tali per cui
T
T
Q = ∑ ( yt − α − β x t) = ∑ ( ε t )
2
i =1
2
(2.8)
t =1
è un minimo.
Figura 4 Regressione Lineare
3,5
3,0
y
2,5
2,0
1,5
1,0
0,5
0,0
0,0
1,0
2,0
x
3,0
4,0
25
Nella figura 4 sono inseriti tutti i punti
( yt , xt )
con t = 1,2,...,14 . Nella figura è inoltre
inserita la retta che passa “il più vicino possibile” tra tutti i punti inseriti nella figura..
Tali valori sono stati ottenuti minimizzando la somma dei quadrati delle distanze
verticali dei punti dalla retta, cioè scegliendo quei valori di α e β che minimizzano Q .
Naturalmente possono essere scelti altri metodi. Ad esempio anziché trovare gli
stimatori
α̂ e β̂ di α e β che minimizzano la somma quadratica degli errori,
possiamo trovare gli stimatori che minimizzano la somma dei va lori assoluti degli
errori. La scelta del metodo da utilizzare dipende dalle ipotesi sui residui della (2.8).
2.1.2 Le ipotesi del metodo dei minimi quadrati ordinari
Possiamo dire che gli stimatori minimi quadrati saranno gli stimatori lineari “migliori”
o, nella terminologia statistica più efficienti, se valgono le seguenti ipotesi
1. E ( ε t xt ) = 0 e VAR ( ε t x1 , x2 ,..., xT ) = σ 2
2. Ciascuna coppia
( yt , xt ) ,
t = 1,2,..., T è indipendentemente e identicamente
distribuita, cioè è i.i.d.
3. Esiste il momento quarto sia della variabile xt sia dell’errore ε t .
Esaminiamo il significato delle tre ipotesi:
Ipotesi 1 :
L’ipotesi prevede che la distribuzione condizionata di ε t rispetto al regressore xt abbia
media uguale a zero e la varianza condizionata sia uguale a σ 2 . Ipotizzare che la
varianza condizionata sia uguale a σ 2 vuol dire ipotizzare che gli errori siano
omoschedastici, cioè che la varianza degli errori non dipende dal valore assunto dal
regressore.
L’ipotesi che E ( ε t xt ) = 0 consente di escludere che, se ad esempio il termine di errore
ε t racchiude l’effetto di altre variabili non inserite nella regressione, queste ultime
variabili siano correlate a xt o, in altri termini, dato un valore di xt , la media della
distribuzione delle variabili omesse è uguale a zero. Come è noto dal corso di statistica
26
avremo che se E ( ε t xt ) = 0 ciò implica che ε t e xt sono non correlate, ossia
corr ( ε t , xt ) = 0 .
Ipotesi 2 :
L’ipotesi 2 richiede che le due variabili yt e xt siano estratte casualmente da una stessa
popolazione. Per fare un esempio, immaginiamo che la popolazione sia data dalla
popolazione di occupati italiani. Immaginiamo di definire con yt il salario e con xt
l’età dell’occupato. Estraiamo casualmente un occupato, rileviamo un valore per il
salario e un valore per l’età. Se ripetiamo l’operazione T volte avremo T coppie di valori
che avranno la stessa distribuzione e le due variabili saranno indipendentemente
distribuite tra una estrazione e la successiva.
3
Ipotesi 3 :
L’ipotesi 3 richiede che 0 < E ( xt4 ) < ∞ e 0 < E ( ε t4 ) < ∞ . In pratica questa ipotesi
consente di escludere il caso in cui il regressore xt e l’errore ε t possano assumere
valori estremamente elevati. Valori molto elevati, rispetto ai normali range di valori
assunti dalla xt , avrebbero un peso molto rilevante sulle stime a minimi quadrati
rendendo i valori stimati dei parametri alquanto fuorvianti.
Ma perché l’ipotesi sul momento quarto? Come abbiamo già visto, data una variabile
casuale possiamo calcolare gli stimatori media e la varianza campionaria. Al fine di
esaminare le proprietà dei due stimatori, ad esempio la loro consistenza, dovremo
calcolare la loro media e la varianza. Nel caso della varianza campionaria, il calcolo
della varianza dello stimatore varianza campionaria implica il calcolo del momento
quarto. Allora, introdurre l’ipotesi 3 equivale a dire che la varianza della varianza
campionaria non possa assumere valori “molto elevati”.
L’ipotesi 1 è quella più importante. Se è valida, si può mostrare che per grandi campioni
la distribuzione degli errori è normale. L’ipotesi 2 è importante per le applicazioni.
3
E’ utile osservare che ciò che diremo di seguito vale anche nel caso in cui la variabile xt sia una
variabile predeterminata, ossia la variabile xt non sia casuale. Tuttavia, visto che quasi mai le variabili
che utilizzeremo sono predeterminate, continueremo ad utilizzare quanto definito nell’ipotesi 3.
27
Generalmente può essere considerata valida nelle analisi cross-section mentre è
generalmente violata nelle analisi sulle serie storiche.
La terza ipotesi, anche se importante per definire le proprietà degli stimatori minimi
quadrati, non è quasi mai violata nelle applicazioni economiche, per cui è spesso
trascurata.
2.1.3 Stima dei coefficienti del modello di regressione lineare
Sappiamo dalle nozioni di statistica sul calcolo della varianza e covarianza che valgono
le seguenti relazioni in cui, come già visto, x e y sono rispettivamente la media della
variabile xt e la media della variabile yt
T
T
(2.9) S yy = ∑ ( yt − y ) = ∑ yt2 − T y = Tσ y2
2
t =1
T
t =1
T
(2.10) S xx = ∑ ( xt − x ) = ∑ xt 2 − T x = Tσ x2
2
t =1
t =1
T
T
t =1
t =1
(2.11) S xy = ∑ ( xt − x ) ( yt − y ) = ∑ xt yt − T xy = Tσ xy
Le espressioni (2.9) - (2.11) saranno utilissime nel calcolo degli stimatori minimi
quadrati.
Come abbiamo visto il problema consiste nel minimizzare Q rispetto ai coefficienti α̂
e β̂
T
(
min
Q = ∑ yt − αˆ − βˆ xt
ˆ
αˆ ,β
i =1
)
2
(2.12)
per risolvere il problema di minimo occorre eguagliare le derive (parziali) prime rispetto
ad α̂ e β̂ a zero. Iniziamo con la derivata rispetto a α̂
∂Q T
= ∑ 2 yt − αˆ − βˆ xt
ˆ
∂α t =1
(
) ( −1) = 0
(2.13)
e otteniamo
T
∑y
t =1
t
T
= Tαˆ + ∑ βˆ xt
(2.14)
t =1
e dividendo entrambi i membri per T
y = αˆ + βˆ x
Allo stesso modo
→ αˆ = y − βˆ x
(2.15)
28
(
∂Q T
= ∑ 2 yt − αˆ − βˆ xt
ˆ
∂ β t =1
) (−x ) = 0
(2.16)
t
o
T
T
∑ y x = ∑ αˆ x
t =1
t t
t
t =1
T
+ βˆ ∑ xt2
(2.17)
t =1
Sostituendo la (2.15) nella (2.17) abbiamo
T
T
t =1
t =1
(
)
T
(
)
T
∑ yt xt = ∑ y − βˆ x xt + βˆ∑ xt2 = y − βˆ x Tx + βˆ ∑ xt2
t =1
t =1
L’espressione sopra può essere scritta come:
 T 2

ˆ
y
x
−
Tyx
=
β
∑
t t
 ∑ xt − Tx 
t =1
 t =1

T
(2.18)
e utilizzando la (2.10) e la (2.11)
S
T σ xy σ xy
βˆ = xy =
=
S xx T σ x2 σ x2
(2.19)
αˆ = y − βˆ x
(2.20)
e
Utilizzando i valori di α̂ e β̂ possiamo derivare una stima dei residui di regressione
εˆt = yt − αˆ − βˆ xt
(2.21)
T
E’ possibile mostrare che
i residui così calcolati soddisfano:
∑ε
t =1
T
∑xε
t =1
t t
t
=0 e
= 0 (provalo!).
2.1.4 Distribuzione campionaria degli stimatori minimi quadrati
Gli stimatori minimi quadrati di α e β sono stati ottenuti senza alcuna assunzione sulla
distribuzione probabilistica dei residui ε t . Tuttavia sappiamo che, per l’ipotesi 2., gli
stimatori α e β sono ottenuti come combinazioni lineari di variabili casuali, per cui
saranno essi stessi delle variabili casuali. Come abbiamo già avuto modo di notare, per
piccoli campioni non possiamo affermare quale sarà la loro distribuzione probabilistica,
tuttavia per grandi campioni possiamo applicare il teorema del limite centrale e
affermare che la loro distribuzione è asintoticamente normale. Allora per T abbastanza
29
grandi e se sono rispettate le ipotesi elencate del modello di regressione, possiamo dire
che varranno le seguenti relazioni

1
x 
(1) αˆ : N  α , σˆ 2  +
 
 T S xx  

 σˆ 2 
ˆ
:
(2) β N  β ,

 S xx 
T
(3) σˆ 2 =
∑ εˆ
2
t =1
T−2
La (3) definisce lo stimatore della varianza degli errori di regressione. La divisione è
(T − 2) e non T in modo da correggere per il numero dei parametri, due, nella
regressione. In pratica questi costituiscono due vincoli, in quanto per due punti
riusciamo sempre “a far passare una retta”.
Analizziamo più in dettaglio ora la (1) e la (2). E’ importante mostrare che gli stimatori
( )
α e β minimi quadrati sono stimatori corretti ossia E (αˆ ) = α ; E βˆ = β .
Esaminiamo lo stimatore β . Dalla (2.19) sappiamo che
T
∑( y − y )( x − x )
βˆ =
t
t =1
t
T
∑(x
t
t =1
−x )
(2.22)
2
e dato che ( yt − y ) = β ( xt − x ) + ( ε t − εˆ ) possiamo riscrivere la (2.22) come
T
βˆ =
∑ ( x − x )  β ( x − x ) + ( ε
t =1
t
t
T
∑(x − x )
t −ε )

T
=β+
∑ ( x − x ) (ε
2
t
t =1
t
t =1
−ε )
t
T
∑(x − x )
(2.23)
2
t
t =1
ancora dalla (2.23), moltiplicando le espressioni tra parentesi otteniamo
T
βˆ = β +
∑ ( xt − x ) ε t
t =1
T
∑( x − x)
t =1
2
t
ε
−
T
∑( xt
t =1
−x )
T
∑( x − x)
t =1
t
2
T
=β+
∑( x
t =1
T
− x )ε t
t
∑( x − x)
t =1
t
Calcoliamo ora il valore atteso in entrambi i membri della (2.24)
T
4
Dal corso di Statistica sappiamo che
∑( x − x ) = 0
t
t =1
4
(2.24)
2
30
 T

 ∑ ( xt − x ) ε t 
 = β,
E βˆ = β + E  t =T1
 ( x − x )2 
t
 ∑

t =1
( )
(2.25)
data l’ipotesi 1. del modello di regressione in cui abbiamo ipotizzato che E ( ε t xt ) = 0 .
Dalla (2.25) possiamo derivare la correttezza dello stimatore, cioè
( )
E βˆ = β .
Utilizzando una procedura analoga si può mostrare che anche lo stimatore α̂ è corretto.
E’ anche possibile mostrare facilmente che i due stimatori sono consistenti ossia che al
crescere della numerosità campionaria, gli stimatori tendono al valore della
popolazione.
Esercizio 1:
Utilizzando il semplice modello di regressione lineare possiamo analizzare una
relazione importante: quella tra gli investimenti fissi lordi italiani e il livello dell’output
italiano. Come è noto, l’ipotesi dell’acceleratore prevede che gli investimenti dipendano
+
positivamente dal livello di output I = I  Y  . Assumiamo che la relazione sia di tipo
 
lineare, possiamo scrivere allora I = α + βY . Utilizzando i dati della contabilità
nazionale, disponibili nel sito del nostro Istituto Centrale di Statistica sugli investimenti
fissi lordi nel periodo 1980 1° trimestre 2004 1° trimestre (in totale T=99 osserva zioni)
e sul prodotto interno lordo nello stesso periodo temporale e le formule (2.19) e (2.20) ,
otteniamo
I = 43344,38
Y = 218284,12
S xy = 16421152520
S xx = 83226573357
βˆ = 0,1973 σ ˆ = 0,007374
β
αˆ = 275,49
σ αˆ = 1623.75
R 2 = 0,88
∆I Y
Y
Εˆ I , Y =
= βˆ = 0,9936
∆Y I
I
31
La stima del parametro β̂ è positiva. Questo valore ci consente di calcolare una misura
importante, ossia l’elasticità degli investimenti rispetto all’output Εˆ I , Y . Come è noto,
l’elasticità ci offre una misura della variazione percentuale degli investimenti a seguito
di una variazione percentuale del prodotto interno lordo. In questo caso abbiamo che,
utilizzando la stima β̂ e i valori medi degli investimenti e del prodotto interno lordo
(per cui stiamo calcolando l’elasticità media nel periodo), otteniamo una elasticità
praticamente unitaria. Ossia un incremento, ad esempio dell’1%, del prodotto interno
lordo genera una variazione molto simile, 0,9936%, degli investimenti. Nella figura 5
sono rappresentati tutti i 99 punti relativi alle osservazioni in ciascun trimestre del PIL
(in ascissa) e degli investimenti fissi lordi (ordinata). E’ inserita inoltre la retta di
regressione stimata con il metodo dei minimi quadrati ordinari.
60000
Figura 5. Regressione I = 275,49 + 0,1973Y
Investimenti
55000
50000
45000
40000
35000
30000
170000
190000
210000
230000
250000
270000
PIL
2.1.5 I test di ipotesi sui coefficienti di regressione
Quanto ci possiamo fidare che il coefficiente β stimato sia effettivamente diverso zero?
Come è noto dal corso di statistica, uno dei problemi più importanti una volta ottenuta
la stima di un parametro è quello di costruire delle statistiche che consentano di
decidere “con un ragionevole livello di confidenza” se, utilizzando il nostro caso,
l’ipotesi che β = 0 (ipotesi nulla) possa essere rifiutata
e invece venga accettata
l’ipotesi che β ≠ 0 (ipotesi alternativa).
La statistica utilizzata in questo caso è data
t=
βˆ − β
.
σ βˆ
(2.26)
32
Dato che al numeratore della statistica abbiamo una variabile casuale e al denominatore
abbiamo l’errore standard di β̂ , anch’essa una variabile casuale, anche la statistica t è
una variabile casuale. Abbiamo già visto precedentemente che, grazie al teorema del
limite centrale e per campioni con una alta numerosità, l’espressione t tende ad una
variabile che ha una distribuzione normale standardizzata N ( 0,1) . Se le ipotesi del
modello lineare sono valide, di solito non occorrono molte osservazioni affinché la
(2.26) sia distribuita normalmente. Circa trenta, quaranta osservazioni sono sufficienti,
un numero di osservazioni abbastanza consueto nell’analisi econometrica.
Definiamo ora precisamente l’ipotesi nulla e quella alternativa. Un caso spesso
analizzato in econometria è quello in cui si sottopone a test l’ipotesi che β = 0 , il che
equivarrebbe a dire nel nostro esempio che il prodotto interno lordo “non influenza” la
dinamica degli investimenti. Definiamo allora le ipotesi
1) Ipotesi nulla : H 0 : β = 0
2) Ipotesi alternativa H 1 : β ≠ 0 . L’ipotesi alternativa prevede che β < 0 o β > 0 .
Sostituiamo nella (2.26) i valori calcolati e l’ipotesi nulla β = 0 . Avremo:
t=
βˆ − β 0,1973 − 0
=
= 26,757
σ βˆ
0,007374
(2.27)
Nel caso il livello di significatività del test sia fissato al 5%, cioè la probabilità di
rifiutare un valore di β = 0 mentre invece effettivamente β = 0 (errore del I° Tipo), i
valori critici della distribuzione normale standardizzata al livello di probabilità 0,025 e
0,975 sono uguali a -1,96 e 1,96. Dato che il valore della statistica t è uguale a
26,757>1,96 il test porta a rifiutare l’ipotesi nulla di β = 0 per il valore di β = 0,1973 .
Naturalmente possiamo utilizzare gli stessi argomenti per sottoporre a test l’ipotesi che
α =0.
2.1.6 Intervalli di confidenza.
L’intervallo di confidenza al livello del 95% conterrà tutti i valori di β che non possono
essere rifiutati utilizzando un test di ipotesi a due code ad un livello di significatività del
5%. In altri termini, l’intervallo di confidenza è l’intervallo di valori che ha nno una
probabilità del 95% di contenere i valori corretti di β . Se si nota che la statistica t
rifiuterà l’ipotesi nulla ogni volta che β sarà al di fuori dell’intervallo βˆ ± 1,96σ βˆ , cioè
33
βˆ − 1,96σ ˆ , βˆ + 1,96σ ˆ  abbiamo trovato un modo molto semplice di calcolare
β
β 

l’intervallo di confidenza. Se sostituiamo, come prima, i valori calcolati nell’esercizio 1
abbiamo l’intervallo [0,183 0,211] . Dato che il va lore 0 non è contenuto nell’intervallo
di confidenza al 95%, questo valore è scartato. Si noti che minore è l’errore standard di
β̂ e minore sarà l’ampiezza dell’intervallo, cioè più i valori nell’intervallo saranno
concentrati sul valore stimato. L’importanza dell’intervallo di confidenza è quindi
quella che tutti i valori di β compresi nell’intervallo non possono essere rifiutati.
Possiamo anche in questo caso calcolare l’intervallo di confidenza di α .
2.1.7 La regressione quando la variabile dipendente è binaria
La discussione sino ad ora si è focalizzata sul caso di un regressore che può essere
assumere valori in tutto l’asse reale. Il modello di regressione può essere utilizzato
anche quando il regressore assume solo due valori, ad esempio 0 e 1. Un regressore di
questo tipo è noto come variabile binaria o variabile dummy. Definiamo ad esempio la
variabile dummy con Dt e diciamo che
1 se t ≥ 2001 secondo trimestre
Dt = 
0 se t < 2001 secondo trimestre
(2.28)
yt = α + β Dt +ε t t = 1,2,..., T
(2.29)
La regressione
assume lo stesso significato precedentemente visto, eccetto che ora il regressore è una
variabile binaria. Tuttavia il coefficiente β non può essere ora interpretato come la
pendenza della retta di regressione. Ipotizziamo di aver stimato i due coefficienti di
regressione α e β
Quando Dt = 0
yt = αˆ + ε t
(2.30)
yt = αˆ + βˆ + ε t
(2.31)
Quando Dt = 1
Se calcoliamo il valore atteso nella (2.30) e nella (2.31) otteniamo nel caso Dt = 0
E ( yt Dt = 0 ) = αˆ , nel caso in cui Dt = 1 E ( yt Dt = 1) = αˆ + βˆ .
34
Allora la variabile dummy consente di esaminare se il valore atteso della variabile yt si
è modificato dal 2001 secondo semestre. Quanto prima esposto sui test e gli intervalli di
confidenza delle stime di regressione può essere applicato anche al caso in cui il
regressore sia una variabile dummy.
2.1.8 Il coefficiente di determinazione
Definiamo con yˆt = αˆ + βˆ xt il fit della regressione, in pratica nel caso dell’esercizio la
retta stimata e disegnata nella figura 5, possiamo sempre scrivere
yt = yˆt + εˆt
(2.32)
Se calcoliamo la varianza in ambo i membri della (2.32) otteniamo
σ y2 = σ 2yˆ + σ ε2ˆ
(2.33)
La varianza totale della variabile dipendente y, σ y2 , può essere scomposta nella somma
della varianza σ ŷ2 che definiamo varianza spiegata dal modello di regressione e della
varianza non spiegata σ ε2ˆ dal modello di regressione. Se dividiamo per σ y2 entrambi i
membri della (2.33) otteniamo
σ 2y
σ 2yˆ
σ ε2ˆ
=1= 2 + 2 ,
σ 2y
σy σy
(2.34)
Si definisce coefficiente di determinazione R2 il seguente rapporto
R2 =
σ y2ˆ
σ y2
(2.35)
Il rapporto definisce la percentuale di varianza spiegata dal modello di regressione. E’
possibile notare che 0 ≤ R2 ≤ 1 , con gli estremi dati dal valore 0, ossia il modello non
spiega alcuna varianza di y, mentre il valore 1 si ha quando il modello di regressione
spiega tutta la varianza di y. In questo caso abbiamo che la retta di regressione passa
esattamente per tutti i punti sul piano di regressione. Nel caso dell’esercizio 1 la retta di
regressione spiega l’88%, R 2 = 0,88 , della varianza degli investimenti fissi lordi.
2.1.9 Eteroschedasticità e omoschedasticità
Abbiamo visto che gli stimatori minimi quadrati sono corretti, consistenti e
asintoticamente normali. Possiamo dire inoltre che, data l’ipotesi di omoschedasticità
degli errori, gli stimatori sono quelli più efficienti tra tutti gli stimatori lineari. Ciò
35
significa che tra tutti gli stimatori lineari sono quelli che hanno la varianza minima o
come si dice nella terminologia anglosassone BLUE (best linear unbiased estimators).
Se l’ipotesi di omoschedasticità non è corretta, gli stimatori minimi quadrati non
saranno più BLUE, inoltre avremo che le formule riportate per il calcolo delle varianze
di α e β non saranno corrette e dovremo calcolare degli errori standard che tengano
conto dell’eteroschedasticità degli errori o, nella terminologia econometria, siano
robusti. Quasi tutti i programmi econometrici consentono di calcolare gli errori standard
nel caso di omoschedasticità usando le formule (1)-(3), ma offrono anche erroristandard robusti, cioè che tengono conto della possibile eteroschedasticità degli errori. Il
consiglio è di calcolarli entrambi e nel caso vi siano importanti differenze utilizzare gli
errori standard robusti.
Come vedremo nel prossimo capitolo, l’ipotesi di
eteroschedasticità degli errori è un’ipotesi non così implausibile, anzi è in molti casi
fortemente plausibile. E’ più prudente allora assumere che gli errori siano
eteroschedastici, a meno che non si disponga di informazioni che consentano di
escludere questa ipotesi.