Facoltà di Economia - Università di Sassari Anno Accademico 2004-2005 Dispense Corso di Econometria Docente: Luciano Gutierrez La Regressione Lineare Programma: Introduzione 2.1.1 Il modello di regressione lineare 2.1.2 Le ipotesi del metodo dei minimi quadrati ordinari 2.1.3 Stima dei coefficienti del modello di regressione lineare 2.1.4 Distribuzione campionaria degli stimatori minimi quadrati 2.1.5 I test di ipotesi sui coefficienti di regressione 2.1.6 Intervalli di confidenza. 2.1.7 La regressione quando la variabile dipendente è binaria 2.1.8 Il coefficiente di determinazione 2.1.9 Eteroschedasticità e omoschedasticità Luciano Gutierrez Departimento di Economia e Sistemi Arborei Università of Sassari Via E. De Nicola 1, Sassari 07100 Tel.: +39.079.229.256 Fax: +39.079.229.356 e-mail: [email protected] web: http://www.gutierrezluciano.net 15 Introduzione Diverse decisioni in economia, nel governo del paese, nell’attività imprenditoriale, si fondano su relazioni tra variabili e spesso impongono risposte di tipo quantitativo a domande di tipo quantitativo. Ecco solo alcune di queste domande. Domanda 1 : Di quanto aumenteranno i consumi delle famiglie italiane a seguito della recente riduzione delle imposte dirette sul reddito? Se si osservano i dati del Conto Economico delle Risorse e degli Impieghi (disponibili nel sito dell’Istat http://www.istat.it) si nota che nel periodo 1980-1 e 2001-2 il Prodotto Interno Lordo (PIL) a prezzi costanti è aumentato del 2.0%. Nel periodo 2001-3 2004-3, il PIL è aumentato mediamente dello 0.7%. L’incremento dei Consumi Finali Interni della Famiglie, la componente più importante della domanda interna del paese (mediamente nel periodo 1980-2004 costituisce il 60% del PIL), sempre nel periodo 1980-1 - 2001-2 è risultato del 2.0%, contro lo 0.6% del periodo 2001-3 2004-3. 1 Nell’intento di stimolare l’economia, il Governo ha ridotto le imposte sul reddito delle famiglie con l’obbiettivo di aumentare il reddito disponibile e stimolare in questo modo i consumi della famiglie (ricorda la funzione di domanda studiata nel corso di Macroeconomia). Tuttavia non è mancato l’aumentato di una serie di tariffe che, chiaramente, hanno un effetto opposto a que llo relativo alla riduzione delle imposte sul reddito. Quale sarà l’effetto netto della manovra sui consumi delle famiglie? Aumenteranno e se si (o no), di quanto? Domanda 2. Se si aumenta l’imposta sulla benzina dell’1%, di quanto si ridurrà il consumo di benzina? La teoria economica consente di affermare che se il prezzo della benzina aumenta, il suo consumo deve diminuire (la benzina è un bene normale). Come è noto, parte dei problemi di inquinamento nelle nostre città sono legati al consumo di benzina. Uno dei modi di ridurre il consumo di benzina potrebbe essere quello di aumentarne il livello di tassazione. Quale è la percentuale di riduzione del consumo di benzina nel caso in cui il prezzo della benzina aumenti ad esempio dell’1%? La teoria econo mica ci dice che per risolvere questo problema dobbiamo calcolare l’elasticità della domanda del bene 1 Altri dati: importazioni +5% 1980-1/2001-2, -0.1 2001-3/2004-3, investimenti fissi lordi +1.8%19801/2001-2, +0.4% 2001-3/2004-3, esportazioni +5.3%1980-1/2001-2, -1.6 2001-3/2004-3. 16 rispetto al suo prezzo, tuttavia non ci dice quale è il valore dell’elasticità. Un modo di calcolarla è quello di utilizzare gli strumenti econometrici per stimare un funzione di domanda di benzina, funzione in cui compariranno (almeno) il consumo di benzina, il suo prezzo, le imposte di fabbricazione sugli olii minerali che incidono sul prezzo della benzina e, naturalmente, il reddito. Domanda 3. Quanto crescerà il PIL italiano nel 2005? L’Unione Monetaria Europea richiede, ai paesi che vi aderiscono, che il rapporto deficit/PIL non superi il 3%. Al fine di rispettare l’obiettivo è chiaramente importante per ciascun Governo oltre a prevede le entrate e le spese per l’anno successivo, prevedere anche l’incremento del PIL. Solitamente la previsione del PIL è fatta mediante l’uso di modelli econometrici. In Italia esistono diversi enti pubblici, Banca d’Italia, l’Istituto di Studi e Analisi Economiche (ISAE), e privati, Prometeia e REF, che utilizzano modelli econometrici per la previsione delle più importanti variabili macroeconomiche (PIL, prezzi, import/export…). Ciascuna delle domande proposte sono di tipo quantitativo e richiedono, quindi, delle risposte di tipo quantitativo. Nel corso presenteremo alcuni strumenti econometrici, principalmente basati sul modello di regressione multipla che consentono di rispondere alle domande prima esposte. Il modello di regressione consente di analizzare l’effetto su una variabile, ad esempio il consumo di benzina, dell’incremento di un’altra variabile, l’imposta di fabbricazione sulla benzina, mantenendo costanti le altre variabili che possono influenzare il consumo di benzina quali, ad esempio, il prezzo della benzina ed il reddito dei consumatori. Al fine di introdurre il modello di regressione multipla gradualmente, inizieremo con l’analizzare il modello di regressione semplice. Prima di introdurre i modelli, è utile una breve rassegna dei dati solitamente utilizzati in econometria. Sono principalmente di tre tipi: a) Dati cross-section: si tratta di dati raccolti per diverse unità rilevate tutte nello stesso periodo temporale 17 Reddito procapite Figura 1. Reddito medio pro-capite in 140 regioni UE anno 2002 - (dati in Euro pps) 50000 40000 30000 20000 10000 0 35 70 105 140 Regioni Nella figura 1 sono presentati i dati relativi al reddito medi pro-capite rilevato in 140 regioni europee nel 2002 (fonte: Eurostat). Il reddito maggiore, poco più di 45000 euro nel 2002, è del Lussemburgo, mentre il reddito minore è della regione di Dytiki in Grecia con poco più di 12000 euro annui. Utilizzando i dati cross-section è possibile studiare le differenze tra le variabili in un singolo periodo. Ad esempio possiamo dire che il reddito medio dei lussemburghesi nel 2002 è stato circa 3,6 volte il reddito degli abitanti di Dytiki . b) Serie storiche: la serie storica è invece un dato raccolto per una singola unità in diversi istanti temporali. Figura 2. Reddito procapite Sardegna euro pps - 1980-2002 Reddito procapite 22000 17000 12000 7000 2000 1980 1984 1988 1992 1996 2000 Anni Nella figura 1 è osservabile la serie storica del reddito medio pro-capite della regione Sardegna nel periodo 1980-2002. E’ possibile notare come il reddito sia aumentato, passando da poco meno di 6000 euro del 1980 ai 17422 euro del 2002. 18 c) Dati Panel: i dati panel, detti anche longit udinali, sono dati relativi ad almeno due o più unità e ciascuna unità è osservata in almeno due o più periodi (nel caso fosse un solo periodo ci troveremo nel caso di dati cross.section, mentre nel caso avessimo una solo unità avremo una serie storica). Figura 3. Reddito procapite regioni UE euro pps - 1980-2002 Reddito procapite 50000 40000 30000 20000 10000 0 1980 1984 1988 1992 1996 2000 Anni Nella figura 3 possiamo osservare l’andamento del reddito pro-capite in 140 regioni europee durante il periodo 1980-2002. Prima di introdurre il modello di regressione è bene rivedere alcuni concetti molto importanti. 1. Valore Atteso : Il valore atteso di una variabile casuale, che denoteremo con E ( y ) , è il valore medio che assumerà la variabile casuale y dopo una “lunga” serie di estrazioni. Il valore atteso è quindi calcolato come una media ponderata degli eventi associati alla variabile casuale osservata e i pesi sono dati dalla probabilità associata a ciascun evento. Ad esempio, immaginiamo che prestiamo ad un amico 100 euro ad un tasso del 2%. L’amico (se vuol rimanere un amico) dovrà rimborsare 102 euro. Immaginiamo che la probabilità che ci rimborsi sia del 99% (dopo tutto è un amico!!). Allora la probabilità che non rimborsi è dell’1%. Il valore atteso sarà dato da 0,99*102+0,01*0=100,98 euro. Il valore atteso della variabile casuale spesso scritto come µ y . y viene 19 2. Varianza ed errore standard La varianza e la deviazione standard misurano la dispersione della distribuzione di probabilità. La varianza di una variabile casuale, di solito indicata con VAR ( y ) o σ 2y , viene calcolata, per eventi discreti, come media ponderata del quadrato degli scarti di tutti i singoli degli eventi dal valore atteso della variabile casuale. Anche in questo caso i pesi sono dati dalle probabilità associate a ciascun evento. La deviazione standard è invece la radice quadrata dell’errore standard. Possiamo misurare la varianza e l’errore standard dell’esempio precedente. La varianza sarà calcolata come σ y2 = (102 − 100,98) ∗ 0,99 + ( 0 −100,98) *0,01 = 102,9996 2 2 mentre la deviazione standard sarà uguale a σ y = σ y2 = 10,1489 . 3. Media e varianza di funzioni lineari. Se la variabile casuale y e la variabile casuale x sono legate dalla seguente relazione lineare y = a + bx , in cui a e b sono due costanti, avremo che E ( y ) = a + bE ( x ) 2 VAR( y ) = bVAR ( x) (2.1) 4. Distribuzioni di probabilità congiunte e marginali, e distribuzioni condizionate La distribuzione di probabilità congiunta di due variabili casuali discrete, ad esempio x e y, è pari alla probabilità che le due variabili assumano simultaneamente determinati valori, diciamo xi e yi . Le probabilità di tutti i possibili eventi ( xi , yi ) sommerà chiaramente a uno. La distribuzione di probabilità marginale è un altro modo di definire la distribuzione di una singola variabile casuale a partire dalla distribuzione di probabilità congiunta. Un esempio può essere utile. Le condizioni meteorologiche influenzano i temi di percorrenza di uno studente che si reca ogni giorno a lezione. Possiamo definire due variabili casuali che assumono valore 0 o 1, cioè binarie. La prima variabile x assume valore 0 se piove e valore 1 se non piove. La seconda variabile y assume 20 valore 0 se il tempo di percorrenza è maggiore di venti minuti e assume un valore uguale a 1 se invece si impiegano meno di venti minuti. Possiamo associare ai possibili eventi le probabilità congiunte Tabella 1 Probabilità congiunta tempo di percorrenza e condizioni meteo. Piove (x=0) Non Piove (x=1) Totale Percorrenza lunga (y=0) 0,15 0,07 0,22 Percorrenza corta (y=1) 0,15 0,63 0,78 Totale 0,30 0,70 1,00 La distribuzione marginale di y è inserita nell’ultima colonna. A prescindere dal fatto se piova o non piova, la probabilità che occorrano più di venti minuti per percorrere il percorso è molto bassa e pari al 22%. Molto più alta è la probabilità di impiegare meno diventi minuti. In questo caso la probabilità è pari al 78%. Naturalmente possiamo definire una distribuzione di probabilità per le condizioni meteo. In media nella città le probabilità di pioggia sono del 30% e di non pioggia del 70%. In econometria è molto importante la definizione di distribuzione condizionata. La distribuzione di una variabile casuale y condizionata ad un'altra variabile casuale x che assume valori specifici è denominata distribuzione condizionata. Ad esempio, quale è la probabilità di un lungo tempo di percorrenza se sappiamo che piove? Dalla tabella vediamo che la probabilità di un lungo tempo di percorrenza e la probabilità di breve tempo di percorrenza quando piove è identica, e pari al 15%. Allora la probabilità condizionata al fatto che si abbia un lungo tempo di percorrenza quando piove è del 50%, uguale al caso di breve percorrenza quando piove. I due valori sono ottenuti dividendo le due probabilità congiunte per la marginale 0,30. Dal corso di statistica è noto che P ( y x ) = P ( x , y ) 0,15 = . Si P ( x) 0,30 calcoli per esercizio la probabilità condizionata di avere un lungo tempo di percorrenza quando non piove. E’ maggiore o minore di quella di avere un lungo tempo di percorrenza? 21 5. Valore atteso condizionato e varianza condizionata Il valore atteso di y condizionato a x è la media della distribuzione condizionata di y dato x. Nell’esempio precedente il valore atteso condizionato del tempo di percorrenza condizionato al fatto 0 ∗ ( 0,15 0,30 ) + 1 ∗ ( 0,15 0,30 ) = 0,5 , nota che piova che rispetto è al uguale valore a atteso precedentemente definito, qui dobbiamo utilizzare le probabilità condizionate. Nel caso che invece non piova il valore atteso condizionato è dato da 0 ∗ ( 0,07 0,70 ) +1 ∗ ( 0,63 0,70 ) = 0,9 . Una volta calcolato il valore atteso condizionato è possibile calcolare la varianza condizionata come somma ponderata degli scarti elevati al quadrato dell’evento dal valore atteso condizionato. Gli scarti, naturalmente, devono essere ponderati per le probabilità condizionate. Una volta definito il valore atteso condizionato è possibile scrivere la seguente relazione che è nota come legge delle aspettative iterate, cioè ( E ( y ) = E E (y x ) ) (2.2) Abbiamo quindi che se calcoliamo il valore atteso dei valori attesi condizionati a tutti i valori che può assumere la variabile x, otteniamo il valore atteso di y. Dall’ultima colonna della tabella 1 è facile osservare che E ( y ) = 0,78 . Il valore può essere ottenuto anche come E ( y ) = E ( y x = 0 ) ∗ P ( x = 0 ) + E ( y x = 1) ∗ P ( x = 1) = 0,5 ∗ 0,3 + 0,9 ∗0,7 = 0,78 6. Correlazione e valore atteso condizionato Se y non dipende (linearmente) da x, allora la correlazione tra le due variabili casuali è uguale a zero. Possiamo anche affermare che se E ( y x ) = µ y → cov ( y, x ) = corr ( y , x ) = 0 . 7. Media e varianza dello stimatore media della distribuzione campionaria Nel corso utilizzeremo sempre medie o medie ponderate di dati campionari. Capire bene le distribuzioni delle medie campionarie è quindi importante per capire bene le metodologie econometriche. Dall’analisi statistica sappiamo che data un popolazione è possibile estrarre dei valori casualmente mediante una procedura di estrazione campionaria. Definiamo 22 con y1 , y2 ,..., y N gli N eventi estratti dalla popolazione. Se ripetiamo l’esercizio estraendo una seconda N-upla, otterremo generalmente dei valori diversi. Allora la N-upla estratta y1 , y2 ,..., y N è una variabile casuale. Dato che l’estrazione è casuale ed è effettuata sulla stessa popolazione per ciascun yi i = 1,2,..., N , la distribuzione marginale di ciascun yi sarà identica. Se tutti gli yi hanno una stessa distribuzio ne si dice che y1 , y2 ,..., y N sono distribuiti identicamente. Se la l’estrazione di y2 non dipende dal fatto che abbiamo estratto y1 , ossia la distribuzione condizionata di y2 a y1 è uguale alla distribuzione marginale di y2 , allora sappiamo che y2 è indipendente da y1 . Se ciò vale per qualsiasi y1 , y2 ,..., y N allora diciamo che il campione è distribuito indipendentemente. In conclusione, se y1 , y2 ,..., y N hanno la stessa distribuzione e sono distribuiti indipendentemente sono detti indipendentemente e identicamente distribuiti o i.i.d. 8. La distribuzione campionaria della media semplice. Come è noto la media semplice dei valori y1 , y2 ,..., y N è data da y= 1 N N ∑y i =1 (2.3) i Dato che una media di valori casuali anche la media sarà un variabile casuale. E’ possibile infatti che se si estrae una seconda N-upla di valori e si calcola la media, questa non coinciderà con la media calcolata con i valori inseriti nella (2.3). Allora anche la media campionaria avrà una distribuzione e possiamo calcolarne ad esempio i due primi momenti, la media e la varianza. Se tutti gli y1 , y2 ,..., y N sono i.i.d. avranno la stessa media µ y e la stessa varianza σ y2 . Allora la media della media semplice (campionaria) y sarà uguale a E( y ) = µy = 1 N 1 E ( yi ) = Nµ y = µ y ∑ N i =1 N (2.4) cioè identica alla media dei singoli yi . Possiamo definire la varianza della media campionaria 1 VAR ( y ) = σ 2y = VAR N 1 yi = 2 ∑ i =1 N N N ∑VAR ( yi ) = i =1 σ 2y 1 2 N σ = y N2 N (2.5) 23 Nota che questo risultato è valido qualsiasi sia il tipo di distribuzione degli yi . 2 Se gli yi sono distribuiti normalmente, data che la somma di variabili normali è ancora una variabile normale, anche la media campionaria avrà una distribuzione normale N ( µ y , σ 2y N ) . Ma in quale modo possiamo affermare che, ad esempio, la distribuzione della media campionaria è normale? Purtroppo la distribuzione esatta, cioè la distribuzione di y che vale qualsiasi sia il numero di eventi i non sempre è assegnabile, anzi quasi mai è possibile assegnarla. Si procede solitamente per approssimazioni successive o come più corretto dire si detefinisce la distribuzione asintotica. In questo caso avremo che la distribuzione asintotica sarà uguale a quella esatta solo per N → ∞ . Tuttavia, come vedremo, sarà possibile a volte avere che anche per N non così vicini all’infinito, la distribuzione sia “abbastanza simile” a quella esatta. Esistono due strumenti chiave utilizzati per approssimare le distribuzioni campionarie quando il campione è grande: la legge dei grandi numeri e il teorema del limite centrale. La legge dei grandi numeri dice che al crescere di N , y → µ y con una probabilità “molto alta”. In particolare la legge afferma che se p yi , i = 1,2,..., N sono i.i.d. con E ( yi ) = µ y e VAR ( yi ) = σ y2 allora y → µ y in cui o ( ) in altri termini P y − µ y < c = 1 quando N aumenta per qualsiasi costante c > 0. Il teorema del limite centrale afferma invece che la distribuzione della media campionaria standardizzata, cioè dell’espressione (y−µ ) y σ 2 y N (2.6) è asintoticamente uguale a una normale standardizzata, ossia N ( 0,1) , qualsiasi sia la distribuzione degli y1 , y2 ,..., y N . Questo teorema semplifica enormemente la teoria della regressione, in quanto almeno asintoticamente potremo affermare, ad esempio, che lo stimatore ha uno distribuzione normale, anche non conoscendo la distribuzione degli yi . Dato che la distribuzione di y tende ad una normale per N che aumenta, y è detto asintoticamente normalmente distribuito. 2 Naturalmente sono escluse dalla (2.5) le covarianze in quanto abbiamo l’ipotesi di indipendenza. 24 2.1.1 Il modello di regressione lineare Possiamo ora introdurre il modello lineare di regressione semplice. Come abbiamo visto nell’introduzione, un obiettivo della ricerca economia è la specificazione di una relazione funzionale tra due variabili tale che y = f ( x ) . La variabile y è nota come variabile dipendente, mentre la variabile x è la variabile indipendente o regressore. Non possiamo attendere che la variabile indipendente “spieghi” perfettamente il comportamento della variabile dipendente, per cui scriviamo la relazione come y = f ( x ) + ε , in cui ε è una variabile casuale chiamata residuo o errore. La relazione y = f ( x ) + ε è nota come equazione di regressione di y su x. Il termine di errore è connesso a 1) errori di misurazione della variabile y 2) imperfezioni nella specificazione della funzione f ( x ) , ad esempio, la funzione non tiene conto di altre variabili non incluse nella funzione che, oltre alla variabile x, influenzano la variabile y. Ipotizziamo di disporre di T osservazioni della variabile y e della variabile x. Possiamo scrivere la relazione come : yt = α + β xt + ε t t = 1,2,..., T (2.7) L’obiettivo è quello di stimare i parametri α , la costante, e β , la pendenza, della retta di regressione espressa nell’equazione (2.7). Utilizzeremo il metodo dei minimi quadrati ordinari, cioè scegliere gli stimatori α̂ e β̂ di α e β tali per cui T T Q = ∑ ( yt − α − β x t) = ∑ ( ε t ) 2 i =1 2 (2.8) t =1 è un minimo. Figura 4 Regressione Lineare 3,5 3,0 y 2,5 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 x 3,0 4,0 25 Nella figura 4 sono inseriti tutti i punti ( yt , xt ) con t = 1,2,...,14 . Nella figura è inoltre inserita la retta che passa “il più vicino possibile” tra tutti i punti inseriti nella figura.. Tali valori sono stati ottenuti minimizzando la somma dei quadrati delle distanze verticali dei punti dalla retta, cioè scegliendo quei valori di α e β che minimizzano Q . Naturalmente possono essere scelti altri metodi. Ad esempio anziché trovare gli stimatori α̂ e β̂ di α e β che minimizzano la somma quadratica degli errori, possiamo trovare gli stimatori che minimizzano la somma dei va lori assoluti degli errori. La scelta del metodo da utilizzare dipende dalle ipotesi sui residui della (2.8). 2.1.2 Le ipotesi del metodo dei minimi quadrati ordinari Possiamo dire che gli stimatori minimi quadrati saranno gli stimatori lineari “migliori” o, nella terminologia statistica più efficienti, se valgono le seguenti ipotesi 1. E ( ε t xt ) = 0 e VAR ( ε t x1 , x2 ,..., xT ) = σ 2 2. Ciascuna coppia ( yt , xt ) , t = 1,2,..., T è indipendentemente e identicamente distribuita, cioè è i.i.d. 3. Esiste il momento quarto sia della variabile xt sia dell’errore ε t . Esaminiamo il significato delle tre ipotesi: Ipotesi 1 : L’ipotesi prevede che la distribuzione condizionata di ε t rispetto al regressore xt abbia media uguale a zero e la varianza condizionata sia uguale a σ 2 . Ipotizzare che la varianza condizionata sia uguale a σ 2 vuol dire ipotizzare che gli errori siano omoschedastici, cioè che la varianza degli errori non dipende dal valore assunto dal regressore. L’ipotesi che E ( ε t xt ) = 0 consente di escludere che, se ad esempio il termine di errore ε t racchiude l’effetto di altre variabili non inserite nella regressione, queste ultime variabili siano correlate a xt o, in altri termini, dato un valore di xt , la media della distribuzione delle variabili omesse è uguale a zero. Come è noto dal corso di statistica 26 avremo che se E ( ε t xt ) = 0 ciò implica che ε t e xt sono non correlate, ossia corr ( ε t , xt ) = 0 . Ipotesi 2 : L’ipotesi 2 richiede che le due variabili yt e xt siano estratte casualmente da una stessa popolazione. Per fare un esempio, immaginiamo che la popolazione sia data dalla popolazione di occupati italiani. Immaginiamo di definire con yt il salario e con xt l’età dell’occupato. Estraiamo casualmente un occupato, rileviamo un valore per il salario e un valore per l’età. Se ripetiamo l’operazione T volte avremo T coppie di valori che avranno la stessa distribuzione e le due variabili saranno indipendentemente distribuite tra una estrazione e la successiva. 3 Ipotesi 3 : L’ipotesi 3 richiede che 0 < E ( xt4 ) < ∞ e 0 < E ( ε t4 ) < ∞ . In pratica questa ipotesi consente di escludere il caso in cui il regressore xt e l’errore ε t possano assumere valori estremamente elevati. Valori molto elevati, rispetto ai normali range di valori assunti dalla xt , avrebbero un peso molto rilevante sulle stime a minimi quadrati rendendo i valori stimati dei parametri alquanto fuorvianti. Ma perché l’ipotesi sul momento quarto? Come abbiamo già visto, data una variabile casuale possiamo calcolare gli stimatori media e la varianza campionaria. Al fine di esaminare le proprietà dei due stimatori, ad esempio la loro consistenza, dovremo calcolare la loro media e la varianza. Nel caso della varianza campionaria, il calcolo della varianza dello stimatore varianza campionaria implica il calcolo del momento quarto. Allora, introdurre l’ipotesi 3 equivale a dire che la varianza della varianza campionaria non possa assumere valori “molto elevati”. L’ipotesi 1 è quella più importante. Se è valida, si può mostrare che per grandi campioni la distribuzione degli errori è normale. L’ipotesi 2 è importante per le applicazioni. 3 E’ utile osservare che ciò che diremo di seguito vale anche nel caso in cui la variabile xt sia una variabile predeterminata, ossia la variabile xt non sia casuale. Tuttavia, visto che quasi mai le variabili che utilizzeremo sono predeterminate, continueremo ad utilizzare quanto definito nell’ipotesi 3. 27 Generalmente può essere considerata valida nelle analisi cross-section mentre è generalmente violata nelle analisi sulle serie storiche. La terza ipotesi, anche se importante per definire le proprietà degli stimatori minimi quadrati, non è quasi mai violata nelle applicazioni economiche, per cui è spesso trascurata. 2.1.3 Stima dei coefficienti del modello di regressione lineare Sappiamo dalle nozioni di statistica sul calcolo della varianza e covarianza che valgono le seguenti relazioni in cui, come già visto, x e y sono rispettivamente la media della variabile xt e la media della variabile yt T T (2.9) S yy = ∑ ( yt − y ) = ∑ yt2 − T y = Tσ y2 2 t =1 T t =1 T (2.10) S xx = ∑ ( xt − x ) = ∑ xt 2 − T x = Tσ x2 2 t =1 t =1 T T t =1 t =1 (2.11) S xy = ∑ ( xt − x ) ( yt − y ) = ∑ xt yt − T xy = Tσ xy Le espressioni (2.9) - (2.11) saranno utilissime nel calcolo degli stimatori minimi quadrati. Come abbiamo visto il problema consiste nel minimizzare Q rispetto ai coefficienti α̂ e β̂ T ( min Q = ∑ yt − αˆ − βˆ xt ˆ αˆ ,β i =1 ) 2 (2.12) per risolvere il problema di minimo occorre eguagliare le derive (parziali) prime rispetto ad α̂ e β̂ a zero. Iniziamo con la derivata rispetto a α̂ ∂Q T = ∑ 2 yt − αˆ − βˆ xt ˆ ∂α t =1 ( ) ( −1) = 0 (2.13) e otteniamo T ∑y t =1 t T = Tαˆ + ∑ βˆ xt (2.14) t =1 e dividendo entrambi i membri per T y = αˆ + βˆ x Allo stesso modo → αˆ = y − βˆ x (2.15) 28 ( ∂Q T = ∑ 2 yt − αˆ − βˆ xt ˆ ∂ β t =1 ) (−x ) = 0 (2.16) t o T T ∑ y x = ∑ αˆ x t =1 t t t t =1 T + βˆ ∑ xt2 (2.17) t =1 Sostituendo la (2.15) nella (2.17) abbiamo T T t =1 t =1 ( ) T ( ) T ∑ yt xt = ∑ y − βˆ x xt + βˆ∑ xt2 = y − βˆ x Tx + βˆ ∑ xt2 t =1 t =1 L’espressione sopra può essere scritta come: T 2 ˆ y x − Tyx = β ∑ t t ∑ xt − Tx t =1 t =1 T (2.18) e utilizzando la (2.10) e la (2.11) S T σ xy σ xy βˆ = xy = = S xx T σ x2 σ x2 (2.19) αˆ = y − βˆ x (2.20) e Utilizzando i valori di α̂ e β̂ possiamo derivare una stima dei residui di regressione εˆt = yt − αˆ − βˆ xt (2.21) T E’ possibile mostrare che i residui così calcolati soddisfano: ∑ε t =1 T ∑xε t =1 t t t =0 e = 0 (provalo!). 2.1.4 Distribuzione campionaria degli stimatori minimi quadrati Gli stimatori minimi quadrati di α e β sono stati ottenuti senza alcuna assunzione sulla distribuzione probabilistica dei residui ε t . Tuttavia sappiamo che, per l’ipotesi 2., gli stimatori α e β sono ottenuti come combinazioni lineari di variabili casuali, per cui saranno essi stessi delle variabili casuali. Come abbiamo già avuto modo di notare, per piccoli campioni non possiamo affermare quale sarà la loro distribuzione probabilistica, tuttavia per grandi campioni possiamo applicare il teorema del limite centrale e affermare che la loro distribuzione è asintoticamente normale. Allora per T abbastanza 29 grandi e se sono rispettate le ipotesi elencate del modello di regressione, possiamo dire che varranno le seguenti relazioni 1 x (1) αˆ : N α , σˆ 2 + T S xx σˆ 2 ˆ : (2) β N β , S xx T (3) σˆ 2 = ∑ εˆ 2 t =1 T−2 La (3) definisce lo stimatore della varianza degli errori di regressione. La divisione è (T − 2) e non T in modo da correggere per il numero dei parametri, due, nella regressione. In pratica questi costituiscono due vincoli, in quanto per due punti riusciamo sempre “a far passare una retta”. Analizziamo più in dettaglio ora la (1) e la (2). E’ importante mostrare che gli stimatori ( ) α e β minimi quadrati sono stimatori corretti ossia E (αˆ ) = α ; E βˆ = β . Esaminiamo lo stimatore β . Dalla (2.19) sappiamo che T ∑( y − y )( x − x ) βˆ = t t =1 t T ∑(x t t =1 −x ) (2.22) 2 e dato che ( yt − y ) = β ( xt − x ) + ( ε t − εˆ ) possiamo riscrivere la (2.22) come T βˆ = ∑ ( x − x ) β ( x − x ) + ( ε t =1 t t T ∑(x − x ) t −ε ) T =β+ ∑ ( x − x ) (ε 2 t t =1 t t =1 −ε ) t T ∑(x − x ) (2.23) 2 t t =1 ancora dalla (2.23), moltiplicando le espressioni tra parentesi otteniamo T βˆ = β + ∑ ( xt − x ) ε t t =1 T ∑( x − x) t =1 2 t ε − T ∑( xt t =1 −x ) T ∑( x − x) t =1 t 2 T =β+ ∑( x t =1 T − x )ε t t ∑( x − x) t =1 t Calcoliamo ora il valore atteso in entrambi i membri della (2.24) T 4 Dal corso di Statistica sappiamo che ∑( x − x ) = 0 t t =1 4 (2.24) 2 30 T ∑ ( xt − x ) ε t = β, E βˆ = β + E t =T1 ( x − x )2 t ∑ t =1 ( ) (2.25) data l’ipotesi 1. del modello di regressione in cui abbiamo ipotizzato che E ( ε t xt ) = 0 . Dalla (2.25) possiamo derivare la correttezza dello stimatore, cioè ( ) E βˆ = β . Utilizzando una procedura analoga si può mostrare che anche lo stimatore α̂ è corretto. E’ anche possibile mostrare facilmente che i due stimatori sono consistenti ossia che al crescere della numerosità campionaria, gli stimatori tendono al valore della popolazione. Esercizio 1: Utilizzando il semplice modello di regressione lineare possiamo analizzare una relazione importante: quella tra gli investimenti fissi lordi italiani e il livello dell’output italiano. Come è noto, l’ipotesi dell’acceleratore prevede che gli investimenti dipendano + positivamente dal livello di output I = I Y . Assumiamo che la relazione sia di tipo lineare, possiamo scrivere allora I = α + βY . Utilizzando i dati della contabilità nazionale, disponibili nel sito del nostro Istituto Centrale di Statistica sugli investimenti fissi lordi nel periodo 1980 1° trimestre 2004 1° trimestre (in totale T=99 osserva zioni) e sul prodotto interno lordo nello stesso periodo temporale e le formule (2.19) e (2.20) , otteniamo I = 43344,38 Y = 218284,12 S xy = 16421152520 S xx = 83226573357 βˆ = 0,1973 σ ˆ = 0,007374 β αˆ = 275,49 σ αˆ = 1623.75 R 2 = 0,88 ∆I Y Y Εˆ I , Y = = βˆ = 0,9936 ∆Y I I 31 La stima del parametro β̂ è positiva. Questo valore ci consente di calcolare una misura importante, ossia l’elasticità degli investimenti rispetto all’output Εˆ I , Y . Come è noto, l’elasticità ci offre una misura della variazione percentuale degli investimenti a seguito di una variazione percentuale del prodotto interno lordo. In questo caso abbiamo che, utilizzando la stima β̂ e i valori medi degli investimenti e del prodotto interno lordo (per cui stiamo calcolando l’elasticità media nel periodo), otteniamo una elasticità praticamente unitaria. Ossia un incremento, ad esempio dell’1%, del prodotto interno lordo genera una variazione molto simile, 0,9936%, degli investimenti. Nella figura 5 sono rappresentati tutti i 99 punti relativi alle osservazioni in ciascun trimestre del PIL (in ascissa) e degli investimenti fissi lordi (ordinata). E’ inserita inoltre la retta di regressione stimata con il metodo dei minimi quadrati ordinari. 60000 Figura 5. Regressione I = 275,49 + 0,1973Y Investimenti 55000 50000 45000 40000 35000 30000 170000 190000 210000 230000 250000 270000 PIL 2.1.5 I test di ipotesi sui coefficienti di regressione Quanto ci possiamo fidare che il coefficiente β stimato sia effettivamente diverso zero? Come è noto dal corso di statistica, uno dei problemi più importanti una volta ottenuta la stima di un parametro è quello di costruire delle statistiche che consentano di decidere “con un ragionevole livello di confidenza” se, utilizzando il nostro caso, l’ipotesi che β = 0 (ipotesi nulla) possa essere rifiutata e invece venga accettata l’ipotesi che β ≠ 0 (ipotesi alternativa). La statistica utilizzata in questo caso è data t= βˆ − β . σ βˆ (2.26) 32 Dato che al numeratore della statistica abbiamo una variabile casuale e al denominatore abbiamo l’errore standard di β̂ , anch’essa una variabile casuale, anche la statistica t è una variabile casuale. Abbiamo già visto precedentemente che, grazie al teorema del limite centrale e per campioni con una alta numerosità, l’espressione t tende ad una variabile che ha una distribuzione normale standardizzata N ( 0,1) . Se le ipotesi del modello lineare sono valide, di solito non occorrono molte osservazioni affinché la (2.26) sia distribuita normalmente. Circa trenta, quaranta osservazioni sono sufficienti, un numero di osservazioni abbastanza consueto nell’analisi econometrica. Definiamo ora precisamente l’ipotesi nulla e quella alternativa. Un caso spesso analizzato in econometria è quello in cui si sottopone a test l’ipotesi che β = 0 , il che equivarrebbe a dire nel nostro esempio che il prodotto interno lordo “non influenza” la dinamica degli investimenti. Definiamo allora le ipotesi 1) Ipotesi nulla : H 0 : β = 0 2) Ipotesi alternativa H 1 : β ≠ 0 . L’ipotesi alternativa prevede che β < 0 o β > 0 . Sostituiamo nella (2.26) i valori calcolati e l’ipotesi nulla β = 0 . Avremo: t= βˆ − β 0,1973 − 0 = = 26,757 σ βˆ 0,007374 (2.27) Nel caso il livello di significatività del test sia fissato al 5%, cioè la probabilità di rifiutare un valore di β = 0 mentre invece effettivamente β = 0 (errore del I° Tipo), i valori critici della distribuzione normale standardizzata al livello di probabilità 0,025 e 0,975 sono uguali a -1,96 e 1,96. Dato che il valore della statistica t è uguale a 26,757>1,96 il test porta a rifiutare l’ipotesi nulla di β = 0 per il valore di β = 0,1973 . Naturalmente possiamo utilizzare gli stessi argomenti per sottoporre a test l’ipotesi che α =0. 2.1.6 Intervalli di confidenza. L’intervallo di confidenza al livello del 95% conterrà tutti i valori di β che non possono essere rifiutati utilizzando un test di ipotesi a due code ad un livello di significatività del 5%. In altri termini, l’intervallo di confidenza è l’intervallo di valori che ha nno una probabilità del 95% di contenere i valori corretti di β . Se si nota che la statistica t rifiuterà l’ipotesi nulla ogni volta che β sarà al di fuori dell’intervallo βˆ ± 1,96σ βˆ , cioè 33 βˆ − 1,96σ ˆ , βˆ + 1,96σ ˆ abbiamo trovato un modo molto semplice di calcolare β β l’intervallo di confidenza. Se sostituiamo, come prima, i valori calcolati nell’esercizio 1 abbiamo l’intervallo [0,183 0,211] . Dato che il va lore 0 non è contenuto nell’intervallo di confidenza al 95%, questo valore è scartato. Si noti che minore è l’errore standard di β̂ e minore sarà l’ampiezza dell’intervallo, cioè più i valori nell’intervallo saranno concentrati sul valore stimato. L’importanza dell’intervallo di confidenza è quindi quella che tutti i valori di β compresi nell’intervallo non possono essere rifiutati. Possiamo anche in questo caso calcolare l’intervallo di confidenza di α . 2.1.7 La regressione quando la variabile dipendente è binaria La discussione sino ad ora si è focalizzata sul caso di un regressore che può essere assumere valori in tutto l’asse reale. Il modello di regressione può essere utilizzato anche quando il regressore assume solo due valori, ad esempio 0 e 1. Un regressore di questo tipo è noto come variabile binaria o variabile dummy. Definiamo ad esempio la variabile dummy con Dt e diciamo che 1 se t ≥ 2001 secondo trimestre Dt = 0 se t < 2001 secondo trimestre (2.28) yt = α + β Dt +ε t t = 1,2,..., T (2.29) La regressione assume lo stesso significato precedentemente visto, eccetto che ora il regressore è una variabile binaria. Tuttavia il coefficiente β non può essere ora interpretato come la pendenza della retta di regressione. Ipotizziamo di aver stimato i due coefficienti di regressione α e β Quando Dt = 0 yt = αˆ + ε t (2.30) yt = αˆ + βˆ + ε t (2.31) Quando Dt = 1 Se calcoliamo il valore atteso nella (2.30) e nella (2.31) otteniamo nel caso Dt = 0 E ( yt Dt = 0 ) = αˆ , nel caso in cui Dt = 1 E ( yt Dt = 1) = αˆ + βˆ . 34 Allora la variabile dummy consente di esaminare se il valore atteso della variabile yt si è modificato dal 2001 secondo semestre. Quanto prima esposto sui test e gli intervalli di confidenza delle stime di regressione può essere applicato anche al caso in cui il regressore sia una variabile dummy. 2.1.8 Il coefficiente di determinazione Definiamo con yˆt = αˆ + βˆ xt il fit della regressione, in pratica nel caso dell’esercizio la retta stimata e disegnata nella figura 5, possiamo sempre scrivere yt = yˆt + εˆt (2.32) Se calcoliamo la varianza in ambo i membri della (2.32) otteniamo σ y2 = σ 2yˆ + σ ε2ˆ (2.33) La varianza totale della variabile dipendente y, σ y2 , può essere scomposta nella somma della varianza σ ŷ2 che definiamo varianza spiegata dal modello di regressione e della varianza non spiegata σ ε2ˆ dal modello di regressione. Se dividiamo per σ y2 entrambi i membri della (2.33) otteniamo σ 2y σ 2yˆ σ ε2ˆ =1= 2 + 2 , σ 2y σy σy (2.34) Si definisce coefficiente di determinazione R2 il seguente rapporto R2 = σ y2ˆ σ y2 (2.35) Il rapporto definisce la percentuale di varianza spiegata dal modello di regressione. E’ possibile notare che 0 ≤ R2 ≤ 1 , con gli estremi dati dal valore 0, ossia il modello non spiega alcuna varianza di y, mentre il valore 1 si ha quando il modello di regressione spiega tutta la varianza di y. In questo caso abbiamo che la retta di regressione passa esattamente per tutti i punti sul piano di regressione. Nel caso dell’esercizio 1 la retta di regressione spiega l’88%, R 2 = 0,88 , della varianza degli investimenti fissi lordi. 2.1.9 Eteroschedasticità e omoschedasticità Abbiamo visto che gli stimatori minimi quadrati sono corretti, consistenti e asintoticamente normali. Possiamo dire inoltre che, data l’ipotesi di omoschedasticità degli errori, gli stimatori sono quelli più efficienti tra tutti gli stimatori lineari. Ciò 35 significa che tra tutti gli stimatori lineari sono quelli che hanno la varianza minima o come si dice nella terminologia anglosassone BLUE (best linear unbiased estimators). Se l’ipotesi di omoschedasticità non è corretta, gli stimatori minimi quadrati non saranno più BLUE, inoltre avremo che le formule riportate per il calcolo delle varianze di α e β non saranno corrette e dovremo calcolare degli errori standard che tengano conto dell’eteroschedasticità degli errori o, nella terminologia econometria, siano robusti. Quasi tutti i programmi econometrici consentono di calcolare gli errori standard nel caso di omoschedasticità usando le formule (1)-(3), ma offrono anche erroristandard robusti, cioè che tengono conto della possibile eteroschedasticità degli errori. Il consiglio è di calcolarli entrambi e nel caso vi siano importanti differenze utilizzare gli errori standard robusti. Come vedremo nel prossimo capitolo, l’ipotesi di eteroschedasticità degli errori è un’ipotesi non così implausibile, anzi è in molti casi fortemente plausibile. E’ più prudente allora assumere che gli errori siano eteroschedastici, a meno che non si disponga di informazioni che consentano di escludere questa ipotesi.