43/10 I volumi di base Compendio di Econometria p (ε ) Y Y = β0+ β1X β0 x1 x2 x3 xn X Dimostrazioni delle formulazioni analitiche Rappresentazioni grafiche esplicative Esempi su fogli di lavoro in Excel Domande più ricorrenti in sede d’esame SIMONE EDIZIONI G r u p p o E d i t o r i aExcerpt l e E ofs the s e full l i bpublication ri - Simone ® Excerpt of the full publication TUTTI I DIRITTI RISERVATI Vietata la riproduzione anche parziale Di particolare interesse per i lettori di questo volume segnaliamo: 43/1 43/2 43/3 43/4 43/6 43/9 44/6 201 201/1 582 LX43 - Compendio di Statistica Esercizi svolti per la prova di Statistica Prepararsi per l’esame di Statistica Compendio di Matematica finanziaria (classica e moderna) Compendio di Statistica economica Compendio di Demografia Compendio di Matematica per l’Economia Nozioni elementari di Statistica Matematica per l’Economia Dizionario di Economia Le parole della Statistica Microsoft e Microsoft Excel sono marchi registrati dalla Microsoft Corporation L’Appendice A (Matrici e loro proprietà) è tratta dal Compendio di Matematica per l’Economia, di Fabio Privileggi, Edizioni Simone 2007 I fogli Excel riportati nel volume possono essere scaricati al seguente indirizzo internet: http://www.simone.it/catalogo/v43_10.htm Risorse e approfondimenti gratuiti di Statistica sono disponibili al seguente indirizzo Internet: www.simone.it/economia Tutti i diritti di sfruttamento economico dell’opera appartengono alla Esselibri S.p.A (art. 64, D.Lgs. 10-2-2005, n. 30) Autore: Carla Iodice Finito di stampare nel mese di aprile 2008 dalla «INK & PAPER s.r.l.» - Via Censi dell’Arco, 22 - Cercola (NA) per conto della «Esselibri S.p.A.» - Via F. Russo, 33/D - 80123 - Napoli Grafica di copertina a cura di Giuseppe Ragno PREMESSA Qualsiasi testo di Econometria inevitabilmente adotta un approccio formale fatto di formule e proposizioni astratte, delle quali spesso lo studente, e talvolta anche il ricercatore, non riesce a cogliere il senso. Questo testo non vuole avere la pretesa di illustrare le principali metodologie di analisi econometrica utilizzando un approccio diverso; esso, tuttavia, contiene dimostrazioni puntuali delle espressioni analitiche riepilogative dei teoremi e dei concetti fondamentali e, quando possibile, deriva formule più semplici da applicare. Il Compendio di Econometria contempla non solo la trattazione teorica delle nozioni fondamentali ma anche un ricco apparato di esempi in cui sono fornite applicazioni pratiche dei principi propri della scienza, fogli elettronici in cui si affronta lo studio della disciplina attraverso esercitazioni in Excel, risolutive degli esempi, e questionari a fine capitolo che consentono un’ulteriore verifica dell’apprendimento teorico. Il volume è articolato in otto capitoli. Dopo un primo capitolo introduttivo sulla natura dell’econometria e dei suoi legami con la teoria economica, il testo tratta principalmente i modelli di regressione, semplice e multipla, e, infine, dedica un capitolo all’identificazione e alla stima dei modelli a equazioni simultanee. Il testo è corredato, inoltre, da due Appendici. La prima consta di nozioni sulle matrici e sulle loro proprietà; ad essa si deve ricorrere ogni volta che nel testo è fatto un richiamo alle definizioni e alle regole proprie di tale teoria. La seconda Appendice consta, invece, di cinque tavole statistiche. Il testo, per i suoi contenuti e per la chiarezza con cui i complessi argomenti sono esposti, si indirizza agli studenti dei corsi istituzionali di Econometria, a partecipanti a pubblici concorsi, nonché a funzionari e tecnici che utilizzano le procedure di modellazione econometrica per obiettivi di politica economica. I fogli Excel riportati nel volume possono essere scaricati al seguente indirizzo internet: http://www.simone.it/catalogo/v43_10.htm ALFABETO GRECO Α α Β β Γ γ Δ δ Ε ε Ζ ζ Η η Θ θϑ Ι Κ Λ Μ Ν Ξ Ο Π alfa beta gamma delta epsilon zeta eta theta ι κ λ μ ν ξ ο π Ρ ρ Σ σ Τ τ Υ υ Φ ϕφ Χ χ Ψ ψ Ω ω iota kappa lambda mi ni xi òmicron pi rho sigma tau ypsilon phi chi psi òmega INDICE DEI SIMBOLI > < ≥ ≤ ≠ ∝ ∞ → ∀ ∼ ≅ ± log(.) ln (.) e lim ∂ ∫ ∑ ∏ maggiore minore maggiore o uguale minore o uguale diverso da proporzionale infinito tende a per ogni distribuito come circa uguale a più o meno logaritmo in base 10 logaritmo neperiano base del logaritmo neperiano limite derivata parziale integrale sommatoria produttoria I vettori e le matrici sono indicati con le lettere in grassetto: i vettori con lettere minuscole, le matrici con lettere maiuscole. ABBREVIAZIONI Cov(.,.) covarianza D(.) devianza es(.) E(.) errore standard valore medio v.c. Var(.) variabile casuale varianza ABBREVIAZIONI PER GLI STIMATORI OLS GLS WLS 2SLS minimi quadrati ordinari minimi quadrati generalizzati minimi qudrati ponderati minimi quadrati a due stadi ILS ML IV Excerpt of the full publication minimi quadrati indiretti massima verosimiglianza variabili strumentali CAPITOLO PRIMO LA NATURA DELL’ECONOMETRIA E I MODELLI ECONOMETRICI SOMMARIO: 1. L’econometria e i dati economici - 2. La nozione di modello. - 3. Modelli per serie storiche e modelli di regressione - 4. Forma strutturale e forma ridotta di un modello. - 5. Il procedimento di costruzione di un modello econometrico: un esempio. - 6. Piano dell’opera. 1. L’ECONOMETRIA E I DATI ECONOMICI In epoche passate e recenti, la teoria economica si è occupata dello studio delle relazioni tra variabili microeconomiche e macroeconomiche fornendo le ipotesi per l’elaborazione di modelli rappresentativi della complessa realtà. Tali modelli sono volti a dare contenuto quantitativo alle relazioni tra le variabili e devono la loro formalizzazione, in termini matematici, all’econometria. La disciplina, infatti, applicando i metodi statistici e matematici allo studio e alla misurazione dei fenomeni economici, elabora modelli con l’obiettivo di verificare empiricamente le teorie economiche. Dalla definizione data scaturiscono immediatamente le interrelazioni, nell’ambito dell’econometria, tra teoria economica da un lato, analisi matematica, probabilità e statistica dall’altro. In questo volume definiremo gli strumenti utili allo sviluppo di tecniche di modellazione econometrica fondate su procedure statistiche. Per un corretto studio della disciplina in oggetto, è necessario disporre delle conoscenze delle nozioni di economia, fondamento dell’econometria, e della statistica, funzionale alla stessa. L’econometria è da considerarsi, tuttavia, una disciplina che, sotto molteplici aspetti, si differenzia dalla probabilità e dalla statistica fondate sul requisito della ripetibilità dei risultati tipico delle scienze naturali a partire da Galileo. Un fenomeno, per interessare le prime due discipline, deve essere incerto nei risultati e ripetibile; i dati economici, così come, in generale, i dati delle scienze sociali, non sono, invece, frutto di un esperimento ripetibile. Il consumo aggregato di una nazione in un dato anno rappresenta la realizzazione di un esperimento in cui i consumatori hanno effettuato scelte di consumo e di risparmio correlate con il proprio reddito disponibile corrente, la propria ricchezza e una serie di altri fattori economici relativi a quell’anno e non ripetibili in altri anni. Gli investimenti in un dato anno di una data impresa sono funzione del tasso di interesse di mercato in quell’anno, della variazione del reddito disponibile rispetto all’anno precedente, della sua attitudine al rischio in quel momento storico e di altri fattori che, senza alcun dubbio, non si ripeteranno in altri periodi secondo le medesime modalità. L’analisi quantitativa dei fenomeni economici condotta dall’econometria si avvale di modelli fondati sulla teoria economica, applicati a dati economici di diverso tipo: serie storiche, dati cross section e dati panel. Excerpt of the full publication 6 Capitolo Primo SERIE STORICHE (O TIMES SERIES) Molti fenomeni presentano andamenti nel tempo caratterizzati da una certa regolarità o costanza strettamente legate alla posizione occupata dall’osservazione nella sequenza di dati osservati. L’analisi delle serie storiche, o cronologiche, o temporali, è la metodologia statistica che si occupa dello studio di tali fenomeni i quali sono rappresentabili, appunto, tramite serie storiche. In termini rigorosi, una serie storica, xt, è una successione di osservazioni ordinate logicamente secondo un indice temporale t che definisce l’ordinamento dei dati e tale che t ∈ T. Si tratta di dati di un fenomeno statistico osservato per più periodi (settimanali, mensili, trimestrali, annuali). L’ordine degli elementi di una serie storica non è casuale, anzi i dati sono ordinati in modo naturale dal valore assunto dall’indice temporale. L’analisi econometrica può essere interessata a serie storiche macroeconomiche, come il reddito di una nazione in diversi anni, il suo consumo, i suoi investimenti. Le serie storiche microeconomiche concernono analoghe grandezze riferite a singoli individui o imprese. DATI CROSS SECTION I dati cross section sono costituiti da osservazioni individuali riferite a uno stesso istante temporale t. Essi sono derivati da osservazioni trasversali concernenti dati di più unità statistiche osservate per un solo periodo, come il reddito di n unità statistiche riferite a un solo periodo. DATI PANEL I dati panel sono dati di più fenomeni osservati per più di un periodo. I dati derivano da osservazioni longitudinali e sono bidimensionali in quanto incorporano sia la dimensione temporale sia quella sezionale. Si tratta, quindi, della sequenza temporale di dati sezionali, come il reddito di più unità statistiche in più periodi. Si supponga di disporre di osservazioni temporali relative a un numero n di unità statistiche di base o individui, per le variabili economiche y e x. Con un panel di dati si dispone di osservazioni su n unità statistiche per t periodi con t ∈ T. 2. LA NOZIONE DI MODELLO Come è stato più volte ribadito, l’econometria si occupa della modellizzazione matematica delle relazioni esistenti tra variabili economiche, in altri termini, costruisce modelli. La costruzione di modelli atti a rappresentare e interpretare la realtà è una della più delle più antiche attività umane. Un modello può essere definito come una rappresentazione formale delle conoscenze relative a un fenomeno, con la costruzione di un modello non si realizza una esatta riproduzione del fenomeno studiato ma se ne fornisce una versione semplificata. Un modello consiste tipicamente in un insieme di equazioni che legano le variabili rilevanti del fenomeno allo studio. In generale, esiste uno schema logico per la costruzione e l’applicazione di un modello che si articola in quattro stadi fondamentali. La natura dell’econometria e i modelli econometrici 7 2.1 Primo stadio: specificazione del modello Nel primo stadio si ha la specificazione che consiste nella formalizzazione in termini matematico – statistici delle ipotesi teoriche. Il tipo di specificazione adottata dipende, generalmente, non solo dal particolare processo economico che si considera, ma anche dal materiale empirico a disposizione. La costruzione di un modello econometrico, infatti, inizia con la definizione e l’analisi delle osservazioni campionarie che devono essere integrate con l’informazione a priori: i paradigmi della teoria economica. In questo stadio bisogna risolvere problemi diversi. Innanzi tutto, occorre individuare le variabili influenti e distinguerle in variabili esogene, che influenzano il modello stesso ma non subiscono l’effetto delle relazioni descritte in esso, e variabili endogene, il cui valore quantitativo è generato (spiegato) dal modello sulla base dei valori dei parametri (costanti) del modello e delle variabili esogene. In secondo luogo, occorre decidere la forma funzionale della legge sottostante il fenomeno investigato. Inoltre, essendo una semplificazione della realtà, difficilmente un modello è di tipo deterministico, esso ha, generalmente, carattere aleatorio e per questo occorre considerare le deviazioni residuali tra relazioni teoriche e osservazioni empiriche, o in altri termini, le cosiddette componenti stocastiche di disturbo, le quali sono, generalmente, introdotte in forma additiva. Tali componenti sono dovute a cause singolarmente irrilevanti ma congiuntamente influenti, quali l’omissione di variabili considerate inessenziali e divergenze tra variabili teoriche e variabili osservabili. L’esistenza di componenti stocastiche, non empiricamente osservabili, implica che, in fase di specificazione, occorre formulare delle ipotesi circa la loro distribuzione di probabilità (le componenti stocastiche sono delle variabili casuali) con il conseguente incremento del numero complessivo di parametri che dovranno essere stimati. I modelli si distinguono in dinamici e statici. Nei primi, a differenza di quanto avviene nei secondi, le interazioni tra variabili non si manifestano con effetti puramente istantanei. In una o più delle relazioni di un modello dinamico, ricorrono variabili che si riferiscono a periodi di tempo diversi, così che il valore delle variabili endogene varia in funzione del tempo; si distingue, perciò, tra variabili correnti e variabili ritardate di uno, due, ... periodi. Il fattore tempo è indicato con t, per cui, se con Y si indica il reddito, con C il consumo e con I gli investimenti, Yt , Ct e I t sono i consumi al tempo t, mentreYt−1 , Ct−1 e I t−1 sono le corrispondenti grandezze ritardate di un periodo, Yt−2, Ct−2 e I t−2 sono le corrispondenti grandezze ritardate di due periodi etc. Rispetto ai modelli statici, in cui le variabili non sono datate, i modelli dinamici presentano una maggiore capacità di rappresentare la realtà; essi sono, spesso, di non facile soluzione. 2.2 Secondo stadio: stima dei parametri del modello Nel secondo stadio, è trattato il problema della quantificazione delle relazioni economiche, in altre parole, si procede alla stima dei parametri incogniti del modello. In questa fase si intende individuare una struttura del modello che sia il più possibile prossima alla incognita struttura vera, ossia alla reale rappresentazione del fenomeno in oggetto. La stima si basa su materiale empirico costituito da un insieme di osservazioni campionarie sui valori assunti dalle variabili in un certo periodo di tempo. Excerpt of the full publication 8 Capitolo Primo Dalla statistica sono noti diversi metodi di stima dei parametri. In questo testo faremo pressoché esclusivamente riferimento al metodo dei minimi quadrati e al metodo della massima verosimiglianza, i quali, spesso, conducono, come vedremo, ai medesimi risultati. 2.3 Terzo stadio: verifica della validità del modello La verifica (terzo stadio) consiste in una sequenza di operazioni atte a valutare la validità del modello sulla base delle osservazioni disponibili sulle diverse variabili dello stesso. La verifica riguarda diversi aspetti della rappresentazione formale del fenomeno allo studio quali: specificazione, capacità descrittiva, conformità alle aspettative teoriche e capacità previsiva. La verifica della specificazione vaglia il grado di attendibilità che può essere attribuito alle ipotesi che risultano dalla formulazione del modello; essa appura se le stesse possono ritenersi compatibili o non con quanto indica l’evidenza empirica rappresentata dalle osservazioni campionarie disponibili e si fonda sugli strumenti tipici di quell’area dell’inferenza statistica nota come teoria delle prove di ipotesi. Nella prova di ipotesi si distingue tra ipotesi nulla e ipotesi alternativa; la prima, che generalmente rispecchia la situazione acquisita prima dell’osservazione campionaria, è indicata con H0, mentre, la seconda, che ne attesta una diversa specificazione, è indicata con H1; sulla base delle osservazioni empiriche, a un prestabilito livello di probabilità, «si rifiuta» o «non si rifiuta» il modello a seconda che le stesse supportino o meno l’ipotesi nulla. La verifica di un’ipotesi è effettuata utilizzando una statistica-test o test funzione delle osservazioni campionarie e avente una distribuzione nota con la condizione che l’ipotesi enunciata sia vera. Il test è, quindi, una procedura inferenziale atta a valutare la conformità probabilistica tra un campione e la popolazione da cui è stato estratto. Esso determina il grado di attendibilità delle osservazioni campionarie, allo scopo di stabilire se le differenze risultanti rispetto alla popolazione siano significative oppure dovute a errore campionario. I test statistici generalmente impiegati presentano distribuzioni del tipo: v.c. normale standardizzata, v.c. F di Fisher, v.c. t di Student, v.c. χ 2 di Pearson. Con la verifica della capacità descrittiva si accerta se il modello è in grado o meno di riprodurre con accuratezza i valori osservati delle variabili endogene. Se si è in presenza di un modello uniequazionale le misure classiche atte a valutare l’adattamento, come l’indice di determinazione o simili sono funzionali, mentre, in presenza di un modello multiequazionale, la semplice constatazione che le singole equazioni sono in grado di rappresentare il fenomeno non fornisce alcuna garanzia che il modello considerato nel suo insieme sia attendibile. La verifica della validità del modello in termini di capacità descrittiva è effettuata confrontando i valori storici e i valori stimati delle variabili endogene. La verifica della conformità alle aspettative teoriche valuta la coerenza dei risultati ottenuti dalle stime con le indicazioni della teoria. Questo tipo di analisi fa uso della nozione di moltiplicatore il quale misura l’entità dell’effetto che un cambiamento unitario in una data variabile esogena provoca su una data variabile endogena. Un modello si può dire attendibile non solo quando è in grado di riprodurre adeguatamente i dati storicamente accertati e di generare valori dei parametri aderenti alle aspettative teoriche, ma anche quando si dimostra capace di dar luogo a buone previsioni. La capacità previsionale del modello può essere valutata ricorrendo a tecniche di previsione ex-post. Excerpt of the full publication La natura dell’econometria e i modelli econometrici 9 2.4 Quarto stadio: utilizzo del modello L’utilizzo effettivo del modello (ultimo stadio) è subordinato alla sua corretta specificazione, a una stima con tecniche adeguate e all’esito favorevole delle verifiche che ne garantiscono la validità. La costruzione di un econometrico può avere finalità descrittive della realtà economica, interpretative delle relazioni tra variabili economiche o previsionali. Attraverso un modello ci si può prefiggere, infatti, la descrizione delle relazioni economiche, per cui il modello deve rappresentare semplicemente la realtà osservata. Ovviamente questa visione attribuisce al modello un ruolo riduttivo in quanto il processo di formalizzazione di un fenomeno economico non può limitarsi a una mera riproduzione della realtà. Un modello econometrico può essere volto alla interpretazione dei nessi causali e della dinamica di un sistema economico, per cui deve porre in evidenza le relazioni eventuali tra diversi fenomeni; si consideri, ad esempio, il problema tipico di politica economica della quantificazione degli effetti sul PIL o sull’inflazione dell’incremento di un punto percentuale del tasso di interesse praticato della Banca centrale europea. Il modello, infine, può avere finalità di previsione. L’analisi econometrica si può dire attendibile non solo quando è in grado di riprodurre adeguatamente i dati empiricamente accertati e di generare valori di parametri aderenti alla realtà, ma anche quando si dimostra capace di dar luogo a efficaci tecniche di previsione della dinamica dei fenomeni economici. Queste ultime consentono di adottare appropriate scelte di politica economica. Si consideri, ad esempio, la stima dell’intervallo di valori del PIL o del tasso di inflazione del nostro paese il prossimo anno. Questa fase è notevolmente delicata, in quanto occorre procedere alla soluzione del modello ossia alla valutazione dei presumibili valori delle variabili endogene in istanti temporali non compresi nel periodo di osservazione utilizzato per la stima dei parametri. È ovvio che l’utilizzo del modello a fini previsionali implica la formulazione di un’ipotesi di stabilità della struttura osservata per il periodo di tempo sul quale si intendono effettuare simulazioni anteriori al reale manifestarsi del fenomeno. 3. MODELLI PER SERIE STORICHE E MODELLI DI REGRESSIONE I modelli si dividono in due grandi categorie ciascuna delle quali presuppone assunzioni e conoscenze diverse: modelli per serie storiche e modelli di regressione. I modelli per serie storiche, o temporali, basano la loro conoscenza e il loro comportamento sulla storia del fenomeno oggetto di studio. L’analisi delle serie storiche si fonda sull’ipotesi per cui i fattori che hanno influenzato l’andamento della serie nel passato e nel presente esplicheranno effetti analoghi anche nel futuro. I modelli di regressione si basano sull’esistenza di una relazione causa-effetto tra il fenomeno osservato e una o più variabili esplicative, essi sono costituiti da una sola o più equazioni lineari, o non, nei parametri. Bisogna fare una ulteriore distinzione tra modelli di regressione semplice e multipla, i primi descrivono come una data variabile indipendente o esplicativa, detta anche regressore, spieghi un’altra variabile (dipendente), mentre i secondi sono utilizzati quando le variabili esplicative sono più di una. Nel caso in cui anche le variabili dipendenti o variabili risposta siano più di una, si parla di regressione multivariata multipla. Excerpt of the full publication 10 Capitolo Primo 4. FORMA STRUTTURALE E FORMA RIDOTTA DI UN MODELLO Un modello si dice in forma strutturale quando le variabili endogene sono espresse in funzione delle variabili esogene e delle altre variabili endogene. Con lo stesso, la connessione tra le diverse grandezze economiche deriva direttamente dalla teoria economica di cui il modello è la rappresentazione formale. Un modello in forma strutturale è, semplicemente, un modello di analisi, con lo stesso non è possibile calcolare immediatamente i valori delle variabili endogene in corrispondenza di ogni livello delle variabili esogene. Per questo occorre passare alla sua forma ridotta, che è ottenuta esprimendo ciascuna variabile endogena corrente in funzione dei parametri, delle variabili esogene e delle variabili esogene ritardate. Un modello in forma ridotta è perciò un modello di strategia. Nei capitoli che seguono, daremo modelli espressi in forma ridotta in cui una variabile dipendente è funzione di una o più variabili indipendenti. Solo nel capitolo ottavo, in cui spiegheremo i modelli a equazioni simultanee, faremo una distinzione tra forma strutturale e forma ridotta di un modello. Nel pragrafo seguente illustreremo un esempio di modello espresso in forma strutturale. 5. IL PROCEDIMENTO DI COSTRUZIONE DI UN MODELLO ECONOMETRICO: UN ESEMPIO Come si è visto, la costruzione di un modello comporta un certo numero di passi da seguire pedissequamente, in questo paragrafo li illustreremo a partire da un esempio noto nella teoria economica: il modello di Keynes. Quest’ultimo rappresenta una legge psicologica fondamentale in quanto, come affermato nella Teoria generale capitolo VIII, «di norma e in media, gli uomini sono disposti ad accrescere il loro consumo con l’aumentare del reddito, ma non tanto quanto l’aumento del reddito». Qualsiasi teoria, per essere modellizzata, deve basarsi su una serie di ipotesi semplificatrici della realtà. La teoria di Keynes è basata sulle seguenti: — la spesa per consumi C dipende dal reddito disponibile Y; — il livello di investimenti privati I dipende dalla variazione del reddito disponibile corrente e dal tasso d’interesse di mercato r; — esiste una spesa pubblica autonoma; — il reddito lordo è uguale alla somma del consumo, degli investimenti privati e pubblici. La traduzione in termini matematici delle ipotesi precedentemente esposte della teoria keynesiana è riportata di seguito. CONSUMO Il consumo C è funzione del reddito disponibile Y: C = f (Y ) La relazione tra le due variabili è crescente, per cui si può scrivere: ∂C = f ′ (Y ) > 0 ∂Y che rappresenta la propensione marginale al consumo. Excerpt of the full publication La natura dell’econometria e i modelli econometrici 11 La forma della funzione f non è precisata da Keynes, tuttavia egli afferma che: — la propensione marginale al consumo è compresa tra 0 e 1, per cui se il reddito nazionale aumenta di 1 unità monetaria, il consumo aumenta ma meno di 1; in termini matematici: 0 < f ′ (Y ) < 1 — la propensione media al consumo, ossia PMC = C , diminuisce al crescere del reddito; Y traducendo in termini matematici: ∂PMC <0 ∂Y Nella letteratura successiva alla Teoria generale si è affermata, come semplificazione utilizzabile nelle stime sui dati empirici, una rappresentazione dell’idea keynesiana della propensione al consumo, per cui la funzione f del consumo è una funzione lineare del tipo: C = α 0 + α1Y (5.1) in cui: — α 0 > 0 è una costante ed è la componente autonoma, ossia quella parte di domanda di beni di consumo che non dipende dal reddito corrente, e che si suppone in generale essere positiva, graficamente è l’intercetta della retta rappresentativa della funzione lineare appena data; — 0 < α1 < 1 indica la propensione marginale al consumo e rappresenta, graficamente, il coefficiente angolare ossia la tangente dell’angolo che la retta considerata forma con l’asse delle ascisse. La propensione marginale al consumo, nella (5.1), è rappresentata da: ∂C = α1 ∂Y mentre, la propensione media al consumo è: PMC = C α 0 + α1Y α 0 = = + α1 Y Y Y mentre la sua derivata rispetto a Y è: ∂PMC α = − 02 ∂Y Y Affinché PMC sia decrescente è necessario che α 0 > 0 . Nella (5.1), C è una variabile endogena, quella che deve essere spiegata dal modello, ed è anche detta, con linguaggio proprio della matematica, variabile dipendente. Invece, Y è una variabile esogena, quella che spiega il consumo, ed è detta variabile indipendente. Un’altra forma della funzione di consumo potrebbe essere la seguente funzione esponenziale: C = α 0Y α1 Excerpt of the full publication 12 Capitolo Primo INVESTIMENTI Gli investimenti privati dipendono dalla variazione del reddito lordo e dal tasso d’interesse; in simboli: I = g ( ΔY , r ) con g′ < 0 SPESA PUBBLICA Esiste un investimento autonomo pubblico G. PRODOTTO NAZIONALE Il reddito (o prodotto) nazionale è uguale alla somma dei consumi e degli investimenti pubblici e privati; ciò si traduce nella seguente identità: Y ≡ C + I +G 5.1 Scelta della forma funzionale Formalizzate le ipotesi alla base della teoria economica, l’econometria si occupa di dare una specifica forma funzionale alle suddette relazioni; in altri termini dà esepressione analitica alle funzioni f e g. Nella scelta delle stesse, tuttavia, bisogna tenere in considerazione la cosiddetta struttura dei ritardi (lags) secondo cui le scelte di consumo e di investimento possono dipendere dal reddito corrente o dal reddito passato, e dai tassi di interesse correnti o passati. Generalmente si considerano periodi di tempo annuali, per cui, indicando con t l’anno corrente, con t – 1 si indica l’anno precedente e così via. L’econometrico potrebbe scegliere il seguente modello del reddito nazionale espresso in forma strutturale: Ct = α 0 + α1Yt + α 2 rt con α 0 > 0 , 0 < α1 < 1 , α 2 < 0 (5.2) I = β0 + β1 (Yt −1 − Yt −2 ) + β2 rt −1 con β0 > 0 , 0 < β1 < 1 , β2 < 0 (5.3) Yt ≡ Ct + I t + Gt (5.4) In base a tale modello, le scelte di consumo dipendono dalle variabili endogene correnti Yt e rt. Analogamente, le scelte di investimento dipendono dalle variabili endogene ritardate Yt−1 e Yt−2 e rt−1 . Nella costruzione di un modello, l’econometrico ha davanti a sé una serie di variabili candidate, ovviamente, non tutte saranno incluse nel modello. La costruzione di un modello è volta al conseguimento di due obiettivi tra loro in conflitto. Il primo è quello di includere nel modello quante più variabili possibili in modo che esse possano influire sui valori previsti della variabile dipendente. Il secondo è quello secondo cui è necessario che il modello includa quante più poche variabili poiché la varianza dei valori stimati della variabile dipendente cresce al crescere del numero di tali variabili. Excerpt of the full publication La natura dell’econometria e i modelli econometrici 13 Facendo riferimento al modello di reddito nazionale, si è scelto di inserire nella funzione (5.2) come variabile esplicativa del consumo non solo il reddito corrente ma anche il tasso d’interesse corrente sul mercato. Analogamente, nella funzione (5.3) si è scelto di inserire come variabile esplicativa degli investimenti non solo la differenza di reddito tra due periodi ma anche il tasso d’interesse di mercato del periodo precedente. Tuttavia, le varie procedure per la selezione di variabili non garantiscono la produzione di equazioni, per una certa serie di dati, migliori in assoluto. 5.2 Stima dei parametri Nella fase successiva, l’econometria si occupa di dare un valore numerico ai parametri che compaiono nelle equazioni del modello; nella fattispecie del modello costruito occorre trovare un numero e sostituirlo nelle equazioni (5.2) e (5.3) alle lettere α 0 , α1 e α 2 , e β0 , β1 e β2 , rispettivamente. In questa fase, si parla di stima dei parametri in quanto le osservazioni non sono effettuate sul comportamento di tutti i consumatori (del loro livello di consumi e di reddito), ossia, usando il linguaggio statistico, su tutta la popolazione ma su un campione estratto dalla stessa. Questo è un problema tipico dell’inferenza statistica che ha come scopo l’utilizzo delle informazioni che possono essere ricavate da un campione per conoscere le caratteristiche della popolazione da cui è stato estratto. È ovvio che nell’estensione delle informazioni dal campione alla popolazione si corre il rischio casuale tipico del metodo induttivo, legato al numero limitato di unità da cui si sono tratte le informazioni e alla loro natura casuale. Il campione deve essere rappresentativo della popolazione; esso avrà in media le medesime caratteristiche della popolazione: la stessa proporzione di uomini e donne, la stessa ripartizione in classi d’età etc. 5.3 Verifica della validità del modello La fase successiva dell’elaborazione del modello riguarda la verifica della pertinenza della teoria elaborata nel rappresentare le interrelazioni tra variabili, ossia della sua conformità con i dati disponibili. In questa fase, ci si accerta che le relazioni specificate siano valide, che il modello sia verificato su tutto il periodo di osservazione, che i parametri siano stabili etc. 6. PIANO DELL’OPERA Prima di addentrarci nella disciplina è opportuno dare una visione del modo in cui sarà articolato il testo. Dopo questo capitolo introduttivo, dedicato alla presentazione dell’econometria e ai suoi legami con la teoria economica, il testo verte principalmente sulla elaborazione dei modelli di regressione. Infatti, il capitolo secondo è dedicato al modello di regressione semplice, il capitolo terzo, invece, è dedicato a sue estensioni sia al caso di osservazioni ripetute sia alla regressione trivariata. Dal capitolo quarto si analizza il modello di regressione multipla. Precisamente il capitolo quinto è dedicato alla violazione dell’ipotesi di non collinearità delle variabili esplicative, ossia 14 Capitolo Primo alla multicollinearità, mentre il capitolo sesto vuole costituire un’introduzione agli stimatori di massima verosimiglianza nonché alle proprietà asintotiche degli stimatori. Il capitolo settimo si occupa della violazione dell’ipotesi considerata di sfericità dei termini d’errore di un modello di regressione multipla: eteroschedasticità e autocorrelazione. Proprio perché l’autocorrelazione caratterizza i dati di serie storiche nel capitolo settimo, contemporaneamente alla trattazione dell’autocorrelazione daremo alcuni elementi di analisi delle serie storiche. Il capitolo ottavo, infine, è dedicato all’identificazione e stima dei modelli a equazioni simultanee. Il testo è costituito, inoltre, da due Appendici. La prima, Appendice A, consta di nozioni sulle matrici e sulle loro proprietà. L’argomento non è stato trattato in un capitolo del testo, in quanto, innanzi tutto, costituisce argomento di un esame propedeutico e, inoltre, si è ritenuto opportuno non interrompere la continuità della trattazione tra modelli di regressione semplice e modelli di regressione multipla. La seconda, Appendice B, consta di 5 tavole statistiche. Le prime 4 sono relative a variabili casuali note: normale standardizzata, chi-quadrato, t di Student e F di Fisher. Un’ultima tavola riporta i valori inferiori e superiori della statistica di Durbin e Watson dato un certo numero di variabili esplicative e un certo livello di significatività. CAPITOLO SECONDO IL MODELLO DI REGRESSIONE SEMPLICE SOMMARIO: 1. Introduzione. - 2. Specificazione di un modello di regressione semplice. - 3. Stima con il metodo dei minimi quadrati ordinari (OLS). - 4. Coefficiente di correlazione di Bravais-Pearson. - 5. Momenti degli stimatori dei minimi quadrati. - 6. Proprietà degli stimatori dei minimi quadrati. - 7. Test e intervalli di confidenza per il modello di regressione semplice. - 8. Analisi della varianza. - 9. Previsione nel modello di regressione semplice. - Questionario. 1. INTRODUZIONE Nell’analisi statistica, la regressione è volta alla ricerca di un modello atto a descrivere la relazione esistente tra una variabile dipendente, e una o più variabili indipendenti o esplicative. La scelta dell’una o dell’altra variabile come indipendente non è arbitraria ma legata alla natura del fenomeno: si sceglie come indipendente la variabile che sia logicamente antecedente rispetto all’altra. In un modello di regressione, le variabili esplicative (dette anche regressori) spiegano, prevedono, simulano, controllano la variabile dipendente. Il termine regressione fu coniato da Galton che, nel misurare la relazione tra statura dei padri e quella dei figli, osservò una regressione dei valori delle altezze dei figli verso la media. Per eseguire una regressione si fa riferimento a modelli teorici di vario tipo: lineare, parabolico, esponenziale, logaritmico etc. In questo capitolo illustreremo il modello di regressione semplice in cui una variabile endogena è spiegata da una sola variabile esogena. In particolare supporremo l’esistenza di un legame lineare tra le variabili e introdurremo le tecniche statistiche che consentono di stimare i parametri del modello, di testare ipotesi sugli stessi e di costruire intervalli di confidenza per i medesimi. 2. SPECIFICAZIONE DI UN MODELLO DI REGRESSIONE SEMPLICE In questa prima fase un ruolo fondamentale è svolto dalle ipotesi che si fanno sul processo statistico che ha generato i dati. La teoria economica prospetta l’insieme delle variabili di interesse del problema che si intende affrontare e la direzione di causalità che non può essere spiegata dalla matematica o dalla statistica. Tuttavia, la teoria da sola non basta per definire compiutamente tutti gli elementi di cui si compone un modello econometrico; per questo sono necessarie ipotesi di specificazione quali la scelta della forma funzionale, e la matematica, appunto, trasforma la semplice relazione in una relazione determinata. Excerpt of the full publication 16 Capitolo Secondo Il modello di regressione semplice intende spiegare il legame funzionale esistente tra una variabile X indipendente e una variabile Y dipendente. Tuttavia, questo modo di procedere presenta degli inconvenienti, infatti non è possibile affermare che tra le due variabili X e Y esiste una perfetta relazione matematica del tipo: Y = f(X) in quanto, innanzi tutto, non si dispone di tutte le informazioni relative al fenomeno X e al fenomeno Y ma solo di un campione di osservazioni, che darà luogo a coppie di ordinate del tipo (x1, y1), (x2, y2), …, (xn, yn), le quali solo in termini probabilistici esprimono la relazione esistente tra le corrispondenti variabili della popolazione; inoltre, a causa di fenomeni imprevedibili, errori di misurazione, scarti accidentali, non esiste un legame di tipo deterministico tra le variabili. Costituisce, quindi, una semplificazione affermare che il fenomeno Y è spiegato dal fenomeno X, in quanto nella realtà esistono interrelazioni tra variabili che non possono essere compendiate in alcuna scrittura. Per questi motivi il modello di riferimento sarà del tipo: Y = f(X) + ε La variabile Y è una variabile casuale (v.c.) risultante dalla somma di una componente deterministica f(X) e di una componente stocastica ε , dove ε è una v.c. che ha funzioni compensative per le discrepanze esistenti tra il modello e la realtà. La v.c. ε è definita errore o scarto tra le costruzioni teoriche e la realtà osservata, infatti, si ha: ε = Y – f(X) Dopo aver provveduto ad individuare la variabile X che spiega il fenomeno in oggetto si passa alla fase di specificazione del modello che consiste nella sua rappresentazione formale; si assume che la relazione tra le variabili X e Y sia lineare nei parametri, dunque, il modello di regressione sarà: Y = β0 + β1X + ε che, in presenza di osservazioni campionarie ( xi , yi ) , i = 1, 2, …, n, dà luogo alla seguente equazione: yi = β0 + β1xi + ε i i = 1, 2, …, n ed in cui la parte sistematica è β0 + β1xi e la parte stocastica è ε i. IPOTESI CLASSICHE DEL MODELLO DI REGRESSIONE SEMPLICE Il modello di regressione lineare si basa su ipotesi cosiddette classiche, ossia su assunzioni semplificatrici della realtà: 1. Ipotesi di linearità Postula una relazione lineare tra variabili e specifica la variabile dipendente Y osservata come una funzione lineare tramite il coefficiente della variabile esplicativa, cui si aggiunge una manifestazione non osservabile della v.c. ε ; in simboli: yi = β0 + β1xi + ε i Excerpt of the full publication i = 1, 2, …, n Il modello di regressione semplice 17 2. Ipotesi di non sistematicità degli errori Deriva dalla necessità che scarti positivi e negativi si compensino in media, o, il che è lo stesso, che i termini di errore ε siano mediamente nulli; in simboli: E (εi ) = 0 3. Ipotesi di omoschedasticità degli errori La varianza della v.c. ε i resta costante al variare delle osservazioni; in simboli: Var ( ε i ) = σ 2 La componente stocastica di disturbo non dipende, quindi, dal tempo di rilevazione del fenomeno. In caso contrario si parla di eteroschedasticità. 4. Ipotesi di covarianza nulla di errori relativi a osservazioni campionarie diverse In simboli: ⎧0 per i j Cov (ε i , ε j ) = ⎨ 2 ⎩σ per i = j 5. Ipotesi di non stocasticità della variabile esplicativa La variabile esplicativa è deterministica, ovvero non soggetta a deviazioni di natura accidentale. Sulla base di tali ipotesi, nel modello di regressione lineare semplice occorre stimare la varianza σ 2 che contraddistingue la v.c. errore. Essendo, per ipotesi, E ( ε i ) = 0 e le xi fisse, il valore medio e la varianza della v.c. Y i saranno: E (Yi ) = E ( β 0 + β1 xi + ε i ) = β 0 + β1 xi + E ( ε i ) = β 0 + β1 xi Var (Yi ) = Var ( β 0 + β1 xi + ε i ) = Var ( ε i ) = σ 2 2.1 Ipotesi di normalità degli errori Un’ulteriore ipotesi concernente un modello di regressione è quella relativa alla normalità degli errori, che in simboli può essere scritta nel modo seguente: ε ∼ N ( 0, σ ε2 ) Essa presuppone che la v.c. errore si distribuisca come una v.c. normale con valore medio nullo e varianza costante. Excerpt of the full publication 18 Capitolo Secondo In altri termini, la funzione di densità di probabilità della v.c. ε può essere scritta nel modo seguente: p (ε ) = N ( 0, σ ε2 ) i = 1, 2, ..., n Graficamente, tale ipotesi può essere rappresentata nel modo seguente: p (ε ) Y Y = β0+ β1X β0 x1 x2 x3 xn X Fig. 1 - Normalità degli errori 3. STIMA CON IL METODO DEI MINIMI QUADRATI ORDINARI (OLS) Lo stadio successivo relativo alla costruzione di un modello di regressione semplice riguarda la stima dei coefficienti β0 e β1 e della varianza σ 2 della v.c. errore. In questo paragrafo otterremo una stima dei coefficienti mentre nel paragrafo 5 otterremo una stima della varianza. Dalla statistica è noto che mentre lo stimatore di un parametro è una v.c., la stima è il valore assunto dallo stimatore in seguito all’estrazione di un campione di n elementi e al calcolo di una statistica al suo interno. Nella teoria della stima si distingue tra: — stima puntuale in cui si giunge alla determinazione di un solo valore numerico per il parametro; — stima intervallare in cui si costruisce un intervallo che, con fiducia prefissata, include il parametro da stimare. Per stimare i parametri del modello di regressione si estrae un campione costituito da n coppie di valori ( x1 , y1 ) , ( x 2 , y2 ) , ..., ( x n , yn ) dove x 1, x2, ..., xn sono i valori della variabile esplicativa e y1, y2, ..., y n sono i valori assunti dalla variabile dipendente. Le osservazioni 19 Il modello di regressione semplice possono essere rappresentate in un grafico a dispersione come esemplificato nella figura seguente: Y • • • • • • • •• • • • • • • •• • • • • • • • • • • • • • • ••• • • X Fig. 2 - Diagramma a dispersione Nell’eseguire una stima puntuale dei parametri è necessario trovare una relazione lineare tra la variabile X e la variabile Y in modo da minimizzare il valore della componente stocastica. Dal punto di vista geometrico è necessario trovare quella retta che attraversa la nuvola di punti rappresentativa delle n osservazioni campionarie su X e Y, ossia per i punti di coordinate ( x , y ) per i = 1, 2, ..., n. i i Trattandosi di variabili economiche il quadrante generalmente impiegato è il primo, anche se nulla vieta di utilizzare anche altri quadranti per rappresentare un saldo negativo della bilancia dei pagamenti, un tasso reale d’interesse negativo etc. L’equazione generica della retta di regressione è: Y = β 0 + β1 X β0 e β1 rappresentano, rispettivamente, l’intercetta e il coefficiente angolare della retta. La retta di regressione non passa per tutti i punti osservati ma attraverso gli stessi, per cui alcuni punti della nuvola si troveranno nel quadrante al di sopra della retta, mentre altri al di sotto della stessa. Avendo indicato con ( xi , yi ) per i = 1, 2, ..., n le n osservazioni campionarie, si definiscono residui o scarti le differenze tra i valori osservati yi e i valori teorici ŷi determinati dalla retta: ei = yi − yˆi i = 1, 2, ..., n Si è aggiunto un cappelletto alla variabile Y a indicare che si tratta di un valore teorico di Y ottenuto in corrispondenza di un dato valore di X. Tali scarti sono le realizzazioni della v.c. ε i . Se il calcolo dei due coefficienti di regressione è effettuato con il metodo dei minimi quadrati ordinari OLS (dall’inglese Ordinary Least Squares) proposto da Karl Friederich Excerpt of the full publication 224 Indice Generale A.3.2 Moltiplicazione per uno scalare ............................................................ Pag. 187 A.3.3 Prodotto fra matrici ............................................................................... » 187 A.3.4 Matrice trasposta ................................................................................... » 190 A.4 Matrici particolari ............................................................................................ » 191 A.5 Matrici, sistemi lineari e funzioni (vettoriali) lineari ...................................... » 191 A.5.1 Sistemi di equazioni lineari ................................................................... » 191 A.5.2 Funzioni vettoriali ................................................................................. » 192 A.5.3 Funzioni lineari...................................................................................... » 193 A.5.4 Matrici non singolari e funzioni lineari invertibili ................................ » 194 A.5.5 Matrici quadrate e matrice inversa ........................................................ » 194 A.6 Il determinante................................................................................................. » 195 A.6.1 Costruzione del determinante ................................................................ » 195 A.6.2 Proprietà del determinante ..................................................................... » 197 A.7 Calcolo della matrice inversa .......................................................................... » 197 A.8 Regola di Cramer ............................................................................................ » 198 A.9 Autovalori........................................................................................................ » 199 A.10 Rango di una matrice ....................................................................................... » 200 A.11 Forme quadratiche ........................................................................................... » 200 A.12 Problemi di massimo e di minimo in forma matriciale ................................... » 202 A.13 Problemi di ottimizzazione vincolata in forma matriciale ............................... » 204 Appendice B - Tavole Statistiche Tavola 1 - Funzione di ripartizione della v.c. normale standardizzata............... Tavola 2 - Quantili della v.c. chi-quadrato ......................................................... Tavola 3 - Quantili della v.c. t di Student .......................................................... Tavola 4 - Quantili della v.c. F di Fisher al 5% e all’1% ................................... Tavola 5 - Statistica di Durbin e Watson (Tavole di Savin e White) ................. Excerpt of the full publication » » » » » 207 208 209 210 213 I volumi di base Compendio di Econometria Indice La natura dell’econometria e i modelli econometrici - Il modello di regressione semplice - Estensioni del modello di regressione semplice - Il modello di regressione multipla - La multicollinearità nel modello di regressione Metodi di massima verosimiglianza e delle variabili strumentali e proprietà asintotiche degli stimatori - La violazione dell’ipotesi di sfericità degli errori: eteroschedasticità ed autocorrelazione - Modelli a equazioni simultanee: identificazione e stima Excerpt of the full publication