ELEMENTI DI ECONOMETRIA Francesco Carlucci Dip. di Economia Pubblica Significato dell’Econometria: Teoria economica + matematica + statistica cy economia : relazioni tra le variabili c ed y matem. : forma lineare statist. : stima dei parametri e E. come sintesi delle tre discipline Può la teoria economica sviluppare ipotesi compiute? Spesso le sue indicazioni sono solo un punto di part. ESEMPIO La relazione tra c e y è corrente? ct yt E’ ritardata? ct yt-1 1 Quanti ritardi? La forma mat. è lineare? E se non è lineare, quale è la non lineare ottimale? Potrebbe essere la log-lineare? ln c = μ + ln y Come si stimano μ e ? C’è un criterio di stima ottimale? L’E. tenta di rispondere congiuntamente a questi quesiti. In altre parole: non un semplice strumento della teoria economica che serve per applicarla ai dati, ma produttrice essa stessa di teorie economiche non un semplice strumento di verifica empirica per poter scegliere tra ipotesi alternative, ma produttrice essa stessa di ipotesi da valutare, di cui verificare la consistenza con la realtà Microeconometria e Macroeconometria 2 Obiettivi primari di questa disciplina sono: i) lo studio empirico di ipotesi economiche determinate dalla teoria economica e di altre che l’E. stessa produce; ii) l’analisi e la sintesi delle caratteristiche dei fenomeni economici di cui si posseggono dati (analisi della domanda, analisi di dati localizzati territ., ecc.); iii) la sintesi descrittiva delle caratteristiche di fenomeni economici sulla base di una teoria o anche dei soli dati osservati (analisi delle serie storiche, analisi congiunturali, ecc.); iv) la costruzione di modelli formali che rappresentino la realtà economica a vari livelli di aggregazione, per settori più o meno specifici e per ripartizioni geografiche più o meno ampie; v) l’uso di questi modelli per: - l’analisi strutturale, vale a dire, a titolo esemplificativo, la determinazione delle elasticità o delle propensioni, marginali o medie; - la valutazione delle politiche economiche effettivamente realizzate e l’analisi di strategie alternative sulla base di simulazioni di dinamiche economiche diverse; - la previsione dell’andamento temporale di variabili economiche ed aziendali; 3 Relazioni dell’E. con : Economia matematica Statistica economica Informatica Struttura dei corsi di E.: I – introduttivo (Elementi di Econometria) II – avanzato (Econometria) III – Modelli di serie storiche economiche e finanziarie Suddivisione in: parte (teorica) metodologica con esercitazioni : Propedeuticità: - analisi empirica con dati reali ed interpretazione dei risultati - alfabetizzazione informatica - uso dei programmi di calcolo - elaborazione delle tesine in ogni corso Nessuna istituzionale, ma (consigliate) - Economia politica (macro) - Matematica generale - Statistica 4 Utilità del corso: - in aziende manifatturiere e commerciali (previsione, finanza, marketing) - aziende di credito e di servizi in generale - uffici studi - prosecuzione degli studi in Italia ed all‘estero - dispense del corso: Lezioni di Analisi econometrica (scaricabili dal materiale didattico del sito Web: dep.eco.uniroma1.it/~carlucci) - dispense metodologiche per tutti i corsi: Traccia per un corso di Econometria (scaricabili dal materiale didattico del sito Web, dep.eco.uniroma1.it/~carlucci) - monografie citate nelle dispense consigliate (soltanto) per approfondimenti - software di calcolo econometrico per le tesine 5 Lezioni teoriche: in aula standard Esercitazioni: in aula standard Esercitazioni personali: aula informatica (pianterreno) Elaborazione calcoli per tesi: laboratorio del Dip. di Economia Pubblica 6 IL MODELLO LINEARE Analisi economica e analisi econometrica J.M. Keynes (1936) relazione tra il consumo c e il reddito y c y c y variabili parametri - la funzione è stabile nel tempo - l’intercetta è positiva e la propensione marginale al consumo è positiva e inferiore all’unità 0 , 0 1 - la propensione è inferiore alla propensione media c y 7 Osservazione – La stabilità indica che la funzione può essere considerata valida per periodi di tempo relativamente lunghi, ad esempio per alcuni decenni. Questo, ovviamente, in media, perché da un tempo all’altro, ad esempio da un anno all’altro, ci possono essere leggere discrepanze tra il membro a sinistra e quello a destra. Osservazione – Matematicamente, la propensione marginale al consumo è d f y dy la propensione media è data dal rapporto c y Osservazione – La forma è lineare rispetto sia ai parametri che alle variabili. reddito disponibile yd y v 8 imposta complessiva sul reddito c y v Modelli rappresentativi del modo di consumare statiche, in quanto legano le variabili allo stesso tempo dinamiche ct yt 1 ct 0 yt 1 yt 1 2 yt 2 schema a ritardi distribuiti infiniti ct 0 yt 1 yt 1 2 yt 2 ... j yt j j 0 9 se si fanno le ipotesi j j, 0 1 fortemente vincolanti dal punto di vista economico ct yt yt 1 2 yt 2 ... ritardata di un’unità temporale ct 1 yt 1 yt 2 2 yt 3 ... Sottraendo c c 1 y t t 1 t ct ' ct 1 yt Primi obiettivi dell’Econometria 1. discriminare tra le funzioni che presentano il reddito ed il consumo associati ad indici temporali diversi 10 2. stimare i parametri 3. valutarli secondo un criterio di ottimo prestabilito Dall’analisi economica si passa all’analisi econometria Modelli statici e dinamici Questi modelli sono rappresentazioni formali ed idealizzate delle caratteristiche osservate di regolarità e stabilità dei fenomeni economici sotto studio e vengono specificati in base al processo interattivo di speculazione teorica ed indagine empirica descritto nel paragrafo precedente. Tali caratteristiche sono anche chiamate fatti stilizzati . statici solo variabili correnti dinamici variabili sia correnti che ritardate 11 Il sentiero di equilibrio di lungo periodo il consumo cresce al saggio costante di per unità di tempo c 1 c t t 1 Sostituendo ct (1 ) (1 ) yt 1 1 analogo al modello statico forma ct ct 1 ct 1 o ancora, più concisamente, ct ct 1 operatore Δ opera su ct differenza ct ct 1 12 La tendenza di lungo periodo come modello semilogaritmico c1 (1 )c0 c2 (1 )c1 (1 ) 2 c0 ... ct (1 )t c0 c0 costante condizione iniziale serie storica ct c1, c2 ,..., cn funzione scritta in un altro modo ln ct ln c0 t ln(1 ) cioè ln ct t modello semilogaritmico forma non lineare nelle variabili 13 saggio di crescita tra il tempo t–1 e il t exp( ) 1 tendenza di lungo periodo Approssimazione del saggio di crescita xt xt 1 xt 1 approssimato da una differenza prima logaritmica ln xt ln xt ln xt 1 xt 0.000 0.0200 0.0400 0.0600 0.0800 0.1000 ln xt 0.000 0.0198 0.0392 0.0583 0.0769 0.0953 Γ: 14 Dimostriamo che ln xt ln xt ln xt 1 xt xt 1 xt 1 Sviluppando in serie di Taylor la funzione ln 1 2 2 3 3 4 4 ... e ponendo xt xt 1 1 si ottiene ln xt xt 1 xt xt 1 xt 1 ... Primi caratteri delle serie storiche: tendenza, stagionalità e ciclo tendenza lineare, esponenziale, quadratica, cubica, …, conformazione stilizzata delle serie storiche economiche 15 cadenza infraannuale, ad esempio mensile o stagionalità trimestrale, 40000 35000 30000 25000 20000 15000 10000 1970Q1 1972Q3 1975Q1 1977Q3 1980Q1 1982Q3 1985Q1 1987Q3 M Fitted La serie storica non destagionalizzata delle importazioni di beni e servizi a prezzi 1980 in Italia e la stima dei fattori di destagionalizzazione alternarsi di fasi di espansione dell’attività economica con fasi di recessione: ciclo economico 16 50 0,08 40 0,06 30 0,04 20 0,02 10 0 0,00 -10 -0,02 -20 -0,04 -30 -0,06 -40 -50 1970 1972 1974 -0,08 1976 1978 1980 1982 1984 reddito tot 1986 1988 1990 1992 1994 1996 1998 2000 consumo medio Andamento del PIL e della propensione media al consumo in Italia negli anni 1970 – 2000; ambedue le serie sono state depurate della tendenza con funzioni lineari. recessione avvenuta repentinamente (1 – 3 anni) ripresa più espansione più lentamente (in 5 – 7 anni) altro fatto stilizzato asimmetria del ciclo economico 17 La stima dei minimi quadrati della tendenza lineare stimare i parametri della ln ct t campione di dati utilizzando il criterio di stima dei minimi quadrati equazione lineare non solo nei parametri ma anche nelle variabili Linearizziamo ponendo t = 1, 2, 3, ... , n ln ct zt si ottiene il modello lineare semplice zt t 18 zt z4 u4 zt t z2 u2 u3 z3 z1 u1 1 3 2 4 t Nuvola di punti zt distanti (lungo l’asse delle ordinate) ut da una generica retta zt t Criterio: minimizzare la somma delle ut 4 min ut t 1 non buono 19 altro criterio: minimizzare la somma delle ut prese in valore assoluto 4 min ut t 1 criterio: minimizzare i quadrati delle ut 4 min ut2 t 1 criterio dei minimi quadrati e determina una retta i cui parametri sono detti stime dei minimi quadrati Esempio – Estraiamo dal CD dell’OECD (Statistical Compendium, Versione 2004-1) la serie dei consumi privati reali totali dell’Italia ITACPV, espressi in milioni di euro. Moltiplicando la serie per il deflatore dei consumi ITAPCP otteniamo la serie dei consumi in termini nominali, ne prendiamo il logaritmo e ne costruiamo il modello; se stimiamo i parametri del 20 modello (più semplicemente si dice: stimiamo il modello) con i minimi quadrati otteniamo ln c 13.248 0.129 t t ln(c t ) ln(consumi) Lineare (ln(consumi)) 17 16 15 14 t 13 1960 1965 1970 1975 1980 Serie storica dei logaritmi dei consumi privati totali nominali in Italia interpolati con la retta; anni 19601980. ˆ 1.138 1 0.138 cioè il 13.8% (Il saggio sembra alto, ma si ricordi che i consumi sono nominali). 21 c exp 13.248 0.129 t t cons nom Espo. (cons nom) ct 10500 5500 t 500 1960 1965 1970 1975 1980 Serie storica dei consumi privati totali nominali in Italia interpolati con l’esponenziale; anni 1960-1980; dati miliardi di euro. consumo nominale ct pari al prodotto del consumo reale ct per il prezzo pt il suo saggio di crescita è approssimativamente uguale alla somma dei saggi di crescita di ct e pt ct ct pt 22 ln ct ln ct ln pt ritardando di un’unità temporale ln ct 1 ln ct 1 ln pt 1 ln ct ln ct ln pt zt ct cons nom ct Lineare (cons nom) 10000 6000 2000 t 1960 1965 1970 1975 1980 -2000 Serie storica dei consumi privati totali nominali in Italia interpolati con la funzione lineare; anni 19601980, dati in miliardi di euro. 23 Osservazione – Conviene sempre prestare attenzione al numero di cifre significative (diverse dallo zero) che manteniamo nei calcoli. Un numero troppo grande rende farraginosa la scrittura ed è foriero di errori di imputazione (ad esempio nei computer); un numero troppo piccolo può condurre ad approssimazioni imprecise. Dal punto di vista statistico della significatività dei dati è difficile che possano servire più di quattro cifre significative perché già con esse si ottiene un’approssimazione inferiore al millesimo. Da quello economico, poi, già tre cifre significative danno un’approssimazione inferiore al centesimo, più che sufficiente per ogni tipo di analisi. I logaritmi, tuttavia, sono molto sensibili ai decimali ed è quindi consigliabile calcolarli con almeno cinque cifre decimali. 24 I residui distanze ut tra i dati osservati e quelli con la stessa ascissa sulla retta nella figura, detti teorici, non errori ma residui, derivanti dall’aver voluto approssimare i punti della nuvola con quelli della retta zˆt ˆ ˆt uˆt zt zˆt zt ˆ ˆt t 1,2,..., n t 1,2,..., n uˆt è determinato una volta che siano determinate ̂ e ̂ se queste ancora non lo sono, anche uˆt non lo è, per cui ut zt t oppure zt t ut 25 il residuo termine da aggiungere ( o sottrarre, se negativo) al valore teorico t per aversi il dato osservato zt uˆt considerate come stime delle ut e quindi considerate come residui stimati Box I residui Dati osservati z1 z2 ... zn Retta generica interpolante (tendenza lineare) i dati osservati zt t Retta interpolante stimata (con un certo criterio) zˆt ˆ ˆt da cui i dati teorici zˆ1 zˆ2 ... zˆn Residui stimati uˆt zt zˆt zt ˆ ˆt 26 molto utile rappresentare graficamente i residui ln ct t ut residui ut 0.6 0.3 t 0 1960 -0.3 1965 1970 1975 1980 -0.6 Serie storica dei residui stimati relativi al modello dei consumi privati totali nominali in Italia; anni 1960 – 1980. c exp t u t t ut 5000 2500 0 1960 -2500 t 1965 1970 1975 1980 -5000 Serie storica dei residui stimati relativi al modello dei consumi privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro. 27 ct t ut ut residui 4000 2000 0 1960 -2000 t 1965 1970 1975 1980 -4000 Serie storica dei residui stimati relativi al modello dei consumi privati totali nominali in Italia; anni 1960 – 1980; dati espressi in miliardi di euro. 28 Il breve e il lungo periodo differenziazione tra il breve e il lungo periodo esempio di questo concetto: negli anni compresi tra le due guerre mondiali negli U.S.A. - nel lungo periodo la propensione media al consumo c y era costante; - nel breve periodo tale rapporto oscillava, aumentando nelle fasi di recessione e diminuendo in quelle di espansione per ogni dato individuo tale rapporto diminuiva all’aumentare del reddito 29 J.S. Duesenberry [1949] lo spiegò con la ipotesi del reddito relativo, secondo la quale la percentuale di reddito consumato da ogni individuo non dipendeva direttamente dal suo reddito assoluto, ma dalla sua posizione, in termini di percentili, nella sua distribuzione; in altre parole, dal suo reddito relativo. Analiticamente ct y 0t , yt y 0, 0; y 0 max ys ; s t y 0 è il reddito massimo goduto dall’individuo nel passato nel lungo periodo si può ritenere che il reddito cresca ad un saggio costante 0 per unità di tempo yt 1 yt 1 y 0 yt 1 30 ct 1 yt con rapporto ct / yt costante. Nel breve periodo, d’altro canto, si ha che durante le fasi di recessione è yt y 0 e quindi ct / yt aumenta, mentre in quelle di espansione è yt y 0 ed il rapporto consumo su reddito diminuisce. . Esempio: ipotesi del Duesenberry per l’Italia negli anni 1970 – 2002 con l’aiuto della figura. In questa sono raffigurate la serie del reddito totale italiano (scala a sinistra): anni di recessione (aree in grigio) e la serie della propensione media al consumo (scala a destra). Alla serie del reddito è stata sottratta una tendenza esponenziale al rapporto è stata sottratta una tendenza lineare 31 I periodi di recessione segnati in grigio sono conseguenze dei due shock petroliferi degli anni settanta (1974 e 1979): tendenza al rialzo della propensione media al consumo, come prevista dall’ipotesi del Duesenberry. Figura – Andamento del PIL e della propensione media al consumo in Italia negli anni 1970 – 2000; ambedue le serie sono state depurate della tendenza con funzioni lineari. Le aree tratteggiate indicano i periodi di recessione degli anni settanta innescati dalle crisi petrolifere; in questi periodi la propensione media aumenta, come previsto dall’ipotesi del Duesenberry. 32 Le stime dei minimi quadrati nel modello lineare semplice yt xt ut variabile endogena generica esplicativa xt variabile esogena, in quanto determinata esogenamente (all’esterno) al modello Il modello lineare è detto semplice perché contiene una sola variabile esplicativa oltre l’intercetta Se ne contenesse di più sarebbe multiplo Ovviamente yˆ ˆ ˆ xt uˆt yt yˆt 33 Il criterio di stima dei minimi quadrati consiste nel trovare i valori di e di che rendono minima la somma dei quadrati dei residui n n min u min yt xt , t 1 2 t , 2 t 1 S( , ) condizioni necessarie (ma non sufficienti) per ottenere il minimo S 2 y x 1 0 S 2 y x x 0 n t 1 t t t t n t 1 t cioè n n y n xt t t 1 t 1 n n n x y x x2 t t t t t 1 t 1 t 1 equazioni normali 34 Se si pone 1 x x n 1 y y n n t 1 n t , t 1 t 1 m x n n , xx t 1 2 t 1 m x y n n , xy t 1 t t dividendo per n y x e dalla seconda, sostituendo n n n x y y x x x t 1 t t t 1 t t 1 2 t cioè mxy yx mxx x 2 dalle quali si ottiene la stima dei minimi quadrati ˆ mxy yx mxx x 2 mxx x 2 e, sostituendo ˆ y ˆ x ) 35 Le condizioni sufficienti per la stima dei minimi quadrati S S S S S 0; 0, 0, 2 2 2 2 2 2 2 2 2 2 2 2 Infatti si ha S S 2 x 0 , 2n 0 , 2 2 n 2 2 t 1 S 2 x 2 2 t 2 n 2 t t 1 dalle quali segue n n 2n 2 x 2 x t 1 2 t t 1 t 2 4n m x 2 xx 2 4n x x 0 n t 1 2 t residui stimati uˆt yt yˆt yt ˆ ˆ xt 36 Osservazione – la retta yt xt passa sempre nel punto y , x Osservazione – in corrispondenza del punto di ottimo le equazioni normali possono essere scritte n n ˆ yt ˆ xt uˆt 0 t 1 t 1 n n yt ˆ ˆ xt xt uˆt xt 0 t 1 t 1 La prima mostra che la somma dei residui stimati è nulla la seconda che i residui stimati sono ortogonali alla variabile esplicativa 37 Osservazione – Utilizzeremo nel seguito il risultato che consegue dalla catena di uguaglianze n 1 n 1 n 1 ˆx ˆ x ˆ ˆ x ˆ ˆ ˆ y n t n t t n t 1 n t 1 t 1 che per l’osservazione è pari a y . Quindi 1 n 1 n yˆt y yt n t 1 n t 1 38 Interpretazione statistica criterio dei minimi quadrati sviluppato indipendentemente da K. F. Gauss e A. M. Legendre tra la fine del 18° e gli inizi del 19° secolo utilizza concetti puramente matematici interpretazione statistica che riguarda solamente i nomi: modello di regressione la somma dei quadrati n u t 1 2 t S , è la devianza (dei residui o residuale) le serie storiche xt e yt costituiscono il campione di dati i valori x e y sono le medie aritmetiche delle due variabili 39 mxx è il momento secondo m xy il momento secondo misto i valori ̂ e ˆ sono ancora delle stime, ma in senso statistico allora la stima ˆ è data dal rapporto (covarianza tra x e y ) / (varianza di x ). 40 La scomposizione della devianza e il coefficiente di determinazione la serie del consumo {ct } può essere interpolata sia con un’esponenziale sia con una retta dando luogo a stime delle devianze dei residui fortemente diverse indicatore basato sulle devianze che permetta di “misurare” il grado di adattamento di un modello al campione di dati coefficiente di determinazione il modello contiene l’intercetta (che, stimata, può anche valere zero) 41 scomponiamo la devianza (la somma dei quadrati degli scarti dalla media) delle yt n n 2 ˆ ˆ ( y y ) ( y y y y ) t t t t 2 t 1 t 1 n n n ( yt yˆt ) ( yˆt y ) 2 ( yt yˆt )( yˆt y ) 2 t 1 2 t 1 t 1 1 n dove y yt n t 1 e si è tolta e aggiunta la stessa quantità yˆ t Il termine misto è nullo: n k ˆ ( yt yˆt )( yˆt y ) uˆt yˆt y uˆt uˆt i xit y uˆt i 1 t 1 t 1 t 1 t 1 t 1 n n k n n i 1 t 1 t 1 n n ˆi xit uˆt y uˆt 0 42 scomposizione della devianza (totale TSS) di yt nella devianza di regressione ESS ed in quella residua RSS ( y y) 2 t t ( yˆ y ) 2 t ( y yˆ ) t t Dev. totale Dev. di regress. 2 t t Dev. residua Se dividiamo i due membri per la devianza totale otteniamo 1 (Dev. di regressione)/(Dev. totale) + (Dev. residua)/(Dev. totale) coefficiente di determinazione R2 Dev. di regressione Dev. residua 1 Dev. totale Dev. totale 43 pari al quadrato del coefficiente di correlazione multipla tra yt e l’insieme delle variabili esplicative tutta la variabilità spiegata da quella di regressione andamento del modello è perfetto, la devianza residua è nulla ed R2 1 nel caso opposto la parte sistematica del modello non spiega niente e la variabilità totale coincide con quella residua, per cui R2 0 dunque 0 R2 1 coefficiente di determinazione non centrato devianza totale scrivibile nella forma n y t 1 t n n n n t 1 t 1 t 1 y y y 2 y yt yt2 ny 2 2 t 1 2 t 44 per cui il coefficiente di determinazione n R2 1 uˆ t 1 y 2 t 2 t ny 2 detto centrato se si elimina ny 2 si ottiene il coefficiente di determinazione non centrato n Ru 2 1 uˆ t 1 2 t y 2 t mentre questo è utile nell’effettuare particolari diagnosi sul modello il primo è direttamente utilizzabile per valutare la bontà di adattamento del modello ai dati 45 Cautela nell’uso del coefficiente di determinazione può accadere che un valore molto alto (prossimo ad 1) di R2 sia dovuto ad e che invece β sia poco significativo yt ut Questo problema assume una particolare rilevanza anche quando l’endogena e l’esplicativa contengono ambedue eventuale una R2 tendenza: può accadere che un alto sia la conseguenza di questa e non di una effettiva relazione economica tra le due variabili. Una semplice verifica di questo fatto può essere realizzata stimando nelle differenze ed eliminando un’eventuale differenza lineare. Ritardando di una unità temporale si ottiene yt 1 xt 1 ut 1 46 e facendo la differenza yt xt t con t ut ut 1 R 2 non influenzato dalla tendenza una differenza prima elimina un’eventuale tendenza lineare yt t ut e prendendo la differenza prima si ha yt yt yt 1 t ut t 1 ut 1 t con t ut ut 1 47 una differenza seconda 2 elimina un’eventuale tendenza parabolica (un polinomio di secondo grado in t) in generale una differenza d–esima elimina un’eventuale tendenza rappresentabile mediante un polinomio di grado d nel tempo Stima di una funzione del consumo non più un’equazione che esprime il consumo in funzione del tempo bensì zt yt ut che esprime il consumo in funzione del reddito diagramma di dispersione delle coppie di valori ( zt , yt ) zˆt 53684 0.657 yt 48 funzione consumo zt 680 630 580 530 480 430 yt 380 680 730 780 830 880 930 980 1030 1080 Diagramma di dispersione che rappresenta il consumo in funzione del reddito; dati annuali reali per l’Italia 1980 – 2002 espressi in miliardi di euro. ut 600 400 200 t 0 -200 -400 -600 Serie storica dei residui uˆt zt zˆt della relazione lineare tra il consumo e il reddito reali (annuali) in Italia, anni 1980 – 2002. 49 coefficiente di determinazione centrato R 2 0.993 molto alto dubbio che sia derivato essenzialmente dalla presenza della tendenza calcoliamo le due serie delle differenze, stimiamo e otteniamo un coefficiente di determinazione relativamente alto zˆt 0.674 yt R 2 0.609 si può concludere che effettivamente sussiste una relazione economica tra il reddito e consumi nell’Italia degli anni ’80 e ’90 l’ R 2 è più basso quando si usano le differenze delle variabili al posto dei loro livelli 50 Coefficiente di determinazione e scelta del modello Omogeneità dei dati campione diviso in due parti, dal 1980 al 1994, e dal 1990 al 2002 zˆt 86408 0.701 yt per gli anni 1980 – 1994, e zˆt 15545 0.617 yt per gli anni 1990 – 2002 modello sbagliato? Non necessariamente. Dipende dagli obiettivi: periodo 1980 – 2002 da considerare come un tutt’uno oppure: numerosità del campione 51 Non linearità rispetto alle variabili propensione marginale al consumo decrescente; allora potremo interpolarla con una retta t per cui zt t yt yt t yt non lineare rispetto alle variabili (a causa del prodotto t yt ) Ma potremo porre wt t yt zt yt wt lineare anche rispetto alle variabili (e quindi facilmente stimabile) ma contenente tre parametri. 52 Propensione media Stimiamo zt yt ut rappresenta una sorta di propensione media al consumo come sia variata in Italia negli ultimi quaranta anni base di dati dell’OCSE: consumi ITACPV e reddito GDPV, trimestrali, nel 2° e nel 4° trimestre di ogni anno dal 1965 al 2002 dividiamo il campione in cinque sottocampioni Sottocampione N° osservazioni R2 1965/1-1972/2 16 0.557 0.986 1973/1-1980/2 16 0.560 0.966 1981/1-1988/2 16 0.585 0.976 1989/1-1996/2 16 0.599 0.603 1995/1-2002/2 16 0.600 0.943 53 Elasticità variabili logaritmizzate ln ct ln yt ut β elasticità del consumo rispetto al reddito derivata logaritmica matematicamente: d ln ct d ct / ct yt d ct d ln yt d yt / yt ct d yt approssimativamente uguale al rapporto di due differenze logaritmiche ln ct ln yt cioè di due variazioni percentuali 54 β è pari all’incremento percentuale del consumo dovuto all’aumento percentuale unitario (cioè dell’1%) del reddito Esempio – per l’Italia ln cˆt 0.962ln yt campione 1980-2002 R2 0.975 L’elasticità del consumo privato totale rispetto al reddito reale 0.962. Ad un incremento dell’1% del reddito corrisponde un incremento dello 0.962% del consumo privato. Se si utilizzasse il reddito disponibile reale l’elasticità varrebbe 0.979. 55 Altri esempi La legge di Okun Arthur Okun, basandosi su dati USA relativi al periodo 1947 – 1960 relazione tra il tasso di disoccupazione e la crescita economica ut xt dove ut ut ut 1 variazione del tasso di disoccupazione xt xt xt 1 xt 1 tasso di crescita economica tasso di crescita (medio) di lungo periodo Osservazione – equazione priva dell’intercetta Ru2 non molto alto 56 Applicazione all’economia degli USA: serie USAGDPV della base di dati OCSE dal 1960 al 1980 ln xˆt 14.684 0.036 t saggio di crescita di lungo periodo exp 0.036 1 1.037 1 0.037 variazione annua del tasso di disoccupazione ut dalla base di dati OCSE (USAUNR) uˆt 37.423( xt 0.037) campione 1960 – 1980 Ru2 0.758 ogni punto percentuale di crescita del PIL degli USA sopra il 3.7% corrisponde ad una diminuzione del tasso di disoccupazione pari a 0.374 Okun: circa 0.4 57 Osservazione –la variazione della disoccupazione ut è misurata in punti percentuali (3, 5, …) mentre l’esplicativa è misurata in unità (0.03, 0.05), per cui il parametro della deve essere diviso per 100 al fine di poter essere ricondotto all’unità di misura di ut (essendo l’esplicativa 100 volte più piccola, è nella stima 100 volte più grande). Applicazione all’economia dell’Italia per gli anni dal 1960 al 1980 uˆt 7.12 ( xt 0.046) Ru2 0.129 campione 1960 – 1980 e per gli anni dal 1981 al 2002 uˆt 10.594( xt 0.019) campione 1981 – 2002 Ru2 0.0288 58 coefficienti di determinazione così come le due diminuzioni del tasso di disoccupazione molto piccoli la legge di Okun nell’ultimo mezzo secolo non vale per l’Italia spesso gli assunti economici valgono soltanto per specifiche economie e specifici periodi campionari. Relazione tra tasso di cambio nominale e prezzi relativi Siano t il tasso di cambio (valuta nazionale italiana)/dollaro USA [ITAEXCHUD nella base di dati OCSE in euro/$] xt il rapporto tra l’indice dei prezzi al consumo USA [USACPI] e l’indice dei prezzi al consumo per l’Italia [ITACPI] per gli anni 1970 – 2002 59 relazione tra tasso di cambio nominale e prezzi relativi t xt che mostra come il primo vari in funzione (lineare) dei secondi. Si ottiene ˆt 1.156 0.325 xt campione 1970 – 2002 Ru2 0.742 il coefficiente angolare negativo indica che ad ogni diminuzione unitaria di xt (che tende a diminuire perché i prezzi dell’Italia crescono più rapidamente di quelli USA) corrisponde un aumento (deprezzamento della valuta italiana rispetto al dollaro USA) del tasso di cambio su questo fatto si basa il principio della parità dei poteri d’acquisto (PPP) 60 Serie storiche, dati sezionali e longitudinali dati temporali unità di consumo e di reddito (ad esempio famiglie), i = 1, 2, …, N, considerate allo stesso tempo t le osservazioni compongono dati sezionali ci yi i = 1, 2, …, N dati contemporaneamente sezionali e temporali cit i i yit t = 1,2,…,n i = 1, 2, …, N ciascuna famiglia possiede una propria funzione definita dai parametri i e i , considerati costanti nel periodo di osservazione campionario 61 Se poniamo N ct cit , i 1 N i , i 1 N yt yit i 1 e nell’ipotesi che tutte le propensioni marginali al consumo siano uguali, 1 2 ... N , le equazioni possono essere sommate membro a membro in modo da dare ct yt t = 1, 2, …, n aggregazione sezionale Dati longitudinali (panel data) Se il campione di famiglie rimane costante negli n tempi, i dati ad esso relativi, c e y sono chiamati it it longitudinali, alludendo al fatto che un campione di più individui viene seguito lungo il tempo. 62 L’AMBIENTE STOCASTICO I residui come enti aleatori: le ipotesi deboli le stime ottenute sono buone (rispetto ad un dato criterio) oppure cattive? E’ possibile decidere se le stime dei parametri si influenzano reciprocamente? Se i residui sono legati in qualche modo tra di loro? Se il campione è sufficientemente omogeneo? ambiente stocastico, non più deterministico i residui variano di valore al variare di e ; non sono noti finché e non vengono fissati; quindi prima di ottenere ̂ e ̂ considerati variabili aleatorie ut , essi possono essere t = 1, 2, …,n 63 Box Le variabili aleatorie E’ aleatoria una variabile x che può assumere diversi valori. risultato del lancio di un dado: valore da 1 a 6 realizzazioni In questo caso ciascuna realizzazione ha la stessa probabilità di realizzarsi; in altri casi alcune hanno maggiore probabilità di altre. l’altezza di un individuo è una variabile aleatoria; se la misuriamo in centimetri, i valori 150, 163, 180, …, sono sue realizzazioni quelle comprese tra 160 e 170 hanno, ovviamente, maggiore probabilità di verificarsi di quelle comprese tra 140 e 150 64 variabili aleatorie dette discrete perché le loro realizzazioni possono essere o finite o infinite ma numerabili realizzazioni con potenza del continuo (in modo grossolano possiamo dire che appartengono ad un intervallo) le variabili aleatorie sono dette continue La media delle realizzazioni ponderate con la probabilità che si verifichino costituisce il valor medio della variabile aleatoria ed è indicato con il simbolo E xt expectation il valor medio è un indice di localizzazione delle realizzazioni. La quantità E x E x 2 varianza pari alla media dei quadrati degli scarti tra le realizzazioni e il valor medio, ponderati con la probabilità che esse si verifichino 65 è un indice di dispersione delle realizzazioni intorno al valor medio Tanto più grande è la varianza e tanto più sono disperse le realizzazioni di x rispetto al suo valor medio. La quantità E x E x y E y covarianza tra le variabile aleatorie x e y è un indicatore del legame lineare esistente tra le due variabili aleatorie rilevanti La varianza di una variabile aleatoria è anche indicata con Var x la covarianza con Cov x, y si dimostra che Var x y Var x Var y 2Cov x, y 66 modello inserito in un ambiente stocastico yt xt ut membro a destra aleatorio lo è anche quello a sinistra il segno di uguaglianza indica l’uguaglianza delle caratteristiche (anche stocastiche) dei due membri l’insieme più semplice di ipotesi stocastiche i) xt valori noti t ii) E (ut ) 0 t 0 iii) E (ut us ) 2 ts ts La prima ipotesi indica che la variabile esplicativa è conosciuta misurata senza errori. La seconda ipotesi non è affatto restrittiva 67 La terza ipotesi è restrittiva in quanto presuppone: sia che i residui in tempi diversi non siano legati linearmente tra di loro (la loro covarianza è sempre nulla) (incorrelati) sia che abbiano tutti la stessa varianza Ambedue queste verificate nella sottoipotesi realtà, ma sono sono 2 raramente molto utili nell’introduzione didattica in ambiente stocastico. Le ipotesi non presuppongono alcuna forma di distribuzione di probabilità per le u e sono per questo t motivo dette deboli nel caso di assunzione di una distribuzione di probabilità, le ipotesi che vengono assunte sono chiamate forti 68 Box Distribuzioni di probabilità Ogni variabile aleatoria può assumere dei valori, realizzazioni, ciascuno dei quali si può verificare con una data probabilità. L’insieme di queste forma la distribuzione di probabilità della variabile aleatoria. Nel lancio di un dado ognuna delle sei possibili realizzazioni ha la stessa probabilità di uscire e quindi la distribuzione di probabilità, discreta, è costituita da 1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6, 1/ 6 per convenzione la somma delle probabilità di tutte le realizzazioni possibili è uno 69 distribuzione continua variabile aleatoria che assume un valore costante in un certo intervallo se questo vale b a tale valore è p 1/ b a qualora p dx p dx p b a 1 b b a a Nel caso discreto la funzione di distribuzione di probabilità indica come questa si ripartisce nelle varie realizzazioni che la variabile aleatoria discreta può assumere. nel lancio di un dado tale funzione è f xi P x xi 1 6 i 1, 2, ,6 dove P x xi indica la probabilità del evento x xi . 70 Nel caso continuo la funzione di densità di probabilità, che definisce la probabilità che la variabile aleatoria continua x assume un valore contenuto in un dato intervallo x P x x x f x dx x variabile aleatoria continua costante: la probabilità che x assume un valore contenuto nell’intervallo x, x , con a x x b , è P x x x x x 1 x x dx ba ba Box Valor medio di una distribuzione nel caso discreto E x xi pi i 71 dove la sommatoria è estesa a tutte le realizzazioni possibili ciascuna moltiplicata per la probabilità che si verifichi nel lancio di un dado E x 1 xi 7 2 6 i nel caso continuo x E x x f x dx x estremi dell’intervallo di variazione nell’esempio della variabile continua in a, b E x b a 1 1 b2 a 2 x dx a b 2 ba ba 2 72 Definizioni e risultati nell’approccio stocastico ipotesi ii) e iii) (successione residuo rumore bianco temporale di variabili aleatorie incorrelate con valor medio nullo e varianza costante) ambiente stocastico anche yt variabile aleatoria componente sistematica = combinazione lineare xt componente aleatoria = residuo ut c. sistematica in quanto rappresenta la struttura di yt in funzione: dei parametri, invariabili nel tempo per l’omogeneità del campione, e dell’esplicativa, supposta nota 73 componente sistematica: denota i fatti stilizzati della relazione tra la variabile endogena e le esplicative ipotesi stocastiche in termini dei residui non osservabili ma anche ipotesi sulle variabili osservabili yt , realizzazioni di una variabile aleatoria yt E yt E xt ut xt ut yt E yt 2 Var yt E yt E yt E ut2 2 Cov yt , ys E yt E yt ys E ys E ut us 0 t s struttura di varianza–covarianza per la ut si applica anche alla yt , dato che le due variabili aleatorie differiscono soltanto per una costante additiva, la componente sistematica xt 74 omoschedasticità eteroschedasticità quando l’una o l’altra di queste ipotesi vale per i residui vale anche per la variabile endogena spesso la crescenza della variabilità è associata alla crescenza della tendenza Retribuzioni lorde Italia 1970-1996 250000 200000 150000 100000 50000 0 1970.1 1974.1 1978.1 1982.1 1986.1 1990.1 1994.1 Le retribuzioni lorde complessive in Italia; dati trimestrali grezzi dal 1970 al 1996 (fonte ISTAT). Sia la tendenza che la variabilità sono crescenti nel tempo. 75 da un punto di vista empirico crescenza della tendenza e crescenza della variabilità, pur presentandosi spesso insieme nella stessa serie storica, sono da trattarsi in modo ben diverso: un’eventuale tendenza nella yt può essere spiegata dalla componente sistematica per cui l’ipotesi E ut = 0 può valere una eteroschedasticità nella yt si riflette in una variabilità analoga nei residui Stime e stimatori dei minimi quadrati la minimizzazione è la stessa ciò che cambia è semplicemente la natura della serie storica dei residui u1 u2 un , che ora è costituita da variabili aleatorie 76 mxy yx ˆ mxx x 2 ˆ y ˆ x Ma nell’ambito stocastico yt è una variabile aleatoria per cui, sostituendo xt ut al posto della yt n 1 1 ˆ xt x ut mxx x 2 n t 1 n 1 ˆ x ˆ ut n t 1 ̂ e ̂ variabili aleatorie: stimatori prima loro buona proprietà: la non distorsione E ˆ stimatori ̂ e ̂ E ˆ non distorti 77 Box La proprietà di non distorsione stimatore del parametro non distorto se E ( ) = non distorsione buona proprietà per uno stimatore se la sua distribuzione di probabilità è concentrata intorno al valor medio le stime, realizzazioni dello stimatore, hanno alta probabilità di trovarsi vicino al valore vero del parametro teorema di Gauss–Markov Gli stimatori dei minimi quadrati: possiedono variabilità minima nel senso del teorema di Gauss– Markov 78 Teorema di Gauss–Markov - Tra tutti gli stimatori lineari rispetto alle yt e non distorti, se ̂ e ̂ sono gli stimatori dei minimi quadrati e e sono qualsiasi altri stimatori, si ha Var c1ˆ c2 ˆ Var c1 c2 dove c1 e c2 è una qualsiasi coppia di costanti reali non ambedue nulle. stimatori con variabilità minima nel senso del teorema di Gauss–Markov detti ottimi BLU: Best (ottimi) Linear (lineari) Unbiased (non distorti). 79 correlazione tra variabili e tra stimatori dei parametri covarianza Cov y, x tra due variabili aleatorie relazione lineare esistente tra di loro dipende dalla dimensione delle due variabili e quindi non può essere utilizzata come un indicatore dell’intensità della relazione normalizziamo per escludere la dipendenza dalla dimensione dividendo la covarianza per la radice quadrata del prodotto delle varianze delle due variabili aleatorie Cov y, x Var y Var x yx2 y2 x2 ottenendosi il coefficiente di correlazione 80 tale che 1 1 se è vicino allo zero non vi è relazione lineare se è vicino all’unità la relazione è molto forte e positiva se è vicino a -1 è ugualmente forte ma negativa: se una variabile aumenta l’altra diminuisce e viceversa stima stime campionarie valori medi campionari 1 n x xt n t 1 1 n y yt n t 1 81 varianze campionarie 1 n 1 n 2 2 ˆ xt x xt x 2 mxx x 2 n t 1 n t 1 2 x 1 n 1 n 2 2 ˆ yt y yt y 2 m yy y 2 n t 1 n t 1 2 y covarianza campionaria 1 n 1 n yt y xt x yt xt y x m yx y x n t 1 n t 1 2 xy Esempio - Il coefficiente di correlazione tra il consumo e il reddito vale ˆ 0.998 tra il consumo e il reddito disponibile ˆ 0.915 . Esempio - Il coefficiente di correlazione tra la variazione della disoccupazione e la crescita del PIL reale dell’Italia vale ˆ 0.405 82 La correlazione tra gli stimatori dei parametri stimatori ̂ e ̂ non correlati tra di loro altrimenti accade che la stima di un parametro influenza quella dell’altro Modello ̂ ln ct t ut -0.876 c exp t u t t -0.522 ct t ut -0.876 zt yt ut -0.992 Stime dei coefficienti di correlazione dei parametri dei tre modelli di tendenza per i consumi e di un modello per la funzione del consumo. 83 Le ipotesi forti sui residui Riassunto delle ipotesi in relazione al modello lineare: i) ii) iii) il campione è omogeneo e i parametri sono invariabili nel tempo; i valori di xt sono noti, cioè non aleatori; 0 ts E (ut ) 0 , E (ut us ) 2 t s t,s i) si suppone che la struttura dell’economia rimanga invariata nel periodo campionario ii) è un’ipotesi semplificatrice che limita gli elementi stocastici del modello al residuo ed alla variabile endogena iii) ipotesi deboli utilizzate per determinare la non distorsione l’efficienza le matrici di dispersione e di correlazione la distorsione della varianza campionaria dei residui. 84 Stima dei parametri con il criterio dei minimi quadrati iv) mxx x 2 0 Intervalli di confidenza un intervallo di confidenza per lo stimatore è un indicatore della probabilità p che una stima ˆ sia vicina a più l’intervallo è corto maggiore è la nostra confidenza che esso contenga tale valore vero e gli estremi dell’intervallo P la probabilità che un evento si verifichi P p 85 intervallo è al 100 p% intervallo di confidenza indicato con , probabilità p presa pari a 0.95 talvolta pari a 0.90 e talaltra a 0.99 distanza la più corta p 1 con = 0.05, 0.01, 0.10 livello di significatività dell’intervallo di confidenza Stima intervallare (o per intervalli) intervallo di confidenza , localizza all’interno dell’intervallo fornisce un’indicazione (denotata dalla lunghezza ) della precisione di questa localizzazione 86 Verifiche (o test) di ipotesi il campione a disposizione può essere usato per verificare se esso spinge a rendere vera o falsa un’ipotesi ipotesi nulle indicate con H 0 H0 : 0 , H0 : 1 sottoposte a test contro delle ipotesi alternative H1 ad esempio H1 : 0 , H1 : 1 ipotesi alternative dette bilaterali 0 (primo lato) oppure 0 (secondo lato) 1 oppure 1 se il lato è uno solo, ad esempio H0 : 0 , ipotesi detta monolaterale. 87 in generale: ipotesi (lineare) nulla H0 : r t ipotesi alternativa H1 : r verifiche di ipotesi = test di ipotesi standardizzazione dell’intervallo di confidenza stimatore ha valore medio E e varianza Var che variano ogni volta che si ha a che fare con un campione diverso si trasforma in modo che abbia un tipo standard di distribuzione di probabilità 88 si standardizza cioè le si toglie il valor medio e la si divide per la radice quadrata (presa con il segno positivo) della varianza z , E Var trasformato nell’altro z, z di immediata determinazione poiché gli estremi non dipendono dal campione z z z per la quale è P z z z p distanza z z sia la più corta Dunque E z z dove Var 89 z E z z E z z E z doppia disuguaglianza per la quale: si definisce un intervallo di confidenza non più per lo stimatore ma per il suo valor medio E , che però è funzione di ; così l’intervallo di confidenza limita e non più l’intervallo è divenuto aleatorio z , z ma si possiede una realizzazione (la stima di ˆ ) di e la si sostituisce ˆ z E ˆ z intervallo di confidenza ˆ z , ˆ z 90 L’intervallo di confidenza Per lo stimatore generico di è , P z z z p Si standardizza e si ottiene E P z z p intervallo di confidenza per E , che è aleatorio ˆ z E ˆ z E contiene si sostituisce lo stimatore con la stima ˆ ˆ z E ˆ z intervallo di confidenza ˆ z , ˆ z . 91 Residui normali Per inferenze statistiche sul modello lineare occorre aggiungere l’ipotesi forte ut N (0, 2 ) t funzione di densità di probabilità del tipo normale (o di Gauss o gaussiana) f (ut ) (2 2 )1/ 2 exp ut2 / 2 2 ut / z normale standardizzata gran parte dei residui si distribuisce normalmente teorema centrale del calcolo della probabilità: Dato un numero n di variabili aleatorie indipendenti e identicamente distribuite, la distribuzione (di probabilità) della loro somma tende ad essere normale al tendere di n verso infinito. 92 Grafico della funzione di densità di probabilità normale standardizzata, N 0,1 residuo assimilato ad una somma molto grande di forze della dinamica economica (variabili aleatorie che supponiamo abbiano la stessa distribuzione) hanno effetto sull’endogena al di fuori dell’esplicativa il teorema centrale può essere applicato la (approssimata) normalità di ut 93 Indipendenza in probabilità teorema centrale: ipotesi che le variabili aleatorie siano indipendenti (in probabilità) approssimativamente: vuol dire che non c’è alcun tipo di relazione probabilistica tra di esse f u1 , u2 , , un f u1 f u2 f un se due variabili aleatorie sono indipendenti esse sono anche incorrelate ma non vale il viceversa almeno che esse abbiano distribuzione normale le ipotesi forti assumono implicitamente che i residui siano indipendenti (in probabilità) 94 Inferenza per i parametri del modello lineare semplice 2 sia noto determiniamo la distribuzione di probabilità degli stimatori ̂ e ̂ valori medi varianze: Var ˆ 2 a2 , Var ˆ 2 a2 dove 1 , a 2 n mxx x 2 1 x2 a n n mxx x 2 2 ˆ z a ˆ z a per l’intercetta ˆ z a ˆ z a per il parametro 95 estremi z e z ricavabili dalla tavola statistica dei quantili della distribuzione normale standardizzata stimatori combinazioni lineari di variabili aleatorie normali (distribuite normalmente) sono anch’essi normali ˆ N , 2 a2 ˆ N , 2 a2 estremi dell’intervallo di confidenza per la variabile aleatoria standardizzata : -0.658 e 0.658 se 0.05 -0.678 e 0.678 se 0.01 -0.632 e 0.632 se 0.10 96 Intervalli di confidenza per e 1) Si sceglie il livello di significatività 1 p desiderato. 2) Si traggono dalle tavole della variabile aleatoria normale standardizzata gli estremi. 3) Si standardizzano le variabili aleatorie ̂ e ̂ , cioè le si trasformano nella normale standardizzata ˆ , a ˆ a 4) Si costruiscono gli intervalli di confidenza ˆ a z ˆ a z ˆ a z ˆ a z 97 Esempio intervalli di confidenza (stima intervallare) per i parametri della funzione del consumo nell’ipotesi di conoscere 2 39000000 a 0.0000002 , a 1.6469 per cui gli intervalli al 95% sono 0.6491 0.66486 60505 46863 e quelli al 99% sono 0.6488 0.6651 60712 46656 98 Verifica di ipotesi funzione di densità normale standardizzata con l’indicazione dell’intervallo di confidenza al 95% P( z 1.96 )=0.025 P( z 1.96 )=0.025 intervallo di confidenza utilizzato per costruire un test di ipotesi: ipotesi nulla H0 : 0 contro l’alternativa H1 : 0 . Se è valida l’ipotesi nulla z ˆ a 99 che ha probabilità pari al 95% di cadere nell’intervallo z, z si è spinti ad accettare l’ipotesi nulla se z ˆ a cade nell’intervallo si è spinti a rifiutarla se il valore che si ottiene cade fuori dell’intervallo, cioè nelle code l’intervallo di confidenza è anche detto regione di accettazione del test, mentre le due code formano la sua regione di rifiuto i due estremi e prendono il nome di valori critici del test non certezza: “si è spinti ad accettare H 0 ” e non “si accetta H 0 con certezza” Se si è spinti a rifiutare H 0 nonostante sia vera: errore di I specie con probabilità 100 errore di II specie: accettare H 0 nonostante che sia falsa. l’ipotesi H 0 può riguardare H0 : m si controlla che z ˆ m a cada nell’una o nell’altra regione analogamente H0 : b Esempio funzione del consumo nell’ipotesi di conoscere 6325 H0 : 0 z ˆ 0 a 51.937 H0 : 1 z ˆ 1 a 5.178 101 regione di accettazione al 95% è 1.96, 1.96 Si è quindi spinti a rifiutare ambedue le ipotesi nulle Test di ipotesi 1) ipotesi nulla H0 : r varianza (nota) 2 2) si standardizza z ˆ 3) si pone r z ˆ r 4) si sceglie il livello di significatività 5) si traggono dalle tavole i valori critici e si costruisce la regione di accettazione z, z 6) se z z, z si è spinti ad accettare H 0 102 Inferenza statistica per la varianza dei residui stima campionaria 1 n 2 ˆ uˆt n t 1 2 distorta stima non distorta 1 n 2 uˆt n 2 t 1 2 radice quadrata presa positivamente == errore standard (SE) (dei residui) della regressione, bontà di adattamento del modello ai dati, alla stessa stregua del coefficiente di determinazione n 2 == gradi di libertà (g.d.l.) con cui si stima 2 103 Stima intervallare per 2 variabili uˆt aleatorie normali standardizzate indipendenti la somma dei loro quadrati si distribuisce come un 1 2 n uˆ t 1 2 t 2 n22 2 1 n 2 P n 2 2 uˆt n22 1 t 1 quantili di probabilità 2 e 1 2 della distribuzione del chi quadrato 1 n2 2 uˆt2 2 1 uˆ n2 2 2 t stima intervallare 104 Funzione di densità di probabilità del 2 per i tre numeri di g.d.l. n-2=10, 20, 30 Verifica di ipotesi lineari semplici L’ipotesi nulla H0 : 2 r verificata contro l’alternativa utilizzando l’intervallo di confidenza 105 oppure: inserendo 2 r nella n uˆt2 r 2 t 1 e verificando che il valore ottenuto sia compreso nella regione di accettazione n22 , n22 oppure in quello di rifiuto 0 2 n22 e 2 n22 test del 2 per la varianza dei residui n22 0 per cui la regione di accettazione 0, n22 quella di rifiuto è composta dal solo intervallo 2 n22 106 Esempio funzione del consumo verifichiamo l’ipotesi nulla H 0 : 2 39614436 intervalli di accettazione 0, 29.62 per 0.01, 0.05 , 0, 38.93 , 0, 32.67 , 0.10 2 21.001 107 Inferenza statistica per i parametri del modello lineare semplice con 2 ignoto sostituito dalla stima campionaria intervalli di confidenza ˆ a ˆ a n uˆ t 1 ˆ a 2 t 2 n 2 ˆ a n uˆ t 1 2 t 2 n 2 distribuzione del 2 , divisa per il numero dei g.d.l. t di Student centrale , funzione del numero dei g.d.l. ˆ ~t a n2 ˆ ~t a n 2 108 intervalli di confidenza ˆ a tn 2 ˆ a tn 2 ˆ a tn 2 ˆ a tn 2 quantili tn 2 e tn 2 sono di probabilità 2 e 1 2 Errori standard delle stime a e a errori standard 109 Intervalli di confidenza con 2 ignoto 1) livello di significatività 1 p 2) tavole della t di Student con n 2 g.d.l. i valori critici 3) varianza campionaria n uˆt2 n 2 2 t 1 4) errori standard a e a 5) t di Student ˆ a ˆ a 6) intervalli di confidenza ˆ a tn 2 ˆ a tn 2 ˆ a tn 2 ˆ a tn 2 110 Verifica di ipotesi Test di ipotesi con 2 ignoto 1) ipotesi nulla H 0 : r 2) varianza campionaria dei residui e l’errore standard SE della stima 3) si trasforma ˆ con la trasformazione t ˆ SE 4) si pone r e si sostituisce la stima al posto del suo stimatore t ˆ r SE 5) si sceglie il livello di significatività 6) dalle tavole della t di Student con n 2 g.d.l. gli estremi e si costituisce la regione di accettazione del test tn 2 , tn 2 . 7) Se t tn 2 , tn 2 si è spinti ad accettare H 0 , altrimenti si è indotti a rifiutarla. 111 Tre esempi Obbligatorio: verificare l’ipotesi nulla che i parametri siano uguali a zero se si è spinti ad accettare l’ipotesi nulla si è indotti ad eliminare (l’effetto di) una variabile esplicativa! H0 : 0 , H0 : 0 Inserendo queste ipotesi tn2 ˆ SE Se tn 2 è compreso nell’intervallo tn2 ˆ SE t tn 2 , tn2 si è spinti ad accettare l’ipotesi nulla, altrimenti a rifiutarla. 112 Retta interpolante il logaritmo dei consumi ln cˆt 13.248 0.129t SE: t: 0.066 201.610 0.052 24.741 campione 1960–1980 ; R 2 0.970 SE dei residui = 0.145 ; RSS = 0.401 ; TSS = 13.310 n 2 19 e regione di accettazione 2.093, 2.093 se 0.05 Funzione del consumo zˆt 53684 0.657 yt SE : t: (10366) (0.012) (-5.179) (55.009) 113 campione 1980–2002 R 2 0.993 SE dei residui = 6294 ; RSS = 831954500 ; TSS =120710590000 Relazione tra tasso di cambio nominale e prezzi relativi ˆt 1.156 0.325xt SE : t: (0.056) (0.034) (20.543) (-9.444) campione 1970–2002 R 2 0.742 SE dei residui =0.128 ; RSS =0.511 ; TSS =1.982 114 Distribuzioni di probabilità rilevanti Distribuzione normale (o di Gauss o gaussiana) che ha la forma della sezione di una campana con i lembi infiniti f x 2 2 1 2 2 x exp 2 2 indicata con il simbolo N , 2 proprietà: Man mano che ci si allontana dal valor medio la probabilità che x assuma i valori contenuti in un intervallo infinitesimale a destra o a sinistra di diminuisce. 115 Approssim. la superficie che giace sotto la curva normale vale 68 100 in , ; 95 100 in 2 , 2 99.7 100 in 3 , 3 La combinazione lineare di due o più variabili aleatorie normali è normale Minore è la varianza e più concentrata è la distribuzione normale intorno al valor medio. Se due o più variabili aleatorie normali x1 , x2 , , xk sono incorrelate tra di loro, allora sono indipendenti, cioè f x1 , x2 , , xk f x1 f x2 f xk Se 0 e 2 1, la variabile aleatoria normale è detta standardizzata. 116 3 2 2 3 ≈68/100 ≈95/100 ≈99.7/100 Funzione di densità della distribuzione normale N (, ) con l’indicazione del valore approssimato di tre superfici sotto di essa 2 Distribuzione del chi quadrato k variabili aleatorie indipendenti z1, z2 , normali standardizzate , zk z12 z22 zk2 w 117 chi quadrato, che dipende da k , numero dei gradi di libertà (g.d.l.) w k2 proprietà: Il valor medio della distribuzione k e la sua varianza è 2 k . Se due variabili aleatorie indipendenti hanno distribuzione del 2 con k1 e k2 g.d.l. rispettivamente, la loro somma è una variabile aleatoria con stessa distribuzione con g.d.l. pari alla somma k1 k2 . La distribuzione è asimmetrica, con il grado di asimmetria che dipende dal numero di g.d.l. Più grande è questo e meno asimmetrica è la distribuzione; al tendere all’ , la distribuzione del 2 tende alla distribuzione normale. 118 Distribuzione della t di Student Il rapporto di una variabile aleatoria standardizzata e la radice quadrata di una variabile aleatoria distribuita come un 2 con k g.d.l. possiede una distribuzione detta t di Student, se le due variabili aleatorie sono indipendenti (in probabilità). proprietà: La distribuzione della t di Student è simmetrica intorno allo zero, che è anche il suo valor medio. La varianza della t di Student è k k 2 . All’aumentare di k la distribuzione della t di Student si avvicina alla distribuzione normale standardizzata. Dal punto di vista delle applicazioni la t di Student con k 60 è da considerarsi praticamente uguale alla normale standardizzata. 119 Distribuzione della F di Fisher Il rapporto di due variabili aleatorie distribuite come un 2 , ciascuna divisa per il proprio numero di g.d.l., possiede una distribuzione detta F di Fisher, se le due variabili aleatorie sono indipendenti. Questa distribuzione dipende dai due g.d.l., k1 e k 2 , ed è quindi indicata con Fk1 ,k2 . proprietà: La distribuzione della F di Fisher è asimmetrica. Il suo intervallo di variazione va da zero ad infinito. Al tendere ad infinito dei suoi g.d.l. la distribuzione della F di Fisher tende a quella normale. La distribuzione della F di Fisher con 1 e k g.d.l. è uguale a quella del quadrato di una t di Student con k g.d.l. 120 LA PROIEZIONE proiezione e proiettore nei modelli lineari modello lineare semplice yt xt ut Problema: proiettare yt fuori dal campione t 1,2, ,n ynh per h 1,2, , n1 , n 1, n 2, , n n1 periodo di proiezione 121 supponiamo che: - la struttura dell’economia, già ipotizzata sostanzialmente invariante nel campione, rimanga la stessa nei due periodi - i valori dell’esplicativa per i tempi t n 1, n 2, , n n1, siano noti - valgano anche per il futuro le ipotesi deboli per i residui E (unh ) 0 2 E (un h us ) 0 s nh s n h; s 1,2 ,...,n n1 per ogni h, valor medio dei residui nullo 122 proiezione yˆnh al tempo nh yˆ nh ˆ ˆ xnh h 1,2, , n1 yˆnh proiezione della componente sistematica poiché la proiezione di ut è stata posta arbitrariamente uguale a zero procedura giustificata in senso probabilistico : de Finetti [1970] proiezione di una variabile aleatoria come suo valor medio stimatori e non stime yˆnh variabile aleatoria: proiettore della parte sistematica 123 fonti di incertezza per la proiezione: - i parametri ̂ e ˆ sono stime e non i valori veri; - la variabile esplicativa non è generalmente nota e va sostituita con una proiezione; - nella proiezione si annulla il residuo ma nella realtà non è affatto detto che valga zero. L’errore di proiezione il proiettore non è uno stimatore non distorto di ynh ma lo è della sua componente sistematica errore di proiezione en h yn h yˆ n h ˆ ˆ xn h un h 124 valor medio dell’errore considerato come variabile aleatoria nullo E (en h ) E ˆ E ˆ xnh E unh 0 proiettore incondizionatamente non distorto altra buona proprietà delle proiezioni ottenute con i minimi quadrati. Proiezioni ex post ed ex ante errore - aleatorio se è espresso in termini di stimatori e di residuo - numero se yˆnh è la proiezione e xn h è noto realizzazioni ynh conosciute proiezione ex post non note proiezione ex ante. 125 proiezione con il criterio dei minimi quadrati proiettore BLU - lineare rispetto alle yt poiché lineari sono gli stimatori OLS - non distorto rispetto alla parte sistematica E yˆ n h E ˆ ˆ xn h E ˆ E ˆ xn h xn h h 1,2, , n1 - ottimo in quanto Var yˆ n h Var ˆ ˆ xn h Var xn h h 1,2, , n1 e stimatori qualsiasi tra i lineari e non distorti, costanti pari a 1 e a xn h 126 L’errore quadratico medio di proiezione varianza dell’errore di proiezione Var (en h ) x x 1 nh 2 n mxx x 2 2 n errore quadratico medio di proiezione indicatore della precisione della proiezione Teorema – Tra i proiettori lineari e non distorti incondizionatamente, se ̂ e ˆ sono gli stimatori dei minimi quadrati il proiettore è quello che possiede errore quadratico medio minimo 127 Intervalli di confidenza per le proiezioni proiezione di variabili economiche: meglio intervallare che puntuale ipotesi un h N 0, 2 h 1,2, , n1 en h N (0, 2 an2h ) h 1,2, , n1 se poniamo an2 h 2 1 xn h x 1 n n mxx x 2 Standardizziamo en h y yˆ n h nh an h an h N 0,1 h 1,2, , n1 per cui 128 yn h yˆ n h 1/ 2 an h ut2 /(n k ) t 1 n yn h yˆ n h an h tn h h 1,2, , n1 poiché en h e n u t 1 t sono stocasticamente indipendenti. intervallo di confidenza al livello y yˆ n h P tn 2 n h tn2 1 an h yˆnh anh tn 2 ynh yˆnh anh tn2 intervallo più corto che contiene il valore aleatorio ynh con probabilità 1 129 Tre esempi proiezione intervallare ex post per tre tempi al livello 0.05 Retta interpolante il logaritmo dei consumi ynh yˆnh h effettivo 1 SE di previsto errore di previsione previsione 1.580 1.556 0.024 0.012 2 1.601 1.567 0.034 0.013 3 1.626 1.579 0.047 0.013 130 Funzione del consumo ynh yˆnh h effettivo 1 SE di previsto errore di previsione previsione 616498 615667 832 7508 2 622931 627839 -4908 7615 3 625708 630388 -4680 7638 Relazione tra tasso di cambio nominale e prezzi relativi ynh yˆnh h effettivo 1 SE di previsto errore di previsione previsione 1.085 0.796 0.289 0.106 2 1.117 0.796 0.321 0.106 3 1.061 0.798 0.263 0.106 131 Indicatori dell’accuratezza delle proiezioni proiezioni effettuate ex post errore medio 1 n1 MPE en h n1 h1 errore medio assoluto 1 n1 MAE en h n1 h 1 errore quadratico medio 1 n1 2 MSE en h n1 h 1 132 radice dell ’errore quadratico medio RMSE MSE1 2 indice della stessa dimensione dell’errore coefficiente di disuguaglianza di Theil 1/ 2 n1 2 en h h 1 U 1/ 2 1/ 2 n1 2 n1 2 yn h yˆ n h h 1 h 1 vale zero quando tutti gli errori di proiezione sono nulli e tende ad uno man mano che l’accuratezza delle proiezioni peggiora errore medio assoluto percentuale (MAPE) errore quadratico medio percentuale (MSPE). 133 Modello MAE MSE RMSE U MAPE MSPE Retta interpolante 0.352 0.133 0.364 0.011 0.022 0.0005 il log dei consumi Funzione 3473 15561577 3945 0.003 0.006 0.00004 del consumo Relazione tra tasso di 0.291 0.085 0.292 0.155 0.267 0.072 cambio nominale e prezzi relativi Errore medio assoluto, errore quadratico medio, radice quadrata dell’errore quadratico medio, coefficiente di Theil, errore medio assoluto percentuale ed errore quadratico medio percentuale per le proiezioni uno, due e tre tempi in avanti di tre modelli. 134 LA MALASPECIFICAZIONE modello lineare semplice y xt ut ipotesi: a. il campione è omogeneo b. parametri invariabili nel tempo c. i valori xt sono noti d. E ut 0 2 0 0 2 E ut us 0 0 ut 0 0 0 2 2 N 0, 2 ts ts t 135 test di malaspecificazione omoschedasticità dei residui autocorrelazione di ordine uno normalità dei residui omogeneità del campione cioè test di cambiamento strutturale 136 Eteroschedasticità dei residui variabilità non costante nel tempo, ma crescente o più raramente decrescente, oppure ancora crescente e poi decrescente a tratti 0 ts E (ut us ) 2 t t s stima dei minimi quadrati ponderati (WLS) t2 exp(1z1t ) exp(2 z2t ) ... exp( s zst ) s 2 e z1t 1 Ipotesi I t2 exp(1 ) exp(2 z2t ) 2 wt2 2 exp 1 z2t ln wt 137 Ipotesi II 2 2 t2 2 wt2 se wt 1 ipotesi standard di omoschedasticità per eliminare l’eteroschedasticità yt x u 1 t t wt wt wt wt stimabile con gli OLS; infatti u 1 E t E (ut ) 0 wt wt t 0 ts u u 1 E t s E (ut us ) 1 2 2 ts t 2 wt ws wt ws w t cioè valgono le ipotesi deboli stima dei minimi quadrati ponderati, poiché ogni elemento t-esimo del campione viene pesato con un fattore; in questo specifico caso 1 wt 138 Esempio Funzione del consumo (variabili nominali) ct 80 70 60 50 40 30 20 10 0 1980 1985 1990 1995 2000 t Serie storica annuale del consumo nominale in Italia espressa in migliaia di miliardi; anni 1980-2002. stima dei minimi quadrati yˆt x 1 772503 0.608 t wt wt wt t: (-4.863) campione 1980-2002, SE dei residui=6514 ; (203.284) R 2 0.993 RSS=891158910 ; TSS=120710590000 139 Test di omoschedasticità Il test di Breusch e Pagan sotto l’alternativa H1 : t2 2 t2 h 1 z1t 2 z2t s zst h funzione indeterminata poiché il test ne è indipendente Ipotesi: z1t 1 ed s 2 la nulla H0 : 2 0 suggerisce omoschedasticità poiché in questo caso t2 h 1 2 costante 140 Passi: 1) si stima il modello con gli OLS e si calcolano i residui stimati 2) si calcolano le quantità uˆt2 ˆ 2 1 n 2 ˆ uˆt n t 1 2 t 3) uˆt2 / ˆ 2 come variabile proxy di t2 e quindi si stimano i parametri della regressione ausiliaria uˆt2 1 2 z2t vt ˆ 2 4) si calcola la devianza residua n vˆ t 1 2 t 5) approssimativamente e per un campione grande, ESS 2 12 test del chi quadrato 141 Il test del chi quadrato sotto la H 0 ESS 2 12 quindi nel 95% dei casi si collocherà nella regione di accettazione del test 0, 12 nel 5% dei casi si collocherà nella regione di rifiuto 12 , Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90% 142 Esempio – Consideriamo l’equazione che lega i consumi privati nominali in Italia con il tempo e verifichiamo che i residui siano omoschedastici Stimiamo ct t ut con gli OLS e calcoliamo ˆ 2 nonché la serie uˆt2 ˆ 2 . Stimiamo la regressione ausiliaria uˆt2 1 2 z2t t 2 ˆ e calcoliamo ESS 2 4.960 > 3.84 , quantile al 95% della distribuzione del chi quadrato con 1 g.d.l. Siamo spinti a rifiutare l’ipotesi nulla di omoschedasticità. 143 La formulazione di Koenker di più rapida implementazione del precedente in quanto prescinde dal calcolo di ̂ 2 si stima con i minimi quadrati il modello uˆt2 1 2 z2t t asintoticamente e per un campione grande: nRu2 12 Esempio precedente – è possibile prendere come z2t il quadrato dei valori dell’endogena stimata yˆ t2 uˆt2 200000000000 0.102ct Ru2 0.279 n 21 nRu2 5.838 > 3.84 rifiuto dell’ipotesi nulla di omoschedasticità 144 La correzione per l’eteroschedasticità di White in presenza di eteroschedasticità: le stime ottenute con gli OLS non sono buone gli errori standard, così come le t di Student, non sono affidabili H. White ha sviluppato un metodo che permette di ottenere gli errori standard delle stime tenendo conto dell’eteroschedasticità Esempio - stima OLS cˆt 1333928 420437t SE: t: (673610) (53646) (-1.98) (7.837) campione 1960–1980; SE dei residui =1488618; R 2 0.764 RSS = 42103686000000; TSS = 178214800000000 145 stima corretta per l’eteroschedasticità con il procedimento di White cˆt 1333928 420437t SE: t: (624420) (66359) (-2.136) campione 1960–1980; SE dei residui =1488618; (6.336) R 2 0.764 RSS = 42103686000000 TSS = 178214800000000 146 Fonti e conseguenze dell’autocorrelazione ipotesi di covarianze tra i residui nulle molto restrittiva Queste relazioni non spiegate autocorrelazione dei residui in seguito a: - presenza di tendenza nella serie yt , - presenza di autocorrelazione già nella yt , - specificazione inesatta - errori di misurazione conseguenze dell'autocorrelazione: - gli errori standard degli stimatori dei parametri sono sottostimati, - le t di Student sono sovrastimate, - gli indicatori R2 sono sopravvalutati. 147 Test di autocorrelazione dei residui Il test di Durbin e Watson Nei primi anni ’50 costruirono un test per verificare l'ipotesi di esistenza di autocorrelazione del primo ordine H0 : Corr (ut , ut 1 ) (1) 0 contro l'alternativa H1 : Corr (ut , ut 1 ) (1) 0 l'ipotesi nulla riguarda il processo ut ma a disposizione dell'econometrico non c'è tale processo bensì la serie storica uˆt dei residui stimati così occorrerebbe costruire un test di autocorrelazione specifico per ogni campione, cosa possibile ma chiaramente inaccettabile 148 n d (uˆ uˆ t 2 t 1 t n uˆ t 2 n ) 2 n n uˆ uˆ t 2 2 t t 2 2 uˆt uˆt 1 2 t 1 t 2 n uˆ 2 t t 2 n n 2 uˆ 2 uˆt uˆt 1 t 2 2 t t 2 n uˆ 2 t t 2 2 t 2[1 ˆ (1)] indica l'uguaglianza approssimata e n 1 n uˆt uˆt 1 uˆt uˆt 1 n 1 t 2 ˆ t 2n n 1 uˆt2 uˆt2 n 1 t 2 t 2 stima campionaria del coefficiente di autocorrelazione del primo ordine le due sommatorie n uˆ t 2 2 t e n uˆ t 2 2 t 1 non sono perfettamente uguali ma differiscono per il primo e l'ultimo termine 149 n è sufficientemente grande e poiché E (uˆt ) 0 , t, l'approssimazione è generalmente buona se ˆ 1 0 d 2 se ˆ 1 0 2 d 4 se ˆ 1 0 0 d 2 l'ipotesi nulla è accettata se la statistica d è vicina a 2 distribuzione di d non standard estremi d1 e d2 dell'intervallo che conterrebbe il valore 2 con una data probabilità ma la distribuzione di d dipende dal campione e quindi d1 e d2 sono funzioni di esso ma, al variare del campione, d1 si muove in un intervallo abbastanza ristretto, delimitato da dL e dU 150 similmente d2, suo simmetrico rispetto al punto d2, si muove nell'intervallo delimitato da 4dU e 4dL d: 0 ˆ 1 +1 dL dU 4- d U 0 4- d L 4 -1 In definitiva: Se d è compresa tra dU e 4dU il test suggerisce di accettare l'ipotesi nulla di assenza di autocorrelazione di primo ordine Se 0d<dL il test suggerisce di rifiutare tale nulla e di accettare l'alternativa di autocorrelazione positiva L’autocorrelazione diventa negativa se 4dLd<4 Se d cade in uno dei due intervalli [dL,dU), [4dU,4dL), il risultato del test è indeterminato. 151 condizioni: i) l’equazione contiene l'intercetta, ii) la variabile esplicativa x non è stocastica. i residui sono generati dallo schema iii) ut ut 1 t 1 1 con t tale che E t 0 0 E t s 2 t ts ts x non può essere l’endogena ritardata poiché yt è sempre stocastica L’ipotesi iii) è teoricamente limitativa Nella pratica la limitazione non è presa in considerazione 152 passi per l'esecuzione del test: 1) si stima l'equazione e si determina la serie uˆt ; 2) si calcola il valore della statistica d ; 3) in funzione di n, e di k 1 (non considerando quindi l’intercetta) e del livello di significatività del test, ad esempio il 5%, si estraggono dalle tavole statistiche i due valori dL e dU; se d[dU, 4dU) si è indotti ad accettare l'ipotesi nulla, se d[0, dL) si è indotti ad accettare l'alternativa con (1)>0, se d[4dL, 4) si è indotti ad accettare l'alternativa con (1)<0, se d[dL, dU) oppure d[4dU, 4dL) il risultato del test è indeterminato. 153 Tre esempi Modello dU DW n Retta interpolante il log 0.975 dei consumi 1.161 0.158 21 Funzione del consumo 1.018 1.187 0.748 23 Relazione tra tasso di cambio nominale e prezzi relativi 1.172 1.291 0.359 33 dL 154 il trattamento dell’autocorrelazione di ordine uno ritardiamo di una unità temporale yt 1 xt 1 ut 1 poi yt 1 xt 1 ut 1 e sottraiamo membro a membro yt yt 1 1 xt xt 1 t quasi differenza Qualora si conoscesse si potrebbe stimare con gli OLS Ma non è generalmente noto e quindi va stimato 155 Vari metodi di stima: determinato dalla statistica d di Durbin e Watson ˆ 1 1 d 2 non molto precisa ma immediatamente ottenuta ˆ 1 ˆ yt yt 1 1 xt xt 1 t Esempio – relazione tra tasso di cambio nominale e prezzi relativi d = 0.359 e approssimativamente ˆ ˆ 1 0.821 ˆ t 0.821ˆt 1 1.156 1 0.821 0.325 xt 0.821xt 1 ˆt 0.821ˆt 1 0.207 0.325 xt 0.821xt 1 campione 1970–2002 SE dei residui = 0.128; ; R 2 0.742 RSS =0.511; TSS =1.982 156 Il metodo di Cochrane e Orcutt procedura iterativa che utilizza per la stima gli OLS procedura innescata da un valore iniziale arbitrario per passi: 1) si prefigura un valore ̂ 1 arbitrario; ad esempio ˆ 1 0 ; 2) si calcolano le serie delle quasi differenze con ˆ ˆ1 e si stima con gli OLS: 3) si calcola la serie ˆt e su di essa si stima ˆ ˆ 2 ; 4) si iterano i passi 2) e 3) finché la differenza ˆ i ˆ i1 sia minore di una soglia prefissata. 157 due difetti possibili è possibile che la convergenza non venga raggiunta è necessario cambiare il valore di innesco è possibile che la convergenza sia sì raggiunta, ma su di un minimo locale, e non globale, per la devianza dei residui è utile ripetere la procedura più volte con valori di innesco differenti 158 Test di cambiamento strutturale per il modello semplice (Test del Chow) campione non è tutto omogeneo ma presenta un punto in cui cambia yt 1 1xt u1t yt 2 2 xt u2t t 1,2, , n1 t n1 1, n1 2, , n1 n2 H0 : 1 2 , 1 2 Se vale questa ipotesi nulla non c’è cambiamento strutturale e le due equazioni sono identiche : yt xt ut t 1,2, , n1 n2 Esempio - relazione tra il tasso di cambio nominale (valuta nazionale italiana)/$USA e i prezzi relativi possibile cambiamento di struttura nel 1979 159 primo sottocampione: dal 1960 al 1979 ˆt 0.610 0.100 xt t: (17.349) t 1960,1961, ,1979 (-7.647) R 2 0.764 campione 1960–1979; SE dei residui =0.024 ; RSS =0.011; TSS =0.046 secondo sottocampione: dal 1980 al 1992 ˆt 1.006 0.249 xt t: (4.537) t 1980,1981, ,1992 (-1.392) campione 1980-1992; SE dei residui = 0.134; R 2 0.150 RSS =0.197; ˆt 0.953 0.224 xt TSS =0.232 t 1960,1961, ,1992 campione 1960-1992; R 2 0.788 SE dei residui =0.094 ; RSS =0.272; TSS =1.282 160 Il caso n1 k , n2 k RSSV il pedice “v” indica il fatto che la stima è stata effettuata sotto il “vincolo” dell’ipotesi nulla numero di g.d.l. = n1 n2 meno il numero dei parametri da stimare, 2, ma che nel test prendiamo genericamente pari a k per poter usare questo anche in relazione ai modelli multipli RSS NV è data dalla somma delle devianze dei residui delle due equazioni numero di g.d.l. = n1 k più n2 k , cioè n1 n2 2k RSSV RSS NV RSSV RSS NV k n1 n2 k n1 n2 2k distribuzione del 2 divisa per il proprio numero di g.d.l. 161 RSSV RSS NV k RSS NV n1 n2 2k distribuzione della F di Fisher con k e n1 n2 2k g.d.l. Il test della F di Fisher il rapporto ha distribuzione Fk , n1 n2 2 k nel 95% dei casi si colloca nella regione di accettazione del test 0, F dove F è il quantile di probabilità 95%, mentre nel 5% dei casi si colloca nella regione di rifiuto Ovviamente il 95% di probabilità può essere sostituito con il 99% o il 90% passi: 1) si determina RSSV 2) si determina RSS1 3) si determina RSS2 162 4) si determina RSSV RSS1 RSS2 5) si calcola il rapporto con k 2 6) si trova il valore soglia F nelle tavole della F2, n1 n2 4 avendo scelto il livello di significatività al 90 o al 95 o al 99% 7) se il rapporto cade nell’intervallo 0, F si è spinti ad accettare l’ipotesi nulla di omogeneità del campione; se cade in F , si è spinti ad accettare l’ipotesi alternativa di cambiamento strutturale Nel caso dell’esempio precedente RSSV 0.272 RSS NV RSS1 RSS2 0.011+0.197 = 0.208 k 2, n1 20, n2 13 il rapporto vale 4.462 e cade nell’intervallo F , F = 3.33 , e quindi si è spinti ad accettare l’ipotesi di cambiamento strutturale 163 Il caso n1 k , n2 k RSSV RSS1 RSSV RSS1 n2 n1 n2 k n1 k RSSV RSS1 n2 RSS1 n1 k passi: 1) e 2) Come sopra. 3) e 4) RSS2 0 per cui RSS NV RSS1 . 5) Si calcola il rapporto con k 2 . 6) Si trova il valore soglia avendo scelto il livello di significatività al 90 o al 95 o al 99%. 7) Come sopra. test del Chow 164 Il test di normalità di Jarque – Bera controlla due caratteristiche della normale, dette simmetria e curtosi, di definizione ovvia la prima e concernente la piattezza del picco la seconda non normale la distribuzione con valori degli indici lontani da quelli della normale indice di asimmetria 3 1 3 E x 3 con E x è 3 = 0 per la normale indice di curtosi 4 1 4 E x 4 165 sotto l’ipotesi nulla di normalità la variabile aleatoria n 1 2 JB ˆ32 ˆ 4 3 6 4 approssimativamente e per n grande ha distribuzione del 2 con 2 g.d.l. test del chi quadrato per verificare la normalità dei residui 166 IL MODELLO LINEARE MULTIPLO I vettori e la moltiplicazione righe per colonne yt x1t x2t ut x1t 1 t modo vettoriale e matriciale, relativo cioè ai vettori e alle matrici vettore riga x1t x2t vettore riga delle variabili elementi dei vettori riga scalari 167 Il numero degli elementi componenti un vettore ne costituisce la dimensione vettori colonna il vettore colonna dei parametri il vettore colonna delle variabili esplicative x1t x 2t β x1t xt x2t , I vettori riga sono detti trasposti dei vettori colonna e β e x viceversa β , xt x1t x2t 168 operazione di trasposizione moltiplicazione righe per colonne tra un vettore riga ed un vettore colonna, che si effettua moltiplicando ciascun elemento del vettore riga per l’elemento di posto corrispondente nel vettore colonna e sommando i prodotti ottenuti x 1t x1t x2t x2t Risultato: scalare chiamato prodotto scalare β xt Inoltre, poiché x1t x2t x1t x2t β xt xt β yt xt β ut 169 Il modello lineare multiplo yt 1 x1t 2 x2t β 1 2 βxt 1 2 k , k xkt ut x x1t x2t x1t x k 2t 1 x1t 2 x2t xkt xkt k xkt modello lineare e multiplo il termine additivo ut misura tutto quanto non è spiegato dalle variabili esplicative: residuo 170 ut è costituito dalla possibile aggregazione di: - variabili che non sono state inserite tra le esplicative (omesse), - impulsi accidentali prodotti dal sistema economico, - elementi caratteristici di yt , ad esempio le stagionalità, - errori nella misurazione, - elementi di disturbo dovuti al fatto che la specificazione è lineare, mentre avrebbe dovuto essere non lineare rispetto ad alcune delle variabili esplicative. due esempi 171 funzione delle esportazioni ln yt 1 2 ln x2t 3 ln x3t 4 ln x4t 5 ln x5t ut intercetta 1 , yt importazioni di beni e servizi, x2t consumi finali interni delle famiglie più consumi collettivi, x3t investimenti fissi lordi più esportazioni di beni e servizi più variazione delle scorte, x4t deflatore implicito delle importazioni, x5t deflatore implicito del PIL, per cui 2 0 , 3 0 , 4 0 , 5 0 equazione log–lineare, cioè lineare nei logaritmi delle variabili linearizzabile sostituendo una variabile non logaritmizzata al posto di ogni logaritmizzata 172 funzione della domanda di moneta ln yt 1 2 ln x2t 3 ln x3t ut yt domanda di moneta in termini reali x2t prodotto interno lordo in termini reali x3t tasso d’interesse a breve per cui 2 0 , 3 0 I minimi quadrati nel modello lineare multiplo uˆt yt yˆt yt ˆ1 x1t ˆ2 x2t ˆk xkt componente sistematica componente aleatoria 173 criterio dei minimi quadrati n n min u min yt βxt min S β β t 1 2 t β 2 β t 1 y1 x11 x21 xk1 β u1 y2 x12 x22 xk 2 β u2 y x x xkn β un 1n 2 n n y1 x11 x21 y x x 2 12 22 yn x1n x2 n xk1 u1 u xk 2 β 2 xkn un moltiplicazione righe per colonne x11 x21 x x Xβ 12 22 x1n x2 n xk1 1 x11 2 x21 x x xk 2 β 1 12 2 22 xkn 1 x1n 2 x2 n k xk1 k xk 2 k xkn 174 y = Xβ + u addizione tra vettori che hanno la stessa dimensione Per trovare S β uu u1 u2 u1 u un 2 u12 u22 un n u ut2 2 n t 1 S β ut2 uu y - Xβ y - Xβ n t 1 u y - Xβ 175 La matrice inversa inversa sinistra della matrice quadrata A-1A = I inversa destra della matrice quadrata AA-1 = I Poiché AA-1 A-1A = I , l’inversa destra e l'inversa sinistra di una matrice quadrata coincidono e sono semplicemente dette inversa Il determinante Data una matrice quadrata di ordine n, si dimostra che la sua inversa consiste nel prodotto dell'inverso del suo determinante, che è uno scalare, per la sua matrice aggiunta A 1 1 aggA detA matrice non singolare Se det A 0, la matrice è chiamata singolare. 176 Le stime dei minimi quadrati equazioni normali XX βˆ = Xy 1 βˆ = XX Xy det XX 0 Le stime dei residui yˆ Xβˆ uˆ = y yˆ y Xβˆ 177 R 2 corretto 1 n 1 n 2 2 ( yt yˆt ) uˆt n n R 2 1 t n1 1 n t 1 1 1 2 ( y y ) ( yt y ) 2 t n t 1 n t 1 Rc2 1 1 n 2 uˆt n k t 1 1 n ( yt y ) 2 n 1 t 1 178