1-Econometria, a.a. 2014-15 Capitolo 1 1-1 Breve Introduzione 1-2 Modello di regressione lineare 1-3 Due metodi di stima: Il Metodo dei Momenti e il Metodo dei Minimi Quadrati 1-4 Proprietà geometriche delle stime OLS 1-5 Le stime OLS dei modelli riparametrizzati e il teorema FWL 1-1 Breve Introduzione 1. L’Econometria e’ una disciplina che utilizza i metodi statistici per dare risposta a problemi di natura economica. 2. I dati economici non sono di natura sperimentale, ma generalmente sono prelevati da banche dati. Senza entrare ora nei dettagli di una loro classificazione, comunque di notevole importanza, si segnalano soltanto alcune importanti categorie: • “Cross-Section” (o “sezionali”): osservazioni su differenti unita` statistiche; • “Time series” (o “serie temporali”): una osservazione di un processo stocastico a tempo discreto. • “Panel Data” (o “ dati longitudinali”): osservazioni su differenti unita` statistiche ripetute nel tempo. 3. Software consigliato: Gretl scaricabile dal sito http://gretl.sourceforge.net/gretl_italiano.html 4. Modelli economici e econometrici: Un modello è una rappresentazione semplificata di un fenomeno reale; quando esso è completamente noto dicesi “struttura”. Un buon modello deve cercare di soddisfare le seguenti esigenze contrapposte: i) Essere in grado di fornire risposte alle questioni sul fenomeno che hanno portato alla sua costruzione; ii) Non essere molto complesso. Spesso, ma non sempre, è la teoria (con l’analisi del fenomeno) a suggerire il modello, e` allora naturale utilizzare eventuali osservazioni sul fenomeno (e i metodi statistici) per stimare la struttura. Un modello econometrico è costituito da un modello e dalle osservazioni sul fenomeno in esame. 5. Saranno considerati principalmente modelli econometrici algebrici, rappresentati cioe` da una o piu` equazioni. In tali equazioni è necessario individuare le variabili endogene che hanno una dipendenza causale (diretta o indiretta) da altre variabili, dette esogene, talvolta non presenti nel modello (caso che sara` esaminato nel capitolo 7), per le quali il valore e` determinato al di fuori del fenomeno in esame. Evidentemente soltanto l`analisi del fenomeno (e quindi la teoria economica e 1 1-Econometria, a.a. 2014-15 non i metodi statistici) potra` consentire la distinzione tra variabili esogene e variabili endogene. Nei modelli sono presenti anche delle costanti (non note) che sono dette “parametri” del modello. 6. Accade spesso che il modello non sia conseguenza di alcuna teoria economica, ma è comunque in grado di fornire risposte soddisfacenti a talune questioni riguardanti il fenomeno (economico) reale. • Un semplice esempio: E’ convinzione comune che il salario (wage) non sia lo stesso per gli uomini e per le donne. Al fine di trovare un sostegno a questa convinzione, un percorso abbastanza naturale e` quello di costruire un ragionevole modello e di utilizzare i dati disponibili in qualche banca dati per stimarlo. Intanto non e` restrittivo assumere che i dati siano osservazioni di opportune variabili aleatorie (in questo caso wage e gender (quest’ultima e` la variabile dummy (muta) che assume valore 1 per gli uomini e 0 per le donne). Per quanto riguarda la costruzione del modello, non puo` essere di aiuto nessuna teoria economica, pero` è ragionevole supporre che ci sia un legame causa-effetto, e quindi una relazione funzionale, tra sesso e salario. Modello 1: Si assume che tra le due variabili sussiste la seguente relazione funzionale E( wage | gender ) = β 0 + β1 gender , (l’ipotesi di linearita` e` usuale nelle applicazioni in assenza di particolari informazioni sulla relazione funzionale). Il valore di β1 (non noto) rappresenta allora la differenza tra il salario medio orario (o la media della differenza di salario orario) nei due sessi. Critica sul modello: Le differenze di salario, evidenziate eventualmente da questo modello, possono dipendere dal differente grado di istruzione tra gli uomini e le donne presenti nella banca dati. Modello 2: Si introduce nel modello la variabile (ordinale) educ che assume valori 1,2,3,4 se il titolo di studio posseduto è rispettivamente “licenza media”, “licenza superiore”, “laurea”, “dottorato”, si ha dunque E( wage | gender , educ ) = β 0 + β1 gender + β 3educ . Ora il valore di β1 rappresenta la differenza tra il salario medio orario nei due sessi che hanno lo stesso valore della variabile educ. Per il problema posto la variabile educ è detta variabile di controllo. Altre variabili di controllo, che potrebbe essere opportuno inserire nel modello, sono “gli anni di esperienza lavorativa” (exper), “lo stato civile per le donne”, …. . Evidentemente ulteriori considerazioni possono portare a modelli piu` complessi. In econometria, le questioni riguardanti la costruzione del modello e la stima della struttura 2 1-Econometria, a.a. 2014-15 fanno parte del capitolo denominato analisi strutturale e a tali argomenti e` dedicato il corso. Altre problematiche di un certo interesse si presentano quando si vogliono costruire modelli econometrici per fare previsioni (vedi l’appendice al capitolo 5 e il capitolo 9) o analisi politica. Il contenuto di questi primi paragrafi differisce solo lievemente da quanto gia` presentato nei corsi di statistica di base. Va segnalata la sostanziale differenza (ma poco influente dal punto di vista tecnico) che qui anche le variabili indipendenti dei modelli sono aleatorie. top 1-2 Modello di Regressione Lineare Classico Lo scopo di questi modelli è quello di spiegare la variabile aleatoria y (che per il momento si suppone univariata ed è detta variabile dipendente) mediante una variabile multivariata x (denominata variabile indipendente) per le quali ( y e x ) sono disponibili n osservazioni. Non va dimenticato che nelle applicazioni econometriche c`e` anche l`ipotesi di dipendenza casuale tra le variabili y e x , ipotesi comunque non essenziale nella trattazione teorica che segue. Le osservazioni a disposizione ( yt , xt ) (per t = 1,… , n ) saranno considerate come una (unica) osservazione del processo stocastico { yt , xt } (notare che non c’e` alcuna differenza nelle notazione tra le osservazioni e le variabili, ma cio` non crea alcun problema). La variabile yt è univariata, mentre xt = ( x1t ,… , xkt )′ è un vettore aleatorio (colonna) di dimensione k , con k << n . Il modello e alcune sue rappresentazioni: Si assume che E( yt | xt ) = x′t β , per t = 1, 2,… , con β = ( β1 ,… , β k )′ , vettore colonna dei parametri (non noti)). Se si pone ut = yt − E( yt | xt ) , solitamente denominato errore, si ottiene la seguente differente rappresentazione yt = x′t β + ut con E(ut | xt ) = 0 , per t = 1, 2,… , Infine, una rappresentazione pressoché equivalente, ma che si presta facilmente a interessanti generalizzazioni, si ottiene assumendo E( yt | Ωt ) = x′t β e xt ∈ Ωt , avendo denotato con Ω t (la σ -algebra del)le informazioni disponibili prima che yt sia osservata. In tal caso il modello si scrive nella forma yt = x′t β + ut con E(ut | Ωt ) = 0 e xt appartiene a Ωt , per t = 1, 2,… , . ( 1 ) Osservazione: In statistica termini di uso corrente sono “popolazione” e “campione”, che in (1) Un modello (parametrico) è completamente specificato se è possibile simulare il processo { yt } non appena sono noti i valori dei parametri (per esempio se è noto che {ut } ∼ n.i.d .(0, σ 2 ) ), parzialmente specificato se per la simulazione è indispensabile qualche ulteriore informazione (per esempio nel caso in cui è {ut } ∼ i.i.d .(0, σ 2 ) ). 3 1-Econometria, a.a. 2014-15 econometria sono sostituiti rispettivamente da data-generating process (DGP) e “osservazione”, pertanto il modello se correttamente specificato evidenzia il modo con il quale le osservazioni sono state generate. Il modello è dunque un insieme di DGP ed è correttamente specificato se i dati disponibili provengono da un DGP appartenente al modello. Differenti rappresentazioni del modello econometrico (la prima e` utilizzata nelle applicazioni, le altre due nella trattazione teorica): • Rappresentazione puntuale o esplicita: yt = x1t β1 + • + xkt β k + ut , E(ut | Ω t ) = 0, xt ∈ Ωt per t = 1,… , n ; Rappresentazione vettoriale: yt = x′t β + ut , E(ut | Ωt ) = 0, xt ∈ Ωt per t = 1,… , n ; • Rappresentazione matriciale: y = Xβ + u , E(ut | Ωt ) = 0 , xt ∈ Ωt per t = 1,… , n , avendo posto ⎡ x11 ⎢x X = ⎢ 12 ( n× k ) ⎢… ⎢ ⎢⎣ x1n ⎞ x21 … xk1 ⎤ ⎛ ⎡ x1′ ⎤ ⎡ u1 ⎤ ⎡ y1 ⎤ ⎜ ⎢ ⎥ ⎟ ⎥ ⎢ ⎥ ⎢u ⎥ y2 ⎥ … … xk 2 ⎥ ⎜ ⎢ x′2 ⎥ 1 k ⎟ ⎢ = = ⎡ X … X ⎤⎦ , y = , u = ⎢ 2⎥ , ⎟ ⎢ ⎥ ⎢ ⎥ … … … ⎥ ⎜ ⎢… ⎥ ⎣ ⎟⎟ ⎥ ⎜⎜ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ x2 n … xkn ⎥⎦ ⎝ ⎣⎢ x′n ⎦⎥ ⎢⎣un ⎥⎦ ⎣⎢ yn ⎦⎥ ⎠ denominate rispettivamente matrice delle osservazioni della variabile x , vettore delle osservazioni della variabile (dipendente) y e vettore degli errori (che evidentemente non e` osservabile). Si noti che xt (per t = 1,… , n) e` (il vettore di dimensione k del)la t − esima osservazione della variabile x , mentre X j ∈ R n (per j = 1,… , k ) e` la colonna j − esima della matrice X e dunque il vettore colonna delle n osservazioni della variabile x j (la j − esima coordinata del vettore x ). Inoltre, nei modelli con intercetta, le coordinate di una colonna di X sono tutte uguali ad 1 che solitamente e` la prima colonna. top 1-3 Due metodi di stima: Il Metodo dei Momenti e il Metodo dei Minimi Quadrati( 2 ) Inizialmewnte saranno formulate soltanto le ipotesi sul modello che renderanno realizzabile la costruzione delle stime. Ulteriori ipotesi che le renderanno buone (cioe` con proprieta` che ne consentiranno l’utilizzo) saranno fatte piu` avanti. Il metodo dei momenti: Dalla ipotesi E(ut | Ωt ) = 0 e xt ∈ Ωt (per ogni t = 1,… , n ) segue Un altro metodo di stima, molto utile nelle applicazioni econometriche, denominato il metodo della massima verosimiglianza, e` descritto nel capitolo 8. (2) 4 1-Econometria, a.a. 2014-15 E(xt ut ) = 0 per ogni t = 1,… , n , (*) la cui versione empirica è l’equazione vettoriale (sistema di k equazioni con k incognite) ⎛ ⎧1 n ⎞ 1 n x y − xt x′t )β = 0 ⎟ ( ⎜ ∑ ∑ t t n ⎪ 1 ⎪n n t =1 ⎟. xt ( yt − x′t β) = 0 ⎜ ⇔ ⎨ t =1 ∑ n t =1 ⎜ ⎪ ⎟ X′y X′Xβ − =0 ⎜ ⎪ ⎟ n n ⎝ ⎩ ⎠ Se la matrice quadrata 1 n ⎛ X′X ⎞ xt x′t ⎜ = ∑ ⎟ di ordine k è invertibile, il precedente sistema n t =1 n ⎠ ⎝ fornisce una sola soluzione βˆ M , denominata stima di β con il metodo dei momenti e per essa si ha la seguente rappresentazione: −1 ⎧ ⎛1 n ⎞ 1 n xt yt ⎪ ⎜ ∑ xt x′t ⎟ ∑ n n ⎪ = 1 = 1 t t ⎝ ⎠ . βˆ M = ⎨ −1 ⎪⎛ X′X ⎞ X′y −1 ⎪⎜ n ⎟ n = ( X′X ) X′y ⎠ ⎩⎝ Notare che dalla precedente uguaglianza si ottiene immediatamente la rappresenrtazione dello stimatore βˆ M di β (come al solito si utilizza lo stesso simbolo anche se ora βˆ M e` una variabile aleatoria funzione delle osservazioni); è sufficiente interpretare i simboli x t e yt come variabili aleatorie.( 3 ) Qui di seguito e` formulata un’ipotesi che, oltre ad assicurare l`esistenza dello stimatore βˆ M con il metodo dei momenti (almeno quando n sufficientemente grande), sara` necessaria` in seguito per provare alcune sue importanti proprietà. Ipotesi 1 – La successione di variabili aleatorie ( simboli 1 n ∑ xt x′t ) converge in probabilità` a Σ (in n t =1 p 1 n ′ x x → ∑ t t Σ ) essendo Σ una matrice numerica invertibile. n t =1 Osservazione: • La precedente ipotesi richiede che per il processo {xt x′t } sia valida qualche versione della legge debole dei grandi numeri con limite in probabilità invertibile. • Dalle proprietà della convergenza in probabilità (essendo Σ invertibile) segue l’invertibilità La condizione che assicura l’esistenza e unicità` dello stimatore βˆ M (qui e` l’invertibilità della matrice X′X ) dicesi condizione di identificabilita` (finita) del parametro β . 3 5 1-Econometria, a.a. 2014-15 di ( 1 n ∑ xt xt′ ) per n sufficientemente grande. n t =1 Il Metodo dei Minimi Quadrati (OLS). Tra i metodi di stima e` il più conosciuto; cio` e` dovuto sia alla sua semplicita` sia a ragioni storiche. Esso nasce come metodo numerico, e in questo contesto risolve il problema di approssimare i punti della sequenza ( yt , xt )t =1,…, n con una funzione lineare del tipo y = x′β . Questo problema è generalmente indicato con la scrittura y = Xβ + u oppure yt = x′t β + ut per t = 1,… , n ; si noti che in questo caso ut non ha alcun significato. Definizione: La stima dei minimi quadrati βˆ OLS di β è l’unico punto di R k (se esiste) che rende minima la funzione (talvolta denominata funzione obiettivo) Q(β) = 1 n 1 1 ( yt − x′t β) 2 (= (y − Xβ)′() = 〈 y − Xβ, y − Xβ〉 ) , ∑ n t =1 n n (si noti che, a meno della costante 1 , Q(β) è la distanza euclidea tra i vettori y e Xβ ). n Osservazione: 1) Considerato il modello y = Xβ + u (ancora una volta si sottolinea la circostanza che non e` necessaria alcuna ipotesi sul vettore degli errori u ) βˆ OLS minimizza la somma dei quadrati degli errori. 2) βˆ OLS se esiste è un punto stazionario della funzione Q(β) e dunque e` soluzione dell’equazione, denominata equazione normale, ⎛ ∂Q ⎞ (β) = 0 ⇔ ⎟ (y − Xβ)′(− X) + (y − Xβ)′(− X) = 0 (4) ⎜ (1×k ) ⎝ ∂β ⎠ ⇔ X′Xβ = X′y . Inoltre, quest’ultima equazione ha un’unica soluzione, che risulta essere anche l’unico punto di minimo, se e soltanto se la matrice X′X di ordine k , è invertibile; in tal caso si ha βˆ OLS = ( X′X)−1 X′y . 3) La stima βˆ OLS coincide (evidentemente) con β̂M , pertanto d’ora innanzi si utilizzerà il (4) La derivata di una funzione a valori reali rispetto ad una variabile vettoriale è il vettore riga delle derivate parziali, mentre la derivata di una funzione a valori vettoriali è la matrice in cui ciascuna riga è la riga delle derivate parziali della corrispondente coordinata. E’ evidente allora la seguente affermazione: se f (β) e` una funzione scalare, f (β) = g (β)′h (β) , con g e h funzioni a valori vettoriali di opportune dimensioni, si ha ∂ ∂ ∂ ( f (β)) = h(β)′ g (β) + g (β)′ h(β) ∂β ∂β ∂β 6 1-Econometria, a.a. 2014-15 simbolo β̂ (senza indici) per indicare la stima (risp. lo stimatore) di β con il metodo dei momenti e/o dei minimi quadrati. Per esso si hanno le seguenti rappresentazioni −1 ⎧⎛1 n ⎛ ⎛ X′X ⎞ −1 X′y ⎞ ⎞ 1 n −1 ′ ′ x X X X y y = = ⎪ ⎜ ∑ xt x′t ⎟ ( ) ⎜ ⎟⎟ ∑ t t ⎜ ⎜⎝ n ⎟⎠ n ⎝ n t =1 ⎠ n t =1 ⎪ ⎝ ⎠ βˆ = ⎨ −1 −1 ⎛ ⎞ ⎪ ⎛1 n ⎞ 1 n −1 ⎛ X′X ⎞ X′u ′ β x x x β u + = + = β + ( X′X ) X′u ⎟ . ⎜ ⎟ ⎪ ⎜ n ∑ t t ⎟ n ∑ t t ⎜⎜ ⎟ ⎝ n ⎠ n t =1 ⎠ ⎝ ⎠ ⎩ ⎝ t =1 top 1-4 Proprietà geometriche delle stime OLS Si continua a far riferimento al modello lineare yt = x′t β + ut per t = 1,… , n (⇔ y = Xβ + u) (non e` necessaria alcuna ipotesi sugli errori) e si assume che la stima OLS di β esiste e dunque che la matrice ( X′X) e` invertibile. Ricordando che X j denota il vettore colonna (di R n ) delle osservazioni della variabile x j (coordinata j − esima di x per j = 1,… , k ) e dunque X j = ( x j1 ,… , x jn )′ e X = ⎡⎣ X 1 … X k ⎤⎦ , si denota con S ( X) il sottospazio di R n generato dai vettori { X 1 ,… , X k } . Proposizione: Lo spazio vettoriale S ( X) ha dimensione k . Dimostrazione: La prova e` immediata non appena si ricorda che, per la matrice X di ordine n × k e k < n , le seguenti proposizioni sono equivalenti: a) La matrice (quadrata di ordine k ) ( X′X) e` invertibile; b) La matrice X (di ordine n × k ) ha rango massimo k ; c) i k vettori (colonna di X ) X j sono linearmente indipendenti in R n . Proprietà fondamentali e notazioni: Per ogni y ∈ R n , si pone yˆ = Xβˆ ( = X( X′X) −1 X′y ) = PX y con PX = X( X′X) −1 X′ e uˆ = y − yˆ (= y − Xβˆ ) ; il vettore ŷ e` denominato vettore dei valori previsti, mentre û dicesi vettore dei residui. Sussistono le seguenti proprietà: i) ( yˆ = Xβˆ = ⎡⎣ X 1 ,… , X k ⎤⎦ βˆ = X 1βˆ1 + ) + X k βˆk ∈ S ( X) ; ii) PX (come operatore in R n ) è la proiezione ortogonale sul sottospazio S ( X) ; infatti, denotato con 〈 x | y〉 ( = x′y = y′x ) il prodotto scalare in R n , si ha 7 1-Econometria, a.a. 2014-15 • PX PX = PX e PX (R n ) = S ( X) (e pertanto PX è una proiezione su S ( X) ). • la proiezione PX e` ortogonale, cioe` 〈 PX y , ( I − PX )y 〉 = 0 ; segue dalla simmetria dell’operatore PX o equivalentemente della matrice X( X′X) −1 X′ ). iii) L’operatore M X = I − PX è la proiezione ortogonale sul sottospazio di R n di dimensione n − k , S ( X) ⊥ = {w ∈ R n | 〈 v, w〉 = 0 per ogni v ∈ R n } . iv) Essendo y = yˆ + (y − yˆ ) ( = yˆ + û ) con yˆ ⊥ uˆ , segue immediatamente la seguente importante identita`, denominata analisi della varianza (la terminologia corretta dovrebbe essere analisi della variazione di y intorno a 0 , ma ormai e` in uso la prima espressione): y′y = yˆ ′yˆ + (y − yˆ )′(y − yˆ ) (TSS = ESS + SSR ), TSS (“total sum square), ESS (“explained sum square”), SSR (“ sum square residual”). v) La dimensione degli spazi a cui appartengono i vettori y , yˆ e y = yˆ (cioe` n, k e n − k ) prendono il nome rispettivamente di gradi di liberta` delle corrispondenti somme di quadrati. vi) La precedente analisi della varianza consente di introdurre il coefficiente di determinazione non centrato definito dalla seguente Ru2 = ESS ⎛ SSR ⎞ ⎜ = 1− ⎟, TSS ⎝ TSS ⎠ che evidentemente è compreso tra 0 e 1 e assume valore 1 nel caso in cui la struttura individuata fitta perfettamente i dati. Nota: Il coefficiente di determinazione non centrato ora introdotto è poco usato per misurare la bontà dell’adattamento del modello ai dati, in quanto esso non è invariante rispetto alle traslazioni della variable dipendente (è invariante invece rispetto ai cambiamenti di scala). top 1-5 Le stime OLS dei modelli riparametrizzati e il teorema FWL Proposizione 1 – Sia y = Xβ + u ( yt = x′t β + ut per t = 1,… , n ) un modello lineare e sia A una matrice invertibile di ordine k (numero dei parametri del modello). Posto Z = XA (essa e` la matrice delle osservazioni della variabile z = A′x ) e considerato il modello y = Zγ + v ( yt = z′t γ + vt per t = 1,… , n ) (si noti che è stato ottenuto da quello originario con la riparametrizzazione γ = A−1β ) si ha: a) γˆ = A−1βˆ ; (5) b) uˆ = vˆ .( 5 ) Nelle ipotesi su u che saranno fatte nel capitolo 2 si ha anche var( γˆ ) = σ 2 (Z′Z) −1 = σ 2 ( A′X′XA) −1 = .... = var( A−1βˆ ) . 8 1-Econometria, a.a. 2014-15 Dimostrazione: Intanto si ha γˆ = ( Z′Z ) Z′y = ( A′X′XA ) A′X′y = A−1 ( X′X ) X′y = A−1β −1 −1 −1 e dunque la a). Inoltre è vˆ = y − Zγˆ = y − XAA−1βˆ = uˆ e dunque la b). Corollario – Sia X = ⎡⎢ X1 ⎣ X2 ⎤⎥ con le matrici X1 e X2 di dimensione rispettivamente n × k1 e ⎦ n × k2 , con k1 + k2 = k e sia B è una (qualunque) matrice di ordine k1 × k2 allora considerato il modello y = X1β1 + X 2β 2 + u e la sua riparametrizzazione y = X1 (β1 − Bβ 2 ) + ( X1 B + X 2 )β 2 + u (che si scrivera` nella forma y = X1γ1 + ( X1 B + X 2 ) γ 2 + u ) si ha: βˆ 2 = γˆ 2 . Dimostrazione: E` sufficiente osservare che (Z =) ⎡⎢ X1 ⎣ X1B + X2 ⎤⎥ = ⎡⎢ X1 ⎦ ⎣ ⎡I k1 donde essendo evidentemente A−1 = ⎢⎢ 0 ⎣⎢ vec [ γˆ 1 ⎡I k1 X2 ⎤⎥ ⎢⎢ ⎦⎢ 0 ⎣ B⎤ ⎥ (= XA) , I k2 ⎥⎥ ⎦ −B ⎤ ⎥ , dalla precedente proposizione segue I k2 ⎥⎥ ⎦ ⎛ def ⎡ γˆ ⎤ ⎞ γˆ 2 ] ⎜ = ⎢ 1 ⎥ ⎟ = γˆ = A−1βˆ = A−1vec ⎡⎣βˆ 1 βˆ 2 ⎤⎦ = vec ⎡⎣βˆ 1 − Bβˆ 2 ⎝ ⎣ γˆ 2 ⎦ ⎠ βˆ 2 ⎤⎦ donde l’asserto. Osservazione: Dalla precedente proposizione segue immediatamente che i residui sono invarianti rispetto ai cambiamenti di scala delle variabili indipendenti( 6 ) e pertanto lo sono anche rispetto alle traslazioni soltanto se nel modello e` presente l’intercetta. Invece, si vede facilmente, che un cambiamento di scala nella variabile dipendente produce lo stesso effetto sia sulle stime che sui residui, mentre una traslazione della variabile dipendente non altera i residui e le stime dei coefficienti delle variabili non costanti se nel modello e` presente l’intercetta. Lemma 1: Sia X = ⎡⎢ X1 ⎣ X2 ⎤⎥ con le matrici X1 e X2 di dimensione rispettivamente n × k1 e ⎦ n × k2 , con k1 + k2 = k e ortogonali (cioè X2′ X1 = 0 ). Allora considerati i tre modelli M: y = X1β1 + X2β2 + u(⇔ y = Xβ + u) , Questa proprietà insieme con la b), consente di effettuare l’inferenza su β , o direttamente oppure attraverso γ (vedi anche lemma 1 in 2-4). (6) Qui il termine “cambiamento di scala” va inteso nel senso piu` generale di trasformazione del tipo A′x . 9 1-Econometria, a.a. 2014-15 M1: y = X1α + v , M2: y = X2 γ + w , ( ) e le corrispondenti stime OLS βˆ = vec ⎡⎢βˆ1 βˆ2 ⎤⎥ , α̂ e γˆ , si ha ⎣ ⎦ βˆ 1 = αˆ , βˆ 2 = γˆ . Dimostrazione: ⎡ βˆ ⎤ ⎛ ⎡ X′ ⎤ βˆ = ⎢ 1 ⎥ = ⎜ ⎢ 1 ⎥ [ X1 ˆ ′ ⎣⎢β 2 ⎦⎥ ⎝ ⎣ X 2 ⎦ −1 ⎞ ⎡ X′ ⎤ ⎡ X′ X X2 ] ⎟ ⎢ 1 ⎥ y = ⎢ 1 1 ⎣ 0 ⎠ ⎣ X′2 ⎦ −1 −1 0 ⎤ ⎡ X1′y ⎤ ⎡ ( X1′ X1 ) X1′y ⎤ ⎡αˆ ⎤ ⎥= . =⎢ X′2 X 2 ⎥⎦ ⎢⎣ X′2 y ⎥⎦ ⎢( X′2 X 2 )−1 X′2 y ⎥ ⎢⎣ γˆ ⎥⎦ ⎣ ⎦ Teorema FWL (di Frisch-Waugh-Lovell): E` assegnato il modello lineare y = X1β1 + X 2β 2 + u e sia M 1 = I − P1 (= I − PX1 = I − X1 ( X1′ X1 ) −1 X1′ ) la proiezione ortogonale su S (X1 ) . Allora si ha: a) βˆ 2 = γˆ 2 , essendo γ̂ 2 la stima OLS del parametro del modello y = M 1X 2 γ 2 + v . b) La stima OLS di β 2 del modello y = X1β1 + X 2β 2 + u coincide con la stima OLS di α 2 del modello ausiliario M 1y = M 1X 2α 2 + v (dunque βˆ 2 = αˆ 2 ) ed inoltre i due modelli hanno lo stesso vettore dei residui (cioe` uˆ = vˆ ). Dimostrazione: Sia B una matrice di ordine k1 × k2 tale che X1 B + X 2 sia ortogonale a X1 (si osservi che dalla relazione di ortogonalità X1′ ( X1 B + X 2 ) = 0 segue B = − ( X1′ X1 ) X1′ X 2 ). −1 Si considera ora il modello y = X1β1 + X 2β 2 + u e la sua seguente riparametrizzazione y = X1 ( β1 − Bβ 2 ) + ( X 2 + X1 B)β 2 + u ( = X1α1 + ( I n − P1 ) X 2β 2 + u ) che per comodita` si scrive nella forma y = X1γ1 + ( I n − P1 ) X 2 γ 2 + v , allora dal precedente corollario segue γˆ 2 = βˆ 2 , e dalla ortogonalità di X1 e ( I n − P1 ) X 2 e dal lemma 1 segue ovviamente la a). Per provare la b) si osserva che ( ) γˆ 2 = ( X′2 M 1X 2 ) X′2 M 1y = ( X′2 M 1X 2 ) X′2 M 1M 1y = αˆ 2 −1 −1 e inoltre vˆ = M 1y − M 1X2αˆ 2 = M 1y − M 1X2βˆ 2 = M 1y − M 1X1βˆ 1 − M 1X2βˆ 2 = M 1uˆ = û e quindi l’asserto. (L’ultima uguaglianza segue da u ∈ S ( X) ⊥ ⊂ S ( X1 ) ⊥ e dal fatto che M 1 e` una 10 1-Econometria, a.a. 2014-15 proiezione su S ( X1 ) ⊥ ). Osservazione: Il vettore M 1y e i k 2 vettori colonna di M 1X 2 sono rispettivamente i vettori dei residui nella regressione z = X1α + resid , in cui il vettore z è di volta in volta y e i k 2 vettori colonna di X 2 . Alcune applicazioni del teorema F-W-L 1) Analisi della varianza in modelli con intercetta e coefficiente di determinazione centrato: Sia y = ιβ1 + X 2β 2 + u un modello lineare con intercetta (qui ι ( = X1 ) e` il vettore colonna con tutte le coordinate uguali ad 1). Dal teorema F-W-L segue che la stima OLS β̂ 2 e il vettore dei residui û del modello coincidono rispettivamente con la stime OLS e il vettore dei residui del modello M 1y = M 1 X 2 α 2 + v ; ( ) e` utile osservare che P1y = PX1 y = ι(ι′ι)ι′y = ιy e quindi M 1y = y − ιy (analogo discorso vale per le colonne della matrice M 1X 2 ). Ora la ovvia decomposizione in componenti ortogonali M 1y = M 1X 2αˆ 2 + vˆ diventa y − yι = M 1X 2βˆ 2 + uˆ ⇔ y − yι = M 1X 2βˆ 2 + ( y − yˆ ) , e quindi M 1X 2βˆ 2 ( = M 1yˆ ) = yˆ − ιy e y − yι = ( yˆ − ιy ) + ( y − yˆ ) , donde l’analisi della varianza y − yι = yˆ − ιy + y − yˆ 2 2 2 (TSS = ESS + SSR ) i cui gradi di liberta` sono rispettivamente n − 1 , k − 1 e n − k . I parametri y − yˆ SSR ⎛ R = 1− ⎜ = 1− TSS ⎜⎝ y − yι 2 c 2 ⎞ y − yˆ /(n − k ) 2 ⎟ e Rad = 1 − 2 2 ⎟ y − yι /(n − 1) ⎠ 2 prendono il nome di coefficiente di determinazione centrato ed aggiustato (rispettivamente); entrambi sono positivi e assumono il valore massimo 1 quando il modello fitta perfettamente i dati pertanto essi sono utilizzati come una misura della bonta` di adattamento del modello ai dati. Si segnala che in assenza di intercetta i precedenti parametri non hanno alcuna utilita` (tra l’altro potrebbero assumere valore negativo), pero` sono comunque presenti negli output dei software 11 1-Econometria, a.a. 2014-15 econometrici. 2) Effetto di una singola osservazione sulla stima dei parametri. L’effetto di una osservazione sulla stima del parametro β può essere osservato confrontando le stime β̂ e βˆ(t ) (quest’ultima ottenuta con lo stesso modello utilizzando gli stessi dati dai quali è stata soppressa l’osservazione t − esima ). Proposizione – Denotato con et il vettore di dimensione n , avente tutte le coordinate uguali a 0 ad eccezione della coordinata t − esima che e` uguale ad 1, e considerato il modello y = Xγ + α et + u si ha βˆ ( t ) = γˆ . Dimostrazione: Posto M t = M et , dal teorema FWL segue γ̂ si ottiene stimando il modello M t y = M t Xγ + v . Ora osservato che M t y = (I − et (e′t et ) −1 e′t )y = y − et yt e allo stesso modo la matrice M t X e` ottenuta da X sostituendo le coordinate della riga t − esima con 0, si ottiene immediatamente l’asserto. Al fine di valutare la differenza βˆ (t ) − βˆ , con le notazioni introdotte nel precedente lemma, si osserva: i) X(βˆ (t ) − βˆ ) = −αˆ PX et ; infatti posto Z = [ X et ] si ha y = PZ y + M Z y = Xβˆ ( t ) + αˆ et + M Z y , ed essendo PX M Z = 0 (notare che da S ( X) ⊂ S (Z) segue S ( Z) ⊥ ⊂ S ( X) ⊥ ) si ha Xβˆ = PX y = Xβˆ (t ) + αˆ PX et . ii) αˆ = uˆt , essendo uˆt la t − esima coordinata del vettore dei residui uˆ ( = M X y ) e ht (∈ ]0,1[ ) il 1 − ht t − esimo elemento diagonale della matrice PX ; infatti • α̂ (ancora per il teorema FWL) e` la stima OLS del modello M X y = α M X et + v e dunque αˆ = [ ( M X et )′M X et ] ( M X et )′M X y = −1 e′t M X y , e′t M X et • e′t M X y è la t − esima coordinata del vettore dei residui di uˆ ( = M X y ) , • e′t M X et = e′t ( I − PX )et = 1 − ht , • ht = e′t PXet = PXet ≤ PX et ≤ 1 . Dalle precedenti i) e ii) segue 12 1-Econometria, a.a. 2014-15 uˆ uˆ βˆ ( t ) − βˆ = −αˆ ( X′X) −1 X′PX et = − t ( X′X) −1 X′et = − t ( X′X) −1 xt 1 − ht 1 − ht ( X′et è la t − esima colonna di X′ e quindi X′et = xt ). Osservazione: Quando ht è grande (vicino ad 1), è possibile (non certo, per la presenza di altri fattori) che qualcuna delle coordinate di β̂ sia fortemente influenzata dalla presenza della osservazione t − esima . Tali osservazioni si dicono “punti con effetto leva” e ht è la misura dell’effetto leva. Il plot della coppia (t , ht ) (per modelli univariati anche il plot della coppia ( xt , ht ) ) puo` evidenziare la presenza di punti con effetto leva, che potrebbero essere anche outliers (osservazioni anomale) e in tal caso non dovrebbero essere presenti tra le osservazioni nelle procedure di stima. top 13