Verifica di ipotesi e intervalli di confidenza nella regressione multipla Eduardo Rossi2 2 Università di Pavia (Italy) Maggio 2014 Rossi MRLM Econometria - 2014 1 / 54 Sommario Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Verifica di ipotesi congiunte su più coefficienti Altri tipi di ipotesi che implicano più coefficienti Variabili di interesse, variabili di controllo e come decidere quali variabili includere in un modello di regressione Rossi MRLM Econometria - 2014 2 / 54 Verifica di ipotesi e intervalli di confidenza Verifica di ipotesi e intervalli di confidenza per un singolo coefficiente Per verifica di ipotesi e intervalli di confidenza nella regressione multipla si segue la stessa logica utilizzata per la pendenza in un modello a singolo regressore. β̂1 −E[β̂1 ] √ ≈ N (0, 1) (TLC). Var[β̂1 ] Perciò le ipotesi su β1 possono essere verificate mediante la consueta statistica-t e gli intervalli di confidenza costruiti come {β̂1 ± 1, 96SE(β̂1 )}. Lo stesso per β2 , . . . , βk . Rossi MRLM Econometria - 2014 3 / 54 Verifica di ipotesi e intervalli di confidenza Esempio \ = 698, 933 − 2, 2798 STR TestScr (10,364) \ = 686, 032 − 1, 1013 STR − 0, 649777 PctEL TestScr (8,7282) (0,4329) (1) (0,5195) (2) (0,031032) Il coefficiente di STR in (2) è l’effetto su TestScore del cambio di unità in STR, mantenendo costante la percentuale di studenti non di madrelingua nel distretto. Il coefficiente di STR si dimezza. L’intervallo di confidenza al 95% per il coefficiente di STR in (2) è {−1, 10 ± 1, 960, 43} = {−1, 95, −0, 26}. la statistica test t dell’ipotesi nulla βSTR = 0 è t = −1, 10/0, 43 = −2, 54, perciò rifiutiamo l’ipotesi al livello di significatività del 5%. Rossi MRLM Econometria - 2014 4 / 54 Verifica di ipotesi e intervalli di confidenza Verifica di ipotesi congiunte Sia Expn = spese per studente e si consideri il modello di regressione: TestScorei = β0 + β1 STRi + β2 Expni + β3 PctELi + ui L’ipotesi nulla per cui ”le risorse scolastiche non contano“, e l’alternativa per cui invece contano, corrisponde a: H0 : β1 = 0 e β2 = 0 l’ipotesi alternativa H1 : o β1 6= 0 o β2 6= 0 o entrambi Rossi MRLM Econometria - 2014 5 / 54 Verifica di ipotesi e intervalli di confidenza Verifica di ipotesi congiunte H0 : β1 = 0 e β2 = 0 H1 : o β1 6= 0 o β2 6= 0 o entrambe Un’ipotesi congiunta specifica un valore per due o più coefficienti, ossia impone una restrizione su due o più coefficienti: H0 : βi = βi,0 , . . . , βj = βj,0 per un totale di q restrizioni. Nell’esempio precedente, q = 2 e le due restrizioni sono β1 = β2 = 0. Se una (o più) delle uguaglianze sotto l’ipotesi nulla è falsa, allora l’ipotesi nulla congiunta è falsa. Ipotesi alternativa è che almeno una delle uguaglianze della H0 non valga. Rossi MRLM Econometria - 2014 6 / 54 Verifica di ipotesi e intervalli di confidenza Verifica di ipotesi congiunte Un’idea di ”buon senso” è quella di rifiutare se l’una o l’altra delle statistiche-t supera 1,96 in valore assoluto. ma questa verifica ”coefficiente per coefficiente” non è valida: la verifica risultante ha un tasso di rifiuto troppo elevato sotto l’ipotesi nulla (più del 5%)! Rossi MRLM Econometria - 2014 7 / 54 Verifica di ipotesi e intervalli di confidenza Perchè non possiamo verificare coefficiente per coefficiente? Perchè il tasso di rifiuto sotto l’ipotesi nulla non è il 5%. Calcoleremo la probabilità di rifiutare in modo non corretto l’ipotesi nulla usando la verifica del ”buon senso” basata sulle due statistiche- t singole. Per semplificare il calcolo, supponete che siano distribuite in modo indipendente (non è vero in generale - lo è solo in questo esempio). Siano t1 e t2 le statistiche-t: t1 = β̂1 − 0 SE(β̂1 ) t1 = β̂2 − 0 SE(β̂2 ) La verifica ”coeff. per coeff.” è: Rifiuta H0 : β1 = β2 = 0 se |t1 | > 1, 96 e/o |t2 | > 1, 96 Qual è la probabilità che questa verifica ”coeff. per coeff.” rifiuti H0 , quando H0 è effettivamente vero? (Dovrebbe essere 5%.) Rossi MRLM Econometria - 2014 8 / 54 Verifica di ipotesi e intervalli di confidenza Perchè non possiamo verificare coefficiente per coefficiente? Ipotesi t1 e t2 sono indipendenti (falso!) La probabilità di rifiutare in modo non corretto l’ipotesi nulla mediante la verifica ”coeff. per coeff.” = PrH0 {|t1 | > 1, 96 e/o |t2 | > 1, 96} = 1 − PrH0 {|t1 | ≤ 1, 96 e |t2 | ≤ 1, 96} = 1 − PrH0 {|t1 | ≤ 1, 96} × PrH0 {|t2 | ≤ 1, 96} = 1 − (0, 95)2 = 0, 0975 > 0, 05 Rossi MRLM Econometria - 2014 9 / 54 Verifica di ipotesi e intervalli di confidenza Dimensione del test La dimensione del test (la percentuale di rifiuto della nulla quando è vera) usando le singole statistiche per decidere sull’ipotesi congiunta non è il 5%! In effetti, la sua dimensione dipende dalla correlazione tra t1 e t2 (e quindi dalla correlazione tra β̂1 e β̂2 ). Due soluzioni: 1 Utilizzare un valore critico diverso in questa procedura - non 1,96 (questo è il ”metodo Bonferroni”, raramente utilizzato nella pratica). 2 Utilizzare una statistica test diversa studiata per verificare subito sia β1 = 0 sia β2 = 0(ipotesi congiunta): la statistica F (questa è la pratica comune). Rossi MRLM Econometria - 2014 10 / 54 Statistica F Ipotesi congiunte in notazione matriciale Si consideri un’ipotesi congiunta che è lineare nei coefficienti e impone q restrizioni, con q ≤ k + 1. Ognuna di queste restrizioni può riguardare uno o più coefficienti di regressione (un sistema di restrizioni). Restrizioni lineari H0 : Rβ = r H1 : Rβ 6= r (q × 1) r (q × (k + 1)) R r(R) Rossi = q ≤k+1 MRLM Econometria - 2014 11 / 54 Statistica F Restrizioni lineari - Esempio Dato il MRLM: Yi = β0 + β1 X1i + . . . + βk Xki + ui Ipotesi nulla: H0 : β1 + β2 = 0 R = 0, 1, 1, 0, . . . , 0 r=0 β0 β1 Rβ = 0, 1, 1, 0, . . . , 0 . = β1 + β2 .. βk Rossi MRLM Econometria - 2014 12 / 54 Statistica F Restrizioni lineari - Esempio modello partizionato Y = X1 β 1 + X2 β 2 + u X1 (n × k1 ) X2 (n × k2 ) β 1 (k1 × 1) β 2 (k2 × 1) k + 1 = k1 + k2 H0 : β 1 = 0 H0 : Rβ = 0 Rossi MRLM Econometria - 2014 13 / 54 Statistica F Restrizioni lineari - Esempio modello partizionato dove R= Rβ = h h Iq i .. . 0(q×k2 ) i β . Iq .. 0(q×k2 ) 1 β2 = β1 dove q = k1 . Sotto H0 il modello si riduce a Y = X2 β 2 + u Rossi MRLM Econometria - 2014 14 / 54 Statistica F Statistica F La statistica F per verificare l’ipotesi congiunta H0 : Rβ = r è F = Rossi h i−1 (Rβ̂ − r) (Rβ̂ − r)0 RΣ̂β̂ R0 q MRLM Econometria - 2014 15 / 54 Statistica F Distribuzione asintotica della statistica F Dato che √ d n(β̂ − β) −→ N (0, Σ√n(β̂−β) ) segue che sotto H0 √ √ d n(Rβ̂ − r) = nR(β̂ − β) −→ N (0, RΣ√n(β̂−β) R0 ) dati i risultati sulle forme quadratiche di vettori di v.c. asintoticamente normali, sotto H0 : i−1 h [(Rβ̂ − r)]0 RΣβ̂ R0 [(Rβ̂ − r)] i−1 √ h √ d = [ n(Rβ̂ − r)]0 RΣ√n(β̂−β) R0 [ n(Rβ̂ − r)] −→ χ2q perchè Σβ̂ = Σ√n(β̂−β) /n. Poichè p Σ̂√n(β̂−β) −→ Σ√n(β̂−β) Rossi MRLM Econometria - 2014 16 / 54 Statistica F Distribuzione asintotica della statistica F Per il teorema di Slutsky: h i−1 √ √ d [ n(Rβ̂ − r)] −→ χ2q n(Rβ̂ − r)]0 RΣ̂√n(β̂−β) R0 o h i−1 d [(Rβ̂ − r)]0 RΣ̂β̂ R0 [(Rβ̂ − r)] −→ χ2q segue che F = h i−1 (Rβ̂ − r)0 RΣ̂β̂ R0 (Rβ̂ − r) q d −→ χ2q q d cioè F −→ Fq,∞ = χ2q /q. E’ equivalente calcolare h i−1 [(Rβ̂ − r)], in questo caso qF = [(Rβ̂ − r)]0 RΣ̂β̂ R0 d qF −→ χ2q Rossi MRLM Econometria - 2014 17 / 54 Statistica F Regione di rifiuto statistica F Valore critico: α α Fq,∞ : Pr{Fq,∞ > Fq,∞ }=α per un livello di significatività 0 ≤ α ≤ 1. La procedura di test consiste nel calcolare F e rifiutare H0 se il suo α }, tale che abbia valore cade nella regione critica, cioè se F act > Fq,∞ una probabilità minore di α di essere estratta dalla distribuzione Fq,∞ . P-value della statistica F: p-value = Pr{Fq,∞ > F act } Se p-value > α (prefissato) accetto H0 altrimenti rifiuto. Rossi MRLM Econometria - 2014 18 / 54 Statistica F Significatività della regressione L’ipotesi nulla che tutti i coefficienti siano nulli ad eccezione dell’intercetta. H0 : β1 = β2 = . . . = βk = 0 H1 : βj 6= 0 per almeno un j, j = 1, 2, . . . , k Sotto H0 nessuno dei regressori spiega alcunchè della variazione in Yi . L’intercetta, sotto H0 , è la media di Yi : E(Yi ) = β0 Rossi MRLM Econometria - 2014 19 / 54 Statistica F Statistica F quando q = 1 Quando q = 1, la statistica F verifica una sola restrizione R (1 × (k + 1)), r (1 × 1) h i−1 [(Rβ̂ − r)] [(Rβ̂ − r)]0 RΣ̂β̂ R0 1 [(Rβ̂ − r)]2 i = t2 = h RΣ̂β̂ R0 è il quadrato della statistica t. Rossi MRLM Econometria - 2014 20 / 54 Statistica F Statistica F - Esempio const STR EXPN stu EL PCT Coefficient Std. Error t-ratio p-value 649.578 −0.286399 0.00386790 −0.656023 15.4583 0.482073 0.00158072 0.0317844 42.0212 −0.5941 2.4469 −20.6397 0.0000 0.5528 0.0148 0.0000 Media variabile dipen SSR R2 F (3, 416) 654.1565 85699.71 0.436592 147.2037 S.Q.M. variabile dipen S.E. della regressione R̄2 P-value(F ) 19.05335 14.35301 0.432529 5.20e–65 H0 : βstr = 0 βexpn = 0 Statistica Test: F (2, 416) = 5.434, con p − value = 0.00468. Rossi MRLM Econometria - 2014 21 / 54 Statistica F Regioni di confidenza per coefficienti multipli Una regione di confidenza asintoticamente valida per due o più elementi di β può essere costruita come l’insieme dei valori che, se considerati come ipotesi nulla, non sono rifiutati dalla statistica F . Sia δ (q × 1) formato dagli elementi di β per i quali si desidera una regione di confidenza δ = Rβ La statistica test F per l’ipotesi nulla δ = δ 0 è F = (δ̂ − δ 0 )0 [RΣ̂β̂ R0 ]−1 (δ̂ − δ 0 )/q con δ̂ = Rβ̂. Una regione di confidenza al 95% per δ è l’insieme di valori δ 0 che non sono rifiutati dalla F . Rossi MRLM Econometria - 2014 22 / 54 Statistica F Regioni di confidenza per coefficienti multipli Una regione di confidenza 1 − α per δ è 0.95 {δ : (δ̂ − δ)0 [RΣ̂β̂ R0 ]−1 (δ̂ − δ)/q ≤ Fq,∞ } La regione di confidenza è costituita dai punti interni all’ellissoide che si ottiene quando vale l’uguaglianza. Rossi MRLM Econometria - 2014 23 / 54 Statistica F Ellisse di confidenza (k = 2) Yi = β1 X1i + β2 X2i + ui i = 12, . . . , n Regione di confidenza per (β1 , β2 ): 1 0 β1 Rβ = 0 1 β2 Nel caso k = 2, la forma quadratica: (β̂ − β)0 Σ̂−1 (β̂ − β) β̂ Σ−1 β̂ σ̂12 σ̂1,2 = σ̂1,2 σ̂22 (βb1 − β1 )2 σ̂12 + 2(βb1 − β1 )(βb2 − β2 )σ̂1,2 + (βb2 − β2 )2 σ̂22 Rossi MRLM Econometria - 2014 24 / 54 Statistica F Ellisse di confidenza (k = 2) Il contorno della funzione implicita ax2 + byx + cy 2 = K è un’ellisse con centro (x = 0, y = 0), inclinata positivamente quando b < 0. In questo caso, ellisse inclinata positivamente quando σ̂1,2 < 0 negativamente quando σ̂1,2 > 0 Rossi MRLM Econometria - 2014 25 / 54 Statistica F Regioni di confidenza per coefficienti multipli P βb1 e βb2 sono positivamente correlati quando x1t x2t < 0. P b b β1 e β2 sono negativamente correlati quando x1t x2t > 0. Rossi MRLM Econometria - 2014 26 / 54 Statistica F Regioni di confidenza per coefficienti multipli - Esempio \eval = 4, 082 + 0, 149 beauty − 0, 198 female course (0,033) (0,032) (0,051) 2 T = 463 R̄ = 0, 0622 F (2, 460) = 16, 331 σ̂ = 0, 53732 Ellisse di confidenza al 95% e intervalli marginali al 95% -0,05 -0,1 -0,15 female 0,149, -0,198 -0,2 -0,25 -0,3 -0,35 0,06 0,08 0,1 0,12 0,14 0,16 0,18 0,2 0,22 0,24 beauty Rossi MRLM Econometria - 2014 27 / 54 Errori normali e omoschedastici Errori normali e omoschedastici Se gli errori sono normali (condizionatamente a X) e omoschedastici, u|X ∼ N (0, σu2 In ) allora lo stimatore ha una distribuzione normale multivariata in campionin finiti: β̂ = β + (X0 X)−1 X0 u β̂ ∼ N (β, σu2 (X0 X)−1 ) Rossi MRLM Econometria - 2014 28 / 54 Errori normali e omoschedastici Distribuzione di s2 Se valgono le assunzioni generalizzate degli OLS nel MRLM, allora s2 = u0 MX u n−k−1 per la normalità condizionale di u 0 u u MX ∼ χ2n−k−1 σu σu quindi χ2n−k−1 s2 ∼ σu2 n−k−1 s2 ∼ Rossi σu2 χ2 n − k − 1 n−k−1 MRLM Econometria - 2014 29 / 54 Errori normali e omoschedastici Errori standard classici Var[β̂|X] = σu2 (X0 X)−1 \ Var[ β̂|X] = s2 (X0 X)−1 lo standard error di βi : q SE(β̂i ) = s e0i (X0 X)−1 ei Rossi MRLM Econometria - 2014 30 / 54 Errori normali e omoschedastici Statistica t̃ Data la statistica: t̃ = β̂i − βi,0 SE(β̂i ) se valgono le sei assunzioni generalizzate dei minimi quadrati, la distribuzione campionaria esatta di t̃ t̃ ∼ tn−k−1 Rossi MRLM Econometria - 2014 31 / 54 Errori normali e omoschedastici Dimostrazione Se Z ha una distribuzione N (0, 1) W ha una distribuzione χ2m 3 Z e W sono indipendentemente distribuite allora Z p ∼ tm W/m Ora 1 2 t̃ = β̂i − βi,0 SE(β̂i ) β̂i − βi,0 =p 0 2 s ei (X0 X)−1 ei β̂i − βi,0 p =p 2 2 s /σu σu2 e0i (X0 X)−1 ei Rossi MRLM Econometria - 2014 32 / 54 Errori normali e omoschedastici Dimostrazione p (β̂i − βi,0 )/ σu2 e0i (X0 X)−1 ei p t̃ = s2 /σu2 1 Sotto H0 p (β̂i − βi,0 ) |X ∼ N (0, 1) σu2 e0i (X0 X)−1 ei 2 (n − k − 1) Rossi s2 ∼ χ2n−k−1 σu2 MRLM Econometria - 2014 33 / 54 Errori normali e omoschedastici Dimostrazione Si può scrivere Z t̃ = p W/(n − k − 1) con (β̂i − βi,0 ) Z=p ∼ N (0, 1) σu2 e0i (X0 X)−1 ei e W = (n − k − 1) Rossi s2 ∼ χ2n−k−1 σu2 MRLM Econometria - 2014 34 / 54 Errori normali e omoschedastici Dimostrazione Indipendenza tra β̂ e s2 . Dato che β̂ = β + (X0 X)−1 X0 u s2 = u0 MX u n−k−1 β̂ e s2 sono indipendenti se X0 X)−1 X0 u e u0 MX u sono indipendenti. Dato che u|X ∼ N (0, σu2 In ) (X0 X)−1 X0 u|X ∼ N (0, σu2 (X0 X)−1 ) MX u|X ∼ N (0, σu2 MX ) Rossi MRLM Econometria - 2014 35 / 54 Errori normali e omoschedastici Dimostrazione Poichè Cov[(X0 X)−1 X0 u, MX u|X] = E[(X0 X)−1 X0 uu0 MX |X] = (X0 X)−1 X0 E[uu0 |X]MX = (X0 X)−1 X0 σu2 In MX = 0k×n perchè X0 MX = 0k×n Segue che i due vettori sono indipendenti e che β̂ e s2 sono indipendenti. Si può concludere che t̃ = Rossi β̂i − βi,0 SE(β̂i ) ∼ tn−k−1 MRLM Econometria - 2014 36 / 54 Errori normali e omoschedastici Distribuzione della statistica F̃ La statistica F con omoschedasticità si ottiene sostituendo Σ̂β̂ con s2 (X0 X)−1 F̃ = (Rβ̂ − r)0 [R(X0 X)−1 R0 ]−1 (Rβ̂ − r) qs2 se valogono le sei assunzioni generalizzate degli OLS, sotto l’ipotesi nulla F̃ ∼ Fq,n−k−1 F̃ è la versione di Wald. Rossi MRLM Econometria - 2014 37 / 54 Errori normali e omoschedastici Dimostrazione Il rapporto W1 /n1 ∼ Fn1 ,n2 W2 /n2 dove 1 W1 ∼ χ2n1 2 W2 ∼ χ2n2 3 W1 e W2 sono indipendentemente distribuite. Verifichiamo che queste tre condizioni siano verificate nel caso che stiamo considerando. Rossi MRLM Econometria - 2014 38 / 54 Errori normali e omoschedastici Dimostrazione Sia W1 = (Rβ̂ − r)0 [σu2 R(X0 X)−1 R0 ]−1 (Rβ̂ − r) e W2 = (n − k − 1) s2 σu2 possiamo scrivere F̃ = Rossi W1 /q W2 /n − k − 1 MRLM Econometria - 2014 39 / 54 Errori normali e omoschedastici Dimostrazione Dato che β̂|X ∼ N (β, σu2 (X0 X)−1 ) e sotto H0 , Rβ̂ − β = Rβ̂ − r (Rβ̂ − r)|X ∼ N (0, σu2 R(X0 X)−1 R0 ) quindi (Rβ̂ − r)0 [σu2 R(X0 X)−1 R]−1 (Rβ̂ − r) ∼ χ2q Abbiamo già visto che χ2n−k−1 s2 ∼ σu2 n−k−1 Rossi MRLM Econometria - 2014 40 / 54 Errori normali e omoschedastici Dimostrazione Infine, poichè β̂ e s2 sono indipendentemente distribuiti, segue che Rβ̂ − r e s2 sono indipendentemente distribuiti, implicando che W1 e W2 sono indipendentemente distribuite. Le tre condizioni sono verificate, quindi F̃ ∼ Fq,n−k−1 Rossi MRLM Econometria - 2014 41 / 54 Errori normali e omoschedastici La distribuzione Fq,n−k−1 La distribuzione Fq,n−k−1 è tabulata in molti punti. Per n → ∞, la distribuzione Fq,n−k−1 tende asintoticamente alla distribuzione χ2 /q, cioè Fq,∞ . Per q non troppo grande e n ≥ 100, la distribuzione Fq,n−k−1 e la distribuzione χ2q /q sono sostanzialmente identiche. Molti pacchetti di regressione calcolano il valore-p della statistica F mediante la distribuzione Fq,n−k−1 . Rossi MRLM Econometria - 2014 42 / 54 Errori normali e omoschedastici Altro modo di calcolo della statistica F̃ Quando il termine di errore ui è omoschedastico, la F può essere scritta in termini di miglioramento dell’adattamento della regressione (misurato con la SSR o l’R2 ). Eseguire due regressioni, una sotto l’ipotesi nulla (regressione ”vincolata”) e una sotto l’ipotesi alternativa (regressione ”non vincolata”). Confrontare la somma dei quadrati dei residui (SSR) delle due regressioni. Confrontare gli adattamenti delle regressioni - gli R2 - se il modello ”non vincolato” si adatta sufficientemente meglio, rifiutare l’ipotesi nulla Rossi MRLM Econometria - 2014 43 / 54 Errori normali e omoschedastici Altro modo di calcolo della statistica F̃ Dato il MRLM: Yi = β0 + β1 X1i + . . . + βk Xki + ui ui ∼ i.i.d.N (0, σu2 ) H0 : Rβ = r stima del modello sotto l’ipotesi nulla: β̃ = arg min β:Rβ−r=0 (Y − Xβ)0 (Y − Xβ) la somma dei quadrati della regressione vincolata SSRr = (Y − Xβ̃)0 (Y − Xβ̃) la somma dei quadrati della regressione non vincolata SSRur = (Y − Xβ̂)0 (Y − Xβ̂) F̃ = Rossi SSRr − SSRur n − k − 1 ∼ Fq,n−k−1 SSRur q MRLM Econometria - 2014 44 / 54 Errori normali e omoschedastici Altro modo di calcolo della statistica F̃ Denotando i residui della regressione vincolata: ũ = Y − Xβ̃ ũ0 ũ − û0 û n − k − 1 û0 û q P 2 P P P / ũ (Y − Ȳ )2 − i û2i / i (Yi − Ȳ )2 n − k − 1 i i i i P P = 2 2 q i (Yi − Ȳ ) i ûi / 2 2 (1 − Rr ) − (1 − Rur ) n − k − 1 = 2 1 − Rur q 2 2 R −R n−k−1 = ur 2 r 1 − Rur q F̃ = Rossi MRLM Econometria - 2014 45 / 54 Errori normali e omoschedastici Altro modo di calcolo della statistica F̃ Rr2 è l’R2 della regressione vincolata 2 è l’R2 della regressione non vincolata Rur q = numero di restrizioni sotto l’ipotesi nulla Più grande è la differenza tra l’R2 vincolato e non vincolato, maggiore è il miglioramento dell’adattamento aggiungendo le variabili in questione – maggiore è la F in presenza di omoschedasticità. Rossi MRLM Econometria - 2014 46 / 54 Errori normali e omoschedastici Regressione ”vincolata” e ”non vincolata” Esempio: i coefficienti di STR e Expn sono zero? Regressione senza vincolo, sotto H1 : TestScorei = β0 + β1 STRi + β2 Expni + β3 PctELi + ui Regressione vincolata, sotto H0 : β1 = β2 = 0: TestScorei = β0 + β3 PctELi + ui Il numero di vincoli sotto H0 è q = 2. L’adattamento risulterà migliore (R2 sarà maggiore) nella regressione non vincolata. Di quanto dovrà aumentare R2 affinchè i coefficienti di Expn e PctEL siano giudicati statisticamente significativi? Rossi MRLM Econometria - 2014 47 / 54 Errori normali e omoschedastici Esempio Regressione vincolata: \ i = 644, 7 − 0, 671STRi TestScore R2 = 0, 4149 Regressione non vincolata: \ i = 649, 6−0, 29STRi +3, 87Expni −0, 656PctELi TestScore R2 = 0, 4366 Quindi, con q = 2, n = 420, k = 3: 2 − R2 n − k − 1 Rur r 2 1 − Rur q (0, 4366 − 0, 4149) (420 − 3 − 1) = = 8, 01 (1 − 0, 4366) 2 F̃ = Valore critico al 1% = 4,61, H0 è rifiutata. Nota: F robusta all’eteroschedasticità è 5,43... Rossi MRLM Econometria - 2014 48 / 54 Errori normali e omoschedastici La statistica F̃ classica-riepilogo La statistica F̃ classica rifiuta quando aggiungendo le due variabili si aumenta R2 di ”quanto basta” - vale a dire, quando aggiungendo le due variabili si migliora l’adattamento della regressione di ”quanto basta”. Se gli errori sono omoschedastici, ma non gaussiani, la statistica F̃ classica ha una distribuzione in grandi campioni che è χ2q /q. Se invece gli errori sono eteroschedastici, la distribuzione in grandi campioni della statistica F̃ classica non è χ2q /q. Se gli errori sono omoschedastici e gaussiani la statistica F̃ classica ha una distribuzione Fq,n−k−1 . Rossi MRLM Econometria - 2014 49 / 54 Errori normali e omoschedastici La statistica F̃ classica e la distribuzione F L’uso della statistica F̃ e della distribuzione F è giustificato solo sotto condizioni molto forti - troppo forti per essere realistiche. Dovreste utilizzare la statistica F robusta all’eteroschedasticità, con i valori critici della χ2q /q. Per n ≥ 100, la distribuzione Fq,n−k−1 è essenzialmente la distribuzione χ2q /q. Per n piccolo, a volte i ricercatori utilizzano la distribuzione F perchè ha valori critici più grandi e in tal senso è più prudente. Rossi MRLM Econometria - 2014 50 / 54 Errori normali e omoschedastici Verifica di restrizioni singole su coefficienti multipli Yi = β0 + β1 X1i + β2 X2i + ui Considerate l’ipotesi nulla e l’ipotesi alternativa, H0 : β1 = β2 vs H1 β1 6= β2 Questa ipotesi nulla impone una singola restrizione ( q = 1) su coefficienti multipli – non si tratta di ipotesi congiunte con restrizioni multiple (confrontate con β1 = β2 = 0). Rossi MRLM Econometria - 2014 51 / 54 Errori normali e omoschedastici Verifica di restrizioni singole su coefficienti multipli Ecco due metodi per la verifica di restrizioni singole su coefficienti multipli: Riorganizzare (”trasformare”) la regressione: Riorganizzare i regressori in modo che la restrizione diventi una restrizione su un singolo coefficiente in una regressione equivalente; oppure, Eseguire la verifica direttamente: Alcuni software, tra cui GRETL, consentono di verificare le restrizioni utilizzando direttamente coefficienti multipli Rossi MRLM Econometria - 2014 52 / 54 Errori normali e omoschedastici Metodo 1: Riorganizzare (”trasformare”) la regressione Yi = β0 + β1 X1i + β2 X2i + ui Considerate l’ipotesi nulla e l’ipotesi alternativa, H0 : β1 = β2 vs H1 β1 6= β2 Sommare e sottrarre β2 X1i : Yi = β0 + (β1 − β2 )X1i + β2 (X1i + X2i ) + ui Yi = β0 + γ1 X1i + β2 Wi + ui dove γ1 = β1 − β2 Wi = (X1i + X2i ) Rossi MRLM Econometria - 2014 53 / 54 Errori normali e omoschedastici Metodo 1: Riorganizzare (”trasformare”) la regressione Equazione originale: Yi = β0 + β1 X1i + β2 X2i + ui Equazione riorganizzata (”trasformata”): Yi = β0 + γ1 X1i + β2 Wi + ui Quindi, H0 = γ1 = 0 vs H1 : γ1 6= 0 corrisponde a H0 : β1 = β2 vs H1 : β1 6= β2 Queste due regressioni hanno lo stesso R2 , gli stessi valori previsti e gli stessi residui. Il problema di verifica è ora semplice: verificare se γ1 = 0 nella regressione trasformata. Rossi MRLM Econometria - 2014 54 / 54