Note introduttive all’econometria Domenico Suppa∗ 25 maggio 2016 Il modello di regressione lineare Date n osservazioni campionare relative alla variabile Y e a k − 1 variabili X i (con k < n): Y = [Yi ] X = 1,[X i, j ] per i = 1,..., n per i = 1,..., n e per j = 2,..., k nel modello di regressione lineare si ipotizza che tra Y e X sussista una relazione lineare alterata solo dalla presenza di una componente erratica ε. Le condizioni imposte, per ipotesi, sono le seguenti:1 Y = Xβ + ε ipotesi di linearità della relazione tra Y e X (I1) E[ε|X] = 0 ipotesi di esogeneità dei regressori X (I2) Ci si pone l’obiettivo di stimare il vettore dei parametri incogniti β. Tale stima, β̂, si può ottenere minimizzando la somma dei quadrati dei residui2 u = Y − Xβ̂: min u0 u β̂ (1) Si tratta, quindi, di determinare β̂ di modo che la lunghezza del vettore u sia la più piccola possibile. Ciò equivale a calcolare β̂ imponendo la condizione che u sia ∗ Università di Napoli "Federico II". Gli elementi della prima colonna della matrice X sono posti tutti pari a 1, in tal modo il primo elemento del vettore β, indicato con β0 , è il termine costante (l’intercetta) della funzione lineare che determina Y. Riguardo alla condizione (I2) essa risulta generalmente troppo restrittiva e quindi, quando è possibile, si richiede solo l’incorrelazione tra l’errore e i regressori della medesima osservazione: E[ε|X = xi ] = 0. 2 È chiaro che u 6= ε: l’errore ε resterà sempre incognito mentre i residui calcolati u possono consentire di inferire le caratteristiche di ε solo se sono soddisfatte le ipotesi (I1), (I2) e quelle di seguito specificate nel testo. L’ipotesi che le k colonne di X siano linearmente indipendenti garantisce che la matrice X0 X sia invertibile (unicità della stima) e che essa sia definita positiva (in tal modo la somma dei quadrati dei residui è minima). Per valutare se una matrice simmetrica definita positiva è quasi-singolare (cioè molto vicina ad una matrice non invertibile) si utilizza l’indice di condizionamento che è pari al rapporto tra il massimo e il minimo autovalore della matrice (se questo rapporto è molto distante da 1, allora la matrice è quasi-singolare e i risultati dell’inversione dipendono drasticamente dalla precisione di macchina del calcolatore). V. appendice A3. 1 1 ortogonale al sottospazio di Rn generato dalle colonne di X. Tale sottospazio avrà dimensione k, se le k colonne di X sono linearmente indipendenti (questa è un’ipotesi ulteriore che può essere verificata facilmente), e pertanto il vettore u giacerà nel sottospazio di Rn di dimensione n− k (Rn−k è il complemento ortogonale di Rk rispetto a Rn ). Imposta la condizione di ortogonalità X0 u = 0, determiniamo β̂ risolvendo il seguente sistema di equazioni: Y = Xβ̂ + u (2) dal quale otteniamo: −1 0 β̂ = (X0 X) XY (3) −1 Lo stimatore dei minimi quadrati (X0 X) X0 Y è costruito sulla validità della ipotesi (I1). Se è valida anche l’ipotesi (I2), tale stimatore è corretto. Infatti, data la (I1), possiamo riscrivere la (3) nel modo seguente: −1 0 β̂ = (X0 X) −1 0 X (Xβ + ε) = β + (X0 X) Xε (4) e, grazie alla (I2), verificare che lo stimatore dei minimi quadrati è non distorto:3 −1 0 E[β̂|X] = E[(X0 X) X (Xβ + ε)|X] −1 0 = β + E[(X0 X) X ε|X] −1 0 = β + (X0 X) X E[ε|X] = β +0 = β (5) La distorsione da variabile omessa L’importante risultato di correttezza delle stime ottenute con il metodo dei minimi quadrati (espresso nella (5)) richiede (oltre alle ipotesi (I1) e (I2)) che tra i regressori siano incluse tutte le variabili esplicative dalle quali dipende probabilisticamente Y; in altre parole non devono esservi variabili omesse (si tratta di un requisito che talvolta viene esplicitato come una ulteriore ipotesi).4 Le conseguenze dell’omissione di una variabile esplicativa, importante nella determinazione di Y, possono essere illustrate nel modo seguente. Poniamo di dividere i regressori in due gruppi X1 e X2 , in modo da avere il seguente processo che genera Y: Y = X1 β 1 + X2 β 2 + ε (6) ma, supponiamo di omettere i regressori X2 nella specificazione del modello che vogliamo stimare, allora la stima di β1 sarà:5 −1 0 X1 Y β̂1∗ = (X01 X1 ) (7) −1 Per effettuare i passaggi è necessario tener presente il fatto che (X0 X) X0 è funzione deterministica di −1 −1 X, per cui E[(X0 X) X0 |X] = (X0 X) X0 . 4 Come vedremo, aggiungere questa ulteriore ipotesi non è strettamente necessario e in pratica risulterebbe ridondante in quanto è già contenuta nella (I2). 5 Premoltiplichiamo la specificazione scorretta Y = X1 β̂1∗ + u per X0 , assumiamo la condizione di ortogonalità X0 u = 0 (che non è corretta), ed esplicitiamo rispetto a β̂1∗ . 3 2 ma, dato il modello vero, sostituendo la (6) nella (7) e prendendo il valore medio, si ha: −1 0 X1 X2 β 2 E[β̂1∗ |X1 ] = β1 + (X01 X1 ) (8) Quindi la stima β̂1∗ è distorta (sistematicamente diversa da β1 ) se non si verifica almeno una delle seguenti condizioni: −1 • (X01 X1 ) X01 X2 = 0 (i regressori X2 sono incorrelati con - cioè ortogonali ai regressori X1 ); • β2 = 0 (i regressori X2 sono incorrelati con - cioè ortogonali a - Y). L’ultima condizione (β2 = 0) ci dice che l’omissione di regressori (X2 ) irrilevanti nel processo di generazione di Y non altera i risultati della regressione di Y su X1 (l’intuizione è ovvia). La prima condizione, invece, indica che quando i regressori sono tra loro ortogonali (cioè incorrelati), abbiamo la possibilità di condurre separatamente le regressioni di Y su X1 e di Y su X2 avendo la certezza di ottenere gli stessi parametri che avremmo ottenuto dalla regressione condotta su tutti i regressori in un’unica soluzione. Più in generale, però, la distorsione causata dall’omissione di una variabile −1 rilevante (quantificata dal termine (X01 X1 ) X01 X2 β2 della (8)), che non sia ortogonale ai regressori utilizzati, conduce a stime distorte. Inoltre, la distorsione da variabile omessa non diminuisce all’aumentare della numerosità campionaria (le stime quindi risultano distorte e anche inconsistenti). In effetti, si dovrebbe riflettere sul fatto che questa omissione invalida l’ipotesi (I2): la variabile omessa, correlata con i regressori utilizzati, viene inglobata nei residui della regressione che, a questo punto, non possono più essere incorrelati con i regressori utilizzati (viene meno l’ipotesi (I2)). Ora risultà più chiaro il senso della seguente affermazione: sotto le ipotesi (I1) e (I2) sul modello di regressione lineare, • gli stimatori dei minimi quadrati producono stime non distorte dei parametri β. Sfericità degli errori e teorema di Gauss-Markov Riguardo agli errori ε è stata già introdotta l’ipotesi (I2) di ortogonalità rispetto ai regressori X del modello di regressione lineare. Si è visto che le stime dei parametri β̂ sono non distorte se è soddisfatta questa ipotesi (insieme alla (I1)). Per indagare la variabilità di β̂ è necessario formulare una ulteriore ipotesi inerente la distribuzione degli errori.6 In condizioni ottimali gli errori dovrebbero essere omoschedastici e non autocorrelati: Var[ε|X] = E[εε0 |X] = σ2 I ipotesi di sfericità degli errori (I3) Dove σ2 è la varianza costante di ε e I è la matrice identità n × n. Se i regressori X non sono stocastici (perché, ad esempio, scaturiscono da un disegno sperimentale), allora (tenuto conto della (4)) le varianze e le covarianze del vettore β̂ possono essere calcolate nel modo seguente: VarX [β̂|X] = E[(β̂ − β)(β̂ − β)0 |X] 6 Al riguardo, si veda ad esempio Greene (2012, cap. 4). 3 −1 0 = E[(X0 X) −1 X εε0 X(X0 X) −1 0 = (X0 X) −1 X E[εε0 |X]X(X0 X) −1 0 = (X0 X) |X] −1 X (σ2 I)X(X0 X) −1 = σ2 (X0 X) (9) Se i regressori X sono stocastici (cioè sono delle variabili casuali), allora (v. appendice A1): Var[β̂] = EX VarX [β̂|X] + VarX E[β̂|X] −1 = EX [σ2 (X0 X) −1 ] = σ2 EX [(X0 X) ] (10) −1 Tale risultato tenendo presente che per la (9) VarX [β̂|X] = σ2 (X0 X) si ottiene la (5) VarX E[β̂|X] = VarX [β] = 0. e per Dalle ipotesi (I1), (I2) e (I3) si ricava il teorema di Gauss-Markov: • gli stimatori dei minimi quadrati dei parametri β del modello di regressione lineare hanno varianza minima tra tutti gli stimatori lineari e non distorti di β (sono BLUE, best linear unbiased estimator). Per provare il teorema consideriamo un qualunque altro generico stimatore di β −1 che sia, per ipotesi, lineare e non distorto ma diverso da (X0 X) X0 Y. La stima di β −1 sarà data da β̂C = CY (dove C è una matrice di dimensione k × n al pari di (X0 X) X0 ). Il requisito della non distorsione consiste nella seguente uguaglianza: E[β̂C |X] = E [CY|X] = E [(CXβ + Cε)|X] = β (11) −1 che è soddisfatta solo se CX = I. In generale avremo C = D + (X0 X) X0 (dove D è −1 definita implicitamente) e quindi CX = DX + (X0 X) X0 X = DX + I = I solo se DX = 0. Assumendo che sia soddisfatta questa condizione, calcoliamo la varianza di β̂C :7 VarX [β̂C |X] = E[(β̂C − β)(β̂C − β)0 |X] = E[Cε(Cε)0 ] = E[Cεε0 C0 ] = CE[εε0 ]C0 = σ2 CC0 2 0 −1 0 0 −1 0 0 = σ (D + (X X) X )(D + (X X) X ) −1 = σ2 DD0 + σ2 (X0 X) = σ2 DD0 + VarX [β̂|X] (12) l’ultimo passaggio riprende il risultato della (9). La (12) stabilisce che VarX [β̂C |X] −1 raggiunge il minimo solo quando β̂C = β̂, poiché DD0 e (X0 X) sono entrambe definite positive. È bene ribadire che il teorema di Gauss-Markov può essere applicato solo se il modello di regressione lineare è correttamente specificato (ipotesi (I1) e (I2)) e se gli errori sono omoschedastici e non autocorrelati (ipotesi (I3)).8 In condizioni alternative, 7 8 −1 Sostituendo C nella (4) al posto di (X0 X) X0 , abbiamo (β̂C − β) = Cε. Un ipotesi molto più forte della (I3) potrebbe richiedere che gli errori siano variabili casuali indipendenti e identicamente distribuite (iid). 4 più generali, altri stimatori (non lineari e magari distorti) possono essere più efficienti9 degli stimatori dei minimi quadrati nell’inferenza sul legame funzionale esistente tra Y e X. La varianza dell’errore Siccome σ2 è (e resta) ignota, la definizione della varianza degli stimatori dei minimi quadrati, fornita dalla (9) o dalla (10), non è direttamente utilizzabile nei calcoli. Pertanto, è necessario stimare la varianza degli errori per determinare la varianza degli stimatori dei minimi quadrati. La soluzione è basata sulla definizione dei residui. Dalla (2) e dalla (3), abbiamo: u = Y − Xβ̂ −1 −1 = I − X(X0 X) X0 Y = I − X(X0 X) X0 [Xβ + ε] −1 = I − X(X0 X) X0 ε = MX ε (13) −1 dove con MX è stata indicata la matrice [I − X(X0 X) X0 ].10 Notiamo che, per l’ipotesi (I2), dalla (13) segue che E[u|X] = E[MX ε|X] = 0. Sfruttando le proprietà della matrice MX , si può dimostrare che: • la varianza campionaria dei residui: Su2 = u0 u n−k (14) è uno stimatore corretto della varianza degli errori. Omettendo per semplicità il pedice deponente assegnato alla matrice MX : E[u0 u] = E[(Mε)0 (Mε)] = E[ε0 M0 Mε] = E[ε0 Mε] = E[t r(ε0 Mε)] = E[t r(Mεε0 )] = t r(E[Mεε0 ]) = t r(ME[εε0 ]) = t r(Mσ2 I) = t r(M)σ2 = (n − k)σ2 (15) Questo risultato proviene dal fatto che ε0 Mε è uno scalare (la cui traccia t r(ε0 Mε) coincide con il suo valore) e dalla definizione di M (che è una funzione deterministica di X).11 La matrice delle covarianze di u è data da: Var[u] = E[uu0 ] = E[(Mε)(Mε)0 ] = E[Mεε0 M0 ] = M(σ2 I)M0 = σ2 M 9 (16) Uno stimatore è più efficiente rispetto a un altro se ha una varianza più bassa. Una generica matrice MX (denominata residual maker) trasforma un qualunque vettore (o variabile) nei rispettivi residui ortogonali allo spazio generato dalle componenti (colonne) della matrice X. È semplice dimostrare che MX è simmetrica (M = M0 ), idempotente (M2 = MM = M) e semidefinita positiva (i suoi autovalori sono non negativi). La matrice HX = I − MX (hat matrix) che proietta un qualunque vettore sullo spazio generato dalle colonne di X, gode delle stesse proprietà di MX . Gli autovalori di entrambe le matrici assumono valore 0 o 1 e si può facilmente verificare che il prodotto HX MX ha come risultato una matrice nulla. Dato che H è simmetrica e idempotente, abbiamo: H2 x = λ2 x = Hx = λx e quindi λ2 − λ = 0, da cui segue che λ può assumere solo i valori 0 e 1. 11 Si tenga presente anche che, quando le dimensioni delle matricipermettonola commutazione del −1 −1 prodotto, t r(AB) = t r(BA). Pertanto: t r ε0 Mε = t r Mεε0 e t r X(X0 X) X0 = t r X0 X(X0 X) . 10 5 La (16) mostra che anche se gli errori ε sono tra loro incorrelati e hanno varianza costante (rispettando l’ipotesi (I2)), in generale, i residui u non hanno varianza costante e presentano un certo grado di autocorrelazione.12 Ipotesi di normalità degli errori Per concludere l’elenco delle proprietà finite di cui può godere la stima dei minimi quadrati dei parametri del modello di regressione lineare aggiungiamo l’ipotesi di normalità dei residui. La motivazione è dovuta al fatto che per condurre dei test statistici sui parametri stimati è necessario conoscere la distribuzione dei rispettivi stimatori. Se gli errori del modello di regressione lineare si distribuiscono in modo normale e indipendente (fermo restando le altre ipotesi (I1), (I2) e (I3)), applicando la proprietà riproduttiva della v. c. normale alla (4), risulta che anche i (gli stimatori dei) parametri sono distribuiti in modo normale (essendo questi ultimi il risultato di unacombinazione 2 0 −1 lineare degli errori come mostrato dalla (4)): β̂|X ∼ N β,σ (X X) . L’ipotesi di normalità degli errori può essere formalizzata nel modo seguente: ε ∼ N 0,σ2 I distribuzione normale degli errori (I4) −1 Sotto questa ipotesi, date la (4) e la (9), indicando con (X0 X)ii il termine diagonale −1 della matrice (X0 X) corrispondente al parametro βi , possiamo affermare che: β̂i − βi ∼ N (0,1) = z q σ (X0 X)−1 ii per i = 1,..., k (17) la v. c. definita dalla (17) si distribuisce come la normale standardizzata, indicata con z. Applicando la proprietà riproduttiva della variabile casuale normale alla (13), si può dedurre che, se per l’errore ε vale l’ipotesi di normalità (I4), anche i residui hanno 2 una distribuzione normale u ∼ N 0,σ MX . Inoltre, si può dimostrare, che la variabile casuale u0 u σ2 si distribuisce come una v. c. Chi-quadrato con n − k gradi di libertà:13 2 ε S (n − k) u0 u ε 0 u 2 = MX = ∼ χ(n−k) 2 2 σ σ σ σ (18) Rapportando la (17) alla radice quadrata della (18) (dopo aver diviso quest’ultima per n − k), deduciamo che tale rapporto si distribuisce come una variabile casuale t di 12 Nei successivi paragrafi emergeranno ulteriori considerazioni sulla relazione tra errori e residui in base all’esame delle matrici MX e HX . In particolare, esaminando i termini diagonali della matrice MX si può mostrare che la variabilità dei residui è sempre minore di quella degli errori. Ciò è evidente anche intuitivamente, in quanto i residui sono calcolati in base ad un criterio di distanza minima (l’ortogonalità alle colonne della matrice X) mentre per gli errori l’ipotesi di ortogonalità è generalmente soddisfatta Pn solo con una certa approssimazione. 13 2 Ricordiamo che χ(n) = i=1 zi2 , dove zi sono variabili casuali normali standardizzate e tra loro indipendenti. Il risultato presentato nella (18) deriva dal fatto che se x, ad m componenti, si distribuisce come una variabile casuale normale multivariata con vettore delle medie pari a µ e matrice delle covarianze pari a S, allora la forma quadratica (x − µ)0 S−1 (x − µ) si distribuisce come una variabile casuale chi-quadrato con m gradi di libertà. (Piccolo, 1998, pp. 423 e 879), Greene (2012), v. appendice A2. 6 Student con n − k gradi di libertà: β̂ −β qi i σ (X0 X)−1 ii β̂i − βi z ∼È = t (n−k) =r q 2 Su2 (n−k) χ(n−k) Su (X0 X)−1 ii 2 (n−k)σ (19) n−k Grazie alla (19), se è valida la (I4), si può codurre il test t di Student sul confronto tra 2 β̂i e βi . Nella (19) il numeratore z deve essere indipendente dal denominatore χ(n−k) , cioè lo stimatore del parametro deve essere indipendente dallo stimatore dell’errore standard degli errori.14 Cenni alle proprietà asintotiche dei minimi quadrati Circa la consistenza dello stimatore dei minimi quadrati di β, osserviamo che la sua varianza, ottenuta dalla (9), può essere riscritta nel modo seguente: σ2 1 0 −1 XX (20) Var[β̂] = n n Il secondo membro della (20) è costituito dal prodotto di due termini: il primo, σ2 /n, tende a zero al crescere di n, il secondo (grazie all’applicazione della legge dei grandi numeri, se la matrice X0 X non è singolare e i regressori presentano alcuni requisiti di regolarità) tende (in probabilità) ad un valore limite costante.15 Pertanto, siccome la varianza dello stimatore dei minimi quadrati tende a zero al crescere di n, tale stimatore è consistente oltre che corretto.16 Nel caso gli errori non siano normalmente distribuiti, al fine di ottenere stimatori dei minimi quadrati la cui distribuzione sia asintoticamente normale, è necessario disporre di una elevata numerosità campionaria e formulare l’ipotesi di indipendenza seriale:17 (xi ,εi ) per i = 1,..., n sono serialmente indipendenti (I5) (questa ipotesi rafforza l’incorrelazione richiesta dall’ipotesi di sfericità dei residui formulata dalla (I3)). In un certo senso, il venir meno dell’indipendenza, a causa degli errori non più distribuiti normalmente, richiede un assunto esplicito sull’indipendenza degli errori. Permane, invece, immutata l’ipotesi di varianza costante degli errori. Sotto queste condizioni è possibile applicare il teorema limite centrale.18 14 V. Davidson e MacKinnon (2003, cap. 4). V. appendice A2. V. Greene (2012, p. 103 e ss.). 16 Uno stimatore θ̂n è consistente per il parametro θ se, al crescere della numerosità campionaria n, tende a 1 la probabilità che θ̂n assuma il valore θ . 17 Indichiamo con xi il vettore riga trasposto della matrice dei regressori relativo all’osservazione i-esima. 18 Le due formulazioni del teorema limite centrale più utilizzate in econometria sono: quella di LindebergLevy e, in particolare, quella di Lindeberg-Feller; riguardo alla prima, la formulazione (più semplice) è la seguente (vedi appendice A9 a p. 25): Se x 1 ,..., x n è un capione casuale (cioè a componenti indipendenti) estratto da una popolazione la cui Pn p 2 i=1 x i funzione di distribuzione ha media µ e varianza σ finite e x n = n , allora, per n → ∞, n(x n − µ) 2 si distribuisce come una v. c. normale N (0,σ ) . Il secondo teorema limite centrale, quello di Lindeberg-Feller, invece, pur conservando l’ipotesi di indipendenza, ammette che le v. c. x i presentino diverse varianze (e anche diverse medie). È proprio questo il teorema limite necessario per ottenere la (21), dato che le varianze dei termini xi εi non possono essere ritenute costanti anche se è costante la varianza di εi al variare di i. Greene (2012). 15 7 Tenendo presente la (4), possiamo scrivere:19 p X0 X n(β̂ − β) = n −1 X0 ε p n a ∼ N 0, σ2 X0 X n −1 (21) Il membro di sinistra si distribuisce asintoticamente come una v. c. normale 0 −1con media zero e varianza finita. Si è già detto che, al crescere di n il termine XnX tende in probabilità ad una matrice con valori finiti. La stima della varianza σ2 può essere basata ancora sulla varianza campionaria dei residui Su2 definita dalla (14).20 Svolgiamo in modo più formale e dettagliato questo discorso. Nel seguito indichiap mo con “plim” o → la convergenza in probabilità.21 Nell’approccio alla regressione lineare su dati di elevata numerosità campionaria si assume che:22 0 XX plim =Q con Q definita positiva e finita (I6) n Date le ipotesi (I1), (I2), (I3), (I5), (I6), abbandonando l’ipotesi (I4), dalla (4) si deduce che:23 • i minimi quadrati stimano in modo consistente i parametri del modello di regressione lineare. Dato che: 0 −1 0 Xε XX 0 −1 0 per la (4) (22) β̂ = β + (X X) X ε = β + n n la dimostrazione della precedente proposizione è basata sulle seguneti convergenze in probabilità:24 X0 X n −1 p → Q−1 per la (I6) n p X0 ε 1 X = xi εi → E[xi εi ] = Exi [xi E[εi |xi ]] = 0 n n i=1 p β̂ → β + Q−1 0 = β per la LDGN e la (I2) per le precedenti. (23) Inoltre, si dimostra che: • gli stimatori dei minimi quadrati si distribuiscono in modo asintoticamente normale. 19 a Il simbolo ∼ indica che il termine di sinistra “si distribuisce asintoticamente come” il termine di destra. 20 Per le dimostrazioni di questi enunciati si veda Greene (2012, pp. 103 e ss. e app. D). 21 Una successione di variabili casuali X n converge alla variabile casuale X se e solo se, per qualsiasi δ > 0: lim P r ob(|X n − X |) < δ = 1 n→∞ in altri termini, al crescere di n, tende ad essere nulla la probabilità che X n assuma valori che si discostano da X . 22 Nella prassi si richiede che siano rispettate le condizioni (minimali) di Grenander sul comportamento regolare della matrice dei regressori. Greene (2012, p. 105). 23 Naturalmente, l’ipotesi (I4) potrebbe essere ancora valida senza in alcun modo compromettere il discorso svolto in questa sede. 24 LDGN è l’acronimo di legge debole dei grandi numeri. 8 Consideriamo il termine 0 X pε n = Pn i=1 xi εi p n della (21), abbiamo E[xi εi ] = 0 e: Var[xi εi ] = E[xi εi εi 0 xi 0 ] n 0 0 0 X xi εi xi εi p = E xi E[εi εi 0 |xi ]xi 0 = σ2 E[xi xi 0 ] → σ2 Q = p p n n i=1 Pn l’ultimo passaggio è giustificato all’identità X0 X = i=1 xi xi 0 ; infatti, dividendo ambo i membri di quest’ultima per n e considerando l’ipotesi (I6), segue: Pn 0 X0 X p i=1 xi xi E[xi xi 0 ] = = →Q n n Pertanto, applicando il teorema limite centrale di Lindeberg-Feller, il termine 2 0 X pε n della (21) tende a distribuirsi asintoticamente come una v. c. normale N 0, σ Q . Gra25 zie a questi risultati, e alle (23), applicando il teorema di Slutsky, deduciamo che −1 −1 2 −1 0 la distribuzione asintotica del primo membro della (21) è: N Q 0, Q σ QQ . p Quindi, come riportato nella (21), la v. c. n(β̂ − β) tende a distribuirsi come una v. c. 2 −1 normale N 0, σ Q . Infine: • la varianza dei residui Su2 è uno stimatore consistente della varianza degli errori σ2 . Dalla (14), ricordando la definizione della matrice M: 0 0 −1 0 0 0 ε I − X(X X) X ε uu ε Mε Su2 = = = n−k n−k n−k 0 0 0 −1 0 εX XX Xε n εε (24) = − n−k n n n n n Il fattore costante n−k tende a 1 al crescere di n, il secondo termine della differenza nelle parentesi quadre, grazie alla (I6) e alle convergenze in probabilità già calcolate 0 nella (23), tende ad annullarsi. Il termine εnε converge, sotto condizioni minimali, a σ2 per n tendente all’infinito. Quindi: plim Su2 = σ2 e, pertanto, la varianza asintotica −1 di β̂ è uguale a Su2 (X0 X) . In conclusione, grazie alla teoria asintotica che permette di determinare la (21), possiamo applicare il test sulla media di una v. c. normale standard z quando i dati sono numerosi e per essi non è possibile sostenere l’ipotesi di normalità degli errori.26 Per quanto si è detto in questo paragrafo: p Su n(β̂i − βi ) = r X0 X −1 n ii β̂i − βi ∼z q −1 0 Su (X X)ii p 25 (25) p Se g è una funzione continua che non dipende da n, allora g(x n ) → g(x) se x n → x. 26 D’altra parte è anche ben noto che la variabile casuale t (n) tende velocemente alla v. c. normale standard all’aumentare di n. Quindi il test sui parametri può essere basato sulla v. c. normale standard ogni volta che vi è una considerevole numerosità campionaria: prossima o superiore a 100. 9 A0. Il teorema di Frisch-Waugh-Lovell e i valori anomali Il teorema di Ragnar Frisch, Frederick V. Waugh27 e Michael C. Lovell28 afferma che ogni regressione lineare può essere condotta in più stadi. La procedura può essere descritta nel modo seguente: i regressori vengono divisi in due gruppi, si calcola la regressione della variabile dipendente rispetto al primo gruppo, poi si calcolano le regressioni del secondo gruppo di variabili esplicative rispetto al primo gruppo di regressori, si effettua infine la regressione dei residui della prima regressione rispetto ai residui delle altre regressioni. I parametri ottenuti nell’ultimo stadio di questo procedimento sono uguali a quelli che si ottengono da un unica regressione condotta su tutte le variabili esplicative (in un’unica soluzione).29 Il modello di partenza è il seguente:30 Y = X1 β 1 + X2 β 2 + u (A0-1) Sotto la condizione di ortogonalità dei residui rispetto ai regressori (implicita nel metodo dei minimi quadrati), si possono determinare i parametri β1 , ottenendo: −1 0 X1 Y − β1 = (X01 X1 ) −1 0 X1 X2 β 2 (X01 X1 ) (A0-2) Sostituendo β1 nella (A0-1) e riorganizzando i termini: −1 0 X1 Y − Y = X1 (X01 X1 ) −1 0 X1 ]Y = [I − X1 (X01 X1 ) −1 0 X1 ], Posto MX 1 = [I − X1 (X01 X1 ) −1 0 X1 X2 β 2 + X1 (X01 X1 ) X2 β 2 + u −1 0 X1 ]X2 β2 + [I − X1 (X01 X1 ) u (A0-3) (A0-4) la (A0-4) può essere riscritta in sintesi: M X 1 Y = M X 1 X2 β 2 + u (A0-5) Teorema FWL: I parametri β2 e i residui u ottenuti da quest’ultima equazione di regressione sono identici a quelli prodotti dal modello espresso dall’equazione (A0-1). La figura 1 illustra l’interpretazione grafica del teorema in uno spazio a tre dimensioni. Per giungere alla dimostrazione del teorema basta notare che la retta passante per r2 è parallela alla perpendicolare a X 1 passante per X 2 e che le parallele passanti per a1 , a2 e X 1 individuano dei segmenti corrispondenti e proporzionali (in base al teorema di Talete) sulle rette passanti per r1 e r2 . Quindi, l’univocità di β2 è garantita dalla corrispondenza tra le proiezioni di Y lungo le rette per r1 e r2 . Naturalmente, i residui sono individuati, in ogni caso, dalla perpendicolare rispetto al piano generato da X 1 e X 2 passante per Y .31 Un’applicazione del teorema FWL è costituita dall’analisi dell’influenza dei cosiddetti valori anomali sulla regressione. Si tratta di punti (o osservazioni) lontani dalla funzione di regressione lineare. Tale distanza è valutata in un duplice senso: verticale (gli outliers) e orizzontale (i punti di leverage). La combinazione di queste due distanze 27 Frisch e Waugh (1956). Lovell (1963). 29 Anche i residui sono gli stessi. 30 Rispetto alla simbologia utilizzata in precedenza, con u indichiamo ancora i residui mentre β rappresenta il vettore dei parametri stimati. Il simbolo Y identifica ancora la cosiddetta variabile dipendente e X sono sempre le variabili esplicative o regressori (compresa la costante). 31 Vedi Davidson e MacKinnon (2003). 28 10 Y r2 X2 r1 a2 a1 0 X1 figura 1: Il teorema FWL in uno spazio a tre dimensioni determina l’influenza del punto preso in considerazione sulla pendenza della funzione di regressione lineare. Indicando con ξ i residui di una generica regressione: Y = Xβ + ξ (A0-6) introduciamo una variabile (vettore colonna) dummy ẽ che assume valore 1 in corrispondenza dell’osservazione per la quale si vuole valutare l’influenza e ha tutte le altre componenti uguali a zero. Questa operazione comporta una variazione dei parametri (da β a β̃) e l’equazione (A0-6) diventa: Y = Xβ̃ + ẽα + u (A0-7) Per misurare la differenza (β − β̃), premoltiplichiamo la precedente equazione per HX (ricordando che per definizione Ŷ = HX Y = Xβ, che HX X = X0 HX = X e che i residui u sono ortogonali sia a X, sia a ẽ); abbiamo i seguenti ovvi passaggi: Xβ = Xβ̃ + αHX ẽ (A0-8) X(β − β̃) = αHX ẽ (A0-9) 0 0 X X(β − β̃) = αX HX ẽ −1 0 β − β̃ = α(X0 X) X ẽ (A0-10) (A0-11) Grazie al teorema FWL, considerato che MX X = 0 e che ẽ0 u = 0, possiamo sviluppare l’equazione (A0-7) nel modo seguente: MX Y = αMX ẽ + u 11 (A0-12) α= ẽ0 MX Y = αẽ0 MX ẽ + ẽ0 u (A0-13) ẽ0 MX Y = αẽ0 MX ẽ (A0-14) ẽ0 MX Y ẽ0 MX Y ũ = = 0 0 ẽ MX ẽ ẽ [I − HX ]ẽ 1 − h̃ (A0-15) Nell’ultima espressione, ũ e h̃ indicano rispettivamente la componente del vettore dei residui u e l’elemento diagonale della matrice HX corrispondenti all’osservazione della quale si vuole misurare l’influenza. Determinato il valore del parametro α, possiamo sostituirlo nell’equazione (A0-11), ottenendo: β − β̃ = ũ 1 − h̃ −1 0 (X0 X) X ẽ (A0-16) La (A0-16) mostra che l’effetto dell’osservazione presa in esame è tanto più grande quanto maggiore è ũ e quanto più elevato è h̃. Quest’ultimo valore, infatti, appartiene all’intervallo [0,1], in quanto è pari al quadrato della proiezione di ẽ (un vettore di norma unitaria) sul sottospazio generato dalle colonne di X. In altri termini, per l’idempotenza di HX : h̃ = ẽ0 HX ẽ = ẽ0 HX HX ẽ = kHX ẽk2 (A0-17) In realtà h̃ non può essere minore di 1/n (dove n è la numerosità delle osservazioni). Se la matrice dei regressori fosse costituita dalla sola costante con tutte le componenti uguali a 1, indicando con H1 la matrice delle proiezioni, avremo: 1 = kH1 ẽk2 n (A0-18) ma se oltre alla costante vi sono altri regressori, avremo H1 HX = HX H1 = H1 , perché il vettore costante appartiene a X, e quindi: 1 = kH1 ẽk2 = kH1 HX ẽk2 ≤ kHX ẽk2 n (A0-19) La proiezione di ẽ su X non può essere in modulo minore della proiezione di ẽ sul vettore con tutte le componenti pari a 1 (dato che questo vettore è una colonna della matrice X; infatti, la proiezione ortogonale di un qualunque punto P su una retta r non può essere maggiore della proiezione dello stesso punto su un sottospazio che contiene la retta, in quanto la proiezione ortogonale del punto P sulla retta r non è altro che la proiezione ortogonale sulla retta del punto del sottospazio, contenente la retta, che è proiezione del punto P sul sottospazio al quale appartiene la retta; in un triangolo rettangolo ogni cateto non può avere lunghezza maggiore dell’ipotenusa). Inoltre, il valore medio dei termini diagonali di HX è k/n, poiché vi sono n termini diagonali e la traccia di HX è pari al numero k dei regressori. I valori h̃ tendono ad essere sempre più elevati via via che le componenti dei regressori si allontanano dalle rispettive medie (generando l’effetto leverage). Premoltiplicando la (A0-16) per ẽ0 X, abbiamo: ũ 0 h̃ 0 0 −1 0 ẽ X(X X) X ẽ = ẽ X(β − β̃) = ũ (A0-20) 1 − h̃ 1 − h̃ tale valore è l’effetto sulla stima dell’elemento di Y individuato dalla componente di ẽ diversa da zero. Posto Ỹ = Xβ̃, dall’equazione (A0-9), premoltiplicando ambo i membri 12 per se stessi, dividendo per kSu2 e tenendo conto della (A0-15), si ottiene la distanza di Cook:32 2 (Ŷ − Ỹ)0 (Ŷ − Ỹ) k(Ŷ − Ỹ)k α2 0 h̃ũ2 = = ẽ H ẽ = X 2 kSu2 kSu2 kSu2 kSu2 (1 − h̃) (A0-21) Nella figura 2 è riportata una simulazione del modello: y = β0 + β1 x + u 1 2 3 4 5 0 2 4 6 8 10 0 6 2 4 1 6 8 10 6 8 10 ∆β1 Cook’s distance 2 3 4 5 ∆β0 6 3 6 21 45 0 2 4 6 8 10 0 2 4 figura 2: Distanza di Cook Il primo grafico rappresenta le 100 osservazioni (con x in ascissa e y in ordinata) e la retta di regressione. Il secondo grafico, a destra, riporta la relazione tra x (in ascissa) Pn 32 u2 (Y−Ŷ)0 (Y−Ŷ) i=1 i Con Su2 si è indicata la varianza dei residui della regressione: Su2 = n−k = . V.: Weisberg n−k ũ p (2005) e anche Belsey et al. (1980). Ogni valore ũs = è detto residuo studentizzato, con questa notazione la (A0-21) può scriversi come h̃ũ2s k(1−h̃) = Su 1−h̃ ũ2s h̃ k 1−h̃ = outlier × leverage = influence. 13 e h̃ (in ordinata). La linea orizzontale continua indica il valore medio h = k/n = 2/100, la linea tratteggiata corrisponde al doppio di tale media. Il grafico illustra l’effetto leverage esercitato da ogni x: valori più distanti dalla media x (corrispondente alla linea verticale) causano un valore più elevato di h̃ (i primi 6 valori sono numerati). Nel grafico in basso a sinistra sono riportati in ordinata i valori che risultano dalla formula (A0-21) per ogni osservazione (x è riportato in ascissa come negli altri grafici e la linea orizzontale tratteggiata corrisponde al valore 4/n). Dal grafico si può notare come i valori che influiscono di più sulla stima di y (con maggiore ordinata) non siano in generale tutti quelli con un più alto leverage. Il valore di ũ (l’eventuale condizione di outlier), infatti, modifica l’effetto sintetizzato da h̃ (leverage). L’ultimo grafico, in basso a destra, riporta l’equazione (A0-16) per entrambi i parametri del modello. Si può notare come gli effetti siano differenziati per i diversi parametri. A1. Medie e varianze condizionate La variabile casuale doppia (X,Y) ha la seguente distribuzione di probabilità: Definizioni di probabilità marginali e probabilità congiunta Probabilità marginali e Probabilità congiunta pX i = pX i ,Y1 + pX i ,Y2 Y X X1 X2 Y1 Y2 pX 1 ,Y1 pX 2 ,Y1 pY1 pX 1 ,Y2 pX 2 ,Y2 pY2 pY j = pX 1 ,Y j + pX 2 ,Y j pX 1 pX 2 1 pX i ,Y j = P(X i ∩ Y j ) Le distribuzioni di probabilità marginali (pX 1 ,pX 2 ) e (pY1 ,pY2 ), rispettivamente nell’ultima riga e nell’ultima colonna della tabella, sono date dalla somma delle probabilità congiunte (pX i ,Y j ). Consideriamo ora le variabili casuali condizionate, del tipo (X|Yi ), e le loro distribuzioni di probabilità pX|Y j = P(X|Y j ). Data la definizione di probabilità congiunta: pX i ,Y j = P(X i ∩ Y j ) = pX i P(Y j |X i ) = pX j pYi |X j = pY j P(X i |Y j ) = pY j pX j |Yi (A1-1) avremo le seguenti probabilità condizionate: pX i |Y j = pX i ,Y j pY j |X i = pY j pX i ,Y j pX i e il riepilogo dettagliato riportato nelle seguenti tabelle: Probabilità condizionate di X Y Y1 Y2 X 1 pX 1 |Y1 pX 1 |Y2 X X 2 pX 2 |Y1 pX 2 |Y2 1 1 Probabilità condizionate di Y Y Y1 Y2 X 1 pY1 |X 1 pY2 |X 1 1 X X 2 pY1 |X 2 pY2 |X 2 1 14 (A1-2) Utilizzando le probabilità condizionate si possono calcolare i valori medi condizionati di X e Y: E[X|Y1 ] = E[X|Y2 ] = E[Y|X 1 ] = E[Y|X 2 ] = pX 1 ,Y1 pY1 pX 1 ,Y2 pY2 pX 1 ,Y1 pX 1 pX 2 ,Y1 pX 2 X1 + X1 + Y1 + Y1 + pX 2 ,Y1 pY1 pX 2 ,Y2 pY2 pX 1 ,Y2 pX 1 pX 2 ,Y2 pX 2 X 2 = pX 1 |Y1 X 1 + pX 2 |Y1 X 2 X 2 = pX 1 |Y2 X 1 + pX 2 |Y2 X 2 Y2 = pY1 |X 1 Y1 + pY2 |X 1 Y2 Y2 = pY1 |X 2 Y1 + pY2 |X 2 Y2 Calcolando le medie delle medie condizionate, si dimostra che vale la legge delle aspettative iterate (LIE, law of iterated expectations). Con riferimento alle precedenti due tabelle, tenuto conto delle identità (A1-2), (posto E[X|Y] = (E[X|Y1 ], E[X|Y2 ]) e E[Y|X] = (E[Y|X 1 ], E[Y|X 2 ])), calcoliamo: EY [E[X|Y]] = pY1 E[X|Y1 ] + pY2 E[X|Y2 ] = pY1 pX 1 |Y1 X 1 + pX 2 |Y1 X 2 + pY2 pX 1 |Y2 X 1 + pX 2 |Y2 X 2 = pX 1 ,Y1 X 1 + pX 2 ,Y1 X 2 + pX 1 ,Y2 X 1 + pX 2 ,Y2 X 2 = pX 1 X 1 + pX 2 X 2 = E[X] (A1-3) EX [E[Y|X]] = pX 1 E[Y|X 1 ] + pX 2 E[Y|X 2 ] = pX 1 pY1 |X 1 Y1 + pY2 |X 1 Y2 + pX 2 pY1 |X 2 Y1 + pY2 |X 2 Y2 = pX 1 ,Y1 Y1 + pX 2 ,Y1 Y2 + pX 1 ,Y2 Y1 + pX 2 ,Y2 Y2 = pY1 Y1 + pY2 Y2 = E[Y] (A1-4) In definitiva, la media delle medie condizionate EY [E[X|Y]] è uguale alla media non condizionata E[X]. Ogni realizzazione della variabile casuale media condizionata E[X|Yi ] è funzione di Yi (la media condizionata varia al variare di Yi , per = 1,..., n e viene detta funzione di regressione). La variabile casuale media condizionata E[X|Y], quindi, eredita la propria distribuzione da quella della variabile casuale condizionante Y e lo stesso vale anche per la media di ogni funzione deterministica di X. condizionata 2 Pertanto, avremo, ad esempio, EY E[X |Y] = E[X2 ]. Il risultato della (A1-3) può essere utilizzato per scomporre la varianza della variabile X nella somma della varianza (condizionata) della funzione di regressione e della varianza (condizionata) dei residui di X rispetto alla funzione di regressione. Premesso che la varianza può essere sempre espressa come differenza tra la media dei quadrati e il quadrato della media, per una generica variabile casuale Z: Var[Z] = E (Z − E[Z])2 = E Z 2 + (E[Z])2 − 2Z E[Z] = E Z 2 − (E[Z])2 (A1-5) calcoliamo il valore atteso della varianza condizionata di X rispetto a Y: EY [VarY [X|Y]] = EY E[X2 |Y] − (E[X|Y])2 = EY E[X2 |Y] − EY (E[X|Y])2 15 Sommando e sottraendo (E[X])2 (ricordando la (A1-3) e che EY E[X2 |Y] = E[X2 ]): EY [VarY [X|Y]] = E[X2 ] − EY (E[X|Y])2 − (E[X])2 + (E[X])2 = E[X2 ] − (E[X])2 − EY (E[X|Y])2 − (EY [E[X|Y]])2 applicando la (A1-5) possiamo scrivere: EY [VarY [X|Y]] = Var[X] − VarY [E[X|Y]] e infine otteniamo: Var[X] = VarY [E[X|Y]] + EY [VarY [X|Y]] (A1-6) Quindi, la varianza di X, Var[X], è data dalla somma della varianza condizionata della funzione di regressione VarY [E[X|Y]] e della media condizionata delle varianze di X rispetto alla funzione di regressione EY [VarY [X|Y]]. Questo risultato resta così dimostrato in termini generali, ma, per fissare le idee, proviamo ad applicarlo all’esemplificazione riportata nelle tabelle precedenti, utilizzate nel calcolo dei valori attesi condizionati espressi dalla (A1-3) e dalla (A1-4). Siamo condotti alla seguente esemplificazione dei termini della (A1-6): VarY [E[X|Y]] = EY (E[X|Y])2 − (EY [E[X|Y]])2 = = pY1 (E[X|Y1 ])2 + pY2 (E[X|Y2 ])2 − (E[X])2 (A1-7) EY [VarY [X|Y]] =pY1 VarY1 [X|Y1 ] + pY2 VarY2 [X|Y2 ] = =pY1 pX 1 |Y1 (X 1 − E[X|Y1 ])2 + pX 2 |Y1 (X 2 − E[X|Y1 ])2 + pY2 pX 1 |Y2 (X 1 − E[X|Y2 ])2 + pX 2 |Y2 (X 2 − E[X|Y2 ])2 = =pX 1 ,Y1 (X 1 − E[X|Y1 ])2 + pX 2 ,Y1 (X 2 − E[X|Y1 ])2 + pX 1 ,Y2 (X 1 − E[X|Y2 ])2 + pX 2 ,Y2 (X 2 − E[X|Y2 ])2 = =pX 1 ,Y1 X 1 2 + (E[X|Y1 ])2 − 2X 1 E[X|Y1 ] + pX 2 ,Y1 X 2 2 + (E[X|Y1 ])2 − 2X 2 E[X|Y1 ] + pX 1 ,Y2 X 1 2 + (E[X|Y2 ])2 − 2X 1 E[X|Y2 ] + pX 2 ,Y2 X 2 2 + (E[X|Y2 ])2 − 2X 2 E[X|Y2 ] = =E[X2 ] + pY1 (E[X|Y1 ])2 + pY2 (E[X|Y2 ])2 − 2EY (E[X|Y])2 (A1-8) Sommando la (A1-7) e la (A1-8): VarY [E[X|Y]] + EY [VarY [X|Y]] = E[X2 ] − (E[X])2 = Var[X]. A2. Indipendenza tra trasformazioni di vettori di v. c. normali Sia z un vettore ad n componenti di variabili casuali normali standardizzate e incorrelate (quindi indipendenti) e sia q(z) una forma quadratica con argomento z: q(z) = z0 Az z ∼ N(0,I) 16 (A2-1) dove A è una matrice simmetrica n × n. Dal teorema spettrale33 sappiamo che A è diagonalizzabile mediante una similitudine ortogonale. Sia C la matrice ortogonale (C0 C = I) che realizza la diagonalizzazione di A:34 C0 AC = L ⇐⇒ A = CLC0 (A2-2) dove L è la matrice diagonale degli autovalori {λi } di A.35 Sostituendo A con CLC0 nella definizione di q(z): q(z) = z0 CLC0 z (A2-3) Definito il vettore y = C0 z, abbiamo: E[y] = C0 E[z] = 0 Var[y] = C0 Var[z]C = C0 IC = I y ∼ N(0,I) (A2-4) Quindi, la forma quadratica q(z) può essere rappresentata nel modo seguente: 0 q(z) = y Ly = n X λi yi2 (A2-5) i=1 Se la matrice A, associata a q(z), è anche idempotente (oltre che simmetrica), i suoi autovalori possono assumere solo i valori 1 o 0; in questo caso, grazie alla (A2-5), possiamo stabilire che:36 0 0 q(z) = z Az = y Ly = n−k X 2 y 2j ∼ χ(n−k) (A2-6) j=1 dove j indicizza gli n − k autovalori non nulli di A che compongono ordinatamente la diagonale di L. In particolare, se la matrice associata alla forma quadratica qA(z) = z0 Az ha rango pari a n (essendo A simmetrica ed idempotente: A = I), avremo: 2 q(z) = z0 Az ∼ χ(n) (A2-7) Siano qA(z) = z0 Az e qB (z) = z0 Bz due forme quadratiche idempotenti, esse sono indipendenti solo se AB = 0.37 Infatti, posto yA = Az e yB = Bz, risulta qA(z) = yA0 yA e qB (z) = yB 0 yB (per la simmetria e l’idempotenza di A e B). Queste due funzioni, rispettivamente di yA e yB , sono indipendenti solo se sono indipendenti yA e yB . In altri termini, dato che E[yA] = 0 e E[yB ] = 0, la matrice delle covarianze deve soddisfare la condizione E[yAyB 0 ] = 0. Ma: E[yAyB 0 ] = E[Azz0 B0 ] = AE[zz0 ]B0 = AIB0 = AB = 0. Questo risultato permette di stabilire l’indipendenza tra numeratore e denominatore della definizione della v. c. F di Fisher-Snedecor e della v. c. t di Student.38 33 Lang (1984, p. 245). Le colonne della matrice C costituiscono una base ortonormale dello spazio Rn . 35 Per costruzione le matrici A e L hanno: · gli stessi autovalori e, quindi, · la stessa traccia (pari alla somma degli autovalori), · lo stesso determinante (pari al prodotto degli autovalori), · lo stesso rango (pari al numero degli autovalori non nulli). 36 V. nota 10 e Piccolo (1998, p. 508). 37 Questa affermazione è nota come teorema di Craig e consente di dimostrare che media e varianza di un campione casuale estratto dal una v. c. normale sono tra loro indipendenti (e viceversa, se media e varianza campionarie sono indipendenti allora il campione è estratto da una popolazione che si distribuisce in modo normale) Piccolo (1998, p. 508). 38 Riguardo alla v. c. t di Student, la forma lineare Bz e la forma quadratica z0 Az sono indipendenti solo se AB = 0. La dimostrazione si ottine allo stesso modo di quella fornita per due forme quadratiche. 34 17 A3. Indice di condizionamento Dal punto di visto operativo, il calcolo dei parametri β̂ richiede l’inversione della matrice X0 X, come mostrato dalla (3). Il punto è che la “precisione” dell’operazione di inversione di una matrice, su qualunque calcolatore, è segnata dai limiti posti dalla precisione di macchina. Pertanto, quando una matrice è quasi-singolare (cioè non molto diversa da una matrice singolare), l’approssimazione per mezzo dei numeri di macchina dei risultati nelle varie fasi della procedura di calcolo dell’inversa può generare un output molto diverso da quella che è la determinazione "esatta".39 Questo tipo di errore, che non è contemplato dalla struttura probabilistica del modello di regressione lineare, determina la differnza tra la determinazione esatta di β̂ e quella ottenuta dai calcoli β̂ ∗ . In termini percentuali, possiamo esprimere tale differenza come: e= ||β̂ ∗ − β̂|| (A3-1) ||β̂|| Considerando le condizioni più semplici possibili, per misurare e, posto A = X0 X e c = X0 Y, introduciamo una perturbazione nella variabile Y (diciamo δY, cosi che δc = X0 δY) per la quale, mentre si intende risolvere il sistema Aβ̂ = c, in realtà il calcolatore risolve il sistema Aβˆ∗ = c + δc. Essendo β̂ = A−1 c e βˆ∗ = A−1 c + A−1 δc, avremo: e= ||β̂ ∗ − β̂|| ||β̂|| = ||A−1 δc|| ||A−1 c|| (A3-2) Il massimo valore del numeratore ||A−1 δc|| può essere determinato considerando che la matrice A, di dimensione k × k, è simmetrica e definita positiva e che, pertanto, può essere diagonalizzata (come nel paragrafo precedente) mediante una base ortonormale di vettori vi che generano Rk . Ogni vettore s ∈ Rk può essere rappresentato come combinazione lineare dei vettori vi mediante opportuni ed univoci coefficienti t i , Pk ottenendo: s = i=1 t i vi . Visto che ogni vi è un autovettore di A (per cui Avi = λi vi ), che vi 0 vi = 1 e vi 0 v j6=i = 0, abbiamo: ||As||2 = (As)0 As = k X 0 t i Avi k X i=1 = k X t i λi vi 0 i=1 Essendo ||s||2 = Pk i=1 t i 2 2 t i Avi i=1 k X t i λi vi = k X i=1 t i 2 λi 2 (A3-3) i=1 , indicando con λmax il massimo autovalore di A, abbiamo: ||As|| = k X t i 2 λi 2 ≤ λmax 2 ||s||2 ⇔ ||As|| ≤ λmax ||s|| (A3-4) i=1 Siccome la matrice A−1 è anch’essa simmetrica definita positiva e ha come spettro i reciproci degli autovalori di A, analogamente alla (A3-4): ||A−1 s|| ≤ 39 1 λmin ||s|| (A3-5) l’indice Variance inflation factor può essere utilizzato per misurare l’effetto della collinearità sulla stima dei parametri. Greene (2012). 18 Quindi, per il numeratore della (A3-2) abbiamo ||A−1 δc|| ≤ e= ||β̂ ∗ − β̂|| ||β̂|| ≤ ||δc|| λmin 1 ||δc|| ||β̂ ∗ − β̂|| ||β̂|| ≤ (A3-6) λmin ||β̂|| Il minimo valore del denominatore della (A3-2) sarà dato da quindi, sostituendolo nella (A3-6), abbiamo: e= e, sostituendo: ||c|| λmax ≤ ||A−1 c|| = ||β̂|| e, λmax ||δc|| λmin ||c|| (A3-7) λ L’indice di condizionamento λmax esprime il rapporto massimo possibile tra l’errore min relativo iniziale sui dati (rappresentati mediante numeri di macchina) e l’errore relativo finale commesso sui risultati (anche questi espressi in numeri di macchina). Il valore ideale minimo dell’indice di condizionamento è 1, al suo aumentare i risultati dell’elaborazione sono sempre meno accurati e se tende all’infinito l’elaborazione è impossibile (la matrice A è singolare). Il reciproco dell’indice di condizionamento, quindi, rappresenta, in termini relativi, la distanza della matrice A dalla matrice singolare ad essa più vicina, una distanza che va da 0 (se A è singolare) a 1 (nessun errore λ nell’elaborazione). L’indice λmax può essere interpretato come l’elasticità massima (o min massima reattività) dell’errore nei risultati rispetto agli errori in fase di immissione (e in qualunque altra fase dell’elaborazione) dei dati. Questi risultati possono essere generalizzati in vari modi, ad esempio considerando perturbazioni anche nella matrice A, oltre che nel vettore c, oppure analizzando il caso delle matrici non simmetriche, ottenendo, ovviamente, per il calcolo dell’indice, formule diverse dalla precedente.40 A4. Intervallo di previsione Date le ipotesi del teorema di Gauss-Markov, Ŷi = xi β̂ è la stima BLUE di EX [Yi |xi ] = xi β, l’ampiezza dell’intervallo nel quale ricade l’errore di previsione della funzione di regressione può essere stimata utilizzando la varianza campionaria del residuo ui = Ŷi − Yi = xi (β̂ − β) + εi : 0 VarX [ui |X ] = E xi (β̂ − β) + εi xi (β̂ − β) + εi −1 = σ2 1 + xi (X0 X) xi 0 (A4-1) −1 Quindi Su2 = Su2 (1 + xi (X0 X) i xi 0 ). Se accettiamo anche l’ipotesi di normalità degli errori, abbiamo che Pertanto l’intervallo di previsione di Yi sarà dato da: q Ŷi ± t (n−k,1−α/2) Sui = Ŷi ± t (n−k,1−α/2) Su (1 + xi (X0 X)−1 xi 0 ) Yi −Ŷi Sui ∼ t (n−k) . (A4-2) dove α ∈ [0,1] è un opportuno livello di fiducia assegnato. Nell’approccio della teoria asintotica la v. c. di riferimento non sarà più la t ma la z. 40 Nell’esposizione si è seguito Quarteroni e Saleri (2006, pp. 134 e ss), per una trattazione generale dell’indice di condizionamento Murli (2007, pp. 221 e ss.). 19 Se si vuole determinare l’ampiezza dell’intervallo di confidenza per l’errore che si commette prevedendo Yi con il suo valore medio E[Yi |xi ], allora Su2 deve essere i −1 Su2 (xi (X0 X) xi 0 ) stimato con (poiché il valore atteso di εi è zero). Questo l’intervallo di confidenza sarà molto meno ampio rispetto a quello determinato con la (A4-2). A5. Trasformazione di Box e Cox Talvolta è possibile applicare una opportuna trasformazione alla variabile y per fare in modo di ricondurla alla “normalità” quando questa condizione non è soddisfatta. La trasformazione di Box e Cox (1964) può essere impiegata a questo fine, essa ha il vantaggio di richiedere la stima di un unico parametro aggiuntivo λ. Poniamo che la variabile yλ ( y), trasformata della y, abbia una distribuzione normale e indichiamo con f ( yλ ) la sua funzione di densità di probabilità (la pdf, cosi che F ( yλ ) è la sua primitiva, la cdf), allora avremo che (considerando la funzione composta F ( yλ ( y))) dy la funzione di densità di y sarà data da f ( yλ ) d yλ . In pratica la trasformazione in y λ −1 questione è yλ = λ ma se λ = 0 allora si pone yλ = ln( y) (che è il limite per λ → 0 della trasformazione originaria). Con questo accorgimento la trasformazione è definita su tutto l’asse reale rispetto a λ ma solo per valori non negativi di y. Si tratta, quindi, di rendere massima la verosimiglianza rispetto al fatto che il campione sia stato estratto da una popolazione (rappresentata da yλ ) distribuita in modo normale. La funzione di verosimiglianza è la seguente: L (λ) = n Y f ( yi ) = i=1 = n Y n Y f ( yλ i ) i=1 f ( yλ i ) yiλ−1 d yλi d yi = (2πσλ2 ) −n 2 e − Pn i=1 ( yλi −µλ )2 2σ2 λ n Y yiλ−1 (A5-1) i=1 i=1 e passando al logaritmo: n n 2 X n log 2π n log σλ X ( yλi − µλ )2 l o g L (λ) = − − − + (λ − 1) log yi 2 2 2σλ2 i=1 i=1 (A5-2) raggruppando i termini costati in C, bisogna risolvere il problema: n n X X 1 2 max log L (λ) = C − log ( yλi − µλ ) + (λ − 1) log yi λ 2 i=1 i=1 (A5-3) per determinare il valore di λ. A6. Test di Wald Cosideriamo due modelli econometrici: un modello ristretto con m regressori è un modello completo con k > m regressori. Nei due modelli la variabile dipendente Y è la stessa e i primi m regressori sono gli stessi. Date le caratteristiche geometriche dei minimi quadrati, il modello ristretto produce dei residui che hanno una maggiore varianza rispetto al modello completo. Il test di Wald si pone l’obiettivo di verificare il potere esplicativo dei k − m regressori aggiunti nel modello completo rispetto a quello 20 ristretto. Il test è quindi basato sul confronto tra le varianze dei residui dei due modelli. Se i k − m regressori aggiunti nel modello completo hanno un buon potere esplicativo nei confronti della variabile Y , allora la varianza dei residui u del modello completo deve essere significativamente inferiore alla varianza dei residui u∗ prodotti dal modello ristretto. Il grafico della figura 3 (nel quale z = Y e y è il regressore aggiunto) illustra il significato geometrico di queste proposizioni: z u u* y Hz x figura 3: Test di Wald In formule:41 u∗ = Y − Xβ∗ = Y − Xβ∗ + Xβ − Xβ = Y − Xβ + X(β − β∗ ) = u + X(β − β∗ ) u∗ 0 u∗ = u0 u + (β − β∗ )0 X0 X(β − β∗ ) ≥ u0 u perché il doppio prodotto u0 X(β − β∗ ) è nullo e u∗ 0 u∗ − u0 u = (β − β∗ )0 X0 X(β − β∗ ) = ||X(β − β∗ )||2 ≥ 0 (A6-1) Sotto l’ipotesi H0 che le varianze di u∗ e u siano uguali, considerato che lo stimatore al primo membro della (A6-1) (diviso per σ2 ) si distribuisce come una v. c. χ 2 che ha (n − m) − (n − k) = k − m gradi di libertà42 e che lo stimatore u0 u (diviso per σ2 ) si distribuisce come una variabile casuale χ 2 con n − k gradi di libertà, trattandosi di due stimatori indipendenti, una volta divisi entrambi per i rispettivi gradi di libertà, il loro rapporto si distribuisce come una v. c. F di Fisher-Snedecor con k − m e n − k gradi di libertà:43 u∗ 0 u∗ −u0 u k−m u0 u n−k ∼ F(k−m,n−k) 41 (A6-2) Ancora una volta, per non appesantire la notazione, indichiamo con β i parametri stimati e non le v. c. da cui sono generati. 42 Per il teorema di Fisher e Cochran, v. Piccolo (1998, p. 508), 43 Per la dimostrazione di queste affermazioni v. Piccolo (1998, pp. 507 e ss.). Il test di Wald può essere costruito con il metodo del rapporto di verosimiglianza, v. Piccolo (1998, pp. 639 e ss.). 21 Utilizziamo le seguenti uguaglianze per definire una misura del fitting della regressione: l’indice di determinazione, indicato con R2 := Y = Xβ:45 (Ŷ−Y)0 (Ŷ−Y) 44 . (Y−Y)0 (Y−Y) Ricordando che Ŷ = Xβ e Y − Y = (X − X)β + u (Y − Y)0 (Y − Y) = β 0 (X − X)0 (X − X)β + u0 u = (Ŷ − Y)0 (Ŷ − Y) + u0 u (Ŷ − Y)0 (Ŷ − Y) (Y − Y)0 (Y − Y) u0 u (Y − Y)0 (Y − Y) + u0 u (Y − Y)0 (Y − Y) =1 = 1 − R2 (A6-3) Dividendo numeratore e denominatore della (A6-2) per (Y − Y)0 (Y − Y), possiamo verificare la seguente uguaglianza: u0∗ u∗ −u0 u k−m u0 u n−k = (R2 − R2∗ )/(k − m) (1 − R2 )/(n − k) ∼ F(k−m,n−k) (A6-4) dove R2∗ è l’R-quadro (l’indice di determinazione) del modello ristretto. Se consideriamo il modello ristretto con la sola costante (l’intercetta verticale), per qualunque modello completo con k > 1 regressori, la (A6-4) diventa:46 (Ŷ−Y)0 (Ŷ−Y) k−1 u0 u n−k = R2 /(k − 1) ∼ F(k−1,n−k) (1 − R2 )/(n − k) (A6-5) Infatti, nel modello restretto (con la sola intercetta verticale) l’indice R2∗ è pari a zero. In questo caso il test di Wald consente di esprimere un giudizio statistico complessivo su tutti i parametri del modello di regressione (escluso β0 ). Naturalmente, se k = 2, questo test produce gli stessi risultati del test t condotto sotto l’ipotesi H0 che β1 sia 2 nullo. In generale F(1,n−2) = t (n−2) , ma si può anche verificare che, per il modello di regressione semplice (con soli due parametri), la statistica al primo membro della (A6-5) è pari al quadrato della statistica che compare al primo membro della (19). 44 Questa definizione dell’R2 è frutto della scomposizione della devianza totale della Y nella somma della devianza della stima Ŷ e della devianza dei residui u e non rispetta il criterio generale di parsimonia che dovrebbe sovrintendere alla specificazione del modello di regressione. Una misura corretta, per tener conto della perdita di gradi di libertà all’aumentare del numero dei regressori, è data dall’indice S2 di determinazione corretto R2c = 1 − S 2u . Altre misure di fitting proposte per selezionare la migliore Y specificazione del modello sono l’Akaike Information Criterion (AIC), il Bayesian Information Criterion (BIC) e il Criterio di Schwarz. In ogni caso questi indici cercano di coniugare l’obiettivo di ridurre la varianza dei residui con la necessità di rendere semplice il percorso esplicativo che mira ad interpretare la variabile dipendente, riducendo al minimo il numero di regressori (si tratta, in ogni caso, di proporre una soluzione accettabile al trade-off che sussite tra questi due obiettivi). 45 I simboli Y e X indicano rispettivamente la media campionaria di Y e il vettore riga delle medie campionarie delle colonne della matrice X. 46 Siccome in questo caso u0∗ u∗ = (Y − Y)0 (Y − Y), dal secondo passaggio della (A6-3) segue che: u0∗ u∗ − u0 u = (Y − Y)0 (Y − Y) − u0 u = (Ŷ − Y)0 (Ŷ − Y) 22 Una ulteriore applicazione del test di Wald è il test di Chow per il confronto di due identici modelli definiti su set di dati alternativi e tra loro indipendenti. L’ipotesi H0 è che i due modelli presentano gli stessi coefficienti contro l’ipotesi alternativa che i coefficienti sono diversi. Il test di Chow può essere impiegato per verificare la stabilità strutturale del modello (che consegue all’accettazione di H0), oppure per individuare un break strutturale verificatosi nel tempo o per quantificare l’impatto di un trattamento (ad esempio un intervento di policy) sulla variabile dipendente (in questi due casi l’ipotesi statistica è confermata se si rifiuta H0). Il modello vincolato stima i parametri sulla totalità delle osservazioni (producendo, così, una maggiore devianza dei residui u∗ ). Il modello non vincolato stima gli stessi parametri su dei sottoinsiemi di dati (tipicamente ripartiti in due sottoinsiemi). La devianza dei residui del modello non vincolato u0 u = u1 0 u1 + u2 0 u2 è minore di quella del modello vincolato per costruzione ed è ottenuta come somma dei residui stimati nei diversi sottoinsiemi nei quali è stato diviso il campione. Supponendo che i dati costituiti da n osservazioni siano stati ripartiti in due sottoinsiemi di numerosità n1 e n2 , con riferimento alla (A6-2), i gradi di libertà del numeratore saranno dati da (n − k) − [(n1 − k) + (n2 − k)] = k e quelli del denominatore da (n1 − k) + (n2 − k) = n1 + n2 − 2k = n − 2k: u∗ 0 u∗ −u0 u k u0 u n−2k ∼ F(k,n−2k) (A6-6) A7. Stima numerica di massima verosimiglianza Sia `(β) il logaritmo della funzione di verosimiglianza L (x;β), la massimizzazione ∂ `(β) di quest’ultima si effettua risolvendo l’equazione di verosimiglianza ∂ β = 0. Molto spesso questa equazione non ha una forma risolvibile rispetto a β, allora è necessario utilizzare dei metodi numerici applicati allo sviluppo in serie di Taylor dell’equazione di verosimiglianza (nel punto β0 ): ∂ 2 `(β0 ) ∂ `(β̂) ∂ `(β0 ) ' + (β̂ − β0 ) '0 ∂β ∂β ∂ β2 2 −1 ∂ `(β0 ) ∂ `(β0 ) β̂ ' β0 − 2 ∂β ∂β (A7-1) Quindi, è possibile utilizzare un processo iterativo per trovare la soluzione β̂, basta sostituire β̂ con βn+1 e β0 con βn ad ogni iterazione fino a quando |βn+1 − βn | non risulta minore ad un valore piccolo fissato a piacere (eventualmente, il doppio della precisione di macchina). Tale procedimento è detto metodo di Newton, la sua f (x) formulazione generale è: x n+1 = x n − f 0 (x) . La convergenza a β̂ non è sempre garantita, tutto dipende dalle caratteristiche della funzione di cui bisogna determinare gli zeri. Non è detto che le derivate prime della funzione f (x) siano esprimibili in forma analitica, in tal caso è necessario una loro approssimazione (ottenuta calcolando la pendenza della retta che interseca la f (x) in due punti vicini). In ogni caso il metodo può fallire per vari motivi. 23 A8. Varianza dei parametri e log-verosimiglianza R∞ Sia f (x;β) una funzione di densità di probabilità, per definizione −∞ f (x;β)d x = 1 è costante rispetto a β. Quindi, se vi sono le condizioni per applicare il teorema di Libeniz, differenziando rispetto a β: ∂ ∂β ∞ ∞ ∂f f f (x;β)d x = dx = −∞ ∂ β f −∞ Z Z ∞ ∂ log f f dx = −∞ ∂ β Z Z `0 f = E[`0 ] = 0 (A8-1) dove ` è la funzione di log-verosimiglianza e `0 è la sua derivata rispetto a β (tale derivata è detta anche score). La somma delle varianze di ogni componente di `0 (una per ogni osservazione campionaria) è definita informazione di Fisher ed è indicata con (nI) := Var[`0 ]. Il valore I indica di quanto varia la pendenza del piano tangente alla funzione di log-verosimiglianza nell’intorno di β. Quanto maggiore è questa varianza, tanto più le sezioni superiori di ` saranno “vicine” alla perpendicolare passante per β. Consideriamo la derivata seconda `00 di ` rispetto a β, per essa si ha: `00 = f 00 f − f 0 f 0 f 00 ∂ `0 ∂ f0 = = − (`0 )2 = ∂β ∂β f f2 f Prendendo il valore atteso di ambo i membri della (A8-2): Z 00 Z 0 2 0 2 0 2 f ∂2 00 E[` ] = f − E (` ) = f − E (` ) = −E (` ) = −Var[`0 ] 2 f ∂β (A8-2) (A8-3) Quindi: Var[`0 ] = E (`0 )2 = −E[`00 ] (la varianza di `0 è pari all’opposto della matrice hessiana della funzione di log-verosimiglianza). Se nella (A7-1) si pone β0 uguale al valore vero di β, allora: ∂ 2 `(β) β̂ − β = − ∂ β2 −1 ∂ `(β) `0 = − 00 ∂β ` e, moltiplicando ambo i membri della (A8-4) per naria): p p (A8-4) n (dove n è la numerosità campio- −1 `0 n `0 `00 n(β̂ − β) = − p 00 = − p n` n n (A8-5) Essendo `0 pari alla sommma di tutte le sue componenti (log f (X i ;β)), per il teorema 0 p 0 limite centrale, la distribuzione del termine p` n = n `n tende ad essere quella di v. c. normale con media zero è varianza nI: N (0,nI). Per la legge dei grandi numeri il 00 termine `n (pari alla media delle varianze delle singole componenti di `0 ) si approssima p a nI all’aumentare di n. Pertanto, n(β̂ − β) tende ad essere distribuito come una v. c. normale N (0,(nI)−2 (nI)) = N (0,(nI)−1 ). In definitiva, all’aumentare di n, la distribuzione di β̂ risulta approssimarsi a quella di v. c. normale N (β,(nI)−1 ) dove (nI)−1 è l’inversa della matrice delle varianze-covarianze dello score (o matrice inversa dell’informazione di Fisher).47 I termini diagonali della matrice (nI)−1 approssimano le varianze delle stime dei parametri β̂. La varianza di ogni stimatore non distorto 47 La matrice (nI) è più spesso indicata con I, inglobando il fattore n. 24 ottenuto con il metodo della massima verosimiglianza ha un limite inferiore stabilito 1 1 dalla disuguaglianza di Cramér-Rao: Var[β̂] ≥ (nI) = Var[` 0 ] . Infatti, per uno stimatore non distorto: Z Z Z ∂ β̂ f = β ⇒ β̂ f = β̂`0 f = E[β̂`0 ] = 1 (A8-6) ∂β ricordando che cov[x, y] = E[x y] − E[x]E[ y] e che E(`0 ) = 0, abbiamo: E[β̂`0 ] = cov[β̂`0 ] = 1 e, per la disuguaglianza di Schwarz:48 2 1 = cov[β̂`0 ] ≤ Var[β̂]Var[`0 ] che dimostra la disuguaglianza di Cramér-Rao. I precedenti risultati forniscono fondamento teorico a gran parte della statistica inferenziale e, in particolare, consentono di capire la logica di uno dei test statistici più generali, il test del rapporto di verosimiglianza. Tale test è basato sul confronto di due massimi della funzione di verosimiglianza, il primo relativo ad un modello ristretto (nel quale, ad esempio, alcuni parametri sono posti pari a zero) e il secondo relativo ad un modello senza restrizioni (che, ad esempio, include tutti i parametri). Se la funzione di verosimiglianza del modello ristretto raggiunge un valore massimo significativamente maggiore del massimo della funzione di verosimiglianza del modello senza restrizioni, allora non è possibile rifiutare l’ipotesi H0 che il modello ristretto sia più verosimile del modello senza restrizioni, viceversa è necessario accettare l’ipotesi alternativa (favorevole al modello con restrizioni) e, quindi, rifiutare H0. Si tratta di L prendere una decisione in base al valore assunto dal seguente rapporto: Q = L0 dove la A massima verosimiglianza al numeratore è funzione dei parametri del modello ristretto, mentre quella al denominatore è funzione dei parametri del modello senza restrizioni. Espandendo in serie di Taylor il logaritmo del numeratore di Q (nell’intorno di βA), otteniamo: 1 `0 = `A + (β0 − βA)`0 + (β0 − βA)2 `00 2 0 considerato che (data H0) E[` ] = 0 in βA e che, quindi, in tale punto del dominio di `A, risulta `0 ' 0, possiamo scrivere: −2logQ = −2(`0 − `A) = −(β0 − βA)2 `00 Dai paragrafi precedenti sappiamo che −`00 ' −E[`00 ] è l’informazione di Fisher (nI), pertanto −2(`0 −`A) si distribuisce come (β0 − βA)2 (nI). Ma, per quanto si è dimostrato nel paragrafo precedente, (β0 − βA) si distribuisce come un v. c. normale N (0,(nI)−1 ) e 1 ciò implica che (β0 − βA)(nI) 2 si distribuisce come una v. c. normale standard N (0,1). Quindi, abbiamo che (β0 − βA)2 (nI) si distribuisce come una variabile casuale χ g2 , dove g è la differenza tra il numero di parametri del denominatore e il numero di parametri del numeratore. Si è cosi determinato che la statistica −2logQ si distribuisce come una v. c. χ g2 . Tale risultato è noto come teorema di Wilks (Piccolo, 1998, p. 647). 48 R R R 2 Per dimostrare la disuguaglianza di Cauchy-Schwarz, ( g f ) ≤ ( g 2 )( f 2 ), basta considerare la funzione di t definita come che l’integrale del suo quadrato è sempre non negativo R R R g + t f e verificare R (g + t f )2 = ( g 2 ) + 2t( g f ) + t 2 ( f 2 ) ≥ 0. Ciò può verificarsi solo se il discriminante di questa R R R 2 equazione di secondo grado in t è minore di zero: ( g f ) −( g 2 )( f 2 ) ≤ 0 (cvd). Tale discriminante è uguale a zero solo se g e f sono linearmente dipendenti, per cui esiste un t tale che la funzione R R R 2 g + t f = 0. In questo caso ( g f ) = ( g 2 )( f 2 ). 25 A9. Teorema limite centrale La formulazione più semplice del teorema limite centrale riguarda la convergenza della somma standardizzata di n v. c. X i ∼ iid verso la distribuzione normale standardizzata. Indicando con σ2 la varianza e con µ la media delle v. c. X i : Pn Pn Pn X − E i i i Xi i X i − nµ q Pn = p 2 nσ Var i Xi P p 1 Pn n 1 n n i Xi −µ n i Xi −µ ∼ N (0,1) (A9-1) = = σ p σ n Quindi, si ha che all’aumentare di n: p 1 Pn n n i Xi −µ p ∼ N (0,1) ⇔ n(X n − µ) ∼ N (0,σ2 ) σ dove X n è la media campionaria delle n v. c. X i . 26 (A9-2) B0. Test statistici premessa Nel test delle ipotesi statistiche α è la probabilità di commettere l’errore del Io tipo: rifiutare l’ipotesi H0 quando essa è vera. Fissato α, rifiuto H0, al livello α, se il valore stimato a partire dalla realizzazione campionaria ricade nella Regione Critica (la regione dello spazio parametrico che, dato il campione e il valore prescelto per α, implica il rifiuto dell’ipotesi nulla H0). Nel seguito n è la numerosità del campione, e: n n 1 X S = (x i − x)2 n − 1 i=1 1X x= xi n i=1 2 (1) sono rispettivamente la media e la varianza campionarie. In generale faremo riferimento a popolazioni distribuite in modo normale e ipotizzeremo che i campioni siano casuali (rappresentativi), cioè costituiti da realizzazioni di variabili casuali indipendenti ed identicamente distribuite (distribuite come la popolazione).49 B1. Test sulla media 1. Se la varianza σ2 della popolazione dalla quale è stato estratto il campione è nota, allora la seguente statistica (calcolata sotto l’ipotesi H0: la media della popolazione è uguale a µ0 ) è la realizzazione di uno stimatore che si distribuisce come una variabile casuale normale standardizzata: z ∼ N (0,1), zc = x − µ0 p σ/ n (2) l’ipotesi H0, può essere rifiutata al livello di significatività α, se |zc | > zα/2 . Dove, zα/2 è il valore teorico di z che delimita la Regione Critica (corrispondente ai valori di z più distanti dalla media che possono verificarsi con probabilità α).50 2. Se la varianza della popolazione è incognita, lo stimatore della media, che si distribuisce come una variabile casuale t di Student con n − 1 gradi di libertà51 , da luogo al calcolo della seguente statistica: tc = x − µ0 p S/ n (3) l’ipotesi H0, può essere rifiutata al livello di significatività α, se |t c | > t n−1,α/2 . Dove, t n−1,α/2 è il valore teorico di t n−1 che delimita la Regione Critica (corrispondente ai valori di t n−1 più distanti dalla media che possono verificarsi con probabilità α). L’ipotesi potrebbe essere formulata in modo unidirezionale e, in questo caso, il confronto dovrebbe essere effettuato con il valore t n−1,α . 49 V. Piccolo D., 1998, Statistica, Il Mulino, Bologna. V. figura 4. 51 In quanto al punto precedente si è sostituita al denominatore della statistica σ con S. 50 27 Il test sulla differenza tra i valori medi di due campioni casuali indipendenti (di numerosità n ed m) generati da variabili casuali normali è basato sull’ipotesi che le varianze delle due popolazioni, X e Y , siano uguali anche se incognite. L’ipotesi H0 afferma che la differenza tra le medie delle due popolazioni è d0 contro l’ipotesi alternativa H1 che tale differenza sia maggiore di (minore o diversa da) d0 . La statistica da calcolare è: v t nm(n + m − 2) x − y − d0 (4) tc = q n+m (n − 1)S 2 + (m − 1)S 2 x y essa dovrà essere confrontata con il valore teorico della variabile casuale t di Student in corrispondenza ad n + m − 2 gradi di libertà ed opportuni livelli di α/2 o α (a secondo che l’ipotesi sia bidirezionale, |t c | > t n+m−2,α/2 , o unidirezionale t c > t n+m−2,α ). In sostanza questo test verifica se le due popolazioni sono somiglianti. Per campioni grandi la precedente statistica può essere semplificata nel modo seguente: zc = q x − y − d0 (5) S 2x /n + S 2y /m da confrontare con i valori della variabile casuale normale standardizzata zα o zα/2 secondo i casi. Se le varianze sono diverse (problema di Behrens-Fisher), un test asintotico (test di Welch), può essere basato sulla seguente statistica: tc = q x − y − d0 (6) S 2x /n + S 2y /m e i gradi di libertà della variabile casuale t di Student saranno dati dall’espressione: S 2x /n − S 2y /m (7) S 2y S 2x + n2 (n−1) m2 (m−1) Il test sulla differenza tra valori medi per dati appaiati è riferito a coppie di variabili casuali. L’ipotesi nulla è specificata come H0 : µ x − µ y = v0 contro l’ipotesi alternativa H1 : µ x − µ y > v0 . La statistica del test è: tc = d − v0 p Sd / n (8) dove: n di = x i − yi d= 1X (x i − yi ) n i=1 Sd2 = n 1 X (di − d)2 n − 1 i=1 (9) Fissato α, l’ipotesi H0 viene rifiutata, al livello α, se t c risulta maggiore al valore teorico t n−1,α . Anche in questo caso l’ipotesi potrebbe essere bidirezionale e il valore teorico della v. c. t di Student da prendere in considerazione sarà t n−1,α/2 . Un caso particolare di test sulla media è quello del test asintotico sulla proporzione. Nel caso dell’ipotesi semplice unidirezionale, H0 è formulata come p = p0 28 contro H1 : p > p0 . La distribuzione del carattere in esame è di tipo bernoulliano: ogni elemento assume l’attributo 1 con probabilità p e valore 0 con probabilità (1 − p). La media della popolazione è, quindi, pari a p e la varianza della popolazione è p(1 − p). La statistica da calcolare per sottoporre a test l’ipotesi H0 è: zc = p p̂ − p0 (10) p0 (1 − p0 )/n dove p̂ è la media campionaria (la somma dei valori 0 e 1 divisa per n). L’ipotesi H0 verrà rifiutata se zc > zα . Quest’ultimo test, in definitiva, sottopone a verifica un’ipotesi sull’andamento delle frequenze di un attributo. In questa stessa tipologia rientra anche il test sulla differenza tra le frequenze relative di un attributo detto anche test sul confronto tra proporzioni relative a variabili casuali indipendenti. L’ipotesi H0 sostiene che la differenza tra le due proporzioni è pari a d0 e l’ipotesi alternativa H1 è espressa da pˆx − pˆy > d0 . La statistica da calcolare è: zc = p pˆx − pˆy − d0 (11) p̂(1 − p̂)(1/n + 1/m) dove: p̂ = n pˆx + m pˆy (12) n+m Il valore calcolato dovrà essere posto a confronto con la variabile casuale normale standardizzata zα o zα /2 a secondo che l’ipotesi sia rispettivamente unidirezionale (tenuto conto del verso) o bidirezionale. B2. Test sulla varianza Se non è nota la media della popolazione dalla quale è stato estratto il campione, l’ipotesi H0 che può essere sottoposta a test è la seguente: H0 : σ2 = σ02 contro H1 : σ2 > σ02 . Calcolata la seguente statistica: χc2 = n−1 σ02 S2 (13) 2 essa deve risultare maggiore del valore teorico χn−1,α corrispondente al livello di significatività α e ad n−1 gradi di libertà. Nel caso sia nota la media bisogna considerare n gradi di libertà. Se l’ipotesi è formulata come: H0 : σ2 = σ02 contro H1 : σ2 6= σ02 allora, il rifiuto di H0, al livello di significatività α, sarà possibile solo se la statistica χc2 assume valori esterni all’intervallo che ha come estremi, rispettivamente, inferiore e superiore i valori teorici: 2 χn−1,1−α/2 2 χn−1,α/2 (14) Il test sul rapporto tra le varianze di variabili casuali normali e indipendenti sottopone a verifica l’ipotesi H0 : σ2x = σ2y contro l’ipotesi alternativa H1 : σ2x > σ2y . La statistica da calcolare è: Pn 1 2 S 2x n−1 i=1 (x i − x) Fc = 2 = 1 Pm (15) 2 Sy ( y − y) i m−1 i=1 29 e i valori critici teorici della v. c. Fn−1,m−1 di Fisher-Snedecor per n − 1 e m − 1 gradi di libertà sono quelli corrispondenti al livello di significatività α o 1 − α (secondo la direzione), nel caso unidirezionale, oppure α/2 e 1 − α/2 nel caso bidirezionale. È utile tener presente la seguente relazione: Fn−1,m−1,1−α = 1 Fn−1,m−1,α (16) Questo test permette di rifiutare l’ipotesi nulla di uguaglianza delle varianze solo quando il numeratore della statistica e molto diverso dal denominatore. B3. Test non parametrici Il test sulla bontà di adattamento formula l’ipotesi H0 che le frequenze osservate siano uguali alla frequenze teoriche di un preciso modello probabilistico. La statistica necessaria per effettuare questo confronto tra frequenze osservate e frequenze teoriche è la seguente: χc2 k X (ni − npi )2 = npi i=1 (17) dove ni sono le frequenze osservate per le k classi la cui unione costituisce il supporto delle probabilità pi , quindi i valori npi sono le frequenze teoriche calcolate in base al modello probabilistico scelto dall’ipotesi H0. Fissato il livello α, la regione critica per il 2 rifiuto di H0 è data da χc2 > χk−1,α . Il test sulla indipendenza formula l’ipotesi H0 di indipendenza di due variabili casuali, X e Y . La statistica del test è costruita in base allo scostamento tra frequenze osservate ni j e frequenze teoriche n̂i j calcolate sotto l’ipotesi di indipendenza: χc2 = k X h X (ni j − n̂i j )2 i=1 j=1 n̂i j (18) La regione critica per H0 è χc2 > χ(k−1)(h−1),α . B4. ANOVA L’ANOVA (analisi della varianza) analizza le medie in più di due gruppi mediante il confronto delle devianze. Questa metodologia è basata sulla decomposizione della devianza totale, D, di un fenomeno multivariato nel quale un determinato effetto y può dipendere da k cause (o trattamenti): nj nj k X k X k X X X 2 2 D= ( yi j − y) = ( yi j − y j ) + n j ( y j − y)2 = DW + DB j=1 i=1 j=1 i=1 (19) j=1 dove y è la media globale, y j è a media del gruppo j soggetto alla causa j, D è la devianza globale, DW è la devianza all’interno dei gruppi (within) e DB è la devianza tra 30 i gruppi (between). Dividendo le devianze per i rispettivi gradi di libertà, si ottengono la varianza within e la varianza between, rispettivamente: 2 SW = DW n−k SB2 = DB k−1 Pn j ( yi j − y j )2 (20) Considerato che: k X n−k = (n j − 1) S 2j = j=1 i=1 nj −1 (21) risulta: Pk 2 SW 2 j=1 (n j − 1)S j = Pk j=1 (n j − 1) (22) per cui la varianza within è una media ponderata delle varianze all’interno di ogni gruppo. Il test statistico F di Fisher-Snedecor può essere utilizzato per stabilire se la varianza between è significativamente maggiore della varianza within. L’ipotesi nulla è che le due varianze siano uguali, il suo rigetto significa che almeno una causa ha agito, modificando la variabilità dell’effetto medio tra i gruppi oltre il livello medio di variabilità registrato all’interno dei gruppi. I gradi di libertà del numeratore della statistica sono k − 1 e quelli del denominatore son n − k, pertanto il valore calcolato dalla statistica: Fc = SB2 2 SW (23) verrà confrontato con i valore teorico, dipendente da α, della v.c. Fk−1,n−k,α . Perché sia valida questa procedura è necessario verificare che le componenti erratiche individuali siano distribuite normalmente. 31 B5. Esempio di individuazione della Regione Critica Il grafico seguente mostra un esempio di individuazione della regione critica per un test unidirezionale sulla media nel caso della v. c. z. 0.3 0.2 RC(α)=zc > zα 0.1 Densita della v.c. normale standardizzata 0.4 Individuazione della Regione Critica per H0 0.0 α −3 −2 −1 0 1 zα 2 3 z figura 4: La regione critica per H0, RC(α), va da zα a ∞. B6. Simulazione della regressione lineare in R Per studiare la regressione può essere conveniente simulare il DGP (data generating process) e poi inferire dai dati le caratteristiche del DGP che sono, in realtà, già note. Ciò permette di verificare i risultati e di constatarne la coerenza rispetto alle prescrizioni teoriche del modello di regressione lineare. Poniamo che le osservazioni ( yi , x i ) siano generate da una relazione lineare con errori che si distribuiscono come una v.c. normale standardizzata ε ∼ N (0,1): y i = β0 + β1 x i + ε i dove β0 = 5 e β1 = 1.2 [v. R1 e figura 5]. Uno dei test utilizzati per verificare la corretta specificazione funzionale del modello di regressione è il test di Ramsey (reset test).52 Se il modello è stato specificato correttamente non si può rifiutare l’ipotesi H0: «la forma funzionale è ben specificata» dato il valore del p-value (che deve risultare maggiore di 0.05 per accettare H0). Inoltre, in base alle ipotesi sul modello di regressione, i residui dovrebbero distribuirsi in modo "normale" (vedi grafico in alto a destra della figura 5). L’analisi 52 Per i test citati è necessario caricare alcune librerie - ad. es. lmtest - come specificato negli esempi. 32 15 5 10 y 2 4 6 8 10 x figura 5: Scatter plot (x i , yi ) grafica consente di avere un’idea della distribuzione degli errori e l’ipotesi di normalità può essere verificata applicando il test di Shapiro-Wilk sulla normalità dei residui êi −e (preventivamente standardizzati con la trasformazione σ ), in tal caso l’ipotesi H0: «i e residui sono distribuiti come una v.c. normale» può essere accettata solo se il p-value è sufficientemente elevato. Con obiettivi analoghi, dal grafico della figura 7 (Normal Q-Q Plot), si può verificare se gli errori standardizzati si distribuisco come la v. c. normale standardizzata: i punti dovrebbero disporsi lungo la retta a 45o , se è verificata l’ipotesi di normalità. Riguardo alla corretta specificazione del modello di regressione lineare, è utile esaminare il grafico dei residui rispetto ai valori stimati della variabile dipendente: i punti dovrebbero disporsi orizzontalmente rispetto alle ascisse e simmetricamente rispetto alla linea orizzontale con intercetta zero (v. grafico in basso a sinistra nella figura 6). Lo stesso tipo di grafico può essere tracciato rispetto ad ogni variabile esplicativa: se la disposizione dei residui non è casuale ciò indica che il modello "vero" non è lineare rispetto a quel particolare regressore. Per testare l’eteroschedasticità dei residui si può utilizzare il test di Breusch-Pagan per l’ipotesi H0: «la varianza degli errori e costante» (omoschedasticità) che verrà accettata se il p-value è elevato. Soprattutto per le serie storiche viene utilizzato il test Durbin-Watson per verificare che non vi sia autocorrelazione nei residui sotto l’ipotesi H0: «i residui sono incorrelati» che può essere accettata se il valore del p-value è abbastanza alto. Nello stesso contesto seriale è possibile utilizzare la funzione di autocorrelazione totale (acf) e la funzione di autocorrelazione parziale (pacf) per inferire sul processo ARMA che potrebbe aver generato i residui. In tutti i software statistici l’output del modello di regressione prevede il calcolo 33 0.2 0.0 5 0.1 10 y Density 15 0.3 0.4 Istogramma degli errori 2 4 6 8 10 −4 −2 x 0 2 4 2 4 e 4 2 −2 0 et 0 −2 Residui 2 4 Residual vs fitted 6 8 10 12 14 16 −2 Fitted 0 et−1 figura 6: Grafici della regressione e dei residui Var(e) dell’indice di determinazione R2 = 1 − Var( y) e della sua versione corretta (non distorta): (N −1)Var(e) R2c = 1− (N −k−1)Var( y) (dove k è il numero delle variabili esplicative). l’indice R2 (come la sua versione corretta) indica quanta parte della variabilità complessiva (TSS: Total Sum of Squares) della variabile dipendete y è spiegata dalla regressione ed è, quindi, basato sulla decomposizione della varianza: la variabilità totale è uguale per definizione alla somma della variabilità della regressione (ESS: Explained Sum of Squares della stima ŷ) e della variabilità degli errori (RSS: Residual Sum of Squares). Un test globale su tutti i parametri del modello di regressione può essere condotto con il test F di Fisher che confronta la variabilità della stima ŷ con la variabilità dei residui ê. L’ipotesi nulla è H0:«le variabili esplicative non spiegano la variabile dipendente» (tutti i coefficienti del modello non sono significativamente diversi da zero). Per rifiutare tale ipotesi (ed attribuire qualche validità al modello) è necessario che la Fc calcolata sotto H0 sia sufficientemente maggiore della F t eor ica , ottenuta in corrispondenza di k e n − k − 1 gradi di libertà (e cioè che il p-value sia sufficientemente piccolo). Il test sui singoli coefficienti β̂ j formula l’ipotesi H0: «il coefficiente β̂ j è, in media, pari a zero» e confronta la statistica test t̂ j = β̂ j σ̂β j con la t t eor ica che si distribuisce come la variabile casuale t di Student ed è ben approssimata dalla normale standardizzata al crescere della numerosità delle osservazioni. La t calcolat a deve essere significativamente maggiore della t t eor ica e, quindi, il p-value deve essere abbastanza piccolo per poter rifiutare H0. Utili informazioni al riguardo possono essere dedotte anche dagli intervalli di confidenza che scaturiscono da questo test (ad es. la posizione dello zero). 34 1 0 −2 −1 Sample Quantiles 2 3 Normal Q−Q Plot −2 −1 0 1 2 Theoretical Quantiles figura 7: Adattamento dei residui alla Normale Codice in R In sequenza, cercando di rispettare l’ordine degli argomenti trattati nel testo: R1 #Il DGP dell’esempio n<-500 # numerosità del campione e<-rnorm(n,0,1) # genera una v.c. normale x<-runif(n,1,10) # genera la variabile esplicativa x y=5+1.2*x+e # genera la variabile dipendente y plot(x,y) # il grafico cor.test(x,y,method="pearson") # test sulla correlazione R2 # La stima del modello library(lmtest) # carica la libreria lmtest r<-lm(y ~ x) # stima del modello lineare summary(r) # mostra i risultati della stima confint(r) # intervalli di confidenza dei coefficienti names(r) # mostra le informazioni contenute in r e<-residuals(r) # salva i residui stimati in e resettest(r) # reset test sulla regressione t.test(e) # test sulla media dei residui shapiro.test( 35 (e-mean(e))/sd(e)) # test di normalità dei residui R3: analisi grafica # Regressione e distribuzione errori par(mfrow=c(2,2)) # divide il grafico plot(x,y) # nube dei punti abline(r, col="red", lwd=2) # linea di regressione hist(e,freq=F, ylim=c(0,.45), main="Istogramma",cex.main=.92) # istogramma rug(e,lwd=.25,side=1) # evidenziare la concentrazione lines(density(e), lwd=2, col="blue") # densità della distribuzione z<-seq(min(e), max(e),.1) # genera il supporto lines(z,dnorm(z, mean=mean(e), sd=sd(e)), col="red", lty=2) # curva della normale standardizzata plot(fitted(r), e, ylab="Residui", xlab="Fitted", main= "Residual vs fitted") # grafico errori verso y stimato abline(h=0, col="red") # linea sulla media (zero) dei residui plot(e[-n], e[-1], xlab=expression(e[t-1]), ylab= expression(e[t])) # grafico della correlazione dei residui abline(0,1,col="red") # bisettrice par(mfrow=c(1,1)) # ripristina la finestra del grafico qqnorm((e-mean(e))/sd(e)) abline(0,1, col="red") # Normal Q-Q plot plot(x, e, ylab="Residui", xlab="x", main="Residual vs x"); abline(h=0, col="red") # grafico errori rispetto ad x pairs(data.frame(x, fitted(r), r$residuals)) # grafico pairs R4: Test sulla regressione e stima robusta # Altri test sulla regressione vcov(r) # matrice var-covarianze dei coefficienti bptest(r) # Breusch-Pagan test (omoschedasticità residui) dwtest(r) # test di Durbin-Watson (autocorrelazione residui) library(lmtest) # carica la libreria lmtest coeftest(r) # test sui coefficienti coeftest(r, df=Inf, vcov=vcovHAC(r)) # test robusto sui coefficienti library(sandwich) # carica la libreria sandwich print(vcovHC(r)) # varcov dei parametri con eteroschedasticità print(vcovHAC(r)) # con eteroschedasticità ed autocorrelazione library(robust) # libreria per la stima robusta lmRob(y ~ x) # regressione robusta summary(lmRob(y ~ x)) # riepilogo dei risultati della stima 36 Ulteriori comandi in R: Per salvare il grafico corrente nel file "scatterxy" in formato eps: par(family="Times") # da porre all’inzio dello script dev.copy(postscript, file="scatterxy.eps", height=6, width=6, horizontal=F, onefile=F, fonts="Times") dev.off() Riferimenti bibliografici Belsey, D. A., Kuh, E. e Welsch, R. E. (1980), Regression diagnostics, Wiley. Box, G. E. P. e Cox, D. R. (1964), ‘An analysis of transformations’, Journal of the Royal Statistical Society Vol. 26(2), 211–252. Davidson, R. e MacKinnon, J. G. (2003), Econometric Theory and Methods, Oxford University Press, New York. Frisch, R. e Waugh, F. V. (1956), ‘Partial time regressions as compared with individual trends’, Econometrica Vol. 1(4), 387–401. Greene, W. H. (2012), Econometric Analysis - 7/E., Prentice Hall. Lang, S. (1984), Algebra lineare - 7/E., Boringhieri, Torino. Lovell, M. (1963), ‘Seasonal adjustment of economic time series’, Journal of the American Statistical Association Vol. 58, 993–1010. Murli, A. (2007), Matematica numerica: Metodi, Algoritmi e Software. Parte prima, Liguori Editore, Napoli. Piccolo, D. (1998), Statistica, Il Mulino, Bologna. Quarteroni, A. e Saleri, F. (2006), Introduzione al calcolo scientifico, Springer Verlag. Weisberg, S. (2005), Applied Linear Regression - ed. III, Wiley. 37 Indice Il modello di regressione lineare 1 La distorsione da variabile omessa 2 Sfericità degli errori e teorema di Gauss-Markov 3 La varianza degli errori 5 L’ipotesi di normalità degli errori 6 Cenni alle proprietà asintotiche dei minimi quadrati 7 A0. Il teorema di Frisch-Waugh-Lovell e i valori anomali 10 A1. Medie e varianze condizionate 14 A2. Indipendenza tra trasformazioni di vettori di v. c. normali 16 A3. Indice di condizionamento 18 A4. Intervallo di previsione 19 A5. Trasformazione di Box e Cox 20 A6. Test di Wald 20 A7. Stima numerica di massima verosimiglianza 23 A8. Varianza dei parametri e log-verosimiglianza 24 A9. Teorema limite centrale 26 B0. Test statistici premessa 27 B1. Test sulla media 27 B2. Test sulla varianza 29 B3. Test non parametrici 30 B4. ANOVA 30 B5. Esempio di individuazione della Regione Critica 32 B6. Simulazione della regressione lineare in R 32 Bibliografia 37 38