Stime di massima verosimiglianza per un modello di regressione lineare normale. La normale multivariata Il vettore casuale (v.c.) X ha distribuzione normale n-variata con parametri µ, vettore delle medie, e Σ, matrice di covarianze, se la sua densità di probabilità è 1 1 −1 − 0 −n f (x; µ, Σ) = (2π) 2 |Σ| 2 exp − (x − µ) Σ (x − µ) . 2 Il modello di regressione lineare classico Sia yt una variabile, la cui variabilità può essere in parte spiegata come funzione lineare di una costante e di variabili non stocastiche xt,1 , xt,2 , . . . , xt,k−1 (tra loro non linearmente dipendenti), per mezzo del seguente modello di regressione yt = β0 + β1 xt,1 + . . . + βk−1 xt,k−1 + εt con εt ∼ N (0, σ 2 ) e cov(εs , εt ) = 0 per β = (β0 , . . . , βk−1 )0 , ε = (ε1 , . . . , εn )0 , x1,1 x1,2 x2,1 x2,2 X = .. .. . . xn,1 xn,2 t = 1, . . . , n, s 6= t. Ponendo y = (y1 , . . . , yn )0 , . . . x1,k . . . x2,k .. ... . . . . xn,k , lo stesso modello può essere scritto in maniera compatta y = Xβ + ε, con ε ∼ Nn (0, σ 2 In ). Un modo alternativo, ma equivalente di scrivere il modello di regressione è: y ∼ Nn (Xβ, σ 2 In ). Stima dei parametri del modello col metodo dei minimi quadrati I parametri β e σ 2 del modello di regressione sono incogniti e vanno stimati, uno dei metodi possibili è quello dei minimi quadrati (LS=least square). 1 Gli stimatori LS dei parametri β del modello sono i valori che soddisfano a n X (yt − β0 − β1 xt,1 − . . . − βk−1 xt,k−1 )2 = min, t=1 che in forma matriciale può essere riscritta (y − Xβ)0 (y − Xβ) = min . Eseguendo i prodotti si ottiene y0 y − β 0 X0 y − y0 Xβ + β 0 X0 Xβ = = y0 y − 2y0 Xβ + β 0 X0 Xβ, dove il secondo ed il terzo addendo della prima riga sono uguali essendo scalari (il trasposto di uno scalare è uguale allo scalare stesso). Ora, per trovare il minimo non resta che derivare rispetto a β e porre le derivate uguali a zero (e verificare che la matrice delle derivate seconde sia definita positiva). ∂ 0 (y y − 2y0 Xβ + β 0 X0 Xβ) = 0 ∂β −2X0 y + 2X0 Xβ = 0 β̂ LS = (X0 X)−1 X0 y. Per esercizio • Si calcoli la matrice delle derivate seconde e si mostri che tale matrice è definita positiva. • Si mostri che lo stimatore è corretto, cioè che E(β LS ) = β. • Si mostri che la matrice di covarianza dello stimatore è: E[(β LS − β)(β LS − β)0 ] = σ 2 (X0 X)−1 . Essendo β̂ LS esprimibile come combinazione lineare di variabili casuali normali, è a sua volta normale: β̂ LS ∼ Nk (β, σ 2 (X0 X)−1 ). Si può mostrare che (y − Xβ)0 (y − Xβ) s = n−k 2 2 è uno stimatore corretto di σ 2 , la cui distriuzione è (n − k)s2 ∼ χ2n−k . 2 σ Si chiami cij , il generico elemento della matrice (X0 X)−1 ; dalla teoria della normale segue che p (n − k)σ 2 β̂LSi − βi β̂LSi − βi √ p · ∼ tn−k , = √ 2 2 σ cii s cii (n − k)s2 con cui si può costruire un test t per verificare l’ipotesi H0 : βi = 0. Stima di massima verosimiglianza dei parametri del modello Un metodo alternativo per stimare β e σ 2 nel modello di regressione è la massima verosimiglianza (ML=maximum likelihood), che gode di buone proprietà statistiche (specie per grandi campioni). Visto che il modello di regressione può essere espresso con y ∼ Nn (Xβ, σ 2 In ), è possibile scrivere la densità di probabilità di y, e quindi la funzione di verosimiglianza dei parametri β e σ 2 come segue: 1 0 2 2 2 −n/2 L(β, σ ; y) = f (y; β, σ ) = (2πσ ) exp − 2 (y − Xβ) (y − Xβ) . 2σ La stima di massima verosimiglianza dei parametri è la combinazione di valori per β e σ 2 che rende massima la funzione di verosimiglianza, cioè è quel valore dei parametri che rende il campione estratto il più probabile possibile, quando il modello lineare gaussiano è corretto. In genere è più agevole cercare il massimo della trasformata logaritmica della funzione di verosimiglianza, che ha la proprietà di non alterare il valore dei parametri nei punti stazionari della funzione L(.)1 : n 1 n l(β, σ 2 ) = log L(β, σ 2 ) = − log(2π) − log(σ 2 ) − 2 (y − Xβ)0 (y − Xβ). 2 2 2σ Ponendo le derivate prime uguali a zero si ottiene: ∂l n 1 = − 2 + 4 (y − Xβ)0 (y − Xβ) = 0 2 ∂σ 2σ 2σ ∂l 1 = − 2 [2X0 Xβ − 2X0 y] = 0 ∂β 2σ 1 Infatti porre ∂L(θ) ∂θ uguale a zero, equivale a porre 3 1 ∂l(θ) L(θ) ∂θ nullo, con l(θ) = log L(θ). da cui risulta 1 (y − Xβ)0 (y − Xβ) n = (X0 X)−1 X0 y 2 σ̂M L = β̂ M L In questo caso particolare (regressione lineare gaussiana) lo stimatore di β M L coincide con lo stimatore LS (=least square=minimi quadrati) e quindi β̂ M L ∼ N (β, σ 2 (X0 X)−1 ). Proprietà del generico stimatore di massima verosimiglianza Sia θ̂ lo stimatore di massima verosimiglianza di θ 0 , e l(θ) la funzione di log-verosimiglianza che θ̂ massimizza. Sotto condizioni di regolarità (generalmente rispettate nei comuni problemi di stima), lo stimatore θ̂ è 1. Consistente: limn→∞ Pr(|θ̂ − θ 0 | < ε) = 1. √ 2. Asintoticamente normale: n(θ̂ − θ 0 ) ∼a N (0, I−1 (θ 0 )) con " # 2 0 ∂l ∂ l ∂l I(θ 0 ) = E = −E , ∂θ θ0 ∂θ θ0 ∂θ∂θ 0 θ0 matrice di informazione di Fisher. 3. Asintoticamente efficiente: infatti per n → ∞ non esiste alcuno stimatore più efficiente (a varianza più piccola) di θ̂. 4