Capitolo 4 Modello lineare generale Lo scopo del modello lineare generale è quello di studiare la dipendenza in media di una variabile aleatoria Y da k variabili esplicative non stocastiche X1 , . . . , Xk . Se le variabili esplicative sono misurate su scala a intervalli (variabili esplicative quantitative, anche dette covariate) tale studio prende il nome di analisi della regressione. Nel caso di variabili esplicative qualitative o misurate su scala ordinale si è invece in presenza di un problema di analisi della varianza (ANOVA), mentre qualora si disponga di variabili esplicative sia quantitative che qualitative si parla di analisi della covarianza (ANCOVA). 4.1 Regressione lineare multipla Si assume un modello di dipendenza lineare tra la variabile aleatoria Y e le k covariate X1 , . . . , Xk Y = β0 + β1 X1 + · · · + βk Xk + (4.1) nell’espressione precedente β0 è detto termine noto o intercetta, β1 , . . . , βk sono i coefficienti di regressione del modello, mentre ne rappresenta la componente aleatoria. Se si applica questo modello ad n unità statistiche sulle quali sono rilevate la variabile risposta Y e le covariate X1 , . . . , Xk si ottiene y1 = β0 + β1 x11 + · · · + βk x1k + 1 y2 = β0 + β1 x21 + · · · + βk x2k + 2 .. . 1-a unità 2-a unità yn = β0 + β1 xn1 + · · · + βk xnk + n n-ma unità 41 (4.2) 42 A. Pollice - Statistica Multivariata Complessivamente, indicando con y1 1 β0 y = ... ε = ... β = ... X = yn n βk 1 x11 · · · x1k .. .. .. . . . 1 xn1 · · · xnk dove X prende il nome di matrice disegno, si possono riassumere le n equazioni (4.2) nell’espressione matriciale y = Xβ + ε 4.2 (4.3) Stima dei parametri (Metodo dei minimi quadrati) Con il metodo dei minimi quadrati si determina lo stimatore b di β tale da rendere minima l’influenza della componente erratica del modello , misurata tramite la norma quadratica del vettore ε kεk2 = ε0 ε = (y − Xβ)0 (y − Xβ) (4.4) La ricerca dell’espressione algebrica dello stimatore dei minimi quadrati corrisponde dunque all’individuazione del punto di minimo assoluto della forma quadratica (4.4). Essa, considerata in funzione del vettore β, è rappresentata da un paraboloide con la concavità rivolta verso l’alto, il cui punto di minimo assoluto coincide con l’unico punto di minimo relativo. Pertanto lo stimatore dei minimi quadrati b è ottenuto calcolando la derivata della (4.4) rispetto a β ∂ 0 ∂ (y − Xβ)0 (y − Xβ) = (y y − 2β 0 X 0 y + β 0 X 0 Xβ) = −2X 0 y + 2X 0 Xβ ∂β ∂β e ponendola uguale a o si ottengono le cosiddette equazioni normali del modello lineare generale X 0 X β̂ = X 0 y (4.5) da cui risulta b = β̂ = (X 0 X)−1 X 0 y (4.6) Si noti che il problema della ricerca del minimo ammette un’unica soluzione b se X 0 X non è singolare, ovvero, posto n > k + 1, se X è a rango pieno di colonna (ossia r(X) = k + 1) cosa che accade solo se le sue colonne sono linearmente indipendenti. L’espressione cosı̀ ottenuta per b è di fatto una funzione delle osservazioni, dunque uno stimatore. Più precisamente b è uno stimatore di β lineare nei valori osservati della variabile risposta. Cap.4: Modello lineare generale 43 Tramite la stima b del vettore β si possono calcolare i cosiddetti valori teorici che assumerebbe la variabile risposta nel caso teorico di perfetta relazione lineare con le covariate e di assenza della componente aleatoria del modello ŷ = Xb = X(X 0 X)−1 X 0 y = Hy (4.7) La matrice H quadrata e di ordine n è detta matrice cappello (alla lettera dall’inglese hat matrix) ed è simmetrica ed idempotente (quindi anche semidefinita positiva). Il vettore degli scarti tra i valori effettivamente osservati e i valori teorici della variabile risposta prende il nome di vettore dei residui della regressione e = y − ŷ = (In − H)y = (In − H)(Xβ + ε) = = Xβ − X(X 0 X)−1 X 0 Xβ + (In − H)ε = N ε (4.8) Si noti incidentalmente che la matrice N = In − H definita nell’espressione precedente è simmetrica ed idempotente e che e = N y. Proprietà 4.1 Il vettore dei residui risulta ortogonale sia alla matrice disegno X che al vettore dei valori teorici ŷ. (i) X 0 e = X 0 N ε = X 0 ε − X 0 X(X 0 X)−1 X 0 ε = o 0 0 0 (ii) ŷ e = b X e = 0 (4.9) (4.10) In particolare se P nella (4.9) si considera solo la prima colonna di X ottengo u0n e = 0, ovvero ni=1 ei = 0. 4.2.1 Proprietà dello stimatore b Al fine di illustrare alcune proprietà inferenziali dello stimatore dei minimi quadrati b vengono introdotte alcune assunzioni sulla componente aleatoria del modello dette ipotesi di Gauss-Markov. (i) E(i ) = 0, (ii) E(2i ) i = 1, . . . , n 2 =σ , (iii) E(i j ) = 0, (4.11) i = 1, . . . , n (4.12) i 6= j, i, j = 1, . . . , n (4.13) Equivalentemente in notazione matriciale (i) E(ε) = o 0 (4.14) 2 (ii) E(εε ) = σ In (4.15) 44 A. Pollice - Statistica Multivariata Si noti come sotto la prima ipotesi di Gauss-Markov la (4.4) corrisponda alla somma dei quadrati degli scarti tra i valori osservati della variabile risposta e quelli attesi sotto il modello lineare, infatti la (i) permette di esplicitare la dipendenza lineare del valore atteso del vettore aleatorio y dalla matrice disegno X E(y) = E(Xβ + ε) = Xβ (4.16) Inoltre, se valgono entrambe le ipotesi Cov(y) = E[(y − Xβ)(y − Xβ)0 ] = E[εε0 ] = σ 2 In (4.17) Proprietà 4.2 (Correttezza) Se si verifica la prima condizione di Gauss-Markov, b è uno stimatore corretto. E(b) = E[(X 0 X)−1 X 0 y] = (X 0 X)−1 X 0 Xβ = β (4.18) Proprietà 4.3 (Consistenza) Se valgono entrambe le condizioni di Gauss-Markov, allora vale Cov(b) = (X 0 X)−1 X 0 Cov(y)X(X 0 X)−1 = = σ 2 (X 0 X)−1 X 0 In X(X 0 X)−1 = = σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = σ 2 (X 0 X)−1 (4.19) Si può dimostrare che se tr[(X 0 X)−1 ] → 0 per n → ∞, allora lo stimatore b è anche consistente. Proprietà 4.4 (Efficienza: Teorema di Gauss-Markov) Se valgono entrambe le condizioni di Gauss-Markov, si dimostra che b è il miglior stimatore corretto nella classe degli stimatori lineari di β (BLUE). A tal fine consideriamo un altro stimatore lineare corretto di β dato da b∗ = A∗ y con A∗ ∈ R(k+1)×n . La correttezza di b∗ implica E(b∗ ) = A∗ Xβ = β =⇒ A∗ X = Ik+1 (4.20) mentre per la (4.17) vale Cov(b∗ ) = Cov[A∗ y] = σ 2 A∗ In (A∗ )0 (4.21) quindi, tenendo conto della (4.20) e della (4.21) posso scrivere Cov(b∗ ) − Cov(b) = σ 2 A∗ In (A∗ )0 − σ 2 (X 0 X)−1 = = σ 2 A∗ In (A∗ )0 − σ 2 A∗ X(X 0 X)−1 X 0 (A∗ )0 = = σ 2 A∗ (In − H)(A∗ )0 = σ 2 A∗ N (A∗ )0 (4.22) Cap.4: Modello lineare generale 45 Poiché, come è noto, N è una matrice semidefinita positiva, allora indicando con a∗j la j-ma riga di A∗ , si ha Var(b∗j ) − Var(bj ) = σ 2 a∗j N (a∗j )0 ≥ 0 per j = 0, . . . , k (4.23) il che dimostra che ciascun elemento del vettore b∗ non può avere varianza inferiore a quella del corrispondente elemento del vettore b. 4.3 Stima dei parametri (Metodo della massima verosimiglianza) La funzione di verosimiglianza del modello lineare generale è definita aggiungendo alle ipotesi di Gauss-Markov sulla componente erratica l’assunzione distributiva di normalità della stessa i ∼ N (0, σ 2 ) per i = 1, . . . , n (4.24) La verosimiglianza dei parametri β e σ 2 , è pertanto data da n Y 1 1 √ exp − 2 (yi − β0 − β1 xi1 − · · · − βk xik )2 = 2σ σ 2π i=1 1 −n −n 0 = (2π) 2 σ exp − 2 (y − Xβ) (y − Xβ) (4.25) 2σ L(β, σ 2 ) = L’espressione di L(β, σ 2 ) dipende da β solo tramite la forma quadratica ad esponente della stessa, che peraltro non dipende da σ 2 . Quindi lo stimatore di massima verosimiglianza di β è ancora definito dalla condizione b 30 inf (y − Xβ)0 (y − Xβ) = (y − Xb)0 (y − Xb) β che coincide con quella che definisce lo stimatore dei minimi quadrati. Anche in questo caso dunque b = (X 0 X)−1 X 0 y Sotto l’assunzione di normalità della componente erratica (e quindi del vettore y) e per il Teorema 2.2 (Cramér-Wald), il vettore b ha distribuzione campionaria Nk+1 (β, σ 2 (X 0 X)−1 ). Contrariamente al metodo dei minimi quadrati, il metodo della massima verosimiglianza permette di ricavare l’espressione dello stimatore del 46 A. Pollice - Statistica Multivariata parametro σ 2 . n ∂ 1 2 −n/2 0 2 −n/2−1 L(b, σ ) = (2π) − (σ ) exp − 2 (y − Xb) (y − Xb) + ∂σ 2 2 2σ 1 0 −n/2 −n + (2π) σ exp − 2 (y − Xb) (y − Xb) × 2σ 1 2 −2 0 × (σ ) (y − Xb) (y − Xb) (4.26) 2 ponendo la derivata uguale a zero si ottiene l’equazione −n(σ̂ 2 )−1 + (σ̂ 2 )−2 (y − Xb)0 (y − Xb) = 0 che ha una sola soluzione data da 1 1 s2 = σ̂ 2 = (y − Xb)0 (y − Xb) = e0 e n n (4.27) La (4.25) è una funzione strettamente positiva di σ 2 e tende asintoticamente a 0 per σ 2 → ±∞, inoltre la sua derivata prima si annulla in un solo punto di massimo relativo che corrisponde al massimo assoluto della funzione. Pertanto per lo stimatore di massima verosimiglianza di σ 2 si ricava l’espressione precedente. Proprietà 4.5 Lo stimatore di massima verosimiglianza della varianza della componente erratica di un modello lineare non è corretto. E(s2 ) = = 1 1 1 E(e0 e) = E(ε0 N 0 N ε) = E(ε0 N ε) = n n n n n X X 1 2 = E n + n ii j hj h i n i=1 h,j=1 h6=j = n n 1 X 1X 2 nhj E(h j ) = nii E(i ) + | {z } n n | {z } i=1 = = = = =σ 2 h,j=1 h6=j =0 σ2 σ2 tr(N ) = (n − tr(H)) = n n σ2 {n − tr[X(X 0 X)−1 X 0 ]} = n σ2 {n − tr[(X 0 X)−1 X 0 X]} = n σ2 σ2 [n − tr(Ik+1 )] = (n − k − 1) n n (4.28) Cap.4: Modello lineare generale 47 nell’espressione precedente n indica l’ampiezza campionaria, mentre nhj indica il generico (h, j)-esimo elemento della matrice N . Per ottenere uno stimatore non distorto di σ 2 basta considerare n ŝ2 = s2 (4.29) n−k−1 Si può dimostrare che oltre ad essere corretto, ŝ2 è anche uno stimatore consistente e pienamente efficiente (UMVUE). Inoltre, poiché Cov(b) = σ 2 (X 0 X)−1 , possiamo ottenere uno stimatore corretto e consistente della matrice di varianze e covarianze dello stimatore b semplicemente considerando e0 e d Cov(b) = ŝ2 (X 0 X)−1 = (X 0 X)−1 (4.30) n−k−1 4.4 Scomposizione della devianza Proprietà 4.6 La devianza del vettore delle risposte osservate può essere scomposta nella somma di due componenti indipendenti che riflettono rispettivamente la variabilità intrinseca al modello e quella residuale Dev(y) = Dev(ŷ) + Dev(e) (4.31) Ricordando che per devianza di una variabile statistica si intende la somma dei quadrati degli scarti di ciascun valore dalla media, dall’espressione precedente risulta !2 !2 !2 n n n n n n X X X 1 X 1 X 1 X 2 2 2 yi − yi = ŷi − ŷi + ei − ei (4.32) n n n i=1 i=1 i=1 i=1 i=1 i=1 ovvero in termini vettoriali 1 1 1 y 0 y − (u0n y)2 = ŷ 0 ŷ − (u0n ŷ)2 + e0 e − (u0n e)2 n n n (4.33) Dalla prima proprietà dei residui (4.9) risulta u0n e = 0 e questo implica u0n (y − ŷ) = 0, ovvero u0n y = u0n ŷ, quindi, affinché valga la (4.33), basta dimostrare l’uguaglianza y 0 y = ŷ 0 ŷ + e0 e (4.34) A tale scopo è sufficiente osservare che per la (4.10) y 0 y = (y − ŷ + ŷ)0 (y − ŷ + ŷ) = = (y − ŷ)0 (y − ŷ) + ŷ 0 ŷ + (y − ŷ)0 ŷ + ŷ 0 (y − ŷ) = = e0 e + ŷ 0 ŷ + 2e0 ŷ (4.35) 48 A. Pollice - Statistica Multivariata Definizione 4.7 Il rapporto tra la devianza spiegata dal modello di regressione lineare e quella totale viene detto indice di determinazione e costituisce una misura dell’adattamento del modello ai dati osservati R2 = Dev(ŷ) e0 e =1− Dev(y) Dev(y) (4.36) La considerazione dei gradi di libertà delle devianze porta a una misura più accurata della quota di variabilità estratta dal modello. Il cosiddetto indice di determinazione corretto, considerato più appropriato qualora si disponga di un numero esiguo di osservazioni campionarie, è dato dall’espressione R̄2 = 1 − 4.5 e0 e/(n − k − 1) Dev(y)/(n − 1) (4.37) Verifica di ipotesi sui coefficienti di regressione Sul vettore dei coefficienti di regressione β possono essere formulati diversi tipi di ipotesi. Nel seguito vengono considerate alcune ipotesi nulle tutte riconducibili ad un’unica forma: (i) H0 : βj = 0 j = 1, . . . , k (ii) H0 : βj = a j = 1, . . . , k a ∈ R (iii) H0 : βj − βh = 0 j, h = 1, . . . , k (iv) H0 : β1 = · · · = βk = 0 (v) H0 : β1 = · · · = βp = 0 p ≤ k Si noti come tutte queste ipotesi, che non coinvolgono il termine noto β0 del modello, possono essere ricondotte alla forma lineare H0 : Cβ − γ = 0 (4.38) dove C e γ sono rispettivamente una matrice in Rp×(k+1) ed un vettore in Rp di costanti da specificare. Nei casi precedentemente elencati C e γ assumono la forma seguente: (i) p = 1, C = (0, . . . , 0, 1, 0, . . . , 0), γ = 0 (ii) p = 1, C = (0, . . . , 0, 1, 0, . . . , 0), γ = a (iii) p = 1, C = (0, . . . , 0, 1, 0, . . . , 0, −1, 0, . . . , 0), γ = 0 (iv) p = k, C = (o, Ik ), γ = o (v) p ≤ k, C = (O, Ip ), γ = o Cap.4: Modello lineare generale 49 Nella (i) e nella (ii) il vettore C ha tutti gli elementi nulli eccetto il (j + 1)esimo che è uguale ad uno, nella (iii) il (j + 1)-esimo e l’(h + 1)-esimo elemento di C sono rispettivamente pari ad 1 e −1, nella (iv) si sindica con o vettore di k elementi nulli e nella (v) O è la matrice p × (k + 1 − p) di elementi nulli. Supposto che si verifichino le condizioni di Gauss-Markov e sotto l’assunzione distributiva di normalità della componente erratica possiamo costruire il test del rapporto di verosimiglianze generalizzato per la verifica dell’ipotesi nulla lineare (4.38) sui coefficienti di regressione λ= supCβ=γ,σ2 L(β, σ 2 ) supβ,σ2 L(β, σ 2 ) La forma della verosimiglianza è sempre quella espressa nella (4.25), pertanto per il denominatore vale supβ,σ2 L(β, σ 2 ) = L(b, s2 ). Per il numeratore, invece, bisogna determinare le espressioni per β e σ 2 che rendono massima la verosimiglianza sotto il vincolo Cβ = γ. Poiché la verosimiglianza dipende da β solo tramite la forma quadratica ad esponente, che non dipende da σ 2 , la determinazione del punto di massimo assoluto vincolato rispetto a β della funzione di verosimiglianza coincide con quella del punto di minimo assoluto vincolato della funzione (y −Xβ)0 (y −Xβ) che geometricamente rappresenta un paraboloide con la concavità rivolta verso l’alto. Consideriamo pertanto l’equazione lagrangiana data da L(β, λ) = (y − Xβ)0 (y − Xβ) − λ0 (Cβ − γ) (4.39) Pertanto per la soluzione del problema di minimo relativo vincolato bisogna risolvere il sistema seguente ∂ 0 ∂β [y y − 2βX 0 y + β 0 X 0 Xβ − λ0 Cβ + λ0 γ] = 0 = = = ∂ 0 0 ∂λ [y y − 2βX y + −2X 0 y + 2X 0 X β̂0 β 0 X 0 Xβ − λ0 Cβ + λ0 γ] = 0 − C 0 λ̂0 = 0 C β̂0 = γ β̂0 = (X 0 X)−1 X 0 y + 12 C 0 λ̂0 = b + 21 (X 0 X)−1 C 0 λ̂0 γ = C β̂0 = Cb + 12 C(X 0 X)−1 C 0 λ̂0 β̂0 = b + (X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb) λ̂0 = 2[C(X 0 X)−1 C 0 ]−1 (γ − Cb) (4.40) 50 A. Pollice - Statistica Multivariata Il fatto che la funzione sia strettamente concava verso l’alto e che vi sia un solo punto in cui si annulano le derivate prime della funzione lagrangiana, assicura che questo è un punto di minimo relativo relativo ed assoluto della funzione (y − Xβ)0 (y − Xβ) sotto il vincolo Cβ = γ. Da considerazioni analoghe a quelle che hanno portato alla (4.27) risulta che il valore di σ 2 che rende massima L(β̂0 , σ 2 ) è invece dato da nσ̂02 = (y − X β̂0 )0 (y − X β̂0 ) (4.41) Lo scarto y − X β̂0 può essere espresso in funzione di b come la differenza tra due termini il cui prodotto è uguale a 0 y − X β̂0 = y − Xb − X(X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb) (4.42) ed infatti (y − Xb)0 X (X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb) = 0 {z } | (4.43) =e0 X=o Sostituendo la (4.42) nella (4.41) la statistica σ02 prende la forma seguente nσ̂02 = (y − Xb)0 (y − Xb) + + (γ − Cb)0 [C(X 0 X)−1 C 0 ]−1 C(X 0 X)−1 X 0 × × X(X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb) = = (y − Xb)0 (y − Xb) + (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) (4.44) Pertanto il rapporto di verosimiglianze generalizzato per la verifica dell’ipotesi lineare sui coefficienti di regressione multipla è dato da λ = L(β̂0 , σ̂02 ) = L(b, s2 ) = (2πσ̂02 )−n/2 exp(−n/2) = (2πs2 )−n/2 exp(−n/2) = {(y − Xb)0 (y [(y − Xb)0 (y − Xb)]n/2 (4.45) − Xb) + (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ)}n/2 Nel seguito di questo paragrafo si dimostra come se è vera l’ipotesi nulla H0 : Cβ = γ e sotto l’assunzione di indipendenza e normalità degli elementi i del vettore della componente erratica ε, la statistica λ−2/n − 1 = (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) e0 e (4.46) Cap.4: Modello lineare generale 51 si distribuisce come una F di Snedecor-Fisher con p ed n − k − 1 gradi di libertà. In primo luogo si prenda in considerazione il numeratore della (4.46). Poiché, come si è visto nel Paragrafo 4.3 b ∼ Nk+1 (β, σ 2 (X 0 X)−1 ), allora Cb − γ ∼ Np (Cβ − γ, σ 2 C(X 0 X)−1 C 0 ). Sotto l’ipotesi nulla e per la (2.12) si ha Λ̃1/2 Ṽ 0 (Cb − γ) ∼ Np (o, Ip ) dove Λ̃ e Ṽ sono rispettivamente la matrice diagonale degli autovalori e la matrice modale di σ −2 [C(X 0 X)−1 C 0 ]−1 , e di conseguenza (Cb−γ)0 Ṽ Λ̃Ṽ 0 (Cb−γ) = σ −2 (Cb−γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb−γ) ∼ χ2p (4.47) Si noti inoltre che sotto H0 Cb − γ = Cb − Cβ = C(X 0 X)−1 X 0 y − Cβ = = C(X 0 X)−1 X 0 (y − Xβ) = C(X 0 X)−1 X 0 ε quindi il numeratore della (4.46) assume la forma (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) = ε0 P ε (4.48) con P = X(X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 C(X 0 X)−1 X 0 . Per quanto riguarda il denominatore bisogna ricordare che la matrice N è simmetrica e idempotente, pertanto il suo rango è uguale alla traccia ovvero, dalla (4.28) r(N ) = tr(N ) = n − k − 1 e i suoi autovalori hanno tutti valore nullo o unitario. Quindi considerando la diagonalizzazione di N si ha che e0 e = ε0 N ε = ε0 V ΛV 0 ε (4.49) dove Λ e V indicano rispettivamente la matrice diagonale degli autovalori (di cui n − k − 1 valgono 1 e gli altri 0) e la matrice ortonormale degli autovettori di N . Poiché V 0 ε ∼ Nn (o, σ 2 V 0 V = σ 2 In ), si ha che la forma quadratica ε0 V ΛV 0 ε è data dalla somma dei quadrati di n − k − 1 variabili aleatorie indipendenti e distribuite secondo N (0, σ 2 ). Pertanto 1 0 e e ∼ χ2n−k−1 σ2 (4.50) Per completare la dimostrazione devo verificare che il numeratore e il denominatore della (4.46) sono indipendenti. A tale proposito si fa riferimento al teorema di Craig, la cui dimostrazione (Mardia, Kent, Bibby, 1979) esula dagli scopi di questo corso, il cui enunciato afferma che sotto l’assunzione di normalità, omoschedasticità e indipendenza degli elementi del vettore della componente aleatoria ε del modello, condizione necessaria e sufficiente affinché ε0 P ε e ε0 N ε siano indipendenti è che le matrici P ed N siano ortogonali (P N = O). 52 A. Pollice - Statistica Multivariata Poiché X 0 N = X 0 (In − X(X 0 X)−1 X 0 ) = O implica che P N = O, il numeratore e il denominatore della statistica sono indipendenti ed infine n − k − 1 (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) ∼ Fp,n−k−1 p e0 e 4.5.1 (4.51) Verifica di ipotesi su singoli cofficienti Nel caso in cui l’ipotesi nulla sia H0 : βj = a, la forma assunta da C è quella di un vettore riga (k + 1)-dimensionale con tutti gli elementi nulli eccetto il (j + 1)-esimo che è uguale ad uno, mentre γ = a. Inoltre dalla (4.30) si d j ) = ŝ2 C(X 0 X)−1 C 0 , quindi in conclusione deduce Var(b n − k − 1 (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) = p e0 e (bj − a)2 ŝ2 = (n − k − 1) = d j) (n − k − 1)ŝ2 Var(b = (bj − a)2 ∼ F1,n−k−1 d j) Var(b (4.52) e poiché F1,n−k−1 ≡ (tn−k−1 )2 , allora bj − a q ∼ tn−k−1 d Var(bj ) 4.5.2 (4.53) Verifica di ipotesi sul complesso dei coefficienti La verifica della significatività dell’ipotesi nulla (iv) relativa al complesso dei coefficienti di regressione β1 , . . . , βk può venire effettuata tramite la (4.51) con C = (o, Ik ) e γ = o. In alternativa si può utilizzare una diversa parametrizzazione per il modello lineare generale. Si noti che, detto β(0) = (β1 , . . . , βk )0 il vettore dei coefficienti di regressione del modello lineare, X(0) la matrice con elementi generici rispettivamente xij − X̄j per i = 1, . . . , n e j = 1 . . . , k ed α(0) = β0 + β1 X̄1 + · · · + βk X̄k , è possibile scrivere il modello lineare generale nella forma alternativa seguente detta modello centrato yi = α(0) + β1 (xi1 − X̄1 ) + · · · + βk (xik − X̄k ) + i ovvero y = α(0) un + X(0) β(0) + ε = un X(0) α(0) β(0) +ε (4.54) Cap.4: Modello lineare generale 53 Le due forme (4.3) e (4.54) del modello lineare generale sono equivalenti. Inoltre dalla (4.54) si ricavano facilmente le espressioni degli stimatori dei minimi quadrati dei parametri α(0) e β(0) rispettivamente α̂(0) = ȳ e b(0) = 0 X )−1 X 0 (y − ȳu ). (X(0) n (0) (0) Posto ŷ(0) = α̂(0) un + X(0) b(0) ed e(0) = y − ŷ(0) ed utilizzando il criterio del rapporto di verosimiglianze generalizzato per la costruzione del test per la verifica della significatività dei k coefficienti di regressione, si ottiene una forma analoga alla (4.51) con C = Ik e γ = o. Si dimostra facilmente che questa statistica, ampiamente ripresa nel seguito della trattazione con riferimento all’analisi della varianza e della covarianza, si distribuisce come una F di Snedecor-Fisher con k ed n − k − 1 gradi di libertà. 0 0 n − k − 1 b(0) X(0) X(0) b(0) ∼ Fk,n−k−1 k e0(0) e(0) 4.6 (4.55) Intervalli di confidenza per il vettore β Cosı̀ come nel caso del vettore delle medie, anche per il vettore dei coefficienti di regressione si possono costruire gli intervalli di confidenza simultanei per tutte le combinazioni lineari dei suoi elementi. Se a = (a0 , . . . , ak )0 è un vettore di costanti in Rk+1 , allora la combinazione lineare a0 b ha distribuzione N (a0 β, σ 2 a0 (X 0 X)−1 a), quindi a0 b − a0 β ∼ N (0, 1) σ[a0 (X 0 X)−1 a]1/2 (4.56) L’espressione precedente dipende dal parametro σ incognito. Considero una seconda statistica data dalla (4.50) e0 e (n − k − 1)ŝ2 = ∼ χ2n−k−1 σ2 σ2 (4.57) Dividendo la (4.56) per la radice quadrata della (4.57) rapportata ai propri gradi di libertà ottengo a0 b−a0 β σ[a0 (X 0 X)−1 a]1/2 1/2 (n−k−1)ŝ2 2 σ (n−k−1) = a0 b − a0 β ŝ[a0 (X 0 X)−1 a]1/2 (4.58) La (4.58) ha distribuzione tn−k−1 se il numeratore e il denominatore sono stocasticamente indipendenti. Essendo e e b le uniche variabili aleatorie 54 A. Pollice - Statistica Multivariata coinvolte nel rapporto ciò equivale a pretendere che esse siano indipendenti, ovvero (poiché entrambe normali k-dimensionali) incorrelate. La matrice di covarianze tra gli elementi di e e quelli di b è data da E[e(b − β)0 ] = E{N ε[(X 0 X)−1 X 0 y − β]0 } = = E{[In − X(X 0 X)−1 X 0 ]ε[(X 0 X)−1 X 0 (Xβ + ε) − β]0 } = = E{[In − X(X 0 X)−1 X 0 ]εε0 X(X 0 X)−1 } = = E[εε0 X(X 0 X)−1 − X(X 0 X)−1 X 0 εε0 X(X 0 X)−1 ] = = σ 2 X(X 0 X)−1 − σ 2 X(X 0 X)−1 X 0 X(X 0 X)−1 = O (4.59) Quindi, per quanto già detto a0 b − a0 β ∼ tn−k−1 ŝ[a0 (X 0 X)−1 a]1/2 (4.60) e di conseguenza l’intervallo di confidenza per combinazioni lineari degli elementi di β prende la forma seguente o n Pr a0 b − tn−k−1,α/2 ŝ[a0 (X 0 X)−1 a]1/2 < a0 β < a0 b + tn−k−1,α/2 ŝ[a0 (X 0 X)−1 a]1/2 = 1−α (4.61) 4.6.1 Intervalli di confidenza per singoli elementi di β In questo caso, posto a = (0, . . . , 0, 1, 0, . . . , 0)0 , dove l’elemento unitario è il (j + 1)-esimo, ed indicato con X̃jj l’elemento (j + 1)-esimo della diagonale di (X 0 X)−1 , si ha bj − βj q ∼ tn−k−1 (4.62) ŝ X̃jj da cui si ottiene l’intervallo di confidenza per singoli elementi del vettore β q q Pr bj − tn−k−1,α/2 ŝ X̃jj < βj < bj + tn−k−1,α/2 ŝ X̃jj = 1 − α 4.7 (4.63) Previsioni tramite il modello lineare In quanto segue con il termine previsione (o stima) di un’osservazione futura si indica la determinazione del valore non osservato yn+1 della variabile risposta Y in corrispondenza dell’osservazione X1,n+1 , . . . , Xk,n+1 delle k covariate. Cap.4: Modello lineare generale 4.7.1 55 Previsione puntuale Definizione 4.8 Posto che sia Xn+1 = (1, X1,n+1 , . . . , Xk,n+1 ), la cosiddetta funzione di previsione lineare è data da 0 ŷn+1 = b0 + b1 X1,n+1 + · · · + bk Xk,n+1 = Xn+1 b (4.64) Tale predittore è corretto, infatti 0 0 E(ŷn+1 − yn+1 ) = E(Xn+1 b) − E(Xn+1 β) = 0 (4.65) E’ anche il più efficiente, ossia quello dotato del minore errore quadratico medio nella classe dei predittori lineari. 4.7.2 Intervallo di confidenza per osservazioni future Supponendo che la (n + 1)-esima osservazione della variabile risposta sia indipendente dalle n precedenti si ha che 0 Var(ŷn+1 − yn+1 ) = Var(Xn+1 b) + Var(yn+1 ) 0 = σ 2 [Xn+1 (X 0 X)−1 Xn+1 + 1] (4.66) conseguentemente sotto l’assunzione di normalità della componente erratica ŷn+1 − yn+1 q ∼ tn−k−1 0 ŝ Xn+1 (X 0 X)−1 Xn+1 + 1 da cui ricavo che Pr ŷn+1 − tn−k−1,α/2 K < yn+1 < ŷn+1 + tn−k−1,α/2 K = 1 − α (4.67) (4.68) 0 con K = ŝ(1 + Xn+1 (X 0 X)−1 Xn+1 )1/2 . 4.8 Rimozione delle assunzioni sul modello di regressione multipla Sino a questo momento sono state effettuate alcune assunzioni al fine di poter costruire il modello lineare generale e fare inferenza sui suoi parametri. Possiamo riassumere tali assunzioni nei seguenti punti: 1. Il modello di dipendenza è lineare nei parametri. In altri termini la forma funzionale scelta per spiegare la dipendenza della variabile risposta dalle covariate è quella lineare y = Xβ + ε 56 A. Pollice - Statistica Multivariata 2. La componente erratica risulta in media ininfluente (prima condizione di Gauss-Markov) E(ε) = o 3. Le osservazioni sono tra loro incorrelate ed hanno la stessa varianza (seconda condizione di Gauss-Markov) Cov(ε) = E(εε0 ) = σ 2 In 4. La componente erratica ha distribuzione normale ε ∼ Nn (o, σ 2 In ) 5. Non vi è relazione lineare tra le colonne di X 6. Gli elementi di X sono variabili deterministiche (e non aleatorie), supposte osservate senza errore. In questo paragrafo vengono esposti i criteri per verificare se e quanto dette assunzioni siano plausibili per i dati in esame, quali siano le conseguenze della mancata validità di ciascuna assunzione, quali rimedi adottare. 4.8.1 Errata specificazione del modello L’errore nella specificazione del modello può essere dovuto all’esclusione di alcune variabili esplicative rilevanti agli effetti dello studio della dipendenza, all’inclusione di variabili esplicative superflue, ovvero alla scelta erronea della forma lineare per il modello di dipendenza. Analisi dei residui Se si verificano le condizioni 1, 2, 3 e 4, allora la forma della distribuzione empirica dei residui dovrebbe essere prossima a quella ipotizzata per la componente erratica ossia quella gaussiana. Pertanto una prima diagnostica relativa alla sussistenza delle assunzioni suddette consiste nella verifica della normalità dei residui tramite (Draper e Smith, 1981): • Normal plot dei residui. Il diagramma integrale dei residui (la rappresentazione grafica della loro funzione di ripartizione empirica) qualora la loro distribuzione sia normale ha forma sigmoidale. Il normal plot si ottiene trasformando l’asse delle ordinate y di tale diagramma Cap.4: Modello lineare generale 57 in z = Φ−1 (y), dove Φ indica la funzione di ripartizione della normale standardizzata. Tale trasformazione opera una linearizzazione del grafico, quindi il normal plot dei residui ha un andamento lineare se questi sono distribuiti normalmente. • Test per la verifica della normalità dei residui. Esistono in letteratura diverse procedure per la verifica della significatività dell’ipotesi di normalità. Tra i test di uso più frequente quello di Cucconi, quello di Shapiro-Wilk, quello di Kolmogorov. • Diagramma a punti (scatterplot) dei residui. In un diagramma a punti si rappresentano i residui ei sull’asse delle ordinate e i valori teorici ŷi corrispondenti sull’asse delle ascisse. Se si verificano le quattro assunzioni suddette, allora ŷ 0 e = 0 ed i punti del grafico si dispongono su una fascia di ampiezza costante parallela all’asse delle ascisse. Qualora l’ampiezza di detta fascia non sia costante l’assunzione di omoschedasticità (o equivarianza) delle osservazioni è in dubbio. Se invece la disposizione dei punti è evidentemente obliqua rispetto all’asse delle ascisse, allora una o più covariate significative per il modello lineare potrebbero essere state omesse (i residui mostrano una dipendenza lineare residua non spiegata dal modello). Qualora infine il grafico mostri evidenza di una relazione non lineare tra residui e valori teorici, il modello di dipendenza lineare non risulta sufficientemente complesso a spiegare le relazioni esistenti nei dati. In tal caso, una volta accertata la non linearità complessiva del modello, si può verificare la linearità della relazione tra la variabile risposta e ciascuna delle covariate tramite la costruzione dei diagammi per punti dei valori dei residui associati a quelli delle covariate. Questi grafici permettono di vedere se, al netto della dipendenza lineare già estratta esiste una relazione funzionale residua tra la variabile risposta e le variabili antecedenti. Regressione polinomiale Si consideri a titolo di esempio il modello di regressione polinomiale dato da y = β0 + β1 X1 + β2 X12 + β3 X2 + β4 X22 + β5 X1 X2 + ε (4.69) detto modello completo di secondo grado in due variabili. Per modelli di questo tipo, ovvero lineari nei parametri, le procedure inferenziali già viste rimangono valide. E’ importante tenere sotto controllo il numero dei parametri (che tende ad aumentare vertiginosamente) ed il significato logico-interpretativo del modello. 58 A. Pollice - Statistica Multivariata Modello moltiplicativo Un semplice superamento della forma lineare del modello è rappresentato dal modello moltiplicativo y = β0 X1β1 · · · Xkβk eε (4.70) dove e indica il numero di Nepero. Modelli di questa forma sono detti linearizzabili, infatti ln y = ln β0 + β1 ln X1 + · · · + βk ln Xk + ε (4.71) Se per le variabili trasformate valgono le assunzioni alla base del modello linerare (Gauss-Markov ed assenza di relazione lineare tra le covariate), allora i parametri ln β0 , β1 , . . . , βk possono essere stimati tramite il metodo dei minimi quadrati. Modelli di questo tipo sono di frequente uso in econometria, infatti in questo caso il singolo coeficiente βj oltre ad essere un numero puro (quindi confrontabile) è interpretabile come misura dell’elasticità di y rispetto ad Xj Xj dy Xj β −1 = β0 X1β1 · · · βj Xj j · · · Xkβk = βj β 1 y dXj β0 X1 · · · Xkβk (4.72) Scelta delle variabili esplicative Generalmente si dispone di un numero consistente di variabili antecedenti che si sospetta possano avere effetti causali sulla variabile conseguente. Ci sono diversi buoni motivi per voler sfoltire la lista. • Parsimonia: in generale è preferibile lavorare con modelli più semplici. E’ sempre opportuno ridurre il più possibile il rapporto tra il numero dei parametri da stimare e quello delle osservazioni disponibili. • Multicollinearità: l’eventuale presenza di relazioni lineari tra le variabili esplicative può rendere superflua la considerazione di alcune di esse. In assenza di multicollinearità tra le variabili antecedenti la scelta delle stesse può avvenire semplicemente sulla base della sola significatività dei singoli coefficienti di regressione. La presenza di multicollinearità complica la questione, infatti la significatività delle eventuali variabili rimosse dal modello non è mai nulla, poiché rimuovendo una variabile (anche se questa è poco significativa) viene introdotta una distorsione che è tanto maggiore quanto più la variabile eliminata è correlata con le altre. Cap.4: Modello lineare generale 59 In definitiva possiamo affermare che, quando in un modello si esclude una variabile che logicamente dovrebbe esservi inclusa, le conseguenze sulle stime dei parametri e sulla validità del modello stimato sono devastanti (stimatori distorti e non consistenti per β, e stima di σ distorta in senso positivo - sovrastima); mentre, quando si include nel modello una variabile irrilevante si ottengono risultati ancora accettabili, l’unica conseguenza è la perdita di efficienza nelle stime dei parametri (Piccolo, Vitale, 1981). In generale aumentando il numero delle variabili esplicative incluse nel modello la devianza dei residui tende ad diminuire. Inoltre alcune variabili esplicative potrebbero risultare statisticamente significative, e quindi venire incluse nel modello, per il solo effetto del caso. Viceversa variabili esplicative logicamente fondamentali potrebbero risultare statisticamente non significative ed essere cosı̀ escluse dal modello. Di conseguenza è difficile giungere ad un modello ottimo in generale, bensı̀ si tende considerare un certo numero di modelli all’incirca ugualmente significativi dal punto di vista statistico, tra i quali il ricercatore possa scegliere quello più idoneo, anche sulla base di considerazioni interpretative e fenomenologiche. Scelta assistita delle variabili esplicative. • Tutti i modelli possibili. Vengono stimati tutti i modelli realizzabili considerando le 2k possibili combinazioni delle covariate a disposizione e, per ciascun modello, vengono calcolate le misure di accostamento come l’indice di determinazione semplice R2 e quello corretto R̄2 . Il valore di entrambi questi indici aumenta sempre all’aumentare del numero di covariate considerato. Un indice che tiene conto del criterio della parsimonia nella scelta del modello è l’indice Cp di Mallows che, posto che il modello in questione contenga p − 1 covariate e che e0 ep indichi la devianza residua stimata in base a tale modello, è dato da Cp = e0 ep + 2p − n ŝ2 (4.73) essendo ŝ2 lo stimatore corretto (4.29) della varianza della componente erratica del modello con k covariate. L’indice di Mallows assume valore vicino a p se le p−1 variabili esplicative considerate forniscono un buon modello. • Backward elimination. Si parte considerando il modello che include tutte le variabili a disposizione. La variabile con il coefficiente di regressione meno significativo in base al test (4.53) con a = 0 viene 60 A. Pollice - Statistica Multivariata eliminata, quindi si ricalcolano le stime dei coefficienti delle variabili rimaste e si ripete il procedimento sino a quando non vi sono più covariate che risultano non significative. • Forward selection. Il modello di partenza è univariato e considera la covariata maggiormente correlata con la variabile risposta, la cui significatività viene verficata tramite il test (4.53). Le selezioni successive sono basate sul concetto di correlazione parziale. Definizione 4.9 Si definisce coefficiente di correlazione parziale tra y ed Xj date X1 , . . . , Xk il coefficiente di correlazione tra i residui della regressione di y da X1 , . . . , Xk e quelli della regressione di Xj da X1 , . . . , X k . In altri termini tale indice misura la relazione lineare tra y ed Xj al netto dell’effetto lineare di X1 , . . . , Xk . La selezione delle covariate viene condotta iterativamente considerando il coefficiente di correlazione parziale tra y e le variabili ancora da inserire, al netto delle variabili già incluse nel modello. La significatività del complesso dei coefficenti viene verificata ad ogni nuovo inserimento tramite il test (4.55). • Stepwise regression. Combinazione dei due criteri appena esposti. La selezione delle covariate da includere nel modello avviene come nel caso della forward selection. Aggiungendo successivamente una nuova variabile i coefficienti di regressione delle variabili già incluse potrebbero risultare singolarmente non significativi a causa della forte correlazione con la nuova variabile. Pertanto dopo l’iserimento di ciascuna variabile il modello viene riconsiderato per verificare se vi è qualche variabile da eliminare (come nella backward elimination). Variabili dummy Per variabili dummy si intendono delle variabili antecedenti che assumono i soli valori 0 ed 1 e servono a rappresentare la presenza (1) o l’assenza (0) di determinate caratteristiche o fattori qualitativi che si pensa possano influenzare la relazione di dipendenza. Se le osservazioni sono suddivise in un certo numero h di gruppi definiti in base ai livelli di un certo fattore, allora le h − 1 variabili dummy introdotte nel modello possono essere utilizzate come normali variabili esplicative: la significatività dei coefficienti associati implica quella della suddivisione in h gruppi sul modello causale. In altri Cap.4: Modello lineare generale 61 termini i parametri del modello di dipendenza sono significativamente diversi negli h gruppi. Se si ipotizza che il fattore influenzi il valore medio della risposta in due gruppi (h=2), il modello assume la forma seguente, dove con D si è indicata la variabile dummy y = β0 + β1 X1 + · · · + βk Xk + βD D + ε (4.74) mentre se detto fattore è supposto alterare la relazione di dipendenza con la j-esima covariata y = β0 + β1 X1 + · · · + βj Xj + βD Xj D + · · · + βk Xk + ε 4.8.2 (4.75) Eteroschedasticità e correlazione della componente erratica In questo paragrafo si considera la violazione della seconda assunzione di Gauss-Markov che prevede che le determinazioni della componente erratica siano incorrelate ed abbiano la stessa varianza. Minimi quadradrati generalizzati Posto che sia sempre valida la prima assunzione di Gauss-Markov, supponiamo che la seconda sia violata nel modo seguente E(εε0 ) = σ 2 Ω (4.76) essendo Ω una matrice quadrata di ordine n simmetrica e definita positiva. In tal caso lo stimatore b dei minimi quadrati ordinari continua ad essere corretto, ma non è più efficiente. Si consideri la decomposizione di Cholesky della matrice simmetrica, definita positiva Ω−1 Ω−1 = A0 A (4.77) Il modello ottenuto premoltiplicando per A la forma standard del modello lineare generale Ay = AXβ + Aε (4.78) soddisfa entrambe le assunzioni di Gauss-Markov: E(Aε) = AE(ε) = o (4.79) E[(Aε)(Aε)0 ] = AE(εε0 )A0 = = σ 2 AΩA0 = = σ 2 AA−1 (A0 )−1 A0 = σ 2 In (4.80) 62 A. Pollice - Statistica Multivariata Pertanto in base al modello (4.78) si può calcolare lo stimatore dei minimi quadrati (ordinari) bGLS = [(AX)0 (AX)]−1 (AX)0 (Ay) = = (X 0 A0 AX)−1 X 0 A0 Ay = = (X 0 Ω−1 X)−1 X 0 Ω−1 y (4.81) L’espressione precedente è detta stimatore dei minimi quadrati generalizzati (GLS) o di Aitken, ed è uno stimatore lineare, corretto ed efficiente. Una sua espressione alternativa è data da bGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 (Xβ + ε) = β + (X 0 Ω−1 X)−1 X 0 Ω−1 ε (4.82) Dalla (4.82) si ricava agevolmente la matrice di varianze e covarianze dello stimatore GLS Cov(bGLS ) = E{(X 0 Ω−1 X)−1 X 0 Ω−1 εε0 (Ω−1 )0 X[(X 0 Ω−1 X)−1 ]0 } = = σ 2 (X 0 Ω−1 X)−1 X 0 Ω−1 ΩΩ−1 X(X 0 Ω−1 X)−1 = = σ 2 (X 0 Ω−1 X)−1 (4.83) In generale la matrice Ω è incognita e deve essere stimata. In tal caso lo stimatore dei minimi quadrati generalizzati stimati (EGLS) è dato dall’espressione b̂GLS = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y (4.84) Vediamo ora due casi particolari in cui è possibile ottenere delle stime di Ω. Eteroschedasticità Una volta accertata l’eteroschedasticità delle componenti del vettore ε (ad esempio tramite il test di Bartlett) la forma della matrice Ω da stimare deve soddisfare 2 σ1 0 · · · 0 . 0 . . . . . . .. 0 2 = diag(σ (2) ) (4.85) E(εε ) = σ Ω = . . . . . . . . . 0 0 · · · 0 σn2 Consideriamo ora il vettore e(2) = (e21 , . . . , e2n )0 formato dai quadrati dei residui ottenuti tramite la stima dei P minimi quadrati dei parametri del modello. Poiché e = N ε, allora ei = nj=1 nij j , per i = 1, . . . , n. Quindi se le Cap.4: Modello lineare generale 63 j sono incorrelate, ma hanno varianze diverse E(e2i ) = n X n2ij σj2 i = 1, . . . , n (4.86) j=1 Indicando con N (2) la matrice che ha per elementi i quadrati degli elementi di N l’espressione precedente può essere riscritta in termini matriciali E(e(2) ) = N (2) σ (2) (4.87) quindi sostituendo nella (4.87) al valore atteso E(e(2) ) e a σ (2) le rispettive stime e(2) e σ̂ (2) , si ottiene −1 e(2) σ̂ (2) = N (2) (4.88) Lo stimatore σ̂ (2) , denominato MINQUE (MInimum Norm Quadratic Unbiased Estimator) e dovuto a Rao (1970), non è ritenuto particolarmente affidabile e può talvolta dare luogo a valori negativi per le stime delle varianze. Autocorrelazione del primo ordine In questo caso si suppone che le determinazioni della componente erratica non siano indipendenti, bensı̀ caratterizzate dal comportamento evolutivo formalizzato dall’espressione seguente i = ρi−1 + vi i = 1, . . . , n (4.89) In questa relazione ciascuna osservazione dipende dalla precedente tramite il coefficiente ρ ∈ (−1, 1), cosa che implica un preventivo ordinamento delle unità (con riferimento ad esempio all’istante di rilevazione). Se inoltre si assume che valgano E(v) = o e cov(v) = σv2 In , allora il modello di dipendenza seriale viene detto autoregressivo del primo ordine (AR(1)) e la sua conformità ai dati disponibili può essere verificata tramite il test dei segni o quello di Durbin-Watson. Si noti che applicando la (4.89) una seconda volta si ottiene i−1 = ρi−2 + vi−1 (4.90) ovvero i = ρ2 i−2 + ρvi−1 + vi (4.91) 64 A. Pollice - Statistica Multivariata ed iterando indefinitamente l’applicazione i = vi + ρvi−1 + ρ2 vi−2 + ρ3 vi−3 + · · · (4.92) con E(i ) = E(vi ) + ρE(vi−1 ) + ρ2 E(vi−2 ) + ρ3 E(vi−3 ) + · · · = 0 (4.93) 2 2 2 E(2i ) = E(vi2 ) + ρ2 E(vi−1 ) + ρ4 E(vi−2 ) + ρ6 E(vi−3 ) + ··· = = σv2 (1 + ρ2 + ρ4 + ρ6 + · · ·) = σv2 = 1 − ρ2 (4.94) E(i i−1 ) = E[(vi + ρvi−1 + ρ2 vi−2 + · · ·)(vi−1 + ρvi−2 + ρ2 vi−3 + · · ·)] = 2 2 = ρE(vi−1 ) + ρ3 E(vi−2 ) + ··· = = ρσv2 1 − ρ2 (4.95) E(i i−2 ) = ρ2 σv2 1 − ρ2 (4.96) ovvero in generale E(i i−h ) = ρh σv2 1 − ρ2 i = 1, . . . , n quindi sotto forma matriciale 1 ρ σv2 ρ2 E(εε0 ) = 2 1 − ρ .. . ρ 1 ρ .. . h(≤ i) = 1, . . . , n − 1 ρ2 ρ 1 .. . ρn−1 ρn−2 ρn−3 da cui dopo qualche passaggio si ricava 1 −ρ 0 −ρ 1 + ρ2 −ρ 0 −ρ 1 + ρ2 Ω−1 = . .. .. .. . . 0 0 0 0 0 0 · · · ρn−1 · · · ρn−2 · · · ρn−3 .. .. . . ··· 1 ··· ··· ··· .. . 0 0 0 .. . · · · 1 + ρ2 ··· −ρ (4.97) = σv2 Ω 0 0 0 .. . (4.98) −ρ 1 (4.99) Cap.4: Modello lineare generale 65 Nel caso di autocorrelazione seriale del primo ordine della componente erratica, la determinazione dello stimatore dei minimi quadrati generalizzati implica la stima del coefficiente ρ. Il metodo di Cochrane-Orcutt fa riferimento ad una procedura iterativa tramite la quale ad ogni passo viene determinata una stima di ρ che migliora quella ottenuta al passo precedente: (a) Si stimano i parametri del modello lineare come se fossero soddisfatte le assunzioni di Gauss-Markov e si determinano i residui, che vengono utilizzati ottenere una prima stima di ρ tramite ρ̂1 = P Pn per n 2 ; e e / e i i−1 i=2 i=2 i−1 (b) si considera la stima corrente di ρ nel modello dei minimi quadrati generalizzati e si ricalcolano i residui; (c) si utilizzano detti residui per ottenere la stima successiva di ρ con lo stesso procedimento; (d) si riprende da (b). L’iterazione viene interrotta quando la differenza tra ρ̂h e ρ̂h+1 non è più significativa. Lo stimatore EGLS cosı̀ ottenuto è asintoticamente corretto. 4.8.3 Multicollinearità tra le variabili antecedenti Se X non è a rango pieno di colonna si ha che |X 0 X| = 0, quindi non si può calcolare l’inversa della matrice X 0 X e la stima b dei parametri del modello lineare non può essere determinata univocamente. Si osservi che se vale r(X) < k + 1 esiste un vettore di costanti c = (c0 , . . . , ck ) tale che Xc = o. In tal caso si parla di multicollinearità poiché la matrice X soddisfa due relazioni lineari: Xc = o (4.100) y = Xβ + ε Si dice invece che si è in presenza di quasi multicollinearità se |X 0 X| è molto vicino allo zero. In tal caso gli elementi di (X 0 X)−1 assumono valori molto elevati cosı̀ come le varianze delle stime dei coefficienti di regressione che risultano di conseguenza poco attendibili. Vi sono diversi strumenti per diagnosticare la presenza di multicollinearità tra le variabili X1 , . . . , Xk : • Coefficienti di correlazione multipla. Rj sia il coefficiente di correlazione multipla tra Xj e le altre k − 1 covariate; • Tolerances Tolj = 1 − Rj2 j = 1, . . . , k (4.101) 66 A. Pollice - Statistica Multivariata • Variance inflation factors V IFj = Tol−1 j j = 1, . . . , k (4.102) Se la j-esima variabile non presenta alcuna relazione lineare con le altre Rj2 = 0 e V IFj = 1. Nel caso contrario, ovvero in presenza quasi multicollinearità V IFj misura l’entità dell’aumento della varianza di bj dovuto alla presenza di tale problema. Al limite quando la j-esima covariata dipende linearmente dalle rimanenti Rj2 = 1 e V IFj ha valore infinito. • Matrice di correlazione tra le covariate. Considero la matrice disegno del Pn (X modello centrato (4.54) X(0) , sia sj = i=1 (0)ij )2 con j = 1, . . . , k √ √ 0 X S −1 contiene ed S = diag( s1 , . . . , sk ). La matrice R = S −1 X(0) (0) i coefficienti di correlazione tra le possibili coppie delle k covariate. Si può dimostrare che i V IF sono esattamente uguali agli elementi della diagonale di R−1 . • Condition number. Se tra due o più variabili esplicative vi è quasi multicollinearità, allora X 0 X pur non essendo singolare ha un determinante “piccolo. Poiché detto determinante è anche dato dal prodotto degli autovalori, ciò significa che almeno uno di essi è “piccolo. Il numero degli autovalori “piccoli indica il numero di legami lineari quasi esatti tra le colonne della matrice disegno, cioè tra le variabili esplicative. Inoltre la matrice X 0 X è simmetrica e semidefinita positiva, quindi diagonalizzabile. Siano rispettivamente Λ e V la matrice diagonale dei suoi autovalori e la matrice modale. Poiché (X 0 X)−1 = V Λ−1 V 0 , indicando con aj il j-esimo elemento della diagonale di (X 0 X)−1 si ha che aj = k 2 X vjh h=0 λh =⇒ var(bj ) = σ 2 k 2 X vjh h=0 λh j = 0, . . . , k (4.103) La dimensione degli autovalori di (X 0 X)−1 gioca dunque un ruolo decisivo nell’indicare la presenza di quasi multicollinearità. Il condition number serve a valutare la dimensione del j-esimo autovalore rispetto p agli altri ed è dato da ηj = λmax /λj . Si ritiene in genere sospetta una covariata per la quale ηj > 30. Tra i possibili rimedi alla presenza di quasi multicollinearità vi sono l’aggiunta di nuove osservazioni che rendano la matrice X a rango pieno, l’esclusione dal modello delle variabili correlate (ovvero di quelle per le quali la stima Cap.4: Modello lineare generale 67 della varianza del coefficiente di regressione associato è elevata), l’uso della regressione ridge. Regressione ridge L’uso degli stimatori ridge risolve il problema dell’inversione di (X 0 X) qualora questa sia quasi singolare, semplicemente definendo uno stimatore lineare di β nel modo seguente (Hoerl e Kennard, 1970) b(c) = (X 0 X + cIk+1 )−1 X 0 y (4.104) dove c è una costante non negativa detta shrinkage parameter ed in genere compresa tra 0 e 1. Si dimostra facilmente che lo stimatore ridge è esprimibile come trasformazione lineare dello stimatore dei minimi quadrati ed in particolare b(0) = b. Tale stimatore è distorto, infatti E[b(c)] = (X 0 X + cIk+1 )−1 X 0 E(y) = = (X 0 X + cIk+1 )−1 X 0 Xβ = = (X 0 X + cIk+1 )−1 (X 0 X − cIk+1 + cIk+1 )β = = β − c(X 0 X + cIk+1 )−1 β (4.105) e la sua matrice di varianze e covarianze è Cov[b(c)] = Cov[(X 0 X + cIk+1 )−1 X 0 y] = = σ 2 (X 0 X + cIk+1 )−1 X 0 X(X 0 X + cIk+1 )−1 (4.106) E’ noto come nel caso unidimensionale la misura idonea della dispersione degli stimatori distorti sia l’errore quadratico medio (M SE) piuttosto che la varianza. Allo stesso modo nel caso multidimensionale si fa riferimento all’errore quadratico medio complessivo (T M SE) dato dalla traccia della matrice dell’errore quadratico medio. T M SE[b(c)] = tr{M SE[b(c)]} = = tr E[(b(c) − β)(b(c) − β)0 ] = (4.107) 0 = tr{Cov[b(c)]} + tr{[β − E(b(c))][β − E(b(c))] } Poiché se λh è un autovalore di X 0 X, allora (λh + c)−2 λh è autovalore di (X 0 X + cIk+1 )−2 X 0 X, per il primo termine dell’espressione precedente vale tr{Cov[b(c)]} = σ 2 tr[(X 0 X + cIk+1 )−1 X 0 X(X 0 X + cIk+1 )−1 ] = = σ 2 tr[(X 0 X + cIk+1 )−2 X 0 X] = = σ2 k X h=0 λh (λh + c)2 (4.108) 68 A. Pollice - Statistica Multivariata funzione continua e monotona decrescente Pkdi c che tende 3a 0 al divergere 2 di c. Inoltre (∂/∂c)tr{Cov[b(c)]} = −2σ h=0 λh /(λh + c) ; in altri termini all’aumentare di c la traccia decresce tanto più rapidamente quanto più piccoli sono i valori degli autovalori λj (ossia quanto più forte è la multicollinearità). Dalla (4.105) risulta che per la parte del T M SE dovuta alla distorsione dello stimatore vale invece tr{[β − E(b(c))][β − E(b(c))]0 } = = tr[c(X 0 X + cIk+1 )−1 ββ 0 (X 0 X + cIk+1 )−1 c] = = c2 tr[(X 0 X + cIk+1 )−2 ββ 0 ] = = c2 k X h=0 αh2 (λh + c)2 (4.109) funzione di c passante per l’origine degli assi, continua e monotona crescente, con αh costanti per h = 0, . . . , k. In conclusione si può affermare che la scelta della costante c va effettuata in base all’intensità della multicollinearità esistente, in modo da garantire un bilanciamento tra la varianza e la distorsione dello stimatore. Un metodo esplorativo proposto dagli autori citati è quello della costruzione di un grafico che rappresenti gli elementi del vettore b(c) (sull’asse delle ordinate) in funzione di c. Si ritiene che le curve di tale grafico, detto traccia della regressione ridge, tendano a stabilizzarsi in corrispondenza di valori accettabili di c. Esistono anche altri metodi più formali per la stima di c (Vitali, 1993). 4.8.4 Variabili esplicative stocastiche Si considerino n realizzazioni indipendenti della variabile aleatoria (k + 1)dimensionale (Y, X1 , . . . , Xk )0 . Si assuma inoltre l’indipendenza delle covariate X1 , . . . , Xk da e che valgano entrambe le assunzioni di Gauss-Markov. In base a tali assunzioni si può affermare che E(y|X) = Xβ (4.110) Cov(y|X) = σ 2 In (4.111) Lo stimatore dei minimi quadrati b risulta essere ancora corretto, infatti per la (1.19) E(b) = EX [E(b|X)] = EX [E((X 0 X)−1 X 0 (Xβ + ε)|X)] = = EX [E(β + (X 0 X)−1 X 0 ε|X)] = = EX [β + (X 0 X)−1 X 0 E(ε|X)] = β | {z } =0 (4.112) Cap.4: Modello lineare generale 69 e la sua matrice di varianze e covarianze è data da Cov(b) = E[(b − β)(b − β)0 ] = = E[(X 0 X)−1 X 0 εε0 X(X 0 X)−1 ] = = EX {E[(X 0 X)−1 X 0 εε0 X(X 0 X)−1 |X]} = EX [(X 0 X)−1 X 0 E(εε0 |X) X(X 0 X)−1 ] | {z } =σ 2 In = σ 2 EX [(X 0 X)−1 ] (4.113) Infine l’espressione ŝ2 = e0 e/(n − k − 1) continua ad essere uno stimatore corretto di σ 2 , ed inoltre intervalli di confidenza e test di ipotesi conservano la loro validità (Johnston, 1985). 4.9 Analisi della varianza Quando le variabili antecedenti sono tutte qualitative i modelli lineari vengono detti modelli di analisi della varianza (ANOVA). Come è noto per analisi della varianza si intende la verifica dell’uguaglianza delle medie provenienti da diverse popolazioni individuate da uno o più criteri di classificazione. 4.9.1 ANOVA a una via Nel caso di ANOVA ad un criterio di classificazione il modello lineare mette in relazione E(Y ) con le r diverse possibili determinazioni A1 , . . . , Ar di un’unica variabile qualitativa A: E(Y ) = µj se A = Aj j = 1, . . . , r (4.114) se A = Aj j = 1, . . . , r (4.115) ovvero, posto Y − µj = Y = µj + Se per il P j-esimo livello del criterio di classificazione A si osservano nj unità, con n = rj=1 nj , allora il modello applicato alle n unità statistiche prende la forma seguente yij = µj + ij i = 1, . . . , nj j = 1, . . . , r P ovvero posto µ = rj=1 nj µj /n ed αj = µj − µ yij = µ + αj + ij i = 1, . . . , nj j = 1, . . . , r (4.116) (4.117) 70 A. Pollice - Statistica Multivariata dove µ indica il valore medio di Y comune a tutte le osservazioni, mentre αj indica l’effetto dovuto al j-esimo livello del criterio di classificazione A. Complessivamente indicando con δ = (µ, α1 , . . . , αr )0 il vettore dei parametri e con y11 .. . yn1 1 y12 .. . y = yn2 2 .. . .. . y1r .. . ynr r 11 ... n1 1 12 .. . n 2 2 ε= . .. .. . 1r .. . nr r 1 1 .. .. . . 1 1 1 0 .. .. . . ∆= 1 0 .. .. . . .. .. . . 1 0 .. .. . . 0 ··· 0 .. .. . . 0 ··· 0 1 ··· 0 .. .. . . 1 ··· 0 .. .. . . .. .. . . 0 ··· 1 .. .. . . (4.118) 1 0 0 ··· 1 si ritrova la forma lineare del modello applicato alle n osservazioni: y = ∆δ + ε (4.119) Ma nella matrice ∆ appena definita la prima colonna coincide con la somma 0 delle Si osservi allora che Pr altre r, quindi ∆ ∆ è perfettamente singolare. Pr−1 n α = nµ−nµ = 0 da cui ricavo che α = − r j=1 j j j=1 nj αj /nr . Pertanto Cap.4: Modello lineare generale 71 se definiamo δ ∗ = (α1 , . . . , αr−1 )0 e ∗ y11 .. . yn∗ 1 1 ∗ y12 .. . y∗ n2 2 .. . ∗ y = y − µun = .. . ∗ y1r−1 .. ∗ . yn r−1 r−1 ∗ y1r .. . ∗ ynr r 1 .. . 1 0 .. . 0 .. ∗ ∆ = . .. . 0 .. . 0 n1 − nr .. . − nnr1 0 .. . ··· 0 1 .. . ··· ··· 0 0 .. . 1 .. . .. . 0 .. . ··· 0 .. . .. . 1 .. . ··· 0 .. . 0 − nnr2 .. . ··· 1 · · · − nnr−1 r .. . − nnr2 · · · − nnr−1 r (4.120) si ha che la forma y ∗ = ∆∗ δ ∗ + ε (4.121) individua un modello lineare ben definito. Quindi effettuando le assunzioni di Gauss-Markov sul vettore ε si può ottenere una stima corretta, consistente ed efficiente del vettore δ ∗ degli effetti del fattore A, tramite il metodo dei minimi quadrati δ̂ ∗ = [(∆∗ )0 ∆∗ ]−1 (∆∗ )0 y ∗ (4.122) Inoltre sotto l’assunzione distributiva di normalità della componente erratica si può verificare l’ipotesi di significatività del fattore A, ovvero di uguaglianza delle medie delle sottopopolazioni individuate dagli r livelli del criterio di classificazione H0 : δ ∗ = o (4.123) H0 : δ ∗ 6= o tramite il test F già visto nel caso della verifica di ipotesi sul complesso dei coefficienti della regressione multipla (4.55) F = n − r (ŷ ∗ )0 ŷ ∗ n − r (δ̂ ∗ )0 (∆∗ )0 ∆∗ δ̂ ∗ = ∼ Fr−1,n−r r−1 e0 e r − 1 e0 e (4.124) 72 A. Pollice - Statistica Multivariata 4.9.2 ANOVA a due vie Si procede in modo analogo nel caso di due variabili esplicative qualitative. I due fattori di classificazione A e B assumano rispettivamente modalità (livelli) Aj per j = 1, . . . , r e Bh per h = 1, . . . , c. E(Y ) = µjh se A = Aj e B = Bh j = 1, . . . , r h = 1, . . . , c (4.125) ovvero, posto Y − µjh = Y = µjh + se A = Aj e B = Bh j = 1, . . . , r h = 1, . . . , c (4.126) Se per ciascuna combinazione di livelli dei due criteri di classificazione osservo n unità statistiche (disegno ortogonale), allora il modello applicato a tutte le rcn unità prende la forma seguente yijh = µjh + ijh i = 1, . . . , n j = 1, . . . , r h = 1, . . . , c (4.127) P P il valore medio P di Y comune a tutte le osserSia µ = rj=1 ch=1 µjh P/rc r c µ /c e µ = vazioni e siano µj = h j=1 µjh /r rispettivamente la h=1 jh media del j-esimo livello del fattore A e quella dell’h-esimo livello del fattore B per j = 1, . . . , r ed h = 1, . . . , c. Gli effetti dei livelli dei due fattori e della loro interazione sono definiti dalle espressioni seguenti αj = µj − µ γh = µh − µ (4.128) (αγ)jh = µjh − αj − γh − µ = µjh − µj − µh + µ dove l’effetto dell’interazione tra il j-esimo livello del criterio di classificazione A e l’h-esimo livello del criterio di classificazione B è ottenuto prendendo lo scarto di µjh dalla media generale, al netto degli effetti dovuti singolarmente ai due fattori. Dunque per i = 1, . . . , n, j = 1, . . . , r ed h = 1, . . . , c vale yijh = µ + αj + γh + (αγ)jh + ijh (4.129) Pr Pr Pr Inoltre, poiché (αγ) = µ − jh jh j=1 µj − rµh + rµ = 0 = j=1 j=1 Pc h=1 (αγ)jh e per quanto detto nel paragrafo precedente, si ha r X j=1 αj = 0 =⇒ αr = − r−1 X j=1 αj (4.130) Cap.4: Modello lineare generale c X h=1 r X γh = 0 =⇒ γc = − 73 c−1 X γh (4.131) h=1 (αγ)jh = 0 =⇒ (αγ)rh = − r−1 X (αγ)jh (4.132) (αγ)jh (4.133) j=1 j=1 c X c−1 X (αγ)jh = 0 =⇒ (αγ)jc = − h=1 h=1 quindi i parametri “essenziali” del modello sono µ, αj , γh ed (αγ)jh per j = 1, . . . , r − 1 ed h = 1, . . . , c − 1, e sono in tutto in numero pari a 1 + r − 1 + c − 1 + (r − 1)(c − 1) = rc. Per esprimere la dipendenza lineare simultaneamente per tutte le osservazioni si definiscono i vettori τ y ∗ = (α1 , . . . , αr−1 , γ1 , . . . , γc−1 , (αγ)11 , . . . , (αγ)r−1,c−1 )0 = ε = (4.134) ∗ ∗ ∗ ∗ ∗ ∗ ∗ ∗ (y111 , . . . , yn11 , y112 , . . . , yn12 , . . . . . . , y11c , . . . , yn1c , . . . . . . . . . , y1rc , . . . , ynrc )0 (111 , . . . , n11 , 112 , . . . , n12 , . . . . . . , 11c , . . . , n1c , . . . . . . . . . , 1rc , . . . , nrc )0 e la matrice seguente 74 A. Pollice - Statistica Multivariata 1 0 .. .. . . 1 0 1 0 . .. .. . 1 0 . .. .. . .. . .. . 0 ∆= 1 .. .. . . 1 0 .. .. . . .. .. . . .. .. . . −1 −1 .. .. . . −1 −1 ··· 0 .. . 1 .. . 0 .. . ··· 0 .. . 1 .. . 0 .. . ··· ··· ··· 0 0 .. . 1 0 .. . 0 1 .. . ··· ··· 0 0 .. . 1 0 .. . 0 1 .. . ··· ··· ··· ··· ··· ··· ··· 0 1 ··· 0 0 1 ··· .. .. .. .. .. . . . . . .. .. .. .. .. . . . . . −1 −1 · · · −1 −1 −1 · · · .. .. .. .. .. . . . . . 0 −1 −1 · · · −1 −1 −1 · · · .. .. .. .. .. .. . . . . . . .. .. .. .. .. .. . . . . . . .. .. .. .. .. .. . . . . . . −1 −1 −1 · · · −1 −1 −1 · · · .. .. .. .. .. .. . . . . . . −1 −1 −1 · · · −1 −1 −1 · · · 0 .. . .. . 0 .. . 0 .. . 0 0 .. . 0 .. . .. . −1 .. . −1 .. . .. . .. . −1 .. . −1 (4.135) Complessivamente si ottiene y ∗ = ∆τ + ε (4.136) ed effettuando le solite assunzioni sul vettore ε si può stimare il vettore τ degli effetti dei due fattori τ̂ = (∆0 ∆)−1 ∆0 y ∗ (4.137) Inoltre sotto l’assunzione distributiva di normalità possiamo verificare le ipotesi di significatività dei due fattori e dell’interazione, ovvero di uguaglianza delle medie delle sottopopolazioni individuate da uno o da entrambi i criteri di classificazione H0 (1) : α1 = · · · = αr = 0 H0 (2) : γ1 = · · · = γc = 0 H0 (3) : (αγ)11 = · · · = (αγ)rc = 0 (4.138) Cap.4: Modello lineare generale 75 Considerando la matrice identità di ordine (rc − 1) come formata da tre blocchi rispettivamente di (r − 1), (c − 1) ed (r − 1)(c − 1) righe Irc−1 = (C10 , C20 , C30 )0 si possono riformulare le tre ipotesi nulle (4.138) nel modo seguente: H0 (1) : C1 τ = o H0 (2) : C2 τ = o (4.139) H0 (3) : C3 τ = o Anche in questo caso la devianza totale è scomponibile nella somma di una quota associata al modello ed una quota residua Dev(res) = e0 e = (y ∗ − ∆τ̂ )0 (y ∗ − ∆τ̂ ) = = (y ∗ )0 y ∗ − (y ∗ )0 ∆τ̂ − τ̂ 0 ∆0 y ∗ + τ̂ 0 ∆0 ∆τ̂ = = (y ∗ )0 y ∗ − (y ∗ )0 ∆τ̂ − τ̂ 0 ∆0 y ∗ + τ̂ 0 ∆0 ∆(∆0 ∆)−1 ∆0 y ∗ = = (y ∗ )0 y ∗ − (y ∗ )0 ∆τ̂ = Dev(tot) − Dev(mod) (4.140) La devianza del modello può essere ulteriormente scomposta nella somma delle quote dovute all’effetto dei due fattori A e B e dell’interazione Dev(mod) = (y ∗ )0 ∆τ̂ = τ̂ 0 ∆0 y ∗ = (Irc−1 τ̂ )0 Irc−1 ∆0 y ∗ = C1 ∆0 y ∗ = (τ̂ 0 C10 , τ̂ 0 C20 , τ̂ 0 C30 ) C2 ∆0 y ∗ = C3 ∆0 y ∗ = τ̂ 0 C10 C1 ∆0 y ∗ + τ̂ 0 C20 C2 ∆0 y ∗ + τ̂ 0 C30 C3 ∆0 y ∗ = = Dev(A) + Dev(B) + Dev(intAB ) (4.141) I test per la verifica delle tre ipotesi citate sono quindi dati da F1 = F2 = F3 = 4.10 (n − 1)rc τ̂ 0 C10 C1 ∆0 y ∗ ∼ F(r−1),(n−1)rc r−1 e0 e (n − 1)rc τ̂ 0 C20 C2 ∆0 y ∗ ∼ F(c−1),(n−1)rc c−1 e0 e (n − 1)rc τ̂ 0 C30 C3 ∆0 y ∗ ∼ F(r−1)(c−1),(n−1)rc (r − 1)(c − 1) e0 e (4.142) (4.143) (4.144) Analisi della covarianza Consiste nello studiare la dipendenza in media di una variabile risposta da variabili antecedenti qualitative e quantitative, tenendo conto sia dei livelli 76 A. Pollice - Statistica Multivariata di uno o più criteri di classificazione che di un certo numero di covariate. Si supponga che da rc universi ottenuti classificando una certa popolazione tramite due fattori vengano estratti altrettanti campioni di n osservazioni sui quali si siano rilevate le variabili Y, X1 , . . . , Xk . Si voglia verificare se le medie della Y nelle rc sottopopolazioni sono influenzate oltreché dalla diversità degli universi, dalla dipendenza sulle k covariate. Assumiamo che (i) le cr sottopopolazioni ottenute tramite i due criteri di classificazione siano tra loro indipendenti; (ii) le n osservazioni di ciascun campione siano i.i.d; (iii) in ogni sottopopolazione la componente aleatoria abbia distribuzione normale con varianza costante. Si consideri il modello lineare ∗ = αj + γh + (αγ)jh + β1jh Xi1jh + · · · + βkjh Xikjh + ijh yijh (4.145) con j = 1, . . . , r, h = 1, . . . , c ed i = 1, . . . , n. Siano y ∗ , ε, τ e ∆ definiti esattamente come nellle (4.134) e (4.135) ed inoltre siano β = (β111 , . . . , βkrc )0 , ξ = (τ 0 , β 0 )0 , X = diag(X11 , . . . , Xrc ), dove Xjh sono le matrici n × k che contengono le osservazioni delle covariate negli rc livelli della doppia classificazione. Sia infine ∆∗ = (∆, X). Sotto le assunzioni di Gauss-Markov sul vettore ε il vettore ξ dei parametri del modello y ∗ = ∆∗ ξ + ε (4.146) possono essere stimati con il metodo dei minimi quadrati ξˆ = [(∆∗ )0 (∆∗ )]−1 (∆∗ )0 y ∗ = τ̂ β̂ (4.147) Tramite queste stime calcoliamo i residui e = y ∗ − ∆∗ ξˆ (4.148) ed analogamente a quanto fatto per l’analisi della varianza, ricaviamo la scomposizione della devianza Dev(res) = e0 e = (y ∗ )0 y ∗ − ξˆ0 (∆∗ )0 y ∗ = Dev(tot) − Dev(mod) (4.149) Cap.4: Modello lineare generale 77 Si osservi che in questo caso la devianza del modello può essere scomposta nella quota relativa alla classificazione ed in quella associata alla parte regressiva del modello operando nel modo seguente 0 ∆ Dev(mod) = ξˆ0 (∆∗ )0 y ∗ = (τ̂ 0 , β̂ 0 ) y ∗ = τ̂ 0 ∆0 y ∗ + β̂ 0 X 0 y ∗ = X0 = τ̂ 0 C10 C1 ∆0 y ∗ + τ̂ 0 C20 C2 ∆0 y ∗ + τ̂ 0 C30 C3 ∆0 y ∗ + β̂ 0 X 0 y ∗ = = dev(A) + dev(B) + dev(intAB ) + dev(reg) (4.150) Inoltre posto che il vettore dei k coefficienti di regressione stimati β̂jh sia scomponibile nella somma di un vettore β0 costante al variare della classificazione ed uno variabile β̃jh , ovvero β̂jh = β0 + β̃jh j = 1, . . . , r h = 1, . . . , c (4.151) la devianza di regressione può essere ulteriormente scomposta come segue 0 X11 0 ∗ 0 0 .. , . . . , β̃rc )] dev(reg) = [(β00 , . . . , β00 ) + (β̃11 y = . {z } | {z } | 0 0 Xrc β̃0 β̃ = β̃00 X 0 y ∗ + β̃ 0 X 0 y ∗ (4.152) il primo addendo rappresenta la devianza del modello di regressione nel caso di regressioni parallele per tutti i livelli dei criteri di classificazione, mentre la seconda viene denominata devianza di non parallelismo. Per prima cosa viene accertata l’ipotesi di parallelismo dei modelli regressivi tramite il test F1 = nrc − rc(k + 1) β̃ 0 X 0 y ∗ ∼ Fk(rc−1),nrc−rc(k+1) k(rc − 1) e0 e (4.153) Se il test F1 porta a un risultato significativo confermando l’ipotesi di non parallelismo, la dipendenza della risposta dalle covariate avviene in modo diverso passando da un livello all’altro dei due criteri di classificazione. L’analisi della parte regressiva del modello non conduce pertanto a risultati univoci circa la dipendenza in media della Y . Se al contrario l’ipotesi di parallelismo risulta plausibile, si procede verificando la significatività complessiva del modello a regressioni parallele con il test F2 = nrc − rc(k + 1) τ̂ 0 ∆0 y ∗ + β̃00 X 0 y ∗ ∼ Frc−1+k,nrc−rc(k+1) rc − 1 + k e0 e (4.154) 78 A. Pollice - Statistica Multivariata Qualora l’intero modello risulti significativo è possibile procedere alla vera e propria analisi della covarianza che consiste nella verifica separata della significatività della regressione comune F3 = nrc − rc(k + 1) β̃00 X 0 y ∗ ∼ Fk,nrc−rc(k+1) k e0 e (4.155) e dell’effetto complessivo della classificazione F4 = nrc − rc(k + 1) τ̂ 0 ∆0 y ∗ ∼ Frc−1,nrc−rc(k+1) rc − 1 e0 e (4.156) Se in quest ultimo caso l’ipotesi nulla viene rigettata si procede alla verifica della significatività dei singoli effetti e dell’interazione F5 = F6 = F7 = nrc − rc(k + 1) τ̂ 0 C10 C1 ∆0 y ∗ ∼ Fr−1,nrc−rc(k+1) (4.157) r−1 e0 e nrc − rc(k + 1) τ̂ 0 C20 C2 ∆0 y ∗ ∼ Fc−1,nrc−rc(k+1) (4.158) c−1 e0 e nrc − rc(k + 1) τ̂ 0 C30 C3 ∆0 y ∗ ∼ F(r−1)(c−1),nrc−rc(k+1) (4.159) (r − 1)(c − 1) e0 e In conclusione si noti che • In assenza dell’effetto dovuto alla classificazione, l’analisi della covarianza si riduce allo studio della regressione multipla; • In assenza della relazione di dipendenza dalle covariate, l’analisi della covarianza si riduce all’analisi della varianza a due criteri di classificazione.