Modello lineare generale

Capitolo 4
Modello lineare generale
Lo scopo del modello lineare generale è quello di studiare la dipendenza in
media di una variabile aleatoria Y da k variabili esplicative non stocastiche
X1 , . . . , Xk . Se le variabili esplicative sono misurate su scala a intervalli
(variabili esplicative quantitative, anche dette covariate) tale studio prende
il nome di analisi della regressione. Nel caso di variabili esplicative qualitative o misurate su scala ordinale si è invece in presenza di un problema
di analisi della varianza (ANOVA), mentre qualora si disponga di variabili
esplicative sia quantitative che qualitative si parla di analisi della covarianza
(ANCOVA).
4.1
Regressione lineare multipla
Si assume un modello di dipendenza lineare tra la variabile aleatoria Y e le
k covariate X1 , . . . , Xk
Y = β0 + β1 X1 + · · · + βk Xk + (4.1)
nell’espressione precedente β0 è detto termine noto o intercetta, β1 , . . . , βk
sono i coefficienti di regressione del modello, mentre ne rappresenta la componente aleatoria. Se si applica questo modello ad n unità statistiche sulle
quali sono rilevate la variabile risposta Y e le covariate X1 , . . . , Xk si ottiene
y1 = β0 + β1 x11 + · · · + βk x1k + 1
y2 = β0 + β1 x21 + · · · + βk x2k + 2
..
.
1-a unità
2-a unità
yn = β0 + β1 xn1 + · · · + βk xnk + n n-ma unità
41
(4.2)
42
A. Pollice - Statistica Multivariata
Complessivamente, indicando con







y1
1
β0







y =  ...  ε =  ...  β =  ...  X = 
yn
n
βk

1 x11 · · · x1k
..
..
.. 
.
.
. 
1 xn1 · · · xnk
dove X prende il nome di matrice disegno, si possono riassumere le n equazioni
(4.2) nell’espressione matriciale
y = Xβ + ε
4.2
(4.3)
Stima dei parametri (Metodo dei minimi quadrati)
Con il metodo dei minimi quadrati si determina lo stimatore b di β tale da
rendere minima l’influenza della componente erratica del modello , misurata
tramite la norma quadratica del vettore ε
kεk2 = ε0 ε = (y − Xβ)0 (y − Xβ)
(4.4)
La ricerca dell’espressione algebrica dello stimatore dei minimi quadrati corrisponde dunque all’individuazione del punto di minimo assoluto della forma
quadratica (4.4). Essa, considerata in funzione del vettore β, è rappresentata da un paraboloide con la concavità rivolta verso l’alto, il cui punto di
minimo assoluto coincide con l’unico punto di minimo relativo. Pertanto lo
stimatore dei minimi quadrati b è ottenuto calcolando la derivata della (4.4)
rispetto a β
∂ 0
∂
(y − Xβ)0 (y − Xβ) =
(y y − 2β 0 X 0 y + β 0 X 0 Xβ) = −2X 0 y + 2X 0 Xβ
∂β
∂β
e ponendola uguale a o si ottengono le cosiddette equazioni normali del
modello lineare generale
X 0 X β̂ = X 0 y
(4.5)
da cui risulta
b = β̂ = (X 0 X)−1 X 0 y
(4.6)
Si noti che il problema della ricerca del minimo ammette un’unica soluzione
b se X 0 X non è singolare, ovvero, posto n > k + 1, se X è a rango pieno
di colonna (ossia r(X) = k + 1) cosa che accade solo se le sue colonne sono
linearmente indipendenti. L’espressione cosı̀ ottenuta per b è di fatto una
funzione delle osservazioni, dunque uno stimatore. Più precisamente b è uno
stimatore di β lineare nei valori osservati della variabile risposta.
Cap.4: Modello lineare generale
43
Tramite la stima b del vettore β si possono calcolare i cosiddetti valori
teorici che assumerebbe la variabile risposta nel caso teorico di perfetta relazione lineare con le covariate e di assenza della componente aleatoria del
modello
ŷ = Xb = X(X 0 X)−1 X 0 y = Hy
(4.7)
La matrice H quadrata e di ordine n è detta matrice cappello (alla lettera dall’inglese hat matrix) ed è simmetrica ed idempotente (quindi anche
semidefinita positiva). Il vettore degli scarti tra i valori effettivamente osservati e i valori teorici della variabile risposta prende il nome di vettore dei
residui della regressione
e = y − ŷ = (In − H)y = (In − H)(Xβ + ε) =
= Xβ − X(X 0 X)−1 X 0 Xβ + (In − H)ε = N ε
(4.8)
Si noti incidentalmente che la matrice N = In − H definita nell’espressione
precedente è simmetrica ed idempotente e che e = N y.
Proprietà 4.1 Il vettore dei residui risulta ortogonale sia alla matrice disegno
X che al vettore dei valori teorici ŷ.
(i)
X 0 e = X 0 N ε = X 0 ε − X 0 X(X 0 X)−1 X 0 ε = o
0
0
0
(ii) ŷ e = b X e = 0
(4.9)
(4.10)
In particolare se P
nella (4.9) si considera solo la prima colonna di X ottengo
u0n e = 0, ovvero ni=1 ei = 0.
4.2.1
Proprietà dello stimatore b
Al fine di illustrare alcune proprietà inferenziali dello stimatore dei minimi
quadrati b vengono introdotte alcune assunzioni sulla componente aleatoria
del modello dette ipotesi di Gauss-Markov.
(i)
E(i ) = 0,
(ii)
E(2i )
i = 1, . . . , n
2
=σ ,
(iii) E(i j ) = 0,
(4.11)
i = 1, . . . , n
(4.12)
i 6= j, i, j = 1, . . . , n
(4.13)
Equivalentemente in notazione matriciale
(i)
E(ε) = o
0
(4.14)
2
(ii) E(εε ) = σ In
(4.15)
44
A. Pollice - Statistica Multivariata
Si noti come sotto la prima ipotesi di Gauss-Markov la (4.4) corrisponda
alla somma dei quadrati degli scarti tra i valori osservati della variabile
risposta e quelli attesi sotto il modello lineare, infatti la (i) permette di
esplicitare la dipendenza lineare del valore atteso del vettore aleatorio y
dalla matrice disegno X
E(y) = E(Xβ + ε) = Xβ
(4.16)
Inoltre, se valgono entrambe le ipotesi
Cov(y) = E[(y − Xβ)(y − Xβ)0 ] = E[εε0 ] = σ 2 In
(4.17)
Proprietà 4.2 (Correttezza) Se si verifica la prima condizione di Gauss-Markov,
b è uno stimatore corretto.
E(b) = E[(X 0 X)−1 X 0 y] = (X 0 X)−1 X 0 Xβ = β
(4.18)
Proprietà 4.3 (Consistenza) Se valgono entrambe le condizioni di Gauss-Markov,
allora vale
Cov(b) = (X 0 X)−1 X 0 Cov(y)X(X 0 X)−1 =
= σ 2 (X 0 X)−1 X 0 In X(X 0 X)−1 =
= σ 2 (X 0 X)−1 X 0 X(X 0 X)−1 = σ 2 (X 0 X)−1
(4.19)
Si può dimostrare che se tr[(X 0 X)−1 ] → 0 per n → ∞, allora lo stimatore b è
anche consistente.
Proprietà 4.4 (Efficienza: Teorema di Gauss-Markov) Se valgono entrambe
le condizioni di Gauss-Markov, si dimostra che b è il miglior stimatore corretto
nella classe degli stimatori lineari di β (BLUE).
A tal fine consideriamo un altro stimatore lineare corretto di β dato da
b∗ = A∗ y con A∗ ∈ R(k+1)×n . La correttezza di b∗ implica
E(b∗ ) = A∗ Xβ = β =⇒ A∗ X = Ik+1
(4.20)
mentre per la (4.17) vale
Cov(b∗ ) = Cov[A∗ y] = σ 2 A∗ In (A∗ )0
(4.21)
quindi, tenendo conto della (4.20) e della (4.21) posso scrivere
Cov(b∗ ) − Cov(b) = σ 2 A∗ In (A∗ )0 − σ 2 (X 0 X)−1 =
= σ 2 A∗ In (A∗ )0 − σ 2 A∗ X(X 0 X)−1 X 0 (A∗ )0 =
= σ 2 A∗ (In − H)(A∗ )0 = σ 2 A∗ N (A∗ )0
(4.22)
Cap.4: Modello lineare generale
45
Poiché, come è noto, N è una matrice semidefinita positiva, allora indicando
con a∗j la j-ma riga di A∗ , si ha
Var(b∗j ) − Var(bj ) = σ 2 a∗j N (a∗j )0 ≥ 0 per j = 0, . . . , k
(4.23)
il che dimostra che ciascun elemento del vettore b∗ non può avere varianza
inferiore a quella del corrispondente elemento del vettore b.
4.3
Stima dei parametri (Metodo della massima
verosimiglianza)
La funzione di verosimiglianza del modello lineare generale è definita aggiungendo alle ipotesi di Gauss-Markov sulla componente erratica l’assunzione
distributiva di normalità della stessa
i ∼ N (0, σ 2 ) per i = 1, . . . , n
(4.24)
La verosimiglianza dei parametri β e σ 2 , è pertanto data da
n
Y
1
1
√ exp − 2 (yi − β0 − β1 xi1 − · · · − βk xik )2 =
2σ
σ 2π
i=1
1
−n
−n
0
= (2π) 2 σ exp − 2 (y − Xβ) (y − Xβ)
(4.25)
2σ
L(β, σ 2 ) =
L’espressione di L(β, σ 2 ) dipende da β solo tramite la forma quadratica ad
esponente della stessa, che peraltro non dipende da σ 2 . Quindi lo stimatore
di massima verosimiglianza di β è ancora definito dalla condizione
b 30 inf (y − Xβ)0 (y − Xβ) = (y − Xb)0 (y − Xb)
β
che coincide con quella che definisce lo stimatore dei minimi quadrati. Anche
in questo caso dunque
b = (X 0 X)−1 X 0 y
Sotto l’assunzione di normalità della componente erratica (e quindi del vettore y) e per il Teorema 2.2 (Cramér-Wald), il vettore b ha distribuzione
campionaria Nk+1 (β, σ 2 (X 0 X)−1 ).
Contrariamente al metodo dei minimi quadrati, il metodo della massima verosimiglianza permette di ricavare l’espressione dello stimatore del
46
A. Pollice - Statistica Multivariata
parametro σ 2 .
n
∂
1
2
−n/2
0
2 −n/2−1
L(b, σ ) = (2π)
−
(σ )
exp − 2 (y − Xb) (y − Xb) +
∂σ 2
2
2σ
1
0
−n/2 −n
+ (2π)
σ exp − 2 (y − Xb) (y − Xb) ×
2σ
1 2 −2
0
×
(σ ) (y − Xb) (y − Xb)
(4.26)
2
ponendo la derivata uguale a zero si ottiene l’equazione
−n(σ̂ 2 )−1 + (σ̂ 2 )−2 (y − Xb)0 (y − Xb) = 0
che ha una sola soluzione data da
1
1
s2 = σ̂ 2 = (y − Xb)0 (y − Xb) = e0 e
n
n
(4.27)
La (4.25) è una funzione strettamente positiva di σ 2 e tende asintoticamente
a 0 per σ 2 → ±∞, inoltre la sua derivata prima si annulla in un solo punto
di massimo relativo che corrisponde al massimo assoluto della funzione. Pertanto per lo stimatore di massima verosimiglianza di σ 2 si ricava l’espressione
precedente.
Proprietà 4.5 Lo stimatore di massima verosimiglianza della varianza della
componente erratica di un modello lineare non è corretto.
E(s2 ) =
=
1
1
1
E(e0 e) = E(ε0 N 0 N ε) = E(ε0 N ε) =
n 
n
n
n
n
X
X

1 
2
=
E
n
+
n
ii
j
hj
h
i

n 
i=1
h,j=1
h6=j
=
n
n
1 X
1X
2
nhj E(h j ) =
nii E(i ) +
| {z } n
n
| {z }
i=1
=
=
=
=
=σ 2
h,j=1
h6=j
=0
σ2
σ2
tr(N ) =
(n − tr(H)) =
n
n
σ2
{n − tr[X(X 0 X)−1 X 0 ]} =
n
σ2
{n − tr[(X 0 X)−1 X 0 X]} =
n
σ2
σ2
[n − tr(Ik+1 )] =
(n − k − 1)
n
n
(4.28)
Cap.4: Modello lineare generale
47
nell’espressione precedente n indica l’ampiezza campionaria, mentre nhj indica il generico (h, j)-esimo elemento della matrice N . Per ottenere uno
stimatore non distorto di σ 2 basta considerare
n
ŝ2 = s2
(4.29)
n−k−1
Si può dimostrare che oltre ad essere corretto, ŝ2 è anche uno stimatore
consistente e pienamente efficiente (UMVUE). Inoltre, poiché Cov(b) =
σ 2 (X 0 X)−1 , possiamo ottenere uno stimatore corretto e consistente della
matrice di varianze e covarianze dello stimatore b semplicemente considerando
e0 e
d
Cov(b)
= ŝ2 (X 0 X)−1 =
(X 0 X)−1
(4.30)
n−k−1
4.4
Scomposizione della devianza
Proprietà 4.6 La devianza del vettore delle risposte osservate può essere scomposta nella somma di due componenti indipendenti che riflettono rispettivamente la variabilità intrinseca al modello e quella residuale
Dev(y) = Dev(ŷ) + Dev(e)
(4.31)
Ricordando che per devianza di una variabile statistica si intende la somma dei quadrati degli scarti di ciascun valore dalla media, dall’espressione
precedente risulta
!2
!2
!2
n
n
n
n
n
n
X
X
X
1 X
1 X
1 X
2
2
2
yi −
yi
=
ŷi −
ŷi +
ei −
ei
(4.32)
n
n
n
i=1
i=1
i=1
i=1
i=1
i=1
ovvero in termini vettoriali
1
1
1
y 0 y − (u0n y)2 = ŷ 0 ŷ − (u0n ŷ)2 + e0 e − (u0n e)2
n
n
n
(4.33)
Dalla prima proprietà dei residui (4.9) risulta u0n e = 0 e questo implica
u0n (y − ŷ) = 0, ovvero u0n y = u0n ŷ, quindi, affinché valga la (4.33), basta
dimostrare l’uguaglianza
y 0 y = ŷ 0 ŷ + e0 e
(4.34)
A tale scopo è sufficiente osservare che per la (4.10)
y 0 y = (y − ŷ + ŷ)0 (y − ŷ + ŷ) =
= (y − ŷ)0 (y − ŷ) + ŷ 0 ŷ + (y − ŷ)0 ŷ + ŷ 0 (y − ŷ) =
= e0 e + ŷ 0 ŷ + 2e0 ŷ
(4.35)
48
A. Pollice - Statistica Multivariata
Definizione 4.7 Il rapporto tra la devianza spiegata dal modello di regressione
lineare e quella totale viene detto indice di determinazione e costituisce una
misura dell’adattamento del modello ai dati osservati
R2 =
Dev(ŷ)
e0 e
=1−
Dev(y)
Dev(y)
(4.36)
La considerazione dei gradi di libertà delle devianze porta a una misura più
accurata della quota di variabilità estratta dal modello. Il cosiddetto indice
di determinazione corretto, considerato più appropriato qualora si disponga
di un numero esiguo di osservazioni campionarie, è dato dall’espressione
R̄2 = 1 −
4.5
e0 e/(n − k − 1)
Dev(y)/(n − 1)
(4.37)
Verifica di ipotesi sui coefficienti di regressione
Sul vettore dei coefficienti di regressione β possono essere formulati diversi
tipi di ipotesi. Nel seguito vengono considerate alcune ipotesi nulle tutte
riconducibili ad un’unica forma:
(i)
H0 : βj = 0 j = 1, . . . , k
(ii)
H0 : βj = a j = 1, . . . , k a ∈ R
(iii) H0 : βj − βh = 0 j, h = 1, . . . , k
(iv) H0 : β1 = · · · = βk = 0
(v)
H0 : β1 = · · · = βp = 0 p ≤ k
Si noti come tutte queste ipotesi, che non coinvolgono il termine noto β0
del modello, possono essere ricondotte alla forma lineare
H0 : Cβ − γ = 0
(4.38)
dove C e γ sono rispettivamente una matrice in Rp×(k+1) ed un vettore in Rp
di costanti da specificare. Nei casi precedentemente elencati C e γ assumono
la forma seguente:
(i)
p = 1, C = (0, . . . , 0, 1, 0, . . . , 0), γ = 0
(ii)
p = 1, C = (0, . . . , 0, 1, 0, . . . , 0), γ = a
(iii) p = 1, C = (0, . . . , 0, 1, 0, . . . , 0, −1, 0, . . . , 0), γ = 0
(iv) p = k, C = (o, Ik ), γ = o
(v)
p ≤ k, C = (O, Ip ), γ = o
Cap.4: Modello lineare generale
49
Nella (i) e nella (ii) il vettore C ha tutti gli elementi nulli eccetto il (j + 1)esimo che è uguale ad uno, nella (iii) il (j + 1)-esimo e l’(h + 1)-esimo
elemento di C sono rispettivamente pari ad 1 e −1, nella (iv) si sindica con
o vettore di k elementi nulli e nella (v) O è la matrice p × (k + 1 − p) di
elementi nulli.
Supposto che si verifichino le condizioni di Gauss-Markov e sotto l’assunzione distributiva di normalità della componente erratica possiamo costruire
il test del rapporto di verosimiglianze generalizzato per la verifica dell’ipotesi
nulla lineare (4.38) sui coefficienti di regressione
λ=
supCβ=γ,σ2 L(β, σ 2 )
supβ,σ2 L(β, σ 2 )
La forma della verosimiglianza è sempre quella espressa nella (4.25), pertanto
per il denominatore vale supβ,σ2 L(β, σ 2 ) = L(b, s2 ). Per il numeratore,
invece, bisogna determinare le espressioni per β e σ 2 che rendono massima
la verosimiglianza sotto il vincolo Cβ = γ. Poiché la verosimiglianza dipende
da β solo tramite la forma quadratica ad esponente, che non dipende da σ 2 ,
la determinazione del punto di massimo assoluto vincolato rispetto a β della
funzione di verosimiglianza coincide con quella del punto di minimo assoluto
vincolato della funzione (y −Xβ)0 (y −Xβ) che geometricamente rappresenta
un paraboloide con la concavità rivolta verso l’alto. Consideriamo pertanto
l’equazione lagrangiana data da
L(β, λ) = (y − Xβ)0 (y − Xβ) − λ0 (Cβ − γ)
(4.39)
Pertanto per la soluzione del problema di minimo relativo vincolato bisogna
risolvere il sistema seguente
 ∂ 0
 ∂β [y y − 2βX 0 y + β 0 X 0 Xβ − λ0 Cβ + λ0 γ] = 0

=
=
=


∂
0
0
∂λ [y y − 2βX y +
−2X 0 y + 2X 0 X β̂0
β 0 X 0 Xβ − λ0 Cβ + λ0 γ] = 0
− C 0 λ̂0 = 0

C β̂0 = γ


 β̂0 = (X 0 X)−1 X 0 y + 12 C 0 λ̂0 = b + 21 (X 0 X)−1 C 0 λ̂0


γ = C β̂0 = Cb + 12 C(X 0 X)−1 C 0 λ̂0

 β̂0 = b + (X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb)

λ̂0 =
2[C(X 0 X)−1 C 0 ]−1 (γ
− Cb)
(4.40)
50
A. Pollice - Statistica Multivariata
Il fatto che la funzione sia strettamente concava verso l’alto e che vi sia un
solo punto in cui si annulano le derivate prime della funzione lagrangiana,
assicura che questo è un punto di minimo relativo relativo ed assoluto della
funzione (y − Xβ)0 (y − Xβ) sotto il vincolo Cβ = γ. Da considerazioni
analoghe a quelle che hanno portato alla (4.27) risulta che il valore di σ 2 che
rende massima L(β̂0 , σ 2 ) è invece dato da
nσ̂02 = (y − X β̂0 )0 (y − X β̂0 )
(4.41)
Lo scarto y − X β̂0 può essere espresso in funzione di b come la differenza
tra due termini il cui prodotto è uguale a 0
y − X β̂0 = y − Xb − X(X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb)
(4.42)
ed infatti
(y − Xb)0 X (X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb) = 0
{z
}
|
(4.43)
=e0 X=o
Sostituendo la (4.42) nella (4.41) la statistica σ02 prende la forma seguente
nσ̂02
=
(y − Xb)0 (y − Xb) +
+
(γ − Cb)0 [C(X 0 X)−1 C 0 ]−1 C(X 0 X)−1 X 0 ×
× X(X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 (γ − Cb) =
=
(y − Xb)0 (y − Xb) + (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) (4.44)
Pertanto il rapporto di verosimiglianze generalizzato per la verifica dell’ipotesi lineare sui coefficienti di regressione multipla è dato da
λ
=
L(β̂0 , σ̂02 )
=
L(b, s2 )
=
(2πσ̂02 )−n/2 exp(−n/2)
=
(2πs2 )−n/2 exp(−n/2)
=
{(y −
Xb)0 (y
[(y − Xb)0 (y − Xb)]n/2
(4.45)
− Xb) + (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ)}n/2
Nel seguito di questo paragrafo si dimostra come se è vera l’ipotesi nulla
H0 : Cβ = γ e sotto l’assunzione di indipendenza e normalità degli elementi
i del vettore della componente erratica ε, la statistica
λ−2/n − 1 =
(Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ)
e0 e
(4.46)
Cap.4: Modello lineare generale
51
si distribuisce come una F di Snedecor-Fisher con p ed n − k − 1 gradi di
libertà.
In primo luogo si prenda in considerazione il numeratore della (4.46).
Poiché, come si è visto nel Paragrafo 4.3 b ∼ Nk+1 (β, σ 2 (X 0 X)−1 ), allora
Cb − γ ∼ Np (Cβ − γ, σ 2 C(X 0 X)−1 C 0 ). Sotto l’ipotesi nulla e per la (2.12) si
ha Λ̃1/2 Ṽ 0 (Cb − γ) ∼ Np (o, Ip ) dove Λ̃ e Ṽ sono rispettivamente la matrice
diagonale degli autovalori e la matrice modale di σ −2 [C(X 0 X)−1 C 0 ]−1 , e di
conseguenza
(Cb−γ)0 Ṽ Λ̃Ṽ 0 (Cb−γ) = σ −2 (Cb−γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb−γ) ∼ χ2p (4.47)
Si noti inoltre che sotto H0
Cb − γ = Cb − Cβ = C(X 0 X)−1 X 0 y − Cβ =
= C(X 0 X)−1 X 0 (y − Xβ) = C(X 0 X)−1 X 0 ε
quindi il numeratore della (4.46) assume la forma
(Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ) = ε0 P ε
(4.48)
con P = X(X 0 X)−1 C 0 [C(X 0 X)−1 C 0 ]−1 C(X 0 X)−1 X 0 .
Per quanto riguarda il denominatore bisogna ricordare che la matrice
N è simmetrica e idempotente, pertanto il suo rango è uguale alla traccia
ovvero, dalla (4.28) r(N ) = tr(N ) = n − k − 1 e i suoi autovalori hanno tutti
valore nullo o unitario. Quindi considerando la diagonalizzazione di N si ha
che
e0 e = ε0 N ε = ε0 V ΛV 0 ε
(4.49)
dove Λ e V indicano rispettivamente la matrice diagonale degli autovalori
(di cui n − k − 1 valgono 1 e gli altri 0) e la matrice ortonormale degli
autovettori di N . Poiché V 0 ε ∼ Nn (o, σ 2 V 0 V = σ 2 In ), si ha che la forma
quadratica ε0 V ΛV 0 ε è data dalla somma dei quadrati di n − k − 1 variabili
aleatorie indipendenti e distribuite secondo N (0, σ 2 ). Pertanto
1 0
e e ∼ χ2n−k−1
σ2
(4.50)
Per completare la dimostrazione devo verificare che il numeratore e il denominatore della (4.46) sono indipendenti. A tale proposito si fa riferimento
al teorema di Craig, la cui dimostrazione (Mardia, Kent, Bibby, 1979) esula
dagli scopi di questo corso, il cui enunciato afferma che sotto l’assunzione di
normalità, omoschedasticità e indipendenza degli elementi del vettore della componente aleatoria ε del modello, condizione necessaria e sufficiente affinché ε0 P ε
e ε0 N ε siano indipendenti è che le matrici P ed N siano ortogonali (P N = O).
52
A. Pollice - Statistica Multivariata
Poiché X 0 N = X 0 (In − X(X 0 X)−1 X 0 ) = O implica che P N = O, il
numeratore e il denominatore della statistica sono indipendenti ed infine
n − k − 1 (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ)
∼ Fp,n−k−1
p
e0 e
4.5.1
(4.51)
Verifica di ipotesi su singoli cofficienti
Nel caso in cui l’ipotesi nulla sia H0 : βj = a, la forma assunta da C è quella
di un vettore riga (k + 1)-dimensionale con tutti gli elementi nulli eccetto
il (j + 1)-esimo che è uguale ad uno, mentre γ = a. Inoltre dalla (4.30) si
d j ) = ŝ2 C(X 0 X)−1 C 0 , quindi in conclusione
deduce Var(b
n − k − 1 (Cb − γ)0 [C(X 0 X)−1 C 0 ]−1 (Cb − γ)
=
p
e0 e
(bj − a)2 ŝ2
= (n − k − 1)
=
d j)
(n − k − 1)ŝ2 Var(b
=
(bj − a)2
∼ F1,n−k−1
d j)
Var(b
(4.52)
e poiché F1,n−k−1 ≡ (tn−k−1 )2 , allora
bj − a
q
∼ tn−k−1
d
Var(bj )
4.5.2
(4.53)
Verifica di ipotesi sul complesso dei coefficienti
La verifica della significatività dell’ipotesi nulla (iv) relativa al complesso dei
coefficienti di regressione β1 , . . . , βk può venire effettuata tramite la (4.51)
con C = (o, Ik ) e γ = o.
In alternativa si può utilizzare una diversa parametrizzazione per il modello lineare generale. Si noti che, detto β(0) = (β1 , . . . , βk )0 il vettore dei
coefficienti di regressione del modello lineare, X(0) la matrice con elementi
generici rispettivamente xij − X̄j per i = 1, . . . , n e j = 1 . . . , k ed α(0) =
β0 + β1 X̄1 + · · · + βk X̄k , è possibile scrivere il modello lineare generale nella
forma alternativa seguente detta modello centrato
yi = α(0) + β1 (xi1 − X̄1 ) + · · · + βk (xik − X̄k ) + i
ovvero
y = α(0) un + X(0) β(0) + ε =
un X(0)
α(0)
β(0)
+ε
(4.54)
Cap.4: Modello lineare generale
53
Le due forme (4.3) e (4.54) del modello lineare generale sono equivalenti.
Inoltre dalla (4.54) si ricavano facilmente le espressioni degli stimatori dei
minimi quadrati dei parametri α(0) e β(0) rispettivamente α̂(0) = ȳ e b(0) =
0 X )−1 X 0 (y − ȳu ).
(X(0)
n
(0)
(0)
Posto ŷ(0) = α̂(0) un + X(0) b(0) ed e(0) = y − ŷ(0) ed utilizzando il criterio
del rapporto di verosimiglianze generalizzato per la costruzione del test per
la verifica della significatività dei k coefficienti di regressione, si ottiene una
forma analoga alla (4.51) con C = Ik e γ = o. Si dimostra facilmente
che questa statistica, ampiamente ripresa nel seguito della trattazione con
riferimento all’analisi della varianza e della covarianza, si distribuisce come
una F di Snedecor-Fisher con k ed n − k − 1 gradi di libertà.
0
0
n − k − 1 b(0) X(0) X(0) b(0)
∼ Fk,n−k−1
k
e0(0) e(0)
4.6
(4.55)
Intervalli di confidenza per il vettore β
Cosı̀ come nel caso del vettore delle medie, anche per il vettore dei coefficienti
di regressione si possono costruire gli intervalli di confidenza simultanei per
tutte le combinazioni lineari dei suoi elementi. Se a = (a0 , . . . , ak )0 è un vettore di costanti in Rk+1 , allora la combinazione lineare a0 b ha distribuzione
N (a0 β, σ 2 a0 (X 0 X)−1 a), quindi
a0 b − a0 β
∼ N (0, 1)
σ[a0 (X 0 X)−1 a]1/2
(4.56)
L’espressione precedente dipende dal parametro σ incognito. Considero una
seconda statistica data dalla (4.50)
e0 e
(n − k − 1)ŝ2
=
∼ χ2n−k−1
σ2
σ2
(4.57)
Dividendo la (4.56) per la radice quadrata della (4.57) rapportata ai propri
gradi di libertà ottengo
a0 b−a0 β
σ[a0 (X 0 X)−1 a]1/2
1/2
(n−k−1)ŝ2
2
σ (n−k−1)
=
a0 b − a0 β
ŝ[a0 (X 0 X)−1 a]1/2
(4.58)
La (4.58) ha distribuzione tn−k−1 se il numeratore e il denominatore sono
stocasticamente indipendenti. Essendo e e b le uniche variabili aleatorie
54
A. Pollice - Statistica Multivariata
coinvolte nel rapporto ciò equivale a pretendere che esse siano indipendenti,
ovvero (poiché entrambe normali k-dimensionali) incorrelate. La matrice di
covarianze tra gli elementi di e e quelli di b è data da
E[e(b − β)0 ] = E{N ε[(X 0 X)−1 X 0 y − β]0 } =
= E{[In − X(X 0 X)−1 X 0 ]ε[(X 0 X)−1 X 0 (Xβ + ε) − β]0 } =
= E{[In − X(X 0 X)−1 X 0 ]εε0 X(X 0 X)−1 } =
= E[εε0 X(X 0 X)−1 − X(X 0 X)−1 X 0 εε0 X(X 0 X)−1 ] =
= σ 2 X(X 0 X)−1 − σ 2 X(X 0 X)−1 X 0 X(X 0 X)−1 = O
(4.59)
Quindi, per quanto già detto
a0 b − a0 β
∼ tn−k−1
ŝ[a0 (X 0 X)−1 a]1/2
(4.60)
e di conseguenza l’intervallo di confidenza per combinazioni lineari degli
elementi di β prende la forma seguente
o
n
Pr a0 b − tn−k−1,α/2 ŝ[a0 (X 0 X)−1 a]1/2 < a0 β < a0 b + tn−k−1,α/2 ŝ[a0 (X 0 X)−1 a]1/2 = 1−α
(4.61)
4.6.1
Intervalli di confidenza per singoli elementi di β
In questo caso, posto a = (0, . . . , 0, 1, 0, . . . , 0)0 , dove l’elemento unitario è il
(j + 1)-esimo, ed indicato con X̃jj l’elemento (j + 1)-esimo della diagonale
di (X 0 X)−1 , si ha
bj − βj
q
∼ tn−k−1
(4.62)
ŝ X̃jj
da cui si ottiene l’intervallo di confidenza per singoli elementi del vettore β
q
q
Pr bj − tn−k−1,α/2 ŝ X̃jj < βj < bj + tn−k−1,α/2 ŝ X̃jj = 1 − α
4.7
(4.63)
Previsioni tramite il modello lineare
In quanto segue con il termine previsione (o stima) di un’osservazione futura
si indica la determinazione del valore non osservato yn+1 della variabile
risposta Y in corrispondenza dell’osservazione X1,n+1 , . . . , Xk,n+1 delle k
covariate.
Cap.4: Modello lineare generale
4.7.1
55
Previsione puntuale
Definizione 4.8 Posto che sia Xn+1 = (1, X1,n+1 , . . . , Xk,n+1 ), la cosiddetta
funzione di previsione lineare è data da
0
ŷn+1 = b0 + b1 X1,n+1 + · · · + bk Xk,n+1 = Xn+1
b
(4.64)
Tale predittore è corretto, infatti
0
0
E(ŷn+1 − yn+1 ) = E(Xn+1
b) − E(Xn+1
β) = 0
(4.65)
E’ anche il più efficiente, ossia quello dotato del minore errore quadratico
medio nella classe dei predittori lineari.
4.7.2
Intervallo di confidenza per osservazioni future
Supponendo che la (n + 1)-esima osservazione della variabile risposta sia
indipendente dalle n precedenti si ha che
0
Var(ŷn+1 − yn+1 ) = Var(Xn+1
b) + Var(yn+1 )
0
= σ 2 [Xn+1
(X 0 X)−1 Xn+1 + 1]
(4.66)
conseguentemente sotto l’assunzione di normalità della componente erratica
ŷn+1 − yn+1
q
∼ tn−k−1
0
ŝ Xn+1
(X 0 X)−1 Xn+1 + 1
da cui ricavo che
Pr ŷn+1 − tn−k−1,α/2 K < yn+1 < ŷn+1 + tn−k−1,α/2 K = 1 − α
(4.67)
(4.68)
0
con K = ŝ(1 + Xn+1
(X 0 X)−1 Xn+1 )1/2 .
4.8
Rimozione delle assunzioni sul modello di regressione multipla
Sino a questo momento sono state effettuate alcune assunzioni al fine di
poter costruire il modello lineare generale e fare inferenza sui suoi parametri.
Possiamo riassumere tali assunzioni nei seguenti punti:
1. Il modello di dipendenza è lineare nei parametri. In altri termini la forma funzionale scelta per spiegare la dipendenza della variabile risposta
dalle covariate è quella lineare
y = Xβ + ε
56
A. Pollice - Statistica Multivariata
2. La componente erratica risulta in media ininfluente (prima condizione
di Gauss-Markov)
E(ε) = o
3. Le osservazioni sono tra loro incorrelate ed hanno la stessa varianza
(seconda condizione di Gauss-Markov)
Cov(ε) = E(εε0 ) = σ 2 In
4. La componente erratica ha distribuzione normale
ε ∼ Nn (o, σ 2 In )
5. Non vi è relazione lineare tra le colonne di X
6. Gli elementi di X sono variabili deterministiche (e non aleatorie),
supposte osservate senza errore.
In questo paragrafo vengono esposti i criteri per verificare se e quanto
dette assunzioni siano plausibili per i dati in esame, quali siano le conseguenze della mancata validità di ciascuna assunzione, quali rimedi adottare.
4.8.1
Errata specificazione del modello
L’errore nella specificazione del modello può essere dovuto all’esclusione di
alcune variabili esplicative rilevanti agli effetti dello studio della dipendenza,
all’inclusione di variabili esplicative superflue, ovvero alla scelta erronea della
forma lineare per il modello di dipendenza.
Analisi dei residui
Se si verificano le condizioni 1, 2, 3 e 4, allora la forma della distribuzione
empirica dei residui dovrebbe essere prossima a quella ipotizzata per la componente erratica ossia quella gaussiana. Pertanto una prima diagnostica relativa alla sussistenza delle assunzioni suddette consiste nella verifica della
normalità dei residui tramite (Draper e Smith, 1981):
• Normal plot dei residui. Il diagramma integrale dei residui (la rappresentazione grafica della loro funzione di ripartizione empirica) qualora la loro distribuzione sia normale ha forma sigmoidale. Il normal
plot si ottiene trasformando l’asse delle ordinate y di tale diagramma
Cap.4: Modello lineare generale
57
in z = Φ−1 (y), dove Φ indica la funzione di ripartizione della normale standardizzata. Tale trasformazione opera una linearizzazione
del grafico, quindi il normal plot dei residui ha un andamento lineare
se questi sono distribuiti normalmente.
• Test per la verifica della normalità dei residui. Esistono in letteratura
diverse procedure per la verifica della significatività dell’ipotesi di normalità. Tra i test di uso più frequente quello di Cucconi, quello di
Shapiro-Wilk, quello di Kolmogorov.
• Diagramma a punti (scatterplot) dei residui. In un diagramma a punti
si rappresentano i residui ei sull’asse delle ordinate e i valori teorici ŷi
corrispondenti sull’asse delle ascisse. Se si verificano le quattro assunzioni suddette, allora ŷ 0 e = 0 ed i punti del grafico si dispongono su
una fascia di ampiezza costante parallela all’asse delle ascisse. Qualora
l’ampiezza di detta fascia non sia costante l’assunzione di omoschedasticità (o equivarianza) delle osservazioni è in dubbio. Se invece la
disposizione dei punti è evidentemente obliqua rispetto all’asse delle
ascisse, allora una o più covariate significative per il modello lineare
potrebbero essere state omesse (i residui mostrano una dipendenza
lineare residua non spiegata dal modello). Qualora infine il grafico
mostri evidenza di una relazione non lineare tra residui e valori teorici, il modello di dipendenza lineare non risulta sufficientemente complesso a spiegare le relazioni esistenti nei dati. In tal caso, una volta
accertata la non linearità complessiva del modello, si può verificare la
linearità della relazione tra la variabile risposta e ciascuna delle covariate tramite la costruzione dei diagammi per punti dei valori dei residui
associati a quelli delle covariate. Questi grafici permettono di vedere
se, al netto della dipendenza lineare già estratta esiste una relazione
funzionale residua tra la variabile risposta e le variabili antecedenti.
Regressione polinomiale
Si consideri a titolo di esempio il modello di regressione polinomiale dato da
y = β0 + β1 X1 + β2 X12 + β3 X2 + β4 X22 + β5 X1 X2 + ε
(4.69)
detto modello completo di secondo grado in due variabili. Per modelli di
questo tipo, ovvero lineari nei parametri, le procedure inferenziali già viste rimangono valide. E’ importante tenere sotto controllo il numero dei parametri
(che tende ad aumentare vertiginosamente) ed il significato logico-interpretativo
del modello.
58
A. Pollice - Statistica Multivariata
Modello moltiplicativo
Un semplice superamento della forma lineare del modello è rappresentato
dal modello moltiplicativo
y = β0 X1β1 · · · Xkβk eε
(4.70)
dove e indica il numero di Nepero. Modelli di questa forma sono detti
linearizzabili, infatti
ln y = ln β0 + β1 ln X1 + · · · + βk ln Xk + ε
(4.71)
Se per le variabili trasformate valgono le assunzioni alla base del modello
linerare (Gauss-Markov ed assenza di relazione lineare tra le covariate), allora i parametri ln β0 , β1 , . . . , βk possono essere stimati tramite il metodo dei
minimi quadrati. Modelli di questo tipo sono di frequente uso in econometria, infatti in questo caso il singolo coeficiente βj oltre ad essere un numero
puro (quindi confrontabile) è interpretabile come misura dell’elasticità di y
rispetto ad Xj
Xj dy
Xj
β −1
=
β0 X1β1 · · · βj Xj j · · · Xkβk = βj
β
1
y dXj
β0 X1 · · · Xkβk
(4.72)
Scelta delle variabili esplicative
Generalmente si dispone di un numero consistente di variabili antecedenti
che si sospetta possano avere effetti causali sulla variabile conseguente. Ci
sono diversi buoni motivi per voler sfoltire la lista.
• Parsimonia: in generale è preferibile lavorare con modelli più semplici.
E’ sempre opportuno ridurre il più possibile il rapporto tra il numero
dei parametri da stimare e quello delle osservazioni disponibili.
• Multicollinearità: l’eventuale presenza di relazioni lineari tra le variabili
esplicative può rendere superflua la considerazione di alcune di esse.
In assenza di multicollinearità tra le variabili antecedenti la scelta delle
stesse può avvenire semplicemente sulla base della sola significatività dei
singoli coefficienti di regressione. La presenza di multicollinearità complica
la questione, infatti la significatività delle eventuali variabili rimosse dal
modello non è mai nulla, poiché rimuovendo una variabile (anche se questa
è poco significativa) viene introdotta una distorsione che è tanto maggiore
quanto più la variabile eliminata è correlata con le altre.
Cap.4: Modello lineare generale
59
In definitiva possiamo affermare che, quando in un modello si esclude una
variabile che logicamente dovrebbe esservi inclusa, le conseguenze sulle stime dei
parametri e sulla validità del modello stimato sono devastanti (stimatori distorti
e non consistenti per β, e stima di σ distorta in senso positivo - sovrastima);
mentre, quando si include nel modello una variabile irrilevante si ottengono
risultati ancora accettabili, l’unica conseguenza è la perdita di efficienza nelle
stime dei parametri (Piccolo, Vitale, 1981).
In generale aumentando il numero delle variabili esplicative incluse nel
modello la devianza dei residui tende ad diminuire. Inoltre alcune variabili
esplicative potrebbero risultare statisticamente significative, e quindi venire
incluse nel modello, per il solo effetto del caso. Viceversa variabili esplicative
logicamente fondamentali potrebbero risultare statisticamente non significative ed essere cosı̀ escluse dal modello. Di conseguenza è difficile giungere ad
un modello ottimo in generale, bensı̀ si tende considerare un certo numero
di modelli all’incirca ugualmente significativi dal punto di vista statistico,
tra i quali il ricercatore possa scegliere quello più idoneo, anche sulla base
di considerazioni interpretative e fenomenologiche.
Scelta assistita delle variabili esplicative.
• Tutti i modelli possibili. Vengono stimati tutti i modelli realizzabili considerando le 2k possibili combinazioni delle covariate a disposizione e,
per ciascun modello, vengono calcolate le misure di accostamento come
l’indice di determinazione semplice R2 e quello corretto R̄2 . Il valore
di entrambi questi indici aumenta sempre all’aumentare del numero
di covariate considerato. Un indice che tiene conto del criterio della
parsimonia nella scelta del modello è l’indice Cp di Mallows che, posto
che il modello in questione contenga p − 1 covariate e che e0 ep indichi
la devianza residua stimata in base a tale modello, è dato da
Cp =
e0 ep
+ 2p − n
ŝ2
(4.73)
essendo ŝ2 lo stimatore corretto (4.29) della varianza della componente
erratica del modello con k covariate. L’indice di Mallows assume valore
vicino a p se le p−1 variabili esplicative considerate forniscono un buon
modello.
• Backward elimination. Si parte considerando il modello che include
tutte le variabili a disposizione. La variabile con il coefficiente di regressione meno significativo in base al test (4.53) con a = 0 viene
60
A. Pollice - Statistica Multivariata
eliminata, quindi si ricalcolano le stime dei coefficienti delle variabili
rimaste e si ripete il procedimento sino a quando non vi sono più
covariate che risultano non significative.
• Forward selection. Il modello di partenza è univariato e considera la
covariata maggiormente correlata con la variabile risposta, la cui significatività viene verficata tramite il test (4.53). Le selezioni successive
sono basate sul concetto di correlazione parziale.
Definizione 4.9 Si definisce coefficiente di correlazione parziale tra y
ed Xj date X1 , . . . , Xk il coefficiente di correlazione tra i residui della regressione di y da X1 , . . . , Xk e quelli della regressione di Xj da
X1 , . . . , X k .
In altri termini tale indice misura la relazione lineare tra y ed Xj
al netto dell’effetto lineare di X1 , . . . , Xk . La selezione delle covariate viene condotta iterativamente considerando il coefficiente di correlazione parziale tra y e le variabili ancora da inserire, al netto delle
variabili già incluse nel modello. La significatività del complesso dei
coefficenti viene verificata ad ogni nuovo inserimento tramite il test
(4.55).
• Stepwise regression. Combinazione dei due criteri appena esposti. La
selezione delle covariate da includere nel modello avviene come nel caso
della forward selection. Aggiungendo successivamente una nuova variabile i coefficienti di regressione delle variabili già incluse potrebbero
risultare singolarmente non significativi a causa della forte correlazione
con la nuova variabile. Pertanto dopo l’iserimento di ciascuna variabile
il modello viene riconsiderato per verificare se vi è qualche variabile
da eliminare (come nella backward elimination).
Variabili dummy
Per variabili dummy si intendono delle variabili antecedenti che assumono
i soli valori 0 ed 1 e servono a rappresentare la presenza (1) o l’assenza
(0) di determinate caratteristiche o fattori qualitativi che si pensa possano
influenzare la relazione di dipendenza. Se le osservazioni sono suddivise in un
certo numero h di gruppi definiti in base ai livelli di un certo fattore, allora
le h − 1 variabili dummy introdotte nel modello possono essere utilizzate
come normali variabili esplicative: la significatività dei coefficienti associati
implica quella della suddivisione in h gruppi sul modello causale. In altri
Cap.4: Modello lineare generale
61
termini i parametri del modello di dipendenza sono significativamente diversi
negli h gruppi. Se si ipotizza che il fattore influenzi il valore medio della
risposta in due gruppi (h=2), il modello assume la forma seguente, dove con
D si è indicata la variabile dummy
y = β0 + β1 X1 + · · · + βk Xk + βD D + ε
(4.74)
mentre se detto fattore è supposto alterare la relazione di dipendenza con
la j-esima covariata
y = β0 + β1 X1 + · · · + βj Xj + βD Xj D + · · · + βk Xk + ε
4.8.2
(4.75)
Eteroschedasticità e correlazione della componente erratica
In questo paragrafo si considera la violazione della seconda assunzione di
Gauss-Markov che prevede che le determinazioni della componente erratica
siano incorrelate ed abbiano la stessa varianza.
Minimi quadradrati generalizzati
Posto che sia sempre valida la prima assunzione di Gauss-Markov, supponiamo che la seconda sia violata nel modo seguente
E(εε0 ) = σ 2 Ω
(4.76)
essendo Ω una matrice quadrata di ordine n simmetrica e definita positiva.
In tal caso lo stimatore b dei minimi quadrati ordinari continua ad essere
corretto, ma non è più efficiente.
Si consideri la decomposizione di Cholesky della matrice simmetrica,
definita positiva Ω−1
Ω−1 = A0 A
(4.77)
Il modello ottenuto premoltiplicando per A la forma standard del modello
lineare generale
Ay = AXβ + Aε
(4.78)
soddisfa entrambe le assunzioni di Gauss-Markov:
E(Aε) = AE(ε) = o
(4.79)
E[(Aε)(Aε)0 ] = AE(εε0 )A0 =
= σ 2 AΩA0 =
= σ 2 AA−1 (A0 )−1 A0 = σ 2 In
(4.80)
62
A. Pollice - Statistica Multivariata
Pertanto in base al modello (4.78) si può calcolare lo stimatore dei minimi
quadrati (ordinari)
bGLS = [(AX)0 (AX)]−1 (AX)0 (Ay) =
= (X 0 A0 AX)−1 X 0 A0 Ay =
= (X 0 Ω−1 X)−1 X 0 Ω−1 y
(4.81)
L’espressione precedente è detta stimatore dei minimi quadrati generalizzati
(GLS) o di Aitken, ed è uno stimatore lineare, corretto ed efficiente. Una
sua espressione alternativa è data da
bGLS = (X 0 Ω−1 X)−1 X 0 Ω−1 (Xβ + ε) = β + (X 0 Ω−1 X)−1 X 0 Ω−1 ε
(4.82)
Dalla (4.82) si ricava agevolmente la matrice di varianze e covarianze dello
stimatore GLS
Cov(bGLS ) = E{(X 0 Ω−1 X)−1 X 0 Ω−1 εε0 (Ω−1 )0 X[(X 0 Ω−1 X)−1 ]0 } =
= σ 2 (X 0 Ω−1 X)−1 X 0 Ω−1 ΩΩ−1 X(X 0 Ω−1 X)−1 =
= σ 2 (X 0 Ω−1 X)−1
(4.83)
In generale la matrice Ω è incognita e deve essere stimata. In tal caso lo stimatore dei minimi quadrati generalizzati stimati (EGLS) è dato
dall’espressione
b̂GLS = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 y
(4.84)
Vediamo ora due casi particolari in cui è possibile ottenere delle stime
di Ω.
Eteroschedasticità
Una volta accertata l’eteroschedasticità delle componenti del vettore ε (ad
esempio tramite il test di Bartlett) la forma della matrice Ω da stimare deve
soddisfare
 2

σ1 0 · · · 0

. 
 0 . . . . . . .. 
0
2
 = diag(σ (2) )

(4.85)
E(εε ) = σ Ω =  . .

.
.
.
.
 .
.
. 0 
0 · · · 0 σn2
Consideriamo ora il vettore e(2) = (e21 , . . . , e2n )0 formato dai quadrati dei
residui ottenuti tramite la stima dei
P minimi quadrati dei parametri del modello. Poiché e = N ε, allora ei = nj=1 nij j , per i = 1, . . . , n. Quindi se le
Cap.4: Modello lineare generale
63
j sono incorrelate, ma hanno varianze diverse
E(e2i )
=
n
X
n2ij σj2
i = 1, . . . , n
(4.86)
j=1
Indicando con N (2) la matrice che ha per elementi i quadrati degli elementi
di N l’espressione precedente può essere riscritta in termini matriciali
E(e(2) ) = N (2) σ (2)
(4.87)
quindi sostituendo nella (4.87) al valore atteso E(e(2) ) e a σ (2) le rispettive
stime e(2) e σ̂ (2) , si ottiene
−1
e(2)
σ̂ (2) = N (2)
(4.88)
Lo stimatore σ̂ (2) , denominato MINQUE (MInimum Norm Quadratic Unbiased Estimator) e dovuto a Rao (1970), non è ritenuto particolarmente
affidabile e può talvolta dare luogo a valori negativi per le stime delle
varianze.
Autocorrelazione del primo ordine
In questo caso si suppone che le determinazioni della componente erratica
non siano indipendenti, bensı̀ caratterizzate dal comportamento evolutivo
formalizzato dall’espressione seguente
i = ρi−1 + vi
i = 1, . . . , n
(4.89)
In questa relazione ciascuna osservazione dipende dalla precedente tramite
il coefficiente ρ ∈ (−1, 1), cosa che implica un preventivo ordinamento delle
unità (con riferimento ad esempio all’istante di rilevazione). Se inoltre si
assume che valgano E(v) = o e cov(v) = σv2 In , allora il modello di dipendenza seriale viene detto autoregressivo del primo ordine (AR(1)) e la sua
conformità ai dati disponibili può essere verificata tramite il test dei segni o
quello di Durbin-Watson. Si noti che applicando la (4.89) una seconda volta
si ottiene
i−1 = ρi−2 + vi−1
(4.90)
ovvero
i = ρ2 i−2 + ρvi−1 + vi
(4.91)
64
A. Pollice - Statistica Multivariata
ed iterando indefinitamente l’applicazione
i = vi + ρvi−1 + ρ2 vi−2 + ρ3 vi−3 + · · ·
(4.92)
con
E(i ) = E(vi ) + ρE(vi−1 ) + ρ2 E(vi−2 ) + ρ3 E(vi−3 ) + · · · = 0
(4.93)
2
2
2
E(2i ) = E(vi2 ) + ρ2 E(vi−1
) + ρ4 E(vi−2
) + ρ6 E(vi−3
) + ··· =
= σv2 (1 + ρ2 + ρ4 + ρ6 + · · ·) =
σv2
=
1 − ρ2
(4.94)
E(i i−1 ) = E[(vi + ρvi−1 + ρ2 vi−2 + · · ·)(vi−1 + ρvi−2 + ρ2 vi−3 + · · ·)] =
2
2
= ρE(vi−1
) + ρ3 E(vi−2
) + ··· =
=
ρσv2
1 − ρ2
(4.95)
E(i i−2 ) =
ρ2 σv2
1 − ρ2
(4.96)
ovvero in generale
E(i i−h ) =
ρh σv2
1 − ρ2
i = 1, . . . , n
quindi sotto forma matriciale

1
 ρ
σv2 
 ρ2
E(εε0 ) =

2
1 − ρ  ..
 .
ρ
1
ρ
..
.
h(≤ i) = 1, . . . , n − 1
ρ2
ρ
1
..
.
ρn−1 ρn−2 ρn−3
da cui dopo qualche passaggio si ricava

1
−ρ
0
 −ρ 1 + ρ2
−ρ

 0
−ρ
1
+ ρ2

Ω−1 =  .
..
..
 ..
.
.

 0
0
0
0
0
0
· · · ρn−1
· · · ρn−2
· · · ρn−3
..
..
.
.
···
1
···
···
···
..
.
0
0
0
..
.
· · · 1 + ρ2
···
−ρ
(4.97)




 = σv2 Ω


0
0
0
..
.
(4.98)








−ρ 
1
(4.99)
Cap.4: Modello lineare generale
65
Nel caso di autocorrelazione seriale del primo ordine della componente erratica, la determinazione dello stimatore dei minimi quadrati generalizzati implica la stima del coefficiente ρ. Il metodo di Cochrane-Orcutt fa riferimento
ad una procedura iterativa tramite la quale ad ogni passo viene determinata
una stima di ρ che migliora quella ottenuta al passo precedente:
(a) Si stimano i parametri del modello lineare come se fossero soddisfatte le assunzioni di Gauss-Markov e si determinano i residui, che
vengono utilizzati
ottenere una prima stima di ρ tramite ρ̂1 =
P
Pn per
n
2 ;
e
e
/
e
i
i−1
i=2
i=2 i−1
(b) si considera la stima corrente di ρ nel modello dei minimi quadrati
generalizzati e si ricalcolano i residui;
(c) si utilizzano detti residui per ottenere la stima successiva di ρ con lo
stesso procedimento;
(d) si riprende da (b).
L’iterazione viene interrotta quando la differenza tra ρ̂h e ρ̂h+1 non è più
significativa. Lo stimatore EGLS cosı̀ ottenuto è asintoticamente corretto.
4.8.3
Multicollinearità tra le variabili antecedenti
Se X non è a rango pieno di colonna si ha che |X 0 X| = 0, quindi non si
può calcolare l’inversa della matrice X 0 X e la stima b dei parametri del
modello lineare non può essere determinata univocamente. Si osservi che
se vale r(X) < k + 1 esiste un vettore di costanti c = (c0 , . . . , ck ) tale che
Xc = o. In tal caso si parla di multicollinearità poiché la matrice X soddisfa
due relazioni lineari:
Xc = o
(4.100)
y = Xβ + ε
Si dice invece che si è in presenza di quasi multicollinearità se |X 0 X| è molto
vicino allo zero. In tal caso gli elementi di (X 0 X)−1 assumono valori molto
elevati cosı̀ come le varianze delle stime dei coefficienti di regressione che
risultano di conseguenza poco attendibili. Vi sono diversi strumenti per
diagnosticare la presenza di multicollinearità tra le variabili X1 , . . . , Xk :
• Coefficienti di correlazione multipla. Rj sia il coefficiente di correlazione
multipla tra Xj e le altre k − 1 covariate;
• Tolerances
Tolj = 1 − Rj2
j = 1, . . . , k
(4.101)
66
A. Pollice - Statistica Multivariata
• Variance inflation factors
V IFj = Tol−1
j
j = 1, . . . , k
(4.102)
Se la j-esima variabile non presenta alcuna relazione lineare con le
altre Rj2 = 0 e V IFj = 1. Nel caso contrario, ovvero in presenza quasi
multicollinearità V IFj misura l’entità dell’aumento della varianza di
bj dovuto alla presenza di tale problema. Al limite quando la j-esima
covariata dipende linearmente dalle rimanenti Rj2 = 1 e V IFj ha valore
infinito.
• Matrice di correlazione tra le covariate. Considero
la matrice disegno del
Pn
(X
modello centrato (4.54) X(0) , sia sj = i=1 (0)ij )2 con j = 1, . . . , k
√
√
0 X S −1 contiene
ed S = diag( s1 , . . . , sk ). La matrice R = S −1 X(0)
(0)
i coefficienti di correlazione tra le possibili coppie delle k covariate. Si
può dimostrare che i V IF sono esattamente uguali agli elementi della
diagonale di R−1 .
• Condition number. Se tra due o più variabili esplicative vi è quasi multicollinearità, allora X 0 X pur non essendo singolare ha un determinante
“piccolo. Poiché detto determinante è anche dato dal prodotto degli
autovalori, ciò significa che almeno uno di essi è “piccolo. Il numero
degli autovalori “piccoli indica il numero di legami lineari quasi esatti
tra le colonne della matrice disegno, cioè tra le variabili esplicative.
Inoltre la matrice X 0 X è simmetrica e semidefinita positiva, quindi
diagonalizzabile. Siano rispettivamente Λ e V la matrice diagonale
dei suoi autovalori e la matrice modale. Poiché (X 0 X)−1 = V Λ−1 V 0 ,
indicando con aj il j-esimo elemento della diagonale di (X 0 X)−1 si ha
che
aj =
k
2
X
vjh
h=0
λh
=⇒ var(bj ) = σ 2
k
2
X
vjh
h=0
λh
j = 0, . . . , k
(4.103)
La dimensione degli autovalori di (X 0 X)−1 gioca dunque un ruolo decisivo nell’indicare la presenza di quasi multicollinearità. Il condition
number serve a valutare la dimensione
del j-esimo autovalore rispetto
p
agli altri ed è dato da ηj = λmax /λj . Si ritiene in genere sospetta
una covariata per la quale ηj > 30.
Tra i possibili rimedi alla presenza di quasi multicollinearità vi sono l’aggiunta di nuove osservazioni che rendano la matrice X a rango pieno, l’esclusione
dal modello delle variabili correlate (ovvero di quelle per le quali la stima
Cap.4: Modello lineare generale
67
della varianza del coefficiente di regressione associato è elevata), l’uso della
regressione ridge.
Regressione ridge
L’uso degli stimatori ridge risolve il problema dell’inversione di (X 0 X) qualora questa sia quasi singolare, semplicemente definendo uno stimatore lineare
di β nel modo seguente (Hoerl e Kennard, 1970)
b(c) = (X 0 X + cIk+1 )−1 X 0 y
(4.104)
dove c è una costante non negativa detta shrinkage parameter ed in genere
compresa tra 0 e 1. Si dimostra facilmente che lo stimatore ridge è esprimibile come trasformazione lineare dello stimatore dei minimi quadrati ed
in particolare b(0) = b. Tale stimatore è distorto, infatti
E[b(c)] = (X 0 X + cIk+1 )−1 X 0 E(y) =
= (X 0 X + cIk+1 )−1 X 0 Xβ =
= (X 0 X + cIk+1 )−1 (X 0 X − cIk+1 + cIk+1 )β =
= β − c(X 0 X + cIk+1 )−1 β
(4.105)
e la sua matrice di varianze e covarianze è
Cov[b(c)] = Cov[(X 0 X + cIk+1 )−1 X 0 y] =
= σ 2 (X 0 X + cIk+1 )−1 X 0 X(X 0 X + cIk+1 )−1
(4.106)
E’ noto come nel caso unidimensionale la misura idonea della dispersione
degli stimatori distorti sia l’errore quadratico medio (M SE) piuttosto che
la varianza. Allo stesso modo nel caso multidimensionale si fa riferimento
all’errore quadratico medio complessivo (T M SE) dato dalla traccia della
matrice dell’errore quadratico medio.
T M SE[b(c)] = tr{M SE[b(c)]} =
= tr E[(b(c) − β)(b(c) − β)0 ] =
(4.107)
0
= tr{Cov[b(c)]} + tr{[β − E(b(c))][β − E(b(c))] }
Poiché se λh è un autovalore di X 0 X, allora (λh + c)−2 λh è autovalore di
(X 0 X + cIk+1 )−2 X 0 X, per il primo termine dell’espressione precedente vale
tr{Cov[b(c)]} = σ 2 tr[(X 0 X + cIk+1 )−1 X 0 X(X 0 X + cIk+1 )−1 ] =
= σ 2 tr[(X 0 X + cIk+1 )−2 X 0 X] =
= σ2
k
X
h=0
λh
(λh + c)2
(4.108)
68
A. Pollice - Statistica Multivariata
funzione continua e monotona decrescente
Pkdi c che tende 3a 0 al divergere
2
di c. Inoltre (∂/∂c)tr{Cov[b(c)]} = −2σ
h=0 λh /(λh + c) ; in altri termini all’aumentare di c la traccia decresce tanto più rapidamente quanto più
piccoli sono i valori degli autovalori λj (ossia quanto più forte è la multicollinearità). Dalla (4.105) risulta che per la parte del T M SE dovuta alla
distorsione dello stimatore vale invece
tr{[β − E(b(c))][β − E(b(c))]0 } =
= tr[c(X 0 X + cIk+1 )−1 ββ 0 (X 0 X + cIk+1 )−1 c] =
= c2 tr[(X 0 X + cIk+1 )−2 ββ 0 ] =
= c2
k
X
h=0
αh2
(λh + c)2
(4.109)
funzione di c passante per l’origine degli assi, continua e monotona crescente, con αh costanti per h = 0, . . . , k. In conclusione si può affermare
che la scelta della costante c va effettuata in base all’intensità della multicollinearità esistente, in modo da garantire un bilanciamento tra la varianza
e la distorsione dello stimatore. Un metodo esplorativo proposto dagli autori
citati è quello della costruzione di un grafico che rappresenti gli elementi del
vettore b(c) (sull’asse delle ordinate) in funzione di c. Si ritiene che le curve
di tale grafico, detto traccia della regressione ridge, tendano a stabilizzarsi
in corrispondenza di valori accettabili di c. Esistono anche altri metodi più
formali per la stima di c (Vitali, 1993).
4.8.4
Variabili esplicative stocastiche
Si considerino n realizzazioni indipendenti della variabile aleatoria (k + 1)dimensionale (Y, X1 , . . . , Xk )0 . Si assuma inoltre l’indipendenza delle covariate X1 , . . . , Xk da e che valgano entrambe le assunzioni di Gauss-Markov.
In base a tali assunzioni si può affermare che
E(y|X) = Xβ
(4.110)
Cov(y|X) = σ 2 In
(4.111)
Lo stimatore dei minimi quadrati b risulta essere ancora corretto, infatti per
la (1.19)
E(b) = EX [E(b|X)] = EX [E((X 0 X)−1 X 0 (Xβ + ε)|X)] =
= EX [E(β + (X 0 X)−1 X 0 ε|X)] =
= EX [β + (X 0 X)−1 X 0 E(ε|X)] = β
| {z }
=0
(4.112)
Cap.4: Modello lineare generale
69
e la sua matrice di varianze e covarianze è data da
Cov(b) = E[(b − β)(b − β)0 ] =
= E[(X 0 X)−1 X 0 εε0 X(X 0 X)−1 ] =
= EX {E[(X 0 X)−1 X 0 εε0 X(X 0 X)−1 |X]}
= EX [(X 0 X)−1 X 0 E(εε0 |X) X(X 0 X)−1 ]
| {z }
=σ 2 In
= σ 2 EX [(X 0 X)−1 ]
(4.113)
Infine l’espressione ŝ2 = e0 e/(n − k − 1) continua ad essere uno stimatore
corretto di σ 2 , ed inoltre intervalli di confidenza e test di ipotesi conservano
la loro validità (Johnston, 1985).
4.9
Analisi della varianza
Quando le variabili antecedenti sono tutte qualitative i modelli lineari vengono detti modelli di analisi della varianza (ANOVA). Come è noto per analisi
della varianza si intende la verifica dell’uguaglianza delle medie provenienti
da diverse popolazioni individuate da uno o più criteri di classificazione.
4.9.1
ANOVA a una via
Nel caso di ANOVA ad un criterio di classificazione il modello lineare mette
in relazione E(Y ) con le r diverse possibili determinazioni A1 , . . . , Ar di
un’unica variabile qualitativa A:
E(Y ) = µj
se A = Aj
j = 1, . . . , r
(4.114)
se A = Aj
j = 1, . . . , r
(4.115)
ovvero, posto Y − µj = Y = µj + Se per il P
j-esimo livello del criterio di classificazione A si osservano nj unità,
con n = rj=1 nj , allora il modello applicato alle n unità statistiche prende
la forma seguente
yij = µj + ij i = 1, . . . , nj j = 1, . . . , r
P
ovvero posto µ = rj=1 nj µj /n ed αj = µj − µ
yij = µ + αj + ij
i = 1, . . . , nj
j = 1, . . . , r
(4.116)
(4.117)
70
A. Pollice - Statistica Multivariata
dove µ indica il valore medio di Y comune a tutte le osservazioni, mentre
αj indica l’effetto dovuto al j-esimo livello del criterio di classificazione A.
Complessivamente indicando con δ = (µ, α1 , . . . , αr )0 il vettore dei parametri
e con


y11
 .. 
 . 


 yn1 1 


 y12 


 .. 
 . 




y =  yn2 2 
 .. 
 . 


 .. 
 . 


 y1r 


 .. 
 . 
ynr r

11
...
n1 1
12
..
.









 n 2
2
ε=
 .
 ..

 ..
 .

 1r

 ..
 .
nr r























1 1
 .. ..
 . .

 1 1

 1 0

 .. ..
 . .


∆= 1 0
 .. ..
 . .

 .. ..
 . .

 1 0

 .. ..
 . .

0 ··· 0
..
.. 
.
. 

0 ··· 0 

1 ··· 0 

..
.. 
.
. 

1 ··· 0 

..
.. 
.
. 

..
.. 
.
. 

0 ··· 1 

..
.. 
.
. 
(4.118)
1 0 0 ··· 1
si ritrova la forma lineare del modello applicato alle n osservazioni:
y = ∆δ + ε
(4.119)
Ma nella matrice ∆ appena definita la prima colonna coincide con la somma
0
delle
Si osservi allora che
Pr altre r, quindi ∆ ∆ è perfettamente singolare.
Pr−1
n
α
=
nµ−nµ
=
0
da
cui
ricavo
che
α
=
−
r
j=1 j j
j=1 nj αj /nr . Pertanto
Cap.4: Modello lineare generale
71
se definiamo δ ∗ = (α1 , . . . , αr−1 )0 e

∗
y11
..
.




 yn∗ 1
1

∗

y12


..

.

 y∗
n2 2


..

.
∗
y = y − µun = 

..

.

∗
 y1r−1


..

 ∗ .
 yn r−1
 r−1
∗

y1r


..

.
∗
ynr r

1
..
.







 1



 0



 ..

 .



 0



 ..


∗
 ∆ = .

 ..

 .



 0



 ..

 .



 0

 n1

 −

 nr

 ..

 .
− nnr1
0
..
.
···
0
1
..
.
···
···
0
0
..
.
1
..
.
..
.
0
..
.
···
0
..
.
..
.
1
..
.
···

0
..
.





























0
− nnr2
..
.
···
1
· · · − nnr−1
r
..
.
− nnr2
· · · − nnr−1
r
(4.120)
si ha che la forma
y ∗ = ∆∗ δ ∗ + ε
(4.121)
individua un modello lineare ben definito. Quindi effettuando le assunzioni
di Gauss-Markov sul vettore ε si può ottenere una stima corretta, consistente
ed efficiente del vettore δ ∗ degli effetti del fattore A, tramite il metodo dei
minimi quadrati
δ̂ ∗ = [(∆∗ )0 ∆∗ ]−1 (∆∗ )0 y ∗
(4.122)
Inoltre sotto l’assunzione distributiva di normalità della componente erratica
si può verificare l’ipotesi di significatività del fattore A, ovvero di uguaglianza delle medie delle sottopopolazioni individuate dagli r livelli del criterio
di classificazione
H0 : δ ∗ = o
(4.123)
H0 : δ ∗ 6= o
tramite il test F già visto nel caso della verifica di ipotesi sul complesso dei
coefficienti della regressione multipla (4.55)
F =
n − r (ŷ ∗ )0 ŷ ∗
n − r (δ̂ ∗ )0 (∆∗ )0 ∆∗ δ̂ ∗
=
∼ Fr−1,n−r
r−1
e0 e
r − 1 e0 e
(4.124)
72
A. Pollice - Statistica Multivariata
4.9.2
ANOVA a due vie
Si procede in modo analogo nel caso di due variabili esplicative qualitative.
I due fattori di classificazione A e B assumano rispettivamente modalità
(livelli) Aj per j = 1, . . . , r e Bh per h = 1, . . . , c.
E(Y ) = µjh
se A = Aj e B = Bh
j = 1, . . . , r h = 1, . . . , c (4.125)
ovvero, posto Y − µjh = Y = µjh + se A = Aj e B = Bh
j = 1, . . . , r h = 1, . . . , c (4.126)
Se per ciascuna combinazione di livelli dei due criteri di classificazione osservo n unità statistiche (disegno ortogonale), allora il modello applicato a tutte
le rcn unità prende la forma seguente
yijh = µjh + ijh
i = 1, . . . , n
j = 1, . . . , r h = 1, . . . , c
(4.127)
P
P
il valore medio P
di Y comune a tutte le osserSia µ = rj=1 ch=1 µjh
P/rc
r
c
µ
/c
e
µ
=
vazioni e siano µj =
h
j=1 µjh /r rispettivamente la
h=1 jh
media del j-esimo livello del fattore A e quella dell’h-esimo livello del fattore B per j = 1, . . . , r ed h = 1, . . . , c. Gli effetti dei livelli dei due fattori
e della loro interazione sono definiti dalle espressioni seguenti
αj
= µj − µ
γh = µh − µ
(4.128)
(αγ)jh = µjh − αj − γh − µ = µjh − µj − µh + µ
dove l’effetto dell’interazione tra il j-esimo livello del criterio di classificazione A e l’h-esimo livello del criterio di classificazione B è ottenuto prendendo lo scarto di µjh dalla media generale, al netto degli effetti dovuti
singolarmente ai due fattori. Dunque per i = 1, . . . , n, j = 1, . . . , r ed
h = 1, . . . , c vale
yijh = µ + αj + γh + (αγ)jh + ijh
(4.129)
Pr
Pr
Pr
Inoltre,
poiché
(αγ)
=
µ
−
jh
jh
j=1 µj − rµh + rµ = 0 =
j=1
j=1
Pc
h=1 (αγ)jh e per quanto detto nel paragrafo precedente, si ha
r
X
j=1
αj = 0 =⇒ αr = −
r−1
X
j=1
αj
(4.130)
Cap.4: Modello lineare generale
c
X
h=1
r
X
γh = 0 =⇒ γc = −
73
c−1
X
γh
(4.131)
h=1
(αγ)jh = 0 =⇒ (αγ)rh = −
r−1
X
(αγ)jh
(4.132)
(αγ)jh
(4.133)
j=1
j=1
c
X
c−1
X
(αγ)jh = 0 =⇒ (αγ)jc = −
h=1
h=1
quindi i parametri “essenziali” del modello sono µ, αj , γh ed (αγ)jh per
j = 1, . . . , r − 1 ed h = 1, . . . , c − 1, e sono in tutto in numero pari a
1 + r − 1 + c − 1 + (r − 1)(c − 1) = rc.
Per esprimere la dipendenza lineare simultaneamente per tutte le osservazioni si definiscono i vettori
τ
y
∗
= (α1 , . . . , αr−1 , γ1 , . . . , γc−1 , (αγ)11 , . . . , (αγ)r−1,c−1 )0
=
ε =
(4.134)
∗
∗
∗
∗
∗
∗
∗
∗
(y111
, . . . , yn11
, y112
, . . . , yn12
, . . . . . . , y11c
, . . . , yn1c
, . . . . . . . . . , y1rc
, . . . , ynrc
)0
(111 , . . . , n11 , 112 , . . . , n12 , . . . . . . , 11c , . . . , n1c , . . . . . . . . . , 1rc , . . . , nrc )0
e la matrice seguente
74
A. Pollice - Statistica Multivariata

1
0
 ..
..
 .
.

 1
0

 1
0

 .
..
 ..
.

 1
0

 .
..
 ..
.

 ..
.
..
 .


0
∆= 1
 ..
..
 .
.

 1
0

 ..
..
 .
.

 ..
..
 .
.

 ..
..
 .
.

 −1 −1

 ..
..
 .
.
−1 −1
···
0
..
.
1
..
.
0
..
.
···
0
..
.
1
..
.
0
..
.
···
···
···
0
0
..
.
1
0
..
.
0
1
..
.
···
···
0
0
..
.
1
0
..
.
0
1
..
.
···
···
···
···
···
···
···
0
1 ··· 0
0
1 ···
..
..
..
..
..
.
.
.
.
.
..
..
..
..
..
.
.
.
.
.
−1 −1 · · · −1 −1 −1 · · ·
..
..
..
..
..
.
.
.
.
.
0 −1 −1 · · · −1 −1 −1 · · ·
..
..
..
..
..
..
.
.
.
.
.
.
..
..
..
..
..
..
.
.
.
.
.
.
..
..
..
..
..
..
.
.
.
.
.
.
−1 −1 −1 · · · −1 −1 −1 · · ·
..
..
..
..
..
..
.
.
.
.
.
.
−1 −1 −1 · · · −1 −1 −1 · · ·
0
..
.
..
.
0
..
.

0
.. 
. 

0 

0 

.. 
. 

0 

.. 
. 

.. 
. 

−1 

.. 
. 

−1 

.. 
. 

.. 
. 

.. 
. 

−1 

.. 
. 
−1
(4.135)
Complessivamente si ottiene
y ∗ = ∆τ + ε
(4.136)
ed effettuando le solite assunzioni sul vettore ε si può stimare il vettore τ
degli effetti dei due fattori
τ̂ = (∆0 ∆)−1 ∆0 y ∗
(4.137)
Inoltre sotto l’assunzione distributiva di normalità possiamo verificare le
ipotesi di significatività dei due fattori e dell’interazione, ovvero di uguaglianza delle medie delle sottopopolazioni individuate da uno o da entrambi i
criteri di classificazione
H0 (1) : α1 = · · · = αr = 0
H0 (2) : γ1 = · · · = γc = 0
H0 (3) : (αγ)11 = · · · = (αγ)rc = 0
(4.138)
Cap.4: Modello lineare generale
75
Considerando la matrice identità di ordine (rc − 1) come formata da tre
blocchi rispettivamente di (r − 1), (c − 1) ed (r − 1)(c − 1) righe Irc−1 =
(C10 , C20 , C30 )0 si possono riformulare le tre ipotesi nulle (4.138) nel modo
seguente:
H0 (1) : C1 τ = o
H0 (2) : C2 τ = o
(4.139)
H0 (3) : C3 τ = o
Anche in questo caso la devianza totale è scomponibile nella somma di una
quota associata al modello ed una quota residua
Dev(res) = e0 e = (y ∗ − ∆τ̂ )0 (y ∗ − ∆τ̂ ) =
= (y ∗ )0 y ∗ − (y ∗ )0 ∆τ̂ − τ̂ 0 ∆0 y ∗ + τ̂ 0 ∆0 ∆τ̂ =
= (y ∗ )0 y ∗ − (y ∗ )0 ∆τ̂ − τ̂ 0 ∆0 y ∗ + τ̂ 0 ∆0 ∆(∆0 ∆)−1 ∆0 y ∗ =
= (y ∗ )0 y ∗ − (y ∗ )0 ∆τ̂ = Dev(tot) − Dev(mod)
(4.140)
La devianza del modello può essere ulteriormente scomposta nella somma
delle quote dovute all’effetto dei due fattori A e B e dell’interazione
Dev(mod) = (y ∗ )0 ∆τ̂ = τ̂ 0 ∆0 y ∗ = (Irc−1 τ̂ )0 Irc−1 ∆0 y ∗ =


C1 ∆0 y ∗
= (τ̂ 0 C10 , τ̂ 0 C20 , τ̂ 0 C30 )  C2 ∆0 y ∗  =
C3 ∆0 y ∗
= τ̂ 0 C10 C1 ∆0 y ∗ + τ̂ 0 C20 C2 ∆0 y ∗ + τ̂ 0 C30 C3 ∆0 y ∗ =
= Dev(A) + Dev(B) + Dev(intAB )
(4.141)
I test per la verifica delle tre ipotesi citate sono quindi dati da
F1 =
F2 =
F3 =
4.10
(n − 1)rc τ̂ 0 C10 C1 ∆0 y ∗
∼ F(r−1),(n−1)rc
r−1
e0 e
(n − 1)rc τ̂ 0 C20 C2 ∆0 y ∗
∼ F(c−1),(n−1)rc
c−1
e0 e
(n − 1)rc τ̂ 0 C30 C3 ∆0 y ∗
∼ F(r−1)(c−1),(n−1)rc
(r − 1)(c − 1)
e0 e
(4.142)
(4.143)
(4.144)
Analisi della covarianza
Consiste nello studiare la dipendenza in media di una variabile risposta da
variabili antecedenti qualitative e quantitative, tenendo conto sia dei livelli
76
A. Pollice - Statistica Multivariata
di uno o più criteri di classificazione che di un certo numero di covariate.
Si supponga che da rc universi ottenuti classificando una certa popolazione
tramite due fattori vengano estratti altrettanti campioni di n osservazioni
sui quali si siano rilevate le variabili Y, X1 , . . . , Xk . Si voglia verificare se
le medie della Y nelle rc sottopopolazioni sono influenzate oltreché dalla
diversità degli universi, dalla dipendenza sulle k covariate. Assumiamo che
(i) le cr sottopopolazioni ottenute tramite i due criteri di classificazione
siano tra loro indipendenti;
(ii) le n osservazioni di ciascun campione siano i.i.d;
(iii) in ogni sottopopolazione la componente aleatoria abbia distribuzione
normale con varianza costante.
Si consideri il modello lineare
∗
= αj + γh + (αγ)jh + β1jh Xi1jh + · · · + βkjh Xikjh + ijh
yijh
(4.145)
con j = 1, . . . , r, h = 1, . . . , c ed i = 1, . . . , n. Siano y ∗ , ε, τ e ∆ definiti esattamente come nellle (4.134) e (4.135) ed inoltre siano β = (β111 , . . . , βkrc )0 ,
ξ = (τ 0 , β 0 )0 , X = diag(X11 , . . . , Xrc ), dove Xjh sono le matrici n × k
che contengono le osservazioni delle covariate negli rc livelli della doppia
classificazione. Sia infine ∆∗ = (∆, X).
Sotto le assunzioni di Gauss-Markov sul vettore ε il vettore ξ dei parametri
del modello
y ∗ = ∆∗ ξ + ε
(4.146)
possono essere stimati con il metodo dei minimi quadrati
ξˆ = [(∆∗ )0 (∆∗ )]−1 (∆∗ )0 y ∗ =
τ̂
β̂
(4.147)
Tramite queste stime calcoliamo i residui
e = y ∗ − ∆∗ ξˆ
(4.148)
ed analogamente a quanto fatto per l’analisi della varianza, ricaviamo la
scomposizione della devianza
Dev(res) = e0 e = (y ∗ )0 y ∗ − ξˆ0 (∆∗ )0 y ∗ = Dev(tot) − Dev(mod)
(4.149)
Cap.4: Modello lineare generale
77
Si osservi che in questo caso la devianza del modello può essere scomposta nella quota relativa alla classificazione ed in quella associata alla parte
regressiva del modello operando nel modo seguente
0 ∆
Dev(mod) = ξˆ0 (∆∗ )0 y ∗ = (τ̂ 0 , β̂ 0 )
y ∗ = τ̂ 0 ∆0 y ∗ + β̂ 0 X 0 y ∗ =
X0
= τ̂ 0 C10 C1 ∆0 y ∗ + τ̂ 0 C20 C2 ∆0 y ∗ + τ̂ 0 C30 C3 ∆0 y ∗ + β̂ 0 X 0 y ∗ =
= dev(A) + dev(B) + dev(intAB ) + dev(reg)
(4.150)
Inoltre posto che il vettore dei k coefficienti di regressione stimati β̂jh sia
scomponibile nella somma di un vettore β0 costante al variare della classificazione ed uno variabile β̃jh , ovvero
β̂jh = β0 + β̃jh
j = 1, . . . , r h = 1, . . . , c
(4.151)
la devianza di regressione può essere ulteriormente scomposta come segue
 0

X11
0

 ∗
0
0
..
, . . . , β̃rc
)] 
dev(reg) = [(β00 , . . . , β00 ) + (β̃11
y =
.
{z
} |
{z
}
|
0
0
Xrc
β̃0
β̃
= β̃00 X 0 y ∗ + β̃ 0 X 0 y ∗
(4.152)
il primo addendo rappresenta la devianza del modello di regressione nel caso
di regressioni parallele per tutti i livelli dei criteri di classificazione, mentre
la seconda viene denominata devianza di non parallelismo.
Per prima cosa viene accertata l’ipotesi di parallelismo dei modelli regressivi tramite il test
F1 =
nrc − rc(k + 1) β̃ 0 X 0 y ∗
∼ Fk(rc−1),nrc−rc(k+1)
k(rc − 1)
e0 e
(4.153)
Se il test F1 porta a un risultato significativo confermando l’ipotesi di non
parallelismo, la dipendenza della risposta dalle covariate avviene in modo diverso passando da un livello all’altro dei due criteri di classificazione. L’analisi della parte regressiva del modello non conduce pertanto a risultati univoci
circa la dipendenza in media della Y . Se al contrario l’ipotesi di parallelismo risulta plausibile, si procede verificando la significatività complessiva del
modello a regressioni parallele con il test
F2 =
nrc − rc(k + 1) τ̂ 0 ∆0 y ∗ + β̃00 X 0 y ∗
∼ Frc−1+k,nrc−rc(k+1)
rc − 1 + k
e0 e
(4.154)
78
A. Pollice - Statistica Multivariata
Qualora l’intero modello risulti significativo è possibile procedere alla vera
e propria analisi della covarianza che consiste nella verifica separata della
significatività della regressione comune
F3 =
nrc − rc(k + 1) β̃00 X 0 y ∗
∼ Fk,nrc−rc(k+1)
k
e0 e
(4.155)
e dell’effetto complessivo della classificazione
F4 =
nrc − rc(k + 1) τ̂ 0 ∆0 y ∗
∼ Frc−1,nrc−rc(k+1)
rc − 1
e0 e
(4.156)
Se in quest ultimo caso l’ipotesi nulla viene rigettata si procede alla verifica
della significatività dei singoli effetti e dell’interazione
F5 =
F6 =
F7 =
nrc − rc(k + 1) τ̂ 0 C10 C1 ∆0 y ∗
∼ Fr−1,nrc−rc(k+1)
(4.157)
r−1
e0 e
nrc − rc(k + 1) τ̂ 0 C20 C2 ∆0 y ∗
∼ Fc−1,nrc−rc(k+1)
(4.158)
c−1
e0 e
nrc − rc(k + 1) τ̂ 0 C30 C3 ∆0 y ∗
∼ F(r−1)(c−1),nrc−rc(k+1) (4.159)
(r − 1)(c − 1)
e0 e
In conclusione si noti che
• In assenza dell’effetto dovuto alla classificazione, l’analisi della covarianza si riduce allo studio della regressione multipla;
• In assenza della relazione di dipendenza dalle covariate, l’analisi della
covarianza si riduce all’analisi della varianza a due criteri di classificazione.