Dispensa - Università degli studi di Trieste

il modello
lineare
Dispensa per il corso di Modelli Statistici  corso di
laurea in Statistica e Informatica per l'Azienda, la
Finanza e l'Assicurazione  Dipartimento di Scienze
Economiche, Aziendali, Matematiche e Statistiche “Bruno
de Finetti”  Università degli Studi di Trieste  Docente:
Francesco Pauli  AA 2015/2016  versione 1.0
2
Indice
1 Introduzione
5
2 Modello di regressione lineare semplice
1
Stimatore dei minimi quadrati . . . . . . . . . . . . . . . .
1.1
Media e varianza degli stimatori dei minimi quadrati
1.2
Stimatore di σ 2 . . . . . . . . . . . . . . . . . . . . .
2
Ipotesi distributiva . . . . . . . . . . . . . . . . . . . . . . .
2.1
Stimatore di massima verosimiglianza . . . . . . . .
2.2
Distribuzione esatta degli stimatori β̂i . . . . . . . .
3
Inferenza sui coefficienti . . . . . . . . . . . . . . . . . . . .
3.1
Inferenza basata su quantità pivotali . . . . . . . . .
3.2
Verifica d’ipotesi: approccio di verosimiglianza . . .
4
Coefficiente di determinazione R2 . . . . . . . . . . . . . . .
5
Previsione col modello di regressione semplice . . . . . . . .
6
Esempio sviluppato: altezze di madri e figlie . . . . . . . . .
7
Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
17
19
20
23
24
24
25
25
28
31
33
34
38
3 Analisi dei residui
1
Assunti del modello e residui . . . . . . . .
1.1
Proprietà dei residui . . . . . . . . .
2
Verifica delle ipotesi del II ordine . . . . . .
2.1
Diagramma di dispersione dei residui
2.2
Test di omoschedasticità . . . . . . .
3
Verifica della normalità . . . . . . . . . . .
3.1
Test di normalità . . . . . . . . . . .
3.2
Verifica grafica della normalità . . .
. . . . .
. . . . .
. . . . .
risposta
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
39
39
39
42
42
44
46
46
48
.
.
.
.
.
.
.
.
.
51
53
55
56
57
58
58
62
63
63
. . . . . . . .
. . . . . . . .
. . . . . . . .
v. esplicative
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
4 Modello di regressione multipla
1
Ipotesi del modello . . . . . . . . . . . . . . . . . . .
2
Rappresentazione matriciale . . . . . . . . . . . . . .
3
Stima dei parametri . . . . . . . . . . . . . . . . . .
3.1
Stima di β . . . . . . . . . . . . . . . . . . .
3.2
Stima di σ 2 . . . . . . . . . . . . . . . . . . .
4
Interpretazione geometrica . . . . . . . . . . . . . . .
4.1
Conseguenze dell’interpretazione geometrica .
5
Distribuzione degli stimatori . . . . . . . . . . . . . .
5.1
Premessa: risultati sulla normale multivariata
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
o
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
Indice
6
7
5.2
Distribuzione di β̂ . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3
Distribuzione di σ̂ 2 . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4
Distribuzione congiunta di (β̂, σ̂ 2 ) . . . . . . . . . . . . . . . . .
Inferenza sul modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1
Inferenza su un singolo coefficiente basata sulla quantità pivotale
6.2
Verifica d’ipotesi sulla nullità di un gruppo di coefficienti . . . .
6.3
Verifica d’ipotesi su un gruppo di coefficienti, caso generale . . .
6.4
Interpretazione geometrica del confronto tra modelli . . . . . . .
6.5
Costruzione di regioni di confidenza . . . . . . . . . . . . . . . .
Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
64
64
65
65
65
66
72
74
75
83
5 Modello lineare con variabili qualitative
1
Test t a due campioni . . . . . . . . . . . . . . . . . . .
1.1
Test t in forma di regressione . . . . . . . . . . .
2
ANOVA a una via . . . . . . . . . . . . . . . . . . . . .
2.1
ANOVA come modello lineare . . . . . . . . . . .
3
ANOVA a 2 vie . . . . . . . . . . . . . . . . . . . . . . .
3.1
Modello ANOVA a due fattori senza interazione
3.2
Modello ANOVA a due fattori con interazione . .
4
ANCOVA . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
ANCOVA come modello lineare . . . . . . . . . .
5
Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
87
92
95
103
107
110
113
115
120
6 Punti leva, anomali, influenti
1
Diagnostiche . . . . . . . . . . . . .
1.1
Punti leva . . . . . . . . . . .
1.2
Valori anomali . . . . . . . .
1.3
Valori influenti . . . . . . . .
1.4
Derivazione di alcune formule
2
Cause e rimedi . . . . . . . . . . . .
3
Alcolici e tabacchi in Gran Bretagna
4
Folli del Massachusetts . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
123
124
125
126
127
129
133
133
136
7 Limiti del modello lineare e cenni alle principali estensioni
1
Non linearità . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Interpretazione con un modello trasformato . . . . . .
1.2
Modelli polinomiali e estensioni . . . . . . . . . . . . .
2
Non normalità . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Ipotesi del II ordine e teorema di Gauss-Markov . . .
2.2
Trasformazioni di Box-Cox . . . . . . . . . . . . . . .
2.3
Modelli lineari generalizzati . . . . . . . . . . . . . . .
3
Eteroschedasticità . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Trasformazioni per stabilizzare la varianza . . . . . . .
3.2
Minimi quadrati generalizzati . . . . . . . . . . . . . .
4
Dipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Multicollinearità . . . . . . . . . . . . . . . . . . . . . . . . .
5.1
Ridge regression . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
140
141
143
145
145
147
150
150
151
152
153
153
155
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Capitolo 1
Introduzione
Il più semplice modello statistico (parametrico) è quello in cui si osserva, su n unità statistiche,
una variabile Y e si suppongono le osservazioni Y1 , . . . , Yn indipendenti e identicamente distribuite, cioè realizzazioni da una comune distribuzione di probabilità individuata a mano di un
parametro, la singola osservazione ha distribuzione
Yi ∼ f (y; θ), θ ∈ Θ ⊂ Rd .
(1.1)
In altre parole, si suppone che la distribuzione della variabile Y nella popolazione sia f (y; θ0 ) per
qualche θ0 ∈ Θ. L’ipotesi per cui si conosce la distribuzione di Y a meno del parametro è piuttosto
forte, è allora più corretto affermare che si cerca, all’interno della famiglia di distribuzioni F =
{f (y; θ); θ ∈ Θ} quella che meglio descrive il comportamento di Y ai fini dell’analisi.
Esempio 1.1 Modello gaussiano. Si assume ad esempio che il campione (Y1 , . . . , Yn ) sia
costituito da realizzazioni IID da una N (µ, σ 2 ), sicché θ = (µ, σ 2 ) ∈ Θ = R × R+ . Un buono
stimatore per il parametro è dato da
n
µ̂ = Ȳ =
1X
Yi
n
n
S2 =
e
i=1
1 X
(Yi − Ȳ )2 .
n−1
i=1
Dove diciamo che lo stimatore è buono in quanto è corretto,
!
n
n
n
1X
1X
1X
E(Ȳ ) = E
Yi =
E(Yi ) =
µ=µ
n
n
n
i=1
i=1
i=1
(analogamente, E(S 2 ) = σ 2 ) e consistente
!
n
n
n
1X
1 X
1 X 2 σ2
V (Ȳ ) = V
Yi = 2
V (Yi ) = 2
σ =
→ 0
n
n
n
n n→∞
i=1
i=1
i=1
(e analogo per S 2 ), dove si ricorda che essendo lo stimatore corretto, il fatto che la varianza tende
a zero è condizione sufficiente per la consistenza.
2
L’inferenza sul parametro si basa poi sul fatto che Ȳ e S 2 sono indipendenti, Ȳ ∼ N µ, σn e
n−1 2
S
σ2
∼ χ2n−1 , sicché si ha la quantità pivotale
t=
Ȳ − µ
√ ∼ tn−1
σ/ n
6
da cui si può ricavare l’intervallo di confidenza di livello 1 − α per µ, i cui estremi sono
S
Ȳ ± Φ−1 (1 − α/2) √ ,
n
mentre
Ȳ − µ0 −1
R = √ > Φ (1 − α/2)
S/ n
è la regione di rifiuto per il sistema d’ipotesi H0 : µ = µ0 ; H1 : µ 6= µ0 . •
È poi il caso, solitamente, che si osservino, sulle unità statistiche, più caratteristiche (variabili).
Ciascuna di esse è suscettibile di essere analizzata con un modello del tipo (1.1), è però anche
possibile studiarne l’andamento congiunto.
Ad esempio potrebbero essere rilevati, di n individui, peso, altezza e sesso (età), e potrebbe essere
di interesse valutare
1. se il peso sia diverso, in media, tra maschi e femmine;
2. se la distribuzione del peso sia la stessa tra maschi e femmine;
3. se peso e altezza siano linearmente correlati;
4. quanto aumenti l’altezza all’aumentare dell’età...
5. ... e se la relazione tra altezza ed età sia la stessa per maschi e femmine.
Ci sono vari strumenti idonei a rispondere ad alcune delle domande sopra: l’indice di dipendenza
in media, l’indice χ2 di dipendenza, il coefficiente di correlazione, la regressione lineare.
È anche possibile generalizzare il modello (1.1) in modo da trattare le questioni sopra, indicando
con (Yi1 , . . . , Yiq ) le osservazioni, di q variabili, fatte sull’i-esima unità statistica, si assume sempre
che le u.s. siano indipendenti e identicamente distribuite e
IND
(Yi1 , . . . , Yiq ) ∼ f (y1 , . . . , yq ; θ), θ ∈ Θ ⊂ Rd .
(1.2)
dove f (·; θ) rappresenta una distribuzione di probabilità (congiunta) in q dimensioni.
Esempio 1.2 Normale bivariata.
Osserviamo due variabili (Yi1 , Yi2 ), ad es. il peso e
l’altezza, e supponiamo che abbiano distribuzione congiunta normale bivariata con parametro
θ = (µ1 , µ2 , σ12 , σ22 , ρ), la densità congiunta è allora
1
−
1
2
p
f (y1 , y2 ; θ) =
e 2(1−ρ )
2
2πσ1 σ2 1 − ρ
y1 −µ1
σ1
2
−2ρ
(y1 −µ1 )(y2 −µ2 )
+
σ1 σ2
y2 −µ2
σ2
2 .
Rimane definito cosı́ un modello per le marginali, Yij ∼ N (µj , σj2 ) e un modello per la dipendenza
(dal modello si possono calcolare P (Y1 ∈ A∩Y2 ∈ B) per due insiemi arbitrari A e B. Se il modello
riguarda peso e altezza in una popolazione si potrà valutare la probabilità che un individuo pesi
più di 70kg e (contemporaneamente) sia più alto di 180cm. La relazione tra le due variabili
implicata dall’ipotesi di normalità congiunta può anche essere scritta nella forma di distribuzione
condizionata
σ1
2 2
Yi1 |Yi2 = y2 ∼ N µ1 + ρ(y2 − µ2 ), (1 − ρ )σ1 .
σ2
e, simmetricamente, con la distribuzione condizionata (Yi2 |Yi1 = y1 ).
A margine, notiamo che l’ipotesi di normalità congiunta implica che la speranza matematica
σ
condizionata di Y1 |Y2 = y è una funzione lineare di y E(Y |X = x) = µy + ρ σxy (x − µx ) •
1. Introduzione
7
Il modello (1.2) mette tutte le variabili osservate sullo stesso piano, spesso però lo schema è più
semplice, consideriamo i seguenti esempi.
1. Valutare la probabilità che dei potenziali debitori restituiscano il debito sulla base di
caratteristiche individuali: reddito, situazione familiare, età, ecc.
2. Prevedere il numero di esami fatti da uno studente iscritto al primo anno sulla base di dati
anagrafici, reddito, scuola di provenienza, ecc.
3. Prevedere il reddito di un individuo sulla base del sesso a parità di altre condizioni (titolo
di studio, età, ecc.).
4. Valutare la pressione del sangue di un individuo con e senza la somministrazione di un
farmaco tenendo conto delle sue caratteristiche individuali.
5. Valutare come varia la mortalità nella popolazione a seconda della concentrazione di inquinanti atmosferici.
6. prevedere il numero di sinistri di un assicurato (o meglio di un insieme di assicurati) sulla
base delle loro caratteristiche individuali e della storia passata.
Tutti gli esempi sopra ricadono in un medesimo schema: si ha una grandezza di interesse (temperatura, probabilità di restituzione, occupazione, reddito) e altre quantità concomitanti (esplicative
nel seguito), si vuole determinare come la prima è influenzata dalle seconde (cioè le seconde sono
di interesse pratico solo quanto al loro collegamento con la prima e non di per sè).
In termini un po’ più formali, lo schema di ragionamento prevede che
variabile
variabili
∼ f y;
,θ
(1.3)
d’interesse
esplicative
cioè la distribuzione di probabilità (univariata) f (·) della variabile d’interesse (o variabile risposta)
dipende, oltre che dal parametro, dalle variabili esplicative.
Il modello ha una struttura asimmetrica ossia una variabile ha un ruolo diverso dalle altre:
l’intento è spiegare (parte della) variabilità della risposta in funzione delle esplicative.
Osservazione 1.1 Relazione e causalità. Nel costruire questo tipo di modelli è forte la tentazione
di interpretare la relazione trovata alla stregua di un rapporto causa effetto nel senso che le variabili
esplicative producono un effetto sulla variabile d’interesse. Una tale interpretazione non è giustificata dal
modello di per sé, nel senso che, per quanto il modello possa essere buono (nel senso di adeguato ai dati),
questo fatto da solo non permette di trarre conclusioni sul rapporto causa effetto tra le grandezze coinvolte.
Una tale interpretazione è possibile solo se i dati sono ottenuti con un disegno acconcio (cosa mai vera
per dati osservazionali e non sperimentali, ad esempio). Nel seguito si tratterà della costruzione, stima
e validazione di modelli, tralasciando la questione dell’interpretazione causa effetto, che è un problema
distinto. Nell’interpretare i risultati, si terrà dunque presente il loro significato: si valuta la relazione
statistica esistente tra le variabili, non la relazione sostanziale o funzionale in termini di rapporti causaeffetto. •
Gli scopi dell’analisi possono essere diversi, principalmente possiamo distinguere lo scopo previsivo, quando cioè si vuole uno strumento per prevedere il valore della variabile d’interesse noti
i valori delle variabili esplicative (perché ad esempio queste sono più facili da misurare o si osservano in anticipo rispetto alla risposta) e lo scopo interpretativo, quando ciò che interessa
principalmente è stabilire quali tra le esplicative abbiano una più forte relazione con la risposta
e in che direzione vada tale relazione. Emblematico del secondo scopo è l’esempio 3 quando
l’obiettivo sia determinare se vi sia disparità di trattamento tra i sessi, emblematici del primo
scopo sono gli esempi 1 e 6 quando l’obiettivo sia scegliere, tra i potenziali clienti, a chi concedere
un prestito.
8
Unità nel
campione
1
2
..
.
i
..
.
n
Variabili osservate
Y1
Y2
..
.
Yi
..
.
Yn
variabile
d’interesse
(risposta o
dipendente)
x11
x21
..
.
xi1
..
.
xn1
primo
regressore
...
...
x1p
x2p
...
...
...
xip
...
...
...
...
...
xnp
ultimo
regressore
(esplicative o indipendenti)
Tabella 1.1: Campione tipo, i diversi simboli usati per le variabili (Y e x) ne riflettono il
diverso ruolo: la variabile risposta ha un ruolo stocastico nel modello, le variabili esplicative sono
considerate fisse
Per formalizzare più precisamente il problema presentato sin qui in termini generali cominciamo
col formalizzare la base informativa dicendo che di n unità statistiche, si sono osservate diverse
caratteristiche, tradotte in p + 1 variabili (non necessariamente numeriche), si ha cioè un insieme
di dati genericamente rappresentabile come nella tabella 1.1.
Detta Y la variabile risposta e xj , j = 1, . . . , p, le variabili esplicative il modello (1.3) può essere
scritto
IND
Yi ∼ f (yi ; xi1 , . . . , xip , θ),
(1.4)
dove i = 1, . . . , n indica l’unità statistica. Si noti che l’espressione (1.4) non ricomprende tutte
le possibili relazioni asimmetriche, è anche troppo generale per i nostri fini ma non è del tutto
generale. Una prima semplificazione della (1.4) si ha supponendo che l’errore sia additivo
IND
h(Yi ) = g(xi1 , . . . , xip ; θ) + εi , εi ∼ f (·; θ)
(1.5)
dove h(·) è una funzione nota, g(·) è una funzione da stimare (nota a meno di un parametro) e ε
è la componente casuale.
Infine, il modello lineare è un’ulteriore particolarizzazione dell’espressione (1.5) in cui
IND
h(Yi ) = β1 g1 (xi1 ) + . . . βp gp (xip ) + εi , εi ∼ f (·; θ),
(1.6)
dove sia h che g1 , . . . , gp sono funzioni note e β1 , . . . , βp sono parametri da stimare e la distribuzione f è la normale di media nulla. Ad esempio, sono modelli lineari
√
yi = β1 + β2 x2i2 + β3 xi3 + εi ,
log(yi ) = β1 + β2 xi2 + β3 xi3 + εi ,
Introduciamo nel seguito alcuni esempi di insiemi di dati, dei quali tratteremo anche nel seguito.
Esempio 1.3 Ciliegi neri. Per 31 alberi di ciliegio nero si sono osservati il diametro del
tronco (misurato a una fissata altezza da terra), l’altezza e il volume di legno ottenuto dopo
l’abbattimento dell’albero stesso. I dati sono riportati nella tabella all’interno della figura 1.1.
1. Introduzione
9
8
10 12 14 16 18 20
●
70
●
volume
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
10
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
diametro
●
●
●
●
●
●
●●
●
● ●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
altezza
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
●
●
●
75
●
●
●●●
●
80
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
● ●●
●
●
85
10 12 14 16 18 20
8
●
30
●
●
●
●
●
●
●
●
●●
●● ●
●
●
● ●
●
●
●
●
70
●
●
●
●
●
●
65
●
●
●
●
●
●
●
10
30
50
70
65
70
75
80
85
80
●
70
●●
●
60
●
●
●
●
●
●
●
●
●
●●
● ●
●
●
●
90
85
80
75
70
65
60
●
●
●
●
8
10
12
14
16
18
20
altezza
50
●●●
●
40
volume
●
30
(in piedi)
70
65
63
72
81
83
66
75
80
75
79
76
76
69
75
74
85
86
71
64
78
80
74
72
77
81
82
80
80
80
87
volume
del legno
(in piedi3 )
10.3
10.3
10.2
16.4
18.8
19.7
15.6
18.2
22.6
19.9
24.2
21.0
21.4
21.3
19.1
22.2
33.8
27.4
25.7
24.9
34.5
31.7
36.3
38.3
42.6
55.4
55.7
58.3
51.5
51.0
77.0
20
altezza
10
diametro
del tronco
(in pollici)
8.3
8.6
8.8
10.5
10.7
10.8
11.0
11.0
11.1
11.2
11.3
11.4
11.4
11.7
12.0
12.9
12.9
13.3
13.7
13.8
14.0
14.2
14.5
16.0
16.3
17.3
17.5
17.9
18.0
18.0
20.6
● ●
50
●●
22
diametro
Figura 1.1: Dati sui ciliegi neri
Si hanno quindi tre variabili, tutte quantitative continue, in linea di principio potrei considerare
diversi modelli asimmetrici, ciascuna delle tre variabili potrebbe fungere da variabile risposta. Tra
questi, quelli di effettivo interesse sono quelli in cui il volume è spiegato in funzione di diametro
e altezza (perché queste ultime quantità sono facili da rilevare, mentre per rilevare il volume
occorre abbattere l’albero e quindi disporre di un modello per prevedere il volume ligneo prima
dell’abbattimento sembra sensato). Nella figura 1.1 si danno alcune rappresentazioni grafiche che
suggeriscono vi sia effettivamente un legame tra le grandezze in gioco, legame che potrebbe essere
riassunto da una legge del tipo (1.6) come
volume = β1 + β2 (diametro) + β3 (altezza) + errore
oppure, prendendo spunto dalla geometria
volume = β1 (diametro)β2 (altezza)β3 (errore)
che può essere scritta nella forma (1.6) passando ai logaritmi. •
Esempio 1.4 Hot dog e calorie. Di 54 confezioni di hot-dog è stato rilevato il numero di calorie
per confezione. Le confezioni si distinguono per il tipo di carne, che può essere bovina, di pollame
o mista. I dati sono riportati nella tabella di sinistra nella figura 1.2. Il campione, cosı̀ come
presentato in figura 1.2 non è nella forma rappresentata nella tabella 1.1, tuttavia esso può essere
riscritto in tale forma, come mostrato nella tabella a destra nella figura 1.1. Da quest’ultima è
160
140
Pollame
102
102
107
142
152
129
106
87
113
86
146
132
94
99
135
143
144
120
Mista
191
172
139
179
195
138
182
147
175
153
135
173
190
146
136
107
140
100
Bovina
186
149
158
148
141
157
135
181
184
139
152
153
131
132
176
190
175
111
190
149
180
10
Bovina
Mista
Pollame
Carne
Bovina
Mista
Pollame
Bovina
Mista
Pollame
Bovina
Mista
Pollame
.
.
.
Bovina
Mista
Pollame
Bovina
Mista
Pollame
Bovina
Mista
Pollame
Calorie
186
191
102
181
182
106
176
190
94
.
.
.
149
135
152
135
140
146
132
138
144
Figura 1.2: Contenuto in calorie di 54 confezioni di hot-dog, da sinistra a destra: dati in forma
di elenchi, rappresentazioni in forma di boxplot, dati nella forma di cui alla tabella 1.1
evidente che sono coinvolte due variabili, l’una quantitativa, le calorie, e una qualitativa, il tipo
di carne.
Ci si chiede se e in che misura l’apporto calorico sia diverso per i tre tipi di carne, si formula cioè
il modello
calorie = f (carne) + (errore)
dove


µ1
f (carne) = µ2


µ3
se carne = Bovina
se carne = Pollame
se carne = Mista
Il modello può essere scritto nella forma (1.6) come verrà illustrato nel capitolo 5. Notiamo che
il problema potrebbe essere affrontato, in termini di dipendenza in media, usando l’indice η 2 . •
Esempio 1.5 Effetti del fumo sul peso dei neonati Il peso alla nascita di un bambino
dipende dalla durata della gravidanza? E, a parità di durata della gravidanza, dipende dal fatto
che la madre fumasse durante la gestazione?
Al fine di rispondere a questi quesiti, si sono rilevati, per 32 neonati, il peso alla nascita (in
grammi), la durata della gravidanza (in settimane), e la circostanza se la madre sia fumatrice o
meno (S/N), i dati sono mostrati nella figura 1.3 in forma tabellare e grafica.
Per quanto riguarda la prima questione il problema si può porre in questi termini
peso = f (durata) + (errore)
Per rispondere al secondo quesito il modello dovrebbe essere strutturato nel modo seguente
peso = f (durata, fumo) + (errore)
dove
(
f1 (durata) se fumo = S
f (durata, fumo) =
f2 (durata) se fumo = N
1. Introduzione
●
●
3400
●
●
●
Madre non fumatrice
Madre fumatrice
●
●
3200
Fumo
...
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
●
●
●
●
3000
Durata
...
38
34
40
37
40
39
39
35
41
38
42
37
39
40
35
36
peso del neonato
Peso
...
3130
2450
3226
2729
3410
3095
3244
2520
3523
2920
3530
3040
3322
3459
2619
2841
●
●
2800
Fumo
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
...
●
2600
Durata
38
36
39
35
42
36
39
39
42
39
38
42
41
42
41
38
...
●
●
2400
Peso
2940
2420
2760
2440
3301
2715
3130
2928
3446
2957
2580
3500
3200
3346
3175
2740
...
11
●
34
36
38
40
42
durata della gravidanza
Figura 1.3: Peso dei neonati, durata della gravidanza e carattere fumatore, non fumatore della
madre.
nella sua versione più semplice si potrebbe avere
(
β1 + β2 (durata)
f (durata, fumo) =
β3 + β4 (durata)
se fumo = S
se fumo = N
L’inferenza per un modello di questo tipo è illustrata nella sezione 4 del capitolo 5. •
Esempio 1.6 Tempi olimpici. Disponiamo dei tempi (in secondi) impiegati dai vincitori di
medaglia d’oro per percorrere i 100 metri nelle olimpiadi moderne, esclusa l’ultima.
12.0
Tempo
12.20
11.90
11.50
11.90
11.50
11.50
11.00
11.40
11.00
11.07
11.08
11.06
10.97
10.54
10.82
10.94
11.12
10.93
10.78
Tempo
12.00
11.00
11.00
11.20
10.80
10.80
10.80
10.60
10.80
10.30
10.30
10.30
10.40
10.50
10.20
10.00
9.95
10.14
10.06
10.25
9.99
9.92
9.96
9.84
9.87
9.85
9.69
11.5
Tempo migliore
Atleta
Elizabeth Robinson
Stanislawa Walasiewicz
Helen Stephens
Fanny Blankers-Koen
Marjorie Jackson
Betty Cuthbert
Wilma Rudolph
Wyomia Tyus
Wyomia Tyus
Renate Stecher
Annegret Richter
Lyudmila Kondratyeva
Evelyn Ashford
Florence Griffith-Joyner
Gail Devers
Gail Devers
Ekaterini Thanou
Yuliya Nesterenko
Shelly-Ann Fraser
Atleta
Tom Burke
Frank Jarvis
Archie Hahn
Archie Hahn
Reggie Walker
Ralph Craig
Charles Paddock
Harold Abrahams
Percy Williams
Eddie Tolan
Jesse Owens
Harrison Dillard
Lindy Remigino
Bobby Morrow
Armin Hary
Bob Hayes
Jim Hines
Valery Borzov
Hasely Crawford
Allan Wells
Carl Lewis
Carl Lewis
Linford Christie
Donovan Bailey
Maurice Greene
Justin Gatlin
Usain Bolt
11.0
10.5
10.0
9.5
9.0
1900
1920
1940
1960
1980
2000 2012
1980
2000
Anno
12.0
11.5
Tempo
Anno
1928
1932
1936
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
2008
Anno
1896
1900
1904
1906
1908
1912
1920
1924
1928
1932
1936
1948
1952
1956
1960
1964
1968
1972
1976
1980
1984
1988
1992
1996
2000
2004
2008
11.0
10.5
10.0
1900
1920
1940
1960
Anno
Figura 1.4: Tempi olimpici
Considerando dapprima i soli risultati maschili, rappresentiamo i tempi contro l’anno (figura 1.4,
in alto) è evidente l’andamento decrescente, che, si ritiene generalmente, riflette il miglioramento
nei materiali e delle tecniche di allenamento. Ci si può allora chiedere se l’ipotesi che negli anni
12
ci sia un miglioramento dei risultati sia supportata dai dati; di quanto si migliora ogni anno o
quale potrebbe essere il risultato alla prossima olimpiade.
Consideriamo poi i risultati olimpici nei 100m per uomini e donne (figura 1.4 in basso). Le due
serie mostrano un andamento simile, ma su livelli diversi. Ci si chiede allora quale sia in media
la differenza tra tempi maschili e femminili; se la differenza vari negli anni; se il miglioramento
annuo (se c’è) sia lo stesso per uomini e donne; se le due serie possano essere spiegate in un unico
modello. •
Esempio 1.7 Emissioni di CO2 e ricchezza. L’anidride carbonica (CO2 ) è un gas prodotto
da animali (respirazione) e alcuni batteri e da vari processi chimici (e.g. la combustione). Esso è
indispensabile alla vita (ad es. è indispensabile alla fotosintesi), d’altro canto è tra i responsabili
dell’effetto serra (trattenimento dell’energia solare nell’atmosfera). Si ritiene che il suo aumento
(per effetto antropico) negli ultimi decenni stia portando a un aumento dell’effetto serra e quindi
delle temperature. Parte delle emissioni dovute ad attività antropica sono contabilizzate e attribuite ai singoli paesi ed è interessante valutare le emissioni in relazione ad altre caratteristiche
del paese.
Per 188 paesi disponiamo delle emissioni di CO2 (co2, kt), del GDP (gdp, milioni di dollari USA),
del GDP pro capite (gdppc, dollari USA) della popolazione; (pop, milioni di unità), un estratto
dei dati a disposizione è rappresentato nella tabella 1.2.
Tra le varie domande che ci si potrebbe porre:
• C’è una relazione tra emissioni e ricchezza?
• Quanto aumentano (in media) le emissioni per 1$ in più?
• C’è una relazione tra emissioni e ricchezza a parità di popolazione?
• Ricchezza e popolazione insieme possono spiegare le emissioni meglio di una sola?
Dalla figura 1.5(a) si evince che sussiste una relazione tra emissioni e ricchezza, in particolare una
relazione lineare nei logaritmi, come mostra il pannello (b) della figura 1.5. Per rispondere alla
terza domanda si può ragionare in termini di ricchezza procapite (v. figura 1.5(c)). Rispondere
all’ultima domanda richiede gli strumenti illustrati nel capitolo 4. •
paese
Kiribati
Micronesia, Fed. Sts.
Vanuatu
Marshall Islands
Comoros
Dominica
.
.
.
Canada
Germany
Japan
Russian Federation
India
United States
China
cod paese
KIR
FSM
VUT
MHL
COM
DMA
.
.
.
CAN
DEU
JPN
RUS
IND
USA
CHN
co2
29.34
62.34
91.67
99.01
124.68
128.34
.
.
.
544091.12
786659.51
1208162.82
1708653.32
1742697.75
5461013.74
7031916.21
gdp
132.51
263.44
593.44
152.57
530.14
462.16
.
.
.
1502678.44
3623686.23
4849208.10
1660846.39
1224096.60
14219300.00
4521827.29
gdppc
1372.67
2386.97
2602.33
2885.13
760.56
6780.55
.
.
.
45099.61
44132.04
37972.24
11700.22
1027.91
46759.56
3413.59
pop
0.10
0.11
0.23
0.05
0.70
0.07
.
.
.
33.32
82.11
127.70
141.95
1190.86
304.09
1324.65
Tabella 1.2: Emissioni, popolazione e ricchezza, dati ordinati per emissioni crescenti
Comune agli esempi sopra è il carattere quantitativo continuo della variabile risposta, questa è
infatti una limitazione del modello lineare. D’altro canto, le variabili esplicative possono essere
quantitative o qualitative e le due tipologie possono anche presentarsi nello stesso modello.
Il modello lineare risulterà inadatto in casi in cui la variabile risposta è quantitativa discreta o
qualitativa, come negli esempi seguenti (salvo che una variabile discreta abbia natura tale che la
1. Introduzione
13
(b)
(c)
●
●
●
●
●● ● ●●
● ●
● ●
●
● ●
● ● ●●
●● ●
●
●
●
● ●
●
●
● ●●
● ● ●
●
●● ●●● ● ●
● ● ●
● ●
●● ●●
●
●● ●
●
●● ●
●●
●●●
●
●●●●
●● ●
●● ●●
●●
●
●●
● ●●
●
●●
●
● ●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●●
●
●●●●●
● ●●
●● ●●
●●
●
●● ●
● ●●
●
● ●
●
● ● ●●
●●
●
●
● ●●
●
●
●●
●
● ●●
●●
●
●
● ●●
●●
●
1
5000
●
●
●
●
●
10000
1
GDP (mld )
10
1e+04
1e+02
1e+02
●
● ● ● ●●
●● ●●
●
●
●
●●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
100 1000
●
●
●
●
●●●
● ●
●
●
●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●● ●
● ●●
●
●
●
●●
● ●● ● ●
●
●
● ●
●
●●●
●
●●
●
●
● ●
●
●●●
● ●
●
●
●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
● ●
●
● ●
● ●●
●● ●
●
●
●● ●
● ●
●
●●
●
●
●●
● ●
● ●
●
●
●●
●
●
●●
●
●
●
●
● ●● ●
● ● ●
●
●
●
● ●
●
●
● ●
● ●
●
●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
●●
●
● ●
●●
●
●
●
●
●
●
0.2
GDP (mld )
●
●
●
●
●
co2
1e+04
co2
4e+06
●●
●
0e+00
●
●
●●
●
2e+06
co2
1e+06
●
6e+06
●
1e+06
(a)
1 2
5
25
GDP pro capite (x1000)
Figura 1.5: Diagramma di dispersione tra CO2 e GDP su scala originale (a) e logaritmica (b);
diagramma di dispersione tra CO2 e GDPPC su scala logaritmica (c)
14
●
●
12
●
Visite
10
●
●
8
●
●
6
●
●
4
●
●
●
2
●
20
30
40
50
60
70
80
Età
Figura 1.6: Numero di visite mediche in un anno ed età
sua distribuzione sia approssimabile da una normale, ad esempio una Poisson con media molto
elevata).
Esempio 1.8 Visite mediche ed età. Per n = 16 soggetti si è rilevato il numero di visite
mediche in un anno (y) e l’età dell’individuo (in anni) (x). I dati sono raffigurati nella figura
1.6 È naturale modellare il numero di viste in funzione dell’età, non è possibile però accettare
l’approssimazione normale essendo i valori osservati piuttosto bassi. Si dovranno usare modelli
nella classe dei GLM. •
Esempio 1.9 Space shuttle. In occasione di n = 23 lanci dello space shuttle si è rilevata la
temperatura (x, in gradi Celsius) e il verificarsi o meno di problemi (erosione delle guarnizioni o
fuoriuscita di gas) a una o più delle 6 guarnizioni ad anello: y pari a 0 se non se n’è verificata
nessuna, 1 altrimenti. Il carattere dicotomico della variabile risposta esclude l’uso del modello
lineare, si dovrà ricorrere, ad esempio, a un modello logistico (caso particolare dei GLM). •
Nella tabella 1.3 si riporta un quadro dei modelli adatti a trattare relazioni asimmetriche, classificati a seconda della natura delle variabili coinvolte: dicotomiche (es. maschio, femmina),
●
●
●
●
●
●
0
Problema
1
14
●
15
●
●
●
●
●
20
●
●
●
●
●
●
25
Temperatura (°C)
Figura 1.7: Dati sullo space shuttle
variabile risposta (Y )
variabili esplicative
(x)
quantitativa
discreta
continua
binaria
nominale (> 2 det.)
nominali
tabelle di contingenza
modelli log-lineari
reg. logistica
tabelle di contingenza
modelli log-lineari
reg. multinomiale
reg. Poisson
modelli log-lineari
t-test
ANOVA
(reg. multipla)
[hotdog]
quantitative
reg. logistica
[space shuttle]
reg. multinomiale
reg. Poisson
[visite]
reg. multipla
[ciliegi]
miste
reg. logistica
reg. multinomiale
reg. Poisson
ANCOVA
(reg. multipla)
[neonati]
Tabella 1.3: t-test per la differenza tra medie, analisi della varianza (ANOVA) e analisi della
covarianza (ANCOVA) possono essere visti come caso particolare della regressione multipla. in
[] gli esempi di riferimento
qualitative (es. rosso, blu, verde,... o elementare, media, superiore...), quantitative discrete (es.
numero di visite in un anno), quantitative continue (es. peso dopo una dieta). Dalla tabella
si evince come, tra i modelli per relazioni asimmetriche, il modello lineare si presti a trattare
quelli in cui la variabile risposta è quantitativa continua, qualunque sia la natura delle variabili
esplicative.
Capitolo 2
Modello di regressione lineare
semplice
Il più semplice dei modelli di regressione è la regressione lineare semplice, in cui le variabili
coinvolte sono solo due: la risposta e un’unica esplicativa. Ad esempio, ci si è chiesti se sono
legate le altezze di madri e figlie. Madri alte tendono ad avere figlie alte? Se sı̀, in che misura?
Tale problema venne analizzato da Galton nel 18861 , il nome regressione si deve appunto a tale
lavoro, in cui Galton concludeva che da una generazione all’altra la statura regredisce verso la
media (donne alte tendono ad avere figlie alte ma con altezza più vicina alla media generale).
Consideriamo allora un campione di n = 11 coppie madre-figlia per le quali si sono rilevate le
rispettive altezze, ottenendo i dati riportati nella tabella 2.1, dove x rappresenta l’altezza della
madre e y l’altezza della figlia, entrambe espresse in centimetri (un campione più ampio sarà
analizzato nella sezione 6).
x
y
1
153.7
163.1
2
156.7
159.5
3
173.5
169.4
4
157.0
158.0
5
161.8
164.3
6
140.7
150.0
7
179.8
170.3
8
150.9
158.9
9
154.4
161.5
10
162.3
160.8
11
166.6
160.6
Tabella 2.1: Altezze di 11 coppie madre-figlia: x rappresenta l’altezza della madre e y l’altezza
della figlia, entrambe espresse in centimetri.
Il primo strumento di analisi esplorativa per la relazione tra le due variabili è il diagramma di
dispersione, riportato in figura 2.1. Una misura sintetica della linearità della relazione tra due
variabili è il coefficiente di correlazione
cov(X, Y )
ρ= p
.
V (X)V (Y )
(2.1)
Il coefficiente di correlazione è compreso tra −1 e 1 e raggiunge i casi limite solo in caso di perfetta
dipendenza lineare. Lo stimatore di ρ è
Pn
(yi − ȳ)(xi − x̄)
ρ̂ = pPn i=1
,
(2.2)
Pn
2
2
i=1 (xi − x̄)
i=1 (yi − ȳ)
dove x̄ e ȳ sono le medie aritmetiche delle osservazioni. Per i dati della tabella 2.1, ρ̂ = 0.88.
1
Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological
Institute of Great Britain and Ireland, 15, 246-263.
16
●
170
●
Altezza figlie
165
●
●
●
160
●
●
●
●
●
155
150
●
140
150
160
170
180
Altezza madri
Figura 2.1: Diagramma di dispersione per le altezze di madri e figlie.
Dal diagramma di dispersione e dal valore del coefficiente di correlazione sembra di poter dire
che vi sia effettivamente una relazione tra le due variabili: madri più alte tendono ad avere figlie
più alte. Questa relazione non è però esatta, nel senso che madri di altezza molto simile possono
avere figlie di altezze anche sensibilmente diverse; d’altra parte, essa è abbastanza regolare, in
quanto i punti si dispongono intorno a una linea retta.
Si potrebbe dunque descrivere la relazione sinteticamente nella forma
yi = β1 + β2 xi + εi ,
(2.3)
dove yi e xi sono, rispettivamente, l’altezza della figlia e l’altezza della madre nell’i-esima coppia,
β1 e β2 sono numeri reali e εi è un termine di errore introdotto per tenere conto del fatto che la
relazione non è precisa (come detto, i punti si dispongono intorno a una retta, non su una retta).
La scrittura (2.3) non dice ancora come si trovano β1 e β2 (anzi, scritta cosı̀, qualunque retta
andrebbe bene) né come s’interpretano i coefficienti (ovvero la retta stessa).
Appare naturale associare la relazione lineare alla media della variabile Y : si assume allora che
sia lineare la relazione tra x e la media di Y |X = x e che la variabilità di Y intorno a tale media
sia la stessa per qualunque valore di x, cioè
E(Y |X = x) = β1 + β2 x,
2
V (Y |X = x) = σ .
(2.4)
(2.5)
In termini dell’errore εi (vedi l’equazione (2.3)) ciò significa
E(εi ) = 0,
(2.6)
2
(2.7)
V (εi ) = σ .
Il condizionamento a X = x significa che l’analisi è condizionata ai valori della x (questo a volte si
esprime dicendo che la x è non stocastica), quindi non si fa alcuna ipotesi sulla loro distribuzione
(il fatto di dire che ci si condiziona alle x è forse più chiaro perché abbraccia immediatamente
anche il caso in cui le x hanno una natura stocastica tanto quanto le y, come nell’esempio cui
stiamo facendo riferimento, dove le variabili hanno la stessa natura).
2. Modello di regressione lineare semplice
17
2.1 Stimatore dei minimi quadrati
Vogliamo determinare dei valori per β1 e β2 tali per cui la retta sia “vicina” alle osservazioni:
dobbiamo quindi misurare la distanza di una generica retta dai punti osservati e scegliere la retta
che minimizza tale distanza (si noti che un’operazione del genere ha senso anche dal punto di vista
meramente descrittivo). Diverse scelte di distanza possono essere fatte e portano a rette diverse;
l’opzione che risulta più conveniente (oltre che giustificabile sulla base di considerazioni che
verranno fatte nel seguito) è misurare la distanza sommando i quadrati delle differenze verticali
tra retta e punti (vedi figura 2.2, pannello a sinistra). Con ciò, la distanza tra i punti {(xi , yi )}
e la generica retta di coefficienti β1 e β2 è
S(β1 , β2 ) =
n
X
(yi − (β1 + β2 xi ))2 .
i=1
Definiamo allora stimatore dei minimi quadrati di (β1 , β2 )
argmin
n
X
(yi − (β1 + β2 xi ))2 .
(2.8)
β1 ,β2 ∈R i=1
Osservazione 2.1 Scostamenti. Altre scelte sono altrettanto ragionevoli, ad esempio usare i valori
assoluti invece dei quadrati, oppure le distanze punto-retta nel senso della geometria. Tali opzioni risulterebbero però meno convenienti computazionalmente. Inoltre, la scelta del quadrato della differenza
rispetto al valore assoluto della stessa appare ragionevole in quanto pesa maggiormente scostamenti più
ampi. La scelta delle distanze verticali invece delle distanze geometriche è coerente col fatto che interessa
generalmente usare la retta per approssimare il valore di Y corrispondente a una data x e la differenza
verticale è allora l’errore di approssimazione.
Un’opzione altrettanto comoda delle distanze verticali è usare le distanze orizzontali: è meno naturale in
quanto l’obiettivo del modello è trovare il valore della y, ma è altrettanto semplice in quanto corrisponde
a scambiare i ruoli di x e y, la retta che si ottiene è diversa salvo casi particolari.
Nella figura 2.2 si rappresentano le rette ottenute usando le diverse opzioni per i dati sulle altezze. •
Per trovare lo stimatore dei minimi quadrati eguagliamo a zero le due derivate parziali di S(β1 , β2 ),
ottenendo il sistema
( ∂S(β ,β )
P
1 2
= −2 ni=1 (yi − (β1 + β2 xi )) = 0
∂β1
(2.9)
P
∂S(β1 ,β2 )
= −2 ni=1 xi (yi − (β1 + β2 xi )) = 0,
∂β2
che equivale a
(P
Pn
n
xi = 0
i=1 yi − nβ1 − β2
Pn
Pn i=1
Pn
2
i=1 xi yi − β1
i=1 xi − β2
i=1 xi = 0.
(2.10)
Dalla prima si ottiene β1 = ȳ − β2 x̄,e sostituendo questa espressione nella seconda si ha
n
X
i=1
Quindi, purché
xi yi − ȳ
n
X
i=1
xi + β2 x̄
n
X
i=1
xi − β 2
n
X
x2i = 0.
i=1
Pn
− x̄)2 6= 0, cioè purché le xi non siano tutte uguali, si ha
P
P
P
Pn
n ni=1 yi xi − ni=1 xi ni=1 yi
(y − ȳ)(xi − x̄)
Pn i
P
P
= i=1
,
β̂2 =
2
n ni=1 x2i − ( ni=1 xi )2
i=1 (xi − x̄)
i=1 (xi
(2.11)
18
2.1. Stimatore dei minimi quadrati
●
170
●
●
●
minimi quadrati
dist. vert. ass
dist. oriz. quad.
●
dist. geometrica
165
Altezza figlie
y
dist. verticale al quadrato
dist. vert.
dist. oriz.
dist. geometrica
●
●
●
160
●
●
●
●
155
150
●
140
150
x
160
170
180
Altezza madri
Figura 2.2:
A sinistra, diverse misure di distanza punto retta; a destra le rette ottenute
minimizzando tali distanze
e, di nuovo usando la prima equazione,2
β̂1 = ȳ − β̂2 x̄.
(2.12)
Lo stimatore del coefficiente angolare è il rapporto tra la covarianza campionaria di X e Y e la
varianza campionaria di X,
cov (X, Y )
β̂2 =
.
var (X)
che è coerente con l’espressione per la media condizionata nel caso di distribuzione normale
bivap
riata (esempio 2) se si ricorda che il coefficiente di correlazione è ρ(X, Y ) = cov (X, Y ) / var (X) var (Y ).
Osservazione 2.2 Identificabilità. Se le xi fossero tutte eguali, cioè xi = x0 per ogni i, sarebbe anche
x̄ = x0 e xi − x̄ = 0 per ogni i; il sistema (2.10) avrebbe perciò infinite soluzioni. D’altra parte il modello
diventerebbe E(Yi ) = β1 +β2 x0 , con le Yi , quindi, aventi identica media µi = µ = β1 +β2 x0 , essendoci però
infinite coppie (β1 , β2 ) corrispondenti a ciascun possibile valore di µ il modello non sarebbe identificato. •
2
La soluzione si può ottenere anche via inversione di matrice, scrivendo il sistema (2.10) come
Pnn
i=1
xi
Pn
Pn
Pni=1 x2i β1 = Pni=1 yi
β2
i=1 xi
i=1 xi yi
la cui soluzione è
β̂1
β̂2
−1 Pn
Pn
Pni=1 x2i
Pni=1 yi
i=1 xi
i=1 xi
i=1 xi yi
Pn
Pn
P
2
1
− n
i=1 xi
i=1 xi
i=1 yi
P
P
Pn
P
n
n
2 −
n
n i=1 x2i − ( n
i=1 xi
i=1 xi yi
i=1 xi )
Pn
P
P
P
n
n
n
2
1
xi i=1
yi − i=1 x
i
i=1 xi yi .
i=1
P
P
P
Pn
P
n
n
n
n
− i=1 xi i=1 yi + n i=1 xi yi
n i=1 x2i − ( i=1 xi )2
=
=
=
Pnn
2. Modello di regressione lineare semplice
19
Ottenuti gli stimatori per β1 e β2 possiamo calcolare i valori teorici, ŷi , cioè i valori assunti dalla
retta in corrispondenza alle xi , si definisce dunque, per i = 1, . . . , n
ŷi = β̂1 + β̂2 xi .
2.1.1
(2.13)
Media e varianza degli stimatori dei minimi quadrati
Per proseguire con il calcolo di media e varianza degli stimatori β̂1 e β̂2 appena trovati conviene
anzitutto esprimerli come combinazioni lineari delle Yi . Si potrà quindi utilizzare la linearità
dell’operatore speranza matematica e quella, valida per variabili aleatorie incorrelate, della varianza. Aggiungeremo quindi un’ulteriore ipotesi: che le Y1 , . . . , Yn sono non correlate (o, che
è uguale, che gli errori ε1 , . . . , εn sono non correlati).
Indichiamo qui le osservazioni Yi con la lettera maiuscola per evidenziare che esse sono variabili
aleatorie (a differenza delle x che sono non stocastiche).
Per β̂2 si ha allora
Pn
n
n
n
X
X
X
xi − x̄
xi − x̄
i=1 xi Yi − nx̄Ȳ
P
P
P
Y
=
=
Y
=
wi Yi ,
i
n
n
n
2
2 − nx̄2 i
2
(xj − x̄)2
x
j=1
i=1 xi − nx̄
j=1
j
i=1
i=1
i=1
β̂2 =
con wi = Pn xi(x−x̄
2 per i = 1, . . . , n. Pertanto, ricordando che E(Yi ) = β1 + β2 xi e osservando
j=1 j −x̄)
Pn
Pn
che i=1 wi = 0 e i=1 wi xi = 13 si ha
E(β̂2 ) =
n
X
wi E(Yi ) =
i=1
n
X
wi (β1 + β2 xi ) = β1
i=1
n
X
wi + β2
i=1
n
X
wi xi = β2 .
i=1
Per quanto riguarda la varianza, avendo ipotizzato la non correlazione, ed essendo V (Yi ) = σ 2
per ogni i, si ha
V (β̂2 ) =
n
X
i=1
wi2 V (Yi ) = σ 2
n
X
wi2 = σ 2
i=1
n
X
i=1
(xi − x̄)2
P
n
j=1 (xj
−
x̄)2
σ2
.
2
j=1 (xj − x̄)
2 = Pn
Analogamente si opera per β1 , scrivibile anch’esso come combinazione lineare delle Yi ,
β̂1 = ȳ − β̂2 x̄ =
n
n
n
X
X
X
1
Yi −
wi Yi x̄ =
wi∗ Yi ,
n
i=1
dove wi∗ =
1
n
i=1
− wi x̄ per i = 1, . . . , n. Si ha allora
E(β̂1 ) =
n
X
wi∗ E(Yi )
= β1 + β2
i=1
poiché
Pn
∗
i=1 wi
= 1 come facilmente si verifica4 .
Pn
2
2
P
i=1 xi −nx̄
Pn xi −x̄
Pn
wi xi = n
2 xi =
2 = 1.
i=1
(x
−x̄)
j
j −x̄)
j=1
j=1 (xP
P
P
n
n
n
4
∗
1
Si ha infatti i=1 wi = i=1 n − wi x̄ = 1 − x̄ i=1 wi = 1.
3
Si ha
Pn
i=1
i=1
n
X
i=1
wi∗ xi = β1 .
(2.14)
20
2.1. Stimatore dei minimi quadrati
Per la varianza si ha, similmente,
2
n
n n X
X
X
1
1
1
∗ 2
2
2 2
2
V (β̂1 ) =
(wi ) V (Yi ) = σ
+ wi x̄ − 2 x̄wi =
− wi x̄ = σ
n
n2
n
i=1
i=1
i=1
1
x̄2
+ Pn
,
(2.15)
= σ2
2
n
i=1 (xi − x̄)
P
P
P
P
dove
le relazioni ni=1 wi∗ xi = ni=1 xni − wi x̄xi = x̄ − x̄ ni=1 wi xi = 0, ni=1 wi = 0
Pnsi sfruttano
e i=1 wi2 = 1.
A parità di tutto il resto – varianza degli errori e numerosità campionariaP– le varianze degli
stimatori sono tanto più contenute quanto maggiore è la devianza delle xi , ni=1 (xi − x̄)2 .
Infine, possiamo calcolare la covarianza
cov β̂1 , β̂2
= cov ȳ − β̂2 x̄, β̂2
= cov ȳ, β̂2 − x̄cov β̂2 , β̂2
!
n
n
X
1X
= cov
Yi ,
wi Yi − x̄V (β̂2 )
n
i=1
i=1
=
n
σ2
1X
wi V (Yi ) − x̄ Pn
2
n
i=1 (xi − x̄)
=
n
1X
σ2
wi σ 2 − x̄ Pn
2
n
i=1 (xi − x̄)
i=1
i=1
σ2
.
2
i=1 (xi − x̄)
= −x̄ Pn
(2.16)
Si noti che la covarianza ha segno opposto a x̄ e si annulla se x̄ = 0.
2.1.2
Stimatore di σ 2
Il parametro σ 2 rappresenta la varianza della distribuzione degli errori εi , che sono quantità non
osservate (in quanto non sono noti i parametri β1 e β2 ). Per stimare σ 2 possiamo però fare
ricorso ai “corrispondenti campionari” degli errori: i residui ei , calcolabili a partire dai valori
teorici (2.13) come
ei = yi − ŷi = yi − β̂1 − β̂2 xi , i = 1, . . . , n.
(2.17)
L’idea è usare questi come sostituti degli errori e quindi usarne la varianza come stimatore di σ 2 .
Si osserva P
poi che, per la prima equazione del sistema (2.9) che definisce gli stimatori dei minimi
quadrati, ni=1 ei = 0, si ha dunque lo stimatore
n
1X 2
σ̂ =
ei .
n
2
i=1
(2.18)
2. Modello di regressione lineare semplice
21
Lo stimatore σ̂ 2 non è corretto, infatti
n
X
e2i
=
i=1
n
X
(yi − β̂1 − βˆ2 xi )2
i=1
=
n
X
((yi − ȳ) − β̂2 (xi − x̄))2
i=1
=
=
n
X
i=1
n
X
2
(yi − ȳ) +
β̂22
(yi − ȳ)2 − β̂22
i=1
essendo
Pn
i=1 (yi
n
X
n
X
(xi − x̄) − 2β̂2
(yi − ȳ)(xi − x̄)
i=1
i=1
n
X
2
(xi − x̄)2 ,
i=1
− ȳ)(xi − x̄) = β̂2
Pn
nσ̂ 2 =
i=1 (xi
− x̄)2 (vedi la (2.11)). Si ha allora
n
n
X
X
(yi − ȳ)2 − β̂22
(xi − x̄)2
i=1
=
n
X
yi2 − nȳ 2 − β̂22
i=1
n
X
i=1
(xi − x̄)2
i=1
e quindi, sfruttando ripetutamente il fatto che per una generica variabile aleatoria Z si ha E(Z 2 ) =
V (Z) + E(Z)2 , si trova
E(nσ̂ 2 ) =
n
X
E(yi2 ) − nE(ȳ 2 ) − E(β̂22 )
i=1
=
=
=
n
X
n
X
(xi − x̄)2
i=1
n
X
V (yi ) + E(yi )2 − V (ȳ) − E(ȳ)2 − (V (β̂2 ) + E(β̂2 )2 )
(xi − x̄)2
i=1
n X
σ 2 + (β1 + β2 xi )2 −
i=1
n X
2
σ +
β12
i=1
= nσ 2 + β22
n
X
+
β22 x2i
σ2
n
− (β1 + β2 x̄)2
− σ 2 − β22
i=1
n
X
(xi − x̄)2
i=1
σ2
− β12 − β22 x̄2 − 2β1 β2 x̄ − σ 2 − β22
+ 2β1 β2 xi −
n
x2i + 2nβ1 β2 x̄ − σ 2 − nβ22 x̄2 − 2nβ1 β2 x̄ − σ 2 − β22
i=1
n
X
n
X
!
x2i
− nx̄
i=1
x2i − nβ22 x̄2
i=1
2
= (n − 2)σ .
È dunque E(σ̂ 2 ) =
n−2 2
n σ ,
una stima corretta è
n
s2 =
n
1 X 2
σ̂ 2 =
ei .
n−2
n−2
(2.19)
i=1
La differenza tra lo stimatore σ̂ 2 e lo stimatore corretto s2 è contenuta se n è grande e in
particolare è infinitesima per n tendente a infinito (lo stimatore σ̂ 2 è asintoticamente corretto).
2
22
2.1. Stimatore dei minimi quadrati
Esempio 2.1 Altezze di madri e figlie: calcolo delle stime. Sostituendo i valori del campione si
ha n = 11 e
n
x̄ =
n
1X
1
xi = 1757.4 = 159.76,
n
11
ȳ =
i=1
1X
1
yi = 1776.4 = 161.49,
n
11
i=1
n
n
1X 2
1
xi = 281940 = 25631,
n
11
1X
1
xi yi = 284340 = 25849.
n
11
i=1
i=1
Si trova di conseguenza
Pn
Pn
xi yi /n − x̄ȳ
(yi − ȳ)(xi − x̄)
284340/11 − 159.76 × 161.49
i=1
Pn
= Pi=1
=
= 0.45934
β̂2 =
n
2
2
2
281940/11 − 159.762
i=1 (xi − x̄)
i=1 xi /n − x̄
e β̂1 = ȳ − β̂2 x̄ = 161.49 − 0.45934 × 159.76 = 88.106, sicché il modello stimato è
yi = 88.106 + 0.45934xi + ei .
e denota che, sulla base del campione, madri più alte tendono ad avere figlie più alte.
Dal modello stimato possiamo ottenere i valori teorici (2.13) – valori assunti dalla retta dei minimi
quadrati in corrispondenza delle xi – ad esempio per i = 4 si ha
ŷ4 = 88.106 + 0.45934 × (157) = 160.24.
Ancora, si ottengono i residui (2.17) – differenze tra valori osservati e predetti – ad esempio per
i = 4 si ha
e4 = 158 − 160.24 = −2.24.
Si veda la figura 2.3 dove sono visualizzate lePquantità rilevanti.
La stima non corretta di σ 2 è allora σ̂ 2 = n1 ni=1 e2i ed è pari a
n
σ̂ 2 =
=
n
1X
1X
(yi − ȳ)2 − β̂22
(xi − x̄)2
n
n
i=1
n
X
yi2 /n
i=1
2
− ȳ −
β̂22
i=1
n
X
x2i /n
!
2
− x̄
i=1
= 26107 − 161.492 − (0.45934)2 (25631 − 159.762 ) = 5.247.
La stima corretta di σ 2 , infine, è s2 =
2.1.2.1
n
2
n−2 σ̂
=
11
11−2 5.247
= 6.413. •
Stimatori delle varianze degli stimatori β̂1 e β̂2
Nelle espressioni (2.15) e (2.14) delle varianze degli stimatori dei coefficienti β1 e β2 compare
il parametro σ 2 , occorre perciò disporre di uno stimatore anche per dette varianze. In pratica,
gli stimatori si ottengono sostituendo nelle espressioni (2.15) e (2.14) il parametro σ 2 con il suo
stimatore corretto s2 . Si ha allora
1
x̄
2
P
V̂ (β̂1 ) = s
+ n
,
(2.20)
2
n
i=1 (xi − x̄)
2. Modello di regressione lineare semplice
23
Yi ≈ N(β1 + β2xi,σ2)
yi
yk
εk
y = β1 + β2x
●
●
●
ek
^ ^
y = β1 + β2x
●
●
^ ^
y^k = β1 + β2xk
●
●
●
●
●
E(Yk)=β1 + β2xk
0
0
Figura 2.3:
semplice
xk
xi
Rappresentazione delle principali quantità coinvolte nel modello di regressione
s2
.
2
j=1 (xj − x̄)
(2.21)
V̂ (β̂2 ) = Pn
Con i dati dell’esempio s’ottiene V̂ (β̂1 ) = 6.4132
0.0054109.
1
11
+
159.762
1185.2
= 138.69 e V̂ (β̂2 ) =
6.413
1185.2
=
2.2 Ipotesi distributiva
Fin qui sono state fatte solo ipotesi del secondo ordine, ossia su medie e varianze degli εi (o Yi ):
si vedano le equazioni (2.6) e (2.7). Tali ipotesi da sole non consentono di ottenere intervalli di
confidenza o di fare verifiche d’ipotesi sui parametri del modello in modo agevole. Per proseguire
in tal senso occorre aggiungere un’ipotesi sulla distribuzione degli errori. Si assume allora che
IND
εi ∼ N (0, σ 2 )
(2.22)
per i = 1, . . . , n dove con questa notazione intendiamo che gli εi sono indipendenti e identicamente
distribuiti e che εi ∼ N (0, σ 2 ).
L’ipotesi (2.22), accanto all’ipotesi di linearità (2.3) implica ovviamente l’indipendenza, l’omoschedasticità e la linearità della media di Y |X = x. In effetti il modello può essere riscritto nella
forma
IND
Yi ∼ N β1 + β2 xi , σ 2 , i = 1, . . . , n.
(2.23)
Nella figura 2.3 si fornisce una rappresentazione delle principali quantità coinvolte: in grigio si è
rappresentata la vera retta di regressione, di equazione y = β1 + β2 x e l’associata distribuzione
per Yi |X = xi ; in nero è rappresentata invece la retta stimata, di equazione y = β̂1 + β̂2 x. Nel
grafico si può apprezzare la differenza tra εk e ek , il primo è la differenza tra yk e la retta “vera”
(in grigio, non nota) e il secondo è la differenza tra yk e la retta stimata (in nero, nota).
24
2.2.1
2.2. Ipotesi distributiva
Stimatore di massima verosimiglianza
Con l’ipotesi (2.23) possiamo scrivere la funzione di verosimiglianza associata al modello (notiamo
che le osservazioni sono indipendenti ma non identicamente distribuite).
Indicando con θ la terna dei parametri, ossia θ = (β1 , β2 , σ 2 ), si trova
n
Y
n
Y
1
1
2
√
L(θ) = L(β1 , β2 , σ ) =
pi (yi ; θ) =
exp − 2 (yi − (β1 + β2 xi ))
2σ
2πσ
i=1
i=1
(
)
n
1 X
−n/2 2 −n/2
2
= (2π)
(σ )
exp − 2
(yi − (β1 + β2 xi )) , (2.24)
2σ
2
i=1
e quindi la log-verosimiglianza è
n
n
1 X
2
l(θ) = l(β1 , β2 , σ ) = − log σ − 2
(yi − (β1 + β2 xi ))2 .
2
2σ
2
(2.25)
i=1
Per ottenere lo stimatore di massima verosimiglianza di θ scriviamo la funzione punteggio, derivata della log-verosimiglianza, e la eguagliamo a 0, ottenendo l’equazione di verosimiglianza,
data da




∂l(β1 ,β2 ,σ 2 )
1 Pn
2
i=1 (yi − (β1 + β2 xi ))
1
σ
 ∂l(β ∂β

P
2
n
1
1 ,β2 ,σ ) 
.

(2.26)
0 = l∗ (θ) = 
i (yi − (β1 + β2 xi ))
i=1 x
σ2

=
P
∂β2
n
n
1
2
2
− 2σ2 + 2(σ2 )2 i=1 (yi − (β1 + β2 xi ))
∂l(β1 ,β2 ,σ )
∂σ 2
Dalle prime due derivate otteniamo il sistema già discusso nella sezione 1 in relazione ai minimi
quadrati: le stime dei minimi quadrati coincidono quindi con le stime di massima verosimiglianza
quando si faccia l’ipotesi di normalità degli errori.
2
Si noti anche che la soluzione per (β1 , β2 ) non dipende da σ 2 : infatti,
di
Pn fissato σ , il massimo
2
(2.25) si ottiene minimizzando la somma dei quadrati degli scarti i=1 (yi − β1 − β2 xi ) .
Dall’ultima derivata in (2.26) si ottiene lo stimatore di massima verosimiglianza per σ 2 , pari a
n
1X
σ̂ =
(yi − β̂1 − β̂2 xi )2 ,
n
2
i=1
pertanto lo stimatore (2.18) coincide con lo stimatore di massima verosimiglianza.
2.2.2
Distribuzione esatta degli stimatori β̂i
In virtù dei risultati generali sulla combinazione lineare di normali, e avendo notato che gli
stimatori dei coefficienti sono combinazioni lineari delle Yi , distribuite normalmente, anche gli
stimatori stessi sono normali.
Per β̂2 si ha, per quanto già visto su media e varianza,
!
σ2
β̂2 ∼ N β2 , Pn
.
(2.27)
2
j=1 (xj − x̄)
2. Modello di regressione lineare semplice
25
Analogamente, per β̂1 si ha
1
x̄2
2
β̂1 ∼ N β1 , σ
+ Pn
.
2
n
i=1 (xi − x̄)
(2.28)
Per quanto riguarda σ̂ 2 si mostra5 che6
nσ̂ 2
=
σ2
Per lo stimatore corretto s2 =
Pn
2
i=1 ei
σ2
n
2
n−2 σ̂
=
Pn
i=1 (Yi −
σ2
=
1
n−2
Pn
2
i=1 ei ,
Ŷi )2
∼ χ2n−2 .
si ha
(n − 2)s2
∼ χ2n−2 .
σ2
(2.29)
Si mostra anche che σ̂ 2 , e quindi s2 , è indipendente da (β̂1 , β̂2 ).
2.3 Inferenza sui coefficienti
Il modello di regressione ha lo scopo di studiare la relazione tra variabili. Dei parametri del
modello quello indicativo della relazione è il coefficiente angolare β2 (quanto varia Y in media se
x subisce un aumento unitario), per questo è quello su cui è più d’interesse fare inferenza.
L’inferenza sul parametro β1 è più raramente di diretto interesse: esso rappresenta la media di
Y in corrispondenza a x = 0, che non è detto abbia un senso sostanziale (dipende dal significato
specifico di x). Esso è ovviamente di interesse combinato con β2 nel momento in cui si vogliono
fare affermazioni inferenziali sulla media di Y in corrispondenza a un particolare x. Infine, il
parametro σ 2 ha un ruolo di parametro di disturbo. Di per sé non interessa ma dev’essere
stimato per poter fare inferenza sui parametri di interesse.
Ciò detto, illustriamo nel seguito l’inferenza – verifica d’ipotesi e intervalli di confidenza – sui
parametri β1 e β2 . In particolare, faremo riferimento al secondo, l’inferenza sul primo procedendo
in modo analogo.
2.3.1
Inferenza basata su quantità pivotali
2
Osservando che V̂ (β̂r ) = σs 2 V (β̂r ) (si confrontino la (2.21) con la (2.14) e la (2.20) con la (2.15)),
si ha la quantità pivotale
β̂r −βr
√
β̂r − βr
β̂r − βr
N (0, 1)
V (β̂ )
tr = q
=q
= q r ∼ q 2
∼ tn−2 ,
χn−2
s2
s2
V (β̂r )
V̂ (β̂r )
σ2
σ2
n−2
5
(2.30)
Le proprietà relative a s2 e σ̂ 2 saranno dimostrate nel caso generale.
Da questo risultato, sfruttando il fatto che la speranza matematica di una
aleatoria χ2n è n, si può
variabile
2
2
nσ̂ 2
mostrare il fatto, già visto, che σ̂ è uno stimatore distorto per σ . Infatti E σ2 = n − 2 ⇒ E(σ̂ 2 ) = n−2
σ 2 ..
n
6
26
2.3. Inferenza sui coefficienti
dove con gli ultimi due membri si intende che tr è il rapporto tra una normale standard e la
radice di un χ2n−2 diviso i suoi gradi di libertà. Che il numeratore sia una v.a. normale standard
deriva da (2.28) o (2.27), che il denominatore sia la radice di un χ2n−2 diviso per i suoi gradi di
libertà deriva da (2.29). Siccome poi dall’indipendenza tra β̂r e s2 discende l’indipendenza tra
numeratore e denominatore, il rapporto in (2.30) è distribuito come una t di Student con n − 2
g.d.l. per definizione7 .
2.3.1.1
Verifica d’ipotesi
Consideriamo il sistema d’ipotesi
(
H0 : βr = βr0
H1 : βr 6= βr0 ,
nell’ipotesi nulla si ha, in virtù della (2.30),
β̂r − βr0
tr = q
∼ tn−2 .
V̂ (β̂r )
La forma della regione critica è {|tr | > kα } e perciò il test di livello α prescrive di rifiutare se
|tr | > tn−2,1−α/2 (dove tn−2,1−α/2 è il quantile 1 − α/2 della tn−2 ).
Il valore p, d’altra parte, è
oss
αoss = 2 min{P (tn−2 ≤ toss
r ), P (tn−2 ≥ tr )}
= 2P (tn−2 ≥ |toss
r |).
Con riferimento all’esempio, può essere interessante verificare l’ipotesi H0 : β2 = 1 contro H1 :
β2 6= 1. Si calcola allora
0.45934 − 1
β̂2 − 1
=
t2 = q
= −7.35
0.073559
V̂ (β̂2 )
e si confronta con una tn−2 . Il valore p è
αoss = 2 min{P (tn−2 ≤ t2 ), P (tn−2 ≥ t2 )}
= 2 min{P (tn−2 ≤ −7.35), P (tn−p ≥ −7.35)}
= 2 min{2.164e − 05, 1}
= 4.328 × 10−5 ,
e quindi, ad esempio, al livello del 5%, si rifiuta l’ipotesi nulla.
Il sistema d’ipotesi di maggiore interesse, in generale, è quello su β2 con β20 = 0, cioè
(
H0 : β2 = 0
H1 : β2 6= 0,
7
Per definizione, se Z ∼ N (0, 1) e V ∼ χ2m e Z e V sono indipendenti, allora T = Z/
secondo una t di Student con m gradi di libertà.
p
V /m è distribuito
2. Modello di regressione lineare semplice
27
questo perché l’ipotesi nulla corrisponde all’assenza di relazione (lineare) tra x e Y . si calcola
allora
β̂2
t2 = q
,
V̂ (β̂2 )
con regione di rifiuto |t2 | > tn−2,1−α/2 (cioè t2 esterno a un intervallo centrato in zero).
Un test equivalente è
t22 =
β̂22
V̂ (β̂2 )
con regione di rifiuto t2r > F1,n−2,1−α (il rapporto tra una normale standard al quadrato e un
χ2g diviso per i suoi gradi di libertà e una F con g.d.l. 1 e g, brevemente indicata con F1,g ; con
F1,g,1−α si indica il quantile 1 − α di una F1,g ).
2.3.1.2
Intervalli di confidenza
Otteniamo un intervallo di confidenza di livello 1 − α per βr considerando che la (2.30) implica
1 − α = P tn−2,α/2 < tr < tn−2,1−α/2


β̂r − βr
= P −tn−2,1−α/2 < q
< tn−2,1−α/2 
V̂ (β̂r )
q
q
= P − V̂ (β̂r )tn−2,1−α/2 < β̂r − βr < V̂ (β̂r )tn−2,1−α/2
q
q
= P β̂r − tn−2,1−α/2 V̂ (β̂r ) < βr < β̂r + tn−2,1−α/2 V̂ (β̂r )
qualunque siano β1 , β2 e σ 2 .
Gli estremi di un intervallo con livello 1 − α per βr sono dunque dati da
β̂r ± tn−2,1− α2
q
V̂ (β̂r ).
Otteniamo gli intervalli al 95% per l’esempio: posto α = 0.05, si ha tn−2,1− α2 = t11−2,0.975 =
2.26 e quindi l’intervallo per β1 ha estremi 88.106 ± 2.26 × 11.777 ed è dunque [61.466, 114.75].
Analogamente si ottiene per β2 l’intervallo di estremi [0.29295, 0.62573].
2.3.1.3
Tabella dei coefficienti
In genere le informazioni fondamentali relative al modello vengono riportate in una tabella che
contiene, per β1 e β2 : stima, stima della varianza di β̂r , statistica tr e associato valore p per il
test di nullità di βr .
Si riporta di seguito la tabella relativa ai dati dell’esempio.
28
2.3. Inferenza sui coefficienti
parametro
stima
errore standard
statistica t
valore p per
H0 : βr = 0 v. H1 : βr 6= 0
β1
β2
β̂r
88.106
0.45934
q
V̂ (β̂r )
11.777
0.073559
q
tr = β̂r / V̂ (β̂r )
7.4812
6.2445
P (|Tn−2 | > |tr |)
3.7664e-05
0.00015062
2.3.2
Verifica d’ipotesi: approccio di verosimiglianza
Il problema di verifica del sistema d’ipotesi
(
H0 : β2 = 0
H1 : β2 6= 0,
dove l’ipotesi nulla rappresenta la condizione per cui la variabile esplicativa non ha alcuna influenza sulla variabile risposta, può essere affrontato dal punto di vista teorico come un confronto tra
due modelli, quello espresso da (2.23), detto modello completo, e quello ottenuto da (2.23) ponendo β2 = 0, detto modello ridotto, cioè un modello
per osservazioni indipendenti e identicamente
distribuite, espresso da Yi ∼ i.i.d. N β1 , σ 2 .
Formalmente il modello completo è caratterizzato dalla verosimiglianza (2.24) e dallo spazio
parametrico definito da
θ = (β1 , β2 , σ 2 ) ∈ Θ = R2 ×]0, +∞[.
Il modello ridotto è caratterizzato dalla stessa verosimiglianza ma dallo spazio parametrico ridotto
θ = (β1 , 0, σ 2 ) ∈ Θ0 = {θ ∈ Θ : β2 = 0} ⊂ Θ.
Il confronto tra i due si può allora fare sulla base del test del rapporto di verosimiglianza, si calcola
cioè il rapporto tra il massimo della verosimiglianza nello spazio parametrico che rappresenta
l’ipotesi nulla e il massimo della verosimiglianza nello spazio parametrico dell’ipotesi alternativa
maxL(θ)
λ=
θ∈Θ0
maxL(θ)
.
θ∈Θ
Il rapporto λ è naturalmente minore di 1 perché il numeratore è un massimo vincolato di L
mentre il numeratore è il massimo non vincolato della stessa funzione. Al livello di significatività
α la regione di rifiuto è λ < λα con λα α−quantile della distribuzione di λ sotto H0 .
Il massimo a denominatore si ottiene in θ̂ = (β̂1 , β̂2 , σ̂ 2 ) definito nelle (2.12), (2.11) e (2.18), il
valore della funzione di verosimiglianza in θ̂ è
n no
n
L(θ̂) = L(β̂1 , β̂2 , σ̂ 2 ) = (σ̂ 2 )− 2 exp −
.
2
P
Il massimo a numeratore si ottiene in θ̃ = (β̃1 , 0, σ̃ 2 ) dove β̃1 = ȳ e σ̃ 2 = n1 ni=1 (yi − ȳ)2 , la
verosimiglianza ivi vale
n no
n
L(θ̃) = L(β̃1 , 0, σ̃ 2 ) = (σ̃ 2 )− 2 exp −
.
2
2. Modello di regressione lineare semplice
29
Il rapporto di verosimiglianza vale quindi
maxL(θ)
λ=
θ∈Θ0
maxL(θ)
=
θ∈Θ
L0 (β̃1 , σ̃ 2 )
L(β̂1 , β̂2 , σ̂ 2 )
=
σ̃ 2
σ̂ 2
−n/2
.
Operativamente, è conveniente usare il log-rapporto di verosimiglianza, trasformato monotono
decrescente del rapporto di verosimiglianza,
2
σ̃
2
.
W = −2 log λ = 2(l(β̂1 , β̂2 , σ̂ ) − l(β̃1 , 0, σ̃2 )) = n log
σ̂ 2
Al livello di significatività α la regione di rifiuto è
2
Pn 2 ẽi
σ̃
n log
= n log Pi=1
> w1−α ,
n
2
2
σ̂
i=1 ei
dove ẽi = yi − ȳ e w1−α è il quantile (1 − α) della distribuzione di W : si rifiuta l’ipotesi nulla se
la somma dei quadrati degli scarti dalla media è grande rispetto alla somma dei quadrati degli
scarti tra retta di regressione e valori osservati.
Per ottenere una regione critica possiamo sfruttare il fatto che W è distribuito asintoticamente
come un χ21 , la regione critica approssimata di livello α è allora
2
σ̃
n log
> χ21,1−α .
σ̂ 2
Possiamo però ottenere delle regioni critiche esatte con opportune trasformazioni. Consideriamo
anzitutto che
Pn 2
ẽ
σ̃ 2
W > k ⇔ 2 = Pni=1 2i > ek/n = k 0 .
σ̂
i=1 ei
Se poi si osserva che
n
X
e2i
=
i=1
n
X
2
(yi − ȳ) −
i=1
β̂22
n
X
2
(xi − x̄) =
i=1
n
X
ẽ2i
−
β̂22
n
X
i=1
(xi − x̄)2 ,
i=1
il rapporto tra le varianze stimate diventa
P
Pn 2
P
Pn 2
ẽi
ei + β̂22 ni=1 (xi − x̄)2
β̂22 ni=1 (xi − x̄)2
i=1
i=1
Pn 2 =
Pn 2
Pn 2
=1+
,
i=1 ei
i=1 ei
i=1 ei
(2.31)
e quindi
Pn 2
P
ẽi
β̂22 ni=1 (xi − x̄)2
0
i=1
Pn 2 > k ⇔
Pn 2
> k 00 .
i=1 ei
i=1 ei
Ma
β̂22
Pn
2
i=1 (xi − x̄)
P
n
2
i=1 ei
β̂22
=
1
n−2
2
i=1 (xi −x̄) n−2
Pn
2
i=1 ei
2

β̂2
= q
Pn
s2
2
i=1 (xi −x̄)

Pn

1
n−2
2
1
β̂2 
1
= q
= t22
,
n−2
n−2
V̂ (β̂2 )
(2.32)
30
2.3. Inferenza sui coefficienti
e, con ragionamento analogo a quello fatto per la (2.30), si ottiene che
t22 =
β̂22
V̂ (β̂2 )
N (0, 1)2
∼
χ2n−2
n−2
∼ F1,n−2 ,
dove Fr,s indica una distribuzione F con r e s gradi di libertà.8 Si ottiene dunque la regione
esatta t22 > F1,n−2,1−α , che equivale poi a |t2 | > tn−2,1−α . Si è dunque ottenuto per questa via lo
stesso test ricavato a partire dalla quantità pivotale.
27.98
Con i dati dell’esempio, si ha σ̂ 2 = 5.247 e σ̃ 2 = 27.98, perciò W = 2 log 5.247
= 3.3477, mentre
β̂ 2
2
0.45934
2
oss = P (t2
oss 2
2
2
(toss
2 ) = V̂ (β̂2 ) = 0.0054109 = 38.994 e il valore p è α
n−2 > (t2 ) ) = P (tn−2 > 38.99) =
0.00015062.
D’altra parte il test basato sulla quantità pivotale fornisce
toss
2 = q
β̂2
=
V̂ (β̂2 )
0.45934
= 6.2445,
0.073559
a cui corrisponde lo stesso valore p del test del rapporto di verosimiglianza.
2.3.2.1
Verifica d’ipotesi e i.c., approccio di verosimiglianza, distribuzioni
asintotiche
Per la statistica del rapporto di verosimiglianza si ha il risultato approssimato (asintotico)
2
Pn 2 ẽi
σ̃
2
∼ χ21 .
W (β2 ) = 2(l(β̂1 , β̂2 , σ̂ ) − l0 (β̃1 , σ̃2 )) = n log
= n log Pi=1
n
2
σ̂ 2
e
i=1 i
Dal quale è interessante ricavare il livello di significatività approssimato del test e un intervallo
di confidenza approssimato.
Notiamo intanto che, per quanto visto, si ha
Pn 2 ẽi
2 1
i=1
W (β2 ) = n log Pn 2 = n log 1 + T2
.
(2.33)
n−2
i=1 ei
Per quanto
riguarda la verifica d’ipotesi si confronta dunque il valore osservato W ∗ (β2 ) =
1
11 log 1 + (−7.35)2 11−2
= 21.41 con il χ21 , la regione di rifiuto ha forma W > k e quindi il valore
p è αoss = P (χ21 > W ∗ ). Con i dati dell’esempio risulta αoss = P (χ21 > 21.41) = 3.71 × 10−6 .
Per ottenere un intervallo di confidenza notiamo che, qualunque sia β2 , si ha
P W (β2 ) < χ21,1−α = 1 − α,
usando la (2.33) si ha
P
n log 1 + T2 (β2 )2
1
n−2
<
χ21,1−α
=1−α
8
Per definizione, se U ∼ χ2r e V ∼ χ2s e U e V sono indipendenti, allora F = (U/r)/(V /s) à distribuito secondo
una F con r e s gradi di libertà. Da questo e dalla definizione della t di Student si evince facilmente che se T ∼ tm ,
allora T 2 ∼ F1,m .
●
●
180
150
y
●
150
160
170
180
●
160
●
●
●
●
150
y
●
●
●
●
●
●
●
●
●
●
●
140
●
140
●
140
●
●
●
●
160
160
●
●
140
150
y
●
●
●
●
●
●
170
180
31
170
170
180
2. Modello di regressione lineare semplice
140
150
x
160
170
180
140
150
x
160
170
180
x
Figura 2.4: Rappresentazione grafica della scomposizione della somma dei quadrati, da sinistra
a destra, SQR, SQS, SQT.
da cui
P
T22 (β2 )
=
(β̂2 − β2 )2
V̂ (β̂2 )
< (n − 2) e
χ21,1−α /n
−1
!
=1−α
2
P (β̂2 − β2 )2 < (n − 2) eχ1,1−α /n − 1 V̂ (β̂2 ) = 1 − α
e quindi si ha l’intervallo β2 t.c. W (β2 ) < χ21,1−α di estremi
r
β̂2 ±
2
(n − 2) eχ1,1−α /n − 1 V̂ (β̂2 )
Con i dati dell’esempio, posto α = 0.05 e quindi χ21,0.95 = 3.8415, gli estremi β̃l e β̃u sono
p
0.45934 ± (11 − 2) (e0.34922 − 1) 0.0054109 = 0.45934 ± 0.14267 e quindi l’intervallo cercato è
[0.31667, 0.60201].
2.4 Coefficiente di determinazione R2
Alla base della valutazione dell’adeguatezza del modello di regressione semplice si ha la scomposizione della devianza
n
n
n
X
X
X
(yi − ȳ)2 =
(ŷi − ȳ)2 +
(yi − ŷi )2 ,
i=1
i=1
i=1
dove le tre quantità prendono il nome di devianza (o somma dei quadrati) totale, devianza
spiegata e devianza residua, rispettivamente SQT , SQS e SQR nel seguito, si ha quindi SQT =
SQS + SQR. Tali tre quantità sono rappresentate nella figura 2.4.
Il coefficiente di determinazione R2 è definito come
R2 = 1 −
SQR
SQS
=
,
SQT
SQT
esso è compreso tra 0 e 1 ed è una misura di quanta parte della variabilità di y è spiegata dal
modello di regressione che produce le ŷ. Con riferimento alla figura 2.4, R2 misura quanto l’area
2.4. Coefficiente di determinazione R2
32
verde (distanza dei punti della retta dalla media della y) prevalga sulla rossa (distanza tra i punti
osservati e la retta).
Il coefficiente R2 può anche essere scritto in funzione della statistica t2 , infatti
Pn 2
Pn 2
ei
SQR
2
i=1 ei
P
= 1 − Pi=1
R =1−
=1− n
n
2,
2
SQT
i=1 (yi − ȳ)
i=1 ẽi
si è però visto, nelle (2.31) e (2.32), che
Pn
ẽ2i
Pi=1
n
2
i=1 ei
=1+
t22
n−2 .,
quindi si ha il legame tra R2 e t2 9
Pn 2
ẽi
R2
t22
1
−
1
=
= Pi=1
−
1
=
n
2
n−2
1 − R2
1 − R2
i=1 ei
(2.34)
Con i dati dell’esempio si ottiene (si veda anche la figura 2.4 per una rappresentazione grafica)
SQR = 66.286, SQE = 240.61, SQT = 306.81,
e quindi R2 = 1 −
66.286
306.81
= 0.78395, d’altra parte usando la (2.34) si ha
t22
38.994
= 0.81
=
11 − 2 + 38.994
n − 2 + t22
R2 =
dove la differenza col risultato precedente si deve alle approssimazioni numeriche nel calcolo.
È utile osservare che R2 è anche la correlazione campionaria al quadrato, infatti
Pn
2
2
2 Pi=1 (xi − x̄)
R = β̂2 n
2
i=1 (yi − ȳ)
Pn
P
(xi − x̄)(yi − ȳ) 2 ni=1 (xi − x̄)2
i=1
Pn
Pn
=
2
2
i=1 (xi − ȳ)
i=1 (yi − ȳ)
Pn
(xi − x̄)(yi − ȳ))2
(
Pn
= ρ̂2 .
= Pn i=1
2
2
(x
−
ȳ)
(y
−
ȳ)
i
i
i=1
i=1
Il coefficiente di determinazione R2 offre una misura sintetica della vicinanza dei dati e del
modello, tuttavia da solo non è sufficiente a valutare la qualità del modello stesso. Da una parte,
un basso valore di R2 non significa che il modelo sia inutile o inadeguato, per una discussione di
questo si veda il commento alle stime nella sezione 6. D’altra parte, anche quando l’indice R2 ha
un valore elevato, vicino a 1, il modello potrebbe risultare chiaramente migliorabile, si veda la
figura 2.5 per un’esemplificazione.
9
Si noti che allo stesso risultato si perviene scrivendo t22 come
)2
Pn
(
t22 =
β̂22
1
s2 Pn (x
2
i −x̄)
i=1
i=1 (xi −x̄)(yi −ȳ)
( ni=1 (xi −x̄)2 )2
1
s2 Pn (x
−x̄)2
=
i=1
i
)2
Pn
(
P
=
i=1 (xi −x̄)(yi −ȳ)
Pn
2
i=1 (xi −x̄)
s2
Pn
(ŷi − ȳ)2
= Pni=1 2
i=1 ei /(n − 2)
dove si è sfruttato il fatto che
n
n
n
n
X
X
X
X
(ŷi − ȳ)2 =
(β̂1 + β̂2 xi − ȳ)2 =
(ȳ − β̂2 x̄ + β̂2 xi − ȳ)2 = β̂22
(xi − x̄)2 =
i=1
Si ha perciò
i=1
t2
2
n−2
=
i=1
SQS
SQR
=
SQS/SQT
SQR/SQT
=
R2
.
1−R2
i=1
Pn
i=1 (xi − x̄)(yi −
Pn
2
i=1 (xi − x̄)
ȳ)
2
.
2. Modello di regressione lineare semplice
33
●
8
●
● ●
●
●
●●
●
●
●
●
●
●
●
●
8
●
●
●
●●
2
6
●
●
●
●
●
●
0
0.0
●
●●
●
●● ●
●
●
0.5
●
●
●
●
●●
●
●
● ●●
●● ●
●● ●
●
2
●
●
● ●●
●
●
●
●
●
●
●
●
●
●●
●
●
4
y
4
●●
●
●
● ●●
●
●●
●
●
●
●
●
●●
y
●
●
●
10
●
6
●
●
●
R2 = 0.94
12
R2 = 0.377
1.0
1.5
2.0
0.0
●
0.5
x
1.0
1.5
2.0
x
Figura 2.5: Due esempi: nel primo la regressione semplice è un modello adeguato, e il coefficiente
di determinazione è contenuto, nel secondo caso il coefficiente è molto elevato, ma il modello è
chiaramente migliorabile
2.5 Previsione col modello di regressione semplice
Sinora si è trattato dell’inferenza per i coefficienti della retta. Lo scopo dell’analisi, più o meno
implicitamente, era dunque descrivere in modo sintetico la relazione tra variabile dipendente e
indipendente. La retta stessa può però essere utilizzata anche per la previsione, cioè l’inferenza
su Y , in particolare, ci si può chiedere quale sia il valore medio di Y associato a un fissato valore
per x, per quanto si è detto esso è pari a10
E(Y |X = x0 ) = β1 + β2 x0 ,
per il quale una ragionevole stima puntuale è
Ŷ0 = β̂1 + β̂2 x0 .
Per ottenere un intervallo di confidenza per E(Y |X = x0 ) si scriva lo stimatore Ŷ0 nella forma
Ŷ0 = Ȳ + β̂2 (x0 − x̄).
Si può mostrare che Ȳ e β̂2 sono indipendenti, sappiamo che sono normali e perciò
σ2
(x0 − x̄)2
2
Ŷ0 ∼ N E(Y |X = x0 ),
+ Pn
σ .
2
n
i=1 (xi − x̄)
Di conseguenza, si ha la quantità pivotale
Ŷ − E(Y |X = x0 )
r 0
,
2
(x
−x̄)
1
0
2
s n + Pn (xi −x̄)2
(2.35)
i=1
distribuita secondo una tn−2 . Si ha quindi l’intervallo di estremi
s 1
(x0 − x̄)2
2
Ŷ0 ± tn−2,1−α/2 s
+ Pn
2
n
i=1 (xi − x̄)
10
La distinzione tra inferenza sui coefficienti e previsione (inferenza su osservabili) può apparire poco rilevante
in questa fase, è comunque bene tenerla presente sin d’ora. La distinzione è importante soprattutto in relazione
alla selezione del modello.
2.6. Esempio sviluppato: altezze di madri e figlie
170
●
150
160
●
●
●
●
●
●
●
●
●
●
140
Altezza figlie
180
34
140
150
160
170
180
Altezza madri
Figura 2.6: Intervalli di confidenza per E(Y |X = x) (linea continua) e per Y |X = x (linea
tratteggiata).
la cui ampiezza, si noti, cresce all’aumentare di |x0 − x̄|: l’incertezza della previsione aumenta
quanto più ci si allontana dal centro delle osservazioni x.
Quanto ottenuto è un i.c. per E(Y |X = x0 ). Qualora fosse di interesse un i.c. per Y0 = (Y |X =
x0 ) occorrerebbe ricordare che esso è pari a
Y0 = E(Y |X = x0 ) + ε,
dove ε è una variabile gaussiana indipendente dagli stimatori e con varianza σ 2 . Si ha allora che
Ŷ0 − Y0 = Ŷ0 − E(Y |X = x0 ) + E(Y |X = x0 ) − Y0 .
Per Ŷ0 − E(Y |X = x0 ) si ha quanto sopra, mentre E(Y |X = x0 ) − Y0 è una N (0, σ 2 ), quindi
Ŷ − E(Y |X = x0 )
r 0
−x̄)2
s2 1 + n1 + Pn(x0(x
2
i −x̄)
i=1
è distribuito secondo una tn−2 . Di conseguenza cambiano gli intervalli di confidenza.
Nella figura 2.6 si sono rappresentati i due intervalli al variare di x0 .
2.6 Esempio sviluppato: altezze di madri e figlie
Si hanno n = 1375 osservazioni (xi , Yi ), dove xi rappresenta l’altezza della madre e Yi l’altezza
della figlia. Le osservazioni sono rappresentate nel diagramma di dispersione in figura 2.7. Si
adotta per le Y1 , . . . , Y1375 il modello (2.23)
La forma del diagramma di dispersione in figura 2.7 suggerisce una relazione tra le due variabili,
questa è resa più evidente aggiungendo al grafico le medie calcolate localmente (per intervalli
di 1cm di altezza), che rivelano anche la forma, plausibilmente lineare, della relazione tra x e
E(Y |X = x).
La funzione di log-verosimiglianza (2.25) è rappresentata nella figura 2.8 a sinistra per σ 2 = 1.
La forma della verosimiglianza è indicativa della forte correlazione tra gli stimatori β̂1 e β̂2 , in
effetti la correlazione tra i due (formula (2.16)) è vicina a −1.
2. Modello di regressione lineare semplice
35
●
170
160
150
140
●
●
●
●
● ●
●
●
●
●
● ● ●●
● ●● ●●● ●●● ●
●●
●
●
●
●● ●
●
●
●
● ●●●
●●● ●●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●●●●
● ●●
●● ●
●
●●
●● ● ●
●●
●●
●●
● ●●
●
●●
●
●
●
●●●
● ●●
● ●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
● ● ●●●
●
●
● ●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●●
●●
●
●
●●
●
●●
●●●
● ● ●● ●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●● ●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●●
●
●
●
●
●
●
●●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●● ●●●
●●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●● ●
● ●
●● ●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●●
●
●
●
●●
●
●
●●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
● ●●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●●●
●●
●
●
●
●
● ●
●
●
●
●
●●
● ●
● ● ●●●●●
●●
●
●
●
●●
●
●●●● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
● ●
●●
●●
●●
●●
● ●●● ●● ●
●
●●
●
●
●
● ●●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●●●
●
●
● ●●
●●●
●
●
●●●●
● ●
●
●
●●●
●
●
●● ● ●
●●
●●
●
●
●● ●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
● ●● ●
●●●
●
●
●
●
● ●●●
●
●
●
●
140
150
160
170
180
Altezza figlie
Altezza figlie
180
170
160
150
140
180
●
●
●
●
● ●
●
●
●
●
● ● ●●
●
● ●● ●●● ●●● ●
●●
●
●
●
●● ●
●
●
●
● ●●●
●●● ●●
●●
●●●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●●
●●●●●
● ●●
●● ●
●
●●
●● ● ●
●●
●●
●●
● ●●
●
●
●
●
●
●●●
● ●●
● ●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
● ●
● ● ●●●
●
●
● ●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●●
●●
●
●
●●
●
●●
●●●
● ● ●● ●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●●
●
●● ●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●● ●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●● ●●●
●●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●● ●
●
● ●
●● ●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●●
●●
●
●
●●
●
●●
●●●
●
●
●
●●
●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●● ●
●●●
●●
●
●
●
●
● ●
●
●
●
●
●
●●●
●
● ●
●
● ●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●●
●●
●● ●
●
●
●●
●
●
●
●
●●
●
● ●●
●
● ● ●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●●●● ●●
● ●● ●●
●●
●
●
●●●
●●
●
●●●
●
●
●
●
●●●
● ●
●●
●
●●
●●●
●
●
●
●
●●
● ●● ●
●●●
●
●
●
●
●
● ●●●
●
●
●
●
140
150
Altezza madri
160
170
180
Altezza madri
Figura 2.7: Dati sulle altezze di madri e figlie: nel grafico a sinistra è rappresentato il diagramma
di dispersione, nel grafico a destra il diagramma di dispersione è corredato dalle medie per classi
di altezza delle madri.
In generale, non è conveniente stimare un modello in cui gli stimatori di due parametri sono
fortemente correlati. Si può ovviare a questo problema modificando la variabile x, si definisce
x̃i = xi − x̄
(dove x̄ = 158.63) e si considera il modello
Yi ∼ N (β1 + β2 x̃i , σ 2 )
Si noti che β2 coincide col β2 del modello precedente (per le xi ), mentre cambia β1 (che oltretutto
ha ora un’interpretazione sostanziale, è l’altezza attesa per figlie di madri di altezza pari alla media
delle altezze delle madri, mentre nella formulazione con xi era l’altezza attesa per figlie di madri
di altezza 0). La verosimiglianza del nuovo modello è rappresentata in figura 2.8 a destra.
Le quantità rilevanti sono dunque
n
X
yi = 222650;
i=1
n
X
x̃2i
i=1
= 49153.13;
n
X
yi x̃i = 26640.13
i=1
P
Essendo 1375
i=1 xi = 0, le formule per ottenere le stime di massima verosimiglianza β̂1 (equazione
(2.12)) e β̂2 (equazione (2.11)), diventano
Pn
x̃i yi /n
26640.13/1375
β̂2 = Pi=1
=
= 0.5420
n
2
49153.2/1375
i=1 x̃i /n
β̂1 = ȳ = 161.93
Il modello stimato è perciò
yi = 161.93 + 0.5420x̃i + ei ,
o, in funzione delle x
yi = 161.93 + 0.5420(xi − x̄i ) + ei ,
rappresentato in figura 2.9; si noti che la rappresentazione è fatta in funzione di x anziché di x̃
per semplificare la lettura dei risultati, è la stima che viene fatta usando x̃.
P
La stima di massima verosimiglianza della varianza (equazione (2.18)) è σ̂ 2 = n1 ni=1 e2i =
n
1375
33.06812,, mentre la stima corretta s2 , (equazione (2.19)), è s2 = n−2
σ̂ 2 = 1375−2
33.06812 =
36
2.6. Esempio sviluppato: altezze di madri e figlie
−1
41
0.50
−1
54
68
4.1
51
.6
−2
27
24
8.5
.31
−24151
184
−24
.05
−24131.56
−24093.37
−24074.27
−24002.64
−24151
.05
−24
5
−24
184
.31
−24026.52
27
.93
0.45
−2
11
6
0.60
−8
−2
−4
−3
−6
24
9
64
56
07
68
43
18 110
63
.1
.06 01.2
.91
.46
.75
6
−2
68
86
.65
54
0.55
−2
+
−23999
+
.77
−2
42
89
.37
−24007.41
−240
68
−2
27
80
24
−1
8.5
54
−1
68
4.1
85
11
65
1.6
0.50
0.40
16.98
−2
−2
456
86
0.6
.65
7
−24036.08
−24055.17
−4
−6
−3
−2
−2
−8
64
07
56
91
54
24
43
63
01
1
18
68
.91
.75
.26 0.06
.46
.1
90
95
−24
−24112.47
184
100
−24151.0
.31
5
161.6
161.8
162.0
.31
184
−24151.0
162.2
162.4
ta_2)
l(beta_1,be
2
be
be
ta_
2
ta_
ta_2)
l(beta_1,be
beta
_1
beta_1
Figura 2.8: Dati sulle altezze: funzione di log-verosimiglianza per il modello lineare per σ 2 = 1,
dati originali (a sinistra) e avendo centrato l’esplicativa (a destra)
33.11629. Si nota che la differenza tra stima corretta e stima di massima verosimiglianza è molto
contenuta; ciò si deve alla numerosità campionaria relativamente elevata.
Possiamo poi calcolare le stime delle varianze degli stimatori
notiamo che
Pntal fine
Pn di β1 e 2β2 . A
2
¯
la media delle osservazioni centrate x̃i è nulla, e quindi i=1 (x̃i − x̃) = i=1 x̃i = 49153. Con
questo si hanno le stime delle varianze degli stimatori β̂1 e β̂2
V̂ (β̂2 ) =
V̂ (β̂1 ) =
s2
33.11629
=
= 0.0006737389,
2
49153
i=1 (xi − x̄)
s2
33.11629
=
= 0.02408457.
n
1375
Pn
Con le stime cosı̀ ottenute siamo in grado di effettuare una verifica d’ipotesi, ad esempio consideriamo il test di nullità di β2 (H0 : β2 = 0, H1 : β2 6= 0. Si calcola allora il valore assunto da t2
0.5420
(equazione (2.30)) toss
= √ β̂2 = 0.02595648
= 20.88 e lo si confronta con una t di Student con
2
V̂ (β̂2 )
n − 2 g.d.l., il valore p è praticamente nullo e si rifiuta perciò l’ipotesi nulla. È quindi confermato
che esiste una relazione statistica tra le altezze di madri e figlie. Con ciò, siamo in grado di
completare la tabella dei coefficienti (tabella 2.2).
Sempre sulla base della quantità pivotale t2 , otteniamo
un intervallo di confidenza di livello
q
1 − α per β2 , i cui estremi sono β̂2 ± tn−2,1−α/2 V̂ (β̂2 ). Posto α = 0.05, si ha tn−2,1− α2 =
t1375−2,0.975 = 1.96 e quindi l’intervallo per β2 ha estremi 0.5420 ± 1.96 × 0.02596 ed è, di con-
2. Modello di regressione lineare semplice
37
Altezza figlie
190
●
●
●
●
● ●
●
● ●
● ● ● ●●
● ●● ●●● ●●● ●
●● ● ●
●
●● ●●
●●
●
●
●●
●
●● ●●
●●
●●
●●
●
●●
●●
●
●●
●
●●
●
●
●
●●●
●
●
●●●● ●
●●
●●●
●
●● ●
●
●●
●
● ●●
●●
●●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●●
●
●
● ●● ●
●●●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●●
●
●
●
●
●●●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●●
●●
●●●
●
●●
●●
●● ●
●●
●
●
●
●
●
●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
● ● ●●●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●●●
●
●●●
●
●
●
●
●
●●
●
●●
●
●
●
● ●●
●
●
●
●
●●●●●●
●●●
●●
●●
●●
●●
●
●
●
●●
●
●●
●
●● ● ●●●
●● ●●●
● ●●
●● ● ●
●
●●
●
●
●
●
●● ● ● ●●●
●
● ●
●
180
170
160
150
140
130
130
140
150
160
170
180
190
Altezza madri
Figura 2.9: Modello stimato per la relazione tra altezza delle madri e altezza delle figlie
1
2
β̂r
161.928
0.5420
q
V̂ (β̂r )
0.15519
0.02596
toss
r
1043.40
20.88
P (|tn−2 | > |toss
r |)
0
0
Tabella 2.2: Tabella dei coefficienti per il modello lineare sulle altezze di madri e figlie
seguenza, [0.4911, 0.5929]. L’intervallo di confidenza per E(Y\
|X = x0 ) ottenuto a partire dalla
quantità pivotale (2.35) è
s
161.928 + 0.5420x0 ± tn−2,1−α/2
33.11629
1
x̃20
+
1375 49153
Ad esempio per le madri di 180cm si avrà x̃0 = 180 − x̄, l’intervallo per l’altezza attesa delle figlie
è [172.4, 174.6].
Possiamo ottenere un intervallo di previsione per Y0 = Y |X = x0 come
s
161.928 + 0.5420x0 ± tn−2,1−α/2
1
x̃20
33.11629 1 +
+
1375 49153
e si ottiene, sempre per una madre di 180cm, [162.2, 184.8].
Pn
2
2
Infine, la somma dei quadrati è SQT = nvar(y) =
i=1 yi − nȳ = 59907.13, di questa, la
P
componente spiegata è SQE = β̂22 ni=1 x̃2i = 14438.46 e dunque la componente residua è SQR =
SQT − SQE = 45468.67. Con queste quantità si calcola R2 = 1 − 45468.67
59907.13 = 0.24. Il valore di
2
R è relativamente basso rispetto al suo massimo (1). Ciò di per sé non significa che il modello
è inadeguato: il valore molto basso dei valori p per i coefficienti indica che un’associazione tra le
due variabili esiste, il modello appare adeguato a descrivere questa associazione. D’altra parte,
l’errore è relativamente elevato (σ 2 è alto) quindi il modello sarà poco utile in termini previsivi
(si veda l’ampio intervallo di previsione calcolato sopra).
Infine, calcoliamo le quantità collegate alla verosimiglianza e usiamo i relativi risultati asintotici
per l’inferenza. La matrice di informazione osservata è
−1 

42.23600
6700.00000
0.0
17.22900 −0.10846 0.0
= 6700.00000 1064300.00000 0.0 = −0.10846 0.00068 −0.0 .
0.00000
0.00000
0.3
0.00000
0.00000
3.1

J(β̂1 , β̂2 , σ̂ 2 )−1
38
2.7. Esercizi
Sulla base di risultati generali sulla verosimiglianza, dunque, il valore p asintotico per il test di
nullità di β2 è


β̂2 − β2 
0.5264 − (0.56)
oss

q
√
α =1−Φ
=1−Φ
= 1 − Φ (| − 1.285|) = 0.099396
0.00068371
[Jˆ−1 ]22
±Φ−1 (1
q
− α/2) [Jˆ−1 ]22 =
Mentre un intervallo di confidenza asintotico di livello 1−α = 0.95 ha estremi β̂2
0.5264 ± 1.96 × 0.026148 ed è dunque [0.47515, 0.57765].
La verifica d’ipotesi può essere effettuata impiegando il rapporto di verosimiglianza
e la sua distri- 1
buzione approssimata, si calcola allora la quantità (2.33) Woss (β2 ) = 1375 log 1 + (−1.3187)2 1375−2
=
1.7404 e si ottiene il valore p αoss = P (χ21 > W ∗ ) = P (χ21 r
> 1.7404) = 0.18709.
2
L’intervallo di confidenza basato su W (β2 ), di estremi β̂2 ± (n − 2) eχ1,1−α /n − 1 V̂ (β̂2 ) ha, pop
sto α = 0.05 ed essendo χ21,0.95 = 3.8415 estremi 0.5264± (1375 − 2) (e0.0027938 − 1) 0.0006492 =
0.5264 ± 0.049937. l’intervallo è perciò [0.476463, 0.576337].
2.7 Esercizi
Esercizio 1
Mostrare che ȳ e β̂2 sono indipendenti.
Esercizio 2 Nell’esempio sulle altezze di madri e figlie (con 11 osservazioni)
1. Si ottenga un i.c. di livello 0.95 per β1 ;
2. Si ottenga il valore p per l’ipotesi β1 = 0.
Esercizio 3
Si risponda alle domande dell’esercizio 2 usando il campione esteso.
Esercizio 4 Con i dati sui tempi olimpici maschili o femminili (esempio 6 del capitolo 1)
si ottenga, per il modello con variabile risposta il tempo e esplicativa l’anno la tabella dei
coefficienti.
Capitolo 3
Analisi dei residui
3.1 Assunti del modello e residui
Le proprietà degli stimatori, e quindi quelle delle procedure inferenziali sugli stessi, derivano
dalle ipotesi fatte. È perciò un aspetto essenziale dell’analisi verificare che le assunzioni che
costituiscono il modello siano valide.
Queste assunzioni possono essere lette in termini degli errori εi e verificate in termini dei corrispondenti campionari degli errori, vale a dire i residui.
In particolare le ipotesi da sottoporre a controllo sono
• ipotesi di linearità: E(Yi ) = β0 + β1 xi , è legata al fatto che E(εi ) = 0 per ogni i;
• ipotesi di omoschedasticità: V (Yi ) = σ 2 , in tal caso V (εi ) = σ 2 per ogni i;
• ipotesi di normalità: εi ∼ N 0, σ 2 per ogni i.
Gli errori εi non sono osservabili (se lo fossero, conosceremmo β1 e β2 ). Sembra ragionevole usare
i loro corrispondenti campionari
ei = yi − ŷi = yi − β̂1 − β̂2 xi ,
(3.1)
detti residui. Va tenuto presente che i residui non sono realizzazioni del processo degli errori, e
infatti essi non sono iid secondo una N 0, σ 2 , come si mostra nella sezione 1.1.
3.1.1
Proprietà dei residui
L’idea per cui i residui sono corrispondenti campionari degli errori è intuitiva ma non sufficiente
operativamente; non dice, cioè, come i residui vadano usati. Bisogna allora studiare le proprietà
dei residui (implicate dalle assunzioni del modello) e associare a violazioni di tali proprietà delle
violazioni degli assunti del modello.
Consideriamo allora, anzitutto, alcune semplici proprietà algebriche, dalla prima equazione di
verosimiglianza si deduce che
n
X
ei = 0,
(3.2)
i=1
40
3.1. Assunti del modello e residui
●
●
y1
●
●
●
●
●
●
●
y2
●
●
x2
x1
Figura 3.1: Grafico riassuntivo, in rosso sono rappresentate la vera retta di regressione (non
osservata) e, per due osservazioni, le distribuzioni degli errori; in nero sono rappresentate la retta
dei minimi quadrati e le distribuzioni dei residui.
mentre dalla seconda equazione di verosimiglianza si ha che
n
X
xi ei = 0,
(3.3)
i=1
cioè i residui sono ortogonali all’esplicativa. Si noti che le (3.2) e (3.3) implicano che i residui
non sono indipendenti, basti osservare che, in base alla prima equazione, un residuo può essere
espresso in funzione degli altri. Dalle (3.2) e (3.3) si deduce anche che
n
X
ŷi ei = 0,
(3.4)
i=1
P
P
P
in quanto ŷi = β̂1 + β̂2 xi e quindi ni=1 ŷi ei = ni=1 β̂1 ei + ni=1 β̂2 xi ei .
Queste proprietà algebriche sono scontate, quindi non utili per la verifica degli assunti.
Passiamo dunque alle proprietà stocastiche, osserviamo anzitutto che ciascun ei è combinazione
lineare di variabili normali, e quindi ha a sua volta distribuzione normale. Calcolate dunque
media e varianza, si sarà individuata la distribuzione. Si ha allora
E(ei ) = E(Yi − β̂1 − β̂2 xi ) = E(Yi ) − β1 − β2 xi = 0.
Per quanto riguarda la varianza, si ha
V (ei ) = V (Yi − β̂1 − β̂2 xi )
= V (Yi ) + V (β̂1 ) + x2i V (β̂2 ) − 2cov Yi , β̂1 − 2xi cov Yi , β̂2 + 2xi cov β̂1 , β̂2 .
(3.5)
P
P
P
Posto Dx = ni=1 (xi − x̄)2 ed essendo β̂2 = ni=1 wi Yi con wi = (xi − x̄)/Dx e β̂1 = ni=1 wi∗ Yi
con wi∗ = 1/n − wi x̄ (cfr sezione 1.1 del capitolo 2), otteniamo

cov Yi , β̂2 = cov Yi ,
n
X
j=1

wj Yj  = wi V (Yi ) = wi σ 2 ,
3. Analisi dei residui
41

cov Yi , β̂1
= cov Yi ,
n
X

wj∗ Yj 
j=1
=
wi∗ σ 2
=
1
− wi x̄ σ 2 .
n
La (3.5) può dunque essere scritta
1
x2
1
x̄2
xi x̄
+ i −2
V (ei ) = σ 2 1 +
+
− wi x̄ − 2wi xi − 2
n Dx
Dx
n
Dx
2
2
1 (xi − x̄)
(xi − x̄)
= σ2 1 − +
−2
n
Dx
Dx
2
1 (xi − x̄)
= σ2 1 − −
n
Dx
= σ 2 (1 − hi ),
2
dove si è posto hi = n1 + (xiD−x̄)
. Notiamo che è hi < 1, in quanto
x
Pn altrimenti si otterrebbe una
varianza negativa, inoltre ovviamente hi ≥ 1/n. Si ha infine i=1 hi = 2. Si nota allora che
V (ei ) < V (εi ) = σ 2 e che la varianza cambia con i: i residui, a differenza degli errori, non sono
identicamente distribuiti. Nella figura 3.1 si noti che le distribuzioni dei residui (in nero) hanno
diversa variabilità, a differenza di quanto avviene per le distribuzioni degli errori (in rosso).
Si ha dunque, in sintesi,
1 (xi − x̄)2
ei ∼ N 0, σ 2 1 − −
(3.6)
n
Dx
per ogni i. Notiamo peraltro che la varianza dipende esclusivamente dalle xi (e non da Yi ), si
possono allora definire i residui standardizzati
ẽi = r
ei
1−
1
n
−
ei
=√
∼ N 0, σ 2 .
1 − hi
(xi −x̄)2
(3.7)
Dx
Per un confronto tra residui standardizzati e non e rispettive varianze si veda la figura 3.2.
Si potrebbe poi standardizzare anche rispetto alla varianza, e si avrebbe
r̃i = r
σ
1−
ei
1
n
−
ei
= √
∼ N (0, 1) .
σ 1 − hi
(xi −x̄)2
(3.8)
Dx
Per il calcolo dei residui studentizzati come definiti nella (3.8) occorrerebbe conoscere la varianza
σ 2 , siccome questo non è generalmente il caso, si sostituisce la varianza con una stima, e si hanno
cosı̀ i residui studentizzati
ri = r
σ̂
1−
ei
1
n
−
ei
= √
,
σ̂ 1 − hi
(xi −x̄)2
(3.9)
Dx
la cui distribuzione è, approssimativamente, una normale standard.
Osservazione 3.1 Residuo e errore di previsione.. La varianza del residuo ei è tanto più piccola
quanto maggiore è |xi − x̄|, viceversa l’errore quadratico medio di una previsione per la variabile risposta
in corrispondenza a xi è tanto più grande quanto maggiore è |xi − x̄|, questo si deve al fatto che il secondo
3.2. Verifica delle ipotesi del II ordine
−
10
●
●
●
●
ei
~
ei
−
●
5
10 15 20 25
42
●
●
●
●●
●
●
0
5
●
●
0
●
●
●
●
●
●
−5
−
−10
●
−
●
●
0
2
4
6
8
0
2
x
4
6
8
x
Figura 3.2: A sinistra un insieme di dati e la relativa retta di regressione, a destra si sono
rappresentati i punti (xi , ei ) (col simbolo
o) e i punti (xi , ẽi ) (simbolo ×). Le linee verticali
p
2
rappresentano l’intervallo
√ ei ± 1.96 s (1 − hi ), le lineette orizzontali rappresentano gli estremi
dell’intervallo ẽi ± 1.96 s2
fa riferimento a una nuova osservazione che è non correlata con gli stimatori dei minimi quadrati e quindi
con Ŷi . Insomma, per il residuo si ha
V (Yi − Ŷi ) = V (Yi ) + V (Ŷi ) − 2cov(Yi , Ŷi )
dove cov(Yi , Ŷi ) > 0, mentre per una nuova osservazione (xi , Yi0 ) si ha
V (Yi0 − Ŷi ) = V (Yi0 ) + V (Ŷi ) − 2cov(Yi0 , Ŷi ) = V (Yi ) + V (Ŷi )
poiché Yi0 è indipendente da Y1 , . . . , Yn e quindi da Ŷi . •
3.2 Verifica delle ipotesi del II ordine
In linea di principio è a questo punto equivalente sottoporre a verifica una tra le (3.6), (3.7) o (3.8)
con la sostituzione (3.9). In pratica, è più facile ragionare con residui identicamente distribuiti,
il che farebbe scartare (3.6). L’uso di una delle altre è sostanzialmente equivalente, tenuto conto
che, per la verifica di (3.9) occorrerà comunque sostituire σ 2 con una stima.
Illustreremo dunque alcuni strumenti di verifica, grafica e non solo, riferendoli ai residui standardizzati, precisando quando sarà necessario conoscere σ 2 , e quindi quando esso sarà sostituito con
una stima.
3.2.1
Diagramma di dispersione dei residui v. esplicative o risposta
Si considerano i grafici con, in ordinata, i residui e, in ascissa, i valori della variabile esplicativa
o quelli dei valori previsti (figura 3.3). Nel contesto della regressione semplice i due grafici sono sostanzialmente uguali poiché i valori previsti sono una trasformazione lineare della variabile
3. Analisi dei residui
43
(xi , ẽi )
(ŷi , ẽi )
●
●
4
6
●
●
2
~
e
2
~
e
4
6
●
●
0
●
0
●
●
●
−2
●
●
0
●
−2
●
●
●
●
●
●
2
●
4
6
8
−10
−5
0
●
5
●
10
15
y^
x
3
Figura 3.3: Grafici dei residui contro i valori della variabile esplicativa (xi , ẽi ) e contro i valori
teorici (ŷi , ẽi )
1
3
x
●
−3
4
5
●
0
1
2
3
x
4
5
1
2
3
●
~
e
1
0
−1
●
●
0
2
2
~
e
1
0
~
e
−1
0
−2
2
●
−3
−2
●
●
●
●
●
●
●
●
●●●
●
● ● ●
●
● ●
●
●
●
●
● ●
●● ●
●● ●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●●
●
●
●
●
● ●
●
●●● ●
●
●
●
●●
●
●
●
●
●
●●
●
●
● ● ●●
● ● ●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
● ● ●
● ●
● ●
● ●
●
●
●
●●
●
●●
●
●
●
●
●
● ●●
●
●●
● ● ●●●●
●● ● ● ●
●● ●
●
●
●
●
● ●
● ●
●
●
●
●
●
●●
●● ●
●
● ●● ● ●
● ●
●
●
●
●
● ● ●●
●● ●
● ●
●
●
●● ●●
●
● ●● ●●
●●
● ● ● ● ●● ●
●
●● ● ●
●
●
●
●● ● ● ●
● ● ● ●
● ● ● ●
●
●
●●
●
●● ●
● ● ●
●
●
●●
●
● ● ●●● ●●
●
●
● ● ●●
●
●
●
●
●
●
●
●
●●
●
● ●● ● ●
●●
●
●
●
●
● ●
●
−1
●
●
−3
●
●
●
●●
●●
●
● ●
● ● ●●
●
●
● ●● ●
●
●
●
●
●
● ●●● ●●
● ● ●
●
●
●●
●●
●●●
● ●●
●
● ●● ● ●● ● ●●
●
●● ●
●
●●
●
● ●
●●●
●●●
●●●●●
●●●
●
● ●●●● ●● ●●
●●
● ●
●●
●●
●
●
●●
●●
●●
●
●●●●●●●
●
●
●●
●● ●
●
●
●
●●
●●● ●
●●●
●
●● ● ●●
●
●●
●
●●●
●
●●●
●
●●
●●
●●
●● ●●
●●
●●
●
●
●●●
●● ●●●● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●●
●
●●● ● ● ●●●
●●●●
●
●
●●
●
●● ●●
●●
●●●●●●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●
●
●●
● ●●
●
●
●
●
●●
●
●●
● ●●
●
●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●●● ●
●●
●●
●
●●
● ●
●
●●●
●●●
●
●
●
●●
●
●●●●
●●
●
●●
●
●
●●
●
●
●●●
●● ●
●●●
●
●●
●●
●
●
●
●
●
●●
●●●
●●●
●
●●●
●●●●
●● ●
●●
●
●
●● ●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●●●
●●●
●
●
●
●●●
●
●●
●
●
●●
●●
●
●●
●
●
●●
● ●●
●
●
●●
●
●
●●●●
●
●
●
●
●
●●
●
●●
●
●
●●●
●●
●
● ●●
●
●
●●
●●
●
●
●
●●●
●
●
●
●●
●
● ●●
●●
●
●
●
●●●
●
● ●●
●●●
●●
●
●
●
●
●
●
●
●●●
●
●●
●●●●
●
●●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●●●●
●●●
●
●
●●
●
●
●● ●
●●●
●
●●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●●●●
●
● ●
●
●●
●●
●●
●●
●
●●
●
●●
● ●●
●
●●
●●●●
●
●
●
●●●
●●
●
●
●●
●
●●●●●
●●●
●
●●● ●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●●●●
●
●
●●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
● ●●
●●
●●●
●● ●● ●
●
●●●
●●●● ●●●
●●
●
●●
●
●● ●
●●
●
●●
●
● ●●● ●
●
●●
●● ●● ● ●●●●
● ●●●
● ●●
●●●● ● ●
●
●
●● ●
●
● ● ● ●● ●●
● ●● ●
● ● ●●
●
●●
● ●
●●
●● ● ●
●
●● ●
●
● ●
●
●
●
●
●
●
●
0
1
2
3
4
5
x
Figura 3.4: Tre esempi di grafici dei residui rispetto la variabile esplicativa con forma ideale
esplicativa (si noti in particolare che i due grafici in figura sono speculari, in quanto la trasformazione ha coefficiente angolare negativo), cosı̀ non è nel caso della regressione multipla, dove i
diversi grafici, con interpretazione analoga, sono diversi.
Il grafico ideale non presenta andamenti: i residui dovrebbero essere equamente suddivisi tra
positivi e negativi; residui positivi e negativi dovrebbero alternarsi; la variabilità dovrebbe essere
costante, tre esemplificazioni sono riportate nella figura 3.4.
Violazioni sensibili delle caratteristiche ideali possono essere indicativi di violazione degli assunti.
In particolare: se c’è una preponderanza di residui negativi (positivi), la distribuzione degli stessi
può non essere simmetrica; se i residui non si alternano, è in dubbio la linearità della relazione
(figura 3.5); se la variabilità non è costante, è in dubbio l’omoschedastictità (figura 3.6).
Il grafico si può fare, in teoria, tanto con i residui grezzi che con quelli standardizzati o studentizzati, esso risulta più facilmente intepretabile se fatto con i residui standardizzati o studentizzati,
in particolare per qanto riguarda la valutazione dell’omoschedasticità.
Nella figura 3.6 si rappresentano alcune situazioni tipo: la forma ideale del grafico e la forma che
esso assume in presenza di due particolari tipi di omoschedasticità.
Si noti che, per meglio far risaltare l’eventuale eteroschedasticità, può essere utile esaminare il
grafico (xi , |ẽ|) o (ŷi , |ẽ|). Di questi grafici non rileva, naturalmente, un eventuale andamento
delle osservazioni, ma solo la dispersione, che dovrebbe risultare costante.
Se il grafico è fatto con i residui studentizzati, per i quali il riferimento è alla normale standard,
è utile confrontare i punti con la banda di variabilità [−1.96, 1.96], l’ipotesi di normalità implica
che P (ri ∈ [−1.96, 1.96]) = 0.95, si dovrebbero dunque avere circa il 5% delle osservazioni al di
fuori della banda, un numero sostanzialmente superiore, o anche inferiore, è indicativo della non
1
2
●●
●
●
●●
●
●●
●●●
● ●
●● ● ●
● ●
●
●
●
●●
●●
●
● ●
●
●
●
●
● ●● ●●
●
● ●
● ●
●●
●
● ●●
●● ●
● ●
● ●●
●●
●●
●●
●●
●
● ●
●
●
●● ●
●
●
●
● ● ●
●●
●●
● ●
●
●●
●●
●
●
●●
●
●
●
2
−2
4
5
0
1
2
3
x
4
5
●
●
●
1
●
−1
0
~
e
1
~
e
0
●
3
●●
●
●
0
●
●
●
●
●
●● ●
●●
● ● ●●
● ●●
●
●
●
●
●
●
●
● ●
●
●
−1
0
−2
−1
~
e
1
2
●
● ●
●●●
●
●●
●●
● ●
●
●
●
● ● ●
●
●
●
●●
● ●
● ●● ●
●●
●●
●
●
● ●
●
●
●
●●
●●
●
●
●●
●
●
●
●
● ● ●
●
●
●● ●●
●●●
● ●
●
●
●
●
3
3.2. Verifica delle ipotesi del II ordine
2
44
6
●
●
● ●●
●●● ● ●
●
● ●
●● ●
●
●
●
● ●
●
● ●
● ●● ●
●●●●
●
● ●●
●
●
●●
●
●
●
● ●
●
● ● ●●●
●
●
●
●● ● ● ●
●
●●
●
● ●
●
●
● ● ●●
●
●
●
●
●
●
●
●●● ●
●
●
●● ●
●
●
●
●
●
0
1
2
3
x
4
5
6
7
x
●
●
0
1
2
3
4
10
●● ● ●
●
● ●
●
● ●
●●●
●
● ●
●● ●
●
●●
●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●● ●●
● ● ● ●
●●
●
●●●
●
●
●
●
●● ●
● ●
● ●
● ●
●●
●
~
e
●
●
0
●
●●
●●● ● ●●
●
●
●
●
−10
~
e
0
●
●
●
20
20
●
●
●● ●● ●
●●
●
10
●
−10
●
●
●●● ●
●
●
●
● ●
●
●
●
●
● ●
●
●
●
●
●
● ● ●●
●●
●
●
●
●
●
● ● ●
●
●
● ●●
● ●●
●
● ●
●●
●● ● ●
● ●
●
●
●
●
●
●
●
● ●
● ●
● ●●
●
● ●
●
● ●●●●
●● ● ●●
●
● ●
●
●
●
●●
●
●●
●
●
●
−30
−40
−20
~
e
0
20
40
Figura 3.5: Alcune situazioni tipo per il diagramma di dispersione dei residui contro la variabile
esplicativa: tre casi indicativi di non linearità della relazione
●
●
●
●
● ●
●●
●
●
●
● ●
●●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●● ● ●● ●● ●
● ●
●
●● ●
●● ●
●●● ●●
●● ●● ●●
●●●
●●● ● ● ●●
●●● ●
●
●●●
● ● ●●
●● ● ● ● ●●
● ● ●●●
●●
●●
●
●●● ●●
●
●●
●● ●
●
● ●
● ●
●●● ●
●●
●●
●
● ●●
● ● ●●
●
●●
●●● ●●
● ●
●● ● ●●
●
● ●●
● ●●●
●
●
●
●
●
●
●
●●
●● ●
● ●
●
●
●●
●
●●
●
●
●
●
●●
●
●●●
● ●
●
5
●
0
1
2
3
4
x
5
6
7
x
0
1
2
3
4
5
6
7
x
Figura 3.6: Alcune situazioni tipo per il diagramma di dispersione dei residui contro la variabile
esplicativa: tre casi indicativi di eteroschedasticità
normalità dei residui stessi. Per decidere se l’eventuale scostamento è sostanziale, si dovrà far
riferimento alla distribuzione del numero di residui al di fuori dell’intervallo, che è, approssimativamente (perché i residui non sono indipendenti), binomiale di dimensione n e probabilità 0.05.
Questa è in sostanza una versione minimalista e naı̈f della procedura illustrata nella sezione 3.1.1.
3.2.2
Test di omoschedasticità
Introduciamo brevemente, tra le varie alternative, il test di Bartlett per la verifica dell’omoschedasticità. Per costruire il test si suddividono i residui in gruppi sulla base del valore dell’ascissa
(x o ŷ), diciamo G gruppi G1 , . . . , Gj , si assume
IND
ẽi ∼ N 0, σj2
se ẽi ∈ Gj
e si verifica il sistema d’ipotesi
(
2
H0 : σ12 = σ22 = . . . = σG
H1 : ∃i, j t.c. σi2 6= σj2
A tal fine, se con ng , g = 1, . . . , G si indicano le numerosità dei gruppi, si calcolano le varianze
interne ai gruppi

2
X
X
X
2
ẽi − 1
s2g =
ẽi  =
(ẽi − ẽ¯g )
ng
ei ∈Gg
ẽi ∈Gg
ei ∈Gg
e la varianza complessiva
G
s2p =
1 X
(ng − 1)s2g ,
n−G
g=1
3. Analisi dei residui
45
4
6
●
●
2
●
●
●
●
●● ●
● ● ●
●
●
● ● ●●
●
●
●●
●●
●
● ●● ● ●●
●
●
●●
●
●
●
●
●
●
●
● ●●
●
●
● ●●
●
● ●●●
● ●● ●
● ● ●
●
● ●
●
●
● ●● ●
● ●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
−2
0
~
e
●
●●
●
●●
●
−4
●
●
●
●
2.0
2.5
3.0
3.5
4.0
4.5
5.0
x
Figura 3.7: Esempio ipotetico di residui, con divisione in 5 gruppi per il calcolo del test di
Bartlett (vedi tabella 3.1)
dove n =
PG
g=1 ng ,
con queste si ottiene la statistica
P
(ng − 1) ln s2g
(n − G) ln s2p − G
,
P g=1
T =
G
1
1
1
−
1 + 3(G−1)
g=1 ng −1
n−G
detta anche test di Bartlett, nell’ipotesi nulla si ha T ∼ χ2G−1 e la regione di rifiuto di livello α è
T > χ21−α,G−1 (si noti che T è nulla se tutte le varianze di gruppo sono uguali).
g
1
2
3
4
5
Tot
ng
20
20
20
20
20
100
s2g
0.3149
0.9202
3.6088
1.2388
4.5130
10.5957
s2g (ng − 1)
5.9832
17.4841
68.5680
23.5367
85.7472
201.3192
log(s2g )
-1.1555
-0.0831
1.2834
0.2141
1.5070
1.7658
log(s2g )(ng − 1)
-21.9543
-1.5798
24.3843
4.0683
28.6323
33.5510
1/(ng − 1)
0.0526
0.0526
0.0526
0.0526
0.0526
0.2632
Tabella 3.1: Calcoli necessari per ottenere la statistica test di Bartlett per i dati della figura 3.7
relativamente alla suddivisione in gruppi indicata nella figura stessa
A titolo di esempio si considerino i dati rappresentati nella figura 3.7. Questi vengono divisi
in 5 gruppi (scelta arbitraria) aventi la stessa numerosità, rappresentati nella figura dalle bande
verticali. Si calcolano allora le quantità rilevanti (tabella 3.1) e si ottiene s2p = 201.32/95 = 2.1191,
e dunque la statistica T
T =
(100 − 5) ln 2.1191 − 33.551
= 37.02,
1
1
1 + 3(5−1)
0.2632 − 100−5
che va confrontata con un χ24 , il livello di significatività osservato è dunque P (χ24 > T oss ) =
1.78 × 10−7 .
46
3.3. Verifica della normalità
3.3 Verifica della normalità
S’è già detto che un eventuale asimmetria nei diagrammi di dispersione dei residui visti nella
sezione 2.1 è un indicatore di non normalità.
Naturalmente, è utile anche considerare il diagramma a scatola e baffi dei residui, nel quale
un’eventuale asimmetria risulta maggiormente evidente.
Si può poi verificare formalmente l’ipotesi di normalità (sezione 3.1) o usare strumenti grafici
pensati specificamente a tal fine (sezione 3.2).
3.3.1
Test di normalità
ne presentano due.
3.3.1.1
Test χ2 di conformità
Si può verificare formalmente la normalità mediante il test del χ2 di conformità o di bontà di
adattamento. Questo è un test per il confronto delle frequenze osservate con quelle teoriche per
una distribuzione discreta. In particolare, sia V una variabile aleatoria con possibili determinazioni v1 , . . . , vk , si abbia un campione iid di dimensione n da V e siano n1 , . . . , nk le frequenze
(assolute) con cui le k determinazioni si presentano nel campione. Si vuole dunque verificare la
compatibilità del campione con la distribuzione di probabilità
P (V = vi ) = pi ,
i = 1, . . . , k.
(3.10)
A tal fine, si calcolano le differenze standardizzate tra frequenze osservate e teoriche
D=
k
X
(ni − npi )2
i=1
npi
.
(3.11)
Se il campione proviene effettivamente dalla distribuzione (3.10) e per n sufficientemente grande
la distribuzione di D si può approssimare con un χ2k−1 . L’ipotesi (3.10) può dunque essere testata
al livello α con la regione critica {D > χ21−α,k−1 }.
Nel contesto della verifica di normalità dei residui la situazione è diversa in quanto l’ipotesi da
testare è riferita a una distribuzione continua.
Il test χ2 di conformità può però essere adattato alla bisogna discretizzando la variabile osservata.
Supponiamo infatti di suddividere la retta in intervalli, di estremi
− ∞ = b0 < b1 < b2 < . . . < bG = +∞.
(3.12)
Calcoliamo poi le frequenze con cui gli ẽi si distribuiscono negli intervalli, sia cioè
ng = #{ẽi t.c. bg−1 ≤ ẽi < bg }, g = 1, . . . , G.
L’ipotesi da verificare è che ẽi ∼ N 0, σ 2 , ma da questa segue
pg = P (bg−1 ≤ ẽi < bg ) = Φ (bg /σ) − Φ (bg−1 /σ) g = 1, . . . , G,
(3.13)
(3.14)
47
0.0
0.1
0.2
0.3
0.4
3. Analisi dei residui
−1
0
1
~
ei
Figura 3.8: Ipotetici residui usati per il calcolo del test χ2 di conformità per il confronto con la
distribuzione normale
g
1
2
3
4
bg−1
-Inf
-1.0
0.0
1.0
bg
-1.0
0.0
1.0
Inf
ng
23
34
36
7
pg
0.159
0.341
0.341
0.159
npg
15.90
34.10
34.10
15.90
(ng − npg )2
50.410
0.010
3.610
79.210
(ng − npg )2 /(npg )
3.170
0.000
0.106
4.982
Tabella 3.2: Passi per il calcolo del test χ2 di conformità per la verifica della normalità con i
dati della figura 3.8
e quest’ipotesi si può verificare mediante il test (3.11), salvo sostituire la varianza σ 2 con la sua
stima, compiendo cosı̀ un’ulteriore approssimazione, valida per n grande. (Equivalentemente, si
ragioni con i residui ri assumendone la normalità.)
Andrà tenuto presente che il test che si è ottenuto dipende dalla scelta fatta per gli intervalli
(3.12) e che richiede un campione sufficientemente grande.
Consideriamo un esempio con 100 osservazioni e verifichiamo la conformità con la normale standard. Le osservazioni sono rappresentate nella figura 3.8 assieme alla funzione di densità della
normale standard e agli intervalli in cui si suddivide il campo di variazione.
Nella tabella 3.2 si riportano le quantità rilevanti per il calcolo del test, si ottiene la statistica
test D∗ = 8.258 da confrontare con un χ24−1 , il valore p è P (χ24−1 > 8.258) = 0.04097.
3.3.1.2
Test di Shapiro-Wilk
Il test di Shapiro-Wilk è un’alternativa, valida anche per piccoli campioni. La statistica è
2
Pn
i=1 ai ẽ(i)
Pn 2
W =
i=1 ẽi
(3.15)
con ai costanti. La statistica W è compresa tra 0 e 1, la regione di rifiuto è del tipo W < wα e
i valori critici sono tabulati. La statistica W è interpretabile come il quadrato del coefficiente di
correlazione del diagramma quantile-quantile.
Con riferimento ai dati considerati nella sezione precedente si ottiene la statistica W ∗ = 0.9776
e il valore p 0.08598.
48
3.3. Verifica della normalità
3.3.2
Verifica grafica della normalità
Il problema è confrontare la distribuzione teorica con quella empirica. Notiamo che, se ci riferiamo
ai residui standardizzati, se σ 2 non è noto, la distribuzione teorica con cui fare il confronto è
anch’essa incognita, dove nel seguito fosse necessario conoscere il valore per effettuare il confronto,
si assuma di sostituirlo con una stima o, in alternativa, si assuma di usare i residui studentizzati
ri (dove comunque si usa una stima di σ 2 ).
I diversi strumenti che seguono per il confronto tra distribuzioni teorica e empirica si distinguono rispetto alla modalità con cui si esprime la distribuzione: funzione di densità, funzione di
ripartizione, quantili.
Lo strumento grafico più banale consiste nel sovrapporre la funzione di densità al suo corrispondente empirico, vale a dire l’istogramma della distribuzione.
3.3.2.1
Confronto tra FdR teorica e FdR empirica
Definiamo anzitutto la FdR empirica, stima della funzione di ripartizione. Siano (x1 , . . . , xn )
variabili aleatorie iid con funzione di ripartizione F (x) = P (X ≤ x), uno stimatore di F (x) è
n
1X
F̂ (x) =
I(xi ≤ x).
n
(3.16)
i=1
Lo stimatore F̂ (x) è corretto:
!
n
n
n
1X
1X
1X
I(xi ≤ x) =
E (I(xi ≤ x)) =
P (X ≤ x) = F (x).
n
n
n
E(F̂ (x)) = E
i=1
i=1
i=1
Inoltre, la varianza dello stimatore è
n
V (F̂n (x)) = V
1X
I(xi ≤ x)
n
i=1
!
=
n
1 X
1
V (I(xi ≤ x)) = P (I(X ≤ x)) (1 − P (I(X ≤ x))) .
2
n
n
i=1
Essendo lo stimatore corretto ed essendo limn→∞ V (F̂n (x)) = 0 possiamo anche affermare che
esso è consistente.
L’ovvio confronto tra F̂ e la distribuzione teorica, mostrato in figura 3.9(a), è sovrapporre le due
sullo stesso grafico.
Alternativamente (figura 3.9(b)), si può costruire il grafico dei punti
ẽi
F̂ (ẽi ), Φ
,
σ
(3.17)
questi punti, contenuti nel quadrato [0, 1]×[0, 1] si dispongono idealmente (se l’ipotesi di normalità
è valida) secondo la bisettrice del I e III quadrante.
Il difetto di un tale grafico è che sono schiacciate le differenze tra le code, cioè dove le probabilità
teoriche e empiriche si avvicinano a 0 e a 1, che spesso è la regione più rilevante.
3. Analisi dei residui
49
●
●
0.8
0.8
●
●
●
0.6
●
●
●
(F^(xi), Φ(xi))
●
0.2
●
●
●
●
●
●
●
●
●
●
●
●
0.0
●
0.0
−2
●
●
0.4
0.6
●
●
●
●
●
●^
● F(x)
●
0.4
●
●
●
● Φ(x)
●
0.2
1.0
(b)
1.0
(a)
−1
0
1
2
●
0.0
0.2
0.4
0.6
0.8
1.0
^
F(x)
x
Figura 3.9: Confronto delle funzioni di ripartizione teorica e empirica: (a) grafici sovrapposti di
F̂ (x) e Φ(x); (b) grafico dei punti (F̂ (xi ), Φ(xi )) per i = 1, . . . , n
3.3.2.2
Confronto tra quantili teorici e empirici
L’idea è confrontare, anziché le probabilità empiriche e teoriche, i quantili empirici e teorici. Il
quantile (teorico) di ordine q per una variabile X è il (un) valore x[q] tale per cui P (X ≤ x[q] ) = q.
Il quantile empirico per un campione x1 , . . . , xn è un valore x̂q per cui è q la frequenza relativa di
{xi ≤ x̂q }. Il quantile non è, in generale, definito univocamente (questo è vero in particolare per il
quantile empirico, ma anche per quello teorico se la distribuzione non è assolutamente continua),
si può scegliere però un valore, ad esempio
xq = inf{x|F (x) ≥ q}
x̂q = inf{x|F̂ (x) ≥ q}
Le osservazioni ordinate x(1) , . . . , x(n) rappresentano dunque i quantili empirici di ordine 1/n, 2/n, . . . , (n−
1)/n, 1. Si vuole confrontarli graficamente con i corrispondenti quantili teorici, si usa allora il
grafico dei punti
−1 i − 1/2
Φ
, x(i)
(3.18)
n
dove la sostituzione di i/n con (i − 1/2)/n serve in quanto Φ−1 (1) non esiste – ovvero non è finito.
(Correzioni diverse possono essere impiegate, ad esempio R usa, nel caso in cui la numerosità è
i−3/8
minore di 10, la correzione n+2/8
.)
2
Se X ∼ N (0, σ ), i punti del grafico dovrebbero disporsi idealmente lungo la retta di equazione
y = µ + σx. Quanto più la disposizione dei punti si allontana da una retta, tanto più è in
dubbio l’ipotesi di normalità. Per avere un riferimento, al grafico (3.18) si sovrappone la retta
interquartilica (cioè la retta che passa per i punti (QI , Φ−1 (0.25)) e (QIII , Φ−1 (0.75)) dove QI e
QIII sono rispettivamente il primo e il terzo quartile (figura 3.10).
Si noti che per effettuare il confronto tramite quantili non è necessario stimare la varianza σ 2 .
A titolo di esempio in tabella 3.11 si riportano i calcoli necessari per un campione di 5 unità.
50
3.3. Verifica della normalità
x(i)
●
●
●
● ●
QIII
●●
●●
●
●●
●
●
QI
●●
●
●
●
●
Φ−1(0.25)
Φ−1(0.75)
i − 1 2 
Φ−1

 n 
2
Figura 3.10: Esempio di grafico dei quantili empirici contro i quantili teorici e retta interquartilica
-2
0
1
1
2
0.119
0.309
0.500
0.691
0.881
i−3/8
n+2/8
-1.180
-0.497
0.000
0.497
1.180
1
1
2
3
4
5
Φ−1
0
i−3/8
n+2/8
Quantili empirici
x(i)
●
●
0.000
0.497
●
−2
i
●
●
−1.180
−0.497
1.180
Quantili teorici
Figura 3.11: Costruzione del grafico dei quantili empirici contro i quantili teorici per un campione
di cinque unità
Ipotesi
Strumenti grafici
Strumenti inferenziali
Linearità
(xi , ei ), (ŷi , ei )
R2
Omoschedasticità
(xi , ei ), (ŷi , ei )
(xi , |ei |), (ŷi , |ei |)
test di Bartlett
Normalità
Densità-istogramma
grafico pp
grafico qq
test χ2 di conformità
test di Shapiro-Wilks
Tabella 3.3: Ipotesi e strumenti di verifica delle stesse
Capitolo 4
Modello di regressione multipla
Il modello di regressione semplice permette di investigare come una variabile sia in relazione
con una seconda variabile, come si è illustrato nel capitolo 1, il modello d’interesse comprende
tipicamente più variabili esplicative, che possono avere varia natura, quantitativa (esempi 3, 7)
o qualitativa (esempio 4), ed è possibile che variabili di entrambi i tipi siano incluse (esempio 5).
Nel presente capitolo si illustra il modello lineare per un numero arbitrario di variabili quantitative, a questo può essere poi ricondotto, come si mostrerà nel capitolo successivo, il caso di
variabili qualitative (o miste).
Consideriamo come esempio di riferimento i dati sui ciliegi (esempio 3, figura 1.1).
L’obiettivo dell’analisi è prevedere il volume ligneo sulla base di diametro e altezza. La geometria
suggerisce un modello: il volume di un cilindro è dato da volume = (π/4)×(diametro)2 ×(altezza),
che è una formula lineare nei logaritmi
log(volume) = log(π/4) + 2 log(diametro) + log(altezza).
Naturalmente gli alberi non hanno esattamente la forma di un cilindro, consideriamo allora il
modello
yi = β1 + β2 xi2 + β3 xi3 + εi
per i = 1, . . . , 31 dove yi = log(volumei ), xi2 = log(diametroi ), xi3 = log(altezzai ), e dove,
per tenere conto della natura campionaria dei dati – ripetendo l’osservazione si avrebbero valori
diversi –, si assume che vi siano degli errori εi indipendenti e identicamente distributi secondo
εi ∼ N (0, σ 2 ). I dati cosı̀ trasformati sono rappresentati nel pannello di destra della figura 4.1
utilizzando i diagrammi di dispersione per coppie di variabili, si veda la figura 1.1 del capitolo 1
per una rappresentazione tridimensionale.
La rappresentazione nel caso della regressione multipla offre meno indicazioni che nel caso della
regressione semplice, il grafico tridimensionale (in prospettiva), oltre ad essere possibile solo nel
caso di due variabili esplicative, è generalmente poco leggibile, mentre la matrice dei diagrammi di
dispersione, generalizzabile (teoricamente almeno) a un numero arbitrario di esplicative, permette
di visualizzare l’effetto di ciascuna esplicativa, singolarmente presa, sulla risposta, è altra cosa
l’effetto congiunto.
Di quest’ultimo si può avere un’idea grafica separando gli effetti delle variabili. In particolare, si
considerano i due modelli di regressione semplice
yi = γ1 + γ2 xi2 + ηi
xi3 = α1 + α2 xi2 + νi
52
10 12 14 16 18 20
2.2
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
70
65
70
75
80
●
●
●
●
●
●
●
●
85
●
●
●
●
●
70
4.0
●
●
●
65
●
50
●
●
●
●●
●
●●●
●
●
30
●
●
●
●
●
●
●
10
●
●
●
●
●
●
●
x3
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●● ●
●
3.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
75
●
●
●●●
●
●
●
●
●
●
●
●●
●
altezza
●
●
●
●
●
●
●
●
80
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
x2
●
●
●
●
●
2.2
●
●
●
●
●
●
●
● ●
●●
●
●
●
2.4
●
●
●
● ●●
● ●●
●
●
●
●
●
4.45
●
●
●
●
4.35
●
●
●
●
●
●
●
●
●
●
4.25
●
●
●
●
●
●
2.8
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.6
●
● ●
●
●
●
● ●●
85
10 12 14 16 18 20
diametro
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2.5
●
●
●
●
●
●
●
3.0
●
●●●
8
●
10
●
●
●●
●● ●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●●
30
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
3.0
●
y
50
●●
●
2.8
●
●
●
2.6
3.5
volume
●
2.4
●
70
●
4.15
8
●
2.5
3.0
3.5
4.0
4.15
4.25
4.35
4.45
Figura 4.1: Dati sui ciliegi, originali a sinistra e trasformati a destra.
●
4.45
4.40
●
●
3.5
●
x3
●
●
●
●●
●
●
●
2.5
●
●
●
● ●
2.2
2.4
2.6
x2
2.8
3.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.2
4.15
●●
●
●
●
●
●
●
●
4.20
●
●
●
●
−0.1
●
4.25
3.0
●
●
●
●
●
●
●
● ●
●
●
●
0.1
●
●
4.30
y
●
●
●
●
●
●
●
0.2
●
●
●
4.35
●
●
●
●
●
x2
●
●
●
ex3
4.0
●●
●
●
●
●
0.0
●
●
●
●
2.2
2.4
2.6
2.8
3.0
x2
●
●
●
●
−0.15
−0.05 0.00
ey
0.05
0.10
x2
Figura 4.2: Aggiunta della variabile
da cui i residui ey|x2 ;i e ex3 |x2 ;i , l’idea è che in tal modo si sia sottratto l’effetto di x2 tanto da
y che da x3 , si considera poi la regressione tra ey|x2 ;i e ex3 |x2 ;i , che sarebbe l’effetto esplicativo
addizionale di x3 scontato l’effetto di x2 . In figura 4.2 si rappresentano le tre regressioni in
questione, si nota che nella regressione tra residui, la retta passa per l’origine (in quanto le medie
dei residui sono nulle). Il fatto che l’ultima regressione risulti in una retta stimata con pendenza
positiva e una dispersione non eccessiva dei punti intorno ad essa significa in sostanza che x3 e
x2 spiegano congiuntamente più della sola x2 . (Perché, tolto il contributo di x2 , x3 spiega ancora
una parte rilevante della variabilità di Y .)
Notiamo poi che il modello può anche essere scritto dicendo che le Yi sono indipendenti e
Yi ∼ N µi , σ 2 ; µi = β1 + β2 xi2 + β3 xi3 .
Si ha dunque il modello statistico parametrico (Y, fθ , Θ) con fθ (yi ) = N µi , σ 2 , θ = (β1 , β2 , β3 , σ2 ) ∈
4. Modello di regressione multipla
53
Θ = R3 × (0, +∞), la cui funzione di verosimiglianza è proporzionale a
31
Y
1
1
2
√
L(θ) =
exp − 2 (yi − β1 − β2 xi2 − β3 xi3 )
2σ
2πσ
i=1
(
)
31
1 X
−31/2 2 −31/2
2
= (2π)
(σ )
exp − 2
(yi − β1 − β2 xi2 − β3 xi3 ) .
2σ
i=1
Si capisce quindi che si possono ottenere le stime di β1 , β2 e β3 minimizzando
S(β1 , β2 , β3 ) =
n
X
(yi − β1 − β2 xi2 − β3 xi3 )2 .
i=1
Si può a questo punto procedere come nel caso della regressione semplice, cioè calcolare le tre
derivate parziali ∂S/∂βi , eguagliarle a zero e risolvere il sistema, che è lineare. Risulta però
più conveniente ottenere la soluzione nel caso generale, sfruttando la notazione matriciale come
illustrato di seguito nel caso, più generale, di p variabili esplicative.
4.1 Ipotesi del modello
Il modello si generalizza in modo naturale al caso di p e n qualunque. Date dunque n osservazioni
di una variabile risposta (o dipendente) e p variabili esplicative (o indipendenti), le ipotesi del
modello lineare multiplo sono
(i) Yi = µi + εi = β1 xi1 + β2 xi2 + . . . + βp xip + εi , i = 1, . . . , n;
(ii) xij costanti note, i vettori xj ∈ Rn sono linearmente indipendenti1 ;
(iii) εi ∼ N 0, σ 2 indipendenti, i = 1, . . . , n.
La retta di regressione è stata quindi sostituita da una funzione lineare nei parametri di p variabili
esplicative (tra le quali, se nel modello si vuole includere l’intercetta, vi è una variabile che assume
valore uno in corrispondenza a tutte le osservazioni: xi1 = 1 per i = 1, . . . , n).
Le altre ipotesi rimangono sostanzialmente invariate, occorre aggiungere l’ipotesi di indipendenza
lineare delle variabili x. Questa ipotesi aggiuntiva serve a garantire l’identificabilità del modello2 .
In termini di interpretazione del modello quello che cambia è che, se prima il coefficiente angolare rappresentava semplicemente l’effetto della variabile esplicativa sulla media della variabile
risposta, ora i parametri βj rappresentano l’effetto di una variabile al netto delle altre: secondo
il modello µ = E(Y ) aumenta di βr unità se xr aumenta di un’unità, restando costanti le altre.
1
2
Si noti che con xj si indica il vettore in Rn contenente le n osservazioni relative alla j-ma variabile esplicativa.
Infatti se le xj sono linearmente dipendenti esistono delle costanti a1 , . . . , ap non tutte nulle tali che
a1 x1 + a2 x2 + . . . + ap xp = 0,
e quindi posto, senza perdita di generalità, ap 6= 0, possiamo esprimere xp in funzione di (x1 , . . . , xp−1 ) nel modo
seguente
a1
ap−1
xp−1 ,
xp = − x1 − . . . −
ap
ap
54
4.1. Ipotesi del modello
Per questa ragione i coefficienti sono anche detti coefficienti di regressione parziale. Si noti che
questa interpretazione è del tutto valida matematicamente, ma dal punto di vista interpretativo
può non essere realistica: nell’esempio sugli alberi è verosimile che le due esplicative siano correlate (un albero più alto è in media più grosso) e quindi gli effetti delle due variabili non sono
completamente separabili. (Si noti anche che se xi1 = 1 e β1 rappresenta l’intercetta non ha
senso interpretarlo in termini di variazione.)
Il modello statistico parametrico implicato dalle ipotesi sopra è (Y, fθ , Θ) con fθ (Yi ) = N µi , σ 2 ,
θ = (β1 , β2 , . . . , βp , σ2 ) ∈ Θ = Rp × (0, +∞), la cui funzione di verosimiglianza è
n
Y
1
1
2
√
L(θ) =
exp − 2 (yi − β1 xi1 − β2 xi2 − . . . − βp xip )
2σ
2πσ
i=1
(
)
n
X
1
= (2π)−n/2 (σ 2 )−n/2 exp − 2
(yi − β1 xi1 − β2 xi2 − . . . − βp xip )2 .
2σ
(4.1)
i=1
Conviene però, prima di procedere nell’analisi, passare alla notazione matriciale.
Osservazione 4.1 Rappresentazione grafica. Prima di passare alla trattazione analitica, è utile, per
visualizzare il modello, darne una rappresentazione analoga al diagramma di dispersione nel modello di
regressione semplice (di cui si è citata anche l’estensione in tre dimensioni per il caso di due variabili
esplicative). Dovremo fare riferimento allo spazio cartesiano Rp in cui p − 1 assi rappresentano i valori
delle p − 1 covariate (assumendo la costante sia inclusa nel modello) e il p-mo asse rappresenta la variabile
risposta.
Nel modello di regressione semplice la rapprsentazione è in R2 , l’asse delle ascisse è la variabile esplicativa
e l’asse delle ordinate è la variabile risposta. La funzione che lega E(Yi ) a xi è
g(x) = β1 + β2 x,
cioè una retta nel piano cartesiano R2 delle coppie (x, y).
Se p = 3 e xi1 = 1 (come nell’esempio di riferimento dei ciliegi), il legame tra E(Yi ) e le esplicative è
g(x) = β1 + β2 x2 + β3 x3 ,
di conseguenza, il vettore delle medie µ può essere scritto in funzione delle sole prime p − 1 variabili esplicative,
µ
=
=
=
β 1 x1 + . . . + β p xp
a1
ap−1
β1 x1 + . . . + βp−1 xp−1 + βp − x1 − . . . −
xp−1
ap
ap
a1
ap−1
β1 −
x1 + . . . + βp−1 −
xp−1 ,
ap
ap
cioè (almeno) uno dei regressori non serve.
In altri termini, il modello non è identificato poiché i due punti
ap−1
a1
(β1 , . . . , βp ) e β1 − ap , . . . , βp−1 − ap , 0 dello spazio parametrico Θ = Rp portano allo stesso vettore µ e
quindi alla stessa legge di probabilità per Y .
Questo dal punto di vista matematico, in pratica per quali ragioni può accadere che ci si trovi con variabili
esplicative linearmente dipendenti?
• La stessa variabile compare più volte nella matrice di dati, ad esempio perché riportata espressa in diverse
unità di misura.
• Una variabile è somma di altre (totale anni di istruzione, anni di istruzione preuniversitaria, anni di istruzione
universitaria; percentuale di maschi e di femmine).
• p > n (p = n può funzionare teoricamente, ma non è possibile stimare l’errore e il modello non riassume
nulla, si parla di modello saturo).
Inoltre, può accadere che il modello sia sı̀ identificato ma vicino alla non identificabilità (cioè la relazione sopra tra
le xi non è verificata esattamente ma approssimativamente sı̀), questa circostanza, detta multicollinearità (si veda
il capitolo 7), porta a varianze dei coefficienti elevate e quindi a stime molto incerte.
4. Modello di regressione multipla
55
cioè un piano nello spazio euclideo R3 dei punti (x2 , x3 , y) (vedi figura 1.1).
Con p generico e xi1 = 1 l’equazione
g(x) = β1 + β2 x2 + . . . + βp xp ,
rappresenta un iperpiano nello spazio Rp dei punti (x2 , x3 , . . . , xp , y).
Se il modello è correttamente specificato, i punti che rappresentano i valori osservati tendono a disporsi in
prossimità dell’iperpiano definito dall’equazione (i) senza gli errori.
Una tale rappresentazione è utile per interpretare il modello ma è ovviamente inutile in pratica dove è
preclusa dall’impossibilità di rappresentare efficacemente più di tre dimensioni. •
4.2 Rappresentazione matriciale
La generalizzazione a p e n qualunque è più agevole impiegando la notazione matriciale.
L’ipotesi (i) è un sistema di n equazioni che può essere scritto in forma matriciale
 


 
 
Y1
x11 x12 . . . x1p
ε1
β
1
 Y2 
 x21 x22 . . . x2p 
 ε2 
 

 .
 
 ..  =  ..
..
..   ..  +  .. 
 . 
 .

.
.
.
βp
Yn
xn1 xn2 . . . xnp
εn
Y
=
(n × 1)
X
β
(n × p)
(p × 1)
+
ε
(n × 1)
dove Y e ε sono vettori aleatori, cioè vettori i cui elementi sono variabili aleatorie. La matrice
X (anche detta matrice delle condizioni sperimentali o matrice di regressione) è non stocastica e
l’ipotesi di indipendenza lineare si traduce dicendo che X ha rango pieno (cioè, appunto, che
le colonne x1 , . . . , xp sono linearmente indipendenti).
L’ipotesi (iii), riferita al vettore casuale ε si può scrivere
ε ∼ N 0, σ 2 In ,
che implica
 2

σ
0 ... 0
 0 σ2 . . . 0 


E(ε) = 0, V (ε) =  .
..
..  ,
.
.
.
.
0 0 . . . σ2
cioè E(εi ) = 0 per ogni i; V (εi ) = σ 2 per ogni i; cov(εi , εh ) = 0 per ogni i 6= h, il che, essendo la
distribuzione congiunta una normale multivariata, implica l’indipendenza.
Con ciò, riscriviamo le ipotesi del modello di regressione multipla nella forma
(i) Y = Xβ + ε;
(ii) X non stocastica a rango pieno;
56
4.3. Stima dei parametri
(iii) ε ∼ N 0, σ 2 In .
Notiamo che Y è combinazione lineare di variabili normali e quindi è normale, inoltre E(Y ) =
Xβ + E(ε) = Xβ, V (Y ) = σ 2 In si può allora affermare che
Y ∼ N Xβ, σ 2 In .
(4.2)
Scriviamo dunque la verosimiglianza (4.1) sfruttando questa notazione, si ponga allora µ = Xβ =
β1 x1 + . . . + βp xp , la verosimiglianza è proporzionale a
n
Y
1
1
2
√
f (y; X, µ, σ ) =
exp − 2 (yi − µi )
2σ
2πσ
i=1
(
)
n
X
1
= (2π)−n/2 (σ 2 )−n/2 exp − 2
(yi − µi )2
2σ
i=1
1
= (2π)−n/2 (σ 2 )−n/2 exp − 2 (y − µ)T (y − µ) ,
2σ
2
per l’inferenza esplicitiamo β, σ 2 , e si ha allora
2 −n/2
2
f (y; X, β, σ ) ∝ (σ )
1
T
exp − 2 (y − Xβ) (y − Xβ) ,
2σ
e quindi la log-verosimiglianza è
1
n
l(β, σ 2 ) = − log(σ 2 ) − 2 (y − Xβ)T (y − Xβ).
2
2σ
(4.3)
da questa procederemo per ottenere gli stimatori di massima verosimiglianza (sezione 3) e per
l’inferenza sul modello (sezione 6).
4.3 Stima dei parametri
Vale, per la log-verosimiglianza (4.3), una considerazione analoga a quella fatta per la regressione
semplice, per σ 2 fissato l(β, σ 2 ) è massima ove è minima la somma dei quadrati degli scarti
SQ(β) = (y − Xβ)T (y − Xβ),
(4.4)
che non dipende da σ 2 , quindi
argmin SQ(β) = argmax l(β, σ 2 )
β
β
non dipende da σ 2 ed è perciò la SMV di β, β̂.
Possiamo quindi distinguere i due problemi e ottenere prima lo stimatore di massima verosimiglianza di β e poi quello di σ 2 .
4. Modello di regressione multipla
4.3.1
57
Stima di β
Come mostreremo nella sezione 3.1.1, il vettore che rende minima SQ(·) è la soluzione delle
equazioni normali dei minimi quadrati
(y − Xβ)T X = 0,
(4.5)
che possono essere scritte equivalentemente X T Xβ = X T y, Pertanto, se X T X (che è una matrice
p × p) è invertibile, si ha
β̂ = (X T X)−1 X T y.
(4.6)
Si noti che la condizione per cui la matrice X ha rango pieno implica che X T X è invertibile,
se cosı̀ non è, la soluzione alle equazioni normali (4.5) non è unica, il che è naturale perché il
modello non è identificato.
4.3.1.1
Derivazione delle equazioni normali
Mostriamo dunque che la soluzione delle equazioni normali (4.5) è il punto di massimo della
somma dei quadrati (4.4). A tal fine, scriviamo per esteso le equazioni normali, si ha

T
y1 − β1 x11 − . . . − βp x1p



 x11 x12 . . . x1p
..

 
.

 x21 x22 . . . x2p 

 yi − β1 xi1 − . . . − βp xip  
..
..
..  = 0(p×1) ,

 
.
. 

  .
..


.
xn1 xn2 . . . xnp
yn − β1 xn1 − . . . − βp xnp
si ha cioè il sistema di p


 0 =


..


.

0 =


..


.



0 =
equazioni
(y − Xβ)T x1 =
..
.
Pn
− β1 xi1 − . . . − βp xip )
(y − Xβ)T xr =
..
.
Pn
− β1 xi1 − . . . − βp xip )
(y − Xβ)T xp =
Pn
− β1 xi1 − . . . − βp xip ),
i=1 xi1 (yi
i=1 xir (yi
i=1 xip (yi
dove però si noti che
n
X
∂SQ(β)
= −2
xir (yi − β1 xi1 − . . . − βp xip ) = −2(y − Xβ)T xr .
∂βr
i=1
Il sistema delle equazioni normali equivale dunque al sistema delle p equazioni di verosimiglianza
∂SQ(β)
=0
∂βr
r = 1, . . . , p.
La soluzione è dunque un punto stazionario per SQ(β), per poter affermare che β̂, soluzione
delle equazioni normali, è un minimo dovremo mostrare che la matrice delle derivate seconde,
l’hessiano, è definita positiva, si noti allora che
n
X
∂ 2 SQ(β)
=2
xir xis i = 1, . . . , p,
∂βr ∂βs
i=1
58
4.4. Interpretazione geometrica
cioè l’hessiano è 2X T X, che, essendo il rango di X pieno, è definito positivo come volevasi3
4
Stima di σ 2
4.3.2
Procediamo, anche per σ 2 , analogamente a quanto fatto per la regressione lineare semplice,
sostituiamo β̂ in l(β, σ 2 ) (equazione (4.3)), ottenendo
n
1
n
1
l(β̂, σ 2 ) = − log(σ 2 ) − 2 (y − X β̂)T (y − X β̂) = − log(σ 2 ) − 2 SQ(β̂),
2
2σ
2
2σ
e massimizziamo
a σ 2 , posto ei = yi − ŷi e detto e il vettore corrispondente, si ha
Pn 2 rispetto
T
SQ(β̂) = i=1 ei = e e, e quindi
n
1 X 2
n
2
l(β̂, σ ) = − log(σ ) − 2
ei .
2
2σ
2
i=1
Ponendo la derivata uguale a 0 si ottiene l’equazione
n
n
1 X 2
∂l(β̂, σ 2 )
=
−
+
ei = 0,
∂(σ 2 )
2σ 2 2(σ 2 )2
i=1
la cui soluzione
Pn
2
σ̂ =
2
i=1 ei
n
=
eT e
n
(4.7)
individua un punto stazionario. La derivata seconda calcolata in σ̂ 2 è
n
∂ 2 l(β̂, σ 2 ) 1 X 2 1
n
n
n
− 6
− 2 3 nσ̂ 2 = −
< 0.
=
ei =
2
2
4
2
2
2 2
∂(σ ) 2 2
2σ
σ
2(σ̂ )
(σ̂ )
2(σ̂ 2 )2
σ =σ̂
i=1
σ =σ̂
Il punto stazionario σ̂ 2 è dunque un massimo.
4.4 Interpretazione geometrica
Il modello di regressione multipla può essere convenientemente interpretato dal punto di vista
geometrico nello spazio Rn .
3
Una matrice B è definita positiva se aT Ba > 0 se a 6= 0, ma aT X T Xa = (Xa)T (Xa) che è 0 se e solo se
Xa = 0, essendo X a rango pieno Xa = 0 ⇔ a = 0.
4
Si noti che si possono scrivere anche le derivate in forma vettoriale, si ha
SQ(β) = yT y − 2yT Xβ + β T X T Xβ,
da cui
d
SQ(β)
dβ
= −2yT X + 2β T X T X, quindi
d
SQ(β)
dβ
= 0 se e solo se
0 = yT X − β T X T X = (y − Xβ)T X.
Infine si ha
d2
SQ(β)
dβ T dβ
= 2X T X.
4. Modello di regressione multipla
59
4
(3, 4)
●
x=(3, 1, 5)
y
4
5
3
●
2
(1, 2)
2
1
5
y=(4, 2, 1)
●
(5, 1)
4
●
U.S. 2
U.S. 3
3
●
1
3
2
1
0
0
0
0
0
1
2
3
4
1
5
2
3
4
5
U.S. 1
x
Figura 4.3: Rappresentazioni del campione x = (3, 1, 5), y = (4, 2, 1) nello spazio R2 dove
le coordinate rappresentano le due variabili (a sinistra) e nello spazio R3 dove le coordinate
rappresentano le unità statistiche (a destra)
Notiamo che il vettore y delle osservazioni relative alla variabile risposta sulle n unità statistiche
giace in Rn , e lo stesso è vero per i vettori x1 , . . . , xp , colonne della matrice X e osservazioni delle
p esplicative sulle n unità statistiche.
Tale rappresentazione è un cambiamento di prospettiva rispetto alla rappresentazione grafica di
dati e modello nello spazio cartesiano di dimensione p + 1 in cui gli assi rappresentano i valori
delle esplicative e della risposta e un punto nello spazio Rp+1 rappresenta un’unità statistica
(un’osservazione). In particolare il cambiamento di prospettiva consiste nel fatto che gli assi
rappresentano le unità statistiche e sono quindi n (quante le osservazioni), i punti (vettori) nello
spazio Rn rappresentano le variabili (risposta e esplicative).
A titolo di esempio consideriamo un insieme di dati: su tre osservazioni (n = 3, p = 1) si osservano
le coppie (x, y): (3, 4), (1, 2) e (5, 1). Mettiamo a confronto nella figura 4.3 la rappresentazione
usuale, sul piano (x, y) (espicativa-risposta), con quella nello spazio R3 . Nella prima, con due
assi, uno per x e uno per y, troviamo tre punti, rappresentanti le tre coppie di osservazioni (un
punto per ciascuna unità statistica); nella seconda, con tre assi, uno per ciascuna unità statistica,
troviamo due punti, uno per la variabile x = (3, 1, 5) e uno per la variabile y = (4, 2, 1).
Torniamo al caso generale, con n osservazioni e p < n variabili, in cui nello spazio Rn si hanno
i p + 1 vettori y, x1 , . . . , xp . In tale spazio, consideriamo l’insieme delle possibili combinazioni
lineari di x1 , . . . , xp
V = {µ ∈ Rn : µ = Xβ = β1 x1 + . . . + βp xp , β ∈ Rp }
cioè il sottospazio di Rn generato da (x1 , . . . , xp ) ((x1 , . . . , xp ) è cioè una base per V). Essendo
xi linearmente indipendenti, V è un sottospazio di dimensione p(< n).
L’ipotesi alla base del modello lineare, E(Y ) = µ = Xβ, si può allora esprimere geometricamente,
notando che
E(Y ) = Xβ ⇔ E(Y ) ∈ V.
60
4.4. Interpretazione geometrica
(a)
(b)
3
y
y
y2
●
V
●
y − Xβ = y − ^
y
y − Xβ = y − ^
y
4
V
●
^
y
^
y
3
Unità statistica 2
●
2.5
2
U.S. 3
3.0
U.S. 2
y^2
2.0
1
1.5
1.0
0.5
0
0.0
0.0
0
0
y^1
y1
0.5
1.0
3
1.5
2.0
2.5
3.0
U.S. 1
Unità statistica 1
Figura 4.4: Esempi di rappresentazione geometrica
A parole, l’ipotesi di linearità significa che il vettore delle medie della variabile Y , che ha valori
in Rn , giace nel sottospazio V generato dalle p variabili esplicative (si noti che, in generale, il
vettore delle medie di Y giace in Rn , come il vettore Y stesso).
Ad esempio, sia n = 2, p = 1 e x1 = (1, 1)T , si ha y ∈ R2 , e si avrà E(y) = (µ1 , µ2 )T ∈ R2 .
L’ipotesi di linearità è
1
E(Y ) = β1
1
cioè
E(Y ) ∈ V = {µ ∈ R2 : µ1 = µ2 },
il sottospazio V è una retta nel piano, in particolare, la bisettrice del I e III quadrante, E(Y )
giace in esso se le medie di Y1 e Y2 coincidono. Nella Figura 4.4(a) si rappresentano i vettori
in gioco, lo spazio V è la retta tratteggiata, ŷ giace in esso. Si osservi che il vettore dei valori
teorici ŷ e il vettore dei residui e sono ortogonali: la retta che dà la direzione del vettore dei
residui passa per i punti (y1 , y2 ) e (ȳ, ȳ), essa ha pertanto equazione u1 + u2 = 2ȳ (se con u1 , u2
s’indicano le generiche coordinate sul piano) mentre il sottospazio V ha equazione u1 − u2 = 0.
Se invece n = 3, p = 1 e x1 = (1, 1, 1)T , si ha y ∈ R3 e l’ipotesi è
 
1
E(Y ) = β1 1
1
cioè
E(Y ) ∈ V = {µ ∈ R3 : µ1 = µ2 = µ3 },
il sottospazio V è una retta nello spazio euclideo R3 , similmente all’esempio precedente, E(Y )
giace in esso se le medie di Y1 , Y2 e Y3 coincidono (Figura 4.4(b)).
Se p = 2 e x1 = (1, . . . , 1)T , mentre x2 è generica, si ha y ∈ Rn e l’ipotesi è
E(Y ) = β1 1n + β2 x2
cioè
E(Y ) ∈ V = {µ ∈ Rn : µ = β1 1n + β2 x2 ; β1 , β2 ∈ R},
4. Modello di regressione multipla
61
4
y
V
3.0
2
3
^=y−^
y − Xβ
y
x2
2
3
2.5
^
y
2.0
1
1.5
1.0
0.5
x1
0
0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
1
Figura 4.5: Rappresentazione geometrica, esempio con y = (1.5, 2, 4), x1 = (2, 0.5, 0) e x2 =
(0.5, 2.5, 0), allora V = {(u1 , u2 , 0) : u1 , u2 ∈ R}; ne consegue che ŷ = (y1 , y2 , 0) e dunque
e = (0, 0, y3 )
il sottospazio V è un piano nello spazio Rn .
In quest’ottica geometrica, possiamo interpretare anche la condizione che individuaP
lo SMV e lo
n
2
T
SMV stesso. Indichiamo con || · ||, la norma euclidea in R , cioè ||x|| = x x = ni=1 x2i , alla
quale è associata la distanza euclidea d(x1 , x2 ) = ||x1 − x2 || (sicché la norma altro non è che la
distanza di x dall’origine).
Nel senso di distanza si può interpretare la somma dei quadrati SQ(β), essa è la norma al
quadrato di y − Xβ, ossia la distanza al quadrato tra y e Xβ
SQ(β) = (y − Xβ)T (y − Xβ) = ||y − Xβ||2 ,
dove y ∈ Rn e Xβ ∈ V. Il vettore β, d’altra parte, varia in tutto Rp e quindi Xβ = β1 x1 +
. . . + βp xp varia in tutto V (poiché x1 , . . . , xp è una base per V). Pertanto la SMV β̂ individua
il punto ŷ = X β̂ in V che ha la minima distanza da y, in formule
ŷ = X β̂ = Xargmin ||y − Xβ|| = argmin ||y − ỹ||.
β
ỹ∈V
Questo elemento è la proiezione ortogonale di y su V, ossia5 y − X β̂ ⊥ V, il che significa che è
ortogonale a tutti gli elementi della base,
y − X β̂ ⊥ xj ∀j = 1, . . . , p,
e ritroviamo dunque per questa via le equazioni normali
(y − X β̂)xj = 0 ∀j = 1, . . . , p.
5
Si mostra facilmente che ỹ ∈ V, diverso dalla proiezione ortogonale ŷ ha distanza maggiore. Consideriamo
||y − ỹ||2 = ||y − ŷ + ŷ − ỹ||2 , essendo (y − ŷ)⊥V e (ŷ − ỹ) ∈ V si ha (y − ŷ)⊥(ŷ − ỹ) e quindi ||y − ŷ + ŷ − ỹ||2 =
||y − ŷ||2 + ||ŷ − ỹ||2 > ||y − ŷ||2 QED.
62
4.4. Interpretazione geometrica
(Si rivedano le Figure 4.4(a) e (b) dove si è rappresentata la proiezione.)
In Figura 4.5, infine, si rappresenta, a titolo di esempio, il caso con y = (1.5, 2, 4), x1 = (2, 0.5, 0)
e x2 = (0.5, 2.5, 0), lo spazio V è allora il piano formato dagli assi 1 e 2. La proiezione di y è il
vettore di coordinate ŷ = (y1 , y2 , 0) (ci se ne convince facilmente scrivendo la somma dei quadrati
da minimizzare), il vettore dei residui è dunque e = (0, 0, y3 ).
Stablito che ŷ è la proiezione ortogonale di y su V, conviene definire la matrice di proiezione,
ossia la matrice che definisce l’applicazione lineare g(z) : Rn → V che associa a ciascun vettore
di Rn la sua proiezione su V ⊂ Rn . Essa è rappresentata da una matrice P , (n × n), di rango p
(pari alla dimensione del sottospazio V): g(z) = P z. Essendo
ŷ = µ̂ = X β̂ = X(X T X)−1 X T y
la matrice di proiezione cercata è P = X(X T X)−1 X T .
Infine, notiamo che, essendo il vattore dei residui e ortogonale a V, esso è ortogonale a ŷ e quindi
y = ŷ + e = P y + (I − P )y
costituisce una scomposizione ortogonale di y. (I residui, in effetti, sono la proiezione di y sullo
spazio nullo di P , ovvero sullo spazio ortogonale a V.)
4.4.1
Conseguenze dell’interpretazione geometrica
Una conseguenza ovvia dell’ortogonalità
dei residui con V è che la somma dei residui si annulla
Pn
e
=
1n e = 0. In generale quindi, se il modello include
se il vettore 1n è in V, infatti
i
i=1
l’intercetta (esplicitamente o meno), la somma dei residui è nulla.
Se siamo in queste condizioni, i residui sono incorrelati con le variabili esplicative
cov(e,
ˆ
xj ) =
1
1
(exj − ēx̄j ) = exj = 0,
n
n
Notiamo che, nel caso in cui 1n ∈
/ V, la correlazione tra e e xj è comunque nulla se x̄j = 0.
Consideriamo poi la scomposizione della devianza
n
n
n
X
X
X
(yi − ȳ)2 =
(ŷi − ȳ)2 +
(yi − ŷi )2
i=1
i=1
i=1
che in forma matriciale possiamo scrivere
(y − 1n ȳ)T (y − 1n ȳ) = (ŷ − 1n ȳ)T (ŷ − 1n ȳ) + eT e.
cioé
yT y − 2ȳ1Tn y + nȳ 2 = ŷT ŷ − 2ȳ1Tn ŷ + nȳ 2 + eT e
(4.8)
se però il vettore 1n appartiene a V le equazioni normali implicano che (y − Xβ)T 1n = 0 e quindi
1Tn y = 1Tn ŷ e quindi l’equazione (4.8) diventa
yT y = ŷT ŷ + eT e
(4.9)
che deriva in sostanza da un’applicazione del teorema di Pitagora, o può essere ottenuta da
yT y = yT (P + I − P )y = yT P y + yT (I − P )y = yT P T P y + yT (I − P )T (I − P )y.
4. Modello di regressione multipla
63
La validità della formula di scomposizione della devianza significa che il coefficiente di determinazione R2 appartiene a [0, 1], fatto che è in generale falso se l’intercetta non è inclusa nello spazio
delle variabili esplicative.
Sfruttando la scomposizione (4.9) si ha anche un’espressione per i residui
eT e = yT y − ŷT ŷ = yT y − β̂ T X T X β̂ =
= yT y − β̂ T X T X(X T X)−1 X T y = yT y − β̂ T X T y.
4.5 Distribuzione degli stimatori
Gli stimatori, individuati nella sezione 3, sono funzione di variabili aleatorie normali, servono,
per determinarne la distribuzione, alcuni risultati relativi a trasformazioni di variabili normali
multivariate, che sono raccolti nella sezione 5.1.
4.5.1
Premessa: risultati sulla normale multivariata
Indicato con Y un vettore aleatorio di dimensione d, con Y ∼ N d (µ, Σ) s’intende che Y ha
distribuzione normale d-variata con parametri µ ∈ Rd e Σ matrice d × d definita positiva , ovvero
ha funzione di densità
1
−(n/2)
−1/2
T −1
f (y) = (2π)
|Σ|
exp − (y − µ) Σ (y − µ) .
2
e si può mostrare che E(Y ) = µ, V (Y ) = Σ (per cui dev’essere una matrice semidefinita positiva).
Una tale ipotesi implica che anche le distribuzioni marginali sono normali, in particolare se
Y T = (Y1T , Y2T ) con dim(Y1 ) = d1 , dim(Y2 ) = d2 e d1 + d2 = d allora Y1 ∼ N d1 (µ1 , Σ11 ) dove
µ1 e Σ11 sono le porzioni rilevanti di µ e Σ.
Si parla poi di distribuzione normale multivariata standard con riferimento a Z ∼ N d (0, Id ), che
ha densità
1
φ(z) = (2π)−(n/2) exp − zT z .
2
Citiamo alcuni risultati utili relativi alla distribuzione di trasformazioni di v.a. normali.
Nel primo si afferma che un trasformato lineare affine di un v.a. normale è ancora normale
Teorema 5.1 Trasformazione lineare affine di v.a. gaussiani. Se Y ∼ N d (µ, Σ); A
matrice k × d, rango(A) = k e b ∈ Rk ; allora T = AY + b ∼ N k (Aµ + b, AΣAT ).
Un caso particolare del teorema 5.1 è il fatto che una combinazione lineare di v.a. normali è
ancora normale, esso infatti corrisponde al caso A matrice 1 × d.
Il secondo risultato riguarda una forma quadratica, cioè una funzione del tipo f (x) = xT Bx,
dove B è una matrice quadrata e simmetrica (si chiama quadratica perché è una combinazione
lineare di quantità del tipo xi xj ).
Teorema 5.2 Se Z ∼ N d (0, σ 2 Id ), σ 2 > 0 e B è una matrice d × d simmetrica e idempotente;
allora Q = σ12 Z T BZ ∼ χ2rango(B) .
64
4.5. Distribuzione degli stimatori
I seguenti due risultati riguardano coppie di trasformati, in particolare si danno delle condizioni
soddisfatte le quali due trasformati di un v.a. gaussiano sono indipendenti, nel primo in relazione
a un trasformato lineare e una forma quadratica, nel secondo in relazione a due forme quadratiche.
Teorema 5.3 Se Z ∼ N d (0, σ 2 Id ), σ 2 > 0; A è una matrice k × d; B è una matrice d × d
simmetrica e idempotente, AB = 0, allora T1 = AZ e T2 = Z T BZ sono indipendenti.
Teorema 5.4 Se Z ∼ N d (0, σ 2 Id ), σ 2 > 0; B1 , B2 sono matrici d × d simmetriche, idempotenti
e tali che B1 B2 = 0 allora T1 = Z T B1 Z e T2 = Z T B2 Z sono indipendenti.
Infine, l’ultimo risultato riguarda una particolare forma quadratica, la distanza di Mahalanobis
di Y dalla media: dM (Y , µ) = (Y − µ)T Σ−1 (Y − µ), per essa si ha
Teorema 5.5 Se Y ∼ N d (µ, Σ), allora (Y − µ)T Σ−1 (Y − µ) ∼ χ2d .
4.5.2
Distribuzione di β̂
Essendo Y ∼ Nn (µ, σ 2 In ), lo stimatore di massima verosimiglianza β̂ = (X T X)−1 X T Y è un
trasformato lineare di una v.a. normale multidimensionale. Si applica allora il teorema 5.1 con
A = (X T X)−1 X T , b = 0, Σ = σ 2 In
e si ha
β̂ = AY ∼ N (Aµ, A(σ 2 In )AT )
dove Aµ = (X T X)−1 X T µ = (X T X)−1 X T Xβ = β, quindi β̂ è non distorto, inoltre
A(σ 2 In )AT
= σ 2 AAT = σ 2 (X T X)−1 X T ((X T X)−1 X T )T = σ 2 (X T X)−1 X T X(X T X)−1
= σ 2 (X T X)−1 ,
sicché i valori delle esplicative determinano la struttura di dipendenza degli stimatori dei coefficienti.
In sintesi si ha dunque
β̂ ∼ N (β, σ 2 (X T X)−1 ).
(4.10)
Notiamo che questo implica, in base a quanto detto sopra sulle distribuzioni marginali di vettori
aleatori normali multidimensionali, che
βr ∼ N (β, σ 2 [(X T X)−1 ]rr )
(4.11)
dove [(X T X)−1 ]rr indica l’r-esimo elemento della diagonale di (X T X)−1 .
4.5.3
Distribuzione di σ̂ 2
Per ricondurci a uno dei risultati visti, dobbiamo scrivere σ̂ 2 come forma quadratica di un vettore
normale con media nulla, ossia del vettore degli errori. Scriviamo allora
nσ̂ 2 = eT e = ((I − P )Y )T (I − P )Y = Y T (I − P )Y
4. Modello di regressione multipla
65
notando però che (I − P )µ = µ − P µ = µ − µ = 0 si può scrivere e = (I − P )(Y − µ) e quindi
eT e = (Y − µ)T (I − P )(Y − µ) = εT (I − P )ε
(4.12)
si applica allora il risultato 5.2, con Z = ε e B = (I − P ), che ha rango (n − p), si ha allora
1 T
e e ∼ χ2n−p e quindi
σ2
nσ̂ 2
∼ χ2n−p .
σ2
(4.13)
Si deduce da questo che lo stimatore σ̂ 2 non è corretto, E(σ̂ 2 ) = σ 2 n−p
n , e si rintraccia quindi lo
stimatore non distorto
n
s2 = σ̂ 2
n−p
per il quale si ha
(n − p)s2
∼ χ2n−p .
σ2
4.5.4
(4.14)
Distribuzione congiunta di (β̂, σ̂ 2 )
Notiamo anzitutto che
β̂ − β = (X T X)−1 X T Y − β
= (X T X)−1 X T Y − (X T X)−1 X T Xβ
= (X T X)−1 X T (Y − Xβ)
= (X T X)−1 X T ε.
Usando la notazione del teorema 5.3 indichiamo ε = Z, A = (X T X)−1 X T e B = I − P , notiamo
allora che
AB = (X T X)−1 X T (I − X(X T X)−1 X T ) = (X T X)−1 X T − (X T X)−1 X T X(X T X)−1 X T = 0
per tutto ciò, e per l’espressione (4.12), possiamo affermare che ci troviamo nelle condizioni del
risultato 5.3 e pertanto β̂−β e nσ̂ 2 sono indipendenti, che è lo stesso che dire che β̂ è indipendente
da σ̂ 2 e da s2 .
4.6 Inferenza sul modello
4.6.1
Inferenza su un singolo coefficiente basata sulla quantità
pivotale
I risultati della sezione 5 permettono di definire delle quantità pivotali per l’inferenza su un
singolo coefficiente, in particolare in virtù della (4.11), della (4.14) e dell’indipendenza tra β̂ e
66
4.6. Inferenza sul modello
s2 , si ha che, qualunque sia r,
β̂r − βr
√
tr = p
=
s2 [(X T X)−1 ]rr
β̂r −βr
σ 2 [(X T X)−1 ]rr
p
s2 /σ 2
N (0, 1)
∼ r
∼ tn−p .
(4.15)
χ2n−p
n−p
Dove notiamo che s2 [(X T X)−1 ]rr = V̂ (β̂r ).
Il sistema d’ipotesi
(
H0 : βr = βr0
H1 : βr 6= βr0
può allora essere verificato sulla base del confronto del valore di
β̂r − βr0
tr = p
s2 [(X T X)−1 ]rr
con una tn−p , sua distribuzione nell’ipotesi nulla, si ha dunque la regione di rifiuto di livello α
|toss
r | > tn−p,1−α/2
e, di conseguenza, il valore p
oss
oss
αoss = P (|tn−p | > |toss
r |) = 2 min(P (tn−p > tr ), P (tn−p < tr )).
In maniera analoga si possono verificare sistemi d’ipotesi unilaterali.
Sulla base della stessa quantità pivotale, si può ottenere l’intervallo di confidenza di livello 1 − α
di estremi
q
β̂r ± tn−p,1−α/2 s2 [(X T X)−1 ]rr .
4.6.2
Verifica d’ipotesi sulla nullità di un gruppo di coefficienti
In molti casi, è di interesse verificare un’ipotesi che coinvolge congiuntamente più coefficienti.
In particolare, è di interesse e verrà illustrato in dettaglio, il problema della verifica dell’ipotesi
di nullità di un gruppo di coefficienti, che è agevole impostare come un confronto tra modelli.
Si dà anche nel seguito un cenno all’uso di questo approccio nel caso di ipotesi puntuali su più
coefficienti (non necessariamente di nullità).
Consideriamo l’ipotesi di nullità di un gruppo di p−p0 coefficienti, che, senza perdita di generalità,
possiamo supporre siano gli ultimi, si ha allora il sistema d’ipotesi
(
H0 : βp0 +1 = βp0 +2 = . . . = βp = 0,
H1 : ∃r ∈ {p0 + 1, . . . , p} t.c. βr 6= 0,
Per verificare un sistema di questo tipo si può procedere nel modo seguente: si stima il modello
M0 con tutti i p regressori, se ne ottengono i residui e = y − X β̂ e quindi si calcola la somma
dei quadrati dei residui RSS = eT e. Si stima poi il modello M0 definito da
Yi = β01 xi1 + . . . + β0p0 xi,p0 + εi ,
4. Modello di regressione multipla
67
che differisce da M1 per l’assenza dei regressori p0 + 1, . . . , p (oggetto dell’ipotesi). Di M0 si
calcolano i residui e0 = y − X0 β̂0 e la relativa somma dei quadrati RSS0 = eT0 e0 .
Chiaramente RSS0 > RSS, tuttavia la differenza è tanto più grande quanto più i p−p0 coefficienti
oggetto dell’ipotesi sono rilevanti, la valutazione quantitativa si basa su un test F , che è ricavato
e formalizzato nel seguito.
I due modelli che vogliamo confrontare, formalizzati nella tabella 4.1, sono modelli annidati, in
quanto la famiglia associata a uno è contenuta in quella associata all’altro.
Conviene riscrivere il parametro β nella forma


β1
 .. 
 . 

  βp0 
β0

β=
βp +1  = β1
 0 
 .. 
 . 
βp
dove β0 ∈ Rp0 e β1 ∈ Rp−p0 , con ciò il sistema d’ipotesi è
(
H0 : β1 = 0
H1 : β1 6= 0
corrispondentemente, scriviamo la matrice X come combinazione di due sottomatrici

x11 . . . x1p0
 ..
..
X= .
.
xn1 . . . xnp0
x1,p0 +1
..
.
xn,p0 +1

. . . x1p
..  = [X |X ]
0
1
. 
. . . xnp
dove X0 è una matrice n × p0 e X1 è una matrice n × (p − p0 ).
È allora più agevole scrivere i due modelli
Modello completo (M1 )
IND
Yi ∼ N
P
p
j=1
βj xij , σ 2
Y = Xβ + ε = [X0 X1 ]
P
p0
j=1
β0j xij , σ02
Y = X0 β0 + ε
β̂0
β̂1
β̃ = (X0T X0 )−1 X0T y
eT e
n
σ̃ 2 =
l(β̂0 , β̂1 , σ̂ 2 ) = − n
log σ̂ 2 −
2
= −n
log σ̂ 2 −
2
IND
Yi ∼ N
β0
+ε
β1
β̂ = (X T X)−1 X T y =
σ̂ 2 =
Modello ridotto (M0 )
n
2
1
eT e
2σ̂ 2
eT
0 e0
n
=
1
(y
n
l(β̃, 0, σ̃ 2 ) = − n
log σ̃ 2 −
2
− X0 β̃)T (y − X0 β̃)
1
(y
2σ̃ 2
= −n
log σ̃ 2 −
2
− X0 β̃)T (y − X0 β̃)
n
2
4.6. Inferenza sul modello
68
∼ N
IND
p
X
j=1
βj xij , σ
2
Modello completo (M )
1


Yi
i=1
j=1
θ = (β1 , . . . , βp , σ 2 ) ∈ Θ = Rp ×]0, +∞[


p
n


X
X
1
p(y; θ) = (2πσ 2 )−n/2 exp − 2
(yi −
βj xij )2
 2σ

j=1
p
n
X
n
1 X
l(β1 , . . . , βp0 , 0, . . . , 0, σ 2 ) = − log σ 2 − 2
(yi −
βj xij )2
2
2σ
i=1
j=1
Modello ridotto (M )
0


p0
X
IND
β0j xij , σ02 
Yi ∼ N 
j=1
p0
n
X
n
1 X
2
) = − log σ 2 −
(y −
βj xij )2
i
0
2
2σ02 i=1
j=1
i=1
θ = (β , . . . , β , σ 2 ) ∈ Θ = Rp0 ×]0, +∞[
0
0
01
0p
0
0


p0
n

 1 X
X
(yi −
β0j xij )2
−

 2σ02
p0 (y; θ0 ) = (2πσ02 )−n/2 exp
l(β01 , . . . , β0p , σ
Tabella 4.1: Riassunto delle quantità rilevanti per il confronto tra modelli
4. Modello di regressione multipla
69
Si può allora calcolare il log-rapporto di verosimiglianza
Wp (β1 )|β1 =0 = 2(l(β̂0 , β̂1 , σ̂ 2 ) − l(β̃, 0, σ̃ 2 ))
n
n
= 2 − log σ̂ 2 + log σ̃ 2
2
2
σ̃ 2
= n log 2
σ̂
eT e0
= n log 0T .
e e
(4.16)
(Si noti che si ha sempre eT0 e0 ≥ eT e, quindi il logaritmo è ben definito e positivo, salvo nel caso,
banale, in cui i due sono eguali.)
Si rifiuta se Wp (β1 )|β1 =0 è grande, cioè se eT0 e0 è grande rispetto a eT e, il che significa che i
residui del modello ridotto sono grandi rispetto a quelli del modello completo. Per determinare
la regione critica o il valore p si deve confrontare il valore osservato della statistica Wp (β1 )|β1 =0 ,
Wposs con la sua distribuzione nell’ipotesi nulla6
La statistica
σ̃ 2
σ̃ 2 − σ̂ 2
−
1
=
,
σ̂ 2
σ̂ 2
assume valori in [0, +∞[ dato che σ̃ 2 ≥ σ̂ 2 , è equivalente a Wp in quanto ne è trasformazione
monotona. Essa rappresenta l’aumento relativo della varianza stimata dell’errore che consegue
dal passaggio dal modello completo a quello ridotto. Ricordiamo allora che nσ̂ 2 = εT (I − P )ε,
e, analogamente, nσ̃ 2 = εT (I − P0 )ε, dove P0 è la matrice di proiezione del modello ridotto,
P0 = X0 (X0T X0 )−1 X0T .
La differenza delle varianze è allora
n(σ̃ 2 − σ̂ 2 ) = εT (I − P0 )ε − εT (I − P )ε = εT (I − P0 − I + P )ε = εT (P − P0 )ε
dove P − P0 è simmetrica, dato che P e P0 sono simmetriche, e idempotente:
(P − P0 )(P − P0 ) = P P − P0 P − P P0 + P0 P0 = P − P0 − P0 + P0 = P − P0 ,
si noti infatti che P (P0 y) = P0 y e P0 (P y) = P0 y poiché P e P0 sono proiezioni e P : Y → V e
P0 : Y → V0 ⊂ V (V0 è generato dalle prime p0 esplicative, V è generato da tutte le esplicative).
Inoltre, P − P0 ha rango p − p0 e quindi, per il teorema 5.2, si ha
n(σ̃ 2 − σ̂ 2 )
εT (P − P0 )ε
=
∼ χ2p−p0 .
σ2
σ2
Per il denominatore si ha, per la (4.13)
nσ̂ 2
εT (I − P )ε
=
∼ χ2n−p
σ2
σ2
Si noti poi che
(P − P0 )(I − P ) = P − P0 − (P − P0 )P = P − P0 − P P + P0 P = 0
6
H
In base alla teoria generale della verosimiglianza, si ha Wp ∼0 χ2p−p0 , ma questa approssimazione è poco
adeguata, specialmente se p è grande rispetto a n, possiamo però ricavare la distribuzione esatta.
70
4.6. Inferenza sul modello
e quindi, per il teorema 5.4, n(σ̃ 2 − σ̂ 2 ) e nσ̂ 2 sono indipendenti, sicché
F =
σ̃ 2 −σ̂ 2
p−p0
σ̂ 2
n−p
=
n(σ̃ 2 −σ̂ 2 )
σ 2 (p−p0 )
nσ̂ 2
σ 2 (n−p)
∼
χ2p−p
0
p−p0 H0
∼
χ2n−p
n−p
Fp−p0 ,n−p .
(4.17)
Se F oss rappresenta il valore osservato di F , dunque, si rifiuta l’ipotesi nulla al livello α se
F oss > Fp−p0 ,n−p,1−α o, in altri termini, il valore p è dato da P (Fp−p0 ,n−p > F oss ).
Il risultato può essere riassunto in una tabella nella forma
Modello
M0
M1
Differenza
4.6.2.1
g.d.l.
n − p0
n−p
1
SS
RSS0 = eT0 e0
RSS = eT e
∆ = eT0 e0 − eT e
F
Foss =
∆/(p−p0 )
RSS1 /(n−p)
valore p
P (Fp−p0 ,n−p > Foss )
Casi particolari 1: nullità di un singolo coefficiente
L’impostazione in termini di confronto tra modelli applicata a un singolo coefficiente si pone come
alternativa alla procedura basata sulla quantità pivotale illustrata nella sezione 6.1, il risultato è
comunque il medesimo. Si consideri allora il sistema d’ipotesi
(
H0 : βp = 0
H1 : βp 6= 0
dove si suppone senza perdita di generalità che il parametro d’interesse sia il coefficiente del p-mo
regressore (questo sistema d’ipotesi è di particolare interesse in quanto l’ipotesi nulla corrisponde
al caso particolare di non associazione di xp con la variabile risposta).
Poniamo allora p0 = p − 1, sicché il vettore β è scomposto in una componente β0 di p − 1 elementi
e una componente scalare β1 = βp , la verifica dell’ipotesi H0 : βp = 0 si basa sulla quantità
F =
σ̃ 2 −σ̂ 2
p−p0
σ̂ 2
n−p
=
σ̃ 2 − σ̂ 2
σ̂ 2
n−p
H0
∼ F1,n−p .
che è pari a t2p dove tp è la quantità definita in (4.15) (la dimostrazione, non ovvia, è omessa).
4.6.2.2
Casi particolari 2: verifica del modello nel complesso
Verificare il modello nel complesso significa che il modello ridotto è quello che comprende la sola
intercetta, quindi p0 = 1 e
H0 : β2 = . . . = βp = 0
e β ha componenti β0 = β1 e β1 = (β2 , . . . , βp )T
Il modello ridotto è quello in cui si ha identica distribuzione
Yi ∼ N β1 , σ 2 .
Più in dettaglio, i due modelli messi a confronto sono
4. Modello di regressione multipla
71
Modello completo (M1 )
IND
Yi ∼ N
P
p
j=1
βj xij , σ 2
Modello ridotto (M0 )
IND
Yi ∼ N β 1 , σ 2
θ = (β1 , . . . , βp , σ 2 ) ∈ Θ = Rp ×]0, +∞[
θ0 = (β1 , σ 2 ) ∈ Θ0 = R×]0, +∞[
p(y; θ) =
p0 (y; θ0 ) =
n
o
Pn
Pp
2
(2πσ 2 )−n/2 exp − 2σ1 2
i=1 (yi −
j=1 βj xij )
n
o
Pn
2
(2πσ 2 )−n/2 exp − 2σ1 2
i=1 (yi − β1 )
l(y; θ) = − n
log σ 2 −
2
1
2σ 2
Pn
i=1 (yi
−
Pp
j=1
βj xij )2
l0 (y; θ0 ) = − n
log σ 2 −
2
1
2σ 2
Pn
i=1 (yi
− β1 )2
e quindi si ha
n
1X
σ̃ =
(yi − ȳ)2
n
2
i=1
e la statistica F
F =
σ̃ 2 −σ̂ 2
p−p0
σ̂ 2
n−p
=
n − p σ̃ 2 − σ̂ 2 H0
∼ Fp−1,n−p .
p − 1 σ̂ 2
Notiamo che
σ̃ 2 − σ̂ 2
σ̃ 2
=
−1=
σ̂ 2
σ̂ 2
Pn
(y − ȳ)2
1
R2
i=1
Pn i 2
−1=
−
1
=
1 − R2
1 − R2
i=1 ei
e quindi F può essere scritta
F =
4.6.2.3
R2 n − p
.
1 − R2 p − 1
Altri sistemi di ipotesi
Possono essere poi di interesse sistemi di ipotesi che non rientrano nello schema visto.
La più semplice generalizzazione riguarda un sistema d’ipotesi del tipo
(
(0)
(0)
(0)
H0 : βp0 +1 = βp0 +1 ; βp0 +2 = βp0 +2 ; . . . ; βp = βp ; ,
(0)
H1 : ∃r ∈ {p0 + 1, . . . , p} t.c. βr 6= βr .
Questi tuttavia si possono ricondurre al caso di ipotesi sulla nullità di coefficienti considerando
il modello con variabile risposta
(0)
(0)
yi0 = yi − βp0 +1 xi,p0 +1 − βp0 +2 xi,p0 +2 − . . . − βp(0) xi,p
e esplicative tutte le xj ,
Yi0 = β10 xi1 + . . . + βp0 xip + εi ,
l’ipotesi H0 sopra è allora
H00 : βp0 0 +1 = . . . = βp0 = 0
(0)
si ha infatti, in pratica, una riparametrizzazione dove βi0 = βi se i < p0 e βi0 = βi − βi
i = p0 + 1, . . . , p.
per
72
4.6. Inferenza sul modello
4.6.3
Verifica d’ipotesi su un gruppo di coefficienti, caso generale
Nella sezione precedente si è considerata la verifica d’ipotesi per la nullità di un gruppo di
coefficienti e le generalizzazioni immediate, sostanzialmente limitate ai sistemi illustrati nella
sezione 6.2.3.
In tale casistica non rientrano, ad esempio ipotesi del tipo
H0 : β2 = β3 = β4
H0 : β2 = 2β3 , β1 = 5
Consideriamo allora un ulteriore generalizzazione, valida per sistemi d’ipotesi che possono essere
ricondotti alla forma
H0 : Hβ = c; H1 : Hβ 6= c
(4.18)
con H matrice q × p di rango q (≤ p) (questa ipotesi non è restrittiva, se il rango è minore il
sistema di vincoli può essere ridotto) e c ∈ Rq7 .
Il problema può essere affrontato in modo analogo a quanto fatto sopra, stimando cioè due modelli
annidati e confrontando l’adattamento. In particolare si confronta il modello completo
Y = Xβ + ε, ε ∼ N 0, σ 2 I
e il modello ridotto (M0 ) definito da
Y = Xβ + ε c.v.Hβ = 0; ε ∼ N 0, σ 2 I
Conviene leggere il secondo in termini geometrici, definiamo il sottospazio di Rn
V0 = {Xβ t.c. β ∈ Rp ∩ Hβ = 0}
che ha dimensione p − q (in quanto, dato il vincolo, q delle p variabili xi sono esprimibili come
combinazione lineare delle altre p − q).
Detto β̃ lo stimatore di β con il vincolo, cioè la soluzione di
min (y − Xβ)T (y − Xβ) c.v. Hβ = 0
β∈Rp
(4.19)
il vettore ỹ = X β̃ è tale che ỹ ∈ V0 ed è l’elemento di V0 a minima distanza da y.
La soluzione del problema di minimo vincolato (4.19) si ottiene col metodo dei moltiplicatori di
Lagrange, si ha la funzione
g(β, α) = (y − Xβ)T (y − Xβ) + 2(Hβ)T α
= yT y − 2β T X T y + β T X T Xβ + 2(Hβ)T α
7
Ad esempio per i due sistemi sopra si ha
−1
1
1
β2 = β3 = β4 ⇔
0
e
1
β2 = 2β3 , β1 = 5 ⇔
0
0
1
0
0
β=
−1
0
0
5
β=
−2
0
4. Modello di regressione multipla
73
e quindi, derivando, il sistema
0 = −2X T y + 2X T Xβ + 2H T α
0 = Hβ
si ricava, dalla prima equazione,
β = (X T X)−1 (X T y − H T α) = β̂ − (X T X)−1 H T α
moltiplicando ambo i membri per H si ottiene l’equazione
0 = H β̂ − H(X T X)−1 H T α
da cui α = (H(X T X)−1 H T )−1 H β̂ = KH β̂, dove si è posto K = (H(X T X)−1 H T )−1 , e quindi
la soluzione per β è
β̃ = β̂ − (X T X)−1 H T KH β̂.
Con questo, possiamo ottenere l’espressione per ỹ,
ỹ = X β̃
= X β̂ − X(X T X)−1 H T KH β̂
= ŷ − X(X T X)−1 H T KH(X T X)−1 X T y
= (P − PH )y
dove si è posto PH = X(X T X)−1 H T KH(X T X)−1 X T . La matrice P0 = (P − PH ) è quindi la
matrice di proiezione da Rn a V0 .
Si ha infine
1
1
σ̃ 2 = (y − ỹ)T (y − ỹ) = ||(I − P0 )y||
n
n
Si noti poi che
a. y − ỹ ⊥ V0
Un elemento v ∈ V0 è esprimibile come v = Xβv per qualche βv tale che Hβv = 0, si ha
allora
(y − ỹ)T v = (y − ỹ)T Xβv
= (y − ŷ + PH y)T Xβv
= (y − ŷ)T Xβv + yT PH Xβv
dove (y− ŷ)T Xβv = 0 in quanto Xβv ∈ V e y− ŷ ⊥ V, e PH Xβv = X(X T X)−1 H T KHβ =
0.
b. PH y = y − ỹ ⊥ ỹ
Si ha
(PH y)T ((P − PH )y) = yT PH P y − yT PH y = 0
poiché PH P = PH .
74
4.6. Inferenza sul modello
Di conseguenza, possiamo scrivere che
y = ỹ + (ŷ − ỹ) + (y − ŷ)
dove i tre addendi a destra sono tra loro ortogonali.
Tornando dunque al sistema d’ipotesi (4.18), consideriamo il TRV
λ=
L(β̃, σ̃ 2 )
L(β̂, σ̂ 2 )
=
σ̃ 2
σ̂ 2
−n/2
di cui λ∗ è una trasformazione monotona
σ̃ 2 − σ̂ 2
||ŷ − ỹ||2
||(P − P0 )y||2
yT (P − P0 )y
=
=
= T
2
2
2
σ̂
||y − ŷ||
||(I − P )y||
y (I − P )y
Se notiamo che σ12 y ∼ N µ/σ 2 , I e che le tre matrici P0 , P − P0 , I − P , sono di rango
rispettivamente p − q, q e n − p e hanno come somma la matrice identica, in base al teorema di
Fisher-Cochran si ha
1 T
y (P − P0 )y ∼ χ2q µT (P − P0 )µ/σ 2
2
σ
1 T
y (I − P )y ∼ χ2q µT (I − P )µ/σ 2
2
σ
e che i due sono indipendenti, inoltre se è vera H0 si ha µ = Xβ = 0 con Hβ = 0. si ha allora
λ∗ =
µT (P − P0 )µ = µT PH µ
= µT X(X T X)−1 H T KH(X T X)−1 X T µ
= β T X T X(X T X)−1 H T KH(X T X)−1 X T Xβ = 0
(per altra via, essendo µ ∈ V0 si ha P µ = P0 µ).
D’altra parte,
µT (I − P )µ = β T X T Xβ − β T X T X(X T X)−1 X T Xβ = 0
quindi nell’ipotesi nulla si ha
∗n
λ
4.6.4
−p
=
q
σ̃ 2 −σ̂ 2
H0
q
∼
σ̂ 2
n−p
Fq,n−p .
Interpretazione geometrica del confronto tra modelli
Il problema del confronto tra modelli si presta anch’esso all’interpretazione geometrica. Nella
figura 4.6 si sono rappresentati il vettore delle osservazioni y, un sottospazio V (un piano) e un
sottospazio V0 contenuto in V (una retta). Il sottospazio V è associato al modello completo,
mentre il sottospazio V0 è associato al modello ridotto (questo è annidato e quindi V0 ⊂ V).
Il vettore ŷ rappresenta la proiezione di y su V, mentre ŷ0 ne è la proiezione su V0 (risulta
allora trasparente che, se ŷ è il vettore di V a minima distanza da y, ŷ0 è più distante, e cioè
e0 è più lungo di e). Il vettore d è pari a ŷ0 − ŷ e anche a e0 − e (ne discende tra l’altro che
||ŷ0 − ŷ|| = ||e0 − e||). Si noti anche che
||d|| = eT0 e0 − eT e
4. Modello di regressione multipla
75
y
y
4
e
e0
e
d
x2
1
^
y
3.0
2.5
V0
2
3
V0
V
2
3
e0
V
2.0
^
y0
1.5
^
y
1.0
^
y0
0.5
0
x1
0.0
0.5
1.0
1.5
0.0
2.0
2.5
3.0
1
Figura 4.6: Interpretazione geometrica del confronto tra modelli, a sinistra il caso generale, a
destra, a titolo di esempio, il caso y = (1.5, 2, 4) (vedi figura 4.5)
Questa è una conseguenza del teorema di Pitagora poiché e è ortogonale a d, infatti d = ŷ −
ŷ0 ∈ V e il vettore dei residui è ortogonale allo spazio V. La stessa cosa può essere dimostrata
direttamente notando che
(e0 − e)T (e0 − e) = eT0 (e0 − e) − eT (e0 − e) = eT0 (e0 − e) − eT (ŷ0 − ŷ) = eT0 (e0 − e)
per l’ortogonalità già citata, e si ha poi
eT0 (e0 − e) = eT0 e0 − eT0 e
ma eT0 e = (y − ŷ0 )T e = (y − e + e − ŷ)T e = (ŷ − e)T e + eT e − ŷT e = eT e poiché y − e ∈ V e
ŷ ∈ V.
È interessante notare che, essendo eT0 e0 − eT e = ||ŷ0 − ŷ|| possiamo anche affermare che si rifiuta
il modello nullo quando la differenza tra le previsioni ottenute con i due modelli è relativamente
grande. Se in particolare si considera il rapporto ||ŷ0 − ŷ||/||e|| si noti che questo è in relazione
con l’angolo formato da e e e0 . (ŷ0 è anche la proiezione di ŷ su V0 , quindi l’angolo tra d e ŷ0 è
retto.)
Nella parte destra della figura 4.6 si rappresenta l’esempio già illustrato nella figura 4.5: y =
(1.5, 2, 4), il confronto è tra il modello associato allo spazio V generato da x1 = (2, 0.5, 0) e
x2 = (0.5, 2.5, 0): V = {(u1 , u2 , 0) : u1 , u2 ∈ R}; e il modello associato a V0 = {(u, u, 0) : u ∈ R},
cioè la retta rappresentata in figura (sottospazio di V), si ha quindi ŷ0 = ((y1 + y2 )/2, (y1 +
y2 )/2, 0) = (1.75, 1.75, 0) e e0 = (−0.25, 0.25, 4). Il vettore differenza vale d = (y1 − (y1 +
y2 )/2, y2 − (y1 + y2 )/2, 0) = (−0.25, 0.25, 0).
4.6.5
Costruzione di regioni di confidenza
Il log-rapporto di verosimiglianza (4.16) può essere adoperato per costruire una regione di confidenza per un gruppo di coefficienti, ragioniamo nel seguito costruendo la regione per l’intera
76
4.6. Inferenza sul modello
p-pla di coefficienti. Consideriamo, per un generico β0 , il sistema d’ipotesi
H0 : β = β0 , H1 : β 6= β0 ,
il rapporto di verosimiglianza per verificare H0 è
Wp (β0 ) = 2(l(β̂, σ̂ 2 ) − l(β0 , σ̂β2 0 ))
dove σ̂β2 0 è il punto di massimo della verosimiglianza per β fissato pari a β0 ; si conferma facilmente
che è
1
σ̂β2 0 = argmax l(β0 , σ 2 ) = ||y − Xβ0 ||2
n
σ2
essendo poi
n
n
l(β0 , σ̂β2 0 ) = max l(β0 , σ 2 ) = − log σ̂β2 0 − ,
2
2
2
σ
si ha
Wp (β0 ) = n log
σ̂β2 0
.
σ̂ 2
Si rifiuta l’ipotesi nulla al livello α se Wp (β0 ) > kα , dato un campione, un intervallo di confidenza
di livello 1 − α è l’insieme dei valori β0 per i quali l’ipotesi è accettata con quel particolare
campione, quindi
{β0 ∈ Rp : Wp (β0 ) ≤ cα }
con cα tale che PH0 (Wp (β0 ) ≤ cα ) = 1 − α.
Similmente a quanto fatto per la verifica d’ipotesi notiamo che Wp (β0 ) è funzione monotona
crescente di
2
2
F (β0 ) =
2 −σ̂ 2
σ̂β
0
p
σ̂ 2
n−p
n(σ̂β −σ̂ )
0
=
σ 2 (p)
nσ̂ 2
σ 2 (n−p)
,
che, come visto nella (4.17) (dove in questo caso p0 = 0), è distribuito secondo una Fp,n−p , si ha
allora la regione di confidenza
{β0 ∈ Rp : F (β0 ) ≤ Fp,n−p;1−α }
È interessante riscrivere F (β0 ), si ha
nσ̂β2 0 − nσ̂ 2 = (y − Xβ0 )T (y − Xβ0 ) − (y − X β̂)T (y − X β̂)
= β0T X T Xβ0 − 2β0T X T y + β̂ T X T X β̂ + 2β̂ T X T y
= β0T X T Xβ0 − 2β0T X T X β̂ + β̂ T X T X β̂
= (β0 − β̂)T X T X(β0 − β̂)
e quindi
F (β0 ) =
(β0 − β̂)T X T X(β0 − β̂)/(np)
σ̂ 2 /(n − p)
e la regione di confidenza è
n
o
β0 ∈ Rp : (β0 − β̂)T X T X(β0 − β̂) ≤ Fp,n−p;1−α nσ̂ 2 p/(n − p)
4. Modello di regressione multipla
77
la cui forma è un ellissoide in Rp .
Esempio 4.1 Regressione lineare semplice: sviluppo matriciale. Il modello di regressione semplice (2.23) è, in notazione matriciale,

  
 
1 x1
Y1
ε1
 Y2  1 x2 
 .. 
 β1
  
+ . 
 ..  =  .. .. 
 .   . .  β2
εn
1 xn
Yn
quindi


1 x1

Pn
 xi
n
1 . . . 1 1 x2 
T
i=1
P
P
X X=
=

n
n
2
x1 . . . xn  ... ... 
i=1 xi
i=1 xi
1 xn
P
P
P
che ha determinante |X T X| = n ni=1 x2i − ( ni=1 xi )2 = n ni=1 x2i − n2 x̄2 (non nullo se e solo
se le xi sono non tutte uguali), allora
#
" Pni=1 x2i
Pn
Pn
2
Pn x̄
Pn
−
1
x
x
−
2
2
i
T
−1
i
n
(x
−x̄)
(x
−x̄)
i=1
i=1
P
i=1 i
i=1 i
(X X) = Pn
=
n
x̄
Pn 1
n
n i=1 x2i − n2 x̄2 − i=1 xi
− Pn (x
2
−x̄)
(xi −x̄)2
i
i=1
i=1
Si ha poi

XT y =
1
x1

y1
  Pn
. . . 1  y2 
i=1 yi
P
=
 
n
. . . xn  ... 
i=1 xi yi
yn
e quindi
1
β̂ = Pn
2
i=1 (xi − x̄)
Pn
2
i=1 xi /n
−x̄
−x̄
1
Pn
P
1
x̄ ni=1 xi yi
nȳ i=1 x2i −
P
Pnnȳ
.
= Pn
2
−nx̄ȳ + ni=1 xi yi
i=1 xi yi
i=1 (xi − x̄)
Si osservi che, se x̄ = 0, la matrice X T X è nulla sulla diagonale secondaria, il che semplifica i
successivi calcoli.
Si noti infine che, se consideriamo il modello
con la sola intercetta si ha X =P
1Tn e X T X = n,
P
n
1
(X X )−1 = 1/n e d’altra parte X T y = i=1 yi quindi β̂1 = (X T X)−1 X T y = n ni=1 yi = ȳ. •
Esempio 4.2 (continua) dati sui ciliegi. Sviluppiamo i calcoli matriciali per il modello
yi = β1 + β2 xi2 + β3 xi3 + εi
(4.20)
nel caso dei ciliegi neri (esempio 3), con i dati trasformati nei logaritmi, si costruisce allora la
matrice X con 31 righe e 3 colonne che è riportata nella tabella 6.5 (colonne 2, 3 e 4).
Per la stima dei coefficienti (equazione (4.6)) calcoliamo






31.0 79.3 134.1
96.572
3.139 −24.165
101.455
0.849
−1.227  , X T y = 263.056 ,
X T X =  79.3 204.4 343.4 , (X T X)−1 =  3.139
134.1 343.4 580.7
−24.165 −1.227
6.310
439.896
78
4.6. Inferenza sul modello
e quindi


 

96.572
3.139 −24.165 101.455
−6.632
0.849
−1.227  263.056 =  1.983  .
β̂ = (X T X)−1 X T y =  3.139
−24.165 −1.227
6.310
439.896
1.117
Il modello stimato è quindi
yi = −6.63162 + 1.98265xi2 + 1.11712xi3 + ei ,
che vuol dire, in termini delle variabili originali
(volume)i = exp(yi ) = e−6.63162 (diametro)i1.98265 (altezza)i1.11712 ei
= 0.00132(diametro)i1.98265 (altezza)i1.11712 ei .
Valori teorici e residui sono riportati nella tabella 6.5, sulla base di questi possiamo ottenere le
T
1
= 0.00598., mentre lo stimatore
stime di σ 2 : la stima di massima veorimiglianza è σ̂ 2 = e n e = 31
n
31
2
2
corretto vale s = n−p σ̂ = 28 0.00598 = 0.00662.
Per calcolare le quantità definite in (4.15) ai fini dell’inferenza serve la stima della matrice di
varianza e covarianza di β̂, che è data da


0.640
0.021 −0.160
0.006 −0.008 .
V̂ (β̂) = s2 (X T X)−1 =  0.021
−0.160 −0.008 0.042
Dagli elementi diagonali della matrice V̂ (β̂) si ricavano gli errori standard degli stimatori dei
coefficienti
q
q
√
V̂ (β̂1 ) =
s2 [(X T X)−1 ]11 = 0.639664 = 0.79979,
q
q
e analogamente V̂ (β̂2 ) = 0.075011 e V̂ (β̂3 ) = 0.204437.
Consideriamo dapprima la costruzione di intervalli di confidenza per
q i coefficienti. Gli estremi di
un intervallo con livello 1 − α per βr sono dati da β̂r ± tn−p,1− α2 V̂ (β̂r ). Otteniamo allora gli
intervalli al livello del 95%, posto α = 0.05 si ha tn−p,1− α2 = t31−3,0.975 = 2.048 e quindi l’intervallo
per β1 ha estremi −6.631617±2.048×0.79979 ed è dunque [−8.269912, −4.993322]. Analogamente
si ottiene per β2 l’intervallo [1.828998, 2.136302] e per β3 l’intervallo [0.698353, 1.535894].
Consideriamo poi il sistema d’ipotesi H0 : β2 = 0 contro H1 : β2 6= 0 e calcoliamo
β̂2 − 0
1.98265
= −10.7924
t2 = q
=
0.075011
V̂ (β̂2 )
Il confronto con una tn−p porta a rifiutare l’ipotesi nulla (con un valore p praticamente nullo).
Può essere interessante verificare l’ipotesi H0 : β2 = 2 contro H1 : β2 6= 2, si calcola allora
oss = 2 min{P (t
√β̂2 −2 = −0.01735
n−p ≤
0.075011 = −0.2313 e si confronta con una tn−p . Il valore p è α
V̂ (β̂2 )
−0.2313), P (tn−p ≥ −0.2313)} = 2 min{0.4094, 0.5906} = 0.8188.
La verifica dell’ipotesi
H0 : β2 = β3 = 0
4. Modello di regressione multipla
●
●
●
●
●
−1
●
●
●
●
●
2.2
2.4
●
2.6
●
2.8
3.0
●
●
●
●
●
●
●
●●●
●
●
●
●
4.15 4.20 4.25 4.30 4.35 4.40 4.45
●
●
●
●
●
●
●
●
2.5
●
3.0
3.5
4.0
y^
x3
x2
●●
●
●
−2
−2
●
●
●
●
−1
●●●
●
●
●
●
●
0
0
r
●
● ●
r
0
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
r
●
●
●
●●
1
●
●●
●
1
1
● ●
●
●
●
●●
−1
●
−2
●
79
Figura 4.7: Diagrammi di dispersione per i residui dell’esempio relativo agli alberi di ciliegio
richiede di confrontare il modello (4.20) col modello ridotto
yi = β10 + εi
(4.21)
la stima dei parametri per il modello ridotto è β̂10 = ȳ = 3.273, s20 = var(y) = 0.277 (quindi
RSS0 = 8.309).
Per il modello completo le stime sono date nelle sezioni precedenti, si ha RSS = 0.1855, si ha
dunque, essendo p0 = 1 e p = 3, la statistica F
F =
RSS0 −RSS
p−p0
RSS
n−p
=
8.309−0.1855
3−1
0.1855
31−3
= 613.09
da confrontare con una Fp−p0 ,n−p = F2,28 , il valore p è praticamente nullo. Notiamo che si ha
n−p R2
31−3 0.9777
R2 = 0.9777 e che quindi si poteva ottenere F anche come F = p−p
2 = 3−1 1−0.9777 = 613.8.
0 1−R
Infine, consideriamo un’ipotesi puntuale, ma non di nullità, su un gruppo di coefficienti, ad
esempio
H0 : β2 = 2, β3 = 1,
(4.22)
questo problema può essere affrontato definendo la variabile
yi0 = yi − 2xi2 + xi3
e confrontando i modelli
yi0 = β10 + β20 xi2 + β30 xi3 + εi
yi0 = β100 + εi
con la metodologia illustrata nella sezione precedente, ne risulta in questo caso una statistica F
pari a 0.17 che porta ad accettare l’ipotesi nulla β 0 2 = β30 = 0 e quindi l’ipotesi (4.22).
L’analisi dei residui procede in maniera non diversa da quanto illustrato per la regressione semplice. In primis si considerano in figura 4.7 i diagrammi di dispersione dei residui contro le
variabili esplicative. Dai grafici non ci sono ragioni di dubitare della normalità e anche l’ipotesi
di omoschedasticità risulta accettabile. Per la verifica della normalità disegniamo (figura 4.8)
il grafico dei quantili e il diagramma a scatola e baffi degli stessi. Calcoliamo anche il test di
Shapiro-Wilks, il cui valore è 0.9606 con valore p pari a 0.3022. •
Esempio 4.3 Calcoli matriciali. Consideriamo un insieme di dati di dimensione ridotta
80
4.6. Inferenza sul modello
●
●
●
1
1
● ● ● ●
●
●
●
●
●●
●
0
0
●
●●
●●
●●●
●
●
●
●
●
−1
−1
Quantili empirici
●
−2
−2
●
●
●
−2
−1
0
1
2
Quantili teorici
Figura 4.8: Grafico dei quantili e diagramma a scatola e baffi per i residui relativi all’esempio
sugli alberi di ciliegio
i
xi1
X
xi2
xi3
y
ŷ = X β̂
e = y − ŷ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2.12
2.15
2.17
2.35
2.37
2.38
2.40
2.40
2.41
2.42
2.42
2.43
2.43
2.46
2.48
2.56
2.56
2.59
2.62
2.62
2.64
2.65
2.67
2.77
2.79
2.85
2.86
2.88
2.89
2.89
3.03
4.25
4.17
4.14
4.28
4.39
4.42
4.19
4.32
4.38
4.32
4.37
4.33
4.33
4.23
4.32
4.30
4.44
4.45
4.26
4.16
4.36
4.38
4.30
4.28
4.34
4.39
4.41
4.38
4.38
4.38
4.47
2.33214
2.33214
2.32239
2.79728
2.93386
2.98062
2.74727
2.90142
3.11795
2.99072
3.18635
3.04452
3.06339
3.05871
2.94969
3.10009
3.52046
3.31054
3.24649
3.21487
3.54096
3.45632
3.59182
3.64545
3.75185
4.01458
4.01998
4.06560
3.94158
3.93183
4.34381
2.31027
2.29788
2.30855
2.80790
2.97689
3.02258
2.80293
2.94574
3.03578
2.98146
3.05713
3.03135
3.03135
2.97491
3.11825
3.24664
3.40146
3.47507
3.31970
3.21817
3.46769
3.52410
3.47845
3.64302
3.75485
3.92948
3.96597
3.98320
3.99424
3.99424
4.35545
0.02187
0.03426
0.01384
-0.01062
-0.04303
-0.04196
-0.05566
-0.04431
0.08217
0.00926
0.12922
0.01317
0.03204
0.08380
-0.16856
-0.14655
0.11900
-0.16453
-0.07321
-0.00330
0.07327
-0.06778
0.11336
0.00243
-0.00300
0.08510
0.05401
0.08241
-0.05266
-0.06242
-0.01164
Tabella 4.2: Dati e elaborazioni per la regressione multipla sui ciliegi.
4. Modello di regressione multipla
81
i
1
2
3
4
5
yi
-5
3
22
0
6
xi2
1
0
5
4
4
xi3
-1
-2
-4
-4
-0
Interessa stimare il modello
yi = β1 + β2 xi2 + β3 xi3 + εi
per i = 1, . . . , 5 e con ε ∼ N (0, σ 2 I). Si hanno tre variabili esplicative, di cui una è l’intercetta,
quindi p = 3.
Si costruisce allora la matrice X le cui colonne sono i vettori delle variabili esplicative a cui è
aggiunto il vettore costante pari a 1


1 1 −1
1 0 −2



X=
1 5 −4
1 4 −4
1 4 −0
la matrice ha dunque 5 righe e 3 colonne (essa è anche di rango 3, lo si provi ad esempio
triangolarizzandola). Il modello in forma matriciale è perciò


1 1 −1    
 
1 0 −2 β1
y1
ε1


y2  = 1 5 −4 β2  + ε2  .


1 4 −4 β3
y3
ε3
1 4 −0
La stima dei coefficienti si ottiene applicando la formula β̂ = (X T X)−1 X T y



 1 1 −1

1
1
1
1
1 
1 0 −2
5
14


T





0
5
4
4 1 5 −4 = 14
58
X X= 1
−1 −2 −4 −4 −0 1 4 −4
−11 −37
1 4 −0
dove

−11
−37
37
e quindi

(X T X)−1

0.769 −0.110 0.119
= −0.110 0.063 0.031
0.119
0.031 0.093
e infine, dalla formula β̂ = (X T X)−1 X T y,
 

 −5



0.769 −0.110 0.119
1
1
1
1
1 
−4.745
3
 

0
5
4
4 
β̂ = −0.110 0.063 0.031  1
 22  = 2.583 .


0.119
0.031 0.093 −1 −2 −4 −4 −0
0
−1.233
6

82
4.6. Inferenza sul modello
Il modello stimato è quindi
yi = −4.74481 + 2.58259xi2 + −1.23343xi3 + ei .
per i = 1, . . . , 5. I valori teorici sono

1
1

ŷ = X β̂ = 
1
1
1
1
0
5
4
4



−1 
−0.929

−2.278
−2
 −4.745




 
−4
 2.583 =  13.102 


−4
−1.233
10.519 
−0
5.586
e di conseguenza otteniamo i residui
  
 

−5
−0.929
−4.071
 3  −2.278  5.278 
  
 

 
 

e = y − ŷ = 
 22  −  13.102  =  8.898 
 0   10.519  −10.519
6
5.586
0.414
e possiamo ottenere le stime di σ 2 : la stima di massima veorimiglianza è


−4.071


 5.278 
1
eT e
2

−4.071 5.278 8.898 −10.519 0.414 
σ̂ =
=
 8.898  = 46.88704
n
5
−10.519
0.414
Lo stimatore corretto vale invece
s2 =
n
5
σ̂ 2 = 46.88704 = 117.2176
n−p
2
Si ha dunque la matrice di varianza e covarianza dello stimatore β̂


90.087 −12.870 13.913
7.420
3.594  .
V̂ (β̂) = s2 (X T X)−1 = −12.870
13.913
3.594
10.899
Infine, la matrice di proiezione P = X(X T X)−1 X T è data da


1 1 −1 


1 0 −2 0.769 −0.110 0.119
1
1
1
1
1



 1
0
5
4
4
P = 
1 5 −4 −0.110 0.063 0.031
1 4 −4 0.119
0.031 0.093 −1 −2 −4 −4 −0
1 4 −0


0.407
0.427 −0.071 0.006
0.231
 0.427
0.666 −0.055 0.116 −0.153


0.481
0.081 
= 
−0.071 −0.055 0.565
.
 0.006
0.116
0.481
0.460 −0.062
0.231 −0.153 0.081 −0.062 0.903
•
4. Modello di regressione multipla
83
4.7 Esercizi
Esercizio 1
Per il modello di regressione multipla
yi = β1 + β2 xi2 + β3 xi3 + εi
si è ottenuta, sulla base di 15 osservazioni, la seguente tabella dei coefficienti.
(Intercept)
x2
x3
Estimate
1.4822
-2.3750
1.2424
Std. Error
0.5142
0.8178
0.1915
t value
Pr(>|t|)
1. Si completi la tabella.
2. Si ottenga un i.c. al 95% per il coefficiente β2 .
3. Si verifichi l’ipotesi β3 = 1 al livello del 5%.
4. Si ottenga il livello di significatività osservato per l’ipotesi di cui al punto precedente.
(Risposte: 1. Le ultime due colonne della tabella sono rispettivamente (2.88, −2.90, 6.49) e
(0.0138, 0.0132, 0.000) 2. [−4.16, −0.59]; 3. si accetta; 4. 0.23)
Esercizio 2 Si completi la tabella seguente, che riporta i risultati della stima di un modello di
regressione multipla con intercetta e tre esplicative effettuata sulla base di 30 osservazioni.
(Intercept)
x2
x3
x4
Estimate
-0.3657
-1.4389
Std. Error
1.6569
0.0299
t value
Pr(>|t|)
-3.17
65.69
0.2465
0.3027
(Risposte: i valori che mancano, in ordine lessicografico, sono -0.22, 0.8270, 0.4533, 0.0038, 1.9645,
0.0000, 0.2344, 1.05)
Esercizio 3 Si consideri un modello di regressione multipla

20.000
5.770
4.160

5.770
8.976
4.708
XT X = 
 4.160
4.708
8.195
−24.520 −4.921 −12.988
Y = Xβ + ε con intercetta. Si ha

−24.520
−4.921 

−12.988
133.668
1. Quante sono le osservazioni?
2. Quante sono le variabili esplicative?
3. Qual è la media delle esplicative?
4. Qual è la varianza delle esplicative?
Si ha poi
X
X
X
X
X
yi = −11.4,
x2i yi = −5.7422,
x3i yi = 2.4683,
x4i yi = 122.1866,
e2i = 74.09666
i
i
i
i
i
5. Si scriva la tabella dei coefficienti (stima, errore standard, statistica t e valore p per l’ipotesi
di nullità del coefficiente)
84
4.7. Esercizi
6. Si trovi un i.c. al 95% per il coefficiente di x3 .
7. Si ottenga il livello di significatività osservato per l’ipotesi di nullità di tutti i coefficienti
tranne l’intercetta.
(Risposte: 1. 20; 2. 4 (con l’intercetta); 3. 0.2885, 0.2080, -1.2260; 4. 0.365, 0.366, 5.18,
(varianze campionarie non corrette); 5. stime: 1.053, -2.249, 3.171, 1.333; s.e.: 0.603, 0.938,
0.975, 0.228; val-t: 1.746, -2.397, 3.252, 5.846; val.p: 0.1, 0.029, 0.005, 1.52×10−5 ; 6. [1.816,
0.849]; 7. 0.0002412)
IND
Esercizio 4 Un modello di regressione yi = β1 + β2 xi2 + β3 xi3 + εi , εi ∼ N 0, σ 2 , i = 1, . . . , n
ha dato luogo alle seguenti previsioni
xi2
-3.62
-5.18
-5.00
xi3
2.93
2.86
0.71
ŷi
5.65
3.98
-0.44
1. Si ricavino le stime dei coefficienti.
2. Sapendo che i valori di x2 sono (−3.62, −5.18, −5, −0.71, −4.25, −1.68, 2.86, 0.25, −5.14, −6.12)
si completi il vettore dei residui (1.084, −2.3549, 0.6547, 2.8186, −0.5533, 0.9759, −1.9323, −0.2609, ?, ?).
(Risposte: 1. 2.8784, 0.9687, 2.1414; 2. -0.78, 0.35)
Capitolo 5
Modello lineare con variabili
qualitative
5.1 Test t a due campioni
Si è osservata la lunghezza in millimetri (mm) di 32 uova di cuculo, di cui 16 deposte in nidi di
pettirosso e 15 deposte in nidi di scricciolo (un fatto caratteristico del cuculo è che non costruisce
un proprio nido, ma depone le uova in nidi di altri uccelli, di modo che questi le covino insieme
alle loro. Alla nascita il piccolo di cuculo elimina le altre uova presenti nel nido, restando l’unico
ospite che verrà nutrito dall’uccello proprietario del nido).
Si vuole valutare se le uova abbiano lunghezza diversa a seconda della specie dell’uccello cui
appartiene il nido.
L’analisi grafica, in particolare il confronto dei diagrammi a scatola per i due gruppi (figura
5.1), mostra una differenza di lunghezza tra i due campioni. Il problema è stabilire se una tale
differenza tra i due campioni sia indicativa di una reale differenza tra le due popolazioni.
Indicando con yiA , i = 1, . . . , nA i dati relativi ai pettirossi (in generale, i dati relativi alla prima
popolazione) e con yiB , i = 1, . . . , nB i dati relativi agli scriccioli (alla seconda popolazione), si
adotta il modello cosı̀ specificato
(k)
1. yih indipendente da yj se i 6= j e/o h 6= k (in altre parole, y1A , . . . , ynAA , y1B , . . . , ynBB indipendenti tra loro.), si noti che l’indipendenza vale tanto all’interno dei gruppi tanto tra i
due gruppi;
2. le due popolazioni sono normali e omsochedastiche,
yiA ∼ N µA , σ 2
i = 1, . . . , nA ,
B
2
yi ∼ N µB , σ
i = 1, . . . , nB .
Si vuole dunque verificare il sistema d’ipotesi
(
H0 : µA = µB ,
H1 : µA 6= µB .
(5.1)
Per ottenere una statistica
fine si calcolano medie e varianze di gruppo, in partiP A Atest2utile a1 talP
A
colare sia ȳA = n1A ni=1
yi e sA = nA −1 ni=1
(yiA − ȳ A )2 , analogamente si definiscano ȳB e s2B .
Accanto a queste si calcola la varianza congiunta
1
s2p =
(nA − 1)s2A + (nB − 1)s2B .
(5.2)
nA + nB − 2
5.1. Test t a due campioni
23
22
21
Scricciolo (yiB )
19.85
20.05
20.25
20.85
20.85
20.85
21.05
21.05
21.05
21.25
21.45
22.05
22.05
22.05
22.25
20
Pettirosso (yiA )
21.05
21.85
22.05
22.05
22.05
22.25
22.45
22.45
22.65
23.05
23.05
23.05
23.05
23.05
23.25
23.85
24
86
Pettirosso
Scricciolo
Figura 5.1: Lunghezze delle uova di cuculo deposte in nidi di pettirosso e scricciolo
Il test di omogeneità delle medie è quindi basato sulla statistica
T =
ȳ − ȳB
qA
,
sp n1A + n1B
(5.3)
che, nell’ipotesi nulla, è distribuita secondo una tnA +nB −2 . La regione di rifiuto di livello α è
|T | > tnA +nB −2,1−α/2 e il livello di significatività osservato è αoss = 2(1 − Ft,nA +nB −2 (|T oss |)).
Relativamente ai dati sui cuculi si ha nA = 16, nB = 15, le medie sono pari a ȳA = 22.575 e
ȳB = 21.13. Le uova deposte in nidi di pettirosso sono mediamente più lunghe, nella misura di
1.445mm, di quelle deposte in nidi di scricciolo.
Le varianze sono, rispettivamente, s2A = 0.46867 e s2B = 0.55314, sufficientemente simili, data
anche la scarsa numerosità campionaria, per accettare l’ipotesi di omoschedasticità (e in effetti il
valore p del test di Bartlett, che qui è totalmente appropriato e non richiede scelte arbitrarie dato
che i dati sono naturalmente divisi in gruppi, è 0.7564). Queste stime di gruppo danno luogo alla
stima congiunta s2p = 0.50945 e si ha quindi sp = 0.71376. Si ottiene dunque la statistica
toss =
22.575 − 21.13
1.445
q
√
=
= 15.673
1
1
0.71376 0.12917
0.71376 16
+ 15
e il corrispondente valore p pari a αoss = 2P (T29 > 15.673) ≈ 10−15 . Si deve quindi concludere
che la lunghezza delle uova deposte in nidi di pettirosso è effettivamente diversa, in media, da
quella delle uova deposte in nidi di scricciolo.
Si è considerata un’ipotesi bilaterale, quindi la conclusione riguarda solo la diversità, se si fosse
considerata un’ipotesi unilaterale, ad esempio se, essendo noto che le uova di pettirosso sono più
lunghe di quelle di scricciolo, ci si fosse posti il problema di stabilire se le uova di cuculo, quando
deposte in nidi di pettirosso, siano più lunghe che non quando deposte in nidi di scricciolo, il
sistema d’ipotesi adatto sarebbe stato
(
H0 : µA ≤ µB ,
H1 : µA > µB .
(5.4)
5. Modello lineare con variabili qualitative
87
i
Lunghezza (Yi )
Ospite
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
21.05
21.85
22.05
22.05
22.05
22.25
22.45
22.45
22.65
23.05
23.05
23.05
23.05
23.05
23.25
23.85
19.85
20.05
20.25
20.85
20.85
20.85
21.05
21.05
21.05
21.25
21.45
22.05
22.05
22.05
22.25
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Pettirosso
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
Scricciolo
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Tabella 5.1: Osservazioni in forma matriciale, in particolare la seconda e la quarta colonna sono,
nel caso particolare dei cuculi, i vettori in (5.5)
−1
(1−
La statistica test (5.3) è ancora appropriata, ma la regione di rifiuto di livello α è T > Ft,n
A +nB −2
oss
oss
α) e Il livello di significatività osservato è α = 1 − Ft,nA +nB −2 (T ). Con i dati sui cuculi si
ottiene il valore p αoss = P (T29 > 15.673) = 5.55112e − 16.
5.1.1
Test t in forma di regressione
Riscriviamo i dati in un formato adatto per definire un modello di regressione, sia allora
yT
xT
= ( y1A , . . . , ynAA
= ( 0 , ... , 0
, y1B , . . . , ynBB
, 1 , ... , 1
),
),
(5.5)
dove y ∈ RnA +nB , e x ∈ {0, 1}nA +nB è una variabile indicatrice (o muta o dummy) i due vettori
per il caso dei cuculi sono rappresentati per intero nella tabella 5.1.
Si definisce allora il modello di regressione semplice
Yi = β1 + β2 xi + εi i = 1, . . . n,
IND
con εi ∼ N 0, σ 2 e dove n = nA + nB .
Questo modello, come si osserva banalmente riscrivendolo nella forma
(
Yi ∼ N β1 , σ 2
i = 1, . . . , nA ,
2
Yi ∼ N β1 + β2 , σ
i = nA + 1, . . . , n,
(5.6)
(5.7)
è una riparametrizzazione del modello definito nella sezione 1, dove µA = β1 e µB = β1 + β2 .
Lo stimatore dei minimi quadrati per β1 , β2 si rintraccia banalmente ricordando che esso è anche
88
5.1. Test t a due campioni
N(µ1 = β1 + β2,σ2)
●
N(µ0 = β1,σ
2
µ1
^ ^
^
µ1=y1=β0 + β1
)
y = β1 + β2x
^ ^
y = β1 + β2x
●
●
●
●
●
●
●
●
^
^ =y0=β
µ
0
0
µ0
●
●
●
0
1
Figura 5.2: Rappresentazione degli stimatori e del modello secondo le diverse parametrizzazioni,
(µA , µB , σ 2 ) come nella sezione 1 e (β1 , β2 , σ 2 ) come in (5.6)
stimatore di massima verosimiglianza, allora, in virtù dell’equivarianza degli stimatori di massima
verosimiglianza si ha
β̂1 = µ̂A , β̂2 = µ̂B − µ̂A ,
(5.8)
dove µ̂A e µ̂B sono gli stimatori
di massima verosimiglianza
della media di una normale, pari alle
1 PnA A
1 PnB B
medie aritmetiche ȳA = nA i=1 yi e ȳB = nB i=1 yi . Si hanno quindi gli stimatori1
β̂1 = ȳA , β̂2 = ȳB − ȳA .
(5.9)
Il modello è rappresentato nella figura 5.2. Naturalmente, la retta non ha un significato al di là
dei punti x = 0 e x = 1 (l’aver stimato il modello in forma di modello lineare non autorizza a
calcolare la media di Y per x = 0.5, perché questo valore non ha senso, la retta di regressione è
solo una rappresentazione).
1
Alla stessa soluzione si perviene, ovviamente, usando le consuete formule ((2.12) e (2.11)), essendo
n
X
x2i =
i=1
n
X
i=1
xi = nB ,
n
X
xi yi = nB ȳB ,
i=1
e si ha anche nȳ = nA ȳA + nB ȳB , quindi
Pn
P
nB ȳB − n1 (nA ȳA + nB ȳB )nB
xi yi − ȳ n
xi
nȳB − nA ȳA − nB ȳB
i=1
Pni=1
β̂2 = Pn
=
=
= ȳB − ȳA ,
2
2
n
−
n
/n
n − nB
x
−
x̄
x
B
B
i=1 i
i=1 i
β̂1 = ȳ − β̂2 x̄ =
1
nB
(nA ȳA + nB ȳB ) − (ȳB − ȳA )
= ȳA .
n
n
5. Modello lineare con variabili qualitative
89
Lo stimatore corretto della varianza, s2 , coincide con s2p definito in (5.2), si ha infatti
n
1 X
(yi − β̂1 − β̂2 xi )2
n−2
i=1


nA
n
X
X
1
 (yi − β̂1 )2 +
=
(yi − β̂1 − β̂2 )2 
nA + nB − 2
i=1
i=nA +1


nA
n
X
X
1
 (yi − ȳA )2 +
=
(yi − ȳB )2 
nA + nB − 2
s2 =
i=1
=
i=nA +1
1
(nA − 1)s2A + (nB − 1)s2B = s2p .
nA + nB − 2
Inoltre, il sistema d’ipotesi
(
H0 : β2 = 0,
H1 : β2 6= 0,
(5.10)
coincide con (5.1) e il consueto test t per la nullità del coefficiente angolare, β2 , coincide con il
test descritto nella sezione 1 e basato sulla statistica T in (5.3). Infatti si ha
β̂2
β̂2
= q
= T,
t2 = q
B
s nnAA+n
V̂ (β̂2 )
nB
(5.11)
poiché
1
nA + nB
n
s2
= s2
= s2
= s2
.
2
2
2
nB − n(nB /n)
nA nB
(nA + nB )nB − nB
i=1 (xi − x̄)
V̂ (β̂2 ) = Pn
È anche istruttivo calcolare, via le formule generali, la varianza di β̂1 , si ha
V (β̂1 ) = σ
2
x̄2
1
+ Pn
2
n
i=1 (xi − x̄)
=σ
2
1 nA + nB
+
(nB /n)2
n
nA nB
=
σ2
.
nA
Con i dati relativi ai cuculi si ottengono le stime di cui alla tabella e figura 5.3. Si confrontino le
stime della tabella 5.3 con le medie campionarie dei due gruppi.
Osservazione 5.1 Verifica degli assunti. S’è sorvolato sopra sulla verifica degli assunti del modello,
questa prende una forma leggermente diversa a seconda che si tratti il problema come presentato nella
sezione 1 o nella cornice della sezione 1.1.
Per come si è formulato il problema nella sezione 1 si tratta di verificare che i due campioni siano
normalmente distribuiti e omoschedastici.
La coppia di diagrammi a scatola nella figura 5.1 può servire alla verifica dell’omoschedasticità, questa
può naturalmente essere formalizzata con un test, ad esempio il test di Bartlett.
g
1
2
TOT
ng
16
15
31
s2g
0.4687
0.5531
1.0218
s2g (ng − 1)
7.0300
7.7440
14.7740
log(s2g )
-0.7579
-0.5921
-1.3500
log(s2g )(ng − 1)
-11.3680
-8.2899
-19.6579
1/(ng − 1)
0.0667
0.0714
0.1381
90
5.1. Test t a due campioni
24.0
●
23.5
●
●
●
●●
23.0
●
yA
β1
β2
E.S.
0.1784
0.2565
t
126.51
-5.63
Pr(>|t|)
0.0000
0.0000
22.0
y = yA + (yB − yA)x
●
●●
●
y
Stima
22.5750
-1.4450
●
●
●
●●
●
21.5
●
●
yB
●
●●
●
●
20.5
●
●
20.0
●
0
1
x
Figura 5.3: Tabella delle stime dei coefficienti per il modello (5.6), rappresentazione grafica dei
dati (xi , yi ) e della stima del modello
●
23.5
22.0
●
●
●
●
● ●
22.0
●
●
● ●
●
21.5
● ● ●
● ● ●
●
20.0
21.0
●
●
21.0
22.5
●
20.5
Sample Quantiles
23.0
●
21.5
Sample Quantiles
●
● ● ● ●
●
−2
−1
0
1
●
●
2
−1
Theoretical Quantiles
0
1
Theoretical Quantiles
Figura 5.4: Grafici dei quantili per i due campioni (pettirossi a sinistra, scriccioli a destra), si
notino i punti con la stessa ordinata, che corrispondono a valori campionari che si ripetono
e si ottiene s2p = 14.774/29 = 0.50945, e dunque la statistica T
T =
(31 − 2) ln 0.50945 − −19.658
= 0.09619,
1
1
1 + 3(2−1)
0.1381 − 31−2
che va confrontata con un χ21 , il livello di significatività osservato è dunque P (χ21 > T oss) = 0.7565.
Dovremo poi verificare la normalità in entrambi i campioni, usando ad esempio il metodo del confronto
dei quantili (figura 5.4).
Se usiamo invece la formulazione in termini di regressione, di cui alla sezione 1.1, dovremo ragionare sui
residui, residui che sono pari ai valori dei due campioni centrati rispetto alla media campionaria di ciascuno
(
yi − ȳA ,
ei = yi − ŷi =
yi − ȳB ,
i = 1, . . . , nA ,
i = nA + 1, . . . , nA + nB .
5. Modello lineare con variabili qualitative
91
2
(c)
2
(b)
2
(a)
●
●
1
●
●●●●●
●
0
●●
●●●●●
●●●●
●●●
−1
Sample Quantiles
0
−1
1
0
−1
1
●● ●
●
●
−2
−2
−2
●
●
●
ei
xi = 0
ei
~
ei
xi = 1
~
ei
Pettirosso
Scricciolo
−2
−1
0
1
2
Theoretical Quantiles
Figura 5.5: (a): Residui (+) e residui standardizzati (×) a confronto, si noti che ci sono alcuni
gruppi di residui uguali, conseguenza del fatto che ci sono osservazioni campionarie ripetute; (b)
e (c) Diagramma a scatola e grafico dei quantili per i residui standardizzati
Per passare ai residui standardizzati notiamo che hi assume due soli valori2 ,
1
(xi − nB /n)2
hi = +
=
n n(nA /n)(nB /n)
(
1/nA
1/nB
se xi = 0,
se xi = 1;
e che quindi i residui standardizzati sono pari a

q
nA
(yi − ȳA )
,
q nA −1
ẽi =
n
B
(yi − ȳB )
nB −1 ,
i = 1, . . . , nA ;
i = nA + 1, . . . , nA + nB .
I residui associati al gruppo più numeroso hanno varianza maggiore. Notiamo anche che se nA e nB sono
grandi i residui standardizzati tendono a coincidere con i residui ei .
Qualora vi sia una differenza sensibile, la verifica di omoschedasticità fatta sui residui standardizzati darà
un risultato diverso dal test sui residui ei . Ad esempio coi dati sui cuculi i due valori di h sono 0.0625
per il gruppo A e 0.066667 per il gruppo B. Nella p
figura 5.5(a) si mettono a confronto
residui e residui
p
standardizzati per i dati sui cuculi. Si ha dunque nA /(nA − 1) = 1.0328 e nB /(nB − 1) = 1.0351,
residui e residui standardizzati sono rappresentati nella figura 5.5. Si ottiene una statistica di Bartlett
pari a 0.1014, corrispondente al valore p 0.7501.
Infine, in figura 5.5(b) si confronta la distribuzione empirica dei residui con la normale, rispetto alla verifica
fatta nella figura 5.4 qui si ha un unico grafico dei quantili, il che rende la lettura più agevole.
Notiamo infine che, per la particolare natura della variabile esplicativa, non c’è linearità da verificare. •
Osservazione 5.2 Scomposizione della devianza. È interessante ottenere la scomposizione della
2
Si noti in effetti, ad esempio con riferimento al gruppo A, che
V (ei ) = V (yi − ȳA ) = V (yi ) + V (ȳA ) − 2cov (() yi , ȳA ) = σ 2 +
σ2
2
1
−
cov (() yi , yi ) = σ 2 1 −
.
nA
nA
nA
92
5.2. ANOVA a una via
devianza. La devianza spiegata è pari a
n
X
(ŷi − ȳ)2 = nA (ȳA − ȳ)2 + nB (ȳB − ȳ)2
i=1
2
2
1
1
= nA ȳA − (nA ȳA + nB ȳB ) + nB ȳB − (nA ȳA + nB ȳB )
n
n
n B 2
nA 2
nA nB ȳA −
ȳB −
ȳB + nB 1 −
ȳA
= nA 1 −
n
n
n
n
n
2
n
2
B
A
= nA
(ȳA − ȳB ) + nB
(ȳB − ȳA )
n
n
2 nA nB
= (ȳA − ȳB )
n
si ha quindi
2
(ȳA − ȳB ) nA nB
R2 = Pn
.
2
n
i=1 (yi − ȳ)
La devianza residua è
Pn
i=1 (yi
− ŷi )2 = (n − 2)s2p quindi
2
(ȳA − ȳB ) nAnnB
R2
=
1 − R2
(n − 2)s2p
e moltiplicando per 1/(n − 2) si ritrova la statistica T elevata al quadrato. •
5.2 ANOVA a una via
Nella sezione precedente s’è discusso del problema del confronto tra le medie in due popolazioni,
il familiare t-test, e di come questo si possa formulare come un problema di verifica d’ipotesi sul
coefficiente di regressione in un modello con una variabile esplicativa di tipo indicatore (dummy).
Complichiamo il problema confrontando tre o più popolazioni: useremo come esempio di riferimento il caso di tre popolazioni, l’estensione al caso generico di J popolazioni è naturale.
Consideriamo un esperimento in cui dei ricercatori hanno preso 15 cavie e hanno somministrato
ad esse una stessa quantità di un veleno. Le cavie sono state poi suddivise casualmente in 3
gruppi (di numerosità diverse) e ciascun gruppo è stato sottoposto a un trattamento: alle cavie
del primo gruppo è stato somministrato l’antidoto A, a quelle del secondo l’antidoto B e a quelle
del terzo l’antidoto C. Per ciascuna cavia si è quindi misurato, in decine di ore, il tempo di
sopravvivenza.
Si noti che, allocando le cavie nei gruppi con un meccanismo casuale, si cerca di neutralizzare
gli effetti di altre variabili, ad esempio il peso corporeo, che potrebbero alterare il risultato,
cioè avere un effetto sul tempo di sopravvivenza. Tale processo è chiamato randomizzazione
(casualizzazione) e l’esperimento è detto disegno sperimentale semplice a un fattore (o a un
trattamento).
Tramite questo esperimento, si vuole stabilire se i tre antidoti hanno la stessa efficacia, cioè se
il tempo di sopravvivenza, una quantità aleatoria, ha la stessa distribuzione nei diversi gruppi
(in altre parole se la distribuzione del tempo di sopravvivenza condizionatamente al gruppo (qui
all’antidoto) è uguale alla distribuzione marginale).
I dati raccolti sono riassunti nella tabella
5. Modello lineare con variabili qualitative
93
3.5
3.0
3.0
3.5
●
●
1.0
●
2.0
2.5
●
●
1.5
●
1.5
Sopravvivenza
2.0
●
●
1.0
Sopravvivenza
2.5
●
●
●
0.5
0.5
●
●
●
●
A
B
C
A
B
Antidoto
C
Antidoto
Figura 5.6: Tempi di sopravvivenza di topi avvelenati e trattati con tre diversi antidoti
Trattamento
(Antidoto)
A
B
C
Tempi di sopravvivenza
0.22
2.80
1.70
0.14
3.60
2.00
0.44
2.80
1.52
0.59
2.60
1.67
1.90
0.82
1.90
Graficamente, possiamo rappresentare i dati con un diagramma di dispersione, anche se la più
usuale rappresentazione di dati di questo tipo sono i diagrammi a scatola e baffi
Dati di questo tipo possono essere rappresentati usando due indici, si denota allora con yij il
tempo di sopravvivenza dell’i-esima cavia del j-esimo gruppo, quindi j = 1, . . . , J è l’indice del
gruppo (antidoto/trattamento) e i = 1, . . . , nj è l’indice dell’osservazione per gruppo.
Nell’esempio si ha J = 3, n1 = 4, n2 = 3, n3 = 8 e la tabella, completata con gli indici, è
i
j
1
2
3
1
0.22
2.80
1.70
2
0.14
3.60
2.00
3
0.44
2.80
1.52
4
0.59
5
6
7
8
2.60
1.67
1.90
0.82
1.90
Si definiscono poi, per j = 1, . . . , J, le medie di gruppo e le varianze interne ai gruppi
nj
1 X
ȳj =
yij ,
nj
i=1
nj
s2j
1 X
=
(yij − ȳj )2 .
nj − 1
i=1
Con i dati dei topi avvelenati si calcolano le quantità
Gruppo
nj
ȳj
s2j
A
B
C
4
3
8
0.347
3.067
1.764
0.0422
0.2133
0.2507
q
s2j
0.2055
0.4618
0.5007
94
5.2. ANOVA a una via
Si nota, da queste statistiche, che:
1. il tempo di sopravvivenza medio è diverso nei gruppi, più elevato quello del secondo gruppo,
il che suggerirebbe una maggiore efficacia dell’antidoto B, somministrato a quegli individui;
2. la variabilità del tempo di sopravvivenza è diversa nei gruppi, questo può essere un problema perché i test usuali si basano sull’omoschedasticità, è opportuno quindi verificare
quest’ipotesi.
L’approccio usuale al problema si basa sulla scomposizione della varianza in varianza dovuta alle
differenze tra i gruppi e varianza dovuta alle differenze interne ai gruppi.
Definita la media generale
J nj
J
1 XX
1X
ȳ =
nj ȳj ,
yij =
n
n
j=1 i=1
j=1
si può mostrare che la devianza campionaria complessiva si scompone in una parte dovuta alla
variabilità interna ai gruppi e un’altra dovuta alla variabilità tra i gruppi. Si ha infatti
nj
nj
J X
J X
X
X
(yij − ȳ)2 =
(yij − ȳj + ȳj − ȳ)2
j=1 i=1
j=1 i=1
J nj
=
nj
J
J
X
X
X
XX
(yij − ȳj )2 +
nj (ȳj − ȳ)2 + 2
(ȳj − ȳ)
(yij − ȳj )
j=1 i=1
dove
Pnj
i=1 (yij
j=1
j=1
i=1
− ȳj ) = 0 per ogni j, quindi
PJ
j=1
Pnj
i=1 (yij
PJ
− ȳ)2 =
Dev. totale
DEVtot
j=1 (nj
− 1)s2j
Dev. entro i gruppi
DEVint
+
PJ
j=1 nj (ȳj
− ȳ)2
Dev. tra i gruppi
DEVtra
Queste quantità sono campionarie, e quindi casuali, ci si attende però che quanto maggiore è la
differenza di posizione (media) tra le distribuzioni gruppi, tanto più grande sia la quota della
devianza totale attribuibile alla variabilità tra i gruppi (DEVtra ).
Con i dati sui roditori, ad esempio, la devianza totale, pari a DEVtot = 15.22 si scompone
in DEVtra = 12.91 e DEVint = 2.308, la quota dovuta alla variabilità tra i gruppi è dunque
preponderante, a indicare che le medie nei tre gruppi sono diverse, come d’altronde suggerivano
abbastanza chiaramente i grafici in figura 5.6.
Queste considerazioni possono essere formalizzate in una verifica d’ipotesi facendo opportune
assunzioni.
Si assume anzitutto che le yij siano determinazioni indipendenti di v.a. Yij ∼
N µj , σ 2 . A parole, si assume che i tempi di sopravvivenza siano indipendenti e identicamente
distribuiti nell’ambito di ciascun gruppo, con medie diverse da gruppo a gruppo e la stessa
varianza. Si noti che le distribuzioni condizionate al gruppo d’appartenenza sono uguali se sono
uguali le medie di gruppo µj , l’ipotesi di eguale efficacia degli antidoti è allora
H0 : µ1 = µ2 = . . . = µJ ,
se questa è valida la statistica
F =
(DEVtra )/(J − 1)
(DEVint )/(n − J)
(5.12)
5. Modello lineare con variabili qualitative
Unità
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
95
Sopravvivenza (y)
0.220
0.140
0.440
0.590
2.800
3.600
2.800
1.700
2.000
1.520
2.600
1.670
1.900
0.820
1.900
Antidoto
A
A
A
A
B
B
B
C
C
C
C
C
C
C
C
Tabella 5.2: Dati sui roditori in forma di matrice
è distribuita come una FJ−1,n−J . Valori grandi della statistica F portano a rifiutare l’ipotesi H0 ,
cioè la regione di rifiuto di livello α è
(DEVtra )/(J − 1)
F =
> FJ−1,n−J,1−α
(DEVint )/(n − J)
dove FJ−1,n−J,1−α è il quantile 1 − α di una FJ−1,n−J . Il livello di significatività osservato è
pertanto, indicando con F oss il valore osservato della statistica F αoss = P (FJ−1,n−J > F oss ).
12.91/2
Nell’esempio si ottiene F oss = 2.308/12
= 33.56, e di conseguenza il valore p è P (F2,12 > 33.56) =
1.217e − 05, il che porta a rifiutare l’ipotesi nulla: i tre antidoti non hanno la stessa efficacia.
L’esito dell’analisi viene usualmente presentato in una tabella cosı̀ formata
Componente
G.d.L.
Devianza
Gruppi
J −1
P
Residuo
n−J
P
5.2.1
Varianza
ȳ)2
P
2
i,j (yij − ȳj )
P
j
nj (ȳj −
2
j nj (ȳj −ȳ)
J−1
i,j (yij −ȳj )
2
Valore F
Valore p
2
j nj (ȳj −ȳ)
J−1
P
2
i,j (yij −ȳj )
n−J
αoss = P (FJ−1,n−J > F oss )
P
n−J
ANOVA come modello lineare
Questi stessi risultati si possono ottenere impostando il problema come un modello di regressione
multipla: il test F appena definito è un caso particolare del test di nullità di un sottoinsieme di
componenti del vettore dei coefficienti di regressione.
Conviene anzitutto scrivere i dati nella forma di cui alla tabella 5.2, passando a un solo indice.
Appare allora abbastanza naturale pensare a un modello del tipo
Sopravvivenza = f (Antidoto) + (errore),
cioè un modello di regressione con una variabile esplicativa, antidoto, qualitativa. Questo è
analogo al caso delle medie di due popolazioni, dove la variabile qualitativa era l’appartenenza
all’una o all’altra. Qui sale, a tre nell’esempio, il numero di livelli dell’esplicativa.
Per includere la variabile qualitativa antidoto nel modello dobbiamo riscriverla in termini numerici, cioè mediante variabili indicatrici. Usiamo il plurale perché nel caso di due popolazioni ne
96
5.2. ANOVA a una via
era sufficiente una, nel caso di tre popolazioni occorrerà ricorrere a due variabili, definiamo allora
(
(
1 se antidoto è B
1 se antidoto è C
xiB = xi2 =
xiC = xi3 =
0 altrimenti
0 altrimenti
Notiamo che questa non è l’unica codifica possibile, si è scelto cosı́ il livello ‘A’ come livello base,
si poteva scegliere uno qualunque degli altri.
La matrice delle variabili esplicative è allora3 , posto come d’uso xi1 = 1 ∀i,


111111111111111
X T = 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0
000000011111111
e il modello può essere scritto
Yi = β1 xi1 + β2 xiB + β3 xiC + εi ,
IND
εi ∼ N 0, σ 2 .
(5.13)
Queste sono le stesse ipotesi alla base del test F proposto precedentemente, notiamo infatti che
Yi ∼ N µi , σ 2 con µi = β1 xi1 + β2 xiB + β3 xiC significa che
Yi ∼ N β1 , σ 2 , i = 1, . . . , 4 (gruppo A);
Yi ∼ N β1 + β2 , σ 2 , i = 5, . . . , 7 (gruppo B);
Yi ∼ N β1 + β3 , σ 2 , i = 8, . . . , 15 (gruppo C).
L’interpretazione dei parametri è che β1 è la media della sopravvivenza per gli individui a cui
è stato somministrato l’antidoto A; β1 + β2 la media per i soggetti cui è stato somministrato
l’antidoto B (e quindi β2 è la differenza tra sopravvivenza media con antidoto B e sopravvivenza
media con antidoto A) e β1 + β3 è la media per i soggetti cui è stato somministrato l’antidoto C.
L’ipotesi per cui gli antidoti sono indifferenti si traduce in
H0 : β2 = β3 = 0
che, si è visto, si verifica basandosi sul test del rapporto di verosimiglianza che corrisponde al
IND
confronto del modello (5.13) con il modello ridotto Yi = β1 + εi , con εi ∼ N (0, σ 2 ), e cioè il
modello che assume che la media sia la medesima nei gruppi.
Questo significa confrontare la statistica
F =
(σ̃ 2 − σ̂ 2 )/(J − 1)
σ̂ 2 /(n − J)
con la distribuzione FJ−1,n−J , sua distribuzione nell’ipotesi nulla.
compaiono nella (5.14) sono
(5.14)
Le varianze stimate che
• σ̃ 2 , stima della varianza dei residui nel modello ridotto,
P cioè, essendo la stima di MV di β1
pari a β̃1 = ȳ, la varianza (marginale) di y: σ̃ 2 = n1 ni=1 (yi − ȳ)2 , ovvero la devianza totale
(DEVtot ) divisa per n.
3
Si noti che, se si considerassero tre variabili indicatrici, una per ciascun gruppo, cioè alle due variabili xiB
e xiC si aggiungesse la variabile xiA definita in modo analogo, la matrice delle esplicative che si ottiene con le
colonne [x1 , xA , xB , xC ], dove x1 è il vettore unitario, non sarebbe a rango pieno in quanto x1 = xA + xB + xC ,
con tutte le conseguenze del caso.
5. Modello lineare con variabili qualitative
97
• σ̂ 2 , stima della varianza nel modello completo, cioè
n
1X
(yi − β̂1 − β̂2 xi2 − β̂3 xi3 )2 ,
n
σ̂ 2 =
i=1
dove le SMV β̂i , in virtù della proprietà di invarianza della SMV, soddisfano alle condizioni
β̂1 = µ̂1 = ȳ1 ,
β̂1 + β̂2 = µ̂1 = ȳ2 , β̂1 + β̂3 = µ̂1 = ȳ3 ;
e quindi si ha β̂1 = ȳ1 , β̂2 = ȳ2 − ȳ1 , β̂3 = ȳ3 − ȳ1 . Si ottiene perciò
nσ̂ 2 =
n
X
(yi − β̂1 − β̂2 xi2 − β̂3 xi3 )2
i=1
X
=
i:xi2 =0,xi3 =0
=
X
=
X
(yi − ȳ1 ) +
X
(yi − β̂1 − β̂2 )2 +
i:xi2 =1,xi3 =0
2
i∈gruppo A
J
X
X
(yi − β̂1 )2 +
(yi − β̂1 − β̂3 )2
i:xi2 =0,xi3 =1
X
2
(yi − ȳ2 ) +
i∈gruppo B
(yi − ȳ3 )2 ,
i∈gruppo C
(nj − 1)s2j
j=1
essa è quindi la devianza entro i gruppi.
Si ritrova perciò la statistica definita in (5.12)
F =
DEVtra /(J − 1)
(σ̃ 2 − σ̂ 2 )/(J − 1)
=
.
2
σ̂ /(n − J)
DEVint /(n − J)
L’esito dell’analisi viene usualmente presentato in una tabella
Componente
G.d.L.
Devianza
Spiegata
J −1
P
Residua
n−J
P
2
i (ŷi − ȳ)
i (yi
− ŷi )2
Valore F
Valore p
1 P
2
i (ŷi −ȳ)
J−1
1 P
2
i (yi −ŷi )
n−J
P (FJ−1,n−J > F oss )
che è la stessa tabella proposta sopra dove le quantità sono scritte coerentemente col modello di
regressione.
La tabella che restituisce R quando si confrontano i due modelli è invece
Modello
G.d.L.
Ridotto
n−1
P
i (yi
n−J
P
2
i (yi − ŷ)
Completo
Devianza
Diff. GdL
Diff Dev
Valore F
Valore p
− ȳ)2
J −1
Con i dati dell’esempio si stima il modello
2
i (ŷi − ȳ)
P
1
J−1
1
n−J
2
i (ŷi −ȳ)
2
i (yi −ŷi )
P
P
P (FJ−1,n−J > F oss )
98
5.2. ANOVA a una via
y = y1 + (y2 − y1)x2 + (y3 − y1)x3
●
●
●
●
●
●
●
●
y3
●
●
●
●
y1
1.5
x3
y
y2
1.0
0.5
0.0
−0.5
−0.5
0.0
0.5
1.0
1.5
x2
Figura 5.7: Rappresentazione dei dati e del piano stimato, si ricordi che ȳj è la media del gruppo
j-esimo.
(Intercept)
x2
x3
β̂i
0.3475
2.7192
1.4162
q
V̂ (β̂i )
0.2193
0.3350
0.2686
Valore t
1.58
8.12
5.27
Valore p
0.1391
0.0000
0.0002
(Si confrontino le stime dei coefficienti con le medie di gruppo calcolate sopra.) Nella figura 5.7
si sono rappresentati i dati nello spazio delle esplicative x2 e x3 e della risposta. Si noti che
i punti relativi a soggetti del gruppo A hanno coordinate (0, 0, yi ), quelli del gruppo B hanno
coordinate (1, 0, yi ) e quelli del gruppo C (0, 1, yi ). Si è poi rappresentato nel grafico il piano
y = β̂1 + β̂2 x2 + β̂3 x3 , cioè il piano che passa per i punti (0, 0, ȳ1 ), (1, 0, ȳ2 ), (0, 1, ȳ3 ).
I risultati dell’analisi della varianza sono riportati nella tabella.
Modello
1
2
5.2.1.1
G.d.L.
14
12
Devianza
15.22
2.31
∆G.d.L.
∆Devianza
Valore F
Valore p
2
12.91
33.55
0.0000
Notazione con due indici
In alcuni testi e programmi si adotta la notazione con due indici già accennata sopra, il modello
può allora essere scritto come
Yij = µ + αj + εij
5. Modello lineare con variabili qualitative
99
IND
con j = 1, . . . , J, i = 1, . . . , nj e εij ∼ N 0, σ 2 . Si avrebbe allora
oss. gruppo A ⇒ Yi1 ∼ N µ + α1 , σ 2 ,
oss. gruppo B ⇒ Yi2 ∼ N µ + α2 , σ 2 ,
oss. gruppo C ⇒ Yi3 ∼ N µ + α3 , σ 2 ;
cosı̀ facendo però si rappresentano le tre medie dei gruppi con quattro parametri, il modello non
è dunque identificabile (è sovraparametrizzato). Per renderlo identificabile si pone un vincolo sui
parametri, ad esempio se si pone α1 = 0, i parametri corrispondono a quelli del modello (5.13),
ossia µ = β1 , α2 = β2 , α3 = β3 .
P
Un’altra opzione spesso adottata è di imporre il vincolo Ji=1 αj = 0, con questo, µ è la media
P
P
delle medie di gruppo, infatti Jj=1 µj = Jj=1 (µ + αj ) = Jµ + 0, mentre αj è la differenza tra
media del gruppo j-esimo e media generale.
5.2.1.2
Test per l’ipotesi di omoschedasticità di J popolazioni normali
Tra le ipotesi alla base dell’ANOVA vi è l’eguaglianza delle varianze interne ai gruppi. Illustriamo perciò nel seguito un test utile per verificare che i dati siano compatibili con l’ipotesi di
omoschedasticità.
Consideriamo allora un modello che contempli medie e varianze diverse nei gruppi, e lo confrontiamo col modello semplificato che ipotizza l’eguaglianza delle varianze mediante il test del
rapporto di verosimiglianza.
Sia allora, per i = 1, . . . , nj e j = 1, . . . , J,
IND
Yij ∼ N µj , σj2 ,
e consideriamo il sistema di ipotesi con ipotesi nulla
H0 : σ12 = . . . = σJ2 ,
contro l’ipotesi alternativa che esistano i e j, ovviamente diversi, tali che σi2 6= σj2 .
Indichiamo con µ̃, σ̃ 2 e µ̂, σ̂ 2 gli stimatori di µ e σ 2 rispettivamente nel modello ridotto
(nell’ipotesi H0 ) e nel modello completo. Si considera allora la statistica
Wp = 2(l(µ̂, σ̂ 2 ) − l(µ̃, σ̃ 2 )).
dove la stima di µ è la stessa nel modello completo e in quello ridotto,
µ̂ = µ̃ = (ȳ1 , . . . , ȳJ ),
mentre le stime del vettore delle varianze sono
2
σ̂ =
(σ̂12 , . . . , σ̂J2 ),
σ̂j2
nj
1 X
=
(yij − ȳj )2
nj
i=1
J
σ̃ 2 = (σ̃ 2 , . . . , σ̃ 2 ), σ̃ 2 =
J
nj
1X
1 XX
nj σ̂j2 =
(yij − ȳj )2 .
n
n
j=1
j=1 i=1
100
5.2. ANOVA a una via
Si ha allora
nj J X
X
n
1
1
n
2
2
l(µ̃, σ̃ ) =
− ln σ̃ − 2 (yij − ȳj ) = − ln σ̃ 2 − ,
2
2σ̃
2
2
2
j=1 i=1
e
l(µ̂, σ̂ 2 ) =
nj
J X
X
1
1
− ln σ̂j2 − 2 (yij − ȳj )2
2
2σ̂j
j=1 i=1
!
nj
J J
1X
X
nj
1 X
2
=
− ln σ̂j −
(yij − ȳj )2
2
2
2
σ̂j
j=1
=
J X
j=1
j=1
−
i=1
n
nj
ln σ̂j2 − ,
2
2
(per l’ultimo passaggio si riveda la definizione di σ̂j2 ) e quindi
Wp = n ln σ̃ 2 −
J
X

nj ln σ̂j2 = n ln σ̃ 2 − ln 
j=1
J
Y

σ̂j2
nj
j=1
n

 = log 

σ̃ 2
QJ
j=1
σ̂j2

nj 1/n 
che va confrontato con un χ2J−1 .
Con i dati dell’esempio si ha σ̃ 2 = 0.1876 e σ̂ 2 = (0.04222, 0.2133, 0.2507), quindi Wp =
15
0.1876
log 0.150944980946974
= 3.261, confrontando questo con un χ22 si ha il valore p: 0.1958, e quindi
non si rifiuta l’ipotesi nulla di omoschedasticità.
Esempio 5.1 Esempio degli hotdog. Consideriamo ora le rilevazioni delle calorie (per pezzo)
in n = 54 confezioni di hot-dog prodotti con 3 diversi tipi di carne: Bovina, Mista e Pollame.
Si vuole stabilire se le calorie di un hotdog siano mediamente le stesse per i tre tipi di carne.
Rispetto alla notazione usata sopra si indichi con yij le calorie dell’i-mo hotdog con j = 1, . . . , J,
dove J = 3 e i = 1, . . . , nj . Dati e rappresentazione grafica sono in figura 1.2 nel capitolo 1.
Possiamo calcolare le statistiche di gruppo
q
Gruppo nj
ȳj
s2j
s2j
Bovina
Mista
Pollame
20
17
17
156.85
158.71
118.76
512.66
636.85
508.57
22.64
25.24
22.55
mentre la media generale è ȳ = 145.44, e la devianza totale, pari a 45759.33, si scompone in
DEVtra /(J−1)
DEVtra = 17692.20 e DEVint = 28067.14 e si calcola dunque la statistica F oss = DEV
=
int /(n−J)
17692.20/2
28067.14/51
= 16 e, di conseguenza, il valore p è P (FJ−1,n−J > F oss ) = 0, dal quale si conclude
che l’ipotesi nulla è da rifiutarsi.
Il modello lineare da impostare per ottenere questi risultati ha le 2 covariate
(
(
1 se x = M ista,
1 se x = P ollame,
xi,M ista =
, xi,P ollame =
0 altrimenti
0 altrimenti
10
6
8
●
4
D
5.14
-0.12
2.49
1.91
2.31
5.86
2.77
5.69
3.92
7.35
1.52
6.76
1.30
2.12
-1.76
6.24
1.73
4.63
4.13
7.07
Sopravvivenza
C
2.16
1.98
3.93
3.37
5.80
0.71
2.30
5.16
-0.93
-0.71
2.01
4.67
2.11
-0.54
1.99
0.04
9.48
8.23
3.01
2.71
2
B
8.00
7.52
9.18
5.76
11.60
3.61
9.74
9.75
4.86
3.61
9.70
3.77
2.67
1.91
7.72
7.38
2.96
5.59
5.56
7.20
0
A
-2.72
0.73
-1.46
8.62
7.89
4.17
4.80
4.70
6.09
5.53
4.57
2.70
-1.68
2.34
-1.99
-0.07
7.72
4.37
2.97
1.06
−2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
101
12
5. Modello lineare con variabili qualitative
A
B
C
D
Antidoto
Figura 5.8: Dati sull’efficacia dell’antidoto, esperimento con 80 topi
La matrice dei dati, trasposta per economia di spazio, è allora

111111111111111111111111111111111111111111111111111111
=  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
000000000000000000000000000000000000011111111111111111

XT
e si ottengono i coefficienti
(Intercept)
xMista
xPollame
Estimate
156.8500
1.8559
-38.0853
Std. Error
5.2456
7.7388
7.7388
t value
29.90
0.24
-4.92
Pr(>|t|)
0.0000
0.8114
0.0000
dove si noti che ȳ1 = β̂1 e ȳi = β̂1 + β̂i per i > 1:
156.850 +
0.000
= 156.850
156.850 +
1.856
= 158.710
156.850 + −38.085 = 118.760
Il consueto test F per l’ipotesi H0 : β2 = β3 = β4 = 0 corrisponde al test sopra.
Per la verifica dell’ipotesi di omoschedasticità si ha σ̃ 2 = 550.47 e σ̂ 2 = (512.66, 636.85, 508.57),
54
quindi Wp = log 550.47
= 0.29115, confrontando questo con un χ22 si ha il valore p: 0.8645,
547.51
l’ipotesi di omoschedasticità è quindi accettata. •
Esempio 5.2 Disegno bilanciato, 4 gruppi Consideriamo ancora un esperimento in cui si
vuole stabilire se degli antidoti hanno diversa efficacia contro un veleno, ma questa volta con una
numerosità campionaria più ragionevole: 80 cavie sono inoculate con veleno e antidoto. L’efficacia
è misurata sempre dal tempo di sopravvivenza, espresso in decine di ore.
Le 80 cavie sono divise, casualmente, in 4 gruppi di eguale numerosità e a ciascun gruppo viene somministrato un antidoto diverso. Si ha dunque un campione randomizzato e il disegno
sperimentale è bilanciato a un fattore, i dati sono rappresentati in figura 5.8.
102
5.2. ANOVA a una via
I dati possono essere rappresentati nella tabella seguente, in cui ad ogni colonna corrisponde un
gruppo (antidoto).
Calcoliamo dunque le statistiche di gruppo
Gruppo
ȳj
s2j
q
s2j
A
B
C
D
3.017
6.404
2.874
3.553
11.7820
7.7752
7.6934
6.3468
3.4325
2.7884
2.7737
2.5193
La media generale è ȳ = 3.9622, e la devianza totale, pari a 802.54 si scompone in DTG = 164.2
DEVtra /(J−1)
164.2/3
e DEG = 638.35, si calcola dunque la statistica F oss = DEV
= 638.35/76
= 6.51644 e di
int /(n−J)
oss
conseguenza il valore p è P (FJ−1,n−J > F ) = 0.00055536.
I risultati si possono sintetizzare nella tabella
Gruppi
Residuo
G.d.L.
3
76
Devianze
164.200
638.350
Varianze
54.733
8.399
Valore F
6.516
Valore p
0.001
Il modello lineare da impostare per ottenere questi risultati ha le 3 covariate
xi,B
(
1
=
0
se x = B,
altrimenti
xi,C
(
1 se x = C,
=
0 altrimenti
xi,D
(
1 se x = D,
=
0 altrimenti
La matrice dei dati, trasposta, è allora

XT

11111111111111111111111111111111111111111111111111111111111111111111111111111111
00000000000000000000111111111111111111110000000000000000000000000000000000000000

=
00000000000000000000000000000000000000001111111111111111111100000000000000000000
00000000000000000000000000000000000000000000000000000000000011111111111111111111
e si ottiene
(Intercept)
xB
xC
xD
Estimate
3.0169
3.3876
-0.1429
0.5363
Std. Error
0.6480
0.9165
0.9165
0.9165
t value
4.66
3.70
-0.16
0.59
Pr(>|t|)
0.0000
0.0004
0.8765
0.5602
e si noti che ȳ1 = β̂1 e ȳi = β̂1 + β̂i per i > 1. Il test F per l’ipotesi di nullità dei coefficienti
(H0 : β2 = β3 = β4 = 0) corrisponde al test sopra.
Per la verifica dell’ipotesi di omoschedasticità si ha σ̃ 2 = 8.3994 e σ̂ 2 = (11.782, 7.7752, 7.6934, 6.3468)
8.3994 80
= 2.1363 confrontando questo con un χ23 si ha il valore p 0.5446, si
quindi Wp = log 8.178072
accetta perciò, in questo caso, l’ipotesi di omoschedasticità. •
5. Modello lineare con variabili qualitative
103
5.3 ANOVA a 2 vie
Nell’ANOVA si investiga l’effetto di una variabile fattore su una variabile risposta, complichiamo
il problema introducendo un secondo fattore.
Consideriamo un esperimento per valutare l’efficacia di 4 antidoti: A, B, C, D rispetto a 3 diversi
veleni: I, II, III. L’esperimento prevede che 48 cavie vengano suddivise in 3 × 4 gruppi (uno per
ciascuna accoppiata veleno-antidoto) di numerosità 4 e a ciascun gruppo si somministrino un
antidoto e un veleno per poi misurare il tempo di sopravvivenza. Si ha cioè un disegno fattoriale
4 × 3 con 4 replicazioni.
Veleno
Antidoto
Sopravvivenza
I
A
B
C
D
A
B
C
D
A
B
C
D
0.31, 0.45, 0.46, 0.43
0.82, 1.1, 0.88, 0.72
0.43, 0.45, 0.63, 0.76
0.45, 0.71, 0.66, 0.62
0.36, 0.29, 0.4, 0.23
0.92, 0.61, 0.49, 1.24
0.44, 0.35, 0.31, 0.4
0.56, 1.02, 0.71, 0.38
0.22, 0.21, 0.18, 0.23
0.3, 0.37, 0.38, 0.29
0.23, 0.25, 0.24, 0.22
0.3, 0.36, 0.31, 0.33
II
III
Un esperimento cosı̀ organizzato è detto anche disegno sperimentale a due fattori (veleno e antidoto) completamente randomizzato (perché le unità statistiche sono assegnate casualmente a
entrambi i fattori).
L’obiettivo dell’analisi è investigare l’effetto dei due fattori sulla variabile risposta, cioè stabilire
se la distribuzione della variabile risposta sia la stessa per i vari livelli dei fattori. Questi possono
avere un effetto separato ma possono anche interagire: più precisamente, e facendo riferimento
all’esempio, possiamo studiare
1. l’effetto marginale del fattore veleno: se cioè i veleni hanno mediamente lo stesso effetto;
2. l’effetto marginale del fattore antidoto: se cioè gli antidoti hanno mediamente lo stesso
effetto;
3. se vi sia interazione tra i due fattori: cioè se gli antidoti sono diversamente efficaci per i
diversi veleni (ad esempio l’antidoto A potrebbe essere efficace contro il veleno I ma non
contro il veleno II);
(Per meglio intendere l’importanza dell’interazione si rifletta sul fatto che, in assenza di esso,
uno sceglierebbe, tra gli antidoti, semplicemente quello con l’effetto maggiore; in presenza di
interazione potrebbe emergere che vada somministrato un antidoto diverso a seconda del veleno
ingerito.)
L’analisi dell’effetto marginale di un fattore alla volta corrisponde a quanto già visto. L’effetto
marginale dei due fattori nel campione può essere visualizzato mediante dei diagrammi a scatola
e baffi affiancati (figura 5.3). Il veleno II appare quello ad effetto più lento, l’antidoto A appare
104
5.3. ANOVA a 2 vie
1.2
1.0
0.8
0.4
0.2
I
Liv.
I
II
III
Df
2
45
●
0.6
1.0
0.2
0.4
0.6
0.8
1.2
●
Sum Sq
1.03
1.97
II
Media
0.62
0.54
0.28
Mean Sq
0.52
0.04
III
A
Liv.
A
B
C
D
S.d.
0.21
0.29
0.06
F value
11.79
Pr(>F)
0.0001
Df
3
44
Sum Sq
0.92
2.08
B
C
D
Media
0.31
0.68
0.39
0.53
Mean Sq
0.31
0.05
S.d.
0.10
0.32
0.17
0.22
F value
6.48
Pr(>F)
0.0010
Tabella 5.3: Analisi degli effetti dei due fattori effettuata separatamente: calcolo delle medie di
gruppo confronto delle stesse mediante ANOVA a una via
I
II
III
A
0.41
0.32
0.21
B
0.88
0.81
0.33
C
0.57
0.38
0.23
D
0.61
0.67
0.33
Tabella 5.4: Medie di gruppo per i dati su antidoti e veleni
il meno efficace, mentre il D è il più efficace. L’esame dei diagrammi a scatola corrisponde, in
sostanza, a confrontare le medie dei gruppi formati in base ai livelli di un fattore alla volta. Si
ricade, in pratica, nel caso dell’ANOVA a 1 fattore, e si possono fare le due analisi separatamente,
si veda la tabella 5.3.
Per dare una rappresentazione grafica dell’interazione consideriamo le medie dei 3 × 4 gruppi, sia
allora, ad esempio ȳII,B sopravvivenza media delle 4 cavie cui è stato somministrato il veleno II
e l’antidoto B. Si hanno dunque le 12 medie della tabella 5.4, che possono essere rappresentate
nel diagramma di interazione riportato in figura 5.10 nelle sue due. Ovviamente si può invertire
il ruolo delle due variabili nel grafico, il senso della rappresentazione non cambia.
Per meglio intendere l’interpretazione del diagramma di interazione esaminiamo i casi limite,
mostrati in figura 5.9. Il primo fattore, il veleno, è rappresentato in ascissa, quindi le diverse
spezzate corrispondono a diversi livelli del secondo fattore, l’antidoto. Nel caso (a) le linee sono
quasi coincidenti, quindi
ȳ•,A ≈ ȳ•,B ≈ ȳ•,C ≈ ȳ•,D
in altre parole, i diversi antidoti (fattore non in ascissa) hanno lo stesso effetto. Nel caso (b),
dove le linee sono quasi orizzontali si ha
ȳI,• ≈ ȳII,• ≈ ȳIII,•
5. Modello lineare con variabili qualitative
6
C
D
B
A
2
2
2.0
2.0
3
2.5
3
4
mean of Sopravvivenza
5
4
4.0
5
C
D
B
A
6
Antidoto
C
D
B
A
mean of Sopravvivenza
4.5
7
5.0
(d)
Antidoto
3.5
3.0
(c)
Antidoto
3.0
A
C
D
B
mean of Sopravvivenza
4.0
3.5
(b)
Antidoto
2.5
mean of Sopravvivenza
(a)
105
I
II
Veleno
III
I
II
III
I
Veleno
II
III
Veleno
I
II
III
Veleno
Figura 5.9:
Alcuni casi limite di diagrammi di interazione, in ordine lessicografico: (a) il
secondo fattore (quello non in ascissa) è ininfluente; (b) il primo fattore (in ascissa) è ininfluente;
(c) assenza di interazione; ; (d) presenza di interazione
ovvero i diversi veleni (fattore in ascissa) hanno lo stesso effetto. Nel caso (c) le linee sono quasi
parallele, in termini di medie si ha un effetto dei due fattori (ragionando come nei casi precedenti
questo risulta chiaro), ma si ha anche
ȳI,B − ȳI,A ≈ ȳII,B − ȳII,A ≈ ȳIII,B − ȳIII,A
ȳI,C − ȳI,A ≈ ȳII,C − ȳII,A ≈ ȳIII,C − ȳIII,A
...
cioè la differenza di effetto tra antidoto A e antidoto B è la stessa quale che sia il veleno somministrato, e cosı̀ per gli altri antidoti: non c’è interazione. La cosa si può leggere anche in termini
di effetto del veleno in corrispondenza ai diversi antidoti, osservando che
ȳI,A − ȳII,A ≈ ȳI,B − ȳII,B ≈ ȳI,C − ȳII,C ≈ ȳI,D − ȳII,D
ȳI,A − ȳIII,A ≈ ȳI,B − ȳIII,B ≈ ȳI,C − ȳIII,C ≈ ȳI,D − ȳIII,D
Infine nel caso (d) si ha interazione, ad esempio si nota che l’antidoto C è il più efficace contro il
veleno I, ma l’antidoto B è il più efficace contro il veleno II (questa è un’interazione macroscopica,
il solo mancato parallelismo ossia la non validità di una qualunque delle eguaglianze di cui sopra
è sinonmo di interazione.
Nel caso dei dati su antidoti e veleni l’analisi grafica (figura 5.10), fatta sia mediante diagrammi
di interazione sia mediante diagrammi a scatola condizionati, suggerisce che vi sia interazione:
ad esempio, gli antidoti B e D hanno effetto simile contro il veleno III, mentre il B è preferibile
contro il veleno I e, in una certa misura, anche contro il veleno II. I diagrammi a scatola condizionati forniscono qualche informazione in più perché, oltre agli andamenti, possiamo leggervi la
variabilità nei vari gruppi, d’altra parte è meno immediato il confronto perché dobbiamo ricorrere
a diversi pannelli.
Come nell’ANOVA a 1 fattore, il problema può essere impostato in termini di modello di regressione, in particolare, di verifica dell’ipotesi di nullità su gruppi di coefficienti. La matrice dei dati
contente la variabile risposta e i due fattori è riportata in tabella 5.5
I modelli di regressione possibili sono
1. La sopravvivenza dipende solo dal veleno: (sopravvivenza) = f (veleno) + (errore); si ricade
allora nel caso dell’ANOVA a un fattore, già considerato.
2. La sopravvivenza dipende solo dall’antidoto: (sopravvivenza) = g(antidoto) + (errore); è
analogo al caso precedente, per l’altro fattore.
0.9
5.3. ANOVA a 2 vie
0.9
106
yI, B
yI, B
Antidoto
0.2
0.8
yIII, C
yIII, A
I
II
0.7
II
I
III
yII, D
yI, D
0.6
0.3
III, B
yyIII,
D
yII, A
yII, B
yI, C
0.5
mean of Sopravvivenza
yII, C
0.2
0.4
yI, A
0.4
0.8
0.7
yII, D
0.5
0.6
B
D
C
A
yI, D
yI, C
0.3
mean of Sopravvivenza
Veleno
yII, B
yI, A
yII, C
yIII, B
yII, A
yIII, D
yIII, C
yIII, A
III
A
B
C
Veleno
C
D
●
III
●
1.2
1.0
1.0
0.8
0.8
0.2
A
B
1.2
1.0
●
●
●
0.2
I
II
1.2
●
0.8
●
0.6
●
●
0.6
●
0.4
●
●
I
II
●
●
●
●
●
●
0.2
yi
0.31
0.82
0.43
0.45
0.45
1.10
0.45
0.71
0.46
0.88
0.63
0.66
0.4
●
1.0
●
0.8
i
1
2
3
4
5
6
7
8
9
10
11
12
Sopravvivenza
●
●
Figura 5.10:
veleni
0.6
0.4
●
Sopravvivenza
1.2
0.6
●
0.4
D
Antidoto
0.2
III
I
II
III
A
B
C
D
A
B
C
D
Diagrammi di interazione e diagrammi a scatola e baffi per i dati su antidoti e
Vel.
I
I
I
I
I
I
I
I
I
I
I
I
Ant.
A
B
C
D
A
B
C
D
A
B
C
D
i
13
14
15
16
17
18
19
20
21
22
23
24
yi
0.43
0.72
0.76
0.62
0.36
0.92
0.44
0.56
0.29
0.61
0.35
1.02
Vel.
I
I
I
I
II
II
II
II
II
II
II
II
Ant.
A
B
C
D
A
B
C
D
A
B
C
D
i
25
26
27
28
29
30
31
32
33
34
35
36
yi
0.40
0.49
0.31
0.71
0.23
1.24
0.40
0.38
0.22
0.30
0.23
0.30
Vel.
II
II
II
II
II
II
II
II
III
III
III
III
Ant.
A
B
C
D
A
B
C
D
A
B
C
D
Tabella 5.5: Antidoti e veleni: matrice dei dati
i
37
38
39
40
41
42
43
44
45
46
47
48
yi
0.21
0.37
0.25
0.36
0.18
0.38
0.24
0.31
0.23
0.29
0.22
0.33
Vel.
III
III
III
III
III
III
III
III
III
III
III
III
Ant.
A
B
C
D
A
B
C
D
A
B
C
D
5. Modello lineare con variabili qualitative
107
3. La sopravvivenza dipende dal veleno e dall’antidoto, ma l’effetto dell’antidoto è lo stesso
per ogni veleno (senza interazione):
(sopravvivenza) = f (veleno) + g(antidoto) + (errore);
il modello è un ANOVA a due fattori senza interazione.
4. La sopravvivenza dipende dal veleno e dall’antidoto e l’effetto dell’antidoto non è lo stesso
per ogni veleno (con interazione):
(sopravvivenza) = f (veleno) + g(antidoto) + h((veleno) × (antidoto)) + (errore);
il modello è un ANOVA a due fattori con interazione.
Costruiamo allora delle variabili indicatrici per i fattori, combinando le quali costruiamo i vari
modelli (prime sei colonne della matrice in tabella 5.7)
(
(
(
1 se veleno=I
1 se veleno=II
1 se veleno=III
vI =
vII =
vIII =
0 altrimenti
0 altrimenti
0 altrimenti
(
(
(
(
1 se ant.=A
1 se ant.=B
1 se ant.=C
1 se ant.=D
aA =
aB =
aC =
aD =
0 altr.
0 altr.
0 altr.
0 altr.
5.3.1
Modello ANOVA a due fattori senza interazione
Costruiamo allora il modello ANOVA a due vie senza interazione ragionando come nel caso
dell’ANOVA a una via: includiamo nel modello, per ogni fattore, una variabile indicatrice per
ogni livello del fattore tranne il primo. Specifichiamo allora il modello
Yi = µ + αII vi,II + αIII vi,III + γB aB + γC aC + γD aD +εi
{z
}
|
{z
} |
effetto del veleno
IND
effetto dell’antidoto
con εi ∼ N (0, σ 2 ) e dove la matrice delle esplicative è la matrice 48 × 6 costituita dalle prime
sei colonne della tabella 5.7.
È utile scrivere le medie della sopravvivenza (y) per i vari gruppi in termini dei coefficienti del
modello (tabella in figura 5.11 da cui l’interpretazione dei coefficienti stessi: µ è la media del
gruppo (I, A); αII (αIII ) la differenza nella sopravvivenza tra veleno II (III) e veleno I; γB (γC ,
γD ) la differenza nella sopravvivenza tra antidoto B (C, D) e antidoto A.
Si ha quindi un effetto marginale del veleno (le medie relative ai tre veleni sono diverse) e un
effetto marginale dell’antidoto ma non si ha un effetto interazione: si noti che la differenza
di sopravvivenza media tra un antidoto e l’altro non dipende dal veleno e, simmetricamente,
potremmo dire che la differenza di sopravvivenza tra un veleno e l’altro non dipende dall’antidoto.
I sistemi di ipotesi di interesse sono allora esprimibili come ipotesi di nullità di un gruppo di
coefficienti, e quindi di confronto tra il modello sopra e un modello ridotto4 In particolare:
1. assenza dell’effetto marginale del veleno: H0 : αII = αIII = 0;
modello ridotto: Yi = µ + γB aB + γC aC + γD aD + εi (εi ∼ N (0, σ 2 ) indipendenti);
2. assenza dell’effetto marginale dell’antidoto: H0 : γB = γC = γD = 0;
modello ridotto: Yi = µ + αII vi,II + αIII vi,III + εi (εi ∼ N (0, σ 2 ) indipendenti);
4
Con le tecniche della sezione 6.2 del capitolo 4.
108
5.3. ANOVA a 2 vie
7
µ + αII + γC
Antidoto
µ + αII
µ + αII + γB
µ + αII + γC
µ + αII + γD
µ + αIII
µ + αIII + γB
µ + αIII + γC
µ + αIII + γD
5
µ
µ + γB
µ + γC
µ + γD
4
A
B
C
D
III
C
B
µ + γC
µ + γD
3
I
µ + αIII + γC
D
µ + γB
2
Antidoto
Veleno
II
mean of Sopravvivenza
6
µ + αII + γD
µ
µ + αII + γB
µ + αIII + γD
µ + αII
µ + αIII + γB
A
µ + αIII
I
II
III
Veleno
Figura 5.11: Medie di gruppo in termini dei coefficienti del modello e rappresentazione sul
diagramma d’interazione
I fattore
2
...
II fattore
1
J
1
2
3
..
.
µ
µ + γ2
µ + γ3
..
.
µ + α2
µ + α2 + γ2
µ + α2 + γ3
..
.
...
...
...
..
.
µ + αJ
µ + αJ + γ2
µ + αJ + γ3
..
.
K
µ + γK
µ + α2 + γK
...
µ + αJ + γK
Tabella 5.6: Medie dei gruppi in termini dei coefficienti
3. assenza degli effetti marginali: H0 : αII = αIII = γB = γC = γD = 0;
modello ridotto: Yi = µ + εi (εi ∼ N (0, σ 2 ) indipendenti).
Sin qui il modello è stato formalizzato con riferimento all’esempio di antidoti e veleni, in generale, i
due fattori avranno J e K livelli, indichiamo le variabili indicatrici che descrivono rispettivamente
il primo e il secondo fattore con
xi,2 , . . . , xi,J
(J − 1) variabili
xi,J+1 , . . . , xi,J+K−1
(K − 1) variabili
Il modello è allora, posto xi,1 = 1 ∀i
Yi = µxi,1 + α2 xi,2 + . . . + αJ xi,J + γ2 xi,J+1 + . . . + γK xi,J+K−1 +εi
|
{z
} |
{z
}
effetto del I fattore
IND
effetto del II fattore
con εi ∼ N (0, σ 2 ).
I coefficienti sono dunque in numero di J + K − 1 e sono interpretabili, in termini di medie della
Y come nella tabella 5.6, mentre le ipotesi si scrivono (posto p = J + K − 1),
1. assenza dell’effetto marginale del I fattore: H0 : α2 = α3 = . . . = αJ−1 = 0, e si ha p0 = K
e la distr. in ipotesi nulla è FJ−1,n−(J+K−1) .
2. assenza dell’effetto marginale del II fattore: H0 : γ2 = γ3 = . . . = γK−1 = 0, e si ha p0 = J
e la distr. in ipotesi nulla è FK−1,n−(J+K−1) .
5. Modello lineare con variabili qualitative
109
3. assenza degli effetti marginali: H0 : α2 = . . . = αJ = γ2 = . . . = γK = 0, e si ha p0 = 1 e la
distr. in ipotesi nulla è FJ+K−2,n−(J+K−1) .
Possiamo riscrivere il modello adottando una notazione con tre indici, indichiamo allora con Yijk
la variabile risposta per l’i-ma unità (i = 1, . . . , njk ); nel gruppo jk dove j = 1, . . . , J è il livello
del primo fattore e k = 1, . . . , K il livello del secondo fattore.
Con ciò il modello è
Yijk = µjk + εijk
IND
per i = 1, . . . , njk , j = 1, . . . , J, k = 1, . . . , K e dove εijk ∼ N (0, σ 2 ) e
µjk = µ + αj + γk
e si pongono i vincoli α1 = 0, γ1 = 0 (altrimenti il modello non sarebbe identificabile).
Con questa notazione è più agevole scrivere la scomposizione della varianza, poniamo
n=
n X
K
X
njk ,
nj· =
j=1 k=1
K
X
njk ,
n·k =
n
X
njk ,
j=1
k=1
e
n
ȳ·· =
K
n
1 XXX
yijk
n
(media campionaria generale)
j=1 k=1 i=1
ȳj· =
ȳ·k =
K n
1 XX
yijk
nj·
(m.c. oss. livello j del I fattore)
1
n·k
(m.c. oss. livello k del II fattore)
k=1 i=1
n X
n
X
yijk
j=1 i=1
Si mostra che la devianza totale (SQTot ) può essere scomposta in una parte dovuta al primo
fattore (SQI ), una al secondo (SQII ) e una residua (SQRes ) come nello schema seguente
Pn
2
J −1
SQI (I fattore)
j=1 nj· (ȳj· − ȳ·· ) +
SQII (II fattore)
SQRes (Residua) n − (J + K − 1)
SQTot (Totale)
PK
K −1
n−1
k=1 n·k (ȳ·k
Pn
j=1
PK Pn
i=1 (yijk
k=1
Pn
j=1
− ȳ·· )2 +
− ȳj· − ȳ·k + ȳ·· )2 =
PK Pn
k=1
i=1 (yijk
− ȳ·· )2
Si mostra allora che il test per il primo fattore, a J livelli, è
F =
SQI /(J − 1)
H0
∼ FJ−1,n−(J+K−1) .
SQRes /(n − (J + K − 1))
Un’analoga considerazione vale naturalmente per il secondo fattore.
Nell’esempio, dove il veleno è il fattore I, j = 1, . . . , 3 e l’antidoto è il fattore II, k = 1, . . . , 4,
quindi njk = 4 per j = 1, . . . , 3 e k = 1, . . . , 4; nj· = 16 per j = 1, . . . , 3; n·k = 12 per k = 1, . . . , 4.
110
5.3. ANOVA a 2 vie
Si ottengono allora le medie
ȳ·· = 0.48;
ȳ1· = 0.62; ȳ2· = 0.54; ȳ3· = 0.28;
ȳ·1 = 0.31; ȳ·2 = 0.68; ȳ·3 = 0.39;
ȳ·4 = 0.53.
e la scomposizione
v
a
Residuals
Total
Df
2
3
42
Sum Sq
1.03
0.92
1.05
3.01
Mean Sq
0.52
0.31
0.03
F value
20.64
12.27
Pr(>F)
0.0000
0.0000
Dove la tabella corrisponde a
Componente
G.d.L.
Devianza
Varianza
Test F
Valore p
(I fattore)
J −1
SQI
SQI
J−1
SQI
J−1
SQRes
n−(J+K−1)
P (F > FJ−1,n−(J+K−1) )
(II fattore)
K −1
SQII
SQII
K−1
SQII
K−1
SQRes
n−(J+K−1)
P (F > FK−1,n−(J+K−1) )
(Residua)
n − (J + K − 1)
SQRes
SQRes
n−(J+K−1)
n−1
SQTot
SQTot
n−1
(Totale)
5.3.2
Modello ANOVA a due fattori con interazione
Il modello ANOVA con interazione viene costruito sempre a partire dalle variabili indicatrici
definite nella sezione precedente, in particolare l’interazione è modellata utilizzando i prodotti
delle indicatrici dei livelli dei due fattori, come espresso nella formula
Yi = µ + αII vi,II + αIII vi,III +
{z
}
|
eff. veleno
+ γB aB + γC aC + γD aD +
|
{z
}
eff. antidoto
+ δ1 vII aB + δ2 vIII aB + δ3 vII aC + δ4 vIII aC + δ5 vII aD + δ6 vIII aD +
|
{z
}
eff. interazione
+εi
IND
con εi ∼ N (0, σ 2 ), si hanno dunque 1 + (J − 1) + (K − 1) + (J − 1)(K − 1) = JK coefficienti,
tanti quanti i gruppi. La matrice delle esplicative è quindi in tabella 5.7
Per interpretare il modello è utile scrivere le medie dei gruppi in termini dei coefficienti. Questi
ultimi possono poi essere rappresentati nel diagramma d’interazione come in figura 5.12.
5. Modello lineare con variabili qualitative
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
(Intercept)
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
vII
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
vIII
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
aB
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
aC
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
aD
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
111
vII:aB
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
vIII:aB
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
vII:aC
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
vIII:aC
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
vII:aD
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
vIII:aD
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
Tabella 5.7: Matrice delle esplicative, modello con interazione
II
III
A
B
C
D
µ
µ + γB
µ + γC
µ + γD
µ + αII
µ + αII + γB + δ1
µ + αII + γC + δ3
µ + αII + γD + δ5
µ + αIII
µ + αIII + γB + δ2
µ + αIII + γC + δ4
µ + αIII + γD + δ6
4
I
µ + αIII + γC + δ4
Antidoto
µ + αIII + γD + δ6
µ + αII + γC + δ3
µ + γD
3
Antidoto
µ + γC
µ + γB
2
Veleno
mean of Sopravvivenza
5
6
µ + αII + γDB + δ15
µ
I
µ + αII
µ + αIII + γB + δ2
µ + αIII
II
Veleno
Figura 5.12: Coefficienti del modello rappresentati nel diagramma d’interazione
III
C
D
B
A
112
5.3. ANOVA a 2 vie
Questo modello consente di verificare anche l’ipotesi di assenza di interazione, che in termini di
nullità dei coefficienti è
H0 : δ1 = . . . δ6 = 0
che è sempre esprimibile in termini di un test F .
Scriviamo la scomposizione della varianza usando la notazione a triplo indice
Yijk = µjk + εijk ,
IND
dove εijk ∼ N (0, σ 2 ), si ha µjk = µ + αj + γk + δjk con i vincoli α1 = 0, γ1 = 0,
per j = 1, . . . , J e k = 1, . . . , K, restano perciò (J − 1)(K − 1) coefficienti δ.
P
Definito ȳjk = n1jk ni=1 yijk , la varianza si può scomporre in
δ1k = δj1 = 0
SQI (I fattore)
J −1
Pn
− ȳ·· )2 +
SQII (II fattore)
K −1
PK
− ȳ·· )2 +
SQInt (Interazione) (J − 1)(K − 1)
SQRes (Residua)
n − JK
j=1 nj· (ȳj·
k=1 n·k (ȳ·k
Pn
j=1
PK
k=1 njk (ȳjk
Pn
j=1
PK Pn
k=1
Pn
n−1
SQTot (Totale)
− ȳj· − ȳ·k + ȳ·· )2 +
j=1
i=1 (yijk
PK Pn
k=1
− ȳjk )2 =
i=1 (yijk
− ȳ·· )2
Si mostra allora che il test per la significatività di una delle componenti (I fattore, II fattore o
interazione) può essere espresso come
F =
SQ(componente)/GdL(componente) H0
∼ FGdL(componente),n−JK .
SQRes /(n − JK)
Con i dati dell’esempio si ha
v
a
v:a
Residuals
Total
Dove la tabella corrisponde a
Df
2
3
6
36
Sum Sq
1.03
0.92
0.25
0.80
3.01
Mean Sq
0.52
0.31
0.04
0.02
F value
23.22
13.81
1.87
Pr(>F)
0.0000
0.0000
0.1123
5. Modello lineare con variabili qualitative
113
Componente
G.d.L.
Devianza
Varianza
Test F
Valore p
(I fattore)
J −1
SQI
SQI
J−1
SQI
J−1
SQRes
n−JK
P (F > FJ−1,n−JK )
(II fattore)
K −1
SQII
SQII
K−1
SQII
K−1
SQRes
n−JK
P (F > FK−1,n−JK )
SQInt
SQInt
(J−1)(K−1)
SQInt
(J−1)(K−1)
SQRes
n−JK
P (F > FK−1,n−JK )
n − JK
SQRes
SQRes
n−(J+K−1)
n−1
SQTot
SQTot
n−1
(Interazione) (J − 1)(K − 1)
(Residua)
(Totale)
5.4 ANCOVA
L’analisi della varianza è, in sostanza, un modello lineare avente, come variabili esplicative, sole
variabili qualitative. Si dà però anche il caso misto, in cui si hanno tra le esplicative sia variabili
qualitative che quantitative, questa situazione ricade sotto il nome di analisi della covarianza
(ANCOVA).
Si prendano le mosse da un insieme di dati (tabella 1.3), per 32 neonati nati vivi si sono rilevati: il
peso alla nascita (in grammi); la durata della gestazione (in settimane); la circostanza se la madre
fumasse in gravidanza (S/N). L’obiettivo è valutare se il fatto che la madre fumi ha un effetto
sul peso medio del neonato, si ritene però opportuno tenere conto della durata della gestazione
(è noto che, più lunga la durata, maggiore il peso, in media, del neonato).
La variabile ‘fumo’ è qualitativa, si possono allora avere diverse situazioni, in particolare ci si può
chiedere
(i) se, tenuto conto della durata della gestazione, ci sia una differenza in media tra peso dei
neonati di madri fumatrici e peso dei neonati di madri non fumatrici;
(ii) se la relazione tra peso alla nascita e durata della gestazione sia la stessa per le madri non
fumatrici e per le madri fumatrici.
Non vi fosse da tener conto della durata della gravidanza, la differenza nel peso medio tra neonati
di madri fumatrici e di madri non fumatrici verrebbe messa in luce dal confronto tra i due
diagrammi a scatola in figura 5.13(a).
Si potrebbe poi ragionare nella cornice del test t, già visto: indicando con YiF e YiN F i pesi dei
neonati di madri fumatrici e non fumatrici rispettivamente s’avrebbe il modello
IND
YiF ∼ N (µF , σF2 ), i = 1, . . . , nF ,
IND
2
YjN F ∼ N (µN F , σN
F ), j = 1, . . . , nN F ,
114
5.4. ANCOVA
(b)
(c)
●
●
3200
●
●
●
●
●
●
S
●
N
S
34
Madre fumatrice
2400
2400
2400
N
●
S
S
N
S
S
S
N
●
●
S
N
S
N
S
S
N
2600
2600
●
●
N
N
N
2800
●
●
N
N
S
S
S
S
N
●
●
Peso
●
●
N
N
●
●
●
3000
neonati$Peso
3200
●
2800
3200
3000
2800
N
●
●
●
2600
●
●
3400
3400
3400
●
●
3000
(a)
●
36
38
40
42
N
S
34
Durata della gravidanza (settimane)
S
36
38
40
42
Durata della gravidanza (settimane)
Figura 5.13: Pesi dei neonati e variabili esplicative
2 , l’ipotesi secondo cui il fatto che la madre fumi o meno in
e quindi se si assume σF2 = σN
F
gravidanza non ha influenza sul peso del bambino, µF = µN F , si può verificare con il familiare t
test.
Per i dati sui neonati, ad esempio, le medie di gruppo sono pari a 2973.6 per le madri fumatrici
e 3066.12 per le madri non fumatrici. Le varianze sono 125883.58 e 118605.72 e la varianza
complessiva è 122244.65. Si ottiene perciò la statistica t pari a 0.748 e l’ipotesi nulla di eguaglianza
delle medie è accettata con valore p pari a 2P (t30 > 0.748) = 0.4601. Si concluderebbe perciò
che i dati non mostrano un effetto significativo del fumo sul peso del neonato.
Si ha però che, come già accennato, la durata della gravidanza ha un’influenza sul peso del
neonato, basti osservare il diagramma di dispersione tra le due quantità (figura 5.13(b)).
La stima del modello lineare
Pesoi = β1 + β2 Duratai + εi
q
(β̂2 = 130.82, V̂ (β̂2 ) = 12.9) conferma l’impressione, il test per β2 = 0 rifiuta l’ipotesi nulla.
Questo suggerisce che sia appropriato considerare congiuntamente le due variabili, includendole
in un unico modello. Preliminarmente alla costruzione del modello vogliamo visualizzare le tre
variabili assieme, per fare ciò usiamo un diagramma di dispersione per Durata e Peso impiegando
diversi simboli per distinguere le osservazioni relative a madri fumatrici da quelle relative a madri
non fumatrici (figura 5.13(c)). Il grafico suggerisce che, a parità di durata, il peso sia maggiore per
i neonati di madre non fumatrice Si noti che questa differenza scompariva nell’analisi marginale
perché confusa dalla variabilità del peso rispetto alla durata della gestazione.
Indicando da ora in poi con x la durata della gestazione, possiamo formalizzare un’analisi rispetto
alle due variabili scrivendo i due modelli
YiF = β1F + β2F xi + εi ,
IND
εi ∼ N (0, σF2 ), i = 1, . . . , nF ;
IND
2
YiN F = β1N F + β2N F xi + εi , εi ∼ N (0, σN
F ), i = 1, . . . , nF ;
che implicano
YiF
IND
N (µFi , σF2 ), i = 1, . . . , nF ,
YjN F
IND
F
2
N (µN
j , σN F ), j = 1, . . . , nN F ,
∼
∼
con
µFi
F
µN
j
= β1F + β2F xi , i = 1, . . . , nF ,
= β1N F + β2N F xj , j = 1, . . . , nN F .
5. Modello lineare con variabili qualitative
β1F = β1N F , β2F 6= β2N F
β1F 6= β1N F , β2F 6= β2N F
NF
NF
F
F
F
Durata
Peso
NF
Peso
Peso
β1F 6= β1N F , β2F = β2N F
115
Durata
Durata
Figura 5.14: Raffigurazione di modelli alternativi
Le medie dipendono linearmente da x, fare il confronto tenendo conto della gestazione significa
fissare un valore per quest’ultima e confrontare le medie che ne risultano: µF0 = β1F + β2F x0 e
F = β N F + β N F x . Le due medie sono uguali per ogni x – cioè il fumo non ha alcun effetto
µN
0
0
0
1
2
– se e solo se β1F = β1N F , β2F = β2N F . Viceversa, si possono avere tre diverse situazioni (ipotesi
alternative) visualizzate in figura 5.14.
Dal punto di vista interpretativo le quattro situazioni illustrate corrispondono a
β1F 6= β1N F , β2F = β2N F C’è un effetto del fumo sulla media ma la relazione tra peso e durata è la
stessa. Il fatto che la madre fumi comporta una variazione della media del peso del neonato
e questa variazione è la stessa qualunque sia la durata della gestazione.
β1F = β1N F , β2F 6= β2N F La relazione tra peso e durata cambia a seconda che la madre sia fumatrice o meno. Questa particolare situazione non ha un’interpretazione chiara a meno che
l’intercetta abbia un significato specifico, e non è questo il caso poiché l’intercetta sarebbe
il peso del neonato qualora la durata fosse pari a zero, cosa non sensata.
β1F 6= β1N F , β2F 6= β2N F C’è un effetto del fumo sulla media e la relazione tra peso e durata cambia
a seconda che la madre sia fumatrice o meno. Il fatto che la madre fumi comporta una
variazione della media del peso del neonato, la misura della variazione dipende dalla durata
della gestazione.
β1F = β1N F , β2F = β2N F Non c’è effetto né sulla media, né sulla relazione tra peso e durata. Che
la madre fumi o meno, non comporta variazioni sulla media del peso del neonato, quale che
sia la durata della gestazione. (Il peso dipende solo dalla durata della gestazione e non dal
fatto che la madre sia fumatrice.)
5.4.1
ANCOVA come modello lineare
Possiamo scrivere un unico modello lineare in cui, al variare dei parametri, si realizzano le quattro
situazioni elencate sopra, occorre però aggiungere l’ipotesi di omoschedasticità tra i due gruppi:
2
2
σF2 = σN
F = σ . Si ha allora il modello
YiF = β1F + β2F xi + εi ,
IND
εi ∼ N (0, σ 2 ), i = 1, . . . , nF ;
IND
YiN F = β1N F + β2N F xi + εi , εi ∼ N (0, σ 2 ), i = 1, . . . , nF ;
116
5.4. ANCOVA
che può essere scritto come un modello lineare ponendo
xi2 = durata della gravidanza i-esima;
(
1 se madre fumatrice,
xi3 =
0 altrimenti;
xi4 = xi2 xi3 ;
(si veda la tabella 5.8 dove è riportata la matrice dei dati associata al modello) e
Yi = β1 xi1 + β2 xi2 + β3 xi3 + β4 xi4 + εi ,
IND
per i = 1, . . . , n (n = nF + nN F ) con εi ∼ N (0, σ 2 ). Si ha cioè, per le madri non fumatrici
Yi = β1 + β2 xi2 + εi ; i = 1, . . . , nN F ,
mentre per le madri fumatrici
Yi = (β1 + β3 ) + (β2 + β4 )xi2 + εi ; i = nN F + 1, . . . , nN F + nF .
Rispetto al modello della sezione precedente, quindi, salvo l’aver aggiunto l’ipotesi di omoschedasticità, siamo di fronte a una riparametrizzazione per cui
β1 = β1N F , β2 = β2N F , β1 + β3 = β1F , β2 + β4 = β2F .
Le ipotesi alternative sopra
• β1F 6= β1N F , β2F = β2N F
• β1F = β1N F , β2F 6= β2N F
• β1F 6= β1N F , β2F 6= β2N F
• β1F = β1N F , β2F = β2N F
5.4.1.1
si possono
⇔ β3 6= 0,
⇔ β3 = 0,
⇔ β3 6= 0,
⇔ β3 = 0,
scrivere allora
β4 = 0,
β4 6= 0,
β4 6= 0,
β4 = 0.
Verifica delle ipotesi
Illustriamo ora come le diverse ipotesi sull’effetto del fenomeno ‘fumo’ possano essere verificate
mediante confronti tra modelli.
L’ipotesi di assenza di un qualunque effetto del fumo corrisponde a
H0 : β3 = β4 = 0,
e si verifica dunque confrontando i modelli
M0 :
Yi = β1 + β2 xi2 + εi ,
M4 :
Yi = β1 + β2 xi2 + β3 xi3 + β4 xi4 + εi ,
il che può essere fatto calcolando le somme dei quadrati dei residui nei due modelli, RSS0 e
RSS4 , e calcolando dunque la statistica
F =
(RSS0 − RSS4 )/2 H0
∼ F2,n−4 .
RSS4 /(n − 4)
5. Modello lineare con variabili qualitative
Peso
2940
2420
2760
2440
3301
2715
3130
2928
3446
2957
2580
3500
3200
3346
3175
2740
3130
2450
3226
2729
3410
3095
3244
2520
3523
2920
3530
3040
3322
3459
2619
2841
Durata
38
36
39
35
42
36
39
39
42
39
38
42
41
42
41
38
38
34
40
37
40
39
39
35
41
38
42
37
39
40
35
36
117
Fumo
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
S
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
N
x1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
x2
38
36
39
35
42
36
39
39
42
39
38
42
41
42
41
38
38
34
40
37
40
39
39
35
41
38
42
37
39
40
35
36
x3
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
x4
38
36
39
35
42
36
39
39
42
39
38
42
41
42
41
38
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Tabella 5.8: Matrice dei dati
N
N
N
3400
NF
F
Comp
3200
N
N
S
S
S
N
3000
N
S
N
S
S
S
S
(Intercept)
x2
x3
x4
2800
N
2600
S
N
N
Estimate
-2546.1379
147.2069
71.5738
-8.1781
Std. Error
501.0669
13.1203
716.9499
18.5152
t value
-5.08
11.22
0.10
-0.44
Pr(>|t|)
0.0000
0.0000
0.9212
0.6621
S
N
2400
Peso
S
S
N
N
N
S
S
N
34
S
S
36
38
40
42
Durata
Figura 5.15: Rappresentazione grafica dei modelli M0 e M4 , stime per il modello M4 .
118
5.4. ANCOVA
I due modelli M0 e M4 sono rappresentati nella figura 5.15. Si ottiene poi RSS0 = 839951.03 e
RSS4 = 384391.46, da cui la statistica F = 16.59 che porta a rifiutare l’ipotesi nulla di assenza
dell’effetto del fumo.
Si nota (tabella dei coefficienti in figura 5.15) che, sebbene la verifica d’ipotesi abbia portato a
rifiutare l’ipotesi secondo cui β3 = β4 = 0, si accetterebbero le ipotesi separate β3 = 0 e β4 = 0.
Questo suggerisce che il modello possa essere semplificato5 .
A guardare il grafico, le due rette stimate appaiono parallele, sicché pare ragionevole valutare un
modello con β4 = 0, ammettendo cioè una differenza sulla sola intercetta. È in effetti spesso di
interesse verificare l’esistenza di un effetto di interazione contro l’esistenza di un effetto marginale,
cioè confrontare i modelli
M3 :
Yi = β1 + β2 xi2 + β3 xi3 + εi ,
M4 :
Yi = β1 + β2 xi2 + β3 xi3 + β4 xi4 + εi ,
3 −RSS4 )/1
mediante la statistica F = (RSS
RSS4 /(n−4) , che, nell’ipotesi nulla, è distribuita secondo una F1,n−4 .
Si ottiene RSS3 = 387069.83 da cui la statistica F = 0.2 a cui corrisponde un valore p di 0.66, si
accetta dunque l’ipotesi nulla, corrispondente al modello M3 .
La tabella dei coefficienti
(Intercept)
x2
x3
Estimate
-2389.5729
143.1003
-244.5440
Std. Error
349.2061
9.1281
41.9818
t value
-6.84
15.68
-5.83
Pr(>|t|)
0.0000
0.0000
0.0000
mostra che si rifiuta l’ipotesi di nullità di ciascun coefficiente. (In particolare si rifiuterebbe
l’ipotesi nulla nel confronto tra il modello M0 e M3 .)
Insomma, la circostanza che la madre fumi in gravidanza ha un effetto sulla media del peso del
neonato a parità di durata di gestazione e tale effetto è quantitativamente lo stesso per qualunque
durata.
I confronti fatti possono essere sintetizzati nella tabella seguente
x2
x3
x4
Residuals
Df
1
1
1
28
Sum Sq
2895838.47
452881.20
2678.37
384391.46
Mean Sq
2895838.47
452881.20
2678.37
13728.27
F value
210.94
32.99
0.20
Pr(>F)
0.0000
0.0000
0.6621
In ciascuna riga è riportata, nella colonna Sum Sq, la differenza tra la somma dei quadrati del
modello con le variabili delle righe precedenti e il modello cui viene aggiunta la variabile riferita
alla riga (la riga x3 riporta il confronto tra il modello con la sola x2 e il modello con x2 e x3), la
colonna Df contiene le corrispondenti differenze di gradi di libertà e la colonna Mean Sq contiene
i rapporti tra le due colonne precedenti. Le statistiche F riportate nella penultima colonna sono
i rapporti tra la Mean Sq della riga e la media dei quadrati dei residui (ultima riga).
Si noti perciò che i test sono diversi da quelli che si ottengono confrontando i modelli con le analisi
della varianza sopra (cambia il denominatore della statistica F e cambiano i gradi di libertà).
Si noti anche che i risultati non possono essere riferiti alla componente ma a specifici confronti,
cambiando l’ordine delle variabili cambiano i risultati.
5
(Il valore p più elevato è quello per il test dell’ipotesi di nullità del coefficiente β3 , si preferisce però considerare
il modello con β4 = 0, perché più facilmente interpretabile.)
5. Modello lineare con variabili qualitative
119
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
6
●
●
●
●
●
●
●
●
●
Communication
Energy
Finance
HiTech
Manufacturing
Medical
Other
Retail
Transportation
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
5
6
7
8
9
10
11
5
6
7
log(Patrimonio)
●●
● ●
8
9
Communication
Energy
Finance
HiTech
Manufacturing
Medical
Other
Retail
Transportation
10
11
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
10
9
●
●●
●
●
●
8
●●
● ●
●
●
●
●
●
●
●
●
●
●
log(Vendite)
9
●
●
●
●
●
●
●
7
7
●
●
●
●
●
7
●
●
●
●
●
●
●●
8
●
log(Vendite)
●
●
●
●
●
●
●
6
9
8
log(Vendite)
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
6
●
●
●
●●
● ●
●
●
10
10
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
11
(c)
11
(b)
11
(a)
●
●
●
●
●
●
●
●
5
6
log(Patrimonio)
7
8
9
Communication
Energy
Finance
HiTech
Manufacturing
Medical
Other
Retail
Transportation
10
11
log(Patrimonio)
Figura 5.16: Modelli stimati per i dati sulle imprese
Esempio 5.3 Imprese. Per 77 imprese statunitensi si sono rilevate le vendite e il patrimonio
nel 1986 ed è registrato anche il settore produttivo (Fonte: DASL). Quest’ultima variabile è
ovviamente di tipo qualitativo, in particolare si considerano i 9 livelli: Communication, Energy,
Finance, HiTech, Manufacturing, Medical, Other, Retail, Transportation.
I dati sono rappresentati in figura 5.16(a), dove si sono usate le trasformate logaritmiche per
linearizzare le relazioni.
Ha senso porsi le seguenti questioni
(i) se, a parità di patrimonio, le vendite siano, in media, diverse nei diversi settori;
(ii) se la variazione della media del logaritmo delle vendite corrispondente a una variazione
unitaria del logaritmo del patrimonio sia la medesima nei vari settori.
Assumendo eguale varianza nei gruppi (settori), e indicando con xi il logaritmo del patrimonio,
con yi il logaritmo delle vendite e con zij , j = 1, . . . , 9 le variabili indicatrici dei settori, si specifica
il modello
9
9
X
X
Yi = β 1 + β 2 x i +
αi zij +
δi xi zij + εi , ε ∼ N (0, σ 2 I),
(5.15)
i=2
i=2
la cui stima è rappresentata in figura 5.16(b). Si può allora rispondere alla questione (ii)
verificando l’ipotesi
H0 : δ2 = δ3 = . . . = δ9 = 0,
ossia confrontando il modello (5.15) col modello ridotto
Yi = β1 + β2 xi +
9
X
αi zij + εi , ε ∼ N (0, σ 2 I).
(5.16)
i=2
La sintesi del confronto, da cui si accetta l’ipotesi nulla e quindi l’assenza di differenze nella
relazione tra patrimonio e vendite nei diversi settori, è espressa in tabella.
1
2
Res.Df
69
61
RSS
21.64
18.00
Df
Sum of Sq
F
Pr(>F)
8
3.64
1.54
0.1616
Notiamo che in effetti si accetta l’ipotesi nulla di eguaglianza a zero per tutti i parametri del
modello, come mostra la tabella 5.17.
Alla domanda (i) si risponde confrontando il modello (5.16) con il modello ridotto Yi = β1 +
β2 xi + εi . La sintesi del confronto è espressa in tabella, la differenza nelle somme dei quadrati
120
5.5. Esercizi
β1
β2
α−Energy
α−Finance
α−HiTech
α−Manuf
α−Medical
α−Other
α−Retail
α−Transp
Estimate
0.7825
0.9940
-0.0807
1.2206
-0.9973
-0.9904
-0.6181
-0.8644
-1.6661
-1.0438
s.e.
0.6906
0.0667
0.4289
0.4363
0.4427
0.4340
0.5028
0.4542
0.4338
0.4590
t
1.13
14.90
-0.19
2.80
-2.25
-2.28
-1.23
-1.90
-3.84
-2.27
β1
β2
α−Energy
α−Finance
α−HiTech
α−Manuf
α−Medical
α−Other
α−Retail
α−Transp
δ−Energy
δ−Finance
δ−HiTech
δ−Manuf
δ−Medical
δ−Other
δ−Retail
δ−Transp
Pr(>|t|)
0.2611
0.0000
0.8512
0.0067
0.0275
0.0256
0.2232
0.0612
0.0003
0.0261
Estimate
0.1080
1.0736
3.0926
2.1901
-1.8095
-2.0536
-0.6663
-3.4185
1.2197
-2.2923
-0.4220
-0.1240
0.0951
0.1311
0.0318
0.3534
-0.3408
0.1645
s.e.
5.1532
0.6060
5.2641
5.2188
5.2865
5.5531
5.3821
5.5070
5.6147
6.1177
0.6233
0.6183
0.6212
0.6555
0.6502
0.6590
0.6604
0.7359
t
0.02
1.77
0.59
0.42
-0.34
-0.37
-0.12
-0.62
0.22
-0.37
-0.68
-0.20
0.15
0.20
0.05
0.54
-0.52
0.22
Pr(>|t|)
0.9833
0.0814
0.5590
0.6762
0.7333
0.7128
0.9019
0.5371
0.8288
0.7092
0.5009
0.8417
0.8789
0.8422
0.9611
0.5937
0.6077
0.8238
Figura 5.17: Stime dei coefficienti per il modello (5.16) a sinistra e (5.15) a destra
dei residui è tale per cui si rifiuta l’ipotesi nulla, la media dei logaritmi delle vendite è, a parità
di patrimonio, diversa da un settore all’altro.
1
2
Res.Df
77
69
RSS
75.92
21.64
Df
Sum of Sq
F
Pr(>F)
8
54.28
21.64
0.0000
Dall’esame della tabella dei coefficienti e del grafico del modello (figura 5.16(c)) possiamo notare
alcuni dettagli: non per tutti i coefficienti si rifiuta l’ipotesi di nullità al livello del 5%, per
alcuni settori (in particolare: Energia, Medico e la classe residuale Altri settori) dunque non vi è
differenza nella media delle vendite col settore delle comunicazioni (che è quello preso come base).
Per altri settori si hanno coefficienti simili in valore (tenuto conto degli s.e.) quindi altri settori
non presentano, presumibilmente, differenze (ad esempio: Alta tecnologia e Manifatturiero), è
però più complesso formalizzare questo tipo di verifiche. •
5.5 Esercizi
Esercizio 1 Si scriva il modello (5.6) in forma matriciale e si ottengano le quantità rilevanti
usando le formule generali.
(Risposte:
ovviamente coincidono con quelle già ottenute sopra, si dà solo la matrice
Le quantità
n
n
B
XT X =
)
nB nB
Esercizio 2 Si illustri come verificare l’ipotesi nulla µA = µ0 contro µA 6= µ0 usando il modello
(5.6).
Esercizio 3
Si completi la tabella ANOVA
fattore
Residuals
e si dica
Df
3
12
Sum Sq
24.44
Mean Sq
11.29
F value
Pr(>F)
5. Modello lineare con variabili qualitative
121
1. quanti sono i gruppi;
2. quante sono le osservazioni;
3. se si accetta o rifiuta l’ipotesi.
Esercizio 4
La tabella che segue riporta i risultati di un ANOVA a un fattore
fattore
Residuals
Df
2
6
Sum Sq
0.85
6.70
Mean Sq
0.42
1.12
F value
0.38
Pr(>F)
0.6996
Si dica
1. Quante sono le osservazioni del campione.
2. Quante sono le osservazioni per gruppo sapendo che il disegno sperimentale ? bilanciato
(cio? lo stesso numero di osservazioni per ciascun gruppo).
3. Qual ? la varianza della variabile risposta.
Esercizio 5 Per verificare se tre sonniferi A, B e C hanno diversa efficacia si suddivide casualmente un campione di individui in tre gruppi a ciascuno dei quali si somministra uno dei
sonniferi, si misura poi per ciascun individuo il numero di ore di sonno. In particolare i sonniferi
A, B e C sono somministrati rispettivamente a 3, 11 e 7 individui. Si definscono le variabili xB
e xC (indicatrici) dove xBi (xCi ) è 1 se all’individuo i si ? somministrato il sonnifero B (C) e 0
altrimenti.
Si stima poi un modello di regressione multipla con variabile risposta il numero di ore di sonno
e variabili esplicative xB e xC, le stime dei coefficienti sono riportate nella tabella
(Intercept)
xB
xC
Estimate
7.9500
-1.0373
1.1086
Std. Error
0.5108
0.5763
0.6105
t value
15.56
-1.80
1.82
Pr(>|t|)
0.0000
0.0887
0.0861
Si ottengano
1. Le ore medie di sonno per ciascun sonnifero.
2. La media complessiva della variabile risposta.
3. Sapendo poi che la somma dei quadrati della variabile risposta è 1303.75, si ottengano la
devianza totale e le sue componenti.
4. Si verifichi l’ipotesi secondo cui i sonniferi hanno la stessa efficacia.
Esercizio 6 Si considerino le rilevazioni delle calorie (per pezzo) in 54 confezioni di hot-dog
prodotti con 3 diversi tipi di carne: Bovina, Mista e Pollame, rappresentati nella figura 1.2
1. Si ottengano le calorie medie per tipo di carne.
2. Si calcolino le devianze (varianze) interne ai gruppi e tra i gruppi e si verifichi che la loro
somma è uguale alla devianza (varianza) totale.
3. Si verifichi l’ipotesi secondo cui i tre tipi di carne comportano in media le stesse calorie
stimando un opportuno modello di regressione multipla.
Esercizio 7 Considerando un ANOVA a una via con tre gruppi, si ottengano gli stimatori dei
coefficienti per il modello lineare mediante calcolo matriciale.
122
5.5. Esercizi
Soluzione (cenno): data la natura della matrice X si ha


n n 2 n3
n2 0 
XT X = 
n3
e |X T X| = nn2 n3 − n2 n23 − n22 n3 = n2 n3 (n − n2 − n3 ) = n1 n2 n3 , pertanto


 
n2 n3 −n2 n3
−n2 n3
1/n1
−1/n1
−1/n1
1


nn3 − n23
n2 n 3  = 
1/n1 + 1/n2
1/n1
(X T X)−1 =
n1 n2 n3
2
nn2 − n2
1/n1 + 1/n3
si ha poi X T y = (nȳ, n2 ȳ2 , n3 ȳ3 )T e si ottengono facilmente i già discussi stimatori.
Esercizio 8 Con i dati sui tempi olimpici maschili e femminili (esempio 6 del capitolo 1) si
risponda ale seguenti domande.
1. Vi è una differenza in media tra i tempi maschili e femminili?
2. Il miglioramento negli anni è lo stesso per maschi e femmine?
Capitolo 6
Punti leva, anomali, influenti
Nella figura 6.1 si sono rappresentate 10 osservazioni (xi , yi ) (pallini neri) e la relativa retta
dei minimi quadrati (in nero). Si è poi aggiunto un tredicesimo punto, alternativamente quello
rappresentato dal triangolo blu, a = (xa , ya ) nel seguito, dal quadrato verde, b = (xb , yb ), o dal
rombo rosso, c = (xc , yc ). In ciascun caso si è ricalcolata la retta dei minimi quadrati con gli ora
13 punti a disposizione ottenendo le tre rette identificate dai colori corrispondenti ai punti.
Osserviamo l’effetto del tredicesimo punto sulla retta stimata
• a non è in linea con l’andamento degli altri, tuttavia la sua aggiunta non porta a una grande
variazione della retta dei MQ, diminuisce invece di molto l’R2 ;
• b è in linea con l’andamento, ancorché molto distante sull’asse delle ascisse, e la sua aggiunta
porta a una variazione minima della retta, aumenta d’altra parte l’R2 ;
• c non è in linea con l’andamento ed è distante sull’asse delle ascisse, la retta dei MQ si
modifica sensibilmente e l’R2 si riduce.
Per catalogare meglio questi comportamenti conviene dare le seguenti definizioni
punto leva: un punto è leva se è distante dalla massa sul piano delle covariate (si noti, è una
caratteristica relativa alle sole covariate);
punto anomalo: un punto è anomalo se è distante dagli altri quanto alla relazione tra le
variabili, il punto è lontano dalla retta di regressione sul piano (x, y);
punto influente: un punto è influente se ristimando la retta senza di esso si ottengono
coefficienti sensibilmente diversi.
Nella figura 6.1 sono leva i punti b e c, anomali a e c, mentre è influente il solo c.
S’intuisce allora che la rilevanza dei punti leva è nel fatto che hanno la potenzialità di influenzare
la stima in quanto la retta sarà forzata a passare vicino ad essi (si ricordi il discorso fatto sulla
varianza dei residui nel contesto della regressione semplice, se un punto ha ascissa x tale che |x− x̄|
è elevato, ha varianza piccola, nella sezione 1.1 si estende il discorso alla regressione multipla),
se un punto leva non è anomalo, tuttavia, avrà poca influenza sulla stima dei coefficienti, esso
diventa influente se è leva e contemporaneamente anomalo.
Si noti che l’esemplificazione fatta con riferimento a un singolo punto ha scopo illustrativo, ed è
anzi ben possibile trovare situazioni in cui più punti sono ‘strani’, si veda la figura 6.2 per alcuni
esempi.
La presenza di punti con queste caratteristiche disturba l’inferenza nel senso che tutte o parte
delle conclusioni che si traggono dipendono fortemente da una o poche unità campionarie. È
124
6.1. Diagnostiche
a
R2
0.68
0.03
0.94
0.17
b
y
nero
blu (con a)
verde (con b)
rosso (con c)
●
●
c
● ●
●●
●
●
●
●
●
●
s
0.10
0.75
0.10
0.15
x
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
● ●
y
●
● ●
● ●●
●
●
●●
●
0
●
●
●
y
●
●
●
● ●
2
●
−1 0
●
●
●
●
−1 0
y
●
●
−3
1
●
●
●
2
●●
●
3
●
1
●
1
3
Figura 6.1: Esempi di: punti leva (rombo rosso, c e quadrato verde, b); valori anomali (triangolo
blu, a e rombo rosso, c); e osservazioni influenti (rombo rosso, c).
●
● ●
●
● ●
●
●
●
●
●
● ●●
●
●
●
−1.0
−0.5
0.0
0.5
1.0
●
−1.0
−0.5
0.0
x
(a)
0.5
1.0
1.5
●●●
−1
−5
−3
●
●●
●
●
●
−1
0
1
x
(b)
2
3
x
(c)
Figura 6.2: Esempi vari: sono rappresentate in nero la retta ottenuta con i soli punti neri, in
rosso/verde quella ottenuta con i neri e il rosso/verde in blu quella ottenuta con tutti i punti; in
(a) si nota come gli effetti si sommano; in (b) si compensano; in (c) è esemplificato l’effetto di
un gruppo
importante perciò notarne la presenza, e a tal fine nella sezione 1 si illustrano opportuni indicatori,
e eventualmente porre dei rimedi, alcuni dei quali sono descritti nella sezione 2.
6.1 Diagnostiche
L’individuazione di punti con le caratteristiche illustrate sopra può essere agevolmente fatta guardando il grafico nel caso della regressione semplice, non cosı̀ nel caso della regressione multipla.
Nel seguito perciò si illustrano alcuni indicatori numerici utili per individuare punti leva, osservazioni anomale e osservazioni influenti. Per molti di essi in letteratura sono suggerite delle
specifiche soglie al di sopra delle quali l’osservazione è da considerarsi degna di attenzione. Sebbene si riportino tali soglie, il suggerimento generale è di non usarle in maniera troppo automatica,
essendo più opportuno calcolare i valori degli indicatori e esaminare più attentamente quei punti
in corrispondenza ai quali gli indicatori sono alti rispetto agli altri.
Ricordiamo che i valori teorici per il generico modello lineare (4.2) si ottengono con ŷ = X(X T X)−1 Xy,
dove X(X T X)−1 X è la matrice di proiezione, indicata con P nei capitoli precedenti e H in questo
capitolo (da hat matrix, per uniformità con la letteratura e il pacchetto R).
6. Punti leva, anomali, influenti
125
Al fine di isolare il contributo dell’i-esima osservazione risulterà utile stimare il modello senza
l’osservazione i-esima, si indicheranno nel seguito le quantità associate a questo secondo modello
con il pedice −i, sicché X−i è la matrice (n − 1) × p ottenuta togliendo l’i-esima riga dalla matrice
X, y−i ∈ Rn−1 è il vettore y senza l’i-esima osservazione. Si ha allora
Y−i = X−i β−i + ε, ε ∼ N 0, σ 2 In−1 .
(6.1)
Si ha poi lo stimatore
T
T
β̂−i = (X−i
X−i )−1 X−i
y−i .
(6.2)
Con il modlelo (6.1) si calcolano poi i valori teorici e i residui per tutte le n osservazioni, si
definiscono allora le quantità ŷ−i = X β̂−i , e−i = y − ŷ−i , s2−i = eT−i e−i /(n − p − 1) (si noti il
leggero abuso di notazione, a rigori per uniformità sarebbe ŷ−i = X−i β̂−i , si noti peraltro che
X−i β̂−i e X β̂−i sono uguali salvo che per l’osservazione i-esima).
Si vedrà nel seguito, e in particolare nella sezione 1.4 che queste quantità si possono calcolare
senza bisogno di ristimare il modello.
6.1.1
Punti leva
Un punto si definisce leva in virtù del valore assunto dalle esplicative in quel punto rispetto
agli altri, per effetto di queste, il modello tende ad avere un residuo (relativamente) piccolo in
corrispondenza ad esso (ossia il modello è forzato a passarvi vicino). Si ricordi che, per i residui
e = y − ŷ = y − Hy, si ha
V (e) = (I − H)σ 2 ,
(6.3)
da cui
V (ei ) = (1 − hii )σ 2 ,
(6.4)
sicché il residuo i-esimo è tanto meno variabile quanto più grande è hii (i-esimo elemento della
diagonale di H), perciò un elevato
P valore di hii è indice di un punto leva. Il coefficiente leva
1
soddisfa a 0 < hii < 1 , e si ha i hii = rango(H) = p: il valore medio di hii è quindi p/n. In
letteratura sono suggerite come soglie di attenzione il doppio o il triplo del valor medio: 2p/n
(piccoli campioni) o 3p/n.
Aiuta nell’interpretazione degli hii notare che
Ŷi =
n
X
j=1
hij Yj = hii Yi +
X
hij Yj .
(6.5)
j6=i
Il valore hii misura quindi quanto pesa Yi nel determinare Ŷi .
Nel caso in cui il modello comprende l’intercetta si può mostrare (vedi sezione 1.4.6) che
hii =
1
1 + (x̃i − µ)Σ−1 (x̃i − µ) ,
n
(6.6)
1
Che hii < 1 è ovvio stante che altrimenti V (ei ) sarebbe minore di zero. Che hii ≥ 0 discende dal fatto
che hii è l’i-esimo elemento diagonale di X(X T X)−1 X, ossia, indicando con xi ∈ Rp l’i-esima riga di X, hii =
T
xTi (X T X)−1 xi , che è maggiore (o uguale) di zero
X)−1 è (semi)definita positva. Alternativamente, si ricordi
Pnse (X
2
2
che la matrice H è idempotente, quindi hii = j=1 hij . Si noti anche che, se il modello contiene l’intercetta, allora
hii ≥ 1/n (in virtù della formula mostrata nella sezione 1.4.6).
6.1. Diagnostiche
6
0.15
126
0.10
4
●
●
2
0
x2
hi
−2
0.05
●
●
●
●
●
●
●
●
●
● ●●
●
●
● ●
● ● ●
● ●
●
●
●
● ●
●
●● ●
●
●
●
● ●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
−6
0.00
−4
●
−6
−4
−2
0
2
4
6
−6
−4
−2
0
2
4
6
x1
x
Figura 6.3: A sinistra: andamento della funzione h(x) per un modello con singolo regressore (e
intercetta) nel caso di un campione di dimensione 20 (in rosso) e di un campione di dimensione
100 (in nero), le linee orizzontali rappresntano soglie a p/n, 2p/n e 3p/n; a destra: andamento
della funzione h per un modello con due regressori (e l’intercetta)
dove µ è il vettore delle medie delle covariate (esclusa l’intercetta) e Σ la loro matrice di varianza
campionaria. La misura della leva è quindi proporzionale a (x̃i − µ)Σ−1 (x̃i − µ) che è il quadrato
della distanza di Mahalanobis di x̃i dalla media delle covariate, i luoghi dei punti a leva costante
sono quindi ellissoidi in Rp−1 , nella figura 6.3 si sono rappresentati i casi p = 2 e p = 3.
Un punto è leva o meno indipendentemente dal valore assunto dalla variabile risposta, esso quindi
non ha necessariamente effetto sulla stima dei β̂, ha però un effetto su R2 , che, se il punto non è
anomalo, risulterà più alto (si vedano gli esempi nella figura 6.1, il punto b, che è ‘in linea’ con
gli altri, non produce un grande cambiamento nella retta ma incrementa R2 ). Il rischio perciò è
di sopravvalutare la bontà del modello in termini di adattamento.
6.1.2
Valori anomali
Un valore è anomalo per il modello (??) quando si discosta ‘di molto’ dal modello stimato, tale
scostamento si misura evidentemente con il residuo, in particolare il residuo standardizzato
e∗i = √
o studentizzato (internamente)
ei
1 − hi
ei
ri = √
,
s 1 − hi
questi sono, lo ricordiamo, approssimativamente normali (vedi discorso fatto su analisi dei residui), non sono distribuiti secondo una t in quanto numeratore e denominatore non sono indipendenti.
Gli strumenti di analisi dei residui già visti – residui contro valori teorici, grafico dei quantili –
sono in grado di evidenziare residui anormalmente elevati, tuttavia non è detto che un valore
anomalo abbia un residuo elevato, per quanto visto sopra, se il punto è anche leva potrebbe avere
un residuo contenuto: si definiscono perciò alcuni ulteriori indicatori.
6. Punti leva, anomali, influenti
127
Si ottiene un ‘residuo’ distribuito secondo una t per l’i-esima osservazione stimando il modello
senza l’i-esimo punto, ottenendo da tale stima la stima della varianza: s2−i e calcolando
ri∗ =
e
√i
,
s−i 1 − hi
(6.7)
che è a questo punto distribuito secondo una tn−p−1 , si parla di residuo studentizzato esternamente. Si noti che non è effettivamente necessario ristimare la retta poiché si mostra che (sezione
1.4.5)
(n − p)s2 − e2i (1 − hii )−1
s2−i =
.
(6.8)
n−p−1
La quantità (6.7) è anche riferibile al modello
Y = Xβu + δv + ε, ε ∼ N 0, σ 2 I ,
(6.9)
dove v è una variabile indicatrice definita da
(
1 se j = i,
vj =
0 altrimenti.
Il parametro δ indica allora lo scostamento dell’i-esimo punto dal modello originale (cioè (??)),
si consideri allora il sistema d’ipotesi H0 : δ = 0 contro H1 : δ 6= 0, la statistica test
tδ =
δ̂
V̂ (δ̂)
,
(6.10)
la cui distribuzione è tn−p−1 coincide con ri∗ definito in (6.7) (si veda la sezione 1.4.4).
Quali valori di ri∗ siano da ritenere troppo elevati viene a questo punto dal confronto con la
distribuzione tn−p−1 , con l’avvertenza però che siccome il confronto viene fatto n volte siamo di
fronte a un problema di test ripetuti e quindi dobbiamo applicare una correzione, ad esempio
quella di Bonferroni, per cui il valore p associato al residuo ri∗ non è 2P (tn−p−1 > |ri∗ |) ma
2nP (tn−p−1 > |ri∗ |).
6.1.3
Valori influenti
Diciamo che un’osservazione è influente se, quando essa viene tolta, la stima cambia in misura
rilevante.
Una misura naturale dell’influenza è allora la distanza di Cook: dal modello senza l’i-esima osservazione si ottengono i valori teorici ŷ−i = X β̂−i ∈ Rn e si calcola la distanza, standardizzata,
tra la previsione dal modello stimato con tutte le osservazioni e la previsione dal modello stimato senza l’i-esima osservazione; si nota poi che tale distanza corrisponde anche alla distanza
standardizzata tra gli stimatori di β con e senza l’osservazione i-esima.
Di =
=
=
1
(ŷ − ŷ−i )T (ŷ − ŷ−i )
ps2
1
(X β̂ − X β̂−i )T (X β̂ − X β̂−i )
ps2
1
(β̂ − β̂−i )T X T X(β̂ − β̂−i ).
ps2
(6.11)
6.1. Diagnostiche
3
128
1−h
0
1
h
−1
D < D0
−2
r = − D0p
1−h
h
D > D0
−3
r (residui standardizzati)
2
r = + D0p
0.0
0.2
0.4
0.6
0.8
1.0
h (punteggio leva)
Figura 6.4: Grafico per coefficiente leva e distanza di Cook
Più è grande il valore di Di più l’osservazione è influente, i valori soglia di solito considerati sono
0.5 o 1, sono anche state suggerite soglie più specifiche quali ad esempio 4/(n − p).
S’intuiva dal grafico iniziale che il carattere di influenza dipende dai residui yi − ŷi e da quanto
l’osservazione è leva. Questo non è evidente dalla formulazione (6.11), si mostra però (vedi la
sezione 1.4.1) che
2
1
ei
1
hii
hii
√
Di =
= ri2
.
(6.12)
p s 1 − hii
1 − hii
p 1 − hii
La formula riflette il fatto che, a parità di residuo assoluto (|ri |), la distanza di Cook è tanto più
hii
grande quanto più grande è hii ovvero il rapporto 1−h
che, si noti, è pari a VV ((eŶii)) .
ii
La (6.12), inoltre, suggerisce un modo di rappresentare in un unico grafico le tre quantità: residui
(r), coefficienti leva (h) e distanze di Cook (D). Un tale grafico può essere strutturato come in
figura 6.4, dove in un piano cartesiano si indicano i coefficienti h sull’asse delle ascisse e i residui
standardizzati r sull’asse delle ordinate, si rappresentano poi nel piano alcune linee di livello della
funzione D(r, h) = (1/p)r2 h/(1 − h) – tipicamente i livelli 0.5 e 1 già citati sopra – in modo da
evidenziare le osservazioni che superino tali soglie “critiche”. Per degli esempi si vedano le figure
6.6(e) 6.8(c).
Alternativamente, si possono rappresentare su un piano cartesiano i punti di coordinate
hii
, Di
1 − hii
e alcune linee di livello della funzione r2 (D, h) = D 1−h
h , che sono delle rette (si veda per un
esempio la figura 6.6(f )).
La distanza di Cook è un modo sintetico di misurare l’influenza dell’osservazione i-esima sul modello nel complesso, si possono considerare misure specifiche di alcuni aspetti, singoli coefficienti
o singoli valori teorici. Nel seguito sono presentate alcune misure standard che, si noti, sono
singoli addendi della distanza di Cook nell’una o nell’altra forma.
Consideriamo dapprima la variazione nella stima di ciascuno dei coefficienti βj dovuta all’eliminazione del caso i-esimo, si definiscono i
DFBETAi = β̂ − β̂−i = (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) ,
(6.13)
6. Punti leva, anomali, influenti
129
eventualmente standardizzati
β̂j − β̂−i,j
stDFBETAij = √
.
V (β̂−i,j )
(6.14)
Per esaminare i (st)DFBETA è utile disegnare dei grafici (per ciascuno j) da cui emergono le
√
osservazioni più influenti coefficiente per coefficiente, valori superiori a 2/ n di stDFBETA sono
sospetti. Si noti che questa strategia ha il difetto che i valori da esaminare sono numerosi (np).
Ancora un’altra possibilità è di confrontare puntualmente i valori teorici ottenuti con e senza
l’osservazione i-esima
hii
DFFITi = ŷ − ŷ−i =
ei
(6.15)
1 − hii
ci saranno in questo caso n × n valori da considerare.
6.1.4
Derivazione di alcune formule
Alcuni dei risultati usati sopra richiedono, per essere dimostrati, alcuni passaggi di algebra lineare,
non essendo questi aspetti centrali al discorso li si è concentrati in questa sezione, con gli opportuni
richiami puntuali al resto del testo.
Molti dei risultati in questione fanno riferimento al modello stimato senza l’i-esima osservazione
e definito in (6.1). Le quantità associate al modello (6.1) sono legate a quelle associate al modello
(??) ed è questo legame che va sfruttato per mostrare i vari risultati.
Il punto di partenza è allora esprimere lo stimatore β̂−i (6.2) in funzione di β̂, si ha che
β̂−i = β̂ − (X T X)−1 xi
yi − ŷi
,
1 − hii
(6.16)
dove xi è il vettore p × 1 delle osservazioni relative all’i-esima unità.
Per mostrare la (6.16) partiamo dalla (6.2)
T
T
β̂−i = (X−i
X−i )−1 (X−i
y−i )
e notiamo che, essendo X−i la matrice (n − 1) × p ottenuta togliendo l’i-esima riga dalla matrice
T X
T
T
T
T
X, si ha X−i
−i = X X − xi xi e X−i y = X y − xi yi , da cui
β̂−i = (X T X − xi xTi )−1 (X T y − xi yi ).
(6.17)
Si usa allora l’identità di Woodbury (semplificata): (A+BC)−1 = A−1 −A−1 B(I+CA−1 B)−1 CA−1 ,
che implica
(X T X − xi xTi )−1 = (X T X)−1 + (X T X)−1 xi (I − xTi (X T X)−1 xi )−1 xTi (X T X)−1 ,
dove xTi (X T X)−1 xi = hii e quindi (I − xTi (X T X)−1 xi )−1 = (1 − hii )−1 I.
La (6.17) diventa dunque
β̂−i = ((X T X)−1 + (1 − hii )−1 (X T X)−1 xi xTi (X T X)−1 )(X T y − xi yi )
= (X T X)−1 X T y + (1 − hii )−1 (X T X)−1 xi xTi (X T X)−1 X T y
− (X T X)−1 xi yi − (1 − hii )−1 (X T X)−1 xi xTi (X T X)−1 xi yi
130
6.1. Diagnostiche
sfruttando di nuovo il fatto che xTi (X T X)−1 xi = hii e notando anche che xTi (X T X)−1 X T è
l’i-esima riga della matrice di proiezione e quindi xTi (X T X)−1 X T y = ŷi si ha
β̂−i = β̂ + (1 − hii )−1 (X T X)−1 xi ŷi − (X T X)−1 xi yi − (1 − hii )−1 (X T X)−1 xi hii yi
= β̂ − (X T X)−1 xi yi + (1 − hii )−1 hii yi − (1 − hii )−1 ŷi
= β̂ − (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) .
QED.
6.1.4.1
Formula (6.12) per la distanza di Cook
Nella (6.11) si sostituisce
β̂ − β̂−i = (X T X)−1 xi (1 − hii )−1 (yi − ŷi ) ,
ottendo
Di =
=
=
1 T T −1 T
x (X X) X X(X T X)−1 xi (1 − hii )−2 (yi − ŷi )2
ps2 i
1
hii (1 − hii )−2 (yi − ŷi )2
ps2
1 2 hii
r
.
p i 1 − hii
che è la (6.12).
6.1.4.2
Residui di previsione e−i
Calcoliamo i valori teorici per l’intero campione (compresa l’osservazione i-esima) secondo il
modello (6.1), sfruttando la (6.16) si ha
ŷ−i = X β̂−i = X β̂ − X(X T X)−1 xi (1 − hii )−1 (yi − ŷi ) .
In particolare per l’i-esima osservazione (non usata per ottenere β̂−i ) si ha
ŷ−i,i = xTi β̂−i = xTi β̂ − xTi (X T X)−1 xi (1 − hii )−1 (yi − ŷi )
= xTi β̂ − hii (1 − hii )−1 (yi − ŷi )
= (1 − hii )−1 (ŷi − hii yi ),
il corrispondente residuo, detto anche residuo di previsione, è quindi
e−i,i = yi − ŷ−i,i =
yi − ŷi
.
1 − hii
Si noti che e−i,i coincide con il residuo standardizzato.
(6.18)
6. Punti leva, anomali, influenti
6.1.4.3
131
Inversione di una matrice a blocchi
Nel seguito servirà invertire una matrice a blocchi, vale la formula
−1 A B
(A − BD−1 C)−1
−A−1 B(D − CA−1 B)−1
=
.
C D
−(D − CA−1 B)−1 CA−1
(D − CA−1 B)−1
(6.19)
Si noti anche che si ha
(A − BD−1 C)−1 = A−1 + A−1 B(D − CA−1 B)−1 CA−1 ,
(6.20)
(A − BD−1 C)−1 BD−1 = A−1 B(D − CA−1 B)−1 ,
(6.21)
D
−1
C(A − BD
−1
−1
C)
−1
= (D − CA
−1
B)
−1
CA
,
D−1 + D−1 C(A − BD−1 C)−1 BD−1 = (D − CA−1 B)−1 ,
6.1.4.4
(6.22)
(6.23)
Dimostrazione di tδ = ri∗ (6.10) e (6.7)
Si noti anzitutto che nella (6.10) si ha δ̂ = e−i,i (la presenza della variabile v fa sı̀ che il modello
P
(6.9) abbia residuo i-esimo nullo, i coefficienti β̂v realizzano pertanto il minimo di j6=i (yi −Xβv )2
perché il restante è zero), si ha allora δ̂ = yi − ŷ.i,i = ei /(1 − hii ) per la (6.18), mentre
V̂ (δ̂) = s2−i [(X̄ T X̄)−1 ]ii ,
dove X̄ = [v, X], supponendo senza perdita di generalità i = 1 avremo
1
xTi
T
.
(X̄ X̄) =
xi X T X
Usando la formula (6.19) per l’inversione di una matrice a blocchi otteniamo l’elemento (1, 1) di
(X̄ T X̄)−1 , che è quello che qui interessa,
[(X̄ T X̄)−1 ]11 = (1 − xTi (X T X)−1 xi )−1 = (1 − h11 )−1 .
Si ha perciò
δ̂
ei (1 − hii )−1
e
q
p
√ i
=
=
,
−1
s
1
−
h
s
(1
−
h
)
−i
11
−i
11
V̂ (δ̂)
cioè la (6.10) QED.
6.1.4.5
Formula (6.8) per s2−i
Consideriamo la varianza s2−i , per essa si ha
T
T
T
(n − p − 1)s2−i = y−i
y−i − β̂−i
X−i
y−i
yi − ŷi T T −1
T
2
T
x (X X)
(X T y − xi yi )
= y y − yi − β̂ −
1 − hii i
yi − ŷi T T −1 T
yi − ŷi T T −1
= yT y − yi2 − β̂ T X T y + β̂ T xi yi +
xi (X X) X y −
x (X X) xi yi
1 − hii
1 − hii i
132
6.1. Diagnostiche
notiamo che β̂ T xi = xTi (X T X)−1 X T y = ŷi e sostituiamo
= eT e − yi2 + ŷi yi +
= eT e −
yi − ŷi
yi − ŷi
ŷi −
hii yi
1 − hii
1 − hii
yi − ŷi
,
1 − hii
da cui la (6.8) QED.
6.1.4.6
Formula (6.6) per hii
Consideriamo
hii = xTi (X T X)−1 xi ,
supponendo che l’intercetta sia nel modello scomponiamo la matrice X, n × p come X = [1 X̃], X̃
è la matrixce n × (p − 1) delle covariate esclusa l’intercetta. Poniamo anche µ = X̃ T 1/n ∈ Rp−1
(cioè µ è il vettore delle medie campionarie
delle covariate), e M = X̃ T X̃ (M è una matrixce
Pn
(p − 1) × (p − 1) con elementi Mij = h=1 xhi xhj ). La matrice X T X si scompone allora nel modo
seguente


1
µ1
...
µp−1
 µ1
M11
. . . M1,p−1 
1 µT


T
X X = n .
.
=
..
..
µ M
 ..

.
.
µp−1 M1,p−1 . . . Mp−1,p−1
Ricordando la formula (6.19) per l’inversione di una matrice a blocchi si ha
1 (1 − µT M −1 µ)−1 −µT (M − µµT )−1
T
−1
(X X) =
,
(M − µµT )−1
n −(M − µµT )−1 µ
dove poniamo Σ = M − µµT (matrice
di varianza campionaria di X̃). Scomponendo anche
1
l’i-esima riga della matrice X in xi =
, si ha
x̃i
(1 − µT M −1 µ)−1 −µT Σ−1 1
1
1 x̃Ti
hii =
−Σ−1 µ
Σ−1
x̃i
n
T
−1
−1
T
−1
(1 − µ M µ) − µ Σ x̃i
1
1 x̃Ti
=
−Σ−1 µ + Σ−1 x̃i
n
1
=
(1 − µT M −1 µ)−1 − µT Σ−1 x̃i − x̃Ti Σ−1 µ + x̃Ti Σ−1 x̃i
n
1
(1 − µT M −1 µ)−1 − 2µT Σ−1 x̃i + x̃Ti Σ−1 x̃i
=
n
1
(1 − µT M −1 µ)−1 − µT Σ−1 µ + (x̃i − µ)Σ−1 (x̃i − µ)
(6.24)
=
n
si ha però (A − BD−1 C)−1 BD−1 = A−1 B(D − CA−1 B)−1 (equazione (6.21)), da cui
(1 − µT M −1 µ)−1 µT M −1 = µT (M − µµT )−1
e, moltiplicando ambo i membri per µ,
(1 − µT M −1 µ)−1 µT M −1 µ = µT (M − µµT )−1 µ = µT Σ−1 µ
sostituendo nella (6.24) si ottiene la (6.6) QED
6. Punti leva, anomali, influenti
133
6.2 Cause e rimedi
Un punto leva, anomalo o influente è un punto che si discosta, per qualche aspetto, dagli altri. (In
particolare, i punti leva si discostano per quanto riguarda le esplicative, i punti anomali quanto
alla risposta condizionatamente alle esplicative, i punti influenti quanto ad entrambe.) Come ci
si debba comportare con esso dipende dal motivo per cui si discosta, che quindi va indagato.
Partendo dai casi banali può essere che vi sia un errore nella raccolta o registrazione dei dati, in
un caso simile l’osservazione non è genuina e andrà corretta o eliminata dall’analisi.
Può essere poi che l’osservazione sia corretta, ma che le variabili siano misurate, per quell’unità,
in condizioni diverse dalle altre (ad esempio, si misurano lunghezza e tempo impiegato a compiere
diversi percorsi urbani, una e una sola delle osservazioni è fatta in un giorno di neve e sciopero
dei mezzi pubblici, è ragionevole attendersi che questa sia anomala in un modello in cui il tempo
è la variabile risposta e la lunghezza del percorso l’esplicativa). L’osservazione non è in tal caso
eliminabile a cuor leggero, sarà interessante investigare il perché della sua stranezza, ed eventualmente riportare i risultati ottenuti con e senza l’osservazione stessa chiarendo che i secondi sono
meno generali.
Infine, è possibile che l’osservazione ‘strana’ non abbia in realtà niente di particolare ma sia una
realizzazione eccezionale (ma non impossibile) del fenomeno. In tal caso l’eliminazione sarebbe
evidentemente scorretta, si può eventualmente rimediare utilizzando metodi di stima robusti
rispetto alla presenza di valori anomali o eventualmente rispecificando il modello. Relativamente
a quest’ultimo punto va notato infatti che un osservazione che è ‘strana’ per un modello non
lo è necessariamente in un altro, ad esempio una trasformazione delle variabili esplicative può
avvicinare alla media un punto che, con le variabili originali, è leva; oppure, se il modello con
le variabili originali ha residui non gaussiani, si possono osservare numerosi residui grandi che
possono risultare valori anomali, trasfromando in modo da normalizzare i residui il problema
dovrebbe sparire. Si noti peraltro che l’opzione di rispecificare è ragionevole in presenza di più
valori anomali, e porta con se il rischio di sovradattare il modello.
Insomma, l’eliminazione è un’opzione legittima solo in casi circoscritti, al di fuori dei quali è buona
pratica investigare le ragioni delle particolarità e includerle nel modello o comunque nell’analisi
(effettuando ad esempio analisi separate). Si noti infine che il problema è mitigato in presenza
di una grande base di dati.
6.3 Alcolici e tabacchi in Gran Bretagna
Per undici regioni della Gran Bretagna si conosce la spesa media delle famiglie in tabacchi e
alcolici2 .
Si vuole analizzare il legame tra le due grandezze: in termini di modello di regressione è egualmente sensato considerare il consumo medio di alcolici in funzione di quello di tabacchi o viceversa,
cioè i ruoli di variabile risposta ed esplicativa sono intercambiabili.
Supponiamo di considerare la spesa in tabacchi come variabile esplicativa. Disegnando il corrispondente diagramma di dispersione (figura 6.5) emerge una relazione crescente – e plausibilmente
2
I dati sono ripresi da http://lib.stat.cmu.edu/DASL/Stories/AlcoholandTobacco.html, che a sua volta li
riprende da Moore, David S. e George P. McCabe (1989), Introduction to the Practice of Statistics, p. 179. La
fonte primaria è il Family Expenditure Survey, Department of Employment, 1981 (British official statistics)
134
6.3. Alcolici e tabacchi in Gran Bretagna
6.5
North
6.0
Northeast
Yorkshire
Southeast
Scotland
●
●
Wales
East Midlands
Southwest
●
●
●
●
West Midlands
5.5
Tobacco
4.03
3.76
3.77
3.34
3.47
2.92
3.20
2.71
3.53
4.51
4.56
5.0
Alcohol
6.47
6.13
6.19
4.89
5.63
4.52
5.89
4.79
5.27
6.08
4.02
4.5
Region
North
Yorkshire
Northeast
East Midlands
West Midlands
East Anglia
Southeast
Southwest
Wales
Scotland
North. Ireland
●
●
●
East Anglia
●
4.0
1
2
3
4
5
6
7
8
9
10
11
Spesa media famiglie in alcolici (sterline a settimana)
lineare – tra le due quantità. Spicca nel diagramma la posizione dell’Irlanda del Nord, dove la
spesa per alcolici risulta bassa rispetto a quella in tabacchi.
Northern Ireland
2.5
3.0
3.5
4.0
●
4.5
Spesa media famiglie in tabacchi (sterline a settimana)
Figura 6.5: Alcolici e tabacchi in GB: diagramma di dispersione
Stimiamo comunque il modello
Alcohol = β1 + β2 Tobacco + errore,
che indichiamo nel seguito con M0 . Le stime ottenute sono riportate nella tabella 6.2; il modello
ha un R2 molto basso e il coefficiente della variabile tabacco non è significativamente diverso da
0, non emerge cioè un legame tra le due quantità. Analizziamo poi i residui mediante i grafici in
figura 6.6: i residui più grandi si hanno per i = 11 (Northern Ireland) e i = 1 (North), come si
vede dai grafici 6.6(a) e 6.6(c); le due osservazioni corrispondono anche ai quantili empirici che
più si discostano dalla forma ideale del grafico dei quantili empirici-teorici (figura 6.6b).
Si procede poi al calcolo del coefficiente leva e della distanza di Cook, a titolo di esempio per
l’unità i = 1 si ha
ŷ1 = 4.3512 + 0.3019 × 4.03 = 5.568
e quindi
e1 = y1 − ŷ1 = 6.47 − 5.568 = 0.902.
Essendo inoltre x̄ = 3.6182 risulta
x1 − x̄ = 4.03 − 3.6182 = 0.4118
e di conseguenza
h11 =
1
(x1 − x̄)2
0.41182
1
+ Pn
=
+
= 0.1395.
2
n
11
3.4894
i=1 (xi − x̄)
Si ottiene allora, essendo s2 = 0.81962 ,
e1
0.902
p
ri = p
=
= 1.1864
0.8196 (1 − 0.1395)
s2 (1 − h11 )
e, infine,
D1 =
r12 h11
1.18642 0.1395
=
= 0.1141.
p 1 − h11
2
1 − 0.1395
Per le altre unità si riportano i risultati nella tabella 6.1.
6. Punti leva, anomali, influenti
135
Residuals vs Fitted
Normal Q−Q
●
1.5
●
●
●6
1●
●6
●
●
●
●
●
●
●
●
−2
●6
Standardized residuals
●
●
1.0
1
●
●
●
0
0.0
0.0
11 ●
● 11
5.3
5.4
5.5
5.6
5.7
−1.5 −1.0 −0.5
0.0
0.5
1.0
1.5
5.2
5.3
5.4
5.5
Fitted values
Theoretical Quantiles
Fitted values
lm(Alcohol ~ Tobacco)
lm(Alcohol ~ Tobacco)
lm(Alcohol ~ Tobacco)
(a)
(b)
Cook's distance
Cook's dist vs Leverage hii (1 − hii)
3
2.5
2
1.5
1
●
●6
0.5
1.5
1.0
●
●
Cook's distance
0
●
−1
Standardized residuals
●
●
1
1
−2
1.5
1.0
0.5
●
●
−3
0.0
11 ●
4
6
8
11 ●
0.5
●1
6
2
5.7
(c)
Residuals vs Leverage
11
1
5.6
0.5
5.2
10
0.0
Residuals
−2.0 −1.5 −1.0 −0.5
●
●
●
−1
●
Standardized residuals
0.5
1●
●
0.5
1.0
11 ●
1●
●
●
●
Cook's distance
Scale−Location
Cook's distance
0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35
●
●● ●
0.05
0.1
●6
●1
●
● ●
0
0.15
0.2
0.25
Obs. number
Leverage
Leverage hii
lm(Alcohol ~ Tobacco)
lm(Alcohol ~ Tobacco)
lm(Alcohol ~ Tobacco)
(d)
(e)
0.5
0.3
0.35
(f )
Figura 6.6: Analisi dei residui per il modello M0 per alcolici e tabacchi in GB: (a): grafico dei
residui contro i valori teorici; (b) confronto dei quantili dei residui contro i quantili della normale;
(c) grafico delle radici dei valori assoluti dei residui standardizzati contro i valori teorici; (d)
grafico delle distanza di Cook, le barre arrivano al punto (i, Di ), serve a confrontare i valori,
interessa quali punti hanno distanza di Cook grande relativamente agli altri; (e) è il grafico 6.4
discusso nella sezione 1.3; (f ) è il grafico discusso alla fine della sezione 1.3
i
1
2
3
4
5
6
7
8
9
10
11
yi
6.47
6.13
6.19
4.89
5.63
4.52
5.89
4.79
5.27
6.08
4.02
xi
4.03
3.76
3.77
3.34
3.47
2.92
3.20
2.71
3.53
4.51
4.56
yi − ŷi
0.9020
0.6435
0.7005
-0.4696
0.2311
-0.7128
0.5726
-0.3794
-0.1470
0.3671
-1.7080
xi − x̄
0.4118
0.1418
0.1518
-0.2782
-0.1482
-0.6982
-0.4182
-0.9082
-0.0882
0.8918
0.9418
hii
0.1395
0.0967
0.0975
0.1131
0.0972
0.2306
0.1410
0.3273
0.0931
0.3188
0.3451
ri
1.1864
0.8261
0.8997
-0.6084
0.2968
-0.9915
0.7538
-0.5644
-0.1883
0.5427
-2.5751
Di
0.1141
0.0365
0.0437
0.0236
0.0047
0.1473
0.0466
0.0775
0.0018
0.0689
1.7472
Tabella 6.1: Calcolo del coefficiente leva e della distanza di Cook per i dati su alcolici e tabacco
in GB
β3
0.050
0.820
0.615
0.446
2.041
1.001
2.038
0.076
1.006
0.281
3.576
0.007
-2.608
0.551
-4.732
0.001
0.750
0.446
6.0
2.041
1.001
2.038
0.076
1.006
0.281
3.576
0.007
5.5
4.351
1.607
2.708
0.024
0.302
0.439
0.688
0.509
5.0
M2
β1 + β2 x + β3 IRL
(tutte oss.)
4.5
β2
Estimate
Std. Error
t value
Pr(>|t|)
Estimate
Std. Error
t value
Pr(>|t|)
Estimate
Std. Error
t value
Pr(>|t|)
R2
s
M1
β1 + β2 x
(senza Irl Nord)
4.0
β1
M0
β1 + β2 x
(tutte oss.)
6.5
6.4. Folli del Massachusetts
Spesa media famiglie in alcolici (sterline a settimana)
136
2.5
3.0
3.5
4.0
4.5
Spesa media famiglie in tabacchi (sterline a settimana)
Tabella 6.2: Stime dei modelli e loro rappresentazione: retta di regressione con (M0 , in rosso)
e senza (M1 , nero) l’Irlanda del Nord
La distanza di Cook risulta elevata, pari a 1.7, per l’osservazione relativa all’Irlanda del Nord
(grafico 6.6d), che si qualifica quindi come osservazione influente. I grafici 6.6(e) e 6.6(f ) mostrano
come l’osservazione relativa all’Irlanda del Nord ha anche il coefficiente leva più alto ancorchè
non elevato in senso assoluto, e in effetti l’osservazione non è eccezionale quanto alla spesa per
tabacchi.
È interessante confrontare i risultati ottenuti stimando il modello su tutte le osservazioni con
i risultati ottenuti stimando il modello senza l’osservazione relativa all’Irlanda del Nord. Si
nota, dal grafico 6.2 dove sono disegnate le due rette che si ricavano e dalla tabella 6.2 dove
sono riportate le stime, che l’inclusione dell’osservazione irlandese modifica in misura rilevante il
modello stimato. Senza l’Irlanda del Nord, si stima una relazione significativa tra spesa in alcolici
e spesa in tabacco.
Nella tabella 6.2 si riportano anche le stime ottenute usando tutti i dati ma in un modello con una
variabile esplicativa muta pari a 1 per l’Irlanda del Nord e 0 altrimenti: la stima del coefficiente di
quest’ultima, pari a −2.6 con s.e. 0.55 porta a concludere che il coefficiente è significativamente
diverso da 0.
Una conclusione ragionevole è affermare che vi è una correlazione positiva tra gli ammontari spesi
per i due beni, ma con l’esclusione dell’Irlanda del Nord, sul motivo di tale differenziazione si
potrebbe ulteriormente indagare (ad esempio, si tratta di un consumo effettivamente inferiore o
c’è una differenza di prezzo in uno dei due beni rispetto alle altre regioni tale da mascherare una
relazione positiva tra le quantità?).
Si noti che, sia sulla base del coefficiente di determinazione che sulla base del test per la nullità
del coefficiente β2 , la conclusione relativamente alla relazione tra spesa per alcolici e tabacchi è
diversa nel secondo e terzo modello.
6.4 Folli del Massachusetts
In uno studio del 1854 vennero rilevate, nelle 14 contee del Massachusetts, la percentuale di
malati mentali in cura presso il loro domicilio (anziché ricoverati) e la distanza dal più vicino
80
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
40
PHOME
●
●
●
●
60
●
60
●
●
NANTUCKET
20
PHOME
77
81
75
69
64
47
47
6
49
60
68
76
25
79
40
DIST
97
62
54
52
20
14
10
4
14
14
16
44
77
52
PHOME
COUNTY
Berkshire
Franklin
Hampshire
Hampden
Worcester
Middlesex
Essex
Suffolk
Norfolk
Bristol
Plymouth
Barnstable
Nantucket
Dukes
20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
137
80
6. Punti leva, anomali, influenti
SUFFOLK
●
20
40
60
80
100
DIST
0.05
0.10
0.15
0.20
●
0.25
I(1/DIST)
Figura 6.7: Diagrammi di dispersione per i dati sui lunatici nel Massachussetts, variabili originali
e trasformate
presidio ospedaliero3 . È ragionevole ritenere che vi sia una relazione tra le due quantità, come
mostra anche il diagramma di dispersione in figura 6.7 a sinistra; da quest’ultimo si rileva anche
che la relazione non è lineare e quindi si opta per una trasformazione della variabile distanza.
Il diagramma di dispersione tra percentuale di curati a domicilio e il reciproco della distanza
(figura 6.7 a destra) suggerisce l’impiego del modello
PHOME = β1 + β2
1
+ errore
DIST
(indichiamo nel seguito x = 1/DIST e il modello con M0 ). La stima di M0 è riportata nella
tabella 6.3.
Per l’analisi dei residui si riportano i grafici essenziali in figura 6.8. Dall’esame di questi – in
particolare di 6.8(c) che riguarda leva e distanza di Cook – si rileva l’esistenza di un punto leva
(l’osservazione 8, relativa alla contea del Suffolk), che però non è un valore anomalo, presenta
infatti un residuo contenuto. D’altro canto si ha un valore influente (l’osservazione 13, relativa
alla contea di Nantucket) in quanto ha distanza di Cook superiore a 0.5 che non è però un punto
leva.
Il carattere di punto anomalo dell’osservazione 13 e il fatto che l’osservazione 8 non è anomala
risulta anche dal confronto delle stime dei modelli con variabili mute
MS :
PHOME = β1 + β2
1
+ β3 SUF + errore,
DIST
1
+ β3 NAN + errore,
DIST
riportato in forma grafica (figura 6.9) e tabulare (tabella 6.3). Il coefficiente β3 è significativo
solo per MN , non per MS .
Una motivazione per la peculiarità delle contee del Suffolk e di Nantucket si ha dalle caratteristiche
geografiche (si veda la mappa in figura 6.9): nella contea di Suffolk si trova la città più grande
dello stato, Boston, da cui distanze mediamente inferiori, mentre Nantucket è un’isola, da cui la
distanza non riflette il tempo necessario per gli spostamenti come una distanza terrestre.
MN :
PHOME = β1 + β2
3
Lo studio fu condotto dalla Massachusetts Commission on Lunacy, si veda J.M. Hunter, Need and Demand
for Mental Health Care: Massachusetts 1854, The Geographic Review, 77:2 (April 1987), pp 139-156. I dati
provengono da http://lib.stat.cmu.edu/DASL/Stories/lunatics.html
138
6.4. Folli del Massachusetts
Normal Q−Q
Residuals vs Leverage
1
11 ●
●2
● ●
●
●
● ●
●
2●
●
●
●
13 ●
0
8●
●
●
20
30
40
50
60
0.5
1
−3
● 13
Cook's distance
● 13
10
1
0.5
●●
−1
●
−2
Standardized residuals
0
●
−1
●
●
●
−2
●
●
●
−3
0
●
●
●
●
●
●
−50 −40 −30 −20 −10
70
−1
0
1
0.0
0.2
0.4
Fitted values
Theoretical Quantiles
Leverage
lm(PHOME ~ I(1/DIST))
lm(PHOME ~ I(1/DIST))
lm(PHOME ~ I(1/DIST))
(a)
(b)
(c)
80
Figura 6.8: Analisi dei residui per il modello (4)
●
●
●
●●
●
β1 + β2x
β1 + β2x + β3SUFFOLK
β1 + β2x + β3NANTUCKET
●
●
●
●
●
40
PHOME
60
●
●
NANTUCKET
20
Residuals
2●
●
●
● ●
● 11
●
Standardized residuals
10
1
Residuals vs Fitted
SUFFOLK
0.05
0.10
0.15
0.20
●
0.25
I(1/DIST)
Figura 6.9: Stime dei modelli M0 , MS e MN ; mappa delle contee del Massachusetts
β1
β2
β3
Estimate
Std. Error
t value
Pr(>|t|)
Estimate
Std. Error
t value
Pr(>|t|)
Estimate
Std. Error
t value
Pr(>|t|)
M0
β1 + β2 x
MS
β1 + β2 x + β3 SUF
MN
β1 + β2 x + β3 NAN
73.927
5.493
13.459
0.000
-266.324
66.211
-4.022
0.002
72.954
7.620
9.574
0.000
-240.697
149.330
-1.612
0.135
-6.780
35.030
-0.194
0.850
80.063
2.246
35.650
0.000
-310.135
26.110
-11.878
0.000
-51.035
6.125
-8.332
0.000
Tabella 6.3: Stime per i dati sui lunatici
0.6
0.8
Capitolo 7
Limiti del modello lineare e cenni
alle principali estensioni
Il modello di regressione multipla è uno dei più semplici strumenti che permette di studiare come
cambia la distribuzione condizionata di una variabile, detta variabile risposta, al variare delle
variabili condizionanti, dette variabili esplicative.
Questa semplicità rende il modello desiderabile sotto vari aspetti (per varie ragioni), essa significa
semplicità di calcolo, generalità del modello e facilità d’interpretazione.
La semplicità computazionale si potrebbe pensare poco rilevante con gli odierni strumenti di
calcolo, questo è in parte vero ma rimane decisamente un vantaggio il fatto di disporre di soluzioni
in forma chiusa per tutte le quantità d’interesse.
La generalità del modello significa che la struttura che si assume è sufficientemente semplice
da adattarsi a un’ampia gamma di circostanze (applicazioni): la distribuzione normale emerge
molto spesso come approssimazione (teorema del limite centrale) per molte altre distribuzioni;
la relazione lineare è una prima approssimazione – almeno localmente – per qualunque funzione
derivabile con derivata continua (sviluppo di Taylor al primo ordine); anche il fatto che vari solo
la media, e non gli altri aspetti della distribuzione condizionata, è sovente un’ipotesi tenibile.
Quanto all’interpretazione, focalizzare il modello sulla sola media è spesso auspicabile in quanto
questa è l’(unico) aspetto d’interesse. Inoltre, se la relazione tra media della risposta e esplicative
è espressa dalla (7.1), una variazione in una delle variabili esplicative comporta una variazione
della media della risposta che è indipendente e dal livello di partenza dell’esplicativa stessa e dal
livello delle altre esplicative1 : la misura in cui la risposta dipende da ciascuna delle esplicative è
quindi completamente sintetizzata da un unico parametro.
Va poi sottolineato che l’importanza del modello di regressione multipla risiede anche nel fatto
che esso è alla base di molti modelli più complessi, sviluppati per superarne i limiti.
La semplicità gioca sı̀ a favore del modello lineare ma ne limita anche l’impiego: se le ipotesi non
si conformano ai dati l’inferenza basata sul modello può essere fuorviante.
Il non conformarsi è naturalmente relativo e un moderato scostamento dalle ipotesi può ritenersi
accettabile, cioè si può assumere che l’effetto sulle conclusioni inferenziali sia trascurabile. A
1
Confrontiamo la media di Y in corrispondenza a x0 = (x01 , . . . , x0p )T con la media di Y in corrispondenza a
x1 = (x01 , . . . , x0h + 1, . . . , x0p )T = xT0 + (0, . . . , 0, 1, 0, . . . , 0)T , la differenza è
E(Y |x1 ) − E(Y |x0 ) = xT0 β − (xT0 + (0, . . . , 0, 1, 0, . . . , 0))β = βh .
140
7.1. Non linearità
titolo d’esempio questo è piuttosto trasparente per quanto riguarda la linearità: se la relazione
sottostante non è lineare le stime saranno attendibili solo nella misura in cui la funzione lineare
costituisce una buona approssimazione della vera relazione sottostante.
La scelta di ignorare piccoli scostamenti dalle ipotesi, con i rischi del caso, porterà ad applicare
il modello cosı̀ com’è e non richiede ulteriore discussione. (In realtà, occorrerebbe un’ampia
discussione che ricade nell’ambito della robustezza: s’indaga cioè quanto cambino le conclusioni
basate su certe ipotesi quando il modello non è valido, una tale discussione è fuori dagli scopi del
documento.)
Se lo scostamento è ritenuto non accettabile si deve rimediare o modificando il metodo di stima o
aggiustando il modello (cioè con modifiche minori dello stesso) o utilizzando un modello diverso,
capace di conformarsi ai dati a disposizione.
Più analiticamente possiamo elencare cinque elementi rispetto ai quali le cose possono andare
male e richiedere un rimedio:
(1) linearità, che la media di Y è funzione lineare delle variabili esplicative,
E(Yi ) = µi = (x(i) )T β;
(2) normalità, che le variabili Yi |x(i) hanno distribuzione normale
1
1
2
2
Yi ∼ f (y, µi , σ ) = √
exp − 2 (y − µi ) ;
2σ
2πσ
(7.1)
(7.2)
(3) omoschedasticità, che la varianza di Yi (ovvero, date le altre ipotesi, di εi ) non dipende
da i;
(4) indipendenza, che Yi è indipendente da Yj per ogni coppia i, j con i 6= j (questo equivale
all’indipendenza degli errori εi );
(5) rango pieno, che la matrice X sia non stocastica e a rango pieno (pari a p).
Nel seguito, passiamo in rassegna i rimedi principali allo scostamento da ciascuna delle ipotesi
del modello.
7.1 Non linearità
Per ragionare di modelli non lineari possiamo metterci in due diverse prospettive: una forma
funzionale per la relazione tra Y e x è suggerita, a meno di alcuni parametri, dalla teoria sottostante al fenomeno che Y e x descrivono (ad es. una teoria fisica o economica), oppure dobbiamo
studiare la relazione tra le quantità senza pregiudizi.
Ragionando nella prima prospettiva, chiediamoci quali relazioni funzionali possono essere inquadrate nel modello lineare. Anzitutto, va ricordato che l’ipotesi di linearità si riferisce ai parametri,
non alle variabili, il che significa che nel modello lineare rientrano quelle situazioni in cui E(Y )
è legata linearmente a uno o più trasformati di x,
Yi = β1 + β2 g2 (xi ) + . . . + βp gp (xi ) + εi
(7.3)
7. Limiti del modello lineare e cenni alle principali estensioni
141
con g2 , . . . , gp funzioni note.
Ancora, la classe di relazioni è ulteriormente ampliabile se si considerano trasformazioni della Y ,
ad esempio una relazione del tipo
Yi = α1 xαi22 eα3 xi3 εi
è linearizzabile nella forma
log Yi = log α1 + α2 log xi2 + α3 xi3 + log εi ,
(7.4)
e si specifica quindi un modello lineare con la variabile risposta Y ∗ = log Y , si noterà che in tal
modo si specifica un modello normale per log εi e log Yi |x(i) e quindi lognormale per gli errori εi
e per Yi |x(i) .
Distinguiamo i due tipi di trasformazione, relativi alle sole esplicative (7.3) o relativi anche
alla variabile risposta (7.4) per sottolineare che nel primo caso la trasformazione è compatibile
con l’ipotesi di normalità e omoschedasticità della Y |x, nel secondo caso no. In altre parole
una trasformazione del tipo (7.3) può rimediare alla non linearità del modello espresso dalle
ipotesi (i)-(iv) senza modificarne altri aspetti, mentre una trasformazione del tipo (7.4) porta a
modificare l’ipotesi distributiva. Insomma, se si ritiene che Y |x sia normale e non si è disposti
ad abbandonare tale ipotesi, il ricorso al modello lineare dopo trasformazioni del tipo (7.4) è
precluso (salvo quanto detto nella sezione 2).
Ragionare nella seconda prospettiva significa che, osservato che la relazione tra Y e x non è
adeguatamente descritta da un’applicazione lineare (questo può venire dall’analisi esplorativa
iniziale o, più realisticamente se le esplicative sono più d’una, dall’analisi dei residui), si cerca
una trasformazione del tipo (7.3) o del tipo (7.4) che ‘linearizzi’ la relazione. Tranne che nel
caso di un’unica variabile esplicativa questo è un modo poco realistico di procedere, e anche
poco efficiente dato che le trasformazioni possibili sono infinite. È in ogni caso ragionevole
√
provarne alcune, tipicamente x, 1/x, x2 o log x o analoghe per y, è comunque più tipico usare
le trasformazioni per la risposta per stabilizzare la varianza o normalizzare (vedi poi).
7.1.1
Interpretazione con un modello trasformato
È anche rilevante osservare che, trasformando, si perde in parte la semplicità di interpretazione,
in particolare, con entrambi i tipi di trasformazione la misura della variazione di Y ‘dovuta’ a
x non è più costante e sintetizzabile completamente da un parametro; se poi la trasformazione
coinvolge la Y (nello stile della (7.4)) non si dispone, in generale, neppure di un modello per la
media di Y .
Nel caso di trasformazioni del tipo (7.3) il modello per la media di Y è
E(Y ) = β1 + β2 g2 (x) + . . . + βp gp (x)
(7.5)
ma non c’è più un coefficiente interpretabile come variazione di Y corrispondente a una variazione
unitaria di x indipendente dal livello di partenza2 .
2
Ad esempio, per il semplice modello Y = β1 + β2 x2 + β3 z + ε si ha, in corrispondenza a (x + ∆x, z) il valor
medio
Y1 = β1 + β2 (x + ∆x)2 + β3 z
e quindi la variazione tra (x, z) e (x + ∆x, z) è
Y1 − Y = 2β2 x∆x + β2 (∆x)2
dipende anche dal livello di partenza x.
142
7.1. Non linearità
Nel caso di trasformazioni del tipo (7.4) si modella la media di una variabile diversa dalla variabile
risposta originale. Non si potrà quindi ricavare un modello per la media della risposta originale,
al più si potrà ricavare una previsione della risposta sulla scala originale, il modello è infatti
E(f (Y )) = Xβ,
da cui, a meno del caso privo d’interesse in cui f è lineare, non si può ricavare E(Y ). Si può
ottenere una previsione per Y da f[
(Y ) = X β̂ scrivendo
Ŷ = f −1 (X β̂)
(7.6)
da cui si possono ottenere intervalli di confidenza sulla base del modello per il trasformato. Si
noterà peraltro che una variazione unitaria di una delle esplicative porta a una variazione della
risposta che dipende sia dal livello di partenza che dai livelli delle altre esplicative3 .
Esempio 7.1 Log-normale Si può apprezzare meglio la differenza tra le diverse quantità coinvolte
in un esempio in cui tute le quantità rilevanti sono calcolabili in forma chiusa. Si consideri allora
il modello
Yi∗ = log Yi ∼ N β1 + β2 x, σ 2
(7.7)
allora Yi è log-normale con parametri β1 + β2 xi e σ 2 , si ha perciò la media
σ2
E(Yi ) = exp β1 + β2 x +
,
2
e la varianza
2
2
V (Yi ) = (eσ − 1)eβ1 +β2 x+σ .
(Si noti che Yi ha varianza non costante, la trasformazione col logaritmo stabilizza anche la
varianza.)
Si può quindi usare la previsione di Yi
s2
\
Ŷi = E(Y
)
=
exp
β̂
+
β̂
x
+
,
(7.8)
i
1
2
2
con β̂1 , β̂2 e s2 gli usuali stimatori per il modello (7.7).
La previsione per Yi nell’ottica di (7.6) è invece
Ŷi = exp {β1 + β2 xi }
3
Si consideri il caso semplice in cui f (Y ) =
√
(7.9)
Y e il modello ha due esplicative x e z, allora la previsione è
Ŷ = (β̂1 + β̂2 x + β̂3 z)2
se x aumenta di ∆x la previsione diventa
Ŷ1 = (β̂1 + β̂2 (x + ∆x) + β̂3 z)2
e quindi
Ŷ1 − Ŷ = β22 (∆x)2 + 2β̂1 β̂2 ∆x + 2β̂22 x∆x + 2β̂2 β̂3 z∆x.
Nel caso di variazione unitaria di x, ad esempio,
Ŷ1 − Ŷ = β22 + 2β̂1 β̂2 + 2β̂22 x + 2β̂2 β̂3 z.
La variazione quindi dipende tanto da x che da z.
● ●
●
●● ●
● ●
● ●
●●
●
●
●
●
40
●
●●
Y
3
2
1
●●
0
log(Y)
● ●
●
●
●
● ●●
●● ●
●
●
●
●
●● ●
●●
●
●
●
●● ● ●
●
●
●
●
● ● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●●
●
●
10
−1
0.0
●
●
0
0.5
●
●
1.0
1.5
● ●●
● ●
●● ● ●
● ●
●● ●
●● ● ● ● ●● ●
●
●
●
●
●
●
●
●●●● ●●
●●●●● ●● ●
●
●●
0.0
0.5
x
●
●
●
●
●
●
●
●●
● ●● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
●
● ●
●
●
●
50
●
●
●
30
●
● ●
●
143
20
4
7. Limiti del modello lineare e cenni alle principali estensioni
●
●
●
●
●
● ●●
●
●
●●
●
● ●
● ●●
● ● ● ●
1.0
1.5
x
Figura 7.1: Diagrammi di dispersione e funzioni di regressione stimate per l’esempio con i dati
log-normali
2
(che è minore della previsione (7.8) dato che σ 2 > 0 e quindi eσ /2 > 1).
Nei due grafici in figura 7.1 si riportano le quantità descritte sopra per un campione di 100 unità,
simulato con β1 = 1/2, β2 = 3/2 e σ 2 = 1. Nel grafico a sinistra si riporta la retta stimata tra
log Yi e xi (β̂1 + β̂2 x, linea continua) e la vera retta di regressione (β1 + β2 x, linea continua).
Nel grafico a destra si usa invece la scala di Y , e si riportano in rosso continuo la funzione (7.8)
e in rosso tratteggiato la corrispondente vera funzione; in verde continuo si è rappresentata la
(7.9) e col tratteggio la corrispondente vera funzione. La retta rappresentata in blu è la retta di
regressione stimata tra Yi e xi . •
7.1.2
Modelli polinomiali e estensioni
Una strategia abbastanza generale per modellare una relazione non lineare tra Y e x col metodo
(7.3) è il modello polinomiale, in cui gj (x) = xj . Questa è la più ovvia estensione del modello
lineare: si mantiene una certa semplcità e allo stesso tempo si considera una classe molto ampia
di forme funzionali (se si lascia tendere p a +∞ si ottiene una classe densa nell’insieme delle
funzioni C +∞ , ovvero si ricordi che qualunque funzione in C +∞ può essere approssimata da un
polinomio mediante lo sviluppo di Taylor). In effetti, però, l’uso di funzioni potenza può portare
problemi di multicollinearità, per cui per il loro impiego occorre apportare dei correttivi. L’uso
di potenze della variabile esplicativa è in effetti alla base di altri modelli, ad esempio quelli basati
su funzioni spline, in cui non si assume una specifica forma funzionale per la relazione da stimare.
Esempio 7.2 Regressione polinomiale Nel grafico si riporta un esempio di regressione polinomiale
su dati simulati da Yi = g(x) + εi . Si sono stimati, per p = 1, . . . , 9, i modelli
Yi = β 1 +
p
X
β1+j xj + εi ,
IND
εi ∼ N 0, σ 2 .
j=1
Nei nove grafici in figura 7.2 si riportano la vera funzione g(x) (in rosso) e la stima di E(Y |x) in
accordo al modello (sono in ordine lessicografico) con l’intervallo di confidenza associato. •
144
7.1. Non linearità
●
●
●
●●
●
0.0 0.5 1.0 1.5 2.0
0.0 0.5 1.0 1.5 2.0
2
●
1
●
●
●
0
●●
● ●
●●
●●
●
● ● ●
●
● ●
0.0 0.5 1.0 1.5 2.0
●
●
● ●
0.0 0.5 1.0 1.5 2.0
●
−1
2
1
0
● ●
−1
●
●
2
●
● ●
1
●
●
●
●●
●
● ● ●
●
●●
●
●●●
●
●
●
●●
0
● ●
●
●
●
●●●
●
●
●
●●
●●
●
● ● ●
●
●
●●
●●
●
● ● ●
●
●
●
0.0 0.5 1.0 1.5 2.0
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
2
●
●
●
0.0 0.5 1.0 1.5 2.0
● ●
1
●
● ●
●
●
●
●
0
●●
●
●
●
●
●●
●
● ● ●
●
−1
2
1
●●
●
● ● ●
●
0
1
● ●
●●
●
●
●●●
●
●
●
−1
2
● ●
●●
●
●●
●
●
●●●
●
●
●
−1
0
●
●
● ●
●
●
●
●
●
●
●
●
0.0 0.5 1.0 1.5 2.0
●
● ●
2
●
1
●
● ●
●●
●
● ● ●
●
● ●
0
●●
●
●
●●
●●●
●
●
●
−1
2
●●
●
● ● ●
●
●
●
●
●
●●●
●
●
●
● ●
−1
● ●
● ●
1
●
●
●●
0
●
●
−1
0
1
● ●
●
●●●
●
●
●
●
●
−1
2
●
0.0 0.5 1.0 1.5 2.0
●
●
●
●●●
●
●
●
●●
●
●
●●
●●
●
● ● ●
●
●
0.0 0.5 1.0 1.5 2.0
Figura 7.2: Regressione con polinomi di grado via via crescente
7. Limiti del modello lineare e cenni alle principali estensioni
145
7.2 Non normalità
L’ipotesi di normalità serve, in sostanza, per l’inferenza sui parametri; rinunciando ad essa gli
stimatori dei minimi quadrati mantengono buone proprietà, essi sono corretti e efficienti (cioè a
varianza minore) tra gli stimatori lineari corretti (teorema di Gauss-Markov, si veda la sezione
2.1). È perciò possibile rinunciare semplicemente all’ipotesi di normalità e interpretare i risultati
in termini di minimi quadrati e geometrici.
In assenza però dell’assunto di normalità, non valgono i risultati sulla base dei quali si fa inferenza
sui parametri, in particolare rimane non determinata la distribuzione di probabilità degli stimatori
e, di conseguenza, non è immediato ottenere regioni di confidenza o effettuare verifiche d’ipotesi
(si può, ad esempio, usare tecniche basate sul ricampionamento).
Se l’ipotesi di normalità non è tenibile per Y ciò non significa che non sia valida per un trasformato
di Y , fermi restando i problemi interpretativi di un modello trasformato già discussi nella sezione
1.1. Nella sezione 2.2 si illustrano alcune classi di trasformazioni e un metodo per l’individuazione
della miglior trasformazione dal punto di vista della normalizzazione.
7.2.1
Ipotesi del II ordine e teorema di Gauss-Markov
Il termine ipotesi del II ordine nasce dal fatto che, della distribuzione dell’errore, ovvero della
risposta, si considerano solo i primi due momenti. In particolare si assume
(a) Y = Xβ + ε;
(b’) V (ε) = σ 2 I;
(c) X non stocastica a rango pieno.
Dove rispetto al modello usuale si è sostituita l’ipotesi (b) con (b’): non si fanno ipotesi sulla
distribuzione dell’errore ma si assume che la matrice di varianza e covarianza sia una costante
per la matrice identica. Si noti che questo equivale a omoschedasticità e non correlazione degli
errori (non si parla in questo caso di indipendenza).
Si definisce allora lo stimatore dei minimi quadrati per β
β̂ = argmin(y − Xβ)T (y − Xβ)
(7.10)
β∈Rp
esso è dato da β̂ = (X T X)−1 X T y, funzione lineare della y.
Per lo stimatore dei minimi quadrati si hanno le proprietà
1. Gli stimatori dei minimi quadrati sono corretti: E(β̂) = β;
2. La varianza degli stimatori dei minimi quadrati è V (β̂) = σ 2 (X T X)−1 .
Inoltre, sotto tali condizioni gli stimatori di β dei minimi quadrati sono i più efficienti tra gli
stimatori lineari non distorti, come espresso nel
Teorema 2.1 Gauss-Markov. Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei
minimi quadrati, se β̃ è uno stimatore lineare e corretto di β, allora,
V (β̃i ) ≥ V (β̂i ) ∀i = 1, . . . , p.
146
7.2. Non normalità
Si può mostrare questo fatto scrivendo lo stimatore β̃ come β̃ = (A+C)y dove A = (X T X)−1 X T ,
si è cioè espresso β̃ come la somma di β̂ = Ay e di una c.l. di y, questo è sempre possibile se β̃
è lineare.
In virtù del fatto che β̃ è corretto si ha poi, per ogni β,
β = E(β̃) = (A + C)E(y) = (A + C)Xβ = β(I + CX)
(essendo AX = I), si ha allora CX = 0.
La varianza è dunque
V (β̃) = V ((A + C)y) = (A + C)V (y)(A + C)T = σ 2 (AAT + CAT + AC T + CC T )
ma
CAT = C((X T X)−1 X T )T = CX(X T X)−1 = 0
e analogamente AC T = 0, sicché
V (β̃) = σ 2 (X T X)−1 + σ 2 CC T = V (β̂) + σ 2 CC T
siccome i termini diagonali di CC T sono non negativi (somma di quadrati) si ha la tesi.
Questa proprietà si estende a combinazioni lineari di β nel senso che ψ̂ = aT β̂ è lo stimatore più
efficiente di ψ = aT β tra gli stimatori lineari non distorti.
Entrambe le affermazioni seguono immediatamente dalla seguente formulazione del teorema.
Teorema 2.2 Gauss-Markov II. Nelle ipotesi (a), (b’), (c) e indicando con β̂ lo stimatore dei
minimi quadrati, se β̃ è uno stimatore lineare e corretto di β, allora
V (β̃) ≥ V (β̂)
nel senso che V (β̃) − V (β̂) è semidefinita positiva.
DIM: Se β̃ è uno stimatore lineare, allora esso può essere scritto come β̃ = C T y per una qualche
matrice C (n × p), allora V (β̃) = σ 2 C T C e, ricordando anche che V (β̂) = σ 2 (X T X)−1 , potremo
scrivere
V (β̃) − V (β̂) =σ 2 (C T C − (X T X)−1 ).
Essendo poi β̃ corretto si ha C T E(y) = C T Xβ = β e quindi C T X = X T C = I, si può scrivere
perciò
V (β̃) − V (β̂) =σ 2 (C T C − C T X(X T X)−1 X T C)
=σ 2 C T (I − P )C,
essendo però (I − P ) idempotente si ha, per qualunque a ∈ Rp ,
aT C T (I − P )Ca = aT C T (I − P )T (I − P )Ca = ||(I − P )Ca||2 ≥ 0,
come volevasi dimostrare.
Da questo discende che
7. Limiti del modello lineare e cenni alle principali estensioni
147
1. V (β̃i ) ≥ V (β̂i ) poiché i termini sulla diagonale di una matrice semidefinita positiva sono
non negativi.
2. posto ψ̃ = aT β̃ si ha allora
V (ψ̃) = aT V (β̃)a
e quindi
V (ψ̃) − V (ψ̂) = aT V (β̃)a − aT V (β̂)a = aT (V (β̃) − V (β̂))a ≥ 0.
7.2.2
Trasformazioni di Box-Cox
È in molti casi possibile rintracciare un trasformato della variabile originale la cui distribuzione
è approssimativamente normale.
A questo fine sono stata proposte diverse classi di trasformazioni convenienti, la più famosa tra
queste è detta, dai nomi dei proponenti, di Box-Cox
( λ
y −1
λ 6= 0,
λ
yλ = φλ (y) =
(7.11)
log y λ = 0;
e coinvolge in sostanza le funzioni potenza con esponente positivo e la funzione logaritmo. Le
trasformazioni (7.11) sono ovviamente valide solo per y > 0, un’estensione per y qualunque è
(
(y+ν)λ −1
λ 6= 0,
λ
yλ,ν = φλ,ν (y) =
(7.12)
log(y + ν) λ = 0.
Il parametro λ può essere scelto per tentativi, provando l’effetto di diversi valori sulla distribuzione, oppure stimato col metodo
della massima verosimiglianza.
2
L’assunzione yλ ∼ N Xβ, σ I permette di scrivere la funzione di densità di yλ ,
1
2 −n/2
T
f (yλ ) = (2πσ )
exp − 2 (yλ − Xβ) (yλ − Xβ)
(7.13)
2σ
per ottenere la funzione di verosimiglianza di λ occorre scrivere la funzione di densità di
Q y, pari a
f (y) = f (yλ )J(λ, y) dove J(λ, y) è lo Jacobiano di trasformazione, pari a J(λ, y) = ni=1 yiλ−1 ,
si ha allora
Y
n
1
2
2 −n/2
T
L(λ, β, σ ) ∝ f (y) = (2πσ )
exp − 2 (yλ − Xβ) (yλ − Xβ)
yiλ−1 .
(7.14)
2σ
i=1
Si ottiene allora facilmente la verosimiglianza profilo per λ
Lp (λ) = argminL(λ, β, σ 2 )
β,σ 2
poiché il massimo a destra si ottiene, fissato λ, per
β̂λ = (X T X)−1 X T yλ , σ̂λ2 = (yλ − X β̂λ )T (yλ − X β̂λ )/n
e quindi
Lp (λ) =
L(λ, β̂λ , σ̂λ2 )
n
n n
oY
2
∝ exp − log σ̂λ
yiλ−1 ,
2
i=1
148
7.2. Non normalità
Estimate Std. Error t value Pr(>|t|)
(Intercept)
4.6271
2.5185
1.84
0.0724
x
11.9775
1.8616
6.43
0.0000
Tabella 7.1: Stima del modello lineare per i dati della figura 7.3
da cui
n
X
n
n
lp (λ) = − log σ̂λ2 + (λ − 1)
log yi = − log
2
2
i=1
σ̂λ2
(
!
2(λ−1)/n
i=1 yi )
Qn
Si noti che
T 


σ̂λ2
1  yλ − X β̂λ   yλ − X β̂λ  1 T
s2λ = Qn
= 
  Q
 = yλ,g (I − P )yλ,g ,
2(λ−1)/n
Qn
n
n
1/n λ−1
1/n λ−1
n
( i=1 yi )
y
y
i=1 i
i=1 i
Q
1/n
dove yλ,g = yλ /( ni=1 yi ) e P è la matrice di proiezione associata al modello. La quantità ns2λ
è quindi la somma dei quadrati dei residui per il modello
yλ,g = Xβ + ε,
e questo fornisce un modello per ricavare in maniera semplice la stima di λ e la log-verosimiglianza
profilo.
Quale che sia il metodo, è usuale determinare λ, calcolare il trasformato conseguente e poi
impiegare il modello lineare. In altre parole, l’inferenza sul modello lineare (su β e σ 2 ) è fatta
condizionatamente al valore scelto per λ, è stato argomentato che questo ha un effetto contenuto
sui risultati.
Esempio 7.3 trasformazione di Box Cox Si considerino i dati (xi , yi ), i = 1, . . . , 50 rappresentati
nel diagramma di dispersione nella figura, adattando ad esso il modello lineare
yi = β1 + β2 xi + εi .
si ottiene la stima riportata nella tabella 7.1 con coefficiente di determinazione 0.463, l’esame dei
grafici dei residui mostra che essi sono asimmetrici (secondo e terzo pannello), e lo scostamento
dalla normalità è evidente.
Si procede perciò a cercare una trasformazione normalizzante tra quelle di Box-cox, e si disegna
perciò la log-verosimiglianza profilo (figura 7.4).
Questa è massima in λ̂ = −0.1, si trasformano perciò i dati secondo la
yλ̂ = (y −0.1 − 1)/ − 0.1
e si stima un nuovo modello,
yλ̂,i = β10 + β20 xi + ε0i
ottenendo le stime
con coefficiente di determinazione 0.573, la cosa più interessante è comunque che i residui del
modello stimato dopo la trasformazione sono compatibili con l’ipotesi di normalità (figura 7.5).
Nell’ultimo pannello si confronta la previsione di Y ottenuta col modello iniziale (in nero) e quella
ottenuta col modello trasformato (in rosso), ŷˆ = (λ̂ŷλ̂ + 1)1/λ̂ = (λ̂(β̂10 + β̂20 x) + 1)1/λ̂ . •
40
7. Limiti del modello lineare e cenni alle principali estensioni
149
20
●
●
●
●
●
●
●
●
●
0.5
●
● ●
1.0
1.5
2.0
●
●
●
●
●
●
●● ●●
●
●● ● ●
● ●
●
● ●
●
●
15
x
●●
●
●
●
●
●
●
20
●
●
3
2
10
●
●●
●
●●
●
●
●●
●
●
●
●
1
15
●
●
−5
●
10
●
● ●
●
●
●
●
●
● ●
●●
●
●
●
● ●● ● ●
●● ●
●
●
●
47 ●
●4
● 13
●
●
●●
●
●●
●●
●●●●
●●●
●●
●●
●
●
●●●●●
●●●●
●●●●●
●●●
● ● ●●
0
●
13 ●
−1
y
●
●
●4
5
●
Residuals
30
●
●
●
●
● 47
0
●
●
Standardized residuals
●
●
25
−2
−1
0
1
2
Fitted values
Theoretical Quantiles
lm(y ~ x)
lm(y ~ x)
−175
−185
95%
−195
log−Likelihood
Figura 7.3: Dati per l’esempio 3 e analisi dei residui
−2
−1
0
1
2
λ
y
●
20
●
0.5
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
1.5
2.0
●
●
●
● ●
●
●
●
●●
●
●
●
●
●
●
●
●
●
1.0
●●
●
●●
x
Figura 7.5:
3)
●
●
●● ●●
●
●● ● ●
●
● ●
●
●
●
●
2.2
2.4
2.6
2.8
3
47 ●
● 4● 44
2
●
●
●
●
●●●
●●
●
●●●●
●●
●●
●●
●●●
●
●●
●●●
●●●
●●●●●
●●
●●●●
●
●●
●
−2
●
●
●
● ●
●●
●
●
●
● ●● ● ●
●
●●
−0.4
●
●
●
10
●
●
●
4●
1
●
● 44
0
●
Residuals
30
●
●
● 47
−1
●
●
Standardized residuals
●
0.0 0.2 0.4 0.6
40
Figura 7.4: Verosimiglianza profilo per λ con i dati dell’esempio 3
●
−2
−1
0
1
Fitted values
Theoretical Quantiles
lm(yt ~ x)
lm(yt ~ x)
2
Dati trasformati e analisi dei residui dopo la trasformazione di Box-Cox (esempio
150
7.3. Eteroschedasticità
Tabella 7.2:
Box-Cox
7.2.3
Estimate Std. Error t value Pr(>|t|)
(Intercept)
1.8823
0.0862
21.84
0.0000
x
0.5109
0.0637
8.02
0.0000
Stima del modello lineare per i dati della figura 7.3 dopo la trasformazione di
Modelli lineari generalizzati
L’opzione di trasformare può risultare inadeguata, o perché si necessita di un modello per Y e
non per il trasformato o perché non esiste una trasformazione normalizzante, come è ad esempio
il caso qualora Y sia discreto.
Una classe di modelli per variabile risposta non normale è data dai modelli lineari generalizzati,
in cui si si assume per la variabile risposta una distribuzione del tipo
yθi − b(θi )
Yi ∼ f (y, θi , ν) = exp −
+ κ(y, ν)
(7.15)
ν
e che una funzione della media sia funzione lineare delle variabili esplicative,
g(E(Yi )) = (x(i) )T β.
(7.16)
Si noti che le ipotesi (7.15) e (7.16) sostituiscono le ipotesi (7.2) e (7.1) del modello lineare.
Si noti altresı̀ che il modello lineare è un caso particolare di modello lineare generalizzato, la
distribuzione normale in (7.2) può infatti essere scritta nella forma (7.15) come
1
y2
1
2
2
2
(2yµi − µ ) − 2 − log(2π) − log σ
f (y, µi , σ ) = exp
2σ 2
2σ
2
e la (7.16) con g funzione identica equivale alla (7.1).
Nella classe (7.15) rientrano numerose distribuzioni, continue e discrete quali la distribuzione
gamma, la Poisson, la binomiale.
Con i GLM si modella dunque la media della variabile risposta, legando quest’ultima a una
funzione lineare delle variabili esplicative. Si noti che non si ha (salvo nel caso della normale?)
la struttura additiva segnale+errore del modello lineare.
Si noti infine che alcuni GLM prevedono specifiche forme di eteroschedasticità (ad esempio nel
modello di Poisson V (Y ) = E(Y ), queste sono legate all’ipotesi distributiva, l’uso dei GLM non
è, pertanto, una soluzione al problema dell’eteroschedasticità, è però vero che in caso di non
normalità il problema di non normalità e quello di eteroschedasticità possono essere legate e
quindi risolte a un tempo col ricorso a un GLM.
7.3 Eteroschedasticità
Ci si ponga nella situazione in cui V (Yi |x(i) ) = σi2 , in questo caso lo stimatore dei minimi quadrati
è corretto ma non efficiente, è ancora normale ma la matrice di varianza è (X T X)−1 X T V (Y |X)X(X T X)−1 ,
non valgono di conseguenza i consueti risultati su cui è basata l’inferenza.
7. Limiti del modello lineare e cenni alle principali estensioni
151
Nel seguito si trattano due possibili rimedi, nel primo si modifica il modello trasformando la
variabile risposta (si parla di trasformazioni per stabilizzare la varianza), nel secondo il modello
è invariato ma si modifica il metodo di stima, usando i minimi quadrati generalizzati.
7.3.1
Trasformazioni per stabilizzare la varianza
Un’opzione è, anche qui, operare una trasformazione della Y , questa è un’alternativa efficace se
la varianza di Y è legata alla media,
V (Yi ) ≈ kh(E(Yi )),
in tal caso infatti una trasformazione Yi∗ = g(Yi ) ha varianza approssimativamente costante se
h ∝ 1/(g 0 )2 , con il metodo delta infatti si ha che
V (g(Yi )) ≈ g 0 (E(Yi ))2 V (Yi ) = k.
Alcune trasformazioni che stabilizzano specifici schemi di varianza seguono nella tabella.
schema
h(µ)
V (Y ) = E(Y )
V (Y ) = E(Y )2
V (Y ) = E(Y )3
V (Y ) = E(Y )(1 − E(Y ))
µ
µ2
µ3
µ(1 − µ)
g(y)
√
y
log y
y −1/2
√
sin−1 y
(g 0 (y))−2
4y
y2
4y 3
4y(1 − y)
Si noti in particolare che la prima trasformazione può essere utile quando i dati sono conteggi, distribuiti secondo una Poisson, in tal caso se i valori sono sufficientemente grandi può
essere ragionevole adottare l’ipotesi di normalità, occorre però trasformare per rendere le Yi
omoschedastiche.
L’ultima trasformazione invece è utile quando le osservazioni sono proporzioni relative a variabili
dicotomiche. Una proporzione è compresa tra 0 e 1 e questo porterebbe ad escludere il modello
normale, tuttavia se le proporzioni osservate sono sufficientemente discoste da 0 e 1 il modello
normale può essere accettabile. Rimane il fatto che la varianza di una proporzione è legata alla
media secondo la relazione sopra e quindi la trasformazione risulta opportuna.
Esempio 7.4 Trasformazione radice quadrata Si considerino i dati (xi , Yi ) nella figura, stimando
su essa il modello
Yi = β1 + β2 x + εi
si ottiene la stima riportata nei pannelli superiori della figura 7.7, dall’analisi dei residui emerge
il carattere eteroschedastico degli stessi.
√
Si procede perciò a trasformare la variabile risposta definendo Yi∗ = Yi , che pare una valida
opzione, e l’analisi dei residui è soddisfacente (seconda riga della figura 7.6). •
152
7.3. Eteroschedasticità
6
8
26 ●
10
●
●
4
●
●
●
●
●● ●
●
●●●
●●
●●
●
●
●
●
● ●
●●
●● ●
●●
●
●
6
8
10
●
●
●
●
●
●
●
●
●
●
●2
2
x
●
●
●●
●
●
4
●
●
●
●
●●
●
●
3
2
1
50
26 ●
3
−2
−1
0
1
2
lm(y ~ x)
●
●
● ●
●
●
40
Theoretical Quantiles
●
●
●
−1.5
2
3
●
●●
1
30
lm(y ~ x)
●
●
●●
Fitted values
● ●
●
2
20
● 39
●●
0.5
6
5
● ●●●
●
● ●●
●
●
●
Residuals
●●
●
●
●
y*
●
●
●
● 26
10
−0.5
7
●
0
●
●●
●●●
●●
●●
●
●●●
●●●
●
●
●●●●●
●●
●
●●●●
●●●●
●●
●
●
●
●
●●●
4
5
6
●
2
4
●
●
●
●
x
●
●
●
●
2
●
●
●●
●●●
●●
●● ●
● ● ●
●●●
0
●
●
●
●
●
●
●
0
●●
●
●
●●
● ●
●
●
−2
●
●●
●
●
● ●
39 ●
●●● ●
●
1
●
●
●
●●
●
●●
●●●
●●●
●●
●●
●
●●
●
●●
●●●●●●
●●●
●●
●
●
●●
●
●●
0
●
●
25 ●
22 ●
−1
●
●
●
●● ●
●
●
●
●
● ●
●● ●
●●
Standardized residuals
●
●
●
●
●
●
5
● ●
Standardized residuals
●
Residuals
●
● 22
●
−2
●
●
● ●●●
●
● ●●
●
●●
−5
●
25 ●
15
●
●
●●
−15
10 20 30 40 50
0
y
●
7
● 26
●2
−2
−1
0
1
2
Fitted values
Theoretical Quantiles
lm(yt ~ x)
lm(yt ~ x)
Figura 7.6: Dati e modelli per l’esempio 4, la prima riga fa riferimento alle stime sulla variabile
originale, quella inferiore alla trasformazione
7.3.2
Minimi quadrati generalizzati
I minimi quadrati generalizzati (GLS da Generalized Least Squares) sono un metodo di stima
alternativo, usando il quale si mantiene invariata la struttura del modello, si ha cioè ancora
Y = Xβ + ε,
(7.17)
ma si sostituisce l’ipotesi di omoschedasticità con l’ipotesi V (ε) = σ 2 Ω, dove Ω è una matrice
diagonale nota. La log-verosimiglianza del modello è allora
n
1
l(β, σ 2 ) = − log σ 2 − 2 (y − Xβ)T Ω−1 (y − Xβ)
2
2σ
(7.18)
e quindi lo stimatore di massima verosimiglianza è4
β̂ = argmin(y − Xβ)T Ω−1 (y − Xβ) = (X T Ω−1 X)−1 X T Ω−1 y.
β
4
La funzione
SQ(β) = (y − Xβ)T Ω−1 (y − Xβ) = yT Ω−1 y − 2β T X T Ω−1 y + β T X T Ω−1 Xβ
e quindi lo SMV è definito eguagliando a zero il gradiente
0=
d
SQ(β) = −2β T X T Ω−1 y + 2X T Ω−1 Xβ
dβ
e quindi β̂ = (X T Ω−1 X)−1 X T Ω−1 y..
(7.19)
7. Limiti del modello lineare e cenni alle principali estensioni
153
Diventa poi banale calcolare la matrice di varianza e successivamente fare inferenza sui parametri,
si noti infatti che β̂ è ancora una funzione lineare delle osservazioni.
Si noti che, rispetto ai minimi quadrati ordinari, con i GLS si minimizza la funzione
n
X
1
SQg =
(yi − (xi1 , . . . , xip )β)2 .
(7.20)
ωii
i=1
I contributi alla somma dei quadrati ordinari vengono pesati in ragione di 1/ωii , ossia in ragione
del rapporto tra varianze: maggiore è ωii , cioè maggiore la varianza dell’errore dell’osservazione
i-esima, minore è il peso del relativo scarto. In altre parole, si pesano poco gli scostamenti dalle
yi ove la varianza è maggiore.
Inoltre, si può interpretare la stima GLS come una stima OLS su dei dati trasformati linearmente:
posto Ω−1 = GT G lo stimatore GLS è lo stimatore OLS per il modello con risposta Y ∗ = GY e
X = GX.
Se la matrice Ω non è nota, l’inferenza si complica ma rimane possibile.
Esempio 7.5 Stima GLS Si considerino i dati riportati nel grafico sotto, per i quali è noto che
la varianza è 64 volte più grande quando x < 1/4 o x > 3/4.
Tale eteroschedasticità è evidente già dall’esame del diagramma di dispersione (figura 7.7(a)),
ancor più se si guarda aall’analisi dei residui del modello lineare stimato con OLS (figura 7.7(b)
e (c)).
Si stima dunque il modello con il metodo GLS, si noti dal confronto tra le tabelle 7.3 e 7.3 che
cambiano tanto i valori delle stime che gli errori standard, tali differenze non sono apprezzabili se si
guarda ai grafici in figura 7.7(d) - (f ) (si noti, i residui dei GLS non devono essere omoschedastici,
ma dell’eteroschedasticità si è tenuto conto nel calcolare stime e relativi s.e.). •
β0
β1
Stima
S.E.
t Pr(>|t|)
Stima
S.E.
t Pr(>|t|)
0.5059 0.4433 1.14
0.2594
β0 0.7952 0.3364 2.36
0.0222
1.7058 0.6779 2.52
0.0153
β1 1.3529 0.5568 2.43
0.0189
Tabella 7.3: Stime OLS (sinistra) e GLS (destra) per i dati dell’esempio 5
7.4 Dipendenza
Come nel caso dell’eteroschedasticità, si possono usare i GLS, che permettono di specificare una
matrice di covarianza degli errori non diagonale. Altrimenti, si potrà ricorrere a modelli per serie
storiche.
7.5 Multicollinearità
Se la matrice X non è a rango pieno il modello non è identificato, l’unico rimedio in questo caso
è ridurre il numero di variabili esplicative.
154
7.5. Multicollinearità
●
●
●●
●●
● ●●●
●
● ●●
●●
● ● ● ●●
●●
● ●
● ●
●
●
●
●
●
●
●
0
●
−2
●
●
●
●
●
●●
●●
●
● ●●
● ●●●
●●
●● ●● ●●
●●
● ●
●● ●
●
●
●
●
●
●
●
●
●2
●
●
●
●6
●
0.0
0.2
0.4
0.6
0.8
1.0
0.5
1.0
x
(a)
1.5
3
2
●●
●●
1
2
●
●
−2
●
●
●
●
0
●
2
y
●
●
●
Residuals
●
●
●
38 ●
●
●
●
●
●
●●●
●●●●●●●
●●●●●●●
●●●●●
●●
●
●●●
●●●●●
●●●
0
4
●
●
Standardized residuals
4
38 ●
●●
−2
6
●
2.0
●2
●6
−2
−1
0
1
2
Fitted values
Theoretical Quantiles
lm(y ~ x)
lm(y ~ x)
(b)
(c)
●
●●
●●
● ●●●
●
● ●●
●●
● ● ● ●●
●●
● ●
● ●
●
●
●
●
●
●
●
0
●
●
●
●
0.0
0.2
0.4
0.6
x
0.8
1.0
●
●
●●
●
●●
● ●
● ●
●
●
●
●
●
●
●
●
0.8
●
● ●●●
● ●●
●●
●● ●● ●● ●
●
●
●2
●
●
●6
1.2
1.6
2.0
3
2
●
●●
●●
●
1
2
●
●
●
−4
−2
●
●
●
0
●
●
Residuals
●
2
y
●
−2
●
●
●
38 ●
●
●
●●●●
●●●●●●
●●●●●●
●●
●●
●●●
●●
●●●
●●●●●●
●●
●
●●
0
4
●
●
●
Standardized residuals
4
38 ●
●
−2
6
●
●2
●6
−2
−1
0
1
Fitted values
Theoretical Quantiles
lm(y ~ x)
lm(y ~ x)
2
(d)
(e)
(f )
Figura 7.7: Dati e stime per l’esempio 5, la prima riga fa riferimento alle stime OLS, quella
inferiore alla stime GLS
7. Limiti del modello lineare e cenni alle principali estensioni
155
Più interessante è il caso in cui la matrice X sia a rango pieno ma con determinante di X T X vicino
a 0, cioè le variabili esplicative sono linearmente indipendenti ma vicine alla lineare dipendenza.
Questo, com’è noto, porta a varianze degli stimatori elevate e, spesso, stime difficilmente interpretabili.
Anche qui, l’esclusione di alcune delle esplicative è una possibile soluzione, se però si vogliono
mantenere tutte le variabili nel modello si può usare la ridge regression (regressione contratta?).
7.5.1
Ridge regression
L’idea nella ridge regression consiste nel modificare la matrice X T X in modo da incrementare il
valore del determinante, si definisce allora lo stimatore
β̂R = (X T X + λI)−1 X T y
(7.21)
che è uno stimatore distorto ma con varianza minore dello stimatore dei minimi quadrati β̂.
Lo stimatore β̂R può essere interpretato in due modi equivalenti,
β̂R = argmin(y − Xβ)T (y − Xβ) + λβ T β
(7.22)
β
ma anche
β̂R = argmin (y − Xβ)T (y − Xβ)
(7.23)
β:||β||2 ≤c
In sostanza si penalizzano nella stima valori elevati dei coefficienti, ovvero si impone una contrazione degli stessi verso lo zero, contenendone cosı̀ la varianza.
Seguendo la (7.22) si può interpretare β̂R in ottica
bayesiana come moda della distribuzione a
−1
posteriori di β con una a priori β ∼ N 0, λ .
Il problema della scelta di λ corrisponde a un problema di selezione del modello, ove va contemperata l’esigenza di contenere la distorsione (che cresce con λ) con quella di ridurre la varianza
(che decresce con λ). Sono quindi utilizzabili metodi per il confronto tra modelli (non nidificati)
come ad esempio la validazione incrociata.
Indice analitico
Bartlett, test di, 44
normalità, test di, 46
Calorie
analisi, 100
generalità, 9
Causalità, 7
Ciliegi neri
generalità, 8
modello, 51
modello sviluppato, 77
coefficiente di correlazione, 15
Coefficiente di determinazione, 31
conformità, test di, 46
Previsione, 33
Punto
anomalo, 123, 126
esempio, 137
influente, 123, 127
esempio, 136
leva, 123, 125
esempio, 137
Distanza di Cook, 127
Funzione di ripartizione empirica, 48
Galton, 15
Identificabilità
ANOVA, 96, 99
regressione multipla, 53
regressione semplice, 18
Interpretazione geometrica
confronto tra modelli, 74
della regressione multipla, 58
Ipotesi del II ordine
teorema di Gauss-Markov, 145
verifica, 42
Multicollinearità, 53, 153
Neonati
analisi, 113
generalità, 10
Normale
bivariata, 6
multivariata, 63
normalità
verifica grafica, 48
QQ plot, 49
quantile-quantile, grafico, 49
Quantili, 49
Rapporto di verosimiglianza, 28, 67, 96
Regressioneverso la media, 15
Shapiro-Wilk, test di, 47
Shuttle
generalità, 13
Statistica
t, 66
Stimatore
dei minimi quadrati
reg multipla, 56
reg semplice, 17
di massima verosimiglianza
reg multipla, 56
reg semplice, 24
Variabile
dummy, 87
indicatrice, 87
muta, 87
Visite
generalità, 13