Test F per la significativit`a del modello Per verificare la significativit

Statistica Industriale Lez. 8
Test F per la significatività del modello
Per verificare la significatività dell’intero modello si utilizza il test F . Si
vuole verificare l’ipotesi H0 : β1 = 0, . . . , βk = 0 contro l’alternativa che
almeno uno dei parametri sia diverso da zero. La devianza totale ammette
sempre la scomposizione SST = SSE + SSR e sotto l’ipotesi che gli errori
siano N (0, σ 2) vale che
SST =
X
(Yi − Ȳ )2 ∼ σ 2χ2
n−1
SSE =
X
(Yi − Ŷi)2 ∼ σ 2χ2
n−p
SSR =
X
(Ŷi − Ȳi)2 ∼ σ 2χ2
p−1
La statistica
SSR/(p − 1)
(Ŷi − Ȳ )2/(p − 1)
=
F =P
(Yi − Ŷi)2/(n − p)
SSE/(n − p)
P
se è vera H0, si distribuisce come una F di Snedecor con p − 1 e n − p g.d.l,
e può essere utilizzata per verificare la significatività del modello. Infatti
si decide di rifiutare l’ipotesi nulla se F > c e per determinare c, fissato α
si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova il
valore cα tale per cui P (F > cα) = α.
1
Statistica Industriale Lez. 8
Test F per il modello ridotto
Supponiamo di avere il modello completo
Y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β k xk + ε
Vogliamo verificare l’ipotesi
H0 : β1 = β2 = . . . = βq = 0,
q<k
Se fosse vare l’ipotesi H0 il modello sarebbe
Y = β0 + βq+11xq+1 + βq+21xq+2 + . . . + βk xk + ε
Denotiamo con SSRr e SSEr le somme dei quadrati spiegati e residui del
modello ridotto. La statistica
(SSEr − SSE)/q
(SSR − SSRr )/q
=
SSE/(n − p)
SSE/(n − p)
sotto l’ipotesi nulla si distribuisce come una F con q e n − p gradi di libertà.
2
Statistica Industriale Lez. 8
Test F per l’aggiunta delle variabili nel modello
Si parte dal modello con nessuna variabile e si aggiungono le varibili ad una
ad una. Il modello j-esimo è
Y = β0 + β1x1 + β2x2 + . . . + βj xj + ε, j = 1, . . . , p
Si vuole sapere come l’aggiunta delle variabili nel modello riesca a spiegare
la variabilità totale della variabile da spiegare. Si calcola allora la SSR(1)
per il modello con una sola variabile, la SSR(2) del modello con due variabili e cosı̀ via. La differenza SSR(2) − SSR(1) ha il significato di quanta
variabilità il secondo modello riesce a spiegare in più rispetto al primo.
Si confrontano i due modelli successivi. Il test consiste nel verificare per il
modello j-esimo l’ipotesi nulla.
H0 : βj = 0,
La statistica test
SSR(j) − SSR(j − 1)
∼ F1,n−p, j = 2, . . . , p − 1
SSE/(n − p)
porta a rifiutare l’ipotesi nulla (e quindi l’aggiunta della variabile è significativa) per alti valori.
3
Statistica Industriale Lez. 8
Variabili indipendenti qualitative
Di solito le variabili nella regressione sono variabili continue.
In molte applicazioni si rende necessario l’introduzione di un fattore a due
o più livelli.
Ad esempio: i dati provengono dalla produzione di tre macchine differenti,
oppure un’azienda si serve o meno di alcuni strumenti, oppure vi sono 5
operatori diversi.
Possiamo assegnare a queste variabili dei livelli in modo da poter appurare
se hanno un qualche effetto sulla variabile da spiegare.
Queste variabili si chiamano dummy. Sono variabili che assumono in genere solo i valori (0, 1) a seconda che il fattore di interesse abbia assunto una
delle sue modalità. Se il fattore ha solo due modalità basta una variabile
dummy, altrimenti per k modalità servono k − 1 dummy.
4
Statistica Industriale Lez. 8
Esempio:
Il peso e l’età di 13 tacchini consumati durante il Giorno
del Ringraziamento sono riportati nella seguente tabella, con la regione di
provenienza.
1
2
3
4
5
6
7
8
9
10
11
12
13
age
28.00
20.00
32.00
22.00
29.00
27.00
28.00
26.00
21.00
27.00
29.00
23.00
25.00
weight
13.30
8.90
15.10
10.40
13.10
12.40
13.20
11.80
11.50
14.20
15.40
13.10
13.80
county
G
G
G
G
V
V
V
V
W
W
W
W
W
5
Statistica Industriale Lez. 8
Il grafico seguente mostra il grafico a dispersione dei punti osservati:
14
15
●
12
11
●
10
●
9
Weight
13
●
gruppo G
gruppo V
gruppo W
●
20
22
24
26
28
30
32
Age
6
Statistica Industriale Lez. 8
Stimiamo i parametri della retta di regressione y = β0 + β1x + ε dove con
y indichiamo il peso e con x l’età. La bontà di adattamento è R2 = 0.66,
la stima di s = 1.096.
(Intercept)
age
Estimate
1.9833
0.4167
Std. Error
2.3327
0.0892
t value
0.85
4.67
Pr(>|t|)
0.4133
0.0007
Come mostrano i grafici seguenti, i residui sembrano distribuirsi in maniera casuale, ma se li rappresentiamo per i diversi valori della regione di
provenienza, si nota un particolare andamento patologico.
Si osserva quindi che la regione di provenienza sembra avere una qualche
influenza sul peso dei tacchini.
7
Statistica Industriale Lez. 8
●
●
2.0
●●
●
●
●
●
●
1.5
−0.5
11
Regione
●
●
●
●
●
20
22
24
26
Age
28
30
32
●
●
1.0
−1.5
−1.0
10
9
●●
0.5
●
●
0.0
13
●
Residui
●
●
●
●
●
●
●
●
2.5
●
14
●
●
12
Weight
●
1.0
15
●
Grafico dei residui vs la regione di provenienza
3.0
Grafico dei Residui vs. Valori stimati
1.5
I punti osservati e la retta stimata
●
11
12
13
Valori Stimati
14
15
●
−1.5
●
−1.0
●
−0.5
●
0.0
0.5
1.0
1.5
Residui
Cerchiamo di inserire la variabile che indica il paese di provenienza nel
modello.
8
Statistica Industriale Lez. 8
Variabili indipendenti qualitative
Poiché il fattore assume tre valori introduciamo due variabili z1 e z2 ciascuna
delle quali assume solo i valori (0, 1) in modo che il modello sia
Y = β 0 + β 1 x1 + α 1 z 1 + α 2 z 2 + ε
(1)
In pratica quando entrambe le dummy valgono zero si ha il modello di
riferimento, quando una delle due vale 1 si hanno gli altri due modelli da
confrontare con quello di riferimento:
Y = β 0 + β 1 x1 + ε
Y = (β0 + α1) + β1x1 + ε
Y = (β0 + α2) + β1x1 + ε
Se si usassero tre variabili dummy la matrice X dei coefficienti del modello
(1) non avrebbe rango massimo perché una colonna sarebbe combinazione
delle altre. La matrice X per il modello (1) è riportata nella pagina seguente
insieme alla matrice di varianza e covarianza dei coefficienti stimati: Σ̂ =
(X 0X)−1s2,
9
Statistica Industriale Lez. 8
1
1
1
1
1
1
1
1
1
1
1
1
1
x
28
20
32
22
29
27
28
26
21
27
29
23
25
z1
0
0
0
0
1
1
1
1
0
0
0
0
0
z2
0
0
0
0
0
0
0
0
1
1
1
1
1


0.45

13 337
4
5
337 8887 110 125


0
XX=

 4
110
4
0 
5
125
0
5

-0.02
0.01
-0.02 0.00 -0.00

Σ = (X 0X)−1s2 = 
 0.01 -0.00 0.05
-0.03
0.00
0.02
-0.03
0.00 


0.02 
0.04
10
Statistica Industriale Lez. 8
I risultati della stima sono riassunti nella seguente tabella:
(Intercept)
age
countyV
countyW
Estimate
−0.4875
0.4868
−0.2735
1.9184
Std. Error
0.6734
0.0257
0.2184
0.2018
t value
−0.72
18.91
−1.25
9.51
Pr(>|t|)
0.4875
0.0000
0.2421
0.0000
I valori delle stime in corrispondenza delle righe denominate countyV e
countyW sono rispettivamente i valori di α1 e α2. Il modello stimato risulta
quindi:
ŷ = −0.4875 + 0.4868x − 0.2735z1 + 1.9184z2
Ovvero:
ŷ = −0.4875 + 0.4868x
per G
ŷ = −0.761 + 0.4868x
per V
ŷ = 1.4309 + 0.4868x
per W
11
Statistica Industriale Lez. 8
Il valore di R2 = 0.9794 è notevolmente cresciuto, quindi la provenienza
ha un peso non indifferente nello spiegare y. Il significato dei parametri è
il seguente:
α1 stima la differenza della risposta tra il gruppo G di riferimento e il gruppo
V . Il test H0 : α1 = 0 ci porta a concludere che questa ipotesi è plausibile,
cioè tra i due gruppi la differenza non è significativa.
α2 stima la differenza della risposta tra il gruppo G di riferimento e il gruppo
W . Il test H0 : α2 = 0 ci porta a concludere che questa ipotesi va rigettata,
cioè tra i due gruppi la differenza è significativa.
La differenza tra i gruppi V e W è data da α1 − α2 = −2.1919. La varianza
la otteniamo da
Var(α1 −α2) = Var(α1)+Var(α2)−2Cov(α1, α2) = .048+.041−2·.022 = .045
√
La statistica T vale t = −2.1919/( .0447) = −10.35 che porta a rifiutare
l’ipotesi nulla che i due paramentri siano uguali, e quindi a concludere che
la differenza nei due gruppi è significativa.
12
Statistica Industriale Lez. 8
Il grafico mostra le tre rette stimate
I punti osservati e le rette stimate
●
15
●
14
●
●
13
●
12
●
●
11
●
grupp G
gruppo V
gruppo W
10
●
9
Weight
●
●
●
●
20
22
24
26
28
30
32
Age
13
Statistica Industriale Lez. 8
Se vogliamo verificare l’ipotesi nulla
H0 : α1 = α2 = 0
Utilizziamo ancora la statistica la statistica F . La tavola della varianza
age
county
Residuals
Df
1
2
9
Sum Sq
26.20
12.40
0.81
Mean Sq
26.20
6.20
0.09
F value
290.71
68.81
Pr(>F)
0.0000
0.0000
In corrispondenza della colonna della somma dei quadrati, nella prima riga
abbiamo la devianza spiegata dal modello con solo la variabile age. Cioè
S2 = SSRr = 26.20 dove il modello ridotto è Y = β0 + β1x1 + ε. Nella
seconda riga abbiamo la differenza tra la devianza spiegata del modello
completo, Y = β0 + β1x1 + α1z1 + α2z2 + ε e quella del modello ridotto,
SSRc − SSRr = 12.40. Tanto più questa differenza è grande, tanto più il
modello completo è plausibile. Si verifica che la differenza S1 − S2 ∼ σ 2χ2
2,
dove S2 = SSRc, ed è indipendente da s2. Quindi possiamo costruire il test
F
14
Statistica Industriale Lez. 8
La statistica F sotto l’ipotesi nulla si distribuisce come una F di Snedecor
con 2 e 9 gradi di libertà e il suo valore è
(SSRc − SSRr )/2
12.40/2
=
= 68.81
SSE/(13 − 4)
0.81/9
In questo caso rifiutiamo l’ipotesi nulla. Possiamo concludere che la regione
di provenienza influenza il peso dei tacchini.
15
Statistica Industriale Lez. 8
Analisi della varianza per il confronto di più medie
Pensiamo ad una variabile quantitativa il cui valore dipenda da variabili qualitative. Ad esempio vogliamo analizzare una risposta quantitativa su una
popolazione che ha subito più di due trattamenti: l’efficienza del motore di
un’automobile quando sono stati utilizzati 5 differenti marchi di benzina.
Siano k il numero di trattamenti e µ1, µ2, . . . , µk la media nelle rispettive
popolazioni che hanno subito il trattamento 1, 2, . . . , k.
Denotiamo con yij l’osservazione j-esima nell’i-esimo gruppo, i = 1, . . . , k,
P
j = 1, . . . , ni,
ni = n. Possiamo decomporre l’osservazione come
yij = ȳi. + (yij − ȳi.)
Il termine (yij − ȳi.) è lo scostamento dell’osservazione dalla media del suo
gruppo.
Possiamo supporre il modello teorico
Yij = µi + εij , εij ∼ N (0, σ 2)
(2)
Pni
yij , (yij − ȳi.) risulta una stima di εij e
Uno stimatore per µi è ȳi. = n1 j=1
i
il valore previsto per yij da questo modello è ȳi..
16
Statistica Industriale Lez. 8
Possiamo decomporre l’osservazione come
yij = ȳ.. + (ȳi. − ȳ..) + (yij − ȳi.)
Il termine (ȳi. − ȳ..) è lo scostamento della media del gruppo dalla media
totale, mentre (yij − ȳi.) è lo scostamento dell’osservazione dalla media del
suo gruppo.
Il modello teorico risulta quindi
Yij = µ + αi + εij ,
εij ∼ N (0, σ 2),
k
X
αi = 0
(3)
i=1
Pni
1 Pk
In questo caso ȳ.. = n
i=1 j=1 yij è la stima di µ mentre (ȳi. − ȳ.. ) è la
stima di αi. Ora poiché
k
X
ni(ȳi. − ȳ..) = 0
i=1
si deduce che i parametri αi non sono univocamente determinabili, per cui
Pk
occorre porre il vincolo i=1 αi = 0.
17
Statistica Industriale Lez. 8
Il modello si può vedere come un modello di regressione. Supponiamo di
avere k trattamenti. Allora possiamo riscrivere il modello (2) come
Y = Xα + dove Y = (y11, . . . y1n1 , y21, . . . y2n2 , . . . , yk1, . . . yknk )0, è l’analogo vettore
degli errori, α = (α1, α2, . . . , αk )0 e la matrice del disegno sperimentale è

1
 ..
.

1

1

 ...
X=

1
.
 ..

1

 ..
.
1
0
...
0
1
...
1
...
0
...
0
0
...
0
0
...
0
...
0
...
0
...
...
...
...
...
...
...
...
...
...

0
... 


0

0

... 


0
... 


1

... 

1
La matrice X ha dimensioni n = n1 + · · · + nk righe e k colonne.
18
Statistica Industriale Lez. 8
In questo caso il modello è
Y = β0 + α1z1 + α2z2 + . . . + αk−1zk−1 + ε
Le variabili z1, . . . , zk−1 sone le variabili dummy per identificare i k trattamenti. Il trattamento va visto come una variabile qualitativa con k fattori.
In questo caso le osservazioni dal k-esimo fattore costituiscono il gruppo
di riferimento, identificato con zi = 0 per ogni i. Quindi la stima di β0 sarà
data dalla media di y calcolata sul k-esimo gruppo. Ciascun parametro αi
invece è la differenza tra la media nel gruppo i e la media nel gruppo k.
19
Statistica Industriale Lez. 8
Verificare l’ipotesi che le medie siano tutte uguali equivale a verificare
l’ipotesi
H0 : α1 = α2 = . . . = αk−1 = 0
Se indichiamo con SSRc la varianza spiegata dal modello completo, abbiamo che
SSRc ∼ σ 2χ2
k−1
e risulta essere indipendente da S 2. Quindi la statistica
SSRc/(k − 1)
SSE/(n − k)
Si distribuisce come una F di snedecor con gradi di libertà k − 1 e n − k,
dove con SSE si è indicata la varianza residua del modello completo.
Tanto più SSRc è grande rispetto a SSE tanto più siamo portati a rifiutare
l’ipotesi nulla
20
Statistica Industriale Lez. 8
Esempio. Per studiare l’effetto che un tipo di cuscinetto ha sulla vibrazione
del motore, 5 diversi tipi di cuscinetti sono stati montati ciascuno su 6
motori. La quantità di vibrazione (misurata in micron) è stata registrata
per i 30 motori. I risultati sono riportati nella seguente tabella
Gruppo
1
2
3
4
5
13.10
16.30
13.70
15.70
13.50
15.00
15.70
13.90
13.70
13.40
14.00
17.20
12.40
14.40
13.20
14.40
14.90
13.80
16.00
12.70
14.00
14.40
14.90
13.90
13.40
11.60
17.20
13.30
14.70
12.30
Media
13.68
15.95
13.67
14.73
13.08
Si vuole capire se il tipo di cuscinetto ha qualche effetto sulla riduzione
della vibrazioni del motore.
Il grafico nella pagina seguente ci rappresenta le osservazioni nei 5 gruppi
21
13
14
●
●
12
vibration
15
16
17
Statistica Industriale Lez. 8
1
2
3
4
5
Brand
22
Statistica Industriale Lez. 8
Esaminiamo i coefficienti per il modello proposto per i dati dell’esempio.
(Intercept)
Brand2
Brand3
Brand4
Brand5
Estimate
13.6833
2.2667
−0.0167
1.0500
−0.6000
Std. Error
0.3902
0.5518
0.5518
0.5518
0.5518
t value
35.07
4.11
−0.03
1.90
−1.09
Pr(>|t|)
0.0000
0.0004
0.9761
0.0686
0.2873
I coefficienti non vanno interpretati come nel modello lineare. In questi modelli l’intercetta è la media del primo gruppo, mentre gli altri coefficienti
sono gli scostamenti della media degli altri gruppi dal primo. Per α = 0.05
dalla tavola deduciamo che solo la media del secondo gruppo è significativamente diversa dalla media del primo gruppo. Per α = 0.1 risulta diversa
dalla media del primo gruppo anche la media del quarto gruppo.
23
Statistica Industriale Lez. 8
La tavola dell’analisi della varianza è
Brand
Residuals
Df
4
25
Sum Sq
30.86
22.84
Mean Sq
7.71
0.91
F value
8.44
Pr(>F)
0.0002
Nella prima colonna dopo la colonna dei gradi di libertà sono riportati i
valori SSRc e SSR.
Nella colonna successiva vi sono le somme dei quadrati divise per i rispettivi
gradi di libertà.
Il valore della statistica F è ottenuto come rapporto tra i due Mean Sq. Il
p-value pari a 0.0002 ci porta a rifiutare l’ipotesi nulla che le medie siano
uguali nei 5 gruppi ad un livello di significatività α = 0.01.
Una volta che il test F ha mostrato che c’è una qualche differenza tra le
medie occorre andare a cercare dove si trova questa differenza. È necessario
confrontare i gruppi tra loro.
Parte di questa informazione l’abbiamo già vista e si trova nei coefficienti
del modello e nella loro significatività rispetto al test t.
24
Statistica Industriale Lez. 8
La tavola dei coefficienti ci permette di confrontare la significatività solo
tra il gruppo di riferimento e gli altri. Per un confronto globale possiamo
effettuare il confronto per ogni coppia di gruppi. Ricordiamo che per verificare se le medie di due popolazioni sono uguali si può utilizzare il test t.
2 sono le medie e le varianze campionarie di due campioni
Se x̄1, x̄2, s̄2
e
s̄
1
2
di ampiezza n1 ed n2, si può costruire un test t per verificare l’ipotesi nulla
H0 : µ1 = µ2 contro le usuali alternative, basato sulla statistica
x̄1 − x̄2
r
t=
s̄ n1 + n1
1
2
dove
v
u
u (n − 1)s̄2 + (n − 1)s̄2
1
2
1
2
s̄ = t
n1 + n2 − 2
Poiché la statistica t si distribuisce come una t di Student con g = n1 +n2 −2
d.f, il test di livello α corrisponde alle seguenti regole di decisione
g
quando H1 : µ1 6= µ2,
Rifiutare H0 se |t| > t1− α
quando H1 : µ1 > µ2,
Rifiutare H0 se t > t1−α
quando H1 : µ1 < µ2,
Rifiutare H0 se t < tα
2
g
g
25
Statistica Industriale Lez. 8
I valori del p-value per i test per il confronto delle medie dei gruppi a due
a due per i dati dell’esempio sono riportati nella tabella seguente.
2
3
4
5
1
0.00
0.98
0.32
0.86
2
–
0.00
0.22
0.00
3
–
–
0.32
0.86
4
–
–
–
0.04
Per α = 0.05 la media del gruppo 2 è significativamente diversa dalla media
dei gruppi 1,3,5. Per lo stesso livello risultano diverse anche le medie dei
gruppi 4 e 5.
In pratica sono stati calcolati k(k − 1)/2 intervalli di confidenza per µi − µl e
sono state ritenute diverse le medie i cui intervalli non contengono lo zero.
Un metodo alternativo consiste nel controllo simultaneo di questi intervalli
ed è noto come Procedura di Tukey
26
Statistica Industriale Lez. 8
La Procedura di Tukey si basa sull’ utilizzo di una statistica detta Range
Studentizzato e la cui distribuzione è detta distribuzione di Tukey.
Supponiamo che ogni gruppo abbia la stessa numerosità n0, quindi n = kn0.
Sia s2 = M SE/n0. Allora il range Studentizzato è definito da
qk,n−k =
max
1≤i<l≤k
|ȳi. − ȳl.|
√s
n0
La distribuzione del Range Studentizzato si chiama ditribuzione di Tukey
ed è denotata con Qk,n−k e i valori dei quantili si trovano in apposite tavole
al variare dei parametri. L’intervallo di confidenza per la differenza µi − µl
è dato da
s
s
ȳi. − ȳl. − qα;k,n−k √
≤ µi − µl ≤ ȳi. − ȳl. − qα;k,n−k √
n0
n0
dove qα;k,n−k è tale che P (Qk.n−k ≤ qα;k,n−k ) = 1 − α.
27
Statistica Industriale Lez. 8
Il test di Tukey eseguito sulle 10 differenze da i seguenti risultati. Le
differenze sono prese dalla più piccola alla più grande e in modo che siano
sempre positive.
3-5
1-5
4-5
2-5
1-3
4-3
2-3
4-1
2-1
2-4
diff
0.58
0.60
1.65
2.87
0.02
1.07
2.28
1.05
2.27
1.22
lwr
-1.04
-1.02
0.03
1.25
-1.60
-0.55
0.66
-0.57
0.65
-0.40
upr
2.20
2.22
3.27
4.49
1.64
2.69
3.90
2.67
3.89
2.84
Da questa tabella si deduce che i gruppi con medie significativamente
differenti sono quelli in cui l’intervallo di confidenza non contiene lo zero. In
questo caso abbiamo 4-5, 2-5, 2-3, 2-1. I risultati di questo test coincidono
a livello 0.05 con quelli ottenuti con i test t.
28