RACCOLTA DI STATISTICHE TEST disponibili nell - IsIB

RACCOLTA DI STATISTICHE TEST
disponibili nell’ambiente R
Materiale integrativo relativo al Modulo I
“Verifica d’ipotesi e stima intervallare”
a cura di A.R. Brazzale1
[email protected]
3 aprile 2003
1
c 2003 A.R. Brazzale
Indice
1 Test di verosimiglianza
1.1
3
Variabili assolutamente continue . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.1.1
Test t di Student ad un campione . . . . . . . . . . . . . . . . . . . . . . .
3
1.1.2
Test t di Student a due campioni . . . . . . . . . . . . . . . . . . . . . . .
4
1.1.3
Test t di Student per dati appaiati . . . . . . . . . . . . . . . . . . . . . .
5
1.1.4
Analisi della varianza ad un criterio . . . . . . . . . . . . . . . . . . . . .
7
1.1.5
Test sulla varianza di una popolazione normale . . . . . . . . . . . . . . .
8
1.1.6
Test di omogeneità delle varianze di due popolazioni normali . . . . . . .
9
1.1.7
Test di Bartlett . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2 Test di tipo distribution-free
2.1
12
Test di bontà di adattamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.1.1
12
Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . .
X2
2.1.2
Test
di Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
2.1.3
Test di normalità di Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . .
14
2
Capitolo 1
Test di verosimiglianza
1.1
1.1.1
Variabili assolutamente continue
Test t di Student ad un campione
Obiettivo
test sulla media µ di una popolazione normale N (µ, σ 2 ) con µ ∈ IR e varianza σ 2 > 0 non
nota
Ipotesi nulla
bilaterale: H0 : µ = µ0 vs H1 : µ 6= µ0
unilaterale: H0 : µ ≤ µ0 vs H1 : µ > µ0 oppure H0 : µ ≥ µ0 vs H1 : µ < µ0
Dati
y = (y1 , . . . , yn ), campione casuale semplice (i.i.d.) da N (µ, σ 2 )
Statistica test
√
t(y) =
n(ȳ − µ0 )
,
s
con
ȳ =
Pn
i=1 yi
n
e
2
s =
Pn
− ȳ)2
n−1
i=1 (yi
Distribuzione nulla
tn−1 , t di Student con n − 1 gradi di libertà, esatta
Regioni di rifiuto
bilaterale: H0 : µ = µ0 vs H1 : µ 6= µ0 −→ R = {y : |t(y)| > q1−α/2 }
unilaterale: H0 : µ ≤ µ0 vs H1 : µ > µ0 −→ R = {y : t(y) > q1−α }
H0 : µ ≥ µ0 vs H1 : µ < µ0 −→ R = {y : t(y) < qα }
con qp quantile di livello p di una tn−1
Tipologia
test rapporto di verosimiglianza
3
Funzioni R
t.test( x = vettore delle osservazioni (y) ,
alternative = a scelta tra "two.sided", "less" e "greater" ,
mu = media sotto H0 (µ0 ) ,
conf.level = livello di confidenza (1 − α) )
power.t.test( n = numero di osservazioni per gruppo ,
delta = discostamento da µ0 (µ1 = µ0 + δ) ,
sd = deviazione standard (σ) ,
sig.level = livello del test (α) ,
type = "one.sample", ,
alternative = a scelta tra "two.sided" e "one.sided" )
Nota bene
Se la varianza σ 2 è nota, la statistica test diventa z(y) =
√
n(ȳ − µ0 )/σ con distribuzione
nulla normale standard.
Riferimenti bibliografici
Azzalini, A. (2000). Inferenza statistica: una presentazione basata sul concetto di verosimiglianza
(2a ed.). Springer-Verlag, Milano. §§. 4.4.1 e 4.4.2.
1.1.2
Test t di Student a due campioni
Obiettivo
verificare l’eguaglianza delle medie µ1 e µ2 di due popolazioni normali N (µ1 , σ 2 ) e N (µ2 , σ 2 )
con µ1 ∈ IR, µ2 ∈ IR e varianza comune σ 2 > 0 non nota (caso omoschedastico)
Ipotesi nulla
bilaterale: H0 : µ1 = µ2 vs H1 : µ1 6= µ2
unilaterale: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 oppure H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
Dati
y = (y1 , y2 ), dove y1 = (y11 , . . . , y1n1 ) e y2 = (y21 , . . . , y2n2 ) sono due campioni casuali
semplici (i.i.d.) rispettivamente da N (µ1 , σ 2 ) e da N (µ2 , σ 2 )
Statistica test
(ȳ1 − ȳ2 )
,
t(y) = p
s 1/n1 + 1/n2
con
ȳ1 =
Pn1
i=1 y1i
n1
,
ȳ2 =
Pn2
i=1 y2i
e
n2
4
2
s =
Pn1
i=1 (y1i
2
− ȳ1 )2 + ni=1
(y2i − ȳ2 )2
n1 + n2 − 2
P
Distribuzione nulla
tn1 +n2 −2 , t di Student con n1 + n2 − 2 gradi di libertà, esatta
Regioni di rifiuto
bilaterale: H0 : µ1 = µ2 vs H1 : µ1 6= µ2 −→ R = {y : |t(y)| > q1−α/2 }
unilaterale: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 −→ R = {y : t(y) > q1−α }
H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 −→ R = {y : t(y) < qα }
con qp quantile di livello p di una tn1 +n2 −2
Tipologia
test rapporto di verosimiglianza
Funzione R
t.test( x = primo campione (y1 ) ,
y = secondo campione (y2 ) ,
alternative = a scelta tra "two.sided", "less" e "greater" ,
var.equal = TRUE ,
conf.level = livello di confidenza (1 − α) )
power.t.test( n = numero di osservazioni per gruppo ,
delta = differenza tra medie (|µ1 − µ2 |) ,
sd = deviazione standard (σ) ,
sig.level = livello del test (α) ,
type = "two.sample", ,
alternative = a scelta tra "two.sided" e "one.sided" )
Nota bene
Nel caso in cui le due distribuzioni normali non abbiano varianza comune (caso eteroschedastico) non esiste una soluzione esatta (problema di Behrens-Fisher ). In R possiamo ancora
utilizzare la funzione t.test con l’opzione var.equal=FALSE. Il test implementato, noto
come test di Welsh, fa riferimento ad un’approssimazione della distribuzione nulla.
Riferimenti bibliografici
Azzalini, A. (2000). Inferenza statistica: una presentazione basata sul concetto di verosimiglianza
(2a ed.). Springer-Verlag, Milano. § 4.4.3.
1.1.3
Test t di Student per dati appaiati
Obiettivo
verificare l’eguaglianza delle medie µ1 e µ2 di due popolazioni normali N (µ1 , σ12 ) e N (µ2 , σ22 )
5
che rappresentano le misurazioni di una variabile quantitativa su un campione casuale di
n unità in due occasioni distinte; µ1 ∈ IR, µ2 ∈ IR, varianze σ12 > 0 e σ22 > 0 non note
Ipotesi nulla
bilaterale: H0 : µ1 = µ2 vs H1 : µ1 6= µ2
unilaterale: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 oppure H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2
Dati
y = [(y11 , y21 ), . . . , (y1n , y2n )], dove (y1i , y2i ) sono coppie di valori rilevati sul soggetto
i-esimo (misure ripetute)
Statistica test
√
t(z) =
nz̄
,
s
con
dove
z̄ =
Pn
i=1 zi
n
2
,
zi = y1i − y2i ,
s =
Pn
− z̄)2
,
n−1
i=1 (zi
i = 1, . . . , n
Distribuzione nulla
tn−1 , t di Student con n − 1 gradi di libertà, esatta
Regioni di rifiuto
bilaterale: H0 : µ1 = µ2 vs H1 : µ1 6= µ2 −→ R = {y : |t(z)| > q1−α/2 }
unilaterale: H0 : µ1 ≤ µ2 vs H1 : µ1 > µ2 −→ R = {y : t(z) > q1−α }
H0 : µ1 ≥ µ2 vs H1 : µ1 < µ2 −→ R = {y : t(z) < qα }
con qp quantile di livello p di una tn−1
Tipologia
test rapporto di verosimiglianza
Funzione R
t.test( x = primo campione (y11 , . . . , y1n ) ,
y = secondo campione (y21 , . . . , y2n ) ,
alternative = a scelta tra "two.sided", "less" e "greater" ,
paired = TRUE ,
conf.level = livello di confidenza (1 − α) )
power.t.test( n = numero di osservazioni per gruppo ,
delta = differenza tra medie (|µ1 − µ2 |) ,
sd = deviazione standard (σ) ,
sig.level = livello del test (α) ,
type = "paired", ,
alternative = a scelta tra "two.sided" e "one.sided" )
6
Riferimenti bibliografici
Azzalini, A. (2000). Inferenza statistica: una presentazione basata sul concetto di verosimiglianza
(2a ed.). Springer-Verlag, Milano. § 4.4.4.
Commenti
L’ipotesi nulla H0 : µ1 = µ2 sui dati originali è equivalente all’ipotesi nulla H0 : δ = 0
sulle differenze zi = y1i − y2i , i = 1, . . . , n. Questo passaggio consente di rimuovere la
correlazione tra le misure ripetute.
1.1.4
Analisi della varianza ad un criterio
Obiettivo
verificare l’eguaglianza delle medie µ1 , . . . , µm di m popolazioni normali N (µ1 , σ 2 ), . . . ,
N (µm , σ 2 ) con µi ∈ IR, i = 1, . . . , m, e varianza comune σ 2 > 0 non nota (caso omoschedastico)
Ipotesi nulla
H0 : µ1 = · · · = µm vs H1 : {almeno un0 eguaglianza è f alsa}
Dati
y = (y1 , . . . , ym ), dove y1 = (y11 , . . . , y1n1 ), . . . , ym = (ym1 , . . . , ymnm ) sono campioni
casuali semplici (i.i.d.) da N (µ1 , σ 2 ), . . . , N (µm 2, σ 2 )
Statistica test
Pm
ni (ȳi − ȳ)2 /(m − 1)
Pni
F (y) = Pm i=1
2
i=1
con ȳi =
Pni
j=1 yij
ni
,
j=1 (yij
ȳ =
− ȳi ) /(N − m)
Pm Pni
i=1
j=1 yij
N
e
,
N=
m
X
ni
i=1
Distribuzione nulla
Fm−1,N −m , F di Snedecor con (m − 1, N − m) gradi di libertà, esatta
Regioni di rifiuto
R = {y : F (y) > q1−α }, con qp quantile di livello p di una Fm−1,N −m
Tipologia
test rapporto di verosimiglianza
Funzione R
oneway.test( formula = formula del tipo y~x, dove y è il vettore delle osservazioni (y)
e x è una variabile categoriale (in R fattore) che determina il
7
gruppo di appartenenza di ogni osservazione ,
var.equal = TRUE )
Nota bene
Nel caso in cui le distribuzioni normali non abbiano varianza comune (caso eteroschedastico) non esiste una soluzione esatta (problema di Behrens-Fisher ). In R possiamo ancora
utilizzare la funzione oneway.test con l’opzione var.equal=FALSE. Il test implementato,
noto come test di Welsh, fa riferimento ad un’approssimazione della distribuzione nulla.
Riferimenti bibliografici
Azzalini, A. (2000). Inferenza statistica: una presentazione basata sul concetto di verosimiglianza
(2a ed.). Springer-Verlag, Milano. § 4.4.5.
Commenti
La statistica test è il rapporto tra la varianza inter-soggetto (between-subject) e la varianza
intra-soggetto (withing-subject). Analoghe statistiche test si ottengono per l’analisi della
varianza a più criteri. La funzione R da utilizzare in tale caso è anova.
1.1.5
Test sulla varianza di una popolazione normale
Obiettivo
test sulla varianza σ 2 di una popolazione normale N (µ, σ 2 ) con σ 2 > 0 e µ ∈ IR non nota
Ipotesi nulla
bilaterale: H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02
unilaterale: H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02 oppure H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02
Dati
y = (y1 , . . . , yn ), campione casuale semplice (i.i.d.) da N (µ, σ 2 )
Statistica test
nσ̂ 2
w(y) = 2 ,
σ0
con
ȳ =
Pn
i=1 yi
n
e
2
σ̂ =
Pn
i=1 (yi
− ȳ)2
n
Distribuzione nulla
χ2n−1 , χ2 con n − 1 gradi di libertà, esatta
Regioni di rifiuto
bilaterale: H0 : σ 2 = σ02 vs H1 : σ 2 6= σ02 −→ R = {y : w(y) > q1−α/2 oppure w(y) < qα/2 }
unilaterale: H0 : σ 2 ≤ σ02 vs H1 : σ 2 > σ02 −→ R = {y : w(y) > q1−α }
H0 : σ 2 ≥ σ02 vs H1 : σ 2 < σ02 −→ R = {y : w(y) < qα }
con qp quantile di livello p di una χ2n−1
8
Tipologia
test rapporto di verosimiglianza
Funzione R
w.y <- (n-1)*var(y)/s0
qchisq( c(alfa/2, 1-alfa/2), df=n-1 )
Nota bene
Se la media µ è nota, la statistica test diventa w(y) = nσ̂ 2 /σ02 , con σ̂ 2 =
e distribuzione nulla χ2 con n gradi di libertà.
Pn
i=1 (yi
− µ)2 /n,
Riferimenti bibliografici
Azzalini, A. (2000). Inferenza statistica: una presentazione basata sul concetto di verosimiglianza
(2a ed.). Springer-Verlag, Milano. § 4.4.6.
1.1.6
Test di omogeneità delle varianze di due popolazioni normali
Obiettivo
verificare l’eguaglianza delle varianze σ12 e σ22 di due popolazioni normali N (µ1 , σ12 ) e
N (µ2 , σ22 ) con σ12 > 0, σ22 > 0 e µ1 ∈ IR e µ2 ∈ IR non note
Ipotesi nulla
bilaterale: H0 : σ12 = σ22 vs H1 : σ12 6= σ22
unilaterale: H0 : σ12 ≤ σ22 vs H1 : σ12 > σ22 oppure H0 : σ12 ≥ σ22 vs H1 : σ12 < σ22
Dati
y = (y1 , y2 ), dove y1 = (y11 , . . . , y1n1 ) e y2 = (y21 , . . . , y2n2 ) sono due campioni casuali
semplici (i.i.d.) rispettivamente da N (µ1 , σ12 ) e da N (µ2 , σ22 )
Statistica test
w(y) =
con
ȳ1 =
Pn1
i=1 y1i
n1
,
ȳ2 =
Pn2
i=1 y2i
n2
σ̂12
,
n1 σ̂12
,
n2 σ̂22
=
Pn1
i=1 (y1i
n1
− ȳ1 )2
,
σ̂22
=
Pn2
i=1 (y2i
− ȳ2 )2
n2
Distribuzione nulla
Fn1 −1,n2 −1 , F di Snedecor con (n1 − 1, n2 − 1) gradi di libertà, esatta
Regioni di rifiuto
bilaterale: H0 : σ12 = σ22 vs H1 : σ12 6= σ22 −→ R = {y : w(y) > q1−α/2 oppure w(y) < qα/2 }
unilaterale: H0 : σ12 ≤ σ22 vs H1 : σ12 > σ22 −→ R = {y : w(y) > q1−α }
9
H0 : σ12 ≥ σ22 vs H1 : σ12 < σ22 −→ R = {y : w(y) < qα }
con qp quantile di livello p di una Fn1 −1,n2 −1
Tipologia
test rapporto di verosimiglianza
Funzione R
var.test( x = primo campione (y1 ) ,
y = secondo campione (y2 ) ,
ratio = 1 (σ12 /σ22 = 1) ,
alternative = a scelta tra "two.sided", "less" e "greater" ,
conf.level = livello di confidenza (1 − α) )
Nota bene
Se le medie µ1 e µ2 sono note, la statistica test diventa w(y) = (n1 σ̂12 )/(n2 σ22 ) con σ̂12 =
Pn1
i=1 (y1i
− µ1 )2 /n1 , σ̂22 =
Pn2
i=1 (y2i
− µ2 )2 /n2 , e distribuzione nulla F con (n1 , n2 ) gradi
di libertà.
Riferimenti bibliografici
Piccolo, D. (1998). Statistica (2a ed.). il Mulino, Bologna. pp. 677s.
1.1.7
Test di Bartlett
Obiettivo
2 di m popolazioni normali N (µ , σ 2 ), . . . ,
verificare l’eguaglianza delle varianze σ12 , . . . , σm
1 1
2 ) con σ 2 > 0, i = 1, . . . , m, e µ ∈ IR, i = 1, . . . , m, non note
N (µm , σm
i
i
Ipotesi nulla
2 vs H : {almeno un0 eguaglianza è f alsa}
H0 : σ12 = · · · = σm
1
Dati
y = (y1 , . . . , ym ), dove y1 = (y11 , . . . , y1n1 ), . . . , ym = (ym1 , . . . , ymnm ) sono campioni
2 )
casuali semplici (i.i.d.) da N (µ1 , σ12 ), . . . , N (µm , σm
Statistica test
(N − m) log s2 − m
(ni − 1) log s2i
Pm i=1
,
K (y) =
1 + (1/(3(m − 1)))(( i=1 1/(ni − 1)) − 1/(N − m))
P
2
con
ȳi =
Pni
j=1 yij
ni
,
s2i
=
Pni
− ȳi )2
,
ni − 1
j=1 (yij
Distribuzione nulla
χ2m−1 , χ2 con m − 1 gradi di libertà, asintotica
10
s2 =
Pm
− 1)s2i
N −m
i=1 (ni
e
N=
m
X
i=1
ni
Regioni di rifiuto
R = {y : K 2 (y) > q1−α }, con qp quantile di livello p di un χ2m−1
Tipologia
test rapporto di verosimiglianza
Funzione R
bartlett.test( formula = formula del tipo y~x, dove y è il vettore delle osservazioni (y)
e x è una variabile categoriale (in R fattore) che determina il
gruppo di appartenenza di ogni osservazione )
Nota bene
Se le medie µ1 , . . . , µm sono note, la statistica test si basa sulle quantità s2i =
µi
)2 /(n
i
− 1), i = 1, . . . , m. La distribuzione nulla è ancora
χ2m−1 .
Pni
j=1 (yij
−
Commenti
Gli elementi contenuti nella statistica test sono le stime non distorte delle varianze dei
singoli gruppi, s2i , e la stima pooled, s2 , ottenuta ipotizzando l’omogeneità delle varianze.
Nel caso in cui m = 2, il test di Bartlett assume la veste riportata nel § 1.1.6.
Riferimenti bibliografici
Bartlett, M. S. (1937). Properties of sufficiency and statistical tests. Proceedings of the
Royal Statistical Society Series A, 160, 268–282.
11
Capitolo 2
Test di tipo distribution-free
2.1
Test di bontà di adattamento
Il riferimento principale è la monografia Goodness-of-Fit Techniques curata da R.B. D’Agostino
e M.A. Stephens (Marcel Dekker, New York, 1986).
2.1.1
Test di Kolmogorov-Smirnov
Obiettivo
1) valutare se un campione casuale semplice (i.i.d.) provenga da una specifica distribuzione
assolutamente continua
2) valutare se due campioni casuali semplici (i.i.d.) provengano dalla stessa distribuzione
assolutamente continua
Ipotesi nulla
1) Y ∼ Y0 , con Y0 distribuzione specifica
2) Y1 ∼ Y2
Dati
1) y = (y1 , . . . , yn ) campione casuale semplice da Y
2) y = (y1 , y2 ), con y1 = (y11 , . . . , y1n ) e y2 = (y21 , . . . , y2n ) due campioni casuali semplici
rispettivamente da Y1 e Y2
Statistica test
1)
Dn (y) = sup |F̂n (y) − F0 (y)|, Dn+ (y) = sup(F̂n (y) − F0 (y)), Dn− (y) = sup(F0 (y) − F̂n (y))
y
dove F̂n (y) = 1/n
y
Pn
i=1 I{yi
y
≤ y} è la funzione di ripartizione empirica e F0 (y) è la funzione
di ripartizione di Y0
12
2)
Dn (y) = sup |F̂n1 (y)− F̂n2 (y)|, Dn+ (y) = sup(F̂n1 (y)− F̂n2 (y)), Dn− (y) = sup(F̂n2 (y)− F̂n1 (y))
y
y
dove F̂n1 (y) = 1/n
Pn
i=1 I{y1i
≤ y} e F̂n2 (y) = 1/n
y
Pn
i=1 I{y2i
≤ y} sono rispettivamente le
funzioni di ripartizione empiriche di Y1 e Y2
Distribuzione nulla
tabulata per il caso 2) con ipotesi alternativa bilaterale, approssimazione asintotica altrimenti
Regioni di rifiuto
bilaterale: H0 : Y ∼ Y0 vs H1 : Y ∼
/ Y0
oppure H0 : Y1 ∼ Y2 vs H1 : Y1 ∼
/ Y2
−→ R = {y : Dn (y) > dα } per opportuni valori critici dα
unilaterale: H0 : Y ∼ Y0 vs H1 : Y < Y0 oppure H0 : Y1 ∼ Y2 vs H1 : Y1 < Y2
+
−→ R = {y : Dn+ (y) > d+
α } per opportuni valori critici dα
H0 :∼ Y0 vs H1 : Y > Y0 oppure H0 : Y1 ∼ Y2 vs H1 : Y1 > Y2
−
−→ R = {y : Dn− (y) > d−
α } per opportuni valori critici dα
Tipologia
test basato sulla funzione di ripartizione empirica
Funzioni R
ks.test
Nota bene
L’approssimazione asintotica della distribuzione nulla può essere inaffidabile nel caso di
ipotesi nulle composite oppure per piccoli campioni.
Commenti
Varianti del test di Kolmogorov-Smirnov sono i test di Cramér-von Mises e di AndersonDarling. Essi non sono (a mia conoscenza) implementati in R.
2.1.2
Test X2 di Pearson
Obiettivo
valutare se un campione casuale semplice (i.i.d.) provenga da una specifica distribuzione
binomiale/multinomiale
Ipotesi nulla
Y ∼ Y0 , con Y0 distribuzione Bi(1, π), 0 < π < 1, oppure Md (1, π), π = (π1 , . . . , πd ), con
0<π<1e
Pd
j=1 πj
=1
13
Dati
y = (y1 , . . . , yn ) campione casuale semplice da Y
Statistica test
2
X (y) =
d
X
(fj − nπj )2
j=1
con fj =
Pn
i=1 I{yi
nπj
= y0j }, dove Y = {y0j , j = 1, . . . , d}, e nπj rispettivamente frequenze
osservate e attese
Distribuzione nulla
χ2d−1 con d − 1 gradi di libertà (asintotica)
Regione di rifiuto
R = {y : X 2 (y) > q1−α }, con q1−α quantile di livello 1 − α di una χ2d−1
Tipologia
test basato sul confronto di frequenze osservate e attese
Funzioni R
chisq.test
Nota bene
Per piccoli campioni, ovvero per basse frequenze attese, è consigliabile aumentare l’accuratezza della distribuzione nulla tramite una correzione di continuità che modifica il numeratore della statistica test in (fj − nπj − 0.5)2 (correzione di Yates).
Se la distribuzione di Y è del tipo F (y; θ) con θ parametro p-dimensionale da stimare,
la statistica X 2 può ancora essere utilizzata dopo avere sostituito θ con la sua stima di
massima verosimiglianza θ̂ e riducendo i gradi di libertà della distribuzione nulla da d − 1
a d − p − 1.
Commento
Il test X 2 di Pearson può essere utilizzato in presenza di una distribuzione continua scontando la perdita di potenza dovuta alla discretizzazione. Da notare che nel caso θ fosse non
noto, si deve utilizzare la stima di massima verosimiglianza sotto il modello multinomiale
(e non quello di riferimento!).
2.1.3
Test di normalità di Shapiro-Wilk
Obiettivo
valutare se un campione casuale semplice (i.i.d.) provenga da una distribuzione normale
N (µ, σ 2 ) con µ ∈ IR e σ 2 > 0 non necessariamente noti
14
Ipotesi nulla
H0 : dati normali vs H1 : dati non normali
Dati
y = (y1 , . . . , yn ) campione casuale semplice (i.i.d.)
Statistica test
W (y) =
Pn
2
i=1 ai y(i) )
Pn
,
2
i=1 (yi − ȳ)
(
dove
ȳ =
Pn
i=1 yi
n
e pesi ai , i = 1, . . . , n, tali da fornire al numeratore la migliore stima lineare non distorta
della deviazione standard σ sotto l’ipotesi di normalità
Distribuzione nulla
tabulata per n piccolo, approssimazione asintotica altrimenti
Regione di rifiuto
R = {y : W (y) < wα }, per opportuni valori critici wα
Tipologia
test basato su tecniche di regressione
Funzioni R
shapiro.test [ctest]
Nota Bene
Il test di Shapiro-Wilk è ritenuto uno dei test più potenti per la verifica della normalità,
soprattutto per piccoli campioni.
Commento
La verifica della normalità avviene confrontando due stimatori alternativi della varianza
σ 2 : uno stimatore non parametrico basato sulla combinazione lineare ottimale della statistica d’ordine di una variabile aleatoria normale al numeratore, e l’usuale stimatore parametrico, ovvero la varianza campionaria, al denominatore. I pesi ai sono disponibili su
apposite tavole. La statistica W può essere interpretata come il quadrato del coefficiente
di correlazione in un diagramma quantile-quantile.
Riferimenti bibliografici
Shapiro, S.S. and Wilk, M.B. (1965). Analysis of variance tests for normality (complete
sample). Biometrika, 52, 591–611.
15