Corso Avanzato di Statistica - Test chi-quadrato per la

Corso Avanzato di Statistica
Test chi-quadrato per la verifica dell’indipendenza
Posa D., De Iaco S.
[email protected]
[email protected]
D IP. TO
DI
U NIVERSITÀ del S ALENTO
S CIENZE E CONOMICHE E M ATEMATICO -S TATISTICHE
FACOLTÀ DI E CONOMIA
a.a. 2007/2008
2
Corso Avanzato di Statistica
Test chi-quadrato per la verifica dell’indipendenza
Assegnata la variabile aleatoria doppia (X, Y ), si consideri la seguente distribuzione di probabilità congiunta:
H
HH Y y
HH 1
X
x1
π11
..
..
.
.
πj1
xj
..
..
.
.
···
yk
···
yc
···
..
.
···
..
.
π1k
..
.
π1c
..
.
π10
..
.
πjk
..
.
···
..
.
···
..
.
πjc
..
.
πj0
..
.
πr1
π01
···
···
πrk
π0k
···
···
πrc
π0c
πr0
1
xr
dove:
x1 , x2 , . . . , xj , . . . , xr ed y1 , y2 , . . . , yk , . . . , yc , sono le possibili realizzazioni di X ed Y , rispettivamente;
3
Corso Avanzato di Statistica
πjk è la probabilità congiunta che la v.a. X assuma valore xj e la v.a. Y
assuma valore yk , ovvero
πjk = P (X = xj , Y = yk ),
j = 1, . . . , r, k = 1, . . . , c;
πj0 è la probabilità marginale che la v.a. X assuma valore xj (per
qualunque valore di Y ), ovvero
πj0 = P (X = xj ) =
c
X
πjk ,
j = 1, . . . , r;
k=1
π0k è la probabilità marginale che la v.a. Y assuma valore yk (per
qualunque valore di X), ovvero
π0k = P (Y = yk ) =
r
X
j=1
πjk ,
k = 1, . . . , c.
4
Corso Avanzato di Statistica
Si intende sottoporre a verifica l’ipotesi che le v.a. X ed Y siano indipendenti,
ovvero che:
P (X = xj , Y = yk ) = P (X = xj ) · P (Y = yk ),
oppure, in maniera equivalente, che:
πjk = πj0 · π0k
con j = 1, . . . , r
e
k = 1, . . . , c.
Pertanto, il problema di verifica può essere formalizzato come segue:
H0 : ∀j, k
H1 : ∃ j, k
πjk = πj0 · π0k ,
t.c. πjk 6= πj0 · π0k .
5
Corso Avanzato di Statistica
Estratto un campione casuale dalla v.a. doppia (X, Y ),si consideri la seguente
tabella di contingenza (r × c):
H
HH Y y
HH 1
X
x1
n11
..
..
.
.
nj1
xj
..
..
.
.
···
yk
···
yc
···
..
.
···
..
.
n1k
..
.
n1c
..
.
n10
..
.
njk
..
.
···
..
.
···
..
.
njc
..
.
nj0
..
.
nr1
n01
···
···
nrk
n0k
···
···
nrc
n0c
nr0
n
xr
dove:
x1 , x2 , . . . , xj , . . . , xr ed y1 , y2 , . . . , yk , . . . , yc , sono le possibili realizzazioni di X ed Y , rispettivamente;
6
Corso Avanzato di Statistica
njk è la frequenza con cui si è presentata nel campione la coppia (xj , yk );
nj0 è la frequenza marginale con cui si è presentata nel campione la
realizzazione xj , per qualunque valore di Y , ovvero
nj0 =
c
X
njk ,
j = 1, . . . , r;
k=1
n0k è la frequenza marginale con cui si è presentata nel campione la
realizzazione yk , per qualunque valore di X, ovvero
n0k =
r
X
j=1
njk ,
k = 1, . . . , c.
7
Corso Avanzato di Statistica
Sulla base delle osservazioni campionarie si intende stabilire se le due v.a. X
ed Y sono indipendenti.
Gli stimatori π
bjk , π
bj0 , π
b0k di massima verosimiglianza per le probabilità πjk ,
πj0 e π0k , coincidono con le corrispondenti frequenze relative campionarie,
come riportato di seguito:
π
bjk =
njk
;
n
π
bj0 =
nj0
;
n
π
b0k =
n0k
.
n
Inoltre, nel caso sia vera l’ipotesi dell’indipendenza tra X ed Y è intuitivo
attendersi che valga, almeno in via approssimativa, la seguente relazione:
0
π
bjk
=π
bj0 · π
b0k ,
oppure, moltiplicando ambo i membri per n, la seguente relazione:
n0jk =
nj0 · n0k
,
n
j = 1, . . . , r; k = 1, . . . , c.
Il simbolo “0” posto ad apice vuol dire che si sta assumendo vera l’ipotesi nulla.
Corso Avanzato di Statistica
Per cui, il test dell’indipendenza tra X ed Y può essere condotto sulle quantità:
2
j = 1, . . . , r, k = 1, . . . , c
njk − n0jk ,
cioè, sulle “distanze” al quadrato tra le frequenze assolute campionarie e le
corrispondenti frequenze assolute attese nel caso di indipendenza.
Se gli scarti tra njk ed n0jk non sono eccessivamente elevati, si concluderà
accettando l’ipotesi H0 di indipendenza tra X ed Y ; mentre se sono molto
elevati, si dovrà rigettare l’ipotesi H0 .
8
9
Corso Avanzato di Statistica
In particolare, la statistica-test risulta essere la seguente:
Y0 =
2
c
r X
njk − n0jk
X
j=1 k=1
con
n0jk =
n0jk
,
nj0 · n0k
.
n
Essa, se H0 è vera, converge in distribuzione ad una v.a. χ2 con
(r − 1)(c − 1) gradi di libertà
Y0
d
→
|H0
χ2(r−1)(c−1) .
10
Corso Avanzato di Statistica
Fissato α, livello di significatività del test, la regola di decisione risulta essere
la seguente:
A : Y0 < y(g;α) ,
R : Y0 ≥ y(g;α) ,
dove y(g;α) è il centile superiore della distribuzione χ2 con
g = (r − 1)(c − 1) gradi di libertà.
11
Corso Avanzato di Statistica
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
Ad una società di ricerche di mercato è stato commissionato uno studio per
verificare l’esistenza di una relazione fra zona di residenza (X) e casa automobilistica preferita (Y ).
In seguito ad un’indagine campionaria eseguita su 500 unità, sono state
rilevate per ciascuna di esse:
le zone di residenza classificate in:
“centro urbano” (x1 );
“periferia” (x2 );
“area rurale” (x3 );
le case automobilistiche preferite distinte in:
“General Motors” (y1 );
“Ford” (y2 );
“Chrysler” (y3 );
“marchio europeo” (y4 );
“marchio asiatico” (y5 ).
12
Corso Avanzato di Statistica
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
I risultati di tale indagine sono rappresentati nella seguente tabella di
contingenza:
HH
X
Y
HH
H
x1
x2
x3
y1
y2
y3
y4
y5
64
53
53
170
40
35
45
120
26
24
30
80
8
6
6
20
62
32
16
110
200
150
150
500
Si verifichi, ad un livello di significatività dell’1%, che esiste indipendenza
fra la zona di residenza dei soggetti e le loro preferenze automobilistiche.
13
Corso Avanzato di Statistica
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
S OLUZIONE
Il problema di verifica può essere formalizzato come segue:
H0 : ∀j, k
πjk = πj0 · π0k ,
H1 : ∃ j, k t.c. πjk 6= πj0 · π0k .
Pertanto, la regola di decisione si basa sulla seguente statistica-test Y0 :
Y0 =
2
c
r X
njk − n0jk
X
j=1 k=1
con n0jk =
nj0 · n0k
,
n
r=3
e
n0jk
c = 5.
,
Corso Avanzato di Statistica
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
S OLUZIONE
Sulla base dei dati del problema, risulta:
(64 − 68)2
(16 − 33)2
y0 =
+ ··· +
≃ 22, 780
68
33
essendo:
njk le frequenze assolute campionarie, riportate all’interno della
precedente tabella di contingenza;
n0jk le frequenze assolute attese nel caso di indipendenza, riportate
all’interno della seguente tabella:
H
HH Y y
y2
y3 y4
y5
HH 1
X
x1
68
48 32 8
44 200
x2
51
36 24 6
33 150
x3
51
36 24 6
33 150
170 120 80 20 110 500
14
15
Corso Avanzato di Statistica
Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica
S OLUZIONE
Inoltre, dal momento che:
Y0 , se H0 è vera, converge in distribuzione ad una v.a. χ2 con (3 − 1)(5 − 1)
gradi di libertà,
α = 0,01 è il livello di significatività del test,
la regola di decisione si basa sul confronto tra:
il valore y0 = 22,78 della statistica-test,
ed il centile superiore y(g;α) = y(8, 0,01) = 20, 09 della distribuzione χ2 .
Pertanto, si rifiuta H0 , essendo
22,78 > 20,09.