Corso Avanzato di Statistica Test chi-quadrato per la verifica dell’indipendenza Posa D., De Iaco S. [email protected] [email protected] D IP. TO DI U NIVERSITÀ del S ALENTO S CIENZE E CONOMICHE E M ATEMATICO -S TATISTICHE FACOLTÀ DI E CONOMIA a.a. 2007/2008 2 Corso Avanzato di Statistica Test chi-quadrato per la verifica dell’indipendenza Assegnata la variabile aleatoria doppia (X, Y ), si consideri la seguente distribuzione di probabilità congiunta: H HH Y y HH 1 X x1 π11 .. .. . . πj1 xj .. .. . . ··· yk ··· yc ··· .. . ··· .. . π1k .. . π1c .. . π10 .. . πjk .. . ··· .. . ··· .. . πjc .. . πj0 .. . πr1 π01 ··· ··· πrk π0k ··· ··· πrc π0c πr0 1 xr dove: x1 , x2 , . . . , xj , . . . , xr ed y1 , y2 , . . . , yk , . . . , yc , sono le possibili realizzazioni di X ed Y , rispettivamente; 3 Corso Avanzato di Statistica πjk è la probabilità congiunta che la v.a. X assuma valore xj e la v.a. Y assuma valore yk , ovvero πjk = P (X = xj , Y = yk ), j = 1, . . . , r, k = 1, . . . , c; πj0 è la probabilità marginale che la v.a. X assuma valore xj (per qualunque valore di Y ), ovvero πj0 = P (X = xj ) = c X πjk , j = 1, . . . , r; k=1 π0k è la probabilità marginale che la v.a. Y assuma valore yk (per qualunque valore di X), ovvero π0k = P (Y = yk ) = r X j=1 πjk , k = 1, . . . , c. 4 Corso Avanzato di Statistica Si intende sottoporre a verifica l’ipotesi che le v.a. X ed Y siano indipendenti, ovvero che: P (X = xj , Y = yk ) = P (X = xj ) · P (Y = yk ), oppure, in maniera equivalente, che: πjk = πj0 · π0k con j = 1, . . . , r e k = 1, . . . , c. Pertanto, il problema di verifica può essere formalizzato come segue: H0 : ∀j, k H1 : ∃ j, k πjk = πj0 · π0k , t.c. πjk 6= πj0 · π0k . 5 Corso Avanzato di Statistica Estratto un campione casuale dalla v.a. doppia (X, Y ),si consideri la seguente tabella di contingenza (r × c): H HH Y y HH 1 X x1 n11 .. .. . . nj1 xj .. .. . . ··· yk ··· yc ··· .. . ··· .. . n1k .. . n1c .. . n10 .. . njk .. . ··· .. . ··· .. . njc .. . nj0 .. . nr1 n01 ··· ··· nrk n0k ··· ··· nrc n0c nr0 n xr dove: x1 , x2 , . . . , xj , . . . , xr ed y1 , y2 , . . . , yk , . . . , yc , sono le possibili realizzazioni di X ed Y , rispettivamente; 6 Corso Avanzato di Statistica njk è la frequenza con cui si è presentata nel campione la coppia (xj , yk ); nj0 è la frequenza marginale con cui si è presentata nel campione la realizzazione xj , per qualunque valore di Y , ovvero nj0 = c X njk , j = 1, . . . , r; k=1 n0k è la frequenza marginale con cui si è presentata nel campione la realizzazione yk , per qualunque valore di X, ovvero n0k = r X j=1 njk , k = 1, . . . , c. 7 Corso Avanzato di Statistica Sulla base delle osservazioni campionarie si intende stabilire se le due v.a. X ed Y sono indipendenti. Gli stimatori π bjk , π bj0 , π b0k di massima verosimiglianza per le probabilità πjk , πj0 e π0k , coincidono con le corrispondenti frequenze relative campionarie, come riportato di seguito: π bjk = njk ; n π bj0 = nj0 ; n π b0k = n0k . n Inoltre, nel caso sia vera l’ipotesi dell’indipendenza tra X ed Y è intuitivo attendersi che valga, almeno in via approssimativa, la seguente relazione: 0 π bjk =π bj0 · π b0k , oppure, moltiplicando ambo i membri per n, la seguente relazione: n0jk = nj0 · n0k , n j = 1, . . . , r; k = 1, . . . , c. Il simbolo “0” posto ad apice vuol dire che si sta assumendo vera l’ipotesi nulla. Corso Avanzato di Statistica Per cui, il test dell’indipendenza tra X ed Y può essere condotto sulle quantità: 2 j = 1, . . . , r, k = 1, . . . , c njk − n0jk , cioè, sulle “distanze” al quadrato tra le frequenze assolute campionarie e le corrispondenti frequenze assolute attese nel caso di indipendenza. Se gli scarti tra njk ed n0jk non sono eccessivamente elevati, si concluderà accettando l’ipotesi H0 di indipendenza tra X ed Y ; mentre se sono molto elevati, si dovrà rigettare l’ipotesi H0 . 8 9 Corso Avanzato di Statistica In particolare, la statistica-test risulta essere la seguente: Y0 = 2 c r X njk − n0jk X j=1 k=1 con n0jk = n0jk , nj0 · n0k . n Essa, se H0 è vera, converge in distribuzione ad una v.a. χ2 con (r − 1)(c − 1) gradi di libertà Y0 d → |H0 χ2(r−1)(c−1) . 10 Corso Avanzato di Statistica Fissato α, livello di significatività del test, la regola di decisione risulta essere la seguente: A : Y0 < y(g;α) , R : Y0 ≥ y(g;α) , dove y(g;α) è il centile superiore della distribuzione χ2 con g = (r − 1)(c − 1) gradi di libertà. 11 Corso Avanzato di Statistica Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica Ad una società di ricerche di mercato è stato commissionato uno studio per verificare l’esistenza di una relazione fra zona di residenza (X) e casa automobilistica preferita (Y ). In seguito ad un’indagine campionaria eseguita su 500 unità, sono state rilevate per ciascuna di esse: le zone di residenza classificate in: “centro urbano” (x1 ); “periferia” (x2 ); “area rurale” (x3 ); le case automobilistiche preferite distinte in: “General Motors” (y1 ); “Ford” (y2 ); “Chrysler” (y3 ); “marchio europeo” (y4 ); “marchio asiatico” (y5 ). 12 Corso Avanzato di Statistica Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica I risultati di tale indagine sono rappresentati nella seguente tabella di contingenza: HH X Y HH H x1 x2 x3 y1 y2 y3 y4 y5 64 53 53 170 40 35 45 120 26 24 30 80 8 6 6 20 62 32 16 110 200 150 150 500 Si verifichi, ad un livello di significatività dell’1%, che esiste indipendenza fra la zona di residenza dei soggetti e le loro preferenze automobilistiche. 13 Corso Avanzato di Statistica Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica S OLUZIONE Il problema di verifica può essere formalizzato come segue: H0 : ∀j, k πjk = πj0 · π0k , H1 : ∃ j, k t.c. πjk 6= πj0 · π0k . Pertanto, la regola di decisione si basa sulla seguente statistica-test Y0 : Y0 = 2 c r X njk − n0jk X j=1 k=1 con n0jk = nj0 · n0k , n r=3 e n0jk c = 5. , Corso Avanzato di Statistica Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica S OLUZIONE Sulla base dei dati del problema, risulta: (64 − 68)2 (16 − 33)2 y0 = + ··· + ≃ 22, 780 68 33 essendo: njk le frequenze assolute campionarie, riportate all’interno della precedente tabella di contingenza; n0jk le frequenze assolute attese nel caso di indipendenza, riportate all’interno della seguente tabella: H HH Y y y2 y3 y4 y5 HH 1 X x1 68 48 32 8 44 200 x2 51 36 24 6 33 150 x3 51 36 24 6 33 150 170 120 80 20 110 500 14 15 Corso Avanzato di Statistica Esempio: verifica dell’esistenza di relazione fra zona di residenza e casa automobilistica S OLUZIONE Inoltre, dal momento che: Y0 , se H0 è vera, converge in distribuzione ad una v.a. χ2 con (3 − 1)(5 − 1) gradi di libertà, α = 0,01 è il livello di significatività del test, la regola di decisione si basa sul confronto tra: il valore y0 = 22,78 della statistica-test, ed il centile superiore y(g;α) = y(8, 0,01) = 20, 09 della distribuzione χ2 . Pertanto, si rifiuta H0 , essendo 22,78 > 20,09.