Test chi-quadrato di indipendenza X e Y sono due variabili QUALITATIVE e si vuole verificare se sono indipendenti. La definizione di indipendenza nel caso di variabili qualitative e’ la seguente: P[ X xi , Y y j ] P[ X xi ]P[Y y j ] , per ogni valore di i e j Il modo piu’ intuitivo di scrivere le ipotesi del test di indipendenza e’ il seguente : H 0 : P[ X xi , Y y j ] P[ X xi ]P[Y y j ] H1 : P[ X xi , Y y j ] P[ X xi ]P[Y y j ] ESEMPIO Le variabili X e Y sono : X : colore degli occhi (modalita’ CHIARI e SCURI) Y : colore dei capelli (modalita’ BIONDI, CASTANI e NERI) I dati relativi ad un campione di dimensione n=50 sono rappresentati nella seguente tabella dei conteggi: CAPELLI O BIONDI CASTANI NERI TOTALE C CHIARI 10 10 2 22 C SCURI 10 12 6 28 H TOTALE 20 22 8 50 I La tabella seguente rappresenta le frequenze : O C C H I CHIARI SCURI TOTALE BIONDI 0.2 0.2 0.4 CAPELLI CASTANI 0.2 0.24 0.44 NERI 0.04 0.12 0.16 TOTALE 0.44 0.56 1 Per poter effettuare un test e’ necessario costruire una statistica test T . In generale si ha che : T n i, j f ij f i f fi f j 2 2 ( I 1)( J 1) 2 2 j In questo caso : n rappresenta il numero di elementi del campione I rappresenta il numero di livelli della variabile X (I=2) J rappresenta il numero di livelli della variabile Y (J=3) Utilizzando la precedente tabella si possono ricavare i valori : CAPELLI BIONDI CASTANI 0.176 0.1936 O C CHIARI C SCURI 0.224 H TOTALE 0.4=fBiondi. NERI 0.0704 TOTALE 0.44=f.Chiari 0.2464 0.0896 0.56=f.Scuri 0.44= fCastani. 0.16= fNeri. f.. I Il livello a cui si vuole effettuare il test e’ 5%. La statistica test T e’ la seguente : T 2 ( I 1)( J 1) 2 2 Dalle tavole si ottiene : P 2 2 5.99 0.05 e quindi la regione di rifiuto vale R= (5.99,+) Il valore della statistica T relativa ai dati del campione e’ 0.2 0.176 2 0.2 0.1936 2 0.04 0.0704 2 0.2 0.224 2 0.24 0.2464 2 0.12 0.0896 2 t 50 0.176 0.1936 0.0704 0.224 0.2464 0.0896 = 1.49 . Poiche’ il valore di t non appartiene a R (tR) si accetta l’ipotesi H0, cioe’ che X e Y sono indipendenti.