Ulteriori applicazioni del test del Chi-quadrato (χ )

Ulteriori applicazioni del test del Chi-quadrato (χ
χ2)
Finora abbiamo confrontato con il χ2 le numerosità osservate in diverse categorie in un
campione con le numerosità previste da un certo modello (attese mediamente se fosse vero il
modello)
• Era un confronto tra una distribuzione di frequenza osservata e una attesa
• Vedremo nelle prossime lezioni ulteriori esempi di questa applicazione di χ2
Possiamo ora usare lo stesso tipo di test per confrontare le numerosità osservate in due o più
campioni diversi
• Diventa un confronto tra due o più distribuzioni di frequenza
2
I test sono svolti in modo simile (ci saranno osservati e attesi, e una statistica test χ ), ma si
parla in questo caso di “analisi di tabelle di contingenza per svolgere test di indipendenza”
• la struttura del test si sviluppa attorno a tabelle in cui le celle contengono numerosità
• è possibile vedere questo test anche come un test per analizzare se due variabili
categoriche (=qualitative) sono associate o sono indipendenti
Vediamo la situazione più semplice: due campioni nei quali misuro per ogni osservazione una
variabile categorica che può assumere solo due valori (o stati) possibili. Cosa ci ricorda?
Ci ricorda l’esempio dei due campioni (vaccinati/non vaccinati) all’interno dei quali si misurava
la sola variabile sano/malato
Ma vediamo un altro esempio di questo tipo
L’ipotesi nulla è che la proporzione di persone che avevano subito un arresto cardiaco sia la
stessa tra i bevitori moderati (dei quali ho un campione di 201 individui) e tra gli astemi (dei
quali ho un campione di 209 individui)
• Un confronto tra proporzioni di diverse classi (in questo caso due, arresto cardiaco e non
arresto cardiaco)) in diverse popolazioni (in questo caso due, astemi e bevitori)) è un test
per confrontare distribuzioni di frequenza!
Questo test di ipotesi analisi potrebbe essere svolto con un test z per due campioni (provate a
farlo!)
Vediamo invece come svolgerlo applicando il test del chi-quadrato
La prima cosa da fare è impostare la tabella di contingenza, in questo caso una tabella di
contingenza 2X2 (ha infatti tutti i dati in 2 righe e 2 colonne, alle quali si aggiungono una riga e
una colonna per i totali)
Questa (sopra) è la tabella di contingenza con le numerosità osservate.
A questo punto devo calcolarmi le numerosità attese se fosse vera l’ipotesi nulla
• Ovvero, per ognuna delle 4 caselle di numerosità nella tabella di contingenza, trovare le
corrispondenti numerosità attese
Utilizzo la frazione totale di individui con arresto cardiaco, 21/410 = 0.0512 (la frazione già vista
e utilizzata nel test z per due campioni per stimare la deviazione standard). Questo valore
rappresenta la frazione totale di individui con arresto cardiaco, ovvero la frazione stimata
assumendo vera l’ipotesi nulla che esclude differenze tra astemi e bevitori)
Assumendo vera l’ipotesi nulla, quindi, posso applicare questa stessa proporzione ai due
campioni per trovare le numerosità osservate. Per esempio, la numerosità attesa (assumendo
vera l’ipotesi nulla) di individui astemi colpiti da arresto cardiaco è pari al 0.0512*209 (dove 209
è il totale di individui astemi campionato ) = 10.7. Nello stesso modo posso calcolare tutte le
altre numerosità attese e ottenere la tabella corrispondente
Da notare che i totali di riga e di colonna sono (e devono essere) uguali a quelli nella tabella
delle numerosità osservate
A questo punto posso applicare il test del χ con 4 categorie, per ciascuna delle quali ho le
numerosità osservate e quelle attese assumendo vera l’ipotesi nulla
Per ogni cella, calcolo il corrispondente elemento nella sommatoria del χ e poi faccio la
somma dei quattro elementi
Con quale valore critico devo confrontare il valore di χ calcolato?
• Ovvero, qual è la distribuzione nulla di riferimento?
2
2
2
Ragioniamo sul numero di categorie indipendenti
• Conoscendo i totali di riga e di colonna, quanti valori sono necessari per determinare tutti
gli altri?
2
• Uno è sufficiente, quindi questo test ha 4 elementi nella sommatoria del χ ma solo un
grado di libertà
In conclusione, con α = 0.05, χ critico è pari a 3.84, e l’ipotesi nulla non può essere rifiutata
(0.34<3.84). I dati sono compatibili con l’ipotesi nulla che l’arresto cardiaco non abbia una
frequenza diversa tra astemi e bevitori moderati
• Attenzione sempre al significato di questa conclusione! L’ipotesi nulla non viene mai
accettata, e questo è comunque uno studio osservazionale
2
2
Importante: le assunzioni del test del χ sulle tabelle di contingenza ha le stesse assunzioni del
2
test del χ di bontà di adattamento
Cosa rappresentano anche i valori attesi in una tabella di contingenza?
Due eventi sono indipendenti se il verificarsi di uno dei due non influenza la probabilità che si
verifichi l’altro
Se due eventi sono indipendenti, la probabilità che si verifichino entrambi è data dal prodotto
della probabilità che si verifichi il primo evento per la probabilità che si verifichi il secondo
evento
o
E’ la regola del prodotto
o
Per esempio, qual è la probabilità di ottenere, lanciando due dadi, il risultato 3,3?
I due eventi sono indipendenti, perché ottenere 3 con un dado non modifica la
probabilità di ottenere 3 con il secondo dado.
La probabilità di ottenere 3 nel primo lancio è pari a 1/6, e la probabilità di ottenere 3
nel secondo lancio è pari a 1/6
La probabilità dell’evento [3 nel primo lancio e 3 nel secondo lancio] nel lancio di due
dadi è pari quindi per la regola del prodotto a 1/6 x 1/6 = 1/36
o
Altro esempio. Fumo e ipertensione sono indipendenti. Questo significa che se la
probabilità di essere un fumatore è pari al 17% (0.17) e quella di soffrire di ipertensione è
pari al 22% (0.22), la probabilità che un individuo scelto a caso nella popolazione sia
fumatore iperteso è pari a 0.17 x 0.22 = 0,0374. In altre parole, il 3.74 % della popolazione
è costituita da fumatori ipertesi
In simboli, la regola del prodotto (valida solo per eventi indipendenti!) è
Se due eventi non sono indipendenti, non vale più la regola del prodotto, ma la regola del
prodotto generalizzato: la probabilità che si verifichino l’evento A e l’evento B è data dalla
probabilità che si verifichi l’evento A moltiplicata per la probabilità che si verifichi B condizionata
al verificarsi di A
In simboli, la regola del prodotto generalizzata (valida per eventi dipendenti o indipendenti)
(è valida anche per eventi indipendenti perché in quel caso Pr[B|A] = Pr[B]
Per esempio, se la probabilità di vivere in Italia (frazione di italiani sulla popolazione mondiale)
è pari a 60 milioni / 6.8 miliardi = 0.009 (0.9%), e la probabilità (senza considerare il luogo di
nascita) di avere un reddito mensile superiore a 200 Euro fosse pari a 0.1 (frazione ipotetica di
popolazione mondiale con reddito mensile superiore a 200 Euro), la probabilità che un individuo
campionato a caso sia italiano e abbia un reddito > 200 Euro non è pari a 0.009 x 0.1 = 0.0009
(0.09%). E questo proprio perché i due eventi non sono indipendenti. Conoscere il risultato del
primo evento (pere esempio, vivere in Italia) influenza il risultato del secondo evento (avere un
reddito >200 Euro)
In questo esempio, la probabilità di verificarsi dei due eventi, sulla base della regola del
prodotto generalizzata sarebbe pari a 0.009 (probabilità di vivere in Italia) x la probabilità di
avere un reddito >200 Euro vivendo in Italia (probabilità condizionata al fatto di vivere in italia).
Quest’ultima assumiamo che sia circa pari a 1, e quindi la probabilità cercata è 0.009 (0.9%).
Ma cosa c’entra tutto ciò con le tabelle di contingenza?
Lo studio di una tabella di contingenza (2 x 2 o con maggiori numeri di righe o di colonne) è in
realtà lo studio per verificare l’indipendenza o l’associazione tra due variabili categoriche
o Nell’esempio vaccinati/non vaccinati, l’ipotesi nulla poteva essere anche vista come: la variabile “salute”
(con due valori possibili, vaccinato e non vaccinato) è indipendente della variabile “vaccinazione” (con
due valori possibili, vaccinato e non vaccinato)
o Nell’esempio astemi/bevitori, l’ipotesi nulla poteva essere anche vista come: la variabile “salute” (con
due valori possibili, arresto cardiaco e no arresto cardiaco) è indipendente della variabile “alcool” (con
due valori possibili, astemio e bevitore)
Queste ipotesi nulle formulate in termini di indipendenza sono equivalenti all’ipotesi nulla di
uguaglianza tra proporzioni (e quindi tra distribuzioni di frequenza)
Formulare l’ipotesi nulla in termini di indipendenza tra variabili categoriche ci permette di trovare
i valori attesi nella tabella di contingenza utilizzando la regola del prodotto
Nell’esempio astemi/bevitori, qual è la probabilità di essere astemi e di aver subito un arresto
cardiaco se le due variabili non sono associate (ovvero, sono indipendenti)?
o La probabilità di essere astemi (riferita al campione) è data dal numero totale di astemi (209) diviso
numero totale di individui analizzati (410) = 0.5097
o La stima della probabilità di aver subito un arresto cardiaco (riferita al campione) è data dal numero
totale di individui con arresto cardiaco (21) diviso numero totale di individui analizzati (Tot = 410) =
0.0512
o Applico la regola del prodotto per trovare la probabilità (riferita al campione) di essere astemio e aver
subito un arresto cardiaco se fosse vera l’ipotesi nulla: P[Astemio + Arr. Card.] = 0.5097*0.0512 =
0.026
A questo punto calcolo il numero atteso di astemi nel campione che hanno subito un arresto
cardiaco in un campione di 410 individui se fosse vera l’ipotesi nulla di indipendenza: 0.026*410
= 10.7
Ovviamente è lo stesso risultato ottenuto con l’altro metodo, e posso applicare il metodo a tutte
le celle della tabella delle numerosità osservate e ottenere nuovamente
con cui procedere poi al test del chi-quadrato
Ma vediamo come semplificare un po’ i calcoli
Semplifichiamo un po’ i calcoli per l’ analisi delle tabelle di contingenza
I valori attesi per una tabella di contingenza, ragionando sui calcoli visti applicando la regola del
prodotto, si possono ottenere semplicemente con
perché
I gradi di libertà per una analisi su una tabella di contingenza si possono calcolare direttamente
con la formuletta
dove r e c sono il numero di righe e colonne della tabella di contingenza.
Un altro esempio
Tabella dei dati
Verificare con il test appropriato se la probabilità di essere predati dipende o no dal livello di
infestazione.