ANALISI DI TABELLE DI CONTINGENZA 91 TABELLE DI CONTINGENZA Una tabella di contingenza è una tabella di frequenza a doppia entrata in cui vengono incrociate due variabili qualitative. Esempio SESSO INTERESSE PER STATISTICA Alto Medio Basso Totale Maschio Femmina Totale 62 35 3 100 26 29 45 100 88 64 48 200 Si ha una variabile di riga ("Interesse per statistica") e una variabile di colonna ("Sesso"), ciascuna con le proprie modalità o categorie. Ogni intersezione tra una riga e una colonna genera una casella, in cui compare la frequenza dei soggetti che rispondono alle due modalità che si incrociano: 62, ad esempio, indica quanti sono i maschi con un alto interesse per la statistica. 92 TABELLA DI CONTINGENZA 2 X 2 La classificazione di un insieme di soggetti secondo due criteri (ciascuno dei quali avente due livelli di classificazione) può essere rappresentata da una tabella 2 x 2. II criterio I criterio 1 2 Totale 1 a b a+b 2 c d c+d a+c b+d n Totale 2 colonne → 2 livelli del I criterio classificatorio; 2 righe → 2 livelli del II criterio classificatorio. 93 TABELLA DI CONTINGENZA m x n Si classifica secondo due criteri, aventi rispettivamente m ed n livelli di classificazione. I criterio 1 2 … m II criterio 1 2 … n m colonne → m livelli del I criterio classificatorio; n righe → n livelli del II criterio classificatorio. 94 IL TEST DI INDIPENDENZA χ2 Il test χ2 è impiegato in molte aree di ricerca per analizzare dati presentati in forma di tabella di contingenza. Nel test di indipendenza si vuole sottoporre a test l’ipotesi nulla che due criteri di classificazione, applicati al medesimo insieme di dati, siano indipendenti. H0: H1: le due variabili sono indipendenti; le due variabili non sono indipendenti. Due criteri di classificazione sono indipendenti se la distribuzione rispetto a un criterio non viene influenzata dalla classificazione rispetto all’altro criterio. Se l’ipotesi nulla viene rifiutata, si conclude che i due criteri di classificazione non sono indipendenti. 95 Esempio La tabella seguente sintetizza i risultati di uno studio, condotto su un campione di 500 studenti, in cui si vuole indagare sulla relazione tra stato nutrizionale e rendimento scolastico. Rendimento scolastico Stato nutrizionale Povero Buono Totale Scarso 105 15 120 Soddisfacente 80 300 380 Totale 185 315 500 Esiste una relazione di dipendenza tra le due variabili? H0: H1: Ipotesi le due variabili sono indipendenti; le due variabili non sono indipendenti. Dei 500 soggetti 24% (120/500) rendimento scarso 76% (380/500) rendimento soddisfacente. 96 Calcolo delle frequenze attese Assumendo che H0 sia vera, cioè che lo stato nutrizionale non interferisca con il rendimento scolastico, le stesse percentuali dovrebbero verificarsi sia tra i soggetti con stato nutrizionale povero che con stato nutrizionale buono. La tabella seguente mostra le frequenze calcolate secondo la logica espressa. Come costruire la tabella? Rendimento scolastico a =(n1/N)·n3 b =(n1/N)·n4 c = (n2/N)·n3 d = (n2/N)·n4 Scarso Stato nutrizionale Povero Buono Totale 44.4 a 120 n1 75.6 b Soddisfacente 140.6 c 239.4 d 380 n2 Totale 315 185 n3 n4 500 N 97 I gradi di libertà Non è necessario calcolare tutte e quattro le frequenze attese. Noti i totali marginali, basta calcolare uno solo dei 4 valori attesi, per poter dedurre gli altri 3 valori per differenza. Per questo si dice che una tabella 2 x 2 ha 1 grado di libertà. In generale per calcolare i gradi di libertà di una tabella di contingenza, basta applicare la seguente formula: gdl=(no di righe –1) x (no di colonne – 1) Esempi: gdl di una tabella 2 x 2 = (2-1) x (2-1) = 1 gdl di una tabella 3 x 2 = (3-1) x (2-1) = 2 gdl di una tabella m x n = (m-1) x (n-1) 98 Confronto tra frequenze osservate e attese Test χ2 Le frequenze nelle due tabelle sono simili? Rendimento scolastico Stato nutrizionale Povero Buono Totale Scarso 105 15 120 Soddisfacente 80 300 380 Totale 185 315 500 Rendimento scolastico Stato nutrizionale Povero Buono Totale Scarso 44.4 75.6 120 Soddisfacente 140.6 239.4 380 185 315 500 Totale Evidentemente No 99 ? Le differenze tra le due distribuzioni sono attribuibili al caso oppure il rendimento scolastico è, in qualche modo, legato allo stato nutrizionale? È necessario un test statistico che indichi se le differenze tra le frequenze osservate e le frequenze attese (sotto l’ipotesi di indipendenza) siano o no attribuibili alla variabilità casuale. Test χ2 (frequenza osservata - frequenza attesa nella cella)2 χ = somma di frequenza attesa nella cella 2 2 (O E) χ2 = ∑ E dove O=frequenze osservate E= frequenze attese 100 Calcolo di χ2 Calcoliamo il valore di χ2 utilizzando le informazioni contenute nelle tabelle precedenti. 2 ( 105 − 44.4) χ = 2 2 ( 15 − 75.6) + 2 ( 80 − 140.6) + 44.4 75.6 140.6 60.6 2 (−60.6) 2 (−60.6) 2 (60.6) 2 = + + + = 44.4 75.6 140.6 239.4 3672.36 3672.36 3672.36 3672.36 = + + + = 44.4 75.6 140.6 239.4 = 82.71 + 48.58 + 26.12 + 15.34 = 2 ( 300 − 239.4 ) + = 239.4 = 172.75 Si ottiene un valore del test χ2=172.75 con 1gdl. La consultazione della tavola sinottica del χ2 consente la lettura dei valori critici. Per α = 0.05 e 1gdl, il valore critico di χ2 =3.84 Decisione statistica Regola di decisione Rifiuto H0 se χ2 calcolato > χ2 tabulato Poiché 172.75[χ2 l’ipotesi nulla. calcolato] > 3.84 [χ2 critico] rifiuto 101 Conclusione Concludo, con una probabilità di errore di prima specie α =0.05, che esiste una relazione di dipendenza tra stato nutrizionale e rendimento scolastico. 102 RIASSUMENDO: COME UTILIZZARE IL TEST χ2 - Tabulare i dati in una tabella di contingenza, in cui compaiano i totali marginali (tabella delle frequenze osservate). - Stabilire l’ipotesi nulla e l’ipotesi alternativa. - Calcolare le frequenze attese, sotto l’ipotesi che H0 sia vera. - Sulla base delle frequenze osservate e attese, calcolare il test χ2. - Calcolare i gradi di libertà relativi alla tabella di contingenza. - Cercare sulla tabella sinottica del χ2 il valore critico per il valore di α prefissato e per i gradi di libertà calcolati. - Applicare la regola di decisione statistica e trarre la conseguente conclusione. 103 CONDIZIONI PER L’USO DEL TEST χ2 Le frequenze attese piccole 1. Tabella di contingenza 2 x 2 con 1 gdl. Il test χ2 non dovrebbe essere usato quando n<20 o se 20<n<40 e c’è almeno una frequenza attesa minore di 5. Se n≥40 si può tollerare una sola frequenza attesa minima, non minore di 1. 2. Tabella di contingenza con più di 1 gdl. Una frequenza attesa minima di 1 è accettabile se non più del 20% delle celle ha frequenze attese minori di 5. Quando ciò non si verifica si possono aggregare opportunamente righe o colonne adiacenti, per aumentare le frequenze nelle celle della tabella. 104 Test χ2 di indipendenza e test z sulla differenza tra 2 proporzioni. Il test χ2 applicato ad una tabella 2 x 2 corrisponde ad un test sulla differenza tra due proporzioni. (Vedi pagg. 89-90) Rendimento scolastico Stato nutrizionale Povero Buono Totale Scarso 105 15 120 Soddisfacente 80 300 380 Totale 185 315 500 ? La proporzione di studenti con rendimento scarso è uguale all’interno dei due gruppi con diverso stato nutrizionale? Ipotesi H0 → prendimento scarso | nutrizione povera = prendimento scarso | nutrizione buona H1 → prendimento scarso | nutrizione povera ≠ prendimento scarso | nutrizione buona Si tratta di un test bidirezionale; per α = 0.05, z critico = z1-α/2 = z0.975 =±1.96. 105 Calcoliamo z dai dati campionari: z= ( pˆ − pˆ ) − ( p − p ) p(1 − p) p(1 − p) + 1 2 n1 p̂ 1 = 105 = 0 . 57 185 p= z= 1 2 0 n2 p̂ 2 = 15 = 0 . 05 315 x1 + x 2 105 + 15 120 = = = 0 .24 n1 + n 2 185 + 315 500 0 .57 − 0 .05 0 .24 ⋅ (1 − 0 .24 ) 0 .24 ⋅ (1 − 0 .24 ) + 185 315 = 13 Decisione statistica Rifiuto H0, perché 13, maggiore di 1.96, cade nella regione di rifiuto. Conclusione La proporzione di studenti con rendimento scarso non è uguale all’interno dei due gruppi con diverso stato nutrizionale. Ciò equivale a dire che esiste una relazione di dipendenza tra rendimento scolastico e stato nutrizionale. 106 MISURE DI ASSOCIAZIONE TRA DUE VARIABILI NOMINALI. Negli studi epidemiologici (Vedi I parte pagg. 89-90) si è interessati a confrontare la probabilità di un evento (spesso la malattia) in soggetti esposti a un potenziale fattore di rischio e in soggetti non esposti. Si ricorda che: - in uno studio prospettivo, studio di incidenza, il ricercatore seleziona due campioni, uno formato da soggetti esposti al fattore di rischio e l’altro da soggetti non esposti. I soggetti vengono seguiti nel tempo in modo da registrare i casi di malattia nei due gruppi; - in uno studio retrospettivo, studio casocontrollo, il ricercatore è interessato a determinare retrospettivamente la distribuzione del fattore di rischio nei casi (soggetti con la malattia) e nei controlli (soggetti sani). 107 STUDI PROSPETTIVI E RISCHIO RELATIVO I risultati di uno studio di incidenza possono essere sintetizzati in una tabella di contingenza 2 x 2: INFARTO MIOCARDICO FATTORE DI RISCHIO Sì No Totale Colesterolo ≥240 mg/dl 9 211 220 Colesterolo <240mg/dl 3 257 260 Totale 12 468 480 In generale: FATTORE DI RISCHIO Esposti Non esposti Totale MALATTIA Sì No a b c d a+c b+d Totale a+b c+d n Il rischio di contrarre la malattia nei soggetti esposti è: a a+b Il rischio di contrarre la malattia nei soggetti non esposti è: c c+d 108 Il rischio relativo RR Il rischio relativo (RR) è il rapporto tra l’incidenza della malattia (o rischio assoluto o probabilità di ammalare) negli esposti al fattore di rischio e l’incidenza della malattia (o rischio assoluto o probabilità di ammalare) nei non esposti. RR= a ( a + b) c (c + d ) Il rischio relativo RR, calcolato su un campione, può essere usato come stima del rischio relativo RR nella popolazione dalla quale il campione è stato estratto. N.B. RR = rischio relativo calcolato sui dati campionari RR = rischio relativo nella popolazione 109 Come interpretare i valori assunti dal RR Il Rischio Relativo può assumere valori compresi tra zero e infinito. • Se RR=0: non c’è associazione tra la presenza o meno del fattore di rischio e la malattia. • Se RR=1: il rischio di contrarre la malattia è uguale per i soggetti esposti e per i soggetti non esposti al fattore di rischio. • Se RR>1: il rischio di contrarre la malattia è maggiore tra i soggetti esposti. • Se RR<1: il rischio di contrarre la malattia è minore tra i soggetti esposti. Esempio L’essere sposati con un fumatore è associato a un rischio relativo di malattie cardiache pari a 1.3. Ciò significa che i non fumatori sposati con fumatori sono colpiti 1.3 volte di più da malattie cardiache rispetto a non fumatori sposati con non fumatori. 110 Intervallo di confidenza per RR Possiamo costruire un intervallo di confidenza per RR con il seguente metodo: 1± ( z1− a / 2 / χ 2 ) 100(1 − α )% I .C. = RR (Oi − Ei ) 2 dove z1-α/2 è il valore bidirezionale e χ = ∑ Ei i =1 k 2 111 Esercizio Daniel pag.506 12.7.1 Tra i dati raccolti in uno studio prospettivo sulla depressione postnatale nelle donne (Boyce et al.) compaiono i dati riassunti nella tabella che segue. Dal campione dei soggetti in studio, si vuole stimare il rischio relativo di diventare un “caso” di depressione postnatale in donne primipare, sposate o conviventi in maniera stabile, ad un mese dal parto, quando è presente il fattore di rischio, rappresentato da un partner indifferente. Partner indifferente Sì No Totale Depressione Sì No 5 21 8 82 13 103 Totale 26 90 116 Dai dati in tabella calcoliamo RR: 5 26 0.1923 RR= 8 90 = 0.0889 = 2.2 Il rischio di diventare un caso (sviluppare depressione) è 2.2 volte superiore nelle donne che hanno partner indifferenti. 112 Calcoliamo l’intervallo di confidenza al 95% per RR con la seguente formula: 1± ( z1− a / 2 / χ 2 ) 100(1 − α )% I .C. = RR 2 ( O − E ) i χ2 = ∑ i = 2.1682 Ei i =1 k z=1.96 Partner indifferente Sì No Totale 1± ( z1−a / 2 / χ 2 ) RR Depressione Sì No Totale 5 (2.92) 21(23.09) 26 8(10.08) 82(79.91) 90 13 103 116 1±(1.96/ 2.1682 = 2.2 = 0.77; 6.28 Poiché l’intervallo include 1, il RR nella popolazione può essere uguale a 1. Pertanto si può concludere che, ad un livello di significatività dello 0.05%, non ci dovrebbe essere un rischio maggiore di diventare depresse, un mese dopo il parto, se il partner è indifferente. 113 STUDI CASO-CONTROLLO E ODDS RATIO I risultati di uno studio caso-controllo possono essere sintetizzati in una tabella di contingenza 2 x 2: INFARTO MIOCARDICO FATTORE DI RISCHIO Casi Controlli Totale Colesterolo ≥240 mg/dl 100 70 170 Colesterolo <240mg/dl 87 193 280 Totale 187 263 450 In generale: FATTORE DI RISCHIO Esposti Non esposti Totale MALATTIA Casi Controlli a b c d a+c b+d Totale a+b c+d n L’odds ratio è la misura appropriata per confrontare casi e controlli in uno studio retrospettivo. 114 Definizione di odds L’ odds (probabilità) di un evento può essere definito come il rapporto della probabilità che l’evento considerato si verifichi e il suo complemento a 1, cioè la probabilità che l’evento non si verifichi. Probabilità di E P(E) Odds = = Probabilità di E P(E ) Probabilità di malattia Odds di malattia = Probabilità di non malattia Con riferimento alla tabella, FATTORE DI RISCHIO Esposti Non esposti Totale MALATTIA Casi Controlli a b c d a+c b+d Totale a+b c+d n • l’odds di malattia (probabilità di essere un caso) tra i soggetti esposti è: a b a / = a+b a+b b • l’odds di malattia (probabilità di essere un caso) tra i soggetti non esposti è: c d c / = c+d c+d d 115 L’Odds ratio OR L’odds ratio OR è il rapporto tra gli odds di malattia nei soggetti esposti al fattore di rischio e gli odds di malattia nei soggetti non esposti: a OR= b = ad c bc d L’odds ratio viene definito rapporto crociato in quanto può essere calcolato come rapporto tra i prodotti dei termini situati sulle diagonali della tabella 2x2. N.B. OR = rapporto di odds calcolato su dati campionari OR = rapporto di odds della popolazione 116 Come interpretare i valori assunti da =OR L’Odds Ratio può assumere valori compresi tra zero e infinito. • Se OR=0: non c’è associazione tra la presenza o meno del fattore di rischio e la malattia. • Se OR=1: il rischio di contrarre la malattia è uguale per i soggetti esposti e per i soggetti non esposti al fattore di rischio. • Se OR>1: il rischio di contrarre la malattia è maggiore tra i soggetti esposti. • Se OR<1: il rischio di contrarre la malattia è minore tra i soggetti esposti. Intervallo di confidenza per OR OR è la stima di OR, rapporto di odds nella popolazione. I .C . = OR1± ( z1−a / 2 / (Oi − Ei ) 2 χ =∑ Ei i =1 k χ ) 2 2 dove 117 Esercizio Daniel pag.509 12.7.2 La tavola che segue riporta 158 soggetti classificati come casi e controlli rispetto alla presenza dell’infezione da sifilide e secondo il numero di partner sessuali (fattore di rischio) negli ultimi 90 giorni. Si desidera confrontare l’odds dell’infezione da sifilide tra i soggetti con tre o più partner sessuali, negli ultimi 90 giorni, rispetto all’odds dei soggetti con nessun partner sessuale negli ultimi 90 giorni. Infezione da sifilide O N di partner sessuali negli Casi Controlli Totale ultimi 90 gg ≥3 41 58 99 0 10 49 59 Totale 51 107 158 Cohen et al., American Journal of Public Health, 82(1992), 552-556 a OR= b = ad = 41 ⋅ 49 = 3.46 c bc 58 ⋅10 d Coloro che hanno avuto tre o più partner sessuali negli ultimi 90 giorni hanno una probabilità di infezione 3.46 volte più elevata dei non casi. 118 I.C. al 95% per OR 1± ( z1− a / 2 / χ 2 ) I .C. = OR (Oi − Ei ) 2 χ =∑ = 10.1223 E i =1 i k 2 1± (1.96 / 10.1223) L1;L2= 3.46 = 1.61;7.43 I limiti inferiore e superiore dell’intervallo di confidenza di OR sono 1.61 e 7.43. Conclusione Abbiamo un grado di fiducia del 95% che l’OR della popolazione sia compreso entro i due limiti calcolati. Poiché l’intervallo non contiene 1 è possibile concludere che nella popolazione aver avuto 3 o più partner sessuali negli ultimi 90 gg aumenta la probabilità di contrarre la malattia di 3.46 volte. 119 IL χ2 DI MANTEL-HAENSZEL Variabile di confounding Nello studio della relazione tra una data malattia e un presunto fattore di rischio, può capitare che vi sia un’altra variabile (associata alla malattia, al fattore di rischio o ad entrambi), che può falsare la vera relazione tra le due variabili. La tecnica di Mantel-Haenszel consente di controllare la variabile di confounding, in modo da ottenere una valutazione non ambigua della relazione tra malattia e fattore di rischio. Come procedere? I soggetti, casi o controlli, vengono assegnati a strati, che corrispondono alle diverse modalità della variabile di confounding. La variabile di confounding può essere categoriale o continua; se è continua deve essere categorizzata. Esempio: se la variabile di confounding è l’età, è possibile categorizzarla raggruppando i dati in classi di età mutuamente esclusive. 120 Come calcolare il χ2 di Mantel-Haenszel 1.Formare tanti strati quante sono le classi della variabile di confounding: ↓ k classi della variabile di confounding k strati. La tabella seguente riporta i dati relativi all’iesimo strato. Campione Casi Controlli Totale ai bi ai+bi ci di ci+di ai+ci bi+di ni Fattore di rischio Presente Assente Totale 2.Per ogni strato calcolare la frequenza attesa ei relativa alla cella a sinistra della prima riga della tabella, nel seguente modo: ei = (a i + b i )(a i + c i ) ni 121 3.Per ogni strato calcolare la quantità: vi = ( ai + bi )(ci + d i )(ai + ci )(bi + d i ) ni2 (ni − 1) 4.Calcolare il χ2 di Mantel-Haenszel nel seguente modo: k 2 χ MH = ∑ (a i =1 i − ei ) 2 k ∑v i =1 i 5.Rifiuta H0, ipotesi nulla di nessuna associazione nella popolazione tra la malattia e il fattore di 2 rischio sospetto, se il valore χ MH calcolato dai dati campionari è ≥ al valore critico, cioè al valore tabulato del χ2 con 1 g.d.l. e con il livello di significatività prescelto. 122 L’ODDS RATIO DI MANTEL-HAENSZEL Quando si hanno k strati, è possibile calcolare l’odds ratio di Mantel-Haenszel, ORMH, nel seguente modo: k ORMH ai di ∑ n i = i =k1 bi ci ∑ n i i =1 N.B. → Assunzione: nella popolazione l’odds ratio è uguale in ogni strato. 123 Esercizio Si vuole valutare l’efficacia di una profilassi antibiotica su pazienti da sottoporre a due diversi tipi di intervento chirurgico (intervento A e intervento B), in relazione alla comparsa di eventuali infezioni postoperatorie. Prima dell’intervento, fu somministrato antibiotico a 303 dei 606 pazienti da sottoporre all’intervento A, mentre i restanti 303 ricevettero un placebo; fu somministrato antibiotico a 301 dei 612 pazienti da sottoporre all’intervento B, mentre i restanti 311 ricevettero un placebo. La comparsa di infezioni postoperatorie nei pazienti esaminati è sintetizzata nella tabella seguente. Antibiotico Placebo Totale Intervento A Numero totale di pazienti Numero di pazienti affetti da infezione postoperatoria 303 26 303 43 606 69 Intervento B Numero totale di pazienti Numero di pazienti affetti da infezione postoperatoria 301 14 311 25 612 39 Esiste associazione tra profilassi antibiotica prima dell’intervento e comparsa di infezioni postoperatorie, in pazienti sottoposti ai due tipi di intervento? Si desidera confrontare i dati rispetto al tipo di intervento chirurgico. Sia alfa = 0.05 124 Soluzione Assunzioni Sono verificate le assunzioni necessarie per un 2 uso appropriato del test χ di Mantel-Haenszel Ipotesi H0: non c’è associazione tra trattamento antibiotico perioperatorio e comparsa di infezioni postoperatorie in pazienti sottoposti a intervento di tipo A e di tipo B. H1: c’è associazione tra trattamento antibiotico perioperatorio e comparsa di infezioni postoperatorie in pazienti sottoposti a intervento di tipo A e di tipo B. Test Chi-quadrato con 1 g.d.l. k 2 χ MH = ∑ (a i =1 i − ei ) 2 k ∑v i =1 i 125 Regola di decisione Per α=0.05 il valore di χ2 critico è 3.841. Rifiutiamo H0 se il valore calcolato della statistica test è ≥ 3.841. Calcolo del χ2MH Per prima cosa è opportuno sintetizzare i dati come nelle tabelle seguenti: Intervento A: strato1 Infezione postoperatoria Fattore di rischio (nessun antibiotico Sì No Totale prima dell’intervento) Sì No Totale 43 26 69 260 277 537 303 303 606 Intervento B: strato 2 Infezione postoperatoria Fattore di rischio (nessun antibiotico Sì No Totale prima dell’intervento) Sì No Totale 25 14 39 286 287 573 311 301 612 126 Calcolo delle frequenze attese: e1=(43+260)(43+26)/606=303·69/606=34.5 e2=(25+286)(25+14)/612=311·39/612=19.82 Calcolo di v1 e di v2: v1=(303)(303)(69)(537)/(6062)(606-1)=15.3112 v2=(311)(301)(39)(573)/(6122)(612-1)=9.1418 Calcolo di χ2: χ 2 MH (43 − 34.5) 2 + (25 − 19.82) 2 = = 4.05 15.3112 + 9.1418 Decisione statistica e conclusione Poiché 4.05 > 3.841, rifiutiamo H0 e concludiamo che c’è relazione tra profilassi antibiotica perioperatoria e comparsa di infezioni postoperatorie, dopo aver corretto rispetto alla variabile di confounding “Tipo di intervento chirurgico A o B”. 127 Calcolo dell’odds ratio di Mantel-Haenszel Dai dati stratificati della tabella è possibile calcolare l’odds ratio: - calcoliamo il numeratore del rapporto: (a1d1/n1) + (a2d2/n2) = = [(43)(277)/606] + [(25)(287)/612] = 31.378972 - calcoliamo il denominatore: (b1c1/n1) + (b2c2/n2) = = [(260)(26)/606] + [(286)(14)/612] = 17.697599 L’odds ratio sarà: ORMH = 31.378972 / 17.697599 = 1.77 Da questi risultati è possibile stimare che i pazienti sottoposti ad intervento di tipo A o di tipo B a cui non è stato somministrato antibiotico prima dell’intervento, hanno una probabilità 1.77 maggiore di sviluppare infezioni postoperatorie, rispetto ai pazienti cui è stato somministrato l’antibiotico. 128