Università del Piemonte Orientale Corsi di laurea triennale di area tecnica Corso di Statistica Medica Analisi dei dati in tabelle di contingenza Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 1 L’analisi delle tavole di contingenza appartiene al capitolo dedicato all’analisi dei dati categorici. I metodi di analisi che vedremo sono utilizzati per il confronto di proporzioni in due o più gruppi diversi. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 2 1 La tabella seguente presenta la frequenza di osservazioni, categorizzate secondo due variabili. Risultato Farmaco Curato Non curato Totale Proporzione curati A a b a+b a/(a+b) B c d c+d c/(c+d) TOTALE a+c b+d a+b+c+d La notazione usata è semplice ma non è generalizzabile a tabelle di maggiori dimensioni. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 3 La seguente notazione è più generale e si applica a tabelle di qualsiasi dimensione Risultato Farmaco Curato Non curato Totale Proporzione curati A n11 n12 n1. n11/n1. B n21 n22 n2. n21/n2. TOTALE n.1 n.2 n.. n.1/n.. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 4 2 Talvolta la tabella viene costruita indicando non le frequenze ma le corrispondenti proporzioni. Risultato Farmaco Curato Non curato Totale A p11 p12 p1. B p21 p22 p2. TOTALE p.1 p.2 p.. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 5 I totali marginali della tabella (totali di riga e di colonna) sono definiti dal disegno dello studio e dai suoi risultati principali. Ad esempio: uno studio clinico include 200 pazienti, divisi in due gruppi di eguale dimensione trattati con due diversi farmaci. Il primo risultato dello studio sarà dato dal numero di pazienti che hanno mostrato un risultato favorevole del trattamento (120 risultati favorevoli, 80 con risultato non favorevole). Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 6 3 La tabella completata relativamente ai totali marginali è: Risultato Farmaco Curato Non curato Totale A n11 n12 100 B n21 n22 100 TOTALE 120 80 200 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 7 Una volta definito un valore per una delle quattro celle, resta definito anche il valore delle celle restanti, poiché i totali marginali sono fissati. In altri termini, in una tabella 2*2 una sola delle celle è libera di assumere qualsiasi valore, le restanti sono fissate dai totali marginali. Il numero di celle libere corrisponde al numero di gradi di libertà (g.l. o d.f.). Il numero di gradi di libertà in una tabella r * c è dato da: g.l. = (r-1) * (c-1) Le tabelle 2*2 hanno 1 grado di libertà. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 8 4 Abbiamo già incontrato il numero di gradi di libertà nel calcolo della Deviazione Standard n Dev.St. = ( ∑ xi − X i =1 ) 2 (n − 1) n-1 è il numero di gradi di libertà per il calcolo della deviazione standard: dato il valore della media, il valore dell’nesima osservazione è definito, noto il valore delle n-1 osservazioni precedenti. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 9 L’analisi di una tabella di contingenza prevede: • il calcolo di indicatori di associazione tra le due variabili • la valutazione della probabilità di osservare la tabella in esame data l’ipotesi nulla (test di significatività) Esaminiamo dapprima il caso delle tabelle 2*2 (2 righe * 2 colonne) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 10 5 Indicatori di associazione: Esposizione Presente Assente Totale Malattia Caso a c a+c Controllo b d b+d Totale a+b c+d a+b+c+d La misura di associazione usata più frequentemente è l’ Odds Ratio (Rapporto Crociato), abbreviato con OR. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 11 Odds Ratio (OR) è il rapporto tra i due odds: OR = (a/b)/(c/d) = (a*d) / (c*b) ‘OR fornisce una stima del rischio di sviluppare un effetto quando è presente un fattore antecedente rispetto al corrispondente rischio quando il fattore è assente’ (Fleiss). L’intervallo di valori validi per OR è: 0 <= OR <= ∞ Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 12 6 Sviluppiamo un esempio derivato dallo studio clinico presentato a fine lezione sul confronto di due antibiotici nel trattamento delle infezioni in pazienti affetti da neoplasia. Febbre Farmaco Curato Non curato Totale Meropenem 79 56 135 Ceftazidima 49 65 114 TOTALE 128 121 249 OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 13 Interpretazione: le due variabili sembrano associate: la probabilità di essere trattati con successo per i pazienti trattati con meropenem è 1,87 volte maggiore rispetto ai pazienti trattati con ceftazidime. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 14 7 Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞): IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR)) ln(OR) = logaritmo naturale dell’ Odds Ratio 1 1 1 1 + + + a b c d ES (ln(OR)) = Quindi: ln( OR ) ± IC (OR ) = e Ζ α2 *ES (ln( OR )) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 15 1 1 1 1 ES (ln(OR )) = + + + = 0,2575 79 56 49 65 95% -> α = 0,05 da distribuire nelle due code poiché l’ intervallo di confidenza è bilaterale l _ inf IC(95%)OR = e(0,6267−1,96*0, 2575) = 1,1297 l _ sup IC(95%)OR = e (0,6267+1,96*0, 2575) = 3,0999 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 16 8 Risultati di uno studio in un gruppo di tossicodipendenti sull'associazione tra positività al test della tubercolina ed uso promiscuo di siringhe per l'iniezione di stupefacenti. Test della tubercolina Uso di siringhe Positivo Negativo Totale Promiscuo 24 73 97 Non Promiscuo 28 133 161 TOTALE 52 206 258 L'associazione tra il risultato del test alla tubercolina e l'uso promiscuo delle siringhe è misurato dall'Odds Ratio. OR = (24 * 133) / (73 * 28) = 1,5616 Interpretazione: ? Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 17 ES(ln(OR))= 0,314004 95% -> α = 0,05 da distribuire nelle due code poiché l' intervallo di confidenza è bilaterale Z(α/2) = Z(0,025 nella coda superiore) = 1,96 l _ inf IC(95% )OR = e(0, 445739−1,96*0,314004 ) = 0,8439 l _ supIC(95% )OR = e(0, 445739+1,96*0,314004 ) = 2,8898 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 18 9 Test di ipotesi Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito corrisponde all'associazione tra le due variabili mentre l'ipotesi nulla corrisponde all'assenza di associazione. H0: le variabili non sono associate (quindi OR=1) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 19 Il test statistico misura la probabilità di osservare una tabella come quella data (o più estrema) se vale l'ipotesi nulla. Il test adottato è il Chi-quadro (χ2). Questo test fornisce la probabilità (data l’ipotesi nulla) di osservare una tabella come quella in esame o una tabella più ‘estrema’. Esamineremo dapprima la formula approssimata di questo test, che si basa sulla misura della differenza tra il numero di osservazioni in ciascuna cella della tabella ed il corrispondente numero di osservazioni attese, data l’ipotesi nulla. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 20 10 Calcolo del numero di osservazioni attese H0: Le due variabili non sono associate. Se due eventi sono indipendenti P(B|A) = P(B) Quindi La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della probabilità di ciascuno di essi. P(A ∩ B) = P(A) P(B) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 21 Osservati: Febbre Farmaco Curato Non curato Totale Meropenem 79 56 135 Ceftazidima 49 65 114 TOTALE 128 121 249 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 22 11 Calcolo degli attesi: Febbre Farmaco Curato Non curato Totale Meropenem E(a) = (a+b)*(a+c)/T E(b) = (a+b)*(b+d)/T a+b Ceftazidima E(c ) = (c+d)*(a+c)/T E(d) = (c+d)*(b+d)/T c+d a+c b+d T TOTALE E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 23 Febbre attesi Curato Non curato Totale Meropenem 69.398 65.602 135 Ceftazidima 58.602 55.398 114 Totale 128 121 249 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 24 12 (oss−att ) 2 χ χ 2 2 =∑ att 2 2 2 2 ( ( ( ( a − E (a )) b − E (b )) c − E (c )) d − E (d )) = + + + E (a ) E (b ) E (c ) E (d ) Dove E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T Il valore atteso delle restanti celle viene calcolato in modo analogo o per differenza dai totali marginali. La formula è approssimata ed è valida quando il numero di osservazioni non è troppo piccolo (ogni cella Atteso >1; non più del 20% delle celle con atteso < 5). Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza (O-A)^2/A 25 Febbre Curato Non curato Meropenem 1.329 1.406 Ceftazidima 1.573 1.664 chi2= 1.329 + 1.406 +1.573 + 1.664 = 5.972 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 26 13 Formula abbreviata (valida solo per tabelle 2 x 2) χ2 = T * (ad − bc ) (a + b )(a + c )(b + c )(c + d ) χ2 = 2 n.. * (n11 * n22 − n12 * n21 ) n1. * n2. * n.1 * n.2 2 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 27 Come si usa il valore χ2 ? Il valore di probabilità corrispondente al valore della statistica χ2 si legge su apposite tabelle, dato il valore di χ2 ed il numero di gradi di libertà. La probabilità viene letta su una sola coda della distribuzione χ2 ma il test è bilaterale. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 28 14 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 29 5.972 Il grafico presenta la curva della distribuzione χ2 con 1 gradi di libertà. Il valore di χ2 è sulle ascisse. L’area verde corrisponde al 5% della distribuzione. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 30 15 Correzione per la continuità (Yates). I valori osservati in una tabella di contingenza sono frequenze, quindi possono assumere solo valori interi. La distribuzione χ2 è invece una distribuzione continua. E’ stata quindi proposta una correzione, applicabile alle tabelle 2*2, che ha l’effetto di ridurre il valore di χ2 (effetto conservativo). 2 1 oss − att − 2 χ = ∑ att 2 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 31 Sviluppiamo un esempio utilizzando dati relativi ad uno studio storico sul trattamento dell'ulcera peptica L’errore di primo tipo era stato fissato a 0,05. La tabella dei valori osservati è: Ulcera peptica Farmaco Curato Non curato Totale Pirenzepina 23 7 30 Tritiozina 18 13 31 TOTALE 41 20 61 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 32 16 OR (pirenzepina vs. tritiozina) = 2,37 IC95%(OR): 0,7847 <= OR <=7,1766 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 33 Il calcolo dei valori attesi porta a questi risultati. Ulcera peptica Farmaco Curato Non curato Totale Pirenzepina 20,16 9,84 30 Tritiozina 20,84 10,16 31 TOTALE 41 20 61 Il calcolo della statistica χ2 ( 23 − 20,16 − 1 / 2) + ( 7 − 9,84 − 1 / 2) + (18 − 20,84 − 1 / 2) + (13 − 10,16 − 1 / 2) = 2 χ 2 20,16 2 9,84 2 20,84 2 10,16 = 0,272 + 0,566 + 0,263 +0,539 = 1,6298 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 34 17 Interpretazione: Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di libertà corrisponde ad un valore di probabilità compreso tra 0,10 e 0,25 0,10 <probabilità < 0,25 Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi nulla. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 35 Posso anche calcolare il valore di probabilità utilizzando una funzione di Excel: dato χ2 = 1,629752 ed 1 grado di libertà calcolo: p= 0,201737. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 36 18 χ2 esatto Quando il numero di soggetti nella tabella è piccolo si suggerisce di utilizzare la formula del χ2 esatto, sviluppata da Fischer. Il test si basa sul calcolo della probabilità associata alla tabella osservata ed a ciascuna delle tabelle ‘più estreme’. Il test è stato sviluppato a partire dalla funzione di probabilità ipergeometrica. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 37 Costruzione delle tabelle ‘più estreme’ (cioè con indicatore di associazione maggiore di quello osservato nella tabella data). Esempio. La tabella riporta il numero di pazienti trattati in due reparti con intervento per frattura collo del femore ed il numero di complicanze osservate in ciascun reparto (dati fittizi). Tab. 1 Reparto Complicanza A B Totale Si 2 6 8 No 18 14 32 Totale 20 20 40 p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!) Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 38 19 Altre possibili tabelle Tab. 2 Complicanza Reparto A B Totale Si 1 7 8 No 19 13 32 Totale 20 20 40 Tab. 3 Reparto Complicanza A B Totale Si 0 8 8 No 20 12 32 Totale 20 20 40 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 39 P(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760 P(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160 P(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638 P totale = 0,117558 Il test fornisce direttamente il valore di probabilità. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 40 20 Test di Mc Nemar per dati appaiati Frequentemente il disegno dello studio prevede l’appaiamento tra due soggetti o l’analisi dello stesso soggetto in condizioni diverse. Immaginiamo di trattare un gruppo di soggetti con due diversi antidolorifici. Ciascun soggetto riceve prima un farmaco e poi l'altro, secondo una sequenza casuale. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 41 In questo caso la tabella, gli indicatori di associazione ed il calcolo di χ2 diventano: Trattamento B Trattamento A Migliorato Non migliorato Totale Migliorato k r k+r Non migliorato s m s+m k+s r+m N Totale Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 42 21 OR(McNemar) = r/s Il χ2, calcolato con la correzione per la continuità è: (r − s −1) = 2 χ 2 1 gl r+s Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 43 Test di Mc Nemar, sviluppo di un esempio. E’ stato condotto uno studio con l’obiettivo di confrontare due farmaci antiinfiammatori , che indichiamo come A e B. Non siamo in grado di prevedere quale dei due farmaci darà i migliori risultati. Sono inclusi 347 pazienti affetti da artrite. Ciascun paziente riceve, in sequenza casuale, i due diversi farmaci. Confronto quindi le risposte ai due farmaci calcolando l’Odds Ratio. L’errore di primo tipo è fissato a 0,05. Il test statistico appropriato è il test di Mc Nemar, con correzione per la continuità. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 44 22 Trattamento B Trattamento A Migliorato Non migliorato Totale Migliorato 87 112 199 Non migliorato 79 69 148 Totale 166 181 347 OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42 χ2 1g.l. = 5,36 p < 0,025 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 45 Interpretazione: La probabilità di ottenere un miglioramento per i pazienti trattati con il farmaco A è 1,42 volte più elevata che per i pazienti trattati con il farmaco B. La probabilità di osservare un risultato come quello osservato o più estremo è inferiore al valore prefissato per il rifiuto dell’ipotesi nulla, che viene quindi respinta. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 46 23 Tabelle R x C L’estensione del calcolo di χ2 a tabelle con un maggior numero di righe e di colonne è semplice e si basa sulla formula approssimata: (oss −att ) =∑ 2 χ 2 att Il numero di gradi di libertà si calcola come (numero di righe-1)*(numero di colonne-1). La correzione per la continuità non viene applicata. Non sono disponibili formule per il calcolo del χ2 esatto in tabelle con dimensione maggiore di 2x2. Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 47 Tabelle 2*n Costituiscono un caso particolare delle tabelle R*C Il calcolo di χ2 si basa sulla formula approssimata: (oss −att ) 2 χ =∑ 2 att Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1). Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 48 24 Un esempio di impiego del test χ2 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 49 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 50 25 Un esempio di impiego del test esatto di Fischer Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 51 Esaminiamo alcune curve Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 52 26 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 53 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 54 27 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 55 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 56 28 Esercizi consigliati da: Fowler et al, ed Edises. • • • • • • Cap 12 (p 230) es 1 Cap 12 (p 230) es 2 Cap 12 (p 230) es 3 Cap 12 (p 230) es 4 Cap 12 (p 230) es 5 Cap 12 (p 231) es 8 Corsi di laurea triennale di area tecnica - Corso di Statistica Medica - Analisi dei dati in tabelle di contingenza 57 29