Università del Piemonte Orientale Corso di Laurea in Igiene Dentale Corso di Statistica per la ricerca sperimentale e tecnologica Analisi dei dati in tabelle di contingenza Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 1 La tabella seguente presenta la frequenza di osservazioni, categorizzate secondo due variabili. Risultato Farmaco Curato Non curato Totale Proporzione curati A a b a+b a/(a+b) B c d c+d c/(c+d) TOTALE a+c b+d a+b+c+d La notazione usata è semplice ma non è generalizzabile a tabelle di maggiori dimensioni. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 2 La seguente notazione è più generale e si applica a tabelle di qualsiasi dimensione Risultato Farmaco Curato Non curato Totale Proporzione curati A n11 n12 n1. n11/n1. B n21 n22 n2. n21/n2. TOTALE n.1 n.2 n.. n.1/n.. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 3 Talvolta la tabella viene costruita indicando non le frequenze ma le corrispondenti proporzioni. Risultato Farmaco Curato Non curato Totale A p11 p12 p1. B p21 p22 p2. TOTALE p.1 p.2 p.. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 4 I totali marginali della tabella (totali di riga e di colonna) sono definiti dal disegno dello studio e dai suoi risultati principali. Ad esempio: uno studio clinico include 200 pazienti, divisi in due gruppi di eguale dimensione trattati con due diversi farmaci. Il primo risultato dello studio sarà dato dal numero di pazienti che hanno mostrato un risultato favorevole del trattamento (120 risultati favorevoli, 80 con risultato non favorevole). Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 5 La tabella completata relativamente ai totali marginali è: Risultato Farmaco Curato Non curato Totale A n11 n12 100 B n21 n22 100 TOTALE 120 80 200 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 6 Una volta definito un valore per una delle quattro celle, resta definito anche il valore delle celle restanti, poiché i totali marginali sono fissati. In altri termini, in una tabella 2*2 una sola delle celle è libera di assumere qualsiasi valore, le restanti sono fissate dai totali marginali. Il numero di celle libere corrisponde al numero di gradi di libertà (g.l. o d.f.). Il numero di gradi di libertà in una tabella r * c è dato da: g.l. = (r-1) * (c-1) Le tabelle 2*2 hanno 1 grado di libertà. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 7 L’analisi di una tabella di contingenza prevede: • il calcolo di indicatori di associazione tra le due variabili • la valutazione della probabilità di osservare la tabella in esame data l’ipotesi nulla (test di significatività) Esaminiamo il caso delle tabelle 2*2 (2 righe * 2 colonne) Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 8 Indicatori di associazione: Esposizione Presente Assente Totale Malattia Caso a c a+c Controllo b d b+d Totale a+b c+d a+b+c+d La misura di associazione usata più frequentemente è l’ Odds Ratio (Rapporto Crociato), abbreviato con OR. ‘OR fornisce una stima del rischio di sviluppare un effetto quando è presente un fattore antecedente, rispetto al corrispondente rischio quando il fattore è assente’ (Fleiss). Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 9 Rischio (odd) quando il fattore è presente: (a/b). Rischio (odd) quando il fattore è assente: (c/d). Odds Ratio (OR) è il rapporto tra i due odds: OR = (a/b)/(c/d) = (a*d) / (c*b) L’intervallo di valori validi per OR è: 0 <= OR <= ∞ Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 10 Esempio: confronto di due antibiotici nel trattamento delle infezioni in pazienti affetti da neoplasia. Febbre Farmaco Curato Non curato Totale Meropenem 79 56 135 Ceftazidima 49 65 114 TOTALE 128 121 249 OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 11 Interpretazione: le due variabili sembrano associate: la probabilità di essere trattati con successo per i pazienti trattati con meropenem è 1,87 volte maggiore rispetto ai pazienti trattati con ceftazidime. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 12 Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞): IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR)) ln(OR) = logaritmo naturale dell’ Odds Ratio 1 1 1 1 ES (ln(OR )) = + + + a b c d Quindi: ln( OR ) ± IC (OR ) = e Ζ α2 *ES (ln( OR )) Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 13 1 1 1 1 ES (ln(OR )) = + + + = 0,2575 79 56 49 65 95% -> α = 0,05 da distribuire nelle due code poiché l’ intervallo di confidenza è bilaterale (0, 6267−1,96*0, 2575 ) = 1,1297 (0, 6267+1,96*0, 2575 ) = 3,0999 l _ inf IC(95%)OR = e l _ sup IC(95%)OR = e Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 14 Risultati di uno studio in un gruppo di tossicodipendenti sull'associazione tra positività al test della tubercolina ed uso promiscuo di siringhe per l'iniezione di stupefacenti. Test della tubercolina Uso di siringhe Positivo Negativo Totale Promiscuo 24 73 97 Non Promiscuo 28 133 161 TOTALE 52 206 258 L'associazione tra il risultato del test alla tubercolina e l'uso promiscuo delle siringhe è misurato dall'Odds Ratio. OR = (24 * 133) / (73 * 28) = 1,56 Interpretazione: ? Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 15 ES(ln(OR))= 0,3140 95% -> α = 0,05 da distribuire nelle due code poiché l' intervallo di confidenza è bilaterale Z(α/2) = Z(0,025 nella coda superiore) = 1,96 l _ inf IC(95% )OR = e (0, 4457−1,96*0,3140 ) = 0,8439 l _ supIC(95% )OR = e (0, 4457+1,96*0,3140 ) = 2,2898 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 16 Test di ipotesi Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito corrisponde all'associazione tra le due variabili mentre l'ipotesi nulla corrisponde all'assenza di associazione. H0: le variabili non sono associate (quindi OR=1) Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 17 Il test statistico misura la probabilità di osservare una tabella come quella data (o più estrema) se vale l'ipotesi nulla. Il test adottato è il Chi-quadro (χ2). Il principio di base di questo test consiste nel confronto tra le frequenze osservate e quelle attese per ogni cella. La formula approssimata di questo test si basa appunto sulla misura della differenza tra il numero di osservazioni in ciascuna cella della tabella ed il corrispondente numero di osservazioni attese, data l’ipotesi nulla. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 18 Esempio: viene ripreso il confronto di due antibiotici nel trattamento delle infezioni in pazienti affetti da neoplasia. H0: Le due variabili non sono associate. Valori osservati: Febbre Farmaco Curato Non curato Totale Meropenem 79 56 135 Ceftazidima 49 65 114 TOTALE 128 121 249 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 19 Calcolo del numero di osservazioni attese Febbre Farmaco Curato Non curato Totale Meropenem E(a) = (a+b)*(a+c)/T E(b) = (a+b)*(b+d)/T a+b Ceftazidima E(c ) = (c+d)*(a+c)/T E(d) = (c+d)*(b+d)/T c+d a+c b+d T TOTALE E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T Febbre Curato Non curato Totale Meropenem 69.398 65.602 135 Ceftazidima 58.602 55.398 114 Totale 128 121 249 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 20 (oss −att ) 2 χ =∑ 2 att 2 2 2 2 ( ( ) ) ( ( ) ) ( ( ) ) ( ( ) ) a E a b E b c E c d E d − − − − χ2 = + + + E (a ) E (b ) E (c ) E (d ) Dove E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T Il valore atteso delle restanti celle viene calcolato in modo analogo o per differenza dai totali marginali. La formula è approssimata ed è valida quando il numero di osservazioni non è troppo piccolo (ogni cella Atteso >1; non più del 20% delle celle con atteso < 5). Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 21 (O-A)^2/A Febbre Curato Non curato Meropenem 1.329 1.406 Ceftazidima 1.573 1.664 chi2= 1.329 + 1.406 +1.573 + 1.664 = 5.972 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 22 Formula abbreviata (valida solo per tabelle 2 x 2) T * (ad − bc ) 2 χ = (a + b )(a + c )(b + c )(c + d ) 2 n.. * (n11 * n22 − n12 * n21 ) 2 χ = n1. * n2. * n.1 * n.2 2 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 23 Come si usa il valore χ2 ? Il valore di probabilità corrispondente al valore della statistica χ2 si legge su apposite tabelle, dato il valore di χ2 ed il numero di gradi di libertà. La probabilità viene letta su una sola coda della distribuzione χ2 ma il test è bilaterale. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 24 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 25 5.972 Il grafico presenta la curva della distribuzione χ2 con 1 gradi di libertà. Il valore di χ2 è sulle ascisse. L’area verde corrisponde al 5% della distribuzione. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 26 Correzione per la continuità (Yates). I valori osservati in una tabella di contingenza sono frequenze, quindi possono assumere solo valori interi. La distribuzione χ2 è invece una distribuzione continua. E’ stata quindi proposta una correzione, applicabile alle tabelle 2*2, che ha l’effetto di ridurre il valore di χ2 (effetto conservativo). 2 1 oss − att − 2 χ = ∑ att 2 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 27 Esempio: studio storico sul trattamento dell'ulcera peptica L’errore di primo tipo era stato fissato a 0,05. La tabella dei valori osservati è: Ulcera peptica Farmaco Curato Non curato Totale Pirenzepina 23 7 30 Tritiozina 18 13 31 TOTALE 41 20 61 OR (pirenzepina vs. tritiozina) = 2,37 IC95%(OR): 0,7847 <= OR <=7,1766 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 28 Il calcolo dei valori attesi porta a questi risultati. Ulcera peptica Farmaco Curato Non curato Totale Pirenzepina 20,16 9,84 30 Tritiozina 20,84 10,16 31 TOTALE 41 20 61 Il calcolo della statistica χ2 ( 23 − 20,16 − 1 / 2) ( 7 − 9,84 − 1 / 2) (18 − 20,84 − 1 / 2) (13 − 10,16 − 1 / 2) = + + + 2 χ2 20,16 2 9,84 2 20,84 2 10,16 = 0,272 + 0,566 + 0,263 +0,539 = 1,6298 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 29 Interpretazione: Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di libertà corrisponde ad un valore di probabilità compreso tra 0,10 e 0,25 0,10 <probabilità < 0,25 Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi nulla. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 30 Posso anche calcolare il valore di probabilità utilizzando una funzione di Excel: dato χ2 = 1,629752 ed 1 grado di libertà calcolo: p= 0,201737. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 31 χ2 ESATTO Quando il numero di soggetti nella tabella è piccolo si suggerisce di utilizzare la formula del χ2 esatto, sviluppata da Fischer. Il test è stato sviluppato a partire dalla funzione di probabilità ipergeometrica. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 32 Esempio. La tabella riporta il numero di pazienti trattati in due reparti con intervento per frattura collo del femore ed il numero di complicanze osservate in ciascun reparto (dati fittizi). Tab. 1 Reparto Complicanza A B Totale Si 2 6 8 No 18 14 32 Totale 20 20 40 p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!) Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 33 Altre possibili tabelle Tab. 2 Reparto Complicanza A B Totale Si 1 7 8 No 19 13 32 Totale 20 20 40 Tab. 3 Reparto Complicanza A B Totale Si 0 8 8 No 20 12 32 Totale 20 20 40 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 34 P(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760 P(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160 P(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638 P totale = 0,117558 Il test fornisce direttamente il valore di probabilità. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 35 Test di Mc Nemar per dati appaiati Frequentemente il disegno dello studio prevede l’appaiamento tra due soggetti o l’analisi dello stesso soggetto in condizioni diverse. Immaginiamo di trattare un gruppo di soggetti con due diversi antidolorifici. Ciascun soggetto riceve prima un farmaco e poi l'altro, secondo una sequenza casuale. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 36 In questo caso la tabella, gli indicatori di associazione ed il calcolo di χ2 diventano: Trattamento A Trattamento B Migliorato Non migliorato Totale Migliorato k r k+r Non migliorato s m s+m k+s r+m N Totale Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 37 OR(McNemar) = r/s Il χ2, calcolato con la correzione per la continuità è: ( r − s −1) = 2 χ 2 1 gl r+s Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 38 Test di Mc Nemar, esempio: E’ stato condotto uno studio con l’obiettivo di confrontare due farmaci antiinfiammatori , che indichiamo come A e B. Non siamo in grado di prevedere quale dei due farmaci darà i migliori risultati. Sono inclusi 347 pazienti affetti da artrite. Ciascun paziente riceve, in sequenza casuale, i due diversi farmaci. Confronto quindi le risposte ai due farmaci calcolando l’Odds Ratio. L’errore di primo tipo è fissato a 0,05. Il test statistico appropriato è il test di Mc Nemar, con correzione per la continuità. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 39 Trattamento A Trattamento B Migliorato Non migliorato Totale Migliorato 87 112 199 Non migliorato 79 69 148 Totale 166 181 347 OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42 χ2 1g.l. = 5,36 p < 0,025 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 40 Interpretazione: La probabilità di ottenere un miglioramento per i pazienti trattati con il farmaco A è 1,42 volte più elevata che per i pazienti trattati con il farmaco B. La probabilità di osservare un risultato come quello osservato o più estremo è inferiore al valore prefissato per il rifiuto dell’ipotesi nulla, che viene quindi respinta. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 41 Tabelle R x C L’estensione del calcolo di χ2 a tabelle con un maggior numero di righe e di colonne è semplice e si basa sulla formula approssimata: (oss −att ) 2 χ 2 =∑ att Il numero di gradi di libertà si calcola come (numero di righe-1)*(numero di colonne-1). La correzione per la continuità non viene applicata. Non sono disponibili formule per il calcolo del χ2 esatto in tabelle con dimensione maggiore di 2x2. Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 42 Tabelle 2*n Costituiscono un caso particolare delle tabelle R*C Il calcolo di χ2 si basa sulla formula approssimata: (oss −att ) =∑ 2 χ 2 att Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1). Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 43 Esercizi consigliati da: Fowler et al, ed Edises. • • • • • • Cap 12 (p 230) es 1 Cap 12 (p 230) es 2 Cap 12 (p 230) es 3 Cap 12 (p 230) es 4 Cap 12 (p 230) es 5 Cap 12 (p 231) es 8 Corso di laurea triennale di Igiene Dentale - Corso di Statistica - Analisi dei dati in tabelle di contingenza 44