Università del Piemonte Orientale Corso di laurea in biotecnologia Corso di Statistica Medica Analisi dei dati in tabelle di contingenza Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 1 I metodi di analisi che vedremo sono utilizzati per il confronto di proporzioni in due o più diversi gruppi. L’analisi delle tavole di contingenza appartiene al capitolo dedicato all’analisi dei dati categorici. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 2 La tabella seguente presenta la frequenza di osservazioni, categorizzate secondo due variabili. Risultato Farmaco Curato Non curato Totale Proporzione curati A a b a+b a/(a+b) B c d c+d c/(c+d) a+c b+d a+b+c+d TOTALE La notazione usata è semplice ma non è generalizzabile a tabelle di maggiori dimensioni. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 3 La seguente notazione è più generale e si applica a tabelle di qualsiasi dimensione Risultato Farmaco Curato Non curato Totale Proporzione curati A n11 n12 n1. n11 / n1. B n21 n22 n2. n21 / n2. TOTALE n.1 n.2 n.. n.1/ n.. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 4 Talvolta la tabella viene costruita indicando non le frequenze ma le corrispondenti proporzioni. Risultato Farmaco Curato Non curato Totale A p11 p12 p1. B p21 p22 p2. TOTALE p.1 p.2 p.. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 5 Si noti che i totali marginali della tabella (totali di riga e di colonna) sono definiti dal disegno dello studio e dai suoi risultati principali. Ad esempio: uno studio clinico include 200 pazienti, divisi in due gruppi di eguale dimensione trattati con due diversi farmaci. Il primo risultato dello studio sarà dato dal numero di pazienti che hanno mostrato un risultato favorevole del trattamento (120 risultati favorevoli, 80 con risultato non favorevole). La tabella completata relativamente ai totali marginali è: risultato Farmaco Curato Non curato Totale A n11 n12 100 B n21 n22 100 TOTALE 120 80 200 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 6 Si noti che, una volta definito un valore per una delle quattro celle, resta definito anche il valore delle celle restanti, poiché i totali marginali sono fissati. In altri termini, in una tabella 2*2 una sola delle celle è libera di assumere qualsiasi valore, le restanti sono fissate dai totali marginali. Il numero di celle libere corrisponde al numero di gradi di libertà (g.l. o d.f.). Il numero di gradi di libertà in una tabella r * c è dato da: g.l. = (r-1) * (c-1) Le tabelle 2*2 hanno un grado di libertà. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 7 Abbiamo già incontrato il numero di gradi di libertà nel calcolo della Deviazione Standard n Dev.St. = ( ∑ xi − X i =1 ) 2 (n − 1) n-1 è il numero di gradi di libertà per il calcolo della deviazione standard: dato il valore della media, il valore dell’nesima osservazione è definito, noto il valore delle n-1 osservazioni precedenti. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 8 L’analisi di una tabella di contingenza prevede: - il calcolo di indicatori di associazione tra le due variabili; - la valutazione della probabilità di osservare la tabella in esame data l’ipotesi nulla (test di significatività). Esaminiamo dapprima il caso delle tabelle 2*2 (2 righe * 2 colonne) Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 9 Indicatori di associazione: Malattia Esposizione Caso Controllo Totale Presente a b a+b Assente c d c+d a+c b+d a+b+c+d Totale La misura di associazione usata più frequentemente è l’ Odds Ratio (Rapporto Crociato), abbreviato con OR. Come Odd intendiamo il rapporto: (probabilità a favore / probabilità contrarie). Per la spiegazione seguiamo la notazione della tabella alla pagina precedente. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 10 L’odd di malattia tra i soggetti con esposizione è il rapporto tra le due probabilità condizionate: p(Malattia|Esposizione) e p(Non_malattia|Esposizione). Odd(M|E)= [a/(a+b)] / [b/(a+b)] = a/b In modo analogo si ottiene l’odd di malattia tra i soggetti senza esposizione: p(Malattia|Non_Esposizione) e p(Non_malattia|Non_esposizione). Odd(M|Non_E)=[c/(c+d)] / [d/(c+d)] = c/d Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 11 Odds Ratio (OR) è il rapporto tra i due odds: OR = (a/b)/(c/d) = (a*d) / (c*b) ‘OR fornisce una stima del rischio di sviluppare un effetto quando è presente un fattore antecedente’ (Fleiss). L’intervallo di valori validi per OR è: 0 <= OR <= ∞ Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 12 OR è stato sviluppato nell’ambito degli studi di coorte e caso-controllo per fornire una stima del Rischio Relativo. Le proprietà ed i limiti di OR quale stimatore del Rischio Relativo saranno discussi nel corso di Epidemiologia. Può essere usato anche in tavole di contingenza derivate da altri disegni di studio ma in tal caso è interpretato semplicemente come un indicatore di associazione. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 13 Sviluppiamo un esempio derivato dallo studio clinico presentato a fine lezione sul confronto di due antibiotici nel trattamento delle infezioni in pazienti affetti da neoplasia. Febbre Farmaco Curato Non curato Totale Meropenem 79 56 135 Ceftazidima 49 65 114 TOTALE 128 121 249 OR (Meropenem vs. Ceftazidima) = (79 * 65) / (49 * 56) = 1,87 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 14 Interpretazione: le due variabili sembrano associate: la probabilità di essere trattati con successo per i pazienti trattati con meropenem è 1,87 volte maggiore che per i pazienti trattati con ceftazidime. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 15 Per calcolare l’intervallo di confidenza nel caso dell’OR dobbiamo utilizzare la seguente formula poiché la distribuzione di OR è asimmetrica (va da 0 a + ∞): IC (ln(OR)) = ln(OR) ± Zα/2 * ES(ln(OR)) ln(OR) = logaritmo naturale dell’ Odds Ratio ES (ln(OR )) = 1 1 1 1 + + + a b c d Quindi: ln( OR ) ± IC (OR ) = e Ζ α2 *ES (ln( OR )) Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 16 ES(ln(OR))= √(1/79 + 1/ 56 + 1/49 +1/65) = 0,2575 95% -> α = 0,05 da distribuire nelle due code (intervallo di confidenza bilaterale) Z(α/2) = Z(0,025 nella coda superiore) l_inf IC(95%) OR = exp(0,6267 - 1,96 * 0,2575) = 1,1297 l_sup IC(95%) OR = exp(0,6267 + 1,96 * 0,2575) = 3,0999 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 17 Esaminiamo i risultati di uno studio eziologico in un gruppo di tossicodipendenti sull'associazione tra positività al test della tubercolina ed uso promiscuo di siringhe per l'iniezione di stupefacenti. test della tubercolina Uso di siringhe Positivo Negativo Totale Promiscuo 24 73 97 Non Promiscuo 28 133 161 TOTALE 52 206 258 L'associazione tra il risultato del test alla tubercolina e l'uso promiscuo delle siringhe è misurato dall'Odds Ratio. OR = (24 * 133) / (73 * 28) = 1,56 Interpretazione: ? Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 18 ES(ln(OR))= 0,3140 95% -> α = 0,05 da distribuire nelle due code (intervallo di confidenza bilaterale) Z(α/2) = Z(0,025 nella coda superiore) l _ inf IC(95% )OR = e (0, 445739−1,96*0,314004 ) = 0,8439 l _ supIC(95% )OR = e (0, 445739+1,96*0,314004 ) = 2,8898 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 19 Test di ipotesi. Nell' analisi di tabelle di contingenza l'ipotesi di lavoro di solito corrisponde all'associazione tra le due variabili mentre l'ipotesi nulla corrisponde all'assenza di associazione. Il test dell’ipotesi viene condotto secondo quanto spegato nelle lezioni precedenti H1: le variabili sono associate (quindi OR#1) H0: le variabili non sono associate (quindi OR=1) Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 20 Il test statistico misura la probabilità di osservare una tabella come quella data (o più estrema) se vale l'ipotesi nulla. Il test adottato è il Chi-quadro (χ2). Questo test fornisce la probabilità (data l’ipotesi nulla) di osservare una tabella come quella in esame o una tabella più ‘estrema’. Esamineremo dapprima la formula approssimata di questo test, che si basa sulla misura della differenza tra il numero di osservazioni in ciascuna cella della tabella ed il corrispondente numero di osservazioni attese, data l’ipotesi nulla. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 21 Calcolo del numero di osservazioni attese H0: Le due variabili non sono associate. Se due eventi sono indipendenti P(B|A) = P(B) Quindi La probabilità del realizzarsi congiunto di due eventi è data dal prodotto della probabilità di ciascuno di essi. P(A ∩ B) = P(A) P(B) Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 22 Osservati: Febbre Farmaco Curato Non curato Totale Meropenem 79 56 135 Ceftazidima 49 65 114 TOTALE 128 121 249 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 23 Calcolo degli attesi: Febbre Farmaco Curato Non curato Totale Meropenem E(a) = E(b) = a+b (a+b)*(a+c)/T (a+b)*(b+d)/T E(c ) = E(d) = (c+d)*(a+c)/T (c+d)*(b+d)/T a+c b+d Ceftazidima TOTALE c+d T E(a) = ((a+b)/T)*((a+c)/T)*T=(a+b)*(a+c)/T Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 24 Febbre attesi Curato 69.398 58.602 128 Meropenem Ceftazidima Totale Non curato 65.602 55.398 121 Totale 135 114 249 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 25 (oss −att ) =∑ 2 χ 2 Χ att 2 2 2 2 2 ( a − E ( a ) ) (b − E (b) ) (c − E ( c ) ) (d − E ( d ) ) = + + + Dove E (a ) E ( b) E (c) E (d ) E(a) = [(a+b)/T] * [(a+c)/T] * T = (a+b) * (a+c)/T Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 26 (O-A)^2/A Febbre Curato Non curato Meropenem 1.329 1.406 Ceftazidima 1.573 1.664 chi2= 1.329 + 1.406 +1.573 + 1.664 = 5.972 Si tratta di una formula approssimata che è valida quando il numero di osservazioni non è troppo piccolo (ogni cella Atteso >1; non più del 20% delle celle con atteso < 5). Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 27 Come si usa il valore χ2 ? Il valore di probabilità corrispondente al valore della statistica χ2 si legge su apposite tabelle, dato il valore di χ2 ed il numero di gradi di libertà. La probabilità viene letta su una sola coda della distribuzione χ2. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 28 5.972 29 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza di χ2 e ∞. Le tavole forniscono l’area della distribuzione compresa tra un dato valore Il grafico presenta la curva della distribuzione χ con 1 gradi di libertà. Il valore di χ è sulle ascisse. 2 2 L’area verde corrisponde al 5% della distribuzione. Probabilità corrispondente al valore chi_quadro g.l. 0,500 0,400 0,300 0,250 1 0,455 0,708 1,074 1,323 2 1,386 1,833 2,408 2,773 3 2,366 2,946 3,665 4,108 4 3,357 4,045 4,878 5,385 5 4,351 5,132 6,064 6,626 6 5,348 6,211 7,231 7,841 7 6,346 7,283 8,383 9,037 8 7,344 8,351 9,524 10,219 9 8,343 9,414 10,656 11,389 10 9,342 10,473 11,781 12,549 11 10,341 11,530 12,899 13,701 12 11,340 12,584 14,011 14,845 13 12,340 13,636 15,119 15,984 14 13,339 14,685 16,222 17,117 15 14,339 15,733 17,322 18,245 16 15,338 16,780 18,418 19,369 17 16,338 17,824 19,511 20,489 18 17,338 18,868 20,601 21,605 19 18,338 19,910 21,689 22,718 20 19,337 20,951 22,775 23,828 21 20,337 21,992 23,858 24,935 22 21,337 23,031 24,939 26,039 23 22,337 24,069 26,018 27,141 24 23,337 25,106 27,096 28,241 25 24,337 26,143 28,172 29,339 26 25,336 27,179 29,246 30,435 27 26,336 28,214 30,319 31,528 28 27,336 29,249 31,391 32,620 29 28,336 30,283 32,461 33,711 30 29,336 31,316 33,530 34,800 40 39,335 41,622 44,165 45,616 50 49,335 51,892 54,723 56,334 60 59,335 62,135 65,226 66,981 70 69,334 72,358 75,689 77,577 80 79,334 82,566 86,120 88,130 90 89,334 92,761 96,524 98,650 100 99,334 102,946 106,906 109,141 110 109,334 113,121 117,269 119,608 120 119,334 123,289 127,616 130,055 0,100 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498 129,385 140,233 0,050 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,758 67,505 79,082 90,531 101,879 113,145 124,342 135,480 146,567 0,025 5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 59,342 71,420 83,298 95,023 106,629 118,136 129,561 140,916 152,211 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 30 0,010 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807 147,414 158,950 0,001 10,827 13,815 16,266 18,466 20,515 22,457 24,321 26,124 27,877 29,588 31,264 32,909 34,527 36,124 37,698 39,252 40,791 42,312 43,819 45,314 46,796 48,268 49,728 51,179 52,619 54,051 55,475 56,892 58,301 59,702 73,403 86,660 99,608 112,317 124,839 137,208 149,449 161,582 173,618 0,050 3,841 0,025 5,024 0,010 6,635 0,001 10,827 n..*(n11* n22 - n12* n21) 2 p compresa tra 0,01 e 0,025 0,100 2,706 T*(ad-bc) 2 chi^2 = 5,972 Probabilità corrispondente al valore chi_quadro g.l. 0,500 0,400 0,300 0,250 1 0,455 0,708 1,074 1,323 32 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza Questa informazione è sufficiente per rifiutare H0 con n1.*n2.*n.1*n.2 χ 2= (a+b)(a+c)(b+c)(c+d) χ 2= α=0,05 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 31 Formula abbreviata (valida solo per tabelle 2 x 2) Un altro esempio test della tubercolina Uso di siringhe Positivo Negativo Totale Promiscuo 24 73 97 Non Promiscuo 28 133 161 TOTALE 52 206 258 (O-A)^2/A test della tubercolina Uso di siringhe Positivo Negativo Promiscuo 1,012719 0,255638 Non Promiscuo 0,610148 0,154018 chi^2 = 2,032523 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza chi^2 = 2,032523 33 p compresa tra 0,1 e 0,25 Probabilità corrispondente al valore chi_quadro g.l. 0,500 0,400 0,300 0,250 1 0,455 0,708 1,074 1,323 0,100 2,706 0,050 3,841 0,025 5,024 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 0,010 6,635 0,001 10,827 34 Per stimare, attraverso l'interpolazione lineare, la probabilità incognita, corrispondente ad un determinato valore del test statistico: P = Probabilità incognita T = Valore ottenuto dal test statistico P1 = Probabilità immediatamente inferiore T1 = Valore del test statistico a P1 P2 = Probabilità immediatamente superiore T2= Valore del test statistico a P2 P = P1 + (P2 - P1) * [(T - T1) / (T2 - T1)] Calcolo relativo all’esempio precedente: P= 0,100+(0,250-0,100)*(2,033-2,706)/(1,323-2,706) =0,100+(0,150)*(-0,773)/(-1,483) =0,100+(0,150)*(0,521) =0.178 Il valore esatto di p per chi^2 = 2,032523 é p=0.154 la differenza è dovuta al fatto che siamo in una regione della curva chi^2 in cui la variazione di p non è esattamente lineare. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 35 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 36 Correzione per la continuità (Yates). I valori osservati in una tabella di contingenza sono frequenze, quindi possono assumere solo valori interi. La distribuzione χ2 è invece una distribuzione continua. E’ stata quindi proposta una correzione, applicabile alle tabelle 2*2, che ha l’effetto di ridurre il valore di χ2 (effetto conservativo). 2 1 oss − att − 2 χ = ∑ att 2 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 37 oppure n..* (|n11* n22 - n12* n21|-1/2n..) 2 χ 2= n1.*n2.*n.1*n.2 oppure T*(|ad-bc|-1/2T) 2 χ 2= (a+b)(a+c)(b+c)(c+d) |ad-bc| è il valore assoluto di (ad-bc) Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 38 Sviluppiamo un esempio utilizzando dati relativi ad uno studio storico sul trattamento dell'ulcera peptica L’errore di primo tipo era stato fissato a 0,05. La tabella dei valori osservati è: Ulcera Peptica Farmaco Curato Non curato Totale Pirenzepina 23 7 30 Tritiozina 18 13 31 TOTALE 41 20 61 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 39 OR (pirenzepina vs. tritiozina) = 2,37 IC95%(OR): 0,7847 <= OR <=7,1766 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 40 Il calcolo dei valori attesi porta a questi risultati. Ulcera Peptica Farmaco Curato Non curato Totale Pirenzepina 20,16 9,84 30 Tritiozina 20,84 10,16 31 TOTALE 41 20 61 Il calcolo della statistica χ2 (|23-20,16|-1/2)2 (|7-9,84|-1/2)2 (|18-20,84|-1/2) 2 + + 20,16 9,84 20,84 χ 2= + (|13-10,16|-1/2) 2 10,16 = = 0,272 + 0,566 + 0,263 +0,539 = 1,6298 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 41 Interpretazione: Il valore di χ2 , letto dall’apposita tabella, dato 1 grado di libertà corrisponde ad un valore di probabilità compreso tra 0,10 e 0,25 0,10 <probabilità < 0,25. Poiché l’errore α era stato fissato a 0,05, non rifiuto l’ipotesi nulla. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 42 Posso anche calcolare il valore di probabilità utilizzando una funzione di Excel: dato χ2 = 1,629752 ed 1 grado di libertà calcolo: p= 0,201737. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 43 Analysis for 2 by 2 Crosstabulation (pivot) Tables Levels and Sample Counts H H1 V H2 V2 12 7 V1 Odds Ratio OR 6,571428571 Confidence Interval for Odds Ratio Continuity correction Chi-square Test Continuity correction H0: Variables are independent H1: Variables are not independent Chi-square 8,833393829 p-value = 0,002957678 6 23 Fisher's Exact Test H0: 1 - 2 = 0 Alternative > ≠ < H1: 1 - 2 ≠ 0 p-value = 0,00751 Level 0,95 Lower Upper 1,898676662 22,7440903 n.b. è compreso negli Extra Tools Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 44 χ2 esatto La formula approssimata è valida quando il numero di osservazioni non è troppo piccolo (ogni cella Atteso >1; non più del 20% delle celle con atteso < 5). Quando il numero di soggetti nella tabella è piccolo si suggerisce di utilizzare la formula del χ2 esatto, sviluppata da Fischer. Il test si basa sul calcolo della probabilità associata alla tabella osservata ed a ciascuna delle tabelle ‘più estreme’. Il test è stato sviluppato a partire dalla funzione di probabilità ipergeometrica. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 45 Costruzione delle tabelle ‘più estreme’ (cioè con indicatore di associazione maggiore di quello osservato nella tabella data). Esempio. La tabella riporta il numero di pazienti trattati in due reparti con intervento per frattura collo del femore ed il relativo numero di complicanze. Tab 1 Reparto Complicanza A B Totale SI 2 6 8 NO 18 14 32 TOTALE 20 20 40 OR= (2*14)/(6*18)=0.26 p= (n1.!* n2.!* n.1!* n.2!) / (n..! * n11!* n12!* n21!* n22!) Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 46 Altre possibili tabelle Tab 2 Complicanza A Reparto B Totale SI 1 7 8 NO 19 13 32 TOTALE 20 20 40 OR= ? Tab 3 Complicanza A Reparto B Totale SI 0 8 8 NO 20 12 32 TOTALE 20 20 40 OR= ? Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 47 p(tab 1)= 8!32!20!20!/40!2!6!18!14! = 0,095760 p(tab 2)= 8!32!20!20!/40!1!7!19!13! = 0,020160 p(tab 3)= 8!32!20!20!/40!0!8!20!12! = 0,001638 p totale = 0,117558 Il test fornisce direttamente il valore di probabilità. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 48 Test di Mc Nemar per dati appaiati Frequentemente il disegno dello studio prevede l’appaiamento tra due soggetti o l’analisi dello stesso soggetto in condizioni diverse. Immaginiamo di trattare un gruppo di soggetti con due diversi antidolorifici. Ciascun soggetto riceve prima un farmaco e poi l'altro, secondo una sequenza casuale. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 49 In questo caso la tabella, gli indicatori di associazione ed il calcolo di χ2 diventano: Migliorato Trattamento B Non migliorato Totale Migliorato k r k+r Non migliorato s m s+m k+s r+m N Trattamento A TOTALE Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 50 OR(McNemar) = r/s Il χ2 di McNemar, calcolato con la correzione per la continuità è: χ 2 1 gl = ( r − s − 1) 2 r+s Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 51 Test di Mc Nemar, sviluppo di un esempio. E’ stato condotto uno studio con l’obbiettivo di confrontare due farmaci antiinfiammatori , che indichiamo come A e B. Non siamo in grado di prevedere quale dei due farmaci darà i migliori risultati. Sono inclusi 347 pazienti affetti da artrite. Ciascun paziente riceve, in sequenza casuale, i due diversi farmaci. Confronto quindi le risposte ai due farmaci calcolando l’Odds Ratio. L’errore di primo tipo è fissato a 0,05. Il test statistico appropriato è il test di Mc Nemar, con correzione per la continuità. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 52 Migliorato Trattamento B Non migliorato Totale Migliorato 87 112 199 Non migliorato 79 69 148 TOTALE 166 181 347 Trattamento A OR(McNemar) (modalità A vs. modalità B)= r/s = 1,42 χ21g.l.= 5,36 p < 0,025 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 53 Interpretazione: La probabilità di ottenere un non miglioramento per i pazienti trattati con il farmaco A è 1,42 volte più elevata che per i pazienti trattati con il farmaco B. La probabilità di osservare un risultato come quello osservato o più estremo è inferiore al valore prefissato per il rifiuto dell’ipotesi nulla, che viene quindi respinta. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 54 Tabelle R x C L’estensione del calcolo di χ2 a tabelle con un maggior numero di righe e di colonne è semplice e si basa sulla formula approssimata: (oss −att ) =∑ 2 χ 2 att Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1). La correzione per la continuità non viene applicata. Non sono disponibili formule per il calcolo del χ2 esatto in tabelle con dimensione maggiore di 2x2. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 55 Tabelle 2*n Costituiscono un caso particolare delle tabelle R*C Il calcolo di χ2 si basa sulla formula approssimata: (oss −att ) =∑ 2 χ 2 att Il numero di gradi di libertà si calcola come (righe-1)*(colonne-1). Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 56 Un esempio di impiego del test χ2 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 57 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 58 Un esempio di impiego del test esatto di Fischer2 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 59 Esaminiamo alcune curve con la distribuzione X^2 per un diverso numero di gradi di libertà. Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 60 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 61 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 62 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 63 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 64 Esercizi dal testo p 273 n 1 p 273 n 3 p 274 n 6 p 274 n 9 p 274 n 10 p 276 n 16 Corso di laurea in biotecnologia - Statistica Medica - Analisi dei dati in tabelle di contingenza 65