METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI Le tabelle rxc Si consideri una popolazione le cui N unità siano classificate secondo le r modalità di un carattere X (esempio sesso) e le c modalità di un carattere Y (classi di età) Y1 Y2 … Yj Yc X1 p1. X2 … Xi … Xr p2. pij pi. pr. p.1 p.2 p.j pij PrX i Y j p.c 1 Estraiamo da questa popolazione un campione di n unità e si ha nij freqX i Y j Y1 Y2 … Yj Yc X1 n1. X2 … Xi … Xr n2. nij ni. nr. n.1 n.2 n.j n.c 1 Sulla base delle osservazioni campionarie vogliamo sapere se i due caratteri X ed Y sono indipendenti Esempio:Verificare l’ipotesi nulla di indipendenza tra reflusso gastro-esofageo e peso corporeo al livello di significatività dell’1%. Observed Peso Reflusso gastro-esofageo assenza presenza Totale complessivo normale 67 65 132 sovrappeso 21 23 44 obeso Totale complessivo 9 97 26 114 35 211 Distribuzione marginale di colonna p.j Distribuzione marginale di riga pi . Test di indipendenza H 0 : pij pi. * p. j H1 : pij pi. * p. j Per la legge del prodotto di due eventi indipendenti, la probabilità del prodotto pij è uguale al prodotto delle probabilità pi. per p.j Si utilizza una statistica test che è una sorta di distanza tra la tabella delle frequenze osservate nij e la tabella delle frequenze attese υij nell’ipotesi di indipendenza 2 r c i 1 j 1 n ij ij 2 ij ~. 2 r 1c 1 ij n * pi. * p. j Sotto H0: Generalmente le probabilità marginali non sono note. Occorre stimarle: n n pˆ i. Allora: i. n ; pˆ . j .j n ni. n. j ni. * n. j ij n n n n 2 r c i 1 j 1 ni. * n. j nij n ni. * n. j n 2 60.682 132 97 211 expected 23.773 44 114 211 Reflusso gastro-esofageo assenza presenza Totale complessivo 60.68246445 71.31753555 132 20.22748815 23.77251185 44 16.09004739 18.90995261 35 97 114 211 normale sovrappeso obeso (E-O)^2/E normale sovrappeso obeso 0.657706567 0.029503147 3.124215287 0.559627517 0.025103555 2.658323534 7.054479607 Chi quadrato(2) non significativo 0.029385915 P-value v.critico 9.21 Il chi quadro indica la misura in cui le frequenze osservate in ogni casella della tabella differiscono dalle frequenze che ci aspetteremmo se non ci fosse associazione fra i due caratteri. I gradi di libertà sono dati dal numero totale delle celle meno il numero di parametri stimati, ovvero 1 frequenza totale, r frequenze marginali di riga e c frequenze marginali di colonna: rc-1-r-c=r(c-1)-(c-1)=(r-1)(c-1) Affinché si possa utilizzare il chi quadro e' indispensabile: a) che i dati siano indipendenti, cioe' nessun soggetto puo' apparire in più di una cella della tabella; b) che non più del 20 % delle frequenze attese nella tabella può essere < 5 (altrimenti si deve usare il test esatto di Fisher); c) nessuna cella deve avere una frequenza attesa < 1 (altrimenti si deve usare il test esatto di Fisher). d) Non c’è alcuna ipotesi di normalità sulla distribuzione della popolazione di provenienza del campione. Per questo fa parte della famiglia dei test non parametrici Abbiamo detto che per una tabella rxc il test si distribuisce approssimativamente come un Chiquadro. Questa approssimazione è valida purché vi siano un numero sufficiente di g.l. Per tabelle 2x2, con 1 solo g.l., è meglio utilizzare un fattore di correzione per la continuità: Correzione di Yates: consiste nel sottrarre 0.5 alla differenza tra frequenze osservate e attese in valore assoluto 2 r c i 1 j 1 n ij ij ij 0.5 ~. 2 2 1 Test esatto di Fisher Quando le dimensioni campionarie sono piccole, è possibile elencare tutte le possibili combinazioni delle osservazioni e quindi calcolare le probabilità esatte associate a ogni possibile combinazione di dati. La probabilità totale a una coda o a due code di ottenere la tabella osservata o una più estrema è il valore di P associato all’ipotesi che i due caratteri siano indipendenti Si consideri il seguente esempio: Obs b1 b2 a1 1 8 a2 10 4 11 12 Exp a1 a2 b1 b2 4,3 4,7 6,7 7,3 11 12 9 14 23 9 14 23 Si deve usare il test esatto di Fisher . tabi 1 8\10 4, exact | col row | 1 2 | Total -----------+----------------------+---------1| 1 8| 9 2| 10 4| 14 -----------+----------------------+---------Total | 11 12 | 23 Fisher's exact = 1-sided Fisher's exact = 0.009 0.007 Misure di rischio L'associazione e' il grado di dipendenza statistica tra 2 o piu' eventi variabili; Infatti l'associazione puo' essere: - causale o eziologica (il fumo di tabacco provoca il cancro); - secondaria o indiretta (la bronchite cronica, causata dal fumo, e' associata al cancro); - non causale o spuria o artificiale: e' determinata da una circostanza esterna: o un fattore di confondimento o una distorsione della metodologia statistica usata. Misure di rischio Facciamo l'esempio di due gruppi di soggetti (ad es. quelli con colesterolo alto e quelli con colesterolo basso), inizialmente sani, che esposti ad un fattore di rischio (colesterolemia alta) dopo un certo tempo sviluppano una malattia (cardiopatia). Al termine del periodo di follow-up si avranno 4 categorie di soggetti: malati esposti (a), malati non esposti (c), non malati esposti (b) non malati non esposti (d): Si consideri uno studio prospettico (1) Malato (M+) Non malato (M-) Totale Esposto (E+) a=50 b=450 500 Non esposto (E-) c=25 d=475 500 La probabilità che un soggetto esposto sia malato è detta Incidenza o rischio assoluto: a/a+b, cioe' 50/500 … oppure i risultati di un Trial (2) Terapia tradizionale (TT) Morti Non Morti Totale 35 41 76 Terapia Sperimentale (TS) 75 49 26 Rischio attribuibile individuale (RA) o Riduzione del Rischio Assoluto (RRA) Rappresenta la quantita' di rischio supplementare attribuibile al fattore di rischio ( o alla terapia tradizionale): (1) RA = IE+ - IE- = 0.10 - 0.05 = 0.05 (il fattore di rischio aumenta il rischio del 5%) (2) RA = I(TT) - I(TS) = 0.46 - 0.65= -0.19 (la terapia sperimentale aumenta il rischio di morte del 19%: si noti il segno negativo di RA) Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) RR = ________ c/(c+d) = 50/500 _______ 25/500 0.10 = ___ 0.05 =2 (1) (cioe' gli esposti hanno un rischio doppio dei non esposti). Se il valore e' attorno a 1 indica che il fattore non ha influenza nello sviluppo della malattia; se e' <1 indica che il fattore ha un ruolo protettivo, se e' >1 indica che esiste un'associazione tra fattore e malattia. Rischio Relativo (RR o risk ratio) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': a/(a+b) 35/76 RR = ________= _______ c/(c+d) 49/75 0.46 = ___ 0.65 = 0.71 (2) (cioe' i pazienti trattati con terapia tradizionale hanno un rischio minore rispetto ai pazienti trattati con terapia sperimentale) Se il valore e' attorno a 1 indica che le due terapie sono equivalenti; se e' <1 indica che la terapia al numeratore è più efficace se e' >1 indica che è meno efficace Riduzione del Rischio Relativo (RRR) Rapporto fra incidenza negli esposti e incidenza nei non esposti, cioe': RRR = 1-RR = 1- 0.71=0.29 (2) (cioe' i pazienti trattati con terapia sperimentale hanno un rischio del 29% più alto dei pazienti trattati con terapia tradizionale) Rischio Relativo (RR o risk ratio) Gli intervalli di confidenza per RR possono essere ottenuti tramite una trasformazione logaritmica 1 1 1 1 ES ln RR a ab c cd ln RR z 2 ES ln RR Odds ratio o rapporto crociato (“Crude” OR) Il RR puo' essere calcolato correttamente solo negli studi longitudinali (insorgenza di una malattia nel tempo). Casi Controlli Totale Fattore di rischio presente 19 3 22 Fattore di rischio assente 17 11 28 Totale 36 14 50 Odds è il rapporto della probabilità di essere caso rispetto alla probabilità di essere controllo Odds ratio o rapporto crociato (“Crude” OR) Negli studi caso-controllo si puo' ottenere una stima del rischio con il c.d. odds ratio: Odds (f.r.presente)=(19/22)/(3/22)=19/3=6.3 Odds (f.r.assente)=(17/28)/(11/28)=17/11=1.5 OR = Odds (f.r.presente)/Odds (f.r.assente)= (a/b) / (c/d) = a d/b c =6.3/1.5=4.2 Odds ratio o rapporto crociato (“Crude” OR) 1 1 1 1 ES ln OR a b c d ln OR z 2 ES ln OR Statistica di Mantel-Haenszel Quando nello studio osservazionale interviene una variabile di confondimento occorre stratificare casi e controlli in funzione delle sue categorie. Tabella di contingenza relativa all’i-esima categoria della v. di confounding D Casi Tot E+ D+ ai Controlli Dbi E- ci di ci+di ai+ci bi+di E ai+bi Test di omogeneità Per ogni categoria della variabile di ai d i ORi confondimento abbiamo un OR bi ci Occorre verificare l’ipotesi nulla H 0 : OR1 OR2 ... ORk H1 : ORi OR j Si utilizza un test Chi-quadro: per i j k wi log ORi k 2 wi log ORi i 1 k i 1 wi i 1 2 ~. (2k 1) 1 1 1 1 con pesi dati dall’inverso wi della varianza stimata del log dell’ORi: ai bi ci d i 1 Se il test risulta non significativo, possiamo calcolare un OR globale k ai di OR i 1 ni k bi ci i 1 ni Test di associazione: H 0 : OR 0 H1 : OR 0 Procedura 1. 1. Calcolare ei vi ai bi ai ci ni ai bi ci di ai ci bi di ni 2. 2. Calcolare 3. a e i i 3. Calcolare 2 MH i 1 k i 1 ~. (21) vi k k i 1 2