Analisi di tassi e proporzioni: χ2 –test e test esatto di Fisher 1 Indice Stima di proporzioni ottenute dai campioni Verifica di ipotesi per proporzioni Z-test Analisi delle tabelle di contingenza (test non parametrici) χ2-test test esatto di Fisher Misure di associazione tra due variabili nominali 2 Scala nominale La variabile INDIVIDUO maschio femmina vivo morto queste variabili sono misurate su scala NOMINALE, ovvero non c’è alcuna relazione matematica tra le differenti classificazioni Come descrivere le variabili misurate su scala nominale? Conto in numero di us che presentano quel CARATTERE con quella MODALITA’ e posso calcolare le percentuali corrispondenti. 3 Esempio: alotano/morfina I due anestetici producono una variazione nella pressione sanguigna ⇒ campionamento casuale Dal punto di vista clinico: CI SONO DIFFERENZE DI MORTALITA’? Dati l’alotano è associato ad CAMPIONI n MORTI % un tasso di mortalità Alotano 61 8 13.1 inferiore del 2% Morfina 67 10 14.9 rispetto alla morfina Questa differenza è dovuta ad un effetto clinico reale o alle variazioni casuali? Trovare METODI per stimare la precisione con cui le percentuali ottenute dai campioni sono una stima dei TASSI VERI che si osserverebbero se potessimo 4 esaminare l’intera popolazione Descrizione di una popolazione sulla base di un campione Dati: bambini mancini e destri n percentuale Mancini 50 50/200=0.25=25% Destri 150 TOTALE 200 CAMPIONI descrivo 150/200=0.75=75% 100% Ogniqualvolta ci sono due classi che si escludono reciprocamente, la struttura della POPOLAZIONE può essere DESCRITTA con il parametro p: la percentuale di elementi della popolazione (è anche la probabilità di estrarre un mancino se si sceglie a caso un membro della popolazione) L’altra parte della popolazione è descritta da 1-p. 5 p e media della popolazione p ha lo stesso ruolo della media della popolazione Associamo a Mancini valore 1 Destri valore 0 CAMPIONI n Mancini 50 Destri 150 TOTALE 200 X 1 + 1 + 1 + ..... + 1 + 0 + 0 + ... + 0 50(1) + 150(0) ∑ µ= = = = 0.25 = p N Media della POPOLAZIONE 200 200 µ=p 6 p e la varianza della popolazione pmancini=0.25 pmancini=0.05 Mancini Destri pmancini=0.50 Mancini variabilità massima= 0.5 Destri pmancini=0 NO variabilità Mancini Destri Associamo a σ= 2 ( ) − µ X ∑ N Mancini valore 1 Destri valore 0 Destri µ=p (1 − p)2 + (1 − p)2 + ... + (1 − p)2 + (0 − p)2 + ... + (0 − p)2 M(1 − p) + (N − M )p2 = N 2 = = Mancini 200 M (1 − p)2 + 1 − M p2 = N N 7 = p e la varianza della popolazione Essendo M =p N 2 = p (1 − p ) − (1 − p ) p2 = [p(1 − p) + p ](1 − p) = p(1 − p) σ = 2 p (1 − p ) σ =0 ⇔ p=0 oppure p=1 cioè tutte o nessuna unita della popolazione hanno l’attributo studiato σ =max ⇔ p=0.5 cioè tutte le unità della popolazione hanno uguale probabilità di avere l’attributo studiato 8 Stima di proporzioni ottenute da campioni PROBLEMA: Qual è la precisione con la quale la frazione di individui con un certo attributo di un campione riflette la proporzione di individui con lo stesso attributo nella popolazione? Esempio Dalla popolazione di 200 individui ne scelgo 10 (ovvero 5+5) ovvero la metà della popolazione è mancina! p̂ = 5 / 10 = 0.5 Mancini Destri 9 Stima di proporzioni ottenute da campioni dipende sia dalle caratteristiche della popolazione sia dallo specifico campione estratto p̂ Mancini Destri p̂ = 3 / 10 = 0.3 Mancini p̂ = 1 / 10 = 0.1 Destri Mancini Destri p̂ = 4 / 10 = 0.4 Mancini Destri p̂ = 2 / 10 = 0.2 10 Distribuzione di p̂ e SEP Considero, per es., 20 campioni di 10 us: calcolo ha la distribuzione campionaria Valori di p̂ e si p̂ 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Per quantificare la VARIABILITA’ di DEVIAZIONE STANDARD ≅ 14% p̂ calcolo la DEF: Errore Standard della stima di una Proporzione è la deviazione standard della popolazione di tutti i possibili valori della proporzione, calcolati in campioni di σ SEM (errore numerosità n σ p̂ = standard n 11 della media) Errore standard della proporzione In pratica la stima di p non è accessibile perché l’intera popolazione non è accessibile, pertanto sostituiamo a p la stima ottenuta dal campione p̂ σ = p (1 − p ) σ σ p̂ = = n p (1 − p ) = n ( p̂ 1 − p̂ n ) L’Errore Standard è UTILE per descrivere l’INCERTEZZA nella stima della proporzione di una popolazione, perchè la distribuzione di p̂ per campioni numerosi è approssimativamente normale con media e p e deviazione standard σ p̂ La distribuzione normale si può usare quando np̂ >5 n(1 − p̂ ) 12 Esempio: alotano/morfina PROBLEMA: Ci sono differenze di mortalità? Dati sp̂ sp̂ alo morf CAMPIONI n MORTI % Alotano 61 8 13.1 Morfina 67 10 14.9 = 0 . 131 (1 − 0 . 131 ) = 0 . 043 = 43 % 61 = 0 . 149 (1 − 0 . 149 ) = 0 . 044 = 44 % 67 Differenza di 1.8% nel tasso di mortalità Questa differenza è dovuta al campionamento casuale visto che l’errore standard è piccolo. NON E’ STATO ESEGUITO ALCUN TEST!!!!!!!! 13 NOTA Gli esperimenti eseguiti sono detti ESPERIMENTI BERNOULLIANI INDIPENDENTI nei quali: ogni singolo esperimento ha solo due possibili esiti reciprocamente esclusivi la probabilità p di un certo esito rimane costante tutti gli esperimenti sono indipendenti 14 Riepilogo Non è stato eseguito alcun test su proporzioni, solo errore medio Il ruolo di p̂ è lo stesso della media campionaria che conosciamo Sappiamo calcolare l’Errore Standard Ricordiamo che la media campionaria e l’errore standard della media hanno fornito la base per il t-test E’ possibile costruire l’analogo del t-test per proporzioni : Z-test 15 Z-test Formalizzazione Statistica: z= differenza tra le proporzioni campionarie errore standard della differenza tra le proporzioni campionarie Si Dimostra: la varianza della differenza (o somma) di due variabili è uguale alla somma delle varianze delle due popolazioni dalle quali le variabili sono estratte, quindi l’errore standard sarà sp̂ −p̂ = sp̂2 + sp̂2 1 z = p̂ 1 − p̂ 2 = s p̂ − p̂ 1 p̂ 1 − p̂ 2 s p̂2 + s p̂2 2 1 sp̂ = 1 1 2 p̂ 1 − p̂ 2 = [p̂ (1 − p̂ )/ n ] + [p̂ (1 − p̂ )/ n ] 1 2 p̂1 (1 − p̂1 ) n1 2 sp̂ = 2 1 1 2 2 2 p̂2 (1 − p̂2 ) n2 16 Z-test Si può aggregare l’informazione dei due campioni in una sola stima della deviazione standard della popolazione sp̂ z = p̂ 1 − p̂ 2 = s p̂ − p̂ 1 2 pertanto p̂ 1 − p̂ 2 s p̂2 + s p̂2 1 = 2 “Media pesata” sp̂ = z n1p̂1 + n2p̂2 n1 + n2 p̂ 1 − p̂ 2 s p̂2 n1 + s p̂2 n2 n p̂ + n2 p̂2 1 − 1 1 + n n 1 2 = p̂ 1 − p̂ 2 1 1 p̂ ( 1 − p̂ ) + n2 n1 poichè n1p̂1 + n2 p̂2 = p̂ n1 + n2 “Grande” ⇒ rifiuto H0 ovvero i campioni non provengono dalla medesima popolazione ovvero c’è differenza tra le proporzioni “Piccolo” ⇒ accetto H0 ovvero i campioni provengono dalla medesima popolazione ovvero non c’è differenza tra le proporzioni 17 Z-test e tabella di valori critici Quale distribuzione usare per lo Z-test? Quale tabella utilizzare? Si usa la DISTRIBUZIONE NORMALE, che è identica alla distribuzione t con un numero INFINITO di gradi di libertà I valori critici saranno letti sulla stessa tabella utilizzata per il t-test OSSERVAZIONE: La normale standard (continua) APPROSSIMA la distribuzione del test z (discreta) ⇒ risultati distorti ⇒ CORREZIONE per la continuità DI YATES z = p̂ 1 − p̂ 2 s p̂ − p̂ 1 2 1 − 2 1 1 p̂ 1 − p̂ 2 n + n 2 1 = 1 1 p̂ ( 1 − p̂ ) + n2 n1 18 Esempio: alotano/morfina PROBLEMA: Ci sono differenze di mortalità? Dati CAMPIONI n MORTI % Alotano 61 8 13.1 Morfina 67 10 14.9 Tesi: Uno dei due anestetici provoca una riduzione rilevabile della mortalità? H0: Non c’è differenza tra i due anestetizzanti. 19 Esempio: alotano/morfina Risoluzione: p̂ = n1 p̂1 + n2 p̂2 8 + 10 = = 0 .141 n1 + n2 61 + 67 Posso usare lo Z-test Verifico che: n1p̂ = 0.141 * 61 = 8.6 > 5 n2p̂ = 0.141 * 67 = 9.4 z = 1 1 + n n mor alo 1 1 p̂ ( 1 − p̂ ) + n n mor alo p̂ alo − p̂ mor − 1 2 0 . 131 − 0 . 149 = 1 1 1 + 2 61 67 = 0 . 04 1 1 0 . 141 ( 1 − 0 . 141 ) + 67 61 Fisso α=5% ⇒ zc=1.96 − z < zc accetto H0 ovvero NON c’è differenza di mortalità associata ai due anestetici 20 Test e “variabili di processo” L’esempio precedente è la dimostrazione di come mostrare semplicemente che un’azione medica (ANESTETICO) modifica lo stato fisiologico del paziente non significa che, alla lunga, produca DIFFERENZE NELLO STATO CLINICO Fermarsi ad analizzare le VARIABILI DI PROCESSO (la pressione sanguigna) ci avrebbe fatto concludere che la morfina è MIGLIORE dell’alotano, mentre in realtà la scelta del farmaco sembra NON AVERE EFFETTO sulla variabile più importante: LA SOPRAVVIVENZA 21 Esempio: prevenzione della trombosi in persone sottoposte ad emodialisi PROBLEMA: Pazienti con malattie renali possono essere mantenute in vita mediante dialisi perciò è necessario creare chirurgicamente una connessione più o meno permanente che collega la macchina al paziente. Un metodo consiste nell’inserire uno SHUNT, fra un’arteria ed una vena del polso o del braccio. Per diverse ragioni (tecnica chirurgica per collocare la deviazione, malattie dell’arteria o della vena, infezioni locali) nello SHUNT tendono a formarsi dei trombi. Due ricercatori sapevano che l’aspirina tende ad inibire la coagulazione del sangue e si chiesero se ciò avesse potuto ridurre la il rischio di trombosi. 22 Esempio: prevenzione della trombosi in persone sottoposte ad emodialisi Dati CAMPIONI n. pazienti Con trombi Senza trombi Trattati Placebo 18 7 25 Aspirina 6 13 19 TOTALE 24 20 44 Tesi: Questa differenza è più grande di quella che ci aspetteremmo se l’aspirina agisse come placebo? H0: Non c’è differenza tra aspirina e placebo. 23 Esempio: prevenzione della trombosi in persone sottoposte ad emodialisi Risoluzione: Stima di p̂ per i due gruppi p̂asp 6 = = 0.32 19 p̂plac Verifico che: naspp̂asp = 6 18 = = 0.72 25 >5 nasp (1 − p̂asp ) = 13 nplacp̂plac = 18 >5 nplac (1 − p̂plac ) = 7 Posso usare lo Z-test La popolazione totale che sviluppò trombi: p̂ = nasp p̂asp + nplac p̂plac nasp + nplac = 6 + 18 = 0 . 55 19 + 25 24 Esempio: prevenzione della trombosi in persone sottoposte ad emodialisi Test Z: p̂ asp − p̂ plac z = 1 − 2 1 1 + n plac n asp 1 1 + p̂ ( 1 − p̂ ) n plac n asp Fisso α=5% ⇒ zc=1.96 = 0 . 32 − 0 . 72 − 0 . 05 = 2 . 33 0 . 15 z > zc rifiuto H0 ovvero la somministrazione di aspirina a pazienti dializzati diminuisce la probabilità di sviluppare trombi nella deviazione usata per collegarli al rene artificiale. 25 Tabelle di contingenza Lo Z-test funziona bene quando si devono analizzare solo due possibili esiti approccio alternativo alla VERIFICA DI IPOTESI con dati NOMINALI: analisi delle TABELLE di CONTINGENZA ATTENZIONE: Non si presuppone alcuna condizione circa la natura o i parametri della popolazione dalla quale i campioni vengono estratti (metodi NON PARAMETRICI) 26 Esempio: prevenzione della trombosi in persone sottoposte ad emodialisi – TABELLE di CONTINGENZA Dati sperimentali La gran parte (tabella di contingenza 2x2) CAMPIONI n. pazienti Con trombi Senza trombi Trattati Placebo 18 7 25 Aspirina 6 13 19 TOTALE 24 20 44 Dati teorici qualora l’aspirina non avesse effetto CAMPIONI n. pazienti Con trombi Senza trombi Trattati Placebo 13.64 11.36 25 Aspirina 10.36 8.64 19 TOTALE 24 20 44 Come si ottiene? dei pazienti si 24 trova di 44 pazienti sulla ≅55%) hanno (24/44≅ ⇒ diagonale sviluppato trombi tra associazione trombi e 20 trattamento di 44 pazienti ≅45%) non (20/44≅ hanno sviluppato trombi QUINDI contiene non ha se Non il trattamento disomogeneità effetto: che indicano il un’associazione 55% dei 25 pazienti trattati con placebo sviluppa fra trattamento trombi e formazione di trombi e il 55% dei 19 pazienti trattati con aspirina sviluppa 27 trombi Esempio: prevenzione della trombosi sottoposte ad emodialisi. χ2 - test in persone Test: deve indicare la misura in cui le frequenze osservate in ogni casella della tabella differiscono da quelle che ci aspetteremmo se non ci fosse associazione tra i trattamenti e gli esiti. (freq osserv-freq attesa)2 (O - E)2 χ = somma di =∑ freq attesa E 2 (18 − 13 .64 )2 ( 7 − 11 .36)2 (6 − 10 .36)2 (13 − 8 .64 )2 χ = + + + = 7.10 13 .64 11 .36 10 .36 8 .64 2 GL di χ2 νn=(r-1)(c-1)=1 n. righe n. colonne α=1% χ2c=6.635 χ2 > χ c2 ⇒ RIFIUTIAMO H0 ovvero l’aspirina è associata ad un tasso più basso di trombi 28 χ2 - test OSSERVAZIONE 1.: L’esperimento ha mostrato che le frequenze osservate hanno una piccola probabilità di verificarsi se l’aspirina agisce solo come un placebo OSSERVAZIONE 2.: Poiché la distribuzione del test statistico χ2 è continua, mentre la serie di tutti i possibili valori che χ 2 può assumere nelle situazioni pratiche non lo è, si potrebbero ottenere dei risultati “viziati”, ovvero si potrebbero ottenere risultati che portano ad affermare l’efficacia di un trattamento quando i dati non la confermano. Ciò è particolarmente frequente quando ν=1 ⇒ CORREZIONE per la continuità DI YATES 29 χ2 – test e correzione di Yates 2 1 O−E − 2 2 χ =∑ E Nel caso dell’esempio: ( 18 − 13.64 − 0.5)2 ( 7 − 11.36 − 0.5)2 ( 6 − 10.36 − 0.5)2 ( 13 − 8.64 − 0.5)2 χ = + + + = 5.57 13.64 11.36 10.36 8.64 2 Questo valore è più piccolo del precedente, NON corretto. Fissato α=1% : χ2c=6.635 χ 2 < χc2 ⇒ ACCETTO H0 ovvero non c’è differenza tre aspirina e placebo rispetto al problema dei trombi 30 χ2 – test per esperimenti con più di due trattamenti o esiti Le donne che praticano la corsa leggera o agonistica hanno periodi mestruali meno numerosi di quelle che non la praticano. PROBLEMA: Questo cambiamento fisiologico porta le donne a consultare il loro medico su problemi mestruali? H0: Non c’è relazione tra la pratica della corsa e la probabilità che una donna consulti il suo medico per un problema mestruale 31 Esempio Dati sperimentali: visite mediche (tabella di contingenza 3x2) CAMPIONI Si No Trattati Controllo 14 40 54 Dilettanti 9 14 23 Professioniste 46 42 88 TOTALE 69 96 165 qualora lo sport non avesse effetto Si No Trattati Controllo 22.58 31.42 54 Dilettanti 9.62 13.38 23 36.80 51.20 88 69 96 165 Professioniste TOTALE 96 di 165 pazienti non (96/165=58%) consultano il medico QUINDI Dati teorici CAMPIONI 69 di 165 pazienti (69/165=42%) consultano medico se l’attività sportiva non influenzasse la probabilità di consultare il medico: il 42% di CONTROLLO medico 54 donne consulta il 42% delle 23 dilettanti consulta il medico il 42% professioniste medico delle 88 consulta il 32 Esempio Test (non uso la correzione di continuità): χ = 2 ∑ ( O − E ) 2 (14 − 22 . 58 ) 2 ( 40 − 31 . 42 ) 2 ( 9 − 9 . 26 ) 2 (14 − 13 . 38 ) 2 = + + + 22 . 58 31 . 42 9 . 26 13 . 38 E ( 46 − 36 . 80 ) 2 ( 42 − 51 . 20 ) 2 + + = 9 . 23 36 . 80 51 . 20 νn=(r-1)(c-1)=2 α=1% χ2c=9.210 χ2 > χc2 ⇒ RIFIUTIAMO H0 ovvero c’è una relazione tra la pratica della corsa e la probabilità che una donna consulti il suo medico per un problema mestruale. OSSERVAZIONE: Non sappiamo quale/quali gruppi di donne sono responsabili di questa differenza 33 Riepilogo χ2 - test Tabulare dati in tabella di contingenza Addizionare le frequenze in ogni riga e in ogni colonna e calcolare le corrispondenti percentuali Utilizzare queste percentuali per calcolare il numero di persone attese in ogni casella della tabella se il trattamento non avesse effetto Calcolare il χ2 test, applicando la correzione di Yates qualora la tabella di contingenza è 2x2 Calcolare i gradi di libertà e confrontare il valore trovato del test con quello tabulato In tabelle 2x2, le frequenze attese devono essere >5 In tabelle più grandi, le frequenze attese non devono essere inferiori a 1 e non più del 20% di esse deve essere 34 >5 χ2 – test per confronti multipli Nell’esempio corsa/medico, l’analisi ha rivelato che esiste verosimilmente una differenza fra le probabilità che diversi gruppi di donne consultino il loro medico per problemi mestruali, ma NON HA INDIVIDUATO I GRUPPI RESPONSABILI. Gdil<-> Gprof <-> Gcon Suddividiamo la tabella di contingenza di partenza, prendendo solo i dati relativi ai due gruppi da confrontare 35 χ2 – test per confronti multipli H0: Non c’è differenza tra il gruppo delle dilettanti e quello delle professioniste, consultano il medico con la stessa assiduità Dati CAMPIONI Gdil Gprof Si No Trattati 9 (11.40) 14 (11.60) 23 46 (43.60) 42 (44.40) 88 55 56 111 TOTALE 2 χ = ( 9 − 11 .40 − 0 .5 ) 2 + ( 14 − 11 .60 − 0 .5 ) 2 + 11 .40 ( 42 − 44 .40 − 0 .5 ) 2 44 .40 11 .60 + ( 46 − 43 .60 − 0 .5 ) 2 43 .60 = 0 .79 χ2 < χ2c Fissato α=1% : χ2c=6.635 Gdil non è differente da Gprof ⇒ combiniamo i due gruppi e 36 li confrontiamo con Gcont χ2 – test per confronti multipli H0: Non c’è differenza tra il gruppo di controllo e quello delle sportive Dati CAMPIONI Si No Trattati Gcont 14 (22.58) 40 (31.42) 54 Gsportive 55 (46.42) 56 (64.58) 111 69 96 165 TOTALE 2 χ = ( 14 − 22 .58 − 0 .5 ) 2 + + 22 .58 ( 56 − 64 .58 − 0 .5 ) 2 64 .58 Fissato α=1% : ( 40 − 31 .42 − 0 .5 ) 2 31 .42 + ( 55 − 46 .42 − 0 .5 ) 2 46 .42 = 7 .39 χ2c=6.635 χ2 > χ2c Gcont è differente da Gsportive 37 χ2 – test per confronti multipli Conclusione: Avendo effettuato DUE test, usiamo la disuguaglianza di Bonferroni (1%+1%=2%) e concludiamo che le donne che praticano la corsa leggera e quella agonistica non differiscono le une dalle altre nella frequenza con cui consultano il medico, ma differiscono dalle donne del gruppo di controllo con un livello di significatività del 2% 38 Test esatto di Fisher In studi con campioni piccoli quando la frequenza attesa è inferiore a 5 si usa TEST ESATTO DI FISHER PROCEDURA: Le frequenze vengono riportate in una tabella di contingenza 2x2 facendo in modo di collocare la frequenza più esigua nella prima casella in alto a sinistra 39 Test esatto di Fisher Tabella di contingenza 2x2 CAMPIONI -- -- TOTALE G1 A B A+B G2 C D C+D A+C B+D N TOTALE La probabilità del verificarsi di una certa distribuzione di frequenze, una volta stabiliti i totali marginali, è: P= (A + B)!(A + C)!(B + D)!(C + D)! N!A!B!C !D! La somma di questa probabilità e delle probabilità di ottenere combinazioni PIU’ ESTREME dei dati in esame è il P-value 40 Esempio: vaccinazione contro il morbillo PROBLEMA: Si vuole testare l’efficacia della vaccinazione contro il morbillo su due campioni di bambini Dati MORBILLO VACCINAZIONE SI NO Totale SI 2 13 15 NO 6 3 9 TOTALE 8 16 24 H0: La vaccinazione non è discriminante rispetto alla contrazione del morbillo 41 Esempio: vaccinazione contro il morbillo Risoluzione: Calcolo la probabilità del “verificarsi della tabella precedente”: 15 !9!8!16 ! P= = 0 .0119 24 !2!13 !6!3! Poiché l’ipotesi H0 prevede la probabilità di tale risultato o anche di uno più estremo, bisogna considerare tutte le possibili distribuzioni delle frequenze all’interno della tabella, FISSATI I MARGINALI COSA SIGNIFICA? 42 Esempio: vaccinazione contro il morbillo Operativamente: Ridurre di UNO il numero di osservazioni della frequenza minore (fino a quando la frequenza diventa 0) e ricalcolare le altre celle della tabella mantenendo FISSI I MARGINALI, ovvero mantenendo costanti i TOTALI di RIGHE e COLONNE. MORBILLO VACCINAZIONE SI NO Totale SI 1 14 15 NO 7 2 9 TOTALE 8 16 24 P= 15 !9!8!16 ! = 0 .000734 24 !1!14 !7 !2! MORBILLO VACCINAZIONE SI NO Totale SI 0 15 15 NO 8 1 9 TOTALE 8 16 24 P= 15 !9!8!16 ! = 0 .00001224 24 !0 !15 !8!1! 43 Esempio: vaccinazione contro il morbillo Quindi il test esatto di Fisher dà un valore P=0.01192+0.000734+0.00001224=0.012669 P-value ?α Fissato α=5% ⇒ 0.012669 > 0.05 ⇒ rifiuto H0 Conclusione: La vaccinazione comporta una diminuzione di casi di morbillo nell’infanzia 44 Misure di associazione tra due variabili nominali PROBLEMA in studi clinici ed epidemiologici: 1. Valutare la significatività delle differenze 2. Misurare l’associazione tra evento ↔ diversi trattamenti Come si procede in studi clinici prospettici: Es. Studio della formazione di trombi in persone trattate con aspirina. Il ricercatore assegna a caso n soggetti al trattamento (aspirina) m soggetti al controllo (placebo) I soggetti sono seguiti nel tempo per vedere se 45 sviluppano o meno trombi Rischio relativo (RR) OBIETTIVO: Quantificare l’entità dell’associazione tra trattamento ↔ risposta DEF: prob. che si verifichi l'evento nel GRUPPO TRATTATO RR = prob. che si verifichi l'evento nel GRUPPO C ONTROLLO Dati CAMPIONI Sviluppano trombi: n. pazienti Con trombi Senza trombi Trattati Placebo 18 7 25 Aspirina 6 13 19 TOTALE 24 20 44 18 = 0 .72 = 72 % 25 6 = 0 .32 = 32 % 19 46 probabilità di accadimento Rischio relativo (RR) RR = 0.32 = 0 .44 0 .72 Conclusione: L’aspirina riduce il rischio di formazione di trombi OSSERVAZIONE 1.: In studi clinici, RR<1 il trattamento porta a risposte migliori 47 Misure di associazione tra due variabili nominali Come si procede in studi clinici epidemiologici: Si confronta la probabilità di accadimento di un evento per us esposte a “fattore di rischio” con la probabilità delle us non esposte. I calcoli sono gli stessi degli studi clinici! 48 Dati e RR OSSERVAZIONE: Per applicare RR, i dati devono essere raccolti da soggetti di studio epidemiologico, con us seguite nel periodo successivo all’esposizione al fattore di rischio studio prospettico, con randomizzazione di us al trattamento e al controllo difficili e costosi si usano studi retrospettiva caso-controllo con analisi 49 Studi caso-controllo e odds-ratio (OR) Gli studi caso-controllo si eseguono dopo che si è verificato l’evento di interesse CASI (soggetti che hanno subito l’evento di interesse) DEF: OR = CONTROLLI (soggetti che non hanno subito l’evento di interesse e omogenei ai CASI) ODDS di esposizion e nei CASI ODDS di esposizion e nei CONTROLLI 50 Schema per il calcolo di OR CAMPIONI numerosità CASI Totale Esposti al fattore di rischio (o trattatamento) a b a+b Non esposti al fattore di rischio (o trattamento) c d c+d a+c b+d TOTALE DEF: CONTROLLI a/(a + c) a ODDS nei CASI = = c /( a + c ) c b/(b + d) b ODDS nei CONTROLLI = = d /( b + d) d a/ c ad OR = = b/d bc OR ≅ 1 significa che il trattamento o il fattore di rischio NON influenzano il tasso di accadimento 51 Dati e OR OSSERVAZIONE 1.: La numerosità dei CONTROLLI dipende dal modo in cui il ricercatore pianifica lo studio ⇒ in studio casocontrollo non si può usare RR OSSERVAZIONE 2.: OR può essere utilizzato sia in studi caso-controllo sia negli studi prospettici. OSSERVAZIONE 3.: OR ≅ RR ⇔ numero di persone affette dalla malattia è piccolo se confrontato con il numero dei non affetti 52 Esempio: fumo passivo e cancro alla mammella PROBLEMA: Si vuole stabilire se l’esposizione al fumo passivo aumenta il rischio di contrarre il cancro alla mammella nel corso della vita dei non fumatori. Dati da studio caso-controllo CAMPIONI numerosità CASI CONTROLLI Totale Esposti al fattore di rischio (o trattatamento) 50 43 93 Non esposti al fattore di rischio (o trattamento) 14 35 49 TOTALE 64 78 142 H0: Il fumo passivo non influenza il cancro alla mammella 53 Esempio: fumo passivo e cancro alla mammella RISOLUZIONE: CAMPIONI numerosità Prob.di CASI Prob.di CONTR. CASI CONTROLLI Totale Espsoti al fattore di rischio (o trattatamento) 50 43 93 50/64= 0.781 43/78= 0.551 Non esposti al fattore di rischio (o trattamento) 14 35 49 14/64= 0.218 35/78= 0.449 TOTALE 64 78 142 ODDS nei CASI = 0 . 781 = 3 .58 0 . 218 ODDS nei CONTROLLI = 0 . 551 = 1 . 23 0 . 449 3 . 58 OR = = 2 . 91 1 . 23 54 Esempio: fumo passivo e cancro alla mammella Conclusione: L’esposizione al fumo passivo aumenta l’odds di contrarre il cancro alla mammella di 2.91 volte nella popolazione. L’analisi del χ2 mostra una differenza significativa per α=0.7% 55 Conclusioni L’analisi di tassi e proporzioni necessitano strumenti statistici diversi da quelli utilizzati per l’analisi di dati in scale ad intervalli. Z-test, χ2-test e test esatto di Fisher forniscono un modo per stimare QUANTO le percentuali ottenute da campioni limitati sono una stima dei tassi veri che si osserverebbero qualora fosse possibile esaminare l’intera popolazione. 56 Tabella t-test 57 Tabella χ2-test 58