Corso di Alta Formazione «Case management in Infermieristica ed Ostetricia» Il concetto di significatività statistica: p value e intervalli di confidenza. Criteri di causalità. 24 gennaio 2017 (3° parte) Lezioni a cura di Laura Dallolio ([email protected]) 1 Per RICAPITOLARE Come fanno gli epidemiologi a districarsi all’interno di queste reti causali e capire se tra un’esposizione ed un esito c’è effettivamente una relazione causaeffetto? Primo step: dimostrare che esiste un’associazione statistica tra esposizione ed esito Secondo step: l’associazione stimata potrebbe essere confusa? 2 La carne rossa è davvero un fattore di rischio per il tumore al seno? In questo campione si’, ma i ricercatori sono interessati a trovare un risultato che sia valido per la tutta popolazione da cui il campione è stato estratto 3 Il dilemma è che il RR ottenuto in questo campione sarà sempre diverso dal valore vero che si sarebbe ottenuto analizzando tutte le donne del mondo, semplicemente per il ruolo giocato dal caso. I due gruppi di donne hanno veramente un rischio diverso di sviluppare il tumore oppure questo risultato è semplicemente il risultato del campionamento? 4 Avrei potuto ottenere questi stessi risultati del tutto casualmente? L’attività fisica ed il tumore al seno sono associati in modo statisticamente significativo? ASSOCIAZIONE STATISTICA due eventi si dicono associati in modo statisticamente significativo quando si verificano insieme più frequentemente di quanto ci si possa attendere per effetto del caso. 5 La valutazione del ruolo del caso puo’ essere effettuta tramite l’utilizzo di test di ipotesi o test di significatività statistica e/o la costruzione degli intervalli di confidenza 6 L’IC si fonda sull’idea che lo stesso studio, condotto su differenti campioni di pazienti, non porterebbe a risultati identici, ma questi sarebbero distribuiti attorno al risultato vero che resta sconosciuto. E’ pero’ possibile sapere il range di valori entro il quale, con una probabilità ad esempio del 95%, cade il valore vero della popolazione INTERVALLO DI CONFIDENZA al 95% Per valutare la precisione della stima ipotizziamo di estrarre moltissimi campioni, di numerosità identica, dalla stessa popolazione. A causa della variabilità campionaria, le stime ottenute dai diversi campioni non saranno uguali, ma il 95% di essere sarà contenuto all’interno di un range di valori che prende il nome di intervallo di confidenza (IC) 8 Per valutare la precisione della stima ipotizziamo di estrarre moltissimi campioni, di numerosità identica, dalla stessa popolazione. A causa della variabilità campionaria, le stime ottenute dai diversi campioni non saranno uguali, ma il 95% di essere sarà contenuto all’interno di un range di valori che prende il nome di intervallo di confidenza (IC) 9 0,49 → limite inferiore 0,78 limite superiore dell’intervallo RR 0,62 calcolato nel campione in studio (stima puntuale) Intervallo di confidenza 10 Valutazione del ruolo del caso con l’intervallo di confidenza L’intervallo di confidenza al 95% (indicato anche con la sigla IC) è il range di valori all’interno dei quali, con una fiducia del 95%, posso dire che cade il valore vero del RR. Interpretazione dell’intervallo di confidenza al 95% Per avere un’associazione significativa tra rischio e malattia l’intervallo di confidenza al 95% non dovrebbe includere il valore 1 RISCHIO RELATIVO= 3 (IC 95% 1,5-6,1) 11 12 13 L’IC al 95% di un qualsiasi parametro (media, rischio relativo ecc) viene calcolato con una formula che in generale ha sempre questo aspetto: Formula generale di un Intervallo di Confidenza= d ± 1,96 × Errore standard ←stima dell’errore campionario Parametro di interesse: RR, media ecc Distribuzione normale Se in un articolo scientifico trovi riportata la dizione “RR=1,5 [IC95% 1,38-2,1]” come si interpreta? 1) Cosa ci dice un RR di 1,5? Esiste un’associazione positiva tra l’esposizione e l’esito. Il rischio relativo (RR) ci permette di quantificare questa associazione e possiamo affermare che gli esposti hanno un rischio di ammalare che è 1,5 volte maggiore di quello dei non esposti. Lo stesso risultato può essere espresso in termini di eccesso di rischio, possiamo quindi dire (ed è la stessa cosa rispetto all’affermazione di prima) che gli esposti hanno un rischio di ammalarsi del 50% in più rispetto ai non esposti, ovvero facciamo 1,5 -1=0,5 (dove 1 corrisponde a nessuna associazione tra esposizione e malattia) 0,5 lo esprimiamo poi in percentuale (50%). 2) Il risultato è statisticamente significativo? 1,38 → limite inferiore ← 2,1 limite superiore RR 1,5 calcolato nel campione in studio (stima puntuale) L’intervallo di confidenza, dal momento che non comprende il valore 1, ci dice che il risultato è statisticamente significativo. Se in un articolo scientifico si trova riportata la dizione “RR=0,7 [IC95% 0,6-1,4]” come si interpreta? 2)Cosa ci dice un RR di 0,7? Il rischio relativo (RR) ci permette di quantificare questa associazione e possiamo affermare che gli esposti hanno un rischio di ammalare che è 0,7 volte inferiore di quello dei non esposti. Lo stesso risultato può essere espresso dicendo che gli esposti hanno un rischio di ammalarsi del 30% meno rispetto ai non esposti, ovvero facciamo 0,7 -1= -0,30 (dove 1 corrisponde a nessuna associazione tra esposizione e malattia) e 1 lo esprimiamo poi in percentuale (-30%). Il risultato è statisticamente significativo? 0,6 → limite inferiore 1,4 limite superiore dell’intervallo RR 0,7 calcolato nel campione in studio (stima puntuale) L’intervallo di confidenza, dal momento che comprende il valore 1, ci dice che il risultato non è statisticamente significativo. Intervallo di confidenza Valutazione del ruolo del caso tramite il calcolo del p value 19 La probabilità di trovare per caso questo RR è del 50% RISCHIO RELATIVO= 3 (p value=0,50) La probabilità di trovare per caso questo RR è del 15% RISCHIO RELATIVO= 3 (p value=0,15) La probabilità di trovare per caso questo RR è dell’1% RISCHIO RELATIVO= 3 (p value=0,01) 20 Per convenzione, nella ricerca bio-medica, se il valore di p è inferiore a 0,05 (cioè se non c’è più del 5% di probabilità che la diversità osservata sia dovuta al caso) tale differenza viene considerata statisticamente significativa. Perché p<0,05 vuol dire significatività statistica? Fischer: “se la probabilità di un evento fosse sufficientemente piccola, diciamo che possa capitare una volta su 20, allora si dovrebbe dire considerare il risultato significativo”. Ipse dixit: e cosi’ è rimasto 21 La valutazione del ruolo del caso puo’ essere effettuta tramite l’utilizzo di test di ipotesi (o test di significatività statistica) → il risultato è statisticamente significativo quando p è inferiore a 0,05 e/o la costruzione degli intervalli di confidenza→ il risultato è statisticamente significativo quando l’intervallo di confidenza del RR 22 non comprende il valore 1 23 Test statistico di significatività Il test statistico permette di stimare la probabilita’di ottenere il risultato osservato per il solo effetto del caso Errori sistematici o BIAS Si parla di errore sistematico, o bias , quando si produce un risultato che differisce in maniera sistematica dai veri valori. 25 Bias di selezione • Il bias di selezione è un errore sistematico in uno studio, che deriva dalle procedure usate per selezionare i soggetti e dai fattori che influenzano la partecipazione allo studio. • Si verifica quando il campione selezionato per lo studio differisce in modo sostanziale dalla popolazione di riferimento, e ciò altera in modo sistematico i risultati dello studio. 26 Bias di informazione • Errori nel processo di acquisizione delle informazioni, da cui dipende una diversa accuratezza nel rilavare lo status di esposizione e/o di malattia nei gruppi a confronto. • Si riferisce alla fase di raccolta delle informazioni relative ai partecipanti: – Informazioni sull’esposizione – Informazioni sull’esito – Informazioni su altre variabili di interesse 27 28 CRITERI DI CAUSALITA’ o di Bradford Hill 1. Relazione temporale: la causa precede l’effetto? •La relazione temporale è un criterio cruciale La causa deve precedere l’effetto, il tempo passato dall’inizio dell’esposizione deve essere compatibile con i meccanismi biologici noti, cioè con un’ipotesi sul periodo d’induzione della malattia. Per quanto riguarda le malattie croniche, l’inizio dell’effetto non è facilmente evidenziabile: quando ha inizio l’aterosclerosi? Quando si verifica la prima trasformazione neoplastica della prima cellula bronchiale? 29 2. Plausibilità biologica: l’associazione è coerente con altre conoscenze? •Un’associazione epidemiologica dovrà avere una spiegazione biologica Concetto relativo, perché: •associazioni apparentemente non plausibili possono alla fine dimostrarsi causali (la mancanza di plausibilità può riflettere la mancanza di conoscenze mediche) •esperimenti su animali che indicano un’associazione non si verificano in studi epidemiologici su esseri umani a causa di potenziali fattori confondenti e di difficoltà di misurazione 30 31 3. Coerenza: simili risultati si sono visti in altri studi? •Viene dimostrata quando diversi studi offrono gli stessi risultati •Non cruciale: la mancanza di coerenza non esclude un’associazione causale 32 •Quando occorre interpretare i risultati di un certo numero di studi occorre dare maggior importanza ai disegni di studio progettati meglio •Metanalisi: tecniche che accorpano i risultati di un certo numero di studi che abbiano preso in esame lo stesso problema La metanalisi è la combinazione statistica dei dati provenienti da studi indipendenti intrapresi per produrre una stima complessiva dell’effetto in un intervento/esposizione. 33 La Sintesi dei Risultati In quali condizioni è possibile effettuare una meta-analisi? – Quando più di uno studio misura il medesimo effetto; – Quando la eterogeneità fra gli studi non è così marcata da compromettere la comparabilità; – Quando sono disponibili i dati 34 4. Forza dell’associazione: qual è la forza dell’associazione? •è stimata per mezzo del rischio relativo •una forte associazione tra causa ed effetto è più probabile che sia causale (RR> 2 sono considerati forti) •Non cruciale: il fatto che un’associazione sia debole non esclude che possa essere causale, la forza dell’associazione dipende infatti dalla prevalenza relativa di altre possibili cause. 38 5. Relazione dose-risposta: l’aumento dell’esposizione alla possibile causa è associato all’aumento dell’effetto? •Si ha quando cambiamenti nel livello di una possibile causa sono associati a cambiamenti nella prevalenza o incidenza dell’effetto. •La dimostrazione di un chiaro rapporto dose-risposta in studi privi di bias offre una forte evidenza di rapporto causale 39 40 6. Reversibilità: il rimuovere una possibile causa porta alla riduzione del rischio? •Quando la rimozione di una possibile causa ottiene come risultato una riduzione del rischio di malattia, la probabilità che l’associazione sia causale viene rafforzata. •Se la causa porta a cambiamenti irreversibili che successivamente generano malattia, sia in presenza sia in assenza di esposizione continuativa, allora la reversibilità non può essere tenuta in considerazione come una condizione per la causalità. 41 7. Disegno dello studio: l’evidenza è basata su un valido disegno dello studio? •La capacità di un disegno di studio di provare la causalità rappresenta una delle considerazioni più importanti •la migliore evidenza viene offerta dai trial randomizzati controllati ben disegnati e condotti da esperti. Dopo i trial gli studi di coorte rappresentano il miglior tipo di disegno. 42 8. Giudicare l’evidenza: quante linee di evidenza portano alla conclusione? Purtroppo non esistono criteri del tutto affidabili per determinare se un’associazione è causale o no. L’incertezza rimane sempre. Nel giudicare i diversi aspetti della causalità, la corretta relazione temporale è essenziale; una volta stabilita, il peso maggiore può essere dato alla plausibilità, alla coerenza e alla relazione dose-risposta. La probabilità di un’associazione causale aumenta quando molti e diversi tipi di evidenza portano alla stessa conclusione. 43 44 Evaluations of the strength of the evidence for carcinogenicity arising from human and experimental animal data are made, using standard terms […] Studies of cancer in humans Sufficient evidence of carcinogenicity: The Working Group considers that a causal relationship has been established between exposure to the agent and human cancer. That is, a positive relationship has been observed between the exposure and cancer in studies in which chance, bias and confounding could be ruled out with reasonable confidence. Studies of cancer in experimental animals Sufficient evidence of carcinogenicity: The Working Group considers that a causal relationship has been established between the agent and an increased incidence of malignant neoplasms or of an appropriate combination of benign and malignant neoplasms in (a) two or more species of animals or (b) two or more independent studies in one species carried out at different times or in different laboratories or under different protocols. An increased incidence of tumours in both sexes of a single species in a well-conducted study, ideally conducted under Good Laboratory Practices, can also provide sufficient evidence. Evaluations of the strength of the evidence for carcinogenicity arising from human and experimental animal data are made, using standard terms […] Studies of cancer in humans Sufficient evidence of carcinogenicity: The Working Group considers that a causal relationship has been established between exposure to the agent and human cancer. That is, a positive relationship has been observed between the exposure and cancer in studies in which chance, bias and confounding could be ruled out with reasonable confidence. After the quality of individual epidemiological studies of cancer has been summarized and assessed, a judgement is made concerning the strength of evidence that the agent in question is carcinogenic to humans. In making its judgement, the Working Group considers several criteria for causality (Hill, 1965). Classificazione di cancerogenicità attribuita dall’Agenzia Internazionale per la Ricerca sul Cancro. La valutazione della IARC è basata sull’evidenza di cancerogenicità sull’uomo, ove siano disponibili dati epidemiologici, e sugli animali da esperimento, valutate separatamente. In particolare sono definite 5 categorie: Gruppo 1 : cancerogeni per l’uomo Gruppo 2A : probabili cancerogeni per l’uomo Gruppo 2B : possibili cancerogeni per l’uomo Gruppo 3 : agenti non classificabili per la cancerogenicità nell’uomo Gruppo 4 : agenti probabilmente non cancerogeni per l’uomo http://monographs.iarc.fr/