Corso di Alta Formazione
«Case management in Infermieristica ed
Ostetricia»
Il concetto di significatività statistica:
p value e intervalli di confidenza.
Criteri di causalità.
24 gennaio 2017
(3° parte)
Lezioni a cura di Laura Dallolio
([email protected])
1
Per RICAPITOLARE
Come fanno gli epidemiologi a districarsi all’interno
di queste reti causali e capire se tra un’esposizione ed
un esito c’è effettivamente una relazione causaeffetto?
Primo step: dimostrare che esiste un’associazione
statistica tra esposizione ed esito
Secondo step: l’associazione stimata potrebbe essere
confusa?
2
La carne rossa è davvero
un fattore di rischio
per il tumore al seno?
In questo campione si’,
ma i ricercatori sono interessati a trovare un risultato
che sia valido per la tutta popolazione
da cui il campione è stato estratto
3
Il dilemma è che il RR ottenuto in questo campione
sarà sempre diverso dal valore vero che si sarebbe
ottenuto analizzando tutte le donne del mondo,
semplicemente per il ruolo giocato dal caso.
I due gruppi di donne hanno
veramente un rischio diverso
di sviluppare il tumore oppure
questo risultato è
semplicemente il risultato del
campionamento?
4
Avrei potuto ottenere questi stessi risultati del tutto
casualmente?
L’attività fisica ed il tumore al seno sono associati in
modo statisticamente significativo?
ASSOCIAZIONE STATISTICA
due eventi si dicono associati in modo
statisticamente significativo quando si verificano
insieme più frequentemente di quanto ci si possa
attendere per effetto del caso.
5
La valutazione del ruolo del caso
puo’ essere effettuta tramite
l’utilizzo di test di ipotesi
o test di significatività statistica
e/o
la costruzione degli
intervalli di confidenza
6
L’IC si fonda sull’idea che lo stesso studio, condotto
su differenti campioni di pazienti, non porterebbe a
risultati identici, ma questi sarebbero distribuiti
attorno al risultato vero che resta sconosciuto.
E’ pero’ possibile sapere il range di valori entro il
quale, con una probabilità ad esempio del 95%, cade
il valore vero della popolazione
INTERVALLO DI CONFIDENZA al 95%
Per valutare la precisione della stima ipotizziamo di estrarre
moltissimi campioni, di numerosità identica, dalla stessa
popolazione.
A causa della variabilità campionaria, le stime ottenute dai
diversi campioni non saranno uguali, ma il 95% di essere
sarà contenuto all’interno di un range di valori che prende il
nome di intervallo di confidenza (IC)
8
Per valutare la precisione della stima ipotizziamo di estrarre
moltissimi campioni, di numerosità identica, dalla stessa
popolazione.
A causa della variabilità campionaria, le stime ottenute dai
diversi campioni non saranno uguali, ma il 95% di essere
sarà contenuto all’interno di un range di valori che prende il
nome di intervallo di confidenza (IC)
9
0,49 →
limite
inferiore
0,78 limite superiore
dell’intervallo
RR 0,62
calcolato nel campione
in studio
(stima puntuale)
Intervallo di confidenza
10
Valutazione del ruolo del caso con l’intervallo di confidenza
L’intervallo di confidenza al 95% (indicato anche con la sigla
IC) è il range di valori all’interno dei quali, con una fiducia del
95%, posso dire che cade il valore vero del RR.
Interpretazione dell’intervallo di confidenza al 95%
Per avere un’associazione significativa
tra rischio e malattia
l’intervallo di confidenza al 95%
non dovrebbe includere il valore 1
RISCHIO RELATIVO= 3 (IC 95% 1,5-6,1)
11
12
13
L’IC al 95% di un qualsiasi parametro (media,
rischio relativo ecc) viene calcolato con una formula
che in generale ha sempre questo aspetto:
Formula generale di un Intervallo di Confidenza=
d ± 1,96 × Errore standard ←stima dell’errore campionario
Parametro
di interesse:
RR, media
ecc
Distribuzione normale
Se in un articolo scientifico trovi riportata la dizione
“RR=1,5 [IC95% 1,38-2,1]”
come si interpreta?
1) Cosa ci dice un RR di 1,5?
Esiste un’associazione positiva tra l’esposizione e l’esito.
Il rischio relativo (RR) ci permette di quantificare questa
associazione e possiamo affermare che gli esposti hanno un
rischio di ammalare che è 1,5 volte maggiore di quello dei
non esposti.
Lo stesso risultato può essere espresso in termini di eccesso
di rischio, possiamo quindi dire (ed è la stessa cosa rispetto
all’affermazione di prima) che gli esposti hanno un rischio di
ammalarsi del 50% in più rispetto ai non esposti, ovvero
facciamo 1,5 -1=0,5 (dove 1 corrisponde a nessuna
associazione tra esposizione e malattia) 0,5 lo esprimiamo poi
in percentuale (50%).
2) Il risultato è statisticamente significativo?
1,38 →
limite
inferiore
← 2,1
limite
superiore
RR 1,5
calcolato nel campione
in studio
(stima puntuale)
L’intervallo di confidenza,
dal momento che non
comprende il valore 1, ci
dice che il risultato è
statisticamente
significativo.
Se in un articolo scientifico si trova riportata
la dizione “RR=0,7 [IC95% 0,6-1,4]”
come si interpreta?
2)Cosa ci dice un RR di 0,7?
Il rischio relativo (RR) ci permette di quantificare questa
associazione e possiamo affermare che gli esposti hanno un
rischio di ammalare che è 0,7 volte inferiore di quello dei
non esposti.
Lo stesso risultato può essere espresso dicendo che gli esposti
hanno un rischio di ammalarsi del 30% meno rispetto ai non
esposti, ovvero facciamo 0,7 -1= -0,30 (dove 1 corrisponde a
nessuna associazione tra esposizione e malattia) e 1 lo
esprimiamo poi in percentuale (-30%).
Il risultato è statisticamente significativo?
0,6 →
limite
inferiore
1,4 limite superiore
dell’intervallo
RR 0,7
calcolato nel campione
in studio
(stima puntuale)
L’intervallo di confidenza, dal
momento che comprende il
valore 1, ci dice che il risultato
non è statisticamente
significativo.
Intervallo di confidenza
Valutazione del ruolo del caso tramite
il calcolo del p value
19
La probabilità di
trovare per caso questo
RR è del 50%
RISCHIO RELATIVO= 3 (p value=0,50)
La probabilità di
trovare per caso questo
RR è del 15%
RISCHIO RELATIVO= 3 (p value=0,15)
La probabilità di
trovare per caso questo
RR è dell’1%
RISCHIO RELATIVO= 3 (p value=0,01)
20
Per convenzione, nella ricerca bio-medica, se il
valore di p è inferiore a 0,05 (cioè se non c’è più del
5% di probabilità che la diversità osservata sia
dovuta al caso) tale differenza viene considerata
statisticamente significativa.
Perché p<0,05 vuol dire significatività statistica?
Fischer: “se la probabilità di un evento
fosse sufficientemente piccola,
diciamo che possa capitare una volta
su 20, allora si dovrebbe dire
considerare il risultato significativo”.
Ipse dixit: e cosi’ è rimasto
21
La valutazione del ruolo del caso puo’ essere
effettuta tramite
l’utilizzo di test di ipotesi
(o test di significatività statistica) →
il risultato è statisticamente significativo
quando p è inferiore a 0,05
e/o
la costruzione degli intervalli di confidenza→
il risultato è statisticamente significativo
quando l’intervallo di confidenza del RR
22
non comprende il valore 1
23
Test statistico di significatività
Il test statistico permette di
stimare la probabilita’di ottenere
il risultato osservato per il solo
effetto del caso
Errori sistematici o BIAS
Si parla di errore
sistematico, o bias ,
quando si produce
un risultato che differisce
in maniera sistematica
dai veri valori.
25
Bias di selezione
• Il bias di selezione è un errore sistematico in uno studio,
che deriva dalle procedure usate per selezionare i
soggetti e dai fattori che influenzano la partecipazione
allo studio.
• Si verifica quando il campione selezionato per lo studio
differisce in modo sostanziale dalla popolazione di
riferimento, e ciò altera in modo sistematico i risultati
dello studio.
26
Bias di informazione
• Errori nel processo di acquisizione delle
informazioni, da cui dipende una diversa
accuratezza nel rilavare lo status di
esposizione e/o di malattia nei gruppi a
confronto.
• Si riferisce alla fase di raccolta delle
informazioni relative ai partecipanti:
– Informazioni sull’esposizione
– Informazioni sull’esito
– Informazioni su altre variabili di interesse
27
28
CRITERI DI CAUSALITA’
o di Bradford Hill
1. Relazione temporale: la causa precede l’effetto?
•La relazione temporale è un criterio cruciale
La causa deve precedere l’effetto, il tempo passato dall’inizio
dell’esposizione deve essere compatibile con i meccanismi
biologici noti, cioè con un’ipotesi sul periodo d’induzione
della malattia.
Per quanto riguarda le malattie croniche, l’inizio dell’effetto
non è facilmente evidenziabile: quando ha inizio
l’aterosclerosi? Quando si verifica la prima trasformazione
neoplastica della prima cellula bronchiale?
29
2. Plausibilità biologica: l’associazione è coerente con
altre conoscenze?
•Un’associazione epidemiologica dovrà avere una spiegazione
biologica
Concetto relativo, perché:
•associazioni apparentemente non plausibili possono alla fine dimostrarsi
causali (la mancanza di plausibilità può riflettere la mancanza di conoscenze
mediche)
•esperimenti su animali che indicano un’associazione non si verificano in studi
epidemiologici su esseri umani a causa di potenziali fattori confondenti e di
difficoltà di misurazione
30
31
3. Coerenza: simili risultati si sono visti in altri
studi?
•Viene dimostrata quando diversi studi offrono gli stessi
risultati
•Non cruciale: la mancanza di coerenza non esclude
un’associazione causale
32
•Quando occorre interpretare i risultati di un certo numero
di studi occorre dare maggior importanza ai disegni di
studio progettati meglio
•Metanalisi: tecniche che accorpano i risultati di un certo
numero di studi che abbiano preso in esame lo stesso
problema
La metanalisi è la combinazione statistica dei dati
provenienti da studi indipendenti intrapresi per
produrre una stima complessiva dell’effetto in un
intervento/esposizione.
33
La Sintesi dei Risultati
In quali condizioni è possibile effettuare una
meta-analisi?
– Quando più di uno studio misura il medesimo
effetto;
– Quando la eterogeneità fra gli studi non è così
marcata da compromettere la comparabilità;
– Quando sono disponibili i dati
34
4. Forza dell’associazione:
qual è la forza dell’associazione?
•è stimata per mezzo del rischio relativo
•una forte associazione tra causa ed effetto è più probabile
che sia causale (RR> 2 sono considerati forti)
•Non cruciale: il fatto che un’associazione sia debole non
esclude che possa essere causale, la forza dell’associazione
dipende infatti dalla prevalenza relativa di altre possibili
cause.
38
5. Relazione dose-risposta:
l’aumento dell’esposizione alla possibile causa è
associato all’aumento dell’effetto?
•Si ha quando cambiamenti nel livello di una possibile
causa sono associati a cambiamenti nella prevalenza o
incidenza dell’effetto.
•La dimostrazione di un chiaro rapporto dose-risposta in
studi privi di bias offre una forte evidenza di rapporto
causale
39
40
6. Reversibilità: il rimuovere una possibile causa
porta alla riduzione del rischio?
•Quando la rimozione di una possibile causa ottiene come
risultato una riduzione del rischio di malattia, la
probabilità che l’associazione sia causale viene rafforzata.
•Se la causa porta a cambiamenti irreversibili che
successivamente generano malattia, sia in presenza sia in
assenza di esposizione continuativa, allora la reversibilità
non può essere tenuta in considerazione come una
condizione per la causalità.
41
7. Disegno dello studio: l’evidenza è basata su
un valido disegno dello studio?
•La capacità di un disegno di studio di provare la
causalità rappresenta una delle considerazioni più
importanti
•la migliore evidenza viene offerta dai trial randomizzati
controllati ben disegnati e condotti da esperti.
Dopo i trial gli studi di coorte rappresentano il miglior
tipo di disegno.
42
8. Giudicare l’evidenza:
quante linee di evidenza portano alla conclusione?
Purtroppo non esistono criteri del tutto affidabili per
determinare se un’associazione è causale o no.
L’incertezza rimane sempre.
Nel giudicare i diversi aspetti della causalità, la corretta
relazione temporale è essenziale; una volta stabilita, il
peso maggiore può essere dato alla plausibilità, alla
coerenza e alla relazione dose-risposta.
La probabilità di un’associazione causale aumenta quando
molti e diversi tipi di evidenza portano alla stessa
conclusione.
43
44
Evaluations of the strength of the evidence for carcinogenicity
arising from human and experimental animal data are made,
using standard terms […]
Studies of cancer in humans
Sufficient evidence of
carcinogenicity: The Working Group
considers that a causal relationship
has been established between
exposure to the agent and human
cancer. That is, a positive
relationship has been observed
between the exposure and cancer in
studies in which chance, bias and
confounding could be ruled out
with reasonable confidence.
Studies of cancer in experimental animals
Sufficient evidence of carcinogenicity:
The Working Group considers that a
causal relationship has been established
between the agent and an increased
incidence of malignant neoplasms or of
an appropriate combination of benign
and malignant neoplasms in (a) two or
more species of animals or (b) two or
more independent studies in one species
carried out at different times or in
different laboratories or under different
protocols. An increased incidence of
tumours in both sexes of a single species
in a well-conducted study, ideally
conducted under Good Laboratory
Practices, can also provide sufficient
evidence.
Evaluations of the strength of the evidence for carcinogenicity
arising from human and experimental animal data are made,
using standard terms […]
Studies of cancer in humans
Sufficient evidence of carcinogenicity: The Working Group
considers that a causal relationship has been established between
exposure to the agent and human cancer.
That is, a positive relationship has been observed between the
exposure and cancer in studies in which chance, bias and
confounding could be ruled out with reasonable confidence.
After the quality of individual epidemiological studies of cancer
has been summarized and assessed, a judgement is made
concerning the strength of evidence that the agent in question is
carcinogenic to humans. In making its judgement, the Working
Group considers several criteria for causality (Hill, 1965).
Classificazione di cancerogenicità attribuita dall’Agenzia Internazionale per la
Ricerca sul Cancro.
La valutazione della IARC è basata sull’evidenza di cancerogenicità sull’uomo, ove
siano disponibili dati epidemiologici, e sugli animali da esperimento, valutate
separatamente.
In particolare sono definite 5 categorie:
Gruppo 1 : cancerogeni per l’uomo
Gruppo 2A : probabili cancerogeni per l’uomo
Gruppo 2B : possibili cancerogeni per l’uomo
Gruppo 3 : agenti non classificabili per la cancerogenicità nell’uomo
Gruppo 4 : agenti probabilmente non cancerogeni per l’uomo
http://monographs.iarc.fr/