Appunti di statistica medica
AA 2016
Contents
TEOREMA DEL LIMITE CENTRALE ED ERRORE STANDARD . . . . . . . . . . . . . .
1
INTERVALLO DI CONFIDENZA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
IL TEST DI IPOTESI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
L’IPOTESI NULLA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
Un esempio: il test t di Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
Un esempio di test di ipotesi con dati nominali: il test del χ2 . . . . . . . . . . . . . .
9
Gli studi clinici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Gli studi osservazionali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Gli studi sperimentali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
L’interpretazione dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
Le meta-analisi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
La piramide delle evidenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
TEOREMA DEL LIMITE CENTRALE ED ERRORE STANDARD
Supponiamo di avere una popolazione composta da 100.000 individui e di aver rilevato l’altezza di tutte le
unità statistiche. Questa è la distribuzione delle altezze.
15000
10000
5000
0
Frequenza assoluta
20000
Distribuzione della frequenza delle altezze nella popolazione
120
140
160
180
Altezza (cm)
1
200
220
La media e la deviazione standard della popolazione sono 169±10 cm.
Estraiamo casualmente 100 campioni dalla popolazione, ciascuno composto da 16 unità, e raggruppiamo i
dati individuali in una tabella. Vediamo i primi 10 campioni ottenuti. In ogni riga ci sono i valori individuali
dei soggetti di ciascuno dei campioni.
##
##
##
##
##
##
##
##
##
##
##
1
2
3
4
5
6
7
8
9
10
1
181
171
166
185
171
175
171
171
160
187
2
173
163
170
160
159
162
166
189
171
146
3
160
143
162
180
165
167
154
157
181
153
4
162
156
158
177
168
182
167
171
166
178
5
169
169
169
144
180
154
162
180
165
176
6
171
159
155
165
178
167
169
183
180
169
7
176
180
160
179
169
172
159
186
170
181
8
161
175
173
173
163
182
180
168
172
164
9
168
185
181
161
180
175
160
174
172
164
10
164
154
172
168
188
174
176
164
167
175
11
154
157
164
155
181
158
179
170
172
161
12
162
175
180
171
163
169
191
165
161
176
13
158
172
162
171
177
189
176
156
158
171
14
179
151
189
162
167
173
183
157
169
171
15
171
174
169
186
173
170
163
166
152
183
16
160
161
169
156
174
174
159
171
163
178
Facciamo ora la media delle altezze in ciascun campione ed aggiungiamola come ultima colonna alla tabella.
##
##
##
##
##
##
##
##
##
##
##
1
2
3
4
5
6
7
8
9
10
1
181
171
166
185
171
175
171
171
160
187
2
173
163
170
160
159
162
166
189
171
146
3
160
143
162
180
165
167
154
157
181
153
4
162
156
158
177
168
182
167
171
166
178
5
169
169
169
144
180
154
162
180
165
176
6
171
159
155
165
178
167
169
183
180
169
7
176
180
160
179
169
172
159
186
170
181
8
161
175
173
173
163
182
180
168
172
164
9
168
185
181
161
180
175
160
174
172
164
10
164
154
172
168
188
174
176
164
167
175
11
154
157
164
155
181
158
179
170
172
161
12
162
175
180
171
163
169
191
165
161
176
13
158
172
162
171
177
189
176
156
158
171
14
179
151
189
162
167
173
183
157
169
171
15
171
174
169
186
173
170
163
166
152
183
16 media
160
167
161
165
169
169
156
168
174
172
174
171
159
170
171
170
163
167
178
171
Possiamo osservare che la media delle altezze nei primi 10 campioni è 169 cm (cioè ugualealla media della
popolazione) solo una volta, ma che comunque tutti i valori sono vicini alla media della popolazione. Per
avere una visione di insieme dei risultati vediamo la distribuzione di frequenza delle medie dei campioni.
2
0
5
10
15
Frequenza assoluta
20
Distribuzione della frequenza delle altezze della media dei campioni
160
165
170
175
180
Altezza (cm)
La media e la deviazione standard delle 100 medie campionarie (cioè dei campioni) è 169±2.5 cm: la media
delle medie campionarie tende quindi ad essere uguale alla media della popolazione, con una deviazione
standard campionaria è molto più stretta della deviazione standard della popolazione.
In linea generale possiamo affermare che con l’aumentare del numero di campioni, la media delle medie
campionarie tende a coincidere con quella della popolazione. Questa proprietà è definita “TEOREMA DEL
LIMITE CENTRALE”. La variabilità delle medie campionarie è invece nettamente ridotta rispetto alla
variabilità della popolazione. In altri termini gli individui della popolazione possono differire tra loro molto
di più di quanto possano essere diverse tra loro le medie di campioni estratti della medesima popolazione.
La variabilità delle medie della popolazione è espressa come deviazione standard. La variabilità
delle medie
√
campionarie è invece definita ERRORE STANDARD, che può essere calcolato come sd/ n, dove ‘sd’ è la
devizione standard della popolazione ed ‘n’ è il numero di soggetti inclusi in ciascun campione. Nel nostro
√
esempio, la deviazione standard della popolazione è 10, il numero di soggetti della popolazione 16. La 16 è
4, quindi ci possiamo aspettare un errore standard di 10/4=2.5. Esattamente quello che osserviamo con i
nostri dati. Con un numero sufficientemnte elevato di campioni (e/o con campioni sufficientemente grandi)
si potrà sempre avere la conferma sperimentale del TEOREMA DEL LIMITE CENTRALE e del calcolo
dell’errore standard (come è avvenuto nel nostro esempio).
INTERVALLO DI CONFIDENZA
Riprendiamo i dati sull’altezza delle popolazioni e ipotizziamo di ottenere 1000 campioni di 16 soggetti
ciascuno. La distribuzione delle medie campionarie è presentata nella figura.
##
##
##
##
##
##
1
2
3
4
5
1
174
160
184
174
191
2
165
161
166
147
161
3
172
155
161
157
168
4
168
173
176
152
171
5
163
181
184
156
175
6
171
172
182
181
155
7
154
164
176
171
176
8
178
172
190
164
173
9
180
164
183
173
165
10
160
177
195
164
181
3
11
170
170
175
173
176
12
180
169
178
143
155
13
161
151
152
173
177
14
159
154
154
165
172
15
173
169
163
171
149
16 media
181
169
167
166
183
175
170
165
144
168
##
##
##
##
##
6
7
8
9
10
161
163
173
170
184
165
169
172
174
175
163
173
177
177
187
177
193
169
169
167
182
166
185
173
164
155
170
194
182
174
190
199
178
145
171
156
180
161
156
178
163
175
187
169
175
175
183
162
167
184
161
164
143
181
187
153
176
162
165
169
158
164
165
185
161
169
158
171
175
174
164
156
172
182
154
159
173
160
162
159
166
173
171
171
173
0.10
0.00
0.05
Densità
0.15
Distribuzione della frequenza delle altezze della media dei campioni
160
165
170
175
Altezza (cm)
0.10
0.05
1.96 SD
1.96 SD
0.00
Densità
0.15
Distribuzione della frequenza delle altezze della media dei campioni
160
165
170
Altezza (cm)
4
175
180
Sull’asse verticale c’è la probabilità di ottenere una determinata media media campionaria. L’area sotto la
curva dipinta in blu è compresa tra la media meno 1.96 deviazioni standard dalla media (cioè 1.96 volte
l’errore standard ) e la media più 1.96 deviazioni standard dalla media. Lo strano numero “1.96” moltiplicato
per la deviazione standard ha una proprietà particolare nelle distribuzioni normali: il 95% delle osservazioni
sono comprese tra la media-1.96 · sd e la media + 1.96 · sd. Quando estraiamo un campione dalla popolazione,
pertanto possiamo aspettarci che nel 95% dei casi (cioè nel 95% dei possibili campioni) la vera media della
popolazione sia più vicina di 1.96 · sd dalla media del campione, in eccesso o in difetto. Possiamo pertanto
affermare che l’intervallo ottenuto da una media campionaria ± 1.96 · sd contenga la media della popolazione
nel 95% dei campioni di quella popolazione. Questo intervallo viene definito INTERVALLO DI CONFIDENZA
AL 95% perchè ci consente di avere fiducia (al 95%) di sapere l’intervallo in cui viene compresa la media della
popolazione, a noi sconosciuta. La deviazione standard utilizzata per l’intervallo di confidenza è quella della
popolazione delle medie campionarie, a noi sconosciuta allo stesso modo della media delle medie campionarie.
Si utilizza quindi un valore superiore a 1.96, che dipende dalla numerosità del campione, calcolato per le
distribuzioni t di Student.
5
6
IL TEST DI IPOTESI
I test di ipotesi sono probabilmente la modalità più frequente di statistica inferenziale. Esistono moltissimi
test diversi tra loro, ma tutti hanno in comune lo stesso ragionamento sottostante. Si fa una ipotesi teorica e
si verifica quanto possa essere probabile osservare i dati che abbiamo rilevato qualora l’ipotesi fosse vera. Ad
esempio potremmo fare l’ipotesi che l’altezza media di una popolazione sia 180 cm. Potremmo poi scegliere
un campione della popolazione e fare la media delle altezze delle unità del campione. Ipotizziamo che l’altezza
media campionaria sia 170 cm: nel test di ipotesi cerchiamo di calcolare la probabilità di ottenre un campione
con l’altezza media di 170 cm quando l’altezza media della popolazione è 180 cm. Questa probabilità si
espirme con la lettera p e può assumere un valore tra 0 (assolutamente impossibile ottenere questo campione
quando l’ipotesi iniziale è vera) a 1 (è certo che questo sia un campione della popolazione quando è vera
l’ipotesi iniziale).
Spesso il test di ipotesi ha come obiettivo il confronto di 2 o più campioni tra loro. Ad esempio potrei
misurare la pressione del sangue in soggetti ipertesi che assumono un placebo ed in soggetti che assumono un
farmaco anti-ipertensivo. Se la pressione rilevata fosse diversa nei due gruppi, dovrei concludere che il farmaco
anti-ipertensivo è efficace, viceversa dovrei abbandonare l’utilizzo di quel farmaco nella pratica clinica.
Ad esempio ipotizziamo di rilevare la pressione arteriosa diastolica in 20 pazienti che anno assunto il placebo
ed in 20 che hanno assunto il farmaco tutti i giorni nell’ultimo mese.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
media±sd
Placebo
Farmaco
96
98
107
108
99
116
97
102
112
93
99
103
87
111
88
116
101
88
84
93
100±10
95
90
90
96
89
88
90
93
82
76
91
97
101
85
99
82
88
98
92
103
91±7
Media e deviazione standard sono 100 ± 10 mmHg nel gruppo ‘Placebo’ e 91 ± 7 mmHg nel gruppo ‘Farmaco’.
E’ sufficiente questo per concludere che il farmaco è più efficace del placebo? Ricordiamo che stiamo studiando
il risultato su campioni. Se a noi interessa la risposta su questi particolari 40 pazienti, possiamo accontentarci
di valutare la differenza tra le medie. Ma se siamo interessati a generalizzare il risultato per tutti i pazienti
ipertesi, dobbiamo essere consapevoli che abbiamo rilevato dati da campioni per stimare l’effetto sulle
popopazioni. In realtà noi siamo interessati a sapere se la POPOLAZIONE dei pazienti che assume il
farmaco ha una pressione arteriosa diversa dalla POPOLAZIONE dei soggetti che assumono il placebo. I
prossimi pazienti a cui eventualmente somministreremo il farmaco antiipertensivo infatti faranno parte della
POPOLAZIONE dei pazienti ipertesi e non del campione che abbiamo già studiato.
7
L’IPOTESI NULLA
Per affrontare il confronto tra placebo e farmaco anti-ipertensivo con il test di ipotesi, dobbiamo prima di
tutto formulare una ipotesi e quindi verificare se i nostri dati sono con essa compatibili. La maggior parte
delle volte, l’ipotesi di partenza è una ipotesi di uguaglianza. In questo caso l’ipotesi iniziale quindi può
essere: la media della pressione diastolica della popolazione dei pazienti che assumo il placebo è uguale alla
media della pressione diastolica nei pazienti che assumo il farmaco. Questa ipotesi di uguaglianza è detta
IPOTESI NULLA ed indicata con H0 . Formalmente si può scrivere: H0 : µplac = µf arm , dove µ è la
media della popolazione.
Sappiamo che le medie dei nostri campioni sono probabilmente un po’ diverse dalle medie delle rispettive
popolazioni. Possiamo però calcolare la probabilità di ottenere proprio queste due medie campionarie quando
le medie delle due popolazioni sono uguali. Da considerare che due popolazioni con la stessa media (e la
stessa deviazione standard) per il carattere osservato sono da considerarsi un’unica popolazione. Per questo
motivo possiamo vedere il test ipotesi come la definizione della probabilità che i due campioni (nel nostro
esempio i soggetti che anno assunto il placebo e quelli che hanno assunto il farmaco) siano campioni casuali
estratti dalla stessa popolazione.
Un esempio: il test t di Student
Il test appropriato per il caso in esempio è il test t di Student. In questo test si fa la differenza tra le medie
(m) e la si divide per l’errore standard (se), che ricordiamo essere uguale alla deviazione standard (sd) divisa
per la radice quadrata del numero di osservazioni:
mplac − mf arm
se
che può essere scritta più in dettaglio, per campioni di pari numerosità, come segue
mplac − mf arm
q
2
sdplac /nplac + sd2f arm /nf arm
Il senso di questo test è che il valore diventa tanto più grande quando più è grande la differenza tra le medie e
quando più è piccoloa la variabilità nei campioni (cioè l’errore standard). Quindi, a parità di errore standard,
un valore elevato del test significa una grande differenza tra le medie. Abbiamo già capito quindi che un
valore elevato nel test t farà propendere per l’improbabilità che le medie delle popolazioni di origine siano
uguali. Il valore del test può risultare elevato, a parità di differenza delle medie, anche se la variabilità delle
misure è ridotta. Il senso è che una differenza tra le medie ha un diverso valore se la variabilità della misura è
grande o piccola. Infatti una data differenza tra le medie può essere casuale se le misure sono molto variabili
tra loro, mentre va presa molto sul serio se le singole misurazioni sono molto simili tra loro.
A titolo di esempio calcoliamo il test t per i nostri campioni, ricordando che l’ipotesi nulla è che la media
della popolazione a cui appartiene il gruppo ‘Placebo’ è uguale alla media della popolazione a cui appartiene
il gruppo ‘Farmaco’.
100 − 91
t= p
= 3.3
100/20 + 49/20
Il dr. Gosset (in arte “student”) ha calcolato pazientemente agli inizi del 1900 la probabilità che “t” assuma
un certo valore quando è vera l’ipotesi nulla. “t” ha un significato diverso con numerosità diverse dei campioni
(dato che determina i “gradi di libertà”), pertanto sono stati fatti i calcoli delle probabilità per diversi gradi
di libertà. In questo esempio i gradi di libertà sono nplac − 1 + nf arm − 1, quindi 38. Nella tabella sopra
riprodotta utilizziamo la riga con il numero di gradi di libertà più vicino (ed inferiore) ai nostri 38, quindi
quella con 30 gradi di libertà: vediamo che 3.3 è compreso tra gli ultimi due numeri, 2.75 e 3.646, i quali a
loro volta corrispondono ad una p di 0.01 e 0.001. Quindi la probabilità di ottenere in nostri dati quando
l’ipotesi nulla è vera è compresa tra 0.01 (1%) e 0.001 (0.1%). E’ quindi molto poco probabile che i nostri dati
siano compatibili con l’ipotesi nulla, che quindi rifiutiamo e di conseguenza rifiutiamo anche che la pressione
diastolica dei pazienti che assumo il placebo sia uguale alla pressione diastolica dei pazienti che assumo il
farmaco. La conclusione è che il farmaco testato è più efficaced del placebo.
8
Un esempio di test di ipotesi con dati nominali: il test del χ2
Spesso si è interessati a confrontare i dati che derivano da due set di dati nominali. Ad esempio potremmo
essere interessati a sapere se un corso di fromazione del personale sanitario sulla relazione di aiuto ha avuto
come conseguenza una maggior soddisfazione dei pazienti di una Unità Operativa. A tale scopo si sono
raccolti i dati di Soddisfazione dell’utente in un periodo precedente ed in uno successivo allo svolgimento del
corso di formazione. In questo caso abbiamo due variabili nominali: * il periodo di rilevazione dei dati può
essere codificato come “prima” e “dopo” il corso; * la soddisfazione dei pazienti può essere espressa come “1”
(soddisfatto) o “0” (non soddisfatto).
Di seguito l’elenco dei primi 10 e degli ultimi 10 soggetti intervistati.
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
1
2
3
4
5
6
7
8
9
10
1161
1162
1163
1164
1165
1166
1167
1168
1169
1170
soddisfazione periodo
1
prima
1
prima
0
prima
1
prima
1
prima
0
prima
0
prima
1
prima
1
prima
1
prima
1
dopo
1
dopo
1
dopo
1
dopo
1
dopo
0
dopo
1
dopo
1
dopo
1
dopo
1
dopo
I dati di questo tipo si possono rappresentare efficacemente in una tabella di contingenza. Nel caso più
semplice, come nel nostro esempio, ci sono due variabili nominali, i cui esiti sono espressi nelle righe per una
variabile e nelle colonne per l’altra.
Table 2: Tabella frequenze (assolute) osservate
insoddisfatti
soddisfatti
Totale
prima
dopo
Totale
113
407
520
106
544
650
219
951
1170
Da questa tabella desumiamo che sono stati rilevate le opinini di 520 e 650 pazienti rispettivamente prima e
dopo lo svolgimento del corso. Le informazioni che possiamo trarre da questa modalità di presentazione sono
però scarse se esprimiamo i dati come frequenza assoluta. Vediamo quindi la stessa tabella con le freqhenze
percentuali.
9
Table 3: Tabella frequenze (percentuali) osservate
prima
dopo
22 %
78 %
16 %
84 %
insoddisfatti
soddisfatti
Questo dato è molto più leggibile. Possiamo infatti vedere che dopo il corso di formazione la percentuale
di insoddisfatti (rispetto al totale dei pareri ricevuti in ciascun periodo) è scesa dal 22% al 16%. Come
sempre dobbiamo cercare di prevedere se il risultato ottenuto in questo campione può essere considerato
valido per tutta la popolazione dei pazienti che saranno ricoverati in questa Unità Operativa. In altre parole,
la riduzione degli insoddisfatti è proprio legata all’effetto del corso oppure può essere spiegata anche dalla
casualità? Quanto è probabile che il corso sia stato di per sè inefficace e che, per puro caso, nel periodo
‘prima’ abbiamo intervistato un campione di pazienti con molti “criticoni”, mentre nel periodo “dopo”, sempre
per puro caso, abbiamo intervistato un campione con molti soggetti “accomodanti” e quindi più facili da
accontentare? L’analisi statistica ci aiuta a rispondere a questa domanda. Per prima cosa formuliamo la
nostra IPOTESI NULLA: la percentuale degli insoddisfatti prima e dopo il corso di formazione è uguale.
Espressa formalmente l’ipotesi nulla è: H0 : probabilitàinsoddisf atti−prima = probabilitàinsoddisf atti−dopo .
Nella tabella di contigenza con le frequenze assolute, possiamo vedere che il totale degli insoddisfatti totale
(che comprende cioè entrambi i periodi) è di 219 soggetti su 1170, cioè il 18.72%. Se fosse vera l’ipotesi nulla,
questa percentuale dovrebbe essere uguale prima e dopo il corso di formazione. Per cui, sotto ipotesi nulla, ci
dovremmo aspettare che siano insoddisfatti il 18.72% dei 520 soggetti intervistati prima ed il 18.72% dei 650
pazienti intervistati dopo il corso. Se questa fosse la verità, dovremmo ridisegnare la tabella di contingenza
con le frequenze attese se in entrambi i periodi i soggetti avessero la stessa percentuale di insoddisfazione
(pari a quella totale).
Table 4: Tabella frequenze (assolute) attese
insoddisfatti
soddisfatti
prima
dopo
97.3
422.7
121.7
528.3
Il confronto tra le celle corrispondenti delle due tabelle (frequenze osservate ed attese) mostra valori differenti.
Ad esempio abbiamo contato 113 insoddisfatti prima del corso mentre ce ne saremmo aspettati 97.3 sotto
ipotesi nulla. Dopo il corso gli insoddisfatti erano 106, ma sotto ipotesi nulla ce ne raremmo aspettati 121.7.
Per conoscere la probabilità che queste differenze siano dovute alla casualità del campionamento, possiamo
fare un test statistico. In questo caso un test appropriato è il test del χ2 (si legge “chi quadrato”). In questo
test si calcola per ciascuna cella della tabella di contingenza il quadrato delle differenze tra i valori osservati e
2
quelli attesi, e lo si divide per il valore atteso ( (osservato−atteso)
), come si vede nella prossima tabella.
atteso
insoddisfatti
soddisfatti
prima
dopo
2.5332991
0.5831322
2.025390
0.466572
Il valore del test chi2 è dato dalla somma di tutti questi valori presenti nella tabella:
χ2 =
rc
X
(osservato − atteso)2
atteso
i=1
Nel nostro esempio la somma è 5.61. A questo punto dobbiamo vedere quanto è probabile ottenere questo
10
valore quando è vera l’ipotesi nulla. Fortunatamente anche per la distribuzione del χ2 sono state calcolate le
probabilità che i differenti valori possono assumere quando è vera l’ipotesi nulla. Nel nostro esempio abbiamo
un grado di libertà, quindi cerchiamo di associare una probabilità al risultato ottenuto cercando nella prima
riga.
Il nostro valore di 5.61 è compreso tra 5.41 e 6.63, i quali sono associati rispettivamente probabilità di 0.01
(cioè 1 su 100=1%) e di 0.02 (cioè 1 su 200=0.5%). Ciò vuol dire che la probabilità di osservare i nostri dati
(o dati ancor più diversi da quelli definiti nell’ipotesi nulla) è compresa tra 0.5% e 1% quando è vera l’ipotesi
nulla. Una probabilità molto bassa, che ci porta a rifiutare H0 . Quindi concluderemo che è molto improbabile
che le differenze che osserviamo nella tabella dei dati osservati siano dovute alla casualità. Pertanto dobbiamo
ragionevolmente ritenere che il corso di formazione abbia funzionato.
Gli studi clinici
La comprensione dei concetti di esposizione ed outcome (esito) in ambito epidemiologico è di importanza
fondamentale per comprendere il disegno degli studi. In epidemiologia l’esposizione è un evento che può
influenzarne un altro, che vie definito outcome (esito). L’esposizione, talora definita fattore di rischio, ha una
vasta gamma di significati: può essere un fattore ambientale (inquinamento, attività lavorativa, . . . ), oppure
inerente al paziente (gruppo sanguigno, sesso, età, razza,..), oppure un trattamento o una strategia sanitaria
L’outcome è anch’esso un termine generico che può indicare qualsiasi evento correlato alla salute/malattia (la
diagnosi di malattia, un certo stato di salute, la morte o la sopravvivenza).
Si possono descrivere due grandi categorie di studi, quelli osservazionali e quelli sperimentali. Negli studi
osservazionali il ricercatore si limita ad osservare l’andamento dei fenomeni per poter trarre conclusioni.
Negli studi sperimentali invece lo sperimentatore compie interventi diretti, manipola cioè le condizioni della
ricerca applicando strategie terapeutiche o preventive a due o più gruppi di soggetti.
11
Gli studi osservazionali.
Studi descrittivi
Il livello più semplice di studio osservazionale sono gli studi descrittivi. Gli studi descrittivi rilevano fenomeni
che si presentano nella collettività senza confrontare tra loro gruppi differenti di individui Pertanto non
possono avere lo scopo di analizzare eventuali associazioni tra esposizioni ed outcome.
Case report e serie di casi Il livello più semplice di studio descrittivo è il “case report”. Nel case report è
descritto dettagliatamente il caso di un singolo individuo che presenta una malattia insolita o l’apparente
associazione tra un’esposizione ed una malattia non descritta in precedenza. Un case report non produce
nuove conoscenze affidabili, ma può suggerire di condurre studi con un disegno più robusto.Per esempio, un
medico ha descritto la comparsa di adenoma epacellulare benigno in donne che avevano assunto contraccettivi
orali. Un successivo studio caso-controllo ha confermato una forte associazione tra l’uso a lungo termine di
pillole alte dosi e questo raro tumore. Si parla di serie di casi quando si descrivono più casi individuali
che condividono una stessa caratteristica. Per esempio l’osservazione di diversi casi di immunodeficienza in
maschi omosessuali a Los Angeles ha portato a considerare l’epidemia di AIDS negli Stati Uniti.
Studi di prevalenza (trasversali, cross-sectional). Gli studi di prevalenza descrivono la salute di una
popolazione. In questi studi si raccolgono nel medesimo momento esposizioni ed outcome, pertanto non sono
in grado di stabilire con chiarezza se l’esposizione ha preceduto l’outcome, ad eccezione di esposizioni di lunga
durata (meglio se dalla nascita), come ad esempio sesso e gruppo ematico.
12
Studi di sorveglianza. In questi studi si ha la rilevazione sistematica e ripetuta nel tempo di dati relativi
alla salute. L’analisi e l’interpretazione di questi dati è spesso di grande importanza nel decidere gli interventi
sanitari da mettere in atto. La sorveglianza può essere attiva o passiva. La sorveglianza passiva acquisisce i
casi di interesse da registri statistici ufficiali, come per esempio quelli anagrafici, mentre la sorveglianza attiva
va alla ricerca dei casi di interesse con tutti i mezzi disponibili.
Gli studi descrittivi hanno il vantaggio di utilizzare dati già disponibili e quindi sono efficienti e poco costosi.
Devono essere considerati come il primo approccio allo studio di una condizione. Possono essere utili per
generare ipotesi, ma da essi non si possono trarre conclusioni sull’associazione e tantomenao sulla relazione
causa-effetto tra una esposizione ed un outcome.
Gli studi analitici
Negli studi analitici è presente il confronto tra soggetti appartenenti a gruppi diversi. Essi sono
distinti tra loro in base alla rilevazione temporale di esposizione ed outcome.
• Studi di prevalenza (trasversali, cross-sectional). In questa tipologia di studio esposizione ed
outcome sono rilevati nello stesso tempo. Può quindi essere definito di prevalenza sia uno studio
descrittivo, quando si stima la frequenza di una condizione in una popolazione (in questo caso è uno
studio descrittivo, vedi sopra), sia uno studio analitico, quando si rileva la presenza di esposizione
ed outcome in gruppi diversi. Negli studi cross-sectional la relazione temporale tra esposizione ed
outcome può non essere chiara, essendo rilevati nello stesso momento. Per esempio, se uno studio
cross-sectional rilevasse che l’obesità è più frequente tra le donne con artrosi rispetto a quelle senza
artrosi, non potremmo definire se è l’eccessivo peso sulle articolazioni che determina l’artrosi, oppure se
è l’artrosi che riduce il movimento e quindi favorisce l’obesità. Pertanto gli studi trasversali poco si
prestano a definire relazioni causa-effetto.
• Studi di coorte. Gli studi di coorte definiscono prima un gruppo (una coorte) di soggetti con
l’esposizione di interesse ed un gruppo (una coorte) di soggetti senza questa esposizione. I ricercatori
seguono nel tempo i soggetti di ciascuna coorte e rilevano l’incidenza dell’outcome. Se l’incidenza
13
dell’outcome è maggiore nella coorte degli esposti, si può concludere che l’esposizione è associata ad un
aumento del rischio dell’outcome. Gli studi di coorte sono poco efficienti quando l’outcome è molto
raro (bisogna studiare coorti molto grandi per osservare un sufficiente numero di esiti) o richiede tempi
molto lunghi per svilupparsi (sono necessari tempi molto lunghi di osservazione).
• Studi caso-controllo. Negli studi caso-controllo si identifica un gruppo di soggetti che hanno manifestato una malattia (casi) ed un gruppo che invece non ha mai avuto questa malattia (controlli), quindi
sia per i casi che per i controlli si ricercano nel passato le esposizioni che potrebbero essere associate
all’outcome oggetto dello studio. Se la prevalenza dell’esposizione è più frequente nei casi rispetto ad i
controlli, l’esposizione è associata ad un aumento del rischio dell’outcome. Gli studi caso-controllo sono
particolarmente utili nei casi in cui gli studi di coorte sono poco efficienti, cioè in caso di malattie rare o
con lunghi tempi di insorgenza. Questa condizione si verifica, ad esempio, quando si studiano malattie
cardiovascolari o tumorali. Il punto cruciale degli studi caso-controllo è la scelta di un appropriato
gruppo di controllo. Sono quindi molto esposti al rischio di errore sistematico (vedi sotto). Gli studi
caso-controllo non possono determinare la incidenza dell’outcome: nei casi infatti il 100% dei soggetti
deve avere l’outcome, mentre nei controlli nessuno deve averlo. Per questo motivo non si possono
calcolare le misure di rischio ed al loro posto per misurare le associazioni viene utilizzato l’odds ratio,
che è molto simile al rischio relativo qualora l’outcome sia raro.
Gli studi sperimentali.
Gli studi sperimentali si possono dividere in due categorie principali:
• Studi non randomizzati. Alcuni trials sperimentali non assegnano casualmente l’esposizione (cioè
il trattamento), ma i soggetti sono stati scelti per essere inseriti nel gruppo di trattamento (con
l’esposizione) o nel gruppo di controllo (senza l’esposizione). Questi studi sono esposti al rischio di bias
di selezione (vedi sotto) e sono condotti ed analizzati similmente agli studi di coorte.
• Studi randomizzati e controllati. Rappresentano il disegno di studio generalmente ritenuto di
miglior qualità. Differentemente dagli studi non randomizzati, l’esposizione (trattamento/prevenzione)
viene assegnata casualmente ai soggetti che partecipano allo studio con una procedura che è definita
randomizzazione. Se la randomizzazione è effettuata correttamente, si evita ragionevolmente di avere un
bias di selezione: infatti i pazienti nel gruppo di trattamento e nel gruppo di controllo dovrebbero avere
caratteristiche simili tra loro, perchè ogni individuo deve avere la stessa probabilità di essere inserito in
ciascuno di questi gruppi. Inoltre anche i confondenti (sia conosciuti che sconosciuti) sono probabilmente
distribuiti equamente nei gruppi di studio: l’assegnazione casuale farà si che ogni confondente abbia
la medima probabilità di capitare nei trattamenti o nei controlli. Il maggior problema degli studi
controllati e randomizzati è solitamente una ridotta validità esterna. I trial randomizzati infatti possono
arruolare solo volontari che superano un processo iniziale di screening. Il campione dei soggetti che
partecipano allo studio potrebbe quindi non essere veramente rappresentativo della popolazione alla
quale si vogliono generalizzare le conclusioni.
L’interpretazione dei risultati
Gli studi epidemiologici e clinici possono presentare “difetti” di progettazione che possono pregiudicare (anche
radicalmente) la corretta interpretazione dei risultati. Esaminiamo alcuni aspetti.
• Errore sistematico (bias). Tutti gli studi osservazionali sono caratterizzati da bias. E’ necessario
valutarli criticamente per capire in che modo possono aver influenzato i risultati.
• Bias di selezione. I gruppi sono simili in tutti gli aspetti importanti? Il bias di selezione rischia di
non rendere confrontabili i gruppi. Ad esempio sia studi di coorte che caso-controllo avevano suggerito
che lo jogging dopo un infarto del miocardio preveniva una recidiva dell’infarto. Un successivo trial
randomizzato e controllato non ha confermato questo beneficio. I pazienti che scelgono di fare esercizio
14
potrebbero infatti differire da chi non fa sport per caratteristiche importanti, come ad esempio la dieta
od il fumo.
• Bias di informazione (osservazione, classificazione, misurazione). Scorretta attribuzione dell’outcome
o dell’esposizione. Può verificarsi se si raccolgono informazioni in maniera diversa (ad esempio al letto
del paziente nei casi e telefonicamente nei controlli). Il bias di sospetto diagnostico si ha quando la
conoscenza di una presunta causa di malattia può portare ad una più approfondita ricerca tra gli esposti,
come ad esempio la ricerca dell’infezione da HIV nei soggetti che hanno utilizzatto sostanze per via
endovenosa. Oppure la presenza di una malattia potrebbe indurre a cercare una presunta esposizione di
interesse, come il fumo nei casi di tumore al polmone. Per minimizzare il rischio di bias di informazione,
le informazioni sull’esposizione negli studi caso controllo dovrebbere essere raccolte da ricercatori che
non sanno se il soggetto in questione è un caso o un controllo. Allo stesso modo in uno studio di coorte,
lo sperimentatore che rileva l’outcome dovrebbe essere all’oscuro dell’esposizione di ogni partecipante.
Negli studi caso-controllo, il bias di memoria può essere importante in caso di esposizioni lontane nel
tempo. I casi infatti tendono a ricercare con particolare attenzione una possibile esposizione associata
alla loro malattia, mentre i controlli sono meno motivati a farlo.
• I confondenti. Quando ricercatore cerca di correlare un’esposizione all’outcome, può invece misurare
l’effetto di un terzo fattore chiamati confondente. Una variabile confondente è associata con
l’esposizione ed influenza l’outcome, ma non è un legame intermedio tra esposizione ed outcome.
Ad esempio, i primi studi sui contraccettivi orali rilevarono un marcato incremento di rischio di infarto
del miocardio. Successivamente si dimostrò che l’associazione era dovuta la fatto che c’era un maggior
numero di fumatrici tra chi utilizzava i contraccettivi rispetto a chi non li utilizzava. Quindi il fumo di
sigaretta confondeva la relazione tra contraccettivi orali e infarto.
• Validità interna. E’ la capacità di uno studio di misurare realmente cosa si era programmato di
misurare. La validità interna di uno studio è irrimediabilmente abbattuta dalla presenza di bias di
informazione o di selezione. Al contrario, la presenza di confondenti può essere corretta se il confondente
è conosciuto. Si può ricorrere a tre principali approcci: il matching, la stratificazione o l’analisi
multivariata. Negli studi caso-controllo il matching prevede l’accoppiamento di un caso con un controllo
che abbia la stessa presenza/assenza del confondente. Ad esempio, se il confondente fosse il fumo, ogni
coppia caso-controllo deve avere lo stesso comportamento nel fumo di sigaretta. La stratificazione
consente di controllare per il confondente dopo il completamento dello studio, se ad esempio si analizzano
i risultati separatamente nei fumatori e nei non fumatori. Con le tecniche multivariate invece un modello
matematico esamina il potenziale effetto di una variabile a parità di tutti gli altri fattori. Il vantaggio è
che può “controllare” contemporaneamente la presenza di più possibili confondenti.
• Validità esterna. I risultati di uno studio possono essere generalizzati per i pazienti di chi legge lo
studio? In altre parole, si può passare dal campione alla popolazione? Uno studio ha una buona validità
esterna se chi compone il campione oggetto di indagine ha le stesse caratteristiche della popolazione. I
trial randomizzati e controllati sono probabilmente meno a rischio di errori sistematici rispetto agli studi
osservazionali, ma possono avere una minor validità esterna a causa della selezione dei partecipanti.
• La valutazione delle associazioni. La presenza di bias di selezione, bias di informazione o di
confondenti può produrre risultati altamente significativi anche se fasulli. Qualora uno studio produca
risultati significativi pur senza essere affetto da problemi di validità interna, dobbiamo anche tenere
presente che la possibile spiegazione del raggiungimento della significatività statistica potrebbe essere il
caso. Infatti il valore di p misura la probabilità di ottenere una conclusione falsamente positiva: una
differenza rilevata nello studio, sebbene questa non esista nella popolazione (errore di tipo I o errore
α). Pertanto quando si evidenzia una associazione statisticamente significativa, bisogna valutare se
esista realmente una relazione causa-effetto tra esposizione ed outcome. Perchè questa possa sussistere
è fondamentale il criterio di temporalità: la causa deve precedere l’effetto, cosa non sempre semplice
da stabilire in caso di malattie croniche. E’ anche improbabile che non vi sia nesso causale quando
l’associazione tra esposizione ed outcome è molto forte (ad esempio un rischio relativo superiore a 3
o un odds ratio superiore a 4). Un altro elemento che conferma la reale associazione tra esposizione
ed outcome è la ripetizione dei risultati in popolazioni diverse e con disegni di studio differenti. Altri
15
elementi a favore di una relazione causale tra esposizione ed outcome sono la presenza di una relazione
dose-risposta (tanto più elevata è l’entità dell’esposizione, tanto maggiore è la frequenza dell’outcome),
la plausibilità biologica (cioè la spiegazione biologica del fenomeno) e la coerenza con le conoscenze
acquisite in precedenza.
Le meta-analisi
Se vi sono vari studi condotti nel mondo sullo stesso quesito, la meta-analisi (in inglese “meta analysis”
o anche “overview”) permette di valutare i risultati in maniera integrata. Tramite la meta-analisi, la
comunità scientifica può rivedere sistematicamente tutta l’evidenza prodotta dalla ricerca su un dato quesito,
e può ottenere una valutazione quantitativa e qualitativa dell’effetto di un dato trattamento considerato in
vari studi. La meta-analisi è quindi la metodologia che permette di raccogliere tutti i dati prodotti da vari
studi sullo stesso argomento e di analizzarli con metodi appropriati al fine di ottenere una risposta globale. A
volte questa proposta è conclusiva, e porta a individuare quindi il trattamento “di elezione” per una certa
patologia. Altre volte invece l’evidenza raccolta da vari studi non è sufficiente a motivare la scelta di un
dato trattamento, ma rivela quali siano gli aspetti che ancora necessitano di approfondimento. In questo
caso, i risultati della meta-analisi sono il punto di partenza per la pianificazione di uno studio che possa far
ulteriormente avanzare la conoscenza ed essere conclusivo sulle questioni ancora aperte. Vediamo un esempio.
Nella figura è riportata la presentazione dei dati raccolti ed elaborati in una meta-analisi.
Essa riassume i dati relativi a 11 diversi studi nei quali pazienti con una storia di infarto miocardico erano
stati randomizzati a ricevere un trattamento prolungato (di un mese o più) con antitrombotici verso nessun
trattamento. Per ciascun studio, identificato con un nome in prima colonna, sono riportati: il tipo di
trattamento (seconda colonna), il numero di eventi/numero di soggetti randomizzati nei due gruppi (terza e
quarta colonna), dove si considera come evento l’infarto miocardico o l’ictus cerebrale (stroke) non fatali
oppure la morte per causa vascolare. I totali riportati alla base delle colonne danno una stima globale della
probabilità di evento nei due gruppi di trattamento: 13% di eventi nel gruppo AP (1331/9877) e 17% nel
gruppo di controllo (1693/9914), con una riduzione assoluta a favore dei trattati del 4% nella mortalità
e morbidità vascolare. Il principio su cui si basa la meta-analisi è che, se un certo tipo di trattamento
fosse legato a un reale beneficio, allora, al di là di eccezioni possibilmente imputabili al caso, i risultati di
studi diversi dovrebbero verosimilmente puntare verso la stessa direzione di beneficio (pur non raggiungendo
necessariamente la significatività statistica). Quindi, con la meta-analisi si combinano i risultati di vari studi
16
per ottenere una valutazione statistica globale che possa avere una applicabilità generale nella pratica clinica.
In questo esempio, i risultati di tutti gli studi puntano nella stessa direzione di beneficio del trattamento e non
risulta esservi eterogeneità statisticamente significativa tra i risultati singoli, come indicato nel test riportato
sotto i totali. Le stime dell’effetto del trattamento in ciascuno studio e globali sono rappresentate graficamente
in termini di “odds ratio”, con intervalli di confidenza. La linea verticale continua, tracciata in corrispondenza
di un odds ratio unitario, indica la posizione di equivalenza del trattamento con antitrombotici rispetto al
non trattamento. Un odds ratio inferiore a 1, e quindi alla sinistra di detta linea, indica che il trattamento
è protettivo, mentre il trattamento risulterebbe dannoso se l’odds ratio fosse superiore a 1. Come si vede
dal grafico, gli odds ratio stimati in ciascuno studio, e indicati con dei quadratini, sono tutti concordemente
inferiori all’unità. L’area dei quadratini è proporzionale alla informatività dello studio, cioé alle sue dimensioni
(o meglio al numero degli eventi) e quindi un’area più grande indica che i risultati dello studio corrispondente
avranno più peso nella stima globale dell’effetto del trattamento. Le linee continue orizzontali rappresentano
gli intervalli di confidenza al 99% dell’odds ratio del singolo studio. Quando attraversano la linea verticale
continua, indicano che il risultato dello studio è compatibile anche con l’ipotesi di equivalenza (cioé che l’odds
ratio non sia significativamente diverso da 1, al livello alfa = 0.01). Come si vede nella figura, solo 2 degli
11 studi forniscono stime dell’effetto del trattamento significative al livello 0.01. Tuttavia, combinando i
singoli risultati in una media opportunamente pesata (in base alla varianza), si ottiene una stima globale
basata su molte osservazioni e i cui limiti di confidenza sono molto ristretti. L’odds ratio globale risulta essere
0.75 ed è rappresentato dalla linea tratteggiata. Esso corrisponde ad una riduzione percentuale dell’odds
di evento vascolare del 25% nel gruppo dei trattati rispetto ai non trattati. I limiti di confidenza al 95%,
molto piccoli, sono rappresentati col rombo disegnato sulla linea tratteggiata. Il dibattito sul ruolo che la
meta-analisi ha avuto in vari campi della ricerca clinica (in particolare nelle patologie cardiovascolari ed
oncologiche) e che potrà avere in futuro è a tuttoggi molto aperto. In particolare, varie critiche sono mosse
a questa metodologia, poiché vari sono i problemi che possono influenzare la validità ed accettabilità delle
conclusioni da essa tratte. I problemi riguardano principalmente i criteri di inclusione/esclusione degli studi
in relazione al loro livello di qualità scientifica, l’influenza dell’eterogeneità dei pazienti sulle stime ed altri
aspetti legati alla generalizzabilità ed applicabilità dei risultati.
La piramide delle evidenze
I differenti tipi di studi possiedono una differente livello di credibilità ed autorevolezza. Questo concetto è
riassunto nella figura sottostante.
Come si può osservare case report e serie di casi sono il tipo di studi meno autorevole, mentre i trial
randomizzati e controllati sono il disegno di studio a cui viene attribuita la massima credibilità. La posizione
delle meta-analisi è controversa. Per alcuni sono il più elevato livello di evidenza, mentre altre correnti di
17
pensiero mettono in discussione questa posizione. Il disegno dello studio determina la qualità della evidenza
degli studi. Questo è tenuto in grande considerazione nella creazione delle linee guida, in cui la forza delle
raccomandazioni è molto influenzata dalla qualità delle evidenze.
18