SMID
a.a. 2005/2006
Corso di
Statistica per la Ricerca
Sperimentale
Test sopravvivenza
20/3/2006
Rischio assoluto
Valutare il rischio è un elemento chiave per
predire gli eventi futuri
Al medico interessa poco il rischio generico
di un infarto miocardico dopo i 50 anni
perché questa stima non è utilizzabile né per la
prognosi né per altre decisioni cliniche
il medico vuole conoscere quale è il rischio di
infarto di un paziente di 50 anni con ben definite
caratteristiche cliniche entro, ad esempio, 1 anno
Stima del rischio un preciso arco temporale
fruibile nella prognosi e nelle decisioni cliniche
Sopravvivenza
Quando occorre formulare una prognosi
il clinico (oltre che sull’esperienza)
si basa sulle conoscenze da letteratura scientifica
relative al rischio di malattia oppure di morte su
pazienti il più possibile simili al proprio caso
In maniera indiretta
cioè come tasso di incidenza (incidence rate)
In maniera diretta (casi di follow-up)
come rischio incidente (incidenza cumulativa)
• forma tabulare (tavole di sopravvivenza)
• forma grafica (curve di sopravvivenza)
Rischio incidente
Gli epidemiologi in genere riportano l’incidenza
della morbilità e della mortalità in termini di
tasso di incidenza (incidence rate)
Questa stima del rischio non può essere utilizzata
direttamente dai clinici
Il rischio assoluto (o incidente) può essere
calcolato dal tasso incidente con la formula:
Rischio incidente = 1 − e−(tasso di incidenza)
Vogliamo stimare il rischio della malattia di
Alzheimer a 15 anni
negli uomini di 65 anni
Tabella ricavata
Tasso di incidenza per fasce di età
età
65-69
70-74
75-79
tasso di incidenza (pazienti per anno)
0.8 / 1000
1.9 / 1000
4.4 / 1000
Vogliamo stimare il rischio della malattia di
Alzheimer a 15 anni
in un uomo di 65 anni
R = 1 − e−(5 · 0.8/1000 + 5 · 1.9/1000 + 5 · 4.4/1000) = 0.035
(3.5%)
Punti critici
9 Inizio dell’osservazione
l’approccio metodologicamente corretto è
studiare solo quei pazienti in cui l’esordio della
malattia è stato chiaramente identificato
9 Scelta della scala temporale
opportunamente definita (minuti, ore, giorni)
in rapporto alla rapidità attesa dell’evento
9 Termine dell’osservazione
data in cui lo studio ha termine deve essere ben
definita ed è necessario avere informazioni sulla
situazione di tutti i pazienti a quella data
Analisi della sopravvivenza
Fissare un punto di partenza ben identificabile
ad esempio: inizio di un “mal di schiena”?
primo sintomo, visita dal medico, ricordo paziente
Esiste un evento finale (non sempre nefasto!)
9 esame di laurea (tempo dall’iscrizione)
9 decesso (morte)
9 ricovero ospedale (non sempre evento singolo!)
La probabilità di essere “persi allo studio” non
dipende dall’evento finale (tendenze temporali)
come considerare in uno studio sul cancro un
caso di suicidio (o rifiuto a continuare la cura)?
Grafico di sopravvivenza
a
b
c
d
e
f
g
h
i
j
M
P
M
M
C
M
P
C
P
C
0
1
pazienti
2
3
4
5 6 7
anni di calendario
8
9 10
censurati
a destra
Studio epidemiologico
Esame
pazienti con
melanoma
10 pazienti
seguiti per 10
anni 504 mesi
in totale
4 deceduti
3 persi
3 censurati
“a destra”
da quando?
soggetto
a
b
c
d
e
f
g
h
i
j
tempo (mesi)
evento
deceduto
61
perso
111
deceduto
29
46
deceduto
92
censurato
deceduto
22
perso
37
censurato
76
perso
14
45
censurato
Sopravvivenza media
Prendere in considerazione solo i pazienti di cui
si conosce tutta la storia
(di questi si sa tutto!)
la statistica si riduce solo ai casi a,c,d,f
sopravviv.media= tempo trascorso fino evento finale
numero casi che lo raggiungono
sm = (61 + 29 + 46 + 22) / 4 = 39.5 mesi
Abbiamo perso la maggioranza dei casi (60%!)
Gli altri 6 avrebbero avuto stesso comportamento?
verosimile pensare che non sarebbe stato lo stesso!
Percentuale di sopravvivenza
Il problema non è solo chi sopravvive
ma quanto sopravvive
Dopo un anno 100%, dopo 99 quasi certamente 0%
Occorre fissare una data limite (backdating) che
fissa il termine in cui faccio la mia analisi
Il cancro: chi risulta vivo dopo 5 anni dall’inizio
dello studio dei dati è considerato sopravvissuto
indipendentemente da quello che gli accade dopo!
sopravviv.% = numero sopravissuti al tempo T
numero totale dei casi considerati
riduce l’impatto dei censurati (solo per T =5 anni!)
Anni-persona
Al denominatore abbiamo contato “persone”
creando problemi su come considerare i censurati
Si può utilizzare il tempo (es. anni) trascorso da
ciascun soggetto nello studio cioè il numero totale
di anni-persona (tempo-persona) di osservazione
Si utilizzano anche le informazioni delle persone
che per una ragione o per l’altra sono uscite
dallo studio
decessi/mese = numero dei morti = 4 / 503 =0.008
numero mesi
rischio di decesso costante da un mese all’altro!
Tavole di sopravvivenza
Quello che possiamo calcolare è quante persone
sopravvivono almeno un anno, almeno 2 anni ….
non siamo obbligati ad utilizzare intervalli uguali
giorni il primo anno, settimane il secondo, poi mesi
Le tavole di sopravvivenza (life table)
possiedono i vantaggi degli “anni-persona” con
la massima utilizzazione dei dati disponibili
senza lo svantaggio di dover considerare il
rischio costante per lunghi periodi di tempo
Approccio attuariale
Approccio alla Kaplan-Meier
Riporto a inizio studio
a
b
c
d
e
f
g
h
i
j
M
P
M
M
C
M
P
C
P
C
0 12 24 36 48 60 72 84 96 108 120
mesi di permanenza nello studio
pazienti
Tabella attuariale
permanenza soggetti a
nello studio
rischio
0-1 anni
10
1-2
10
2-3
8
3-4
7
4-5
4
5-6
4
6-7
3
7-8
2
8-9
1
9-10
0
soggetti
deceduti
0
1
1
1
0
1
0
0
0
0
soggetti
persi
0
1
0
2
0
0
1
1
1
0
Approccio attuariale
Trattare persone che si ritirano dallo studio (P)
e le censurate (C) allo stesso modo come “perse”
i soggetti ancora vivi all’atto dello studio
p(decesso) = numero persone decedute nel periodo
numero persone a rischio di morte
L’hazard è la probabilità che si verifichi l’evento
in un soggetto che è in osservazione al momento
in cui inizia uno specifico intervallo di tempo
Le persone perse sono (per compromesso)
considerate come mezzo anno-persona:
numero delle persone perse o censurate / 2
Calcolo probabilità
qi = probabilità di morire nel corso dell’anno i
pi = (1 – qi) probabilità sopravvivere nell’anno i
Di = numero delle persone decedute nell’anno i
Li = numero delle persone perse (lost) nell’anno i
Ri = numero soggetti a rischio all’inizio dell’anno i
qi = Di / [ Ri – (Li / 2)]
10 persone arrivano al 2o anno
P2 = 0,895
q2 = 1 / [10 – (1 / 2)] = 0,105 p2 = 0,895
q1 = 0 / [10 – (0 / 2)] = 0
q3 = 1 / [ 8 – (0 / 2)] = 0,125
p3 = 0,875
P3 = 0,783
Pi è la probabilità cumulativa = pi · Pi-1
Tabella probabilità
permanenza
nello studio
probabilità
decesso
probabilità
sopravviv.
probabilità
cumulativa
0-1 anni
1-2
2-3
3-4
4-5
5-6
6-7
7-8
8-9
9-10
0,000
0,105
0,125
0,167
0
0,250
0
0
0
0
1,000
0,895
0,875
0,833
1.000
0,750
1,000
1,000
1,000
1,000
1,000
0,895
0,783
0,652
0,652
0,489
0,489
0,489
0,489
0,489
probabilità sopravvivenza
Curva di sopravvivenza attuariale
1
0,9
0,8
0,7
0,6
0,5
0,4
0
2
4
6
8
10
numero di anni
Tutti gli eventi riportati alla fine dell’intervallo
La differenza tra la probabilità di sopravvivenza
pi e la probabilità cumulativa Pi
questa è una probabilità condizionata pi|Pi-1
Metodo di Kaplan-Meier
Non porre i soggetti deceduti in un intervallo (fisso
ma arbitrario) ma al tempo esatto dell’evento
La funzione di sopravvivenza è calcolata
esattamente quando accade l’evento
La curva della probabilità di sopravvivenza pi
cambia ogniqualvolta accade l’evento
nell’approccio attuariale si hanno intervalli
uguali sull’asse x dei tempi
nell’approccio alla Kaplan-Meier gli intervalli
sono (uguali) sull’asse y delle probabilità
I soggetti persi (ritirati o censurati) sono
considerati a rischio fino al momento del ritiro
Utilizzo di Kaplan-Meier
Ordiniamo tutti i dati in ordine di tempo
segnando (*) quelli persi
14*, 22, 29, 37*, 45*, 46, 61, 76*, 92*, 111*
tempo
(mesi)
numero numero
tasso
sopravv.
a rischio deceduti mortalità
(%)
percent.
cumul.
22
9
1
0,111
0,889
0,889
29
8
1
0,125
0,875
0,778
46
5
1
0,200
0,800
0,622
61
4
1
0,250
0,750
0,467
probabilità di
sopravvivenza
Curva di sopravvivenza Kaplan-Meier
1
0,9
0,8
0,7
0,6
0,5
0,4
0
12
24
36
48
60
72
84
96 108 120
numero di mesi
Con meno di 50 soggetti Kaplan-Meier è più
efficiente: utilizza esattamente l’istante dell’evento
Problema: i “persi” tra due eventi sono ignorati!
Paragone tra curve di sopravvivenza
La sopravvivenza dopo un infarto è peggiore
nei più anziani o in quelli che hanno una
compromissione della funzione ventricolare o
che hanno malattie concomitanti (i diabetici)
Per individuare i fattori che influenzano rischi
post-infartuali
è necessario comparare la sopravvivenza di
due gruppi di pazienti che differiscono solo per
essere stati esposti o non esposti a quel fattore
paragone che potrebbe essere effettuato
disegnando le due curve di sopravvivenza
Log-rank test
Due curve di sopravvivenza possono fra loro
sovrapporsi parzialmente o incrociarsi più volte
ma non risolve il problema!
Paragonare per ogni intervallo di tempo la
sopravvivenza dei pazienti esposti e non esposti
Log-rank test dovuto a Mantel-Cox
confronto tra le probabilità attese dell’evento (il
decesso) con il numero di eventi osservato
anche se il nome del test li richiama non ha
nulla a che fare con i logaritmi e con i ranghi
Confronto
Immaginiamo di avere due gruppi di pazienti
nel primo ci aspettiamo un più basso
numero di decessi rispetto al secondo
La mortalità attesa si calcola assumendo che
essa sia casuale
cioè che essa si ripartisca tra i due gruppi in
misura proporzionale al numero di soggetti
che sono presenti in ciascun gruppo
la ripartizione è espressa, intervallo per intervallo,
dal numero di soggetti a rischio di ciascun gruppo
diviso per il totale dei soggetti a rischio
(l’insieme dei due gruppi) nello stesso intervallo
Esempio
Elenchiamo nei due gruppi il tempo degli eventi
(in giorni) o della censura (tempo di censura, *, è
l’ultimo tempo in cui è noto lo stato del paziente)
I gruppo: 23, 43, 38*, 61, 66*, 83
II gruppo: 25, 26, 36, 60*, 71, 78
In base a questi dati costruiamo una tavola di
sopravvivenza di Kaplan-Meyer
indicando gli eventi nel I gruppo e calcolando la
mortalità osservata e attesa nello stesso gruppo
La mortalità attesa si dovrebbe distribuire
in eguale misura nei due gruppi (0.5 e 0.5)
Tabella
giorni
2
(mortalità
attesa
mortalità
osservata)
=
somma mortalità attese nei due gruppi
Il numeratore può essere calcolato utilizzando i
dati del primo o del secondo indifferentemente
numeratore = 1.132
χ2
Valore del χ2
Il denominatore si calcola moltiplicando i dati
dell’ultima colonna dei due gruppi e sommandoli
0.50 · 0.50 + 0.454 · 0.546 + ...... + 1.00 · 0.00 = 1.98
Il risultato finale è 1.132/1.98 χ2sper = 0.64
Il risultato ottenuto va tradotto in probabilità
consultando la tavola della distribuzione del χ2
in corrispondenza di un numero di gradi di
libertà ν pari al numero dei gruppi meno uno
χ2ν=1 = 3.841 > 0.64 non è pertanto significativo
Non vi è differente mortalità nei primi 83 giorni!