Università degli Studi di Padova - Facoltà di Medicina e Chirurgia
Statistica Medica
per le Scuole di Specializzazione
Analisi della sopravvivenza
Francesco Grigoletto
________________________
Unità didattica n. 5
22 giugno 2010
Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti
= censurato
= morto
J
Perso di vista
I
Pazienti della coorte
H
G
F
E
D
C
B
A
0
1
2
3
4
5
Tempo di calendario (mesi)
6
7
8
9
Censura
● I soggetti a rischio che nel tempo di osservazione non
incontrano l’evento si dicono censurati
● Si dicono censurati anche i soggetti che:
─ sono persi al follow-up
─ non sono più a rischio (ad esempio, sono sottoposti ad
una vaccinazione per prevenire l’insorgenza della
malattia che rappresenta l’evento)
Tasso di incidenza
(sempre riferito ad un determinato
periodo)
Numero di nuovi casi nel periodo
Incidenza =
×k
Numero medio di soggetti a rischio nel periodo
Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti
= censurato
= morto
J
Perso di vista
I
Pazienti della coorte
H
G
F
E
D
C
B
A
0
1
2
3
4
5
Tempo di calendario (mesi)
6
7
8
9
Tasso di incidenza
(sempre riferito ad un determinato
periodo)
Numero di nuovi casi nel periodo
Incidenza =
×k
Numero medio di soggetti a rischio nel periodo
5
5
I=
× 100 = × 100 = 71,43 %
(10 + 4)/2
7
nel quadrimestre
Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti
= censurato
= morto
J
Perso di vista
I
Pazienti della coorte
H
G
F
E
D
C
B
A
0
1
2
3
4
5
Tempo di calendario (mesi)
6
7
8
9
Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti
= censurato
= morto
J
Perso di vista
I
Pazienti della coorte
H
G
F
E
D
C
B
A
0
1
2
3
4
5
Tempo di calendario (mesi)
6
7
8
9
Tasso di incidenza mensile
Numero di nuovi casi nel periodo
Incidenza =
×k =
Numero di persone/mese a rischio nel periodo
5
= × 100 = 9,43 % per persona/mese
53
Analisi della sopravvivenza
•
Tecnica statistica di analisi di dati - ottenuti da una
coorte di unità osservate longitudinalmente - che
consente di stimare la probabilità del verificarsi di un
determinato evento in funzione del tempo
•
Si può trattare di un gruppo di pazienti, accomunati da
una qualche caratteristica (ad esempio: stessa
patologia), considerati un campione casuale di una
popolazione con caratteristiche simili per la quale si
vuole prevedere la sopravvivenza attesa
•
Il termine “sopravvivenza” è mutuato dalla Demografia,
che studia la speranza di vita. Tuttavia, invece
dell’evento morte, si può trattare di un qualsiasi evento
(ad esempio: recidiva di una malattia, guarigione,
superamento di un esame, ecc.)
Dallo studio di coorte alla sopravvivenza
Qual è la probabilità che un evento, che non si è verificato prima
di un certo tempo t, non si verifichi nel tempo t?
Qual è la probabilità cumulativa che un evento non si verifichi
ad un certo tempo?
L’analisi di sopravvivenza introduce un ordine cronologico nei
tempi di sopravvivenza, come non avviene negli indicatori di
incidenza
Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti
= censurato
= morto
L
Perso di vista
I
Pazienti della coorte
H
G
F
E
D
C
B
A
0
1
2
3
4
5
Tempo di calendario (mesi)
6
7
8
9
Tempi di sopravvivenza (in mesi) di 10 pazienti
I tempi sono ordinati per valori crescenti:
1*, 3, 4*, 5, 5, 6*, 7, 7, 7*, 8*
Tempo Censura (1=censurato)
1
1
3
0
4
1
5
0
5
0
6
1
7
0
7
0
7
1
8
1
(* = tempo censurato)
Analisi di sopravvivenza
● Può essere fatta sia con metodi parametrici che
non parametrici
● Se non è nota la distribuzione dei tempi di
sopravvivenza, si usano metodi non parametrici
(che prescindono da quella distribuzione)
● Anche quando la distribuzione è nota, i metodi
non parametrici forniscono comunque un valido
aiuto nell’identificare la forma di quella
distribuzione
La funzione di sopravvivenza S(t)
(Metodo non parametrico di Kaplan-Meier)
Dati i tempi di sopravvivenza ordinati
t1 < t2 < …..< tk,
poiché i tempi di sopravvivenza sono indipendenti, la probabilità di
sopravvivenza al tempo ti si ottiene moltiplicando la probabilità di
sopravvivere nell’intervallo di tempo [ti-1-ti) per la probabilità di
sopravvivere fino all’intervallo precedente [t1-ti-1)
Essendo:
• ni = numero soggetti esposti al rischio all’inizio dell’intervallo [ti-1-ti)
• di = numero soggetti che subiscono l’evento nello stesso intervallo
 di 
S ( t ) = S i -1 1 − 
 ni 
Caratteristiche di S(t)
● È una funzione di probabilità cumulativa:
S ( t ) = Pr (T > t) = 1 - Pr (T ≤ t)
● Nel calcolare la funzione, si assume che il motivo per cui un
tempo è censurato è indipendente dalla causa che provoca
l’evento (ad es.: ciò non è vero se un individuo, incluso in un trial
clinico, la cui osservazione è pianificata per un certo periodo, è
escluso dallo studio perché poco rispondente al trattamento e
quindi viene censurato prima della morte).
● Di solito, se un tempo di censura ed uno di sopravvivenza
coincidono, si considera più grande il tempo di censura.
Calcolo di S(t) = Pr(T>t)
ti
di
n
1-di/n
S(t)
Errore
standard
0
3
0
1
10
9
1,00
0,89
1,00
0,89
0,10
5
2
7
0,71
0,64
0,15
7
2
4
0,50
0,32
0,13
8
0
1
1,00
0,32
0,13
Product-Limit Survival Fit (Kaplan-Meier)
Survival Plot
1.0
0.9
Frazione di sopravviventi
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
Time to event:
Censored by
1
2
3
4
Tempo (mesi)
5
6
7
8
Tempo (mesi)
Censura
Summary
Group
Combined
N Failed
N Censored
5
5
Mean
6.04762
Biased
Std Dev
0.52576
Quantiles
Group
Combined
Median Time
Lower95%
7
Upper95%
3
25% Failures
.
75% Failures
5
.
Product-Limit Survival Fit (Kaplan-Meier)
Survival Plot
1.0
0.9
Frazione di sopravviventi
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
Time to event:
Censored by
1
2
3
4
Tempo (mesi)
5
6
7
8
Tempo (mesi)
Censura
Summary
Group
Combined
N Failed
N Censored
5
5
Mean
6.04762
Biased
Std Dev
0.52576
Quantiles
Group
Combined
Median Time
Lower95%
7
Upper95%
3
25% Failures
.
75% Failures
5
.
Caratteristiche della funzione S(t)
●
Funzione sempre positiva, a gradini, costante nell’intervallo di
tempo [ti-1, ti)
●
I gradini si presentano soltanto in corrispondenza di un tempo
di sopravvivenza (al verificarsi di un evento)
●
I soggetti censurati modificano solo il numero degli esposti al
rischio
S( t ) = 1
=0
per t = 0
per t = ∞
Variabilità campionaria della stima S(t)
● I valori S(t) sono delle stime campionarie
● Peto et al. (1977) ha fornito la seguente formula
per calcolare l’errore standard di S(t):
1- p
e.s . = p ×
n
dove:
p = S(t) stima della probabilità di sopravvivenza al tempo t
n = numero di soggetti ancora sotto osservazione
Intervallo di confidenza della stima S(t)
• Una stima approssimativa dell’intervallo di
confidenza, con grado di fiducia pari al 95%, si
ottiene dall’espressione:
1- p
p ± 2p ×
n
Pazienti con linfoma: tempi di sopravvivenza di 31 pazienti
Tempo (mesi)
di
ni
S(t)
e.s.
2,5
1
31
0,968
0,032
4,1
1
30
0,935
0,044
4,6
1
29
0,903
0,053
6,4
1
28
0,871
0,060
6,7
1
27
0,839
0,066
7,4
1
26
0,806
0,071
7,6
1
25
0,774
0,075
7,7
1
24
0,742
0,079
7,8
1
23
0,710
0,082
8,8
1
22
0,677
0,084
13,3
1
21
0,645
0,086
13,4
1
20
0,613
0,087
18,3
1
19
0,581
0,089
19,7
1
18
0,548
0,089
21,9
1
17
0,516
0,090
24,7
1
16
0,484
0,090
27,5
1
15
0,452
0,089
29,7
1
14
0,419
0,089
32,9
1
12
0,384
0,088
33,5
1
11
0,349
0,087
Metodo di stima di Kaplan-Meier
Curva di sopravvivenza
1.0
Frazione di sopravviventi
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
10
20
30
40
50
60
Tempo di sopravvivenza (mesi)
Time to event:
Censored by
Tempo di sopravvivenza (mesi)
Censura
Summary
Group
Combined
N Failed
N Censored
20
Mean
11
21.5145
Std Dev
Biased
2.20645
Quantiles
Group
Combined
Median Time
24.7
Lower95%
8.8
Upper95%
25% Failures
.
7.7
75% Failures
.
Metodo di stima di Kaplan-Meier
Curva di sopravvivenza
1.0
Frazione di sopravviventi
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
10
20
30
40
50
60
Tempo di sopravvivenza (mesi)
Time to event:
Censored by
Tempo di sopravvivenza (mesi)
Censura
Summary
Group
Combined
N Failed
N Censored
20
Mean
11
21.5145
Std Dev
Biased
2.20645
Quantiles
Group
Combined
Median Time
24.7
Lower95%
8.8
Upper95%
25% Failures
.
7.7
75% Failures
.
Distribuzione non normale dei tempi di
sopravvivenza
Tempo (mesi)
Stima parametrica nel caso di funzione di
distribuzione Normale dei tempi di
sopravvivenza
0
12
24
Tempo (mesi)
36
48
60
Tempo mediano di sopravvivenza
• Valore che supera la metà dei tempi ed è
•
•
•
•
superato dall’altra metà
Spesso usato come indicatore
In presenza di dati censurati, è facile da
esprimere se tutti i tempi censurati sono
superiori alla mediana (non si potrebbe
calcolare la media aritmetica)
Altrimenti, si considera il tempo t per cui:
Pr(T>t) = 0,50
Se la mediana riguarda un intervallo di tempo,
si prende il tempo centrale
Confronto di curve di sopravvivenza
● Due (o più) gruppi differiscono per un certo
fattore (trattamento, sesso, stadio della malattia,
ecc.)
● Si vuole valutare se quel fattore influisce sulla
sopravvivenza
● Si formula l’ipotesi nulla che, nelle popolazioni da
cui i campioni sono stati casualmente estratti, le
curve di sopravvivenza siano uguali, anche se le
loro stime di Kaplan-Meier differiscono per effetto
dell’errore campionario
● Per tale verifica, tra i numerosi test possibili, si
può usare il log-rank test (detto anche test di
Mantel-Haenszel)
Log-rank test
● Adatto a rilevare una differenza tra curve di
sopravvivenza quando:
─ il tasso di evenienza dell’evento in un gruppo è
consistentemente più alto che nell’altro gruppo
─ il rapporto tra i due tassi è costante nel tempo
─ Ciò equivale a dire che, se, se un individuo è
sopravissuto fino al tempo t, la probabilità di morire
in un breve intervallo dopo t è k volte più grande in
un gruppo rispetto all’altro, e che la stessa
affermazione è vera per ogni tempo t.
● L’ipotesi nulla che non vi è nessuna differenza
tra le due curve è rappresentata dal valore
k=1
Calcolo del log-rank test (1)
● Si considera ciascuna occasione (tempo t) in
cui si presenta un evento o più eventi (ad es.,
uno o più decessi)
● Sulla base del numero di soggetti in ciascun
gruppo che sono vivi il momento
immediatamente precedente il tempo di
quell’evento, si può calcolare il numero di
eventi attesi nell’ipotesi che la sopravvivenza
sia la medesima nei due gruppi
─ Ad esempio, se dopo t unità di tempo sono vivi 20
individui nel gruppo 1 e 10 nel gruppo 2, e si
presentano 3 morti, l’ipotesi nulla fa calcolare che 2
siano le morti attese nel gruppo 1 e una nel gruppo
2. Se invece si presenta un solo caso di morte, il
numero atteso nel gruppo 1 è 2/3 mentre nel gruppo
2 è 1/3 (il numero atteso di morti può non essere un
intero)
Calcolo del log-rank test (2)
● Per completare il calcolo, separatamente per i due gruppi, si
sommano i numeri di eventi osservati e i numeri di eventi
attesi rispetto a tutti i tempi in cui si sono verificati
● Si confrontano quindi le due somme nei due gruppi
─ Se, nei due gruppi,
O1 e O2
rappresentano il numero di morti osservate, e
A1 e A2
quelle attese, calcolate sommando i numeri attesi a
ciascun tempo, il confronto si effettua mediante la
funzione test:
(
O
1 - A1)
T=
2
A1
(
O
2 - A2 )
+
2
A2
Calcolo del log-rank test (3)
● La funzione T si distribuisce approssimativamente come un
(chi-quadrato con un grado di libertà).
χ
● Se i gruppi a confronto, anziché 2, sono g, allora la funzione
test diventa:
g
(Oi - Ai )
i =1
Ai
T =∑
che si distribuisce come un
2
χ
2
g −1 con g-1 gradi di libertà.
2
1
Verifica dell’ipotesi di uguaglianza
Essendo T0 è il valore del test calcolato, si calcola la probabilità:
Pr( T > T 0 ) = Pr( χ
2
g -1
>T0 ) = p
Se il valore p è inferiore al livello di significatività prefissato
(ad esempio: 0,05), si dice che la differenza è statisticamente
significativa. Altrimenti si accetta l’ipotesi nulla.
Esempio di calcolo del log-rank test (dati
ipotetici)
Tempi di sopravvivenza, in giorni (* indica
tempo censurato):
• Gruppo 1:
• Gruppo 2:
1*, 3, 4*, 5, 5, 6*, 7, 7, 7*, 8
2, 2, 3*, 4, 6*, 6*, 7, 10
Product-Limit Survival Fit
Survival Plot
1.0
1
2
0.9
0.8
Surviving
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
1
2
3
4
5
6
7
8
9
10
11
Tempo di sopravvivenza (mesi)
Time to event:
Censored by
Grouped by
Tempo di sopravvivenza (mesi)
Censura
Gruppo
Summary
Group
N Failed
1
2
Combined
N Censored
6
5
11
4
3
7
Mean
Std Dev
6.36508
6.2
6.33196
0.62588
1.37136
0.68872
Quantiles
Group
Median Time
Lower95%
7
7
7
1
2
Combined
Upper95%
3
2
4
.
.
8
Tests Between Groups
Test
Log-Rank
Wilcoxon
ChiSquare
0.0011
0.4104
DF
1
1
25% Failures
Prob>ChiSq
0.9736
0.5217
75% Failures
5
4
5
8
10
8
Esempio di calcolo del log-rank test
d
d
e2 = n 2 ×
n
n
t
n
n1
n2
di
c
o1
o2
e1 = n1 ×
1
18
10
8
0
1
0
0
0,00
0,00
2
17
9
8
2
0
0
2
1,06
0,94
3
15
9
6
1
1
1
0
0,80
0,40
4
13
8
5
1
1
0
1
0,62
0,38
5
11
7
4
2
0
2
0
1,27
0,73
6
9
5
4
0
3
0
0
0,00
0,00
7
6
4
2
3
1
2
1
2,00
1,00
8
2
1
1
1
0
1
0
0,50
0,50
6
4
6,05
3,95
Totale
Valore del test
T0 =
(6−6,05) + (4−3,95)
2
6,05
2
3,95
= 0,01
Verifica di ipotesi
Si confronta il valore del test
T0 = 0,01
χα
2
con il valore critico
Se α = 0,05, allora
Poiché
χ
2
0 ,05
T 0 = 0 ,01 < χ
= 3,84.
2
0,05
= 3,84
allora si accetta l’ipotesi di nessuna differenza tra le due curve.
Esempio: Tempi di sopravvivenza (in mesi) per 64 pazienti
con linfomi distinti in due gruppi secondo il tipo di sintomi
(l’asterisco indica un tempo censurato)
Gruppo A
3.2*, 4.4*, 6.2, 9.0,9.9, 14.4, 15.8, 18.5, 27.6*, 28.5, 30.1*, 31.5*, 32.2*,
41.0, 41.8*, 44.5*, 47.8*, 50.6*, 54.3*, 55.0, 60.0*, 60.4*, 63.6*, 63.7*,
63.8*, 66.1*, 68.0*, 68.7*, 68.8*, 70.9*, 71.5*, 75.3*, 75.7*
Gruppo B
2.5, 4.1, 4.6, 6.4, 6.7, 7.4, 7.6, 7.7, 7.8, 8.8, 13.3, 13.4, 18.3, 19.7, 21.9,
24.7, 27.5, 29.7, 30.1*, 32.9, 33.5, 35.4*, 37.7*, 40.9*, 42.6*, 45.4*,
48.5*, 48.9*, 60.4*, 64.4*, 66.4*
Product-Limit Survival Fit
Survival Plot
1.0
1
2
0.9
0.8
Surviving
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
10
20
30
40
50
60
70
80
Tempo di sopravvivenza (mesi)
Time to event:
Censored by
Grouped by
Tempo di sopravvivenza (mesi)
Censura
Tipo di sintomi
Summary
Group
N Failed
1
2
Combined
N Censored
9
20
29
Mean
24
11
35
45.304
21.5145
37.1191
Std Dev
Biased
Biased
Biased
3.27686
2.20645
2.67707
Quantiles
Group
Median Time
1
2
Combined
Lower95%
.
Upper95%
55
8.8
27.5
24.7
.
.
.
.
Tests Between Groups
Test
Log-Rank
Wilcoxon
ChiSquare
9.4412
9.8385
DF
1
1
25% Failures
Prob>ChiSq
0.0021
0.0017
75% Failures
41
7.7
14.4
.
.
.
Analisi di regressione dei tempi di
sopravvivenza
•
Domanda: la differenza tra le due curve è dovuta ad
altri importanti fattori prognostici oltre che il tipo di
sintomi (ad es., lo stadio della malattia o la presenza di
una grossa massa addominale)?
•
Si può interpretare con un modello matematico il tasso
di mortalità d(t), ossia la probabilità di morire al tempo
t essendo noto che l’individuo non è morto prima?
Il modello di Cox a rischi proporzionali
k
log [d(t; x )] = log[d 0 ( t )] + ∑ bi x i
i =1
dove
x1, x2, …., xk
sono i fattori esplicativi (covariate);
d(t;x) è il tasso di mortalità al tempo t di un soggetto con
le caratteristiche x
d0(t) è il tasso di mortalità per un individuo con tutte le
covariate uguali a zero
Modelli di regressione
yi = a + b x i
Se con più covariate, si ha:
yi = a + b1 x1 + b2 x 2 + ......
• Se bi = 0, allora la covariata non è associata alla sopravvivenza,
quando si corregge il modello per le altre covariate
• Se le covariate sono binarie (assumono solo 2 valori), è facile
esprimere il coefficiente in termini di rischio relativo:
RR i = e bi
Perché “rischi proporzionali”?
Dal modello di regressione:
k
log [d(t; x )] = log[d 0 ( t )] + ∑ bi x i
i =1
si ricava:
k
d ( t; x ) = d 0 ( t ) × exp [ ∑ bi x i ]
i =1
che specifica che il tasso di mortalità per un individuo
caratterizzato dai valori delle covariate x è un multiplo costante
nel tempo del tasso di mortalità al basale.
Così il rapporto
d ( t; x )
d0 ( t )
k
è sempre uguale a exp[ ∑ bi x i ]
i =1
L’esempio dei linfomi
Tre covariate:
X1 = 1 se la malattia è allo stadio IV; = 0 altrimenti
X2 = 1 se il paziente presenta i sintomi B; = 0 altrimenti
X3 = 1 se è presente una massa addominale > 10 cm; = 0 altrimenti
Coefficiente
di
regressione
Rischio
relativo
Intervallo di
confidenza
95%
Stadio IV della
malattia
1,38
3,97
(1,35; 11,68)
Sintomi B
1,10
3,00
(1,35; 6,71)
Massa addominale
1,74
5,70
(1,47; 22,03)
Covariata
Sopravvivenza dei tessuti utilizzati per trapianti
PK per tipo di indicazione al trapianto
1,00
S
o
p
r
a
v
v
i
v
e
n
z
a
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
Cheratocono
Altre patologie
0,00
0
6
12
18
24
30
Mesi dal trapianto
36
42
48
54
Trapianti di PK: individuazione di
potenziali fattori di rischio di fallimento
del trapianto
Fattore
Hazard
Ratio
Limiti di
Confidenza 95%
Patologia (altre vs
cheratocono)
5,5
2,7
- 11,0
Infezione oculare (Sì vs
No)
2,0
1,1
-
3,9
Valore p
< 0,0001
0,01
Trapianti di LK: individuazione di
potenziali fattori di rischio di fallimento
del trapianto
Fattore
Patologia (altre vs
cheratocono)
Hazard
Ratio
2,4
Limiti di Confidenza
95%
1,2
- 4,8
Valore p
0,01
Problema
Verificare la superiorità di un regime di trattamento
basato su tacrolimus a rilascio modificato rispetto ad un
regime di tacrolimus standard in pazienti sottoposti a
trapianto di rene.
Disegno:
2 gruppi paralleli, di uguale numerosità.
Risposta sperimentale: Tempo al rigetto acuto documentato da biopsia entro le
prime 24 settimane dal trapianto.
Tecnica statistica: logrank test (a due code).
Tassi ipotizzati per l’evento: π1=0,20 (da studi su tacrolimus standard)
π2=0,30 (∆=0,10)
Errore di I tipo: α=0,05
Potenza desiderata: 1-β=80%
Soluzione problema
Verificare la superiorità di un regime di trattamento
basato su tacrolimus a rilascio modificato rispetto ad un
regime di tacrolimus standard in pazienti sottoposti a
trapianto di rene.
Tassi ipotizzati per l’evento: π1=0,20 (da studi su tacrolimus standard)
π2=0,30 (∆=0,10)
da cui:
h=
ln π 1 ln 0,20
=
= 1,337
ln π 2 ln 0,30
Essendo α=0,05 (due code) e la potenza dell’80%, si ha z1-α/2=1,96 e zβ=0,84.
per cui:
(
z1−α / 2 + z1− β ) (h +1) (1,96+ 0,84) × (1,337 +1)
e=
=
2
2 (h −1)
2
2
2
2
2 × (1,337 −1)
2e
2 × 189
n=
=
= 252
2 − π 1 − π 2 2 − 0,2 − 0,3
2
= 188,5
Si devono osservare 189 eventi
in 252 pazienti reclutati.