Università degli Studi di Padova - Facoltà di Medicina e Chirurgia Statistica Medica per le Scuole di Specializzazione Analisi della sopravvivenza Francesco Grigoletto ________________________ Unità didattica n. 5 22 giugno 2010 Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti = censurato = morto J Perso di vista I Pazienti della coorte H G F E D C B A 0 1 2 3 4 5 Tempo di calendario (mesi) 6 7 8 9 Censura ● I soggetti a rischio che nel tempo di osservazione non incontrano l’evento si dicono censurati ● Si dicono censurati anche i soggetti che: ─ sono persi al follow-up ─ non sono più a rischio (ad esempio, sono sottoposti ad una vaccinazione per prevenire l’insorgenza della malattia che rappresenta l’evento) Tasso di incidenza (sempre riferito ad un determinato periodo) Numero di nuovi casi nel periodo Incidenza = ×k Numero medio di soggetti a rischio nel periodo Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti = censurato = morto J Perso di vista I Pazienti della coorte H G F E D C B A 0 1 2 3 4 5 Tempo di calendario (mesi) 6 7 8 9 Tasso di incidenza (sempre riferito ad un determinato periodo) Numero di nuovi casi nel periodo Incidenza = ×k Numero medio di soggetti a rischio nel periodo 5 5 I= × 100 = × 100 = 71,43 % (10 + 4)/2 7 nel quadrimestre Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti = censurato = morto J Perso di vista I Pazienti della coorte H G F E D C B A 0 1 2 3 4 5 Tempo di calendario (mesi) 6 7 8 9 Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti = censurato = morto J Perso di vista I Pazienti della coorte H G F E D C B A 0 1 2 3 4 5 Tempo di calendario (mesi) 6 7 8 9 Tasso di incidenza mensile Numero di nuovi casi nel periodo Incidenza = ×k = Numero di persone/mese a rischio nel periodo 5 = × 100 = 9,43 % per persona/mese 53 Analisi della sopravvivenza • Tecnica statistica di analisi di dati - ottenuti da una coorte di unità osservate longitudinalmente - che consente di stimare la probabilità del verificarsi di un determinato evento in funzione del tempo • Si può trattare di un gruppo di pazienti, accomunati da una qualche caratteristica (ad esempio: stessa patologia), considerati un campione casuale di una popolazione con caratteristiche simili per la quale si vuole prevedere la sopravvivenza attesa • Il termine “sopravvivenza” è mutuato dalla Demografia, che studia la speranza di vita. Tuttavia, invece dell’evento morte, si può trattare di un qualsiasi evento (ad esempio: recidiva di una malattia, guarigione, superamento di un esame, ecc.) Dallo studio di coorte alla sopravvivenza Qual è la probabilità che un evento, che non si è verificato prima di un certo tempo t, non si verifichi nel tempo t? Qual è la probabilità cumulativa che un evento non si verifichi ad un certo tempo? L’analisi di sopravvivenza introduce un ordine cronologico nei tempi di sopravvivenza, come non avviene negli indicatori di incidenza Tempo di sopravvivenza di una coorte ipotetica di 10 pazienti = censurato = morto L Perso di vista I Pazienti della coorte H G F E D C B A 0 1 2 3 4 5 Tempo di calendario (mesi) 6 7 8 9 Tempi di sopravvivenza (in mesi) di 10 pazienti I tempi sono ordinati per valori crescenti: 1*, 3, 4*, 5, 5, 6*, 7, 7, 7*, 8* Tempo Censura (1=censurato) 1 1 3 0 4 1 5 0 5 0 6 1 7 0 7 0 7 1 8 1 (* = tempo censurato) Analisi di sopravvivenza ● Può essere fatta sia con metodi parametrici che non parametrici ● Se non è nota la distribuzione dei tempi di sopravvivenza, si usano metodi non parametrici (che prescindono da quella distribuzione) ● Anche quando la distribuzione è nota, i metodi non parametrici forniscono comunque un valido aiuto nell’identificare la forma di quella distribuzione La funzione di sopravvivenza S(t) (Metodo non parametrico di Kaplan-Meier) Dati i tempi di sopravvivenza ordinati t1 < t2 < …..< tk, poiché i tempi di sopravvivenza sono indipendenti, la probabilità di sopravvivenza al tempo ti si ottiene moltiplicando la probabilità di sopravvivere nell’intervallo di tempo [ti-1-ti) per la probabilità di sopravvivere fino all’intervallo precedente [t1-ti-1) Essendo: • ni = numero soggetti esposti al rischio all’inizio dell’intervallo [ti-1-ti) • di = numero soggetti che subiscono l’evento nello stesso intervallo di S ( t ) = S i -1 1 − ni Caratteristiche di S(t) ● È una funzione di probabilità cumulativa: S ( t ) = Pr (T > t) = 1 - Pr (T ≤ t) ● Nel calcolare la funzione, si assume che il motivo per cui un tempo è censurato è indipendente dalla causa che provoca l’evento (ad es.: ciò non è vero se un individuo, incluso in un trial clinico, la cui osservazione è pianificata per un certo periodo, è escluso dallo studio perché poco rispondente al trattamento e quindi viene censurato prima della morte). ● Di solito, se un tempo di censura ed uno di sopravvivenza coincidono, si considera più grande il tempo di censura. Calcolo di S(t) = Pr(T>t) ti di n 1-di/n S(t) Errore standard 0 3 0 1 10 9 1,00 0,89 1,00 0,89 0,10 5 2 7 0,71 0,64 0,15 7 2 4 0,50 0,32 0,13 8 0 1 1,00 0,32 0,13 Product-Limit Survival Fit (Kaplan-Meier) Survival Plot 1.0 0.9 Frazione di sopravviventi 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 Time to event: Censored by 1 2 3 4 Tempo (mesi) 5 6 7 8 Tempo (mesi) Censura Summary Group Combined N Failed N Censored 5 5 Mean 6.04762 Biased Std Dev 0.52576 Quantiles Group Combined Median Time Lower95% 7 Upper95% 3 25% Failures . 75% Failures 5 . Product-Limit Survival Fit (Kaplan-Meier) Survival Plot 1.0 0.9 Frazione di sopravviventi 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 Time to event: Censored by 1 2 3 4 Tempo (mesi) 5 6 7 8 Tempo (mesi) Censura Summary Group Combined N Failed N Censored 5 5 Mean 6.04762 Biased Std Dev 0.52576 Quantiles Group Combined Median Time Lower95% 7 Upper95% 3 25% Failures . 75% Failures 5 . Caratteristiche della funzione S(t) ● Funzione sempre positiva, a gradini, costante nell’intervallo di tempo [ti-1, ti) ● I gradini si presentano soltanto in corrispondenza di un tempo di sopravvivenza (al verificarsi di un evento) ● I soggetti censurati modificano solo il numero degli esposti al rischio S( t ) = 1 =0 per t = 0 per t = ∞ Variabilità campionaria della stima S(t) ● I valori S(t) sono delle stime campionarie ● Peto et al. (1977) ha fornito la seguente formula per calcolare l’errore standard di S(t): 1- p e.s . = p × n dove: p = S(t) stima della probabilità di sopravvivenza al tempo t n = numero di soggetti ancora sotto osservazione Intervallo di confidenza della stima S(t) • Una stima approssimativa dell’intervallo di confidenza, con grado di fiducia pari al 95%, si ottiene dall’espressione: 1- p p ± 2p × n Pazienti con linfoma: tempi di sopravvivenza di 31 pazienti Tempo (mesi) di ni S(t) e.s. 2,5 1 31 0,968 0,032 4,1 1 30 0,935 0,044 4,6 1 29 0,903 0,053 6,4 1 28 0,871 0,060 6,7 1 27 0,839 0,066 7,4 1 26 0,806 0,071 7,6 1 25 0,774 0,075 7,7 1 24 0,742 0,079 7,8 1 23 0,710 0,082 8,8 1 22 0,677 0,084 13,3 1 21 0,645 0,086 13,4 1 20 0,613 0,087 18,3 1 19 0,581 0,089 19,7 1 18 0,548 0,089 21,9 1 17 0,516 0,090 24,7 1 16 0,484 0,090 27,5 1 15 0,452 0,089 29,7 1 14 0,419 0,089 32,9 1 12 0,384 0,088 33,5 1 11 0,349 0,087 Metodo di stima di Kaplan-Meier Curva di sopravvivenza 1.0 Frazione di sopravviventi 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 10 20 30 40 50 60 Tempo di sopravvivenza (mesi) Time to event: Censored by Tempo di sopravvivenza (mesi) Censura Summary Group Combined N Failed N Censored 20 Mean 11 21.5145 Std Dev Biased 2.20645 Quantiles Group Combined Median Time 24.7 Lower95% 8.8 Upper95% 25% Failures . 7.7 75% Failures . Metodo di stima di Kaplan-Meier Curva di sopravvivenza 1.0 Frazione di sopravviventi 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 10 20 30 40 50 60 Tempo di sopravvivenza (mesi) Time to event: Censored by Tempo di sopravvivenza (mesi) Censura Summary Group Combined N Failed N Censored 20 Mean 11 21.5145 Std Dev Biased 2.20645 Quantiles Group Combined Median Time 24.7 Lower95% 8.8 Upper95% 25% Failures . 7.7 75% Failures . Distribuzione non normale dei tempi di sopravvivenza Tempo (mesi) Stima parametrica nel caso di funzione di distribuzione Normale dei tempi di sopravvivenza 0 12 24 Tempo (mesi) 36 48 60 Tempo mediano di sopravvivenza • Valore che supera la metà dei tempi ed è • • • • superato dall’altra metà Spesso usato come indicatore In presenza di dati censurati, è facile da esprimere se tutti i tempi censurati sono superiori alla mediana (non si potrebbe calcolare la media aritmetica) Altrimenti, si considera il tempo t per cui: Pr(T>t) = 0,50 Se la mediana riguarda un intervallo di tempo, si prende il tempo centrale Confronto di curve di sopravvivenza ● Due (o più) gruppi differiscono per un certo fattore (trattamento, sesso, stadio della malattia, ecc.) ● Si vuole valutare se quel fattore influisce sulla sopravvivenza ● Si formula l’ipotesi nulla che, nelle popolazioni da cui i campioni sono stati casualmente estratti, le curve di sopravvivenza siano uguali, anche se le loro stime di Kaplan-Meier differiscono per effetto dell’errore campionario ● Per tale verifica, tra i numerosi test possibili, si può usare il log-rank test (detto anche test di Mantel-Haenszel) Log-rank test ● Adatto a rilevare una differenza tra curve di sopravvivenza quando: ─ il tasso di evenienza dell’evento in un gruppo è consistentemente più alto che nell’altro gruppo ─ il rapporto tra i due tassi è costante nel tempo ─ Ciò equivale a dire che, se, se un individuo è sopravissuto fino al tempo t, la probabilità di morire in un breve intervallo dopo t è k volte più grande in un gruppo rispetto all’altro, e che la stessa affermazione è vera per ogni tempo t. ● L’ipotesi nulla che non vi è nessuna differenza tra le due curve è rappresentata dal valore k=1 Calcolo del log-rank test (1) ● Si considera ciascuna occasione (tempo t) in cui si presenta un evento o più eventi (ad es., uno o più decessi) ● Sulla base del numero di soggetti in ciascun gruppo che sono vivi il momento immediatamente precedente il tempo di quell’evento, si può calcolare il numero di eventi attesi nell’ipotesi che la sopravvivenza sia la medesima nei due gruppi ─ Ad esempio, se dopo t unità di tempo sono vivi 20 individui nel gruppo 1 e 10 nel gruppo 2, e si presentano 3 morti, l’ipotesi nulla fa calcolare che 2 siano le morti attese nel gruppo 1 e una nel gruppo 2. Se invece si presenta un solo caso di morte, il numero atteso nel gruppo 1 è 2/3 mentre nel gruppo 2 è 1/3 (il numero atteso di morti può non essere un intero) Calcolo del log-rank test (2) ● Per completare il calcolo, separatamente per i due gruppi, si sommano i numeri di eventi osservati e i numeri di eventi attesi rispetto a tutti i tempi in cui si sono verificati ● Si confrontano quindi le due somme nei due gruppi ─ Se, nei due gruppi, O1 e O2 rappresentano il numero di morti osservate, e A1 e A2 quelle attese, calcolate sommando i numeri attesi a ciascun tempo, il confronto si effettua mediante la funzione test: ( O 1 - A1) T= 2 A1 ( O 2 - A2 ) + 2 A2 Calcolo del log-rank test (3) ● La funzione T si distribuisce approssimativamente come un (chi-quadrato con un grado di libertà). χ ● Se i gruppi a confronto, anziché 2, sono g, allora la funzione test diventa: g (Oi - Ai ) i =1 Ai T =∑ che si distribuisce come un 2 χ 2 g −1 con g-1 gradi di libertà. 2 1 Verifica dell’ipotesi di uguaglianza Essendo T0 è il valore del test calcolato, si calcola la probabilità: Pr( T > T 0 ) = Pr( χ 2 g -1 >T0 ) = p Se il valore p è inferiore al livello di significatività prefissato (ad esempio: 0,05), si dice che la differenza è statisticamente significativa. Altrimenti si accetta l’ipotesi nulla. Esempio di calcolo del log-rank test (dati ipotetici) Tempi di sopravvivenza, in giorni (* indica tempo censurato): • Gruppo 1: • Gruppo 2: 1*, 3, 4*, 5, 5, 6*, 7, 7, 7*, 8 2, 2, 3*, 4, 6*, 6*, 7, 10 Product-Limit Survival Fit Survival Plot 1.0 1 2 0.9 0.8 Surviving 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 1 2 3 4 5 6 7 8 9 10 11 Tempo di sopravvivenza (mesi) Time to event: Censored by Grouped by Tempo di sopravvivenza (mesi) Censura Gruppo Summary Group N Failed 1 2 Combined N Censored 6 5 11 4 3 7 Mean Std Dev 6.36508 6.2 6.33196 0.62588 1.37136 0.68872 Quantiles Group Median Time Lower95% 7 7 7 1 2 Combined Upper95% 3 2 4 . . 8 Tests Between Groups Test Log-Rank Wilcoxon ChiSquare 0.0011 0.4104 DF 1 1 25% Failures Prob>ChiSq 0.9736 0.5217 75% Failures 5 4 5 8 10 8 Esempio di calcolo del log-rank test d d e2 = n 2 × n n t n n1 n2 di c o1 o2 e1 = n1 × 1 18 10 8 0 1 0 0 0,00 0,00 2 17 9 8 2 0 0 2 1,06 0,94 3 15 9 6 1 1 1 0 0,80 0,40 4 13 8 5 1 1 0 1 0,62 0,38 5 11 7 4 2 0 2 0 1,27 0,73 6 9 5 4 0 3 0 0 0,00 0,00 7 6 4 2 3 1 2 1 2,00 1,00 8 2 1 1 1 0 1 0 0,50 0,50 6 4 6,05 3,95 Totale Valore del test T0 = (6−6,05) + (4−3,95) 2 6,05 2 3,95 = 0,01 Verifica di ipotesi Si confronta il valore del test T0 = 0,01 χα 2 con il valore critico Se α = 0,05, allora Poiché χ 2 0 ,05 T 0 = 0 ,01 < χ = 3,84. 2 0,05 = 3,84 allora si accetta l’ipotesi di nessuna differenza tra le due curve. Esempio: Tempi di sopravvivenza (in mesi) per 64 pazienti con linfomi distinti in due gruppi secondo il tipo di sintomi (l’asterisco indica un tempo censurato) Gruppo A 3.2*, 4.4*, 6.2, 9.0,9.9, 14.4, 15.8, 18.5, 27.6*, 28.5, 30.1*, 31.5*, 32.2*, 41.0, 41.8*, 44.5*, 47.8*, 50.6*, 54.3*, 55.0, 60.0*, 60.4*, 63.6*, 63.7*, 63.8*, 66.1*, 68.0*, 68.7*, 68.8*, 70.9*, 71.5*, 75.3*, 75.7* Gruppo B 2.5, 4.1, 4.6, 6.4, 6.7, 7.4, 7.6, 7.7, 7.8, 8.8, 13.3, 13.4, 18.3, 19.7, 21.9, 24.7, 27.5, 29.7, 30.1*, 32.9, 33.5, 35.4*, 37.7*, 40.9*, 42.6*, 45.4*, 48.5*, 48.9*, 60.4*, 64.4*, 66.4* Product-Limit Survival Fit Survival Plot 1.0 1 2 0.9 0.8 Surviving 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0 10 20 30 40 50 60 70 80 Tempo di sopravvivenza (mesi) Time to event: Censored by Grouped by Tempo di sopravvivenza (mesi) Censura Tipo di sintomi Summary Group N Failed 1 2 Combined N Censored 9 20 29 Mean 24 11 35 45.304 21.5145 37.1191 Std Dev Biased Biased Biased 3.27686 2.20645 2.67707 Quantiles Group Median Time 1 2 Combined Lower95% . Upper95% 55 8.8 27.5 24.7 . . . . Tests Between Groups Test Log-Rank Wilcoxon ChiSquare 9.4412 9.8385 DF 1 1 25% Failures Prob>ChiSq 0.0021 0.0017 75% Failures 41 7.7 14.4 . . . Analisi di regressione dei tempi di sopravvivenza • Domanda: la differenza tra le due curve è dovuta ad altri importanti fattori prognostici oltre che il tipo di sintomi (ad es., lo stadio della malattia o la presenza di una grossa massa addominale)? • Si può interpretare con un modello matematico il tasso di mortalità d(t), ossia la probabilità di morire al tempo t essendo noto che l’individuo non è morto prima? Il modello di Cox a rischi proporzionali k log [d(t; x )] = log[d 0 ( t )] + ∑ bi x i i =1 dove x1, x2, …., xk sono i fattori esplicativi (covariate); d(t;x) è il tasso di mortalità al tempo t di un soggetto con le caratteristiche x d0(t) è il tasso di mortalità per un individuo con tutte le covariate uguali a zero Modelli di regressione yi = a + b x i Se con più covariate, si ha: yi = a + b1 x1 + b2 x 2 + ...... • Se bi = 0, allora la covariata non è associata alla sopravvivenza, quando si corregge il modello per le altre covariate • Se le covariate sono binarie (assumono solo 2 valori), è facile esprimere il coefficiente in termini di rischio relativo: RR i = e bi Perché “rischi proporzionali”? Dal modello di regressione: k log [d(t; x )] = log[d 0 ( t )] + ∑ bi x i i =1 si ricava: k d ( t; x ) = d 0 ( t ) × exp [ ∑ bi x i ] i =1 che specifica che il tasso di mortalità per un individuo caratterizzato dai valori delle covariate x è un multiplo costante nel tempo del tasso di mortalità al basale. Così il rapporto d ( t; x ) d0 ( t ) k è sempre uguale a exp[ ∑ bi x i ] i =1 L’esempio dei linfomi Tre covariate: X1 = 1 se la malattia è allo stadio IV; = 0 altrimenti X2 = 1 se il paziente presenta i sintomi B; = 0 altrimenti X3 = 1 se è presente una massa addominale > 10 cm; = 0 altrimenti Coefficiente di regressione Rischio relativo Intervallo di confidenza 95% Stadio IV della malattia 1,38 3,97 (1,35; 11,68) Sintomi B 1,10 3,00 (1,35; 6,71) Massa addominale 1,74 5,70 (1,47; 22,03) Covariata Sopravvivenza dei tessuti utilizzati per trapianti PK per tipo di indicazione al trapianto 1,00 S o p r a v v i v e n z a 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 Cheratocono Altre patologie 0,00 0 6 12 18 24 30 Mesi dal trapianto 36 42 48 54 Trapianti di PK: individuazione di potenziali fattori di rischio di fallimento del trapianto Fattore Hazard Ratio Limiti di Confidenza 95% Patologia (altre vs cheratocono) 5,5 2,7 - 11,0 Infezione oculare (Sì vs No) 2,0 1,1 - 3,9 Valore p < 0,0001 0,01 Trapianti di LK: individuazione di potenziali fattori di rischio di fallimento del trapianto Fattore Patologia (altre vs cheratocono) Hazard Ratio 2,4 Limiti di Confidenza 95% 1,2 - 4,8 Valore p 0,01 Problema Verificare la superiorità di un regime di trattamento basato su tacrolimus a rilascio modificato rispetto ad un regime di tacrolimus standard in pazienti sottoposti a trapianto di rene. Disegno: 2 gruppi paralleli, di uguale numerosità. Risposta sperimentale: Tempo al rigetto acuto documentato da biopsia entro le prime 24 settimane dal trapianto. Tecnica statistica: logrank test (a due code). Tassi ipotizzati per l’evento: π1=0,20 (da studi su tacrolimus standard) π2=0,30 (∆=0,10) Errore di I tipo: α=0,05 Potenza desiderata: 1-β=80% Soluzione problema Verificare la superiorità di un regime di trattamento basato su tacrolimus a rilascio modificato rispetto ad un regime di tacrolimus standard in pazienti sottoposti a trapianto di rene. Tassi ipotizzati per l’evento: π1=0,20 (da studi su tacrolimus standard) π2=0,30 (∆=0,10) da cui: h= ln π 1 ln 0,20 = = 1,337 ln π 2 ln 0,30 Essendo α=0,05 (due code) e la potenza dell’80%, si ha z1-α/2=1,96 e zβ=0,84. per cui: ( z1−α / 2 + z1− β ) (h +1) (1,96+ 0,84) × (1,337 +1) e= = 2 2 (h −1) 2 2 2 2 2 × (1,337 −1) 2e 2 × 189 n= = = 252 2 − π 1 − π 2 2 − 0,2 − 0,3 2 = 188,5 Si devono osservare 189 eventi in 252 pazienti reclutati.