Analisi di sopravvivenza Insieme di metodi statistici per l’analisi della distribuzione del tempo di comparsa di un evento. È una modalità di analisi per dati provenienti da studi di coorte che consente di stimare la probabilità che un determinato evento si produca in un determinato istante temporale. Dati di sopravvivenza Evento di interesse (morte, diagnosi, ricaduta, ...) Tempo tra l’ingresso nello studio e l’evento di interesse (tempo di sopravvivenza, durata) Covariate (caratteristiche del paziente quali età, sesso, esposizione, ...) caratteristiche peculiari dell’analisi tempi di sopravvivenza non normali soggetti con tempo di sopravvivenza non noto (osservazioni censurate) Tempo di sopravvivenza Il primo passo di un‘analisi di sopravvivenza è il calcolo del tempo di sopravvivenza in base alla differenza tra istante di occorrenza dell’evento e momento dell’ingresso nello studio. Osservazioni troncate Osservazioni troncate Sono i soggetti che non hanno avuto l’evento di interesse durante il periodo di osservazione (follow-up). Censura del I tipo Per questi soggetti il tempo di sopravvivenza non è noto, ma sappiamo che sarà ! (uguale al/maggiore del) tempo di follow-up. Censura casuale Analisi di dati di sopravvivenza Esistono altre situazioni che portano a dati troncati: 1. Il paziente ha avuto un evento differente da quello di interesse che ha reso impossibile un ulteriore follow-up. (Es.: Si è verificato un incidente oppure è morto per un’altra causa.) 2. Il paziente è perso al follow-up durante il periodo di studio. (Es.: Non si presenta ai controlli programmati oppure è emigrato all’estero.) I pazienti persi al follow-up potrebbero aver avuto l’evento di interesse dopo che li abbiamo persi di vista. Una proporzione alta di soggetti in questa condizione indica scarsa qualità dello studio. I tempi di sopravvivenza non sono normali La distribuzione dei tempi di sopravvivenza è descritta da tre funzioni: La maggior parte dei metodi statistici che vengono usati nell’analisi di dati di sopravvivenza si basano sulle seguenti assunzioni: 1. Condizionatamente a quanto accaduto al tempo t, il meccanismo che genera l’evento per individui diversi agisce in modo indipendente in (t, t+dt). 2. Il meccanismo di censura è indipendente dall'evento di interesse. Lo schema di censura casuale con le variabili C (censura) e T (tempo di sopravvivenza) indipendenti è uno dei più realistici e più semplici schemi che soddisfa le due condizioni richieste. Funzione di sopravvivenza La funzione di sopravvivenza è la probabilità che l’evento di interesse avvenga dopo un certo tempo t. Se T è la variabile casuale “tempo di sopravvivenza”, allora: S ! t "= P !T #t " • Funzione di densità: f(t) • Funzione di sopravvivenza: S(t) • Funzione di rischio (hazard): h(t), !(t) $ S(t) è non-crescente. $ S(t) tende a zero quando t tende ad infinito. $ S(0) = 1 Curva di sopravvivenza USA 1979-81 Esempi Effetto del tabacco sulla curva di sopravvivenza di maschi bianchi oltre i trent’anni (studio del 1938) Funzione di rischio Effetto del tabacco sulla curva di sopravvivenza di maschi bianchi oltre i trent’anni (studio del 1938). La funzione di rischio è definita come la probabilità che l’evento accada al tempo t condizionatamente al fatto che non si è verificato entro il tempo t. P ! t &T 't (dt)T *t " f !t " = # 0 dt S !t " dt % 0 h !t "= lim Funzione di rischio per trapiantati Esempi trapianto cardiaco Stima non parametrica Modelli statistici S ! t " = 1+F ! t " f !t" h !t " = S !t " f ! t " = h! t " S ! t " d log S ! t " h !t " = + dt I modelli statistici per l'analisi di dati di sopravvivenza sono univocamente specificati da una qualsiasi di queste quantità. Modelli parametrici Modelli non parametrici Le funzioni di sopravvivenza e le funzioni di rischio hanno spesso forme molto particolari, difficilmente paragonabili a distribuzioni note. Questo è il motivo per cui gli approcci non parametrici per la stima di S(t) e di h(t) hanno preso il sopravvento nell’analisi dei dati di durata. La presenza di dati censurati impedisce l’utilizzo dei classici metodi non parametrici basati sui ranghi. In particolare, le procedure grafiche standard quali gli istogrammi (o la funzione di ripartizione empirica) non possono essere usati. Abbiamo bisogno di un metodo che includa l’informazione derivante dai dati censurati: Stimatore di Kaplan-Meier Stimatore di Kaplan-Meier Stimatore di Kaplan-Meier Si supponga di avere k pazienti che hanno l’evento di interesse nel periodo di follow-up ai tempi distinti t1 < t2 < ! < ti-1 < ti < ! < tk. In altri termini, avendo t1 < t2 < ! < ti-1 < ti < ! < tk, lo stimatore di KaplanMeier è definito da: Poiché gli eventi sono tra loro indipendenti, la probabilità di sopravvivenza al tempo ti può essere ottenuta moltiplicando la probabilità di superare il tempo ti per la probabilità di aver superato i tempi precedenti [t1 " ti-1 ], ovvero: ! " S i =S i+1 1+ di ni dove di è numero di eventi al tempo ti ed ni il numero di soggetti esposti al rischio prima di ti. Esempio S, ! t "=t i &t ! " ni +d i ni dove di è numero di eventi al tempo ti ed ni il numero di soggetti esposti al rischio prima di ti. $ nessun dato censurato: ni è il numero di soggetti a rischio prima di ti $ dati censurati: ni è il numero di soggetti a rischio al tempo ti meno i soggetti persi (unità censurate) Esempio di calcolo 1, 2+, 3+, 4, 5+, 10,12+ C D Esempio di calcolo Dati censurati: come influenzano la stima In presenza di un dato censurato la curva non decresce come quando si ha un evento. Infatti, a meno che la curva non abbia il segno marcatore del valore censurato, la curva di per se non mostra cambiamenti ... … In realtà, un dato censurato riduce il numero di pazienti che contribuiscono alla stima della curva. S(t) è costante nell’intervallo temporale tra due eventi. S(t) è una funzione a gradino che cambia valore ogni volta si verifica un evento. La censura è indicata da una barra verticale. Dati censurati: come influenzano la stima La parte della curva di sopravvivenza successiva al primo dato censurato è una stima della sopravvivenza del gruppo, non la reale sopravvivenza. Ogni evento successivo ad un evento censurato rappresenta una proporzione maggiore della restante popolazione, da cui segue che ogni scalino successivo ad un dato censurato sarà leggeremente più alto. Quando ho un follow-up molto grande questo effetto difficilmente viene evidenziato dall'analisi grafica. Tempo di sopravvivenza mediano Spesso si richiede di “riassumere” una curva di sopravvivenza, sintesi che viene fatta utilizzando una statistica particolare. Infatti, la reale sopravvivenza del gruppo studiato successiva al dato censurato non è nota perché non è noto lo stato del soggetto perso. dati asimmetrici ! tempo di sopravvivenza MEDIANO La presenza di dati censurati diminuisce il numero di pazienti sotto osservazione dopo la censura. ! Si riduce l'accuratezza della stima. ! La parte della curva più affetta da questo fenomeno è ovviamente la parte finale. Questo è un problema, dato che la parte finale della curva rappresenta la sopravvivenza a lungo termine. Definizione: Il più piccolo tempo di sopravvivenza osservato per il quale il valore della funzione di sopravvivenza è inferiore a 0.5 Intervallo di confidenza Intervallo di confidenza Per calcolare l'intervallo di confidenza per la funzione di sopravvivenza è necessario stimare la varianza o deviazione standard di S(t). Formula di Greenwood Con la stima della varianza calcolata in questo modo si possono costruire degli intervalli di confidenza sapendo che per ogni t > 0, S(t) è approssimativamente una normale. . S, ! t " ± z !/2 V, [ S, ! t " ] Confronto tra curve di sopravvivenza Obiettivo abbastanza comune nell'analisi di dati di sopravvivenza è valutare se gruppi diversi hanno funzioni di sopravvivenza significativamente diverse. Ipotesi nulla: Tra i gruppi non vi è differenza nella sopravvivenza. • Se tutti gli individui venissero seguiti per lo stesso periodo di tempo e non ci fossero osservazioni censurate, avremmo uno studio caso-controllo, il ché ci consentirebbe di usare i metodi sviluppati per questo tipo di studio. • Se tutti gli individui venissero seguiti fino all’evento di interesse, potremmo confrontare i momenti degli eventi di interesse nei gruppi diversi utilizzando metodi non parametrici come il test di Mann-Whitney o di Kruskall-Wallis. La presenza di dati censurati richiede l’uso di metodi ad hoc. Gli intervalli di confidenza così costruiti a volte possono includere valori non plausibili per la funzione di sopravvivenza, in particolare valori al di fuori di [0,1]. Questo può essere evitato applicando la formula precedente ad una trasformata della curva di sopravvivenza per cui vi sia restrizione di valori: la trasformazione logaritmica ,f !t "=ln!+ln! S, !t """ exponential Greenwood Questa funzione non è limitata tra 0 e 1, quindi si può calcolare l’IC per f(t) per poi ritrasformare l’intervallo nella scala originale. Log-rank test Alla base del log-rank test ci sono tre presupposti: 1. I due campioni sono campioni casuali indipendenti. 2. Le modalità di censura per le osservazioni sono le stesse per entrambi i campioni. 3. Le due curve di sopravvivenza presentano rischi proporzionali S2(t) = S1(t) ! dove ! è una costante chiamata tasso di rischio. (Il valore ! = 1 indica che le due curve sono uguali.) Modelli parametrici Esempio Un'aspetto particolarmente interessante in ambito biomedico è verificare l’influenza che una o più variabili esplicative (covariate) hanno sul tempo di sopravvivenza dei soggetti. In questo ambito sono stati proposti molti modelli di regressione in cui la variabile dipendente è il tempo di sopravvivenza. Modello semiparametrico di Cox Modelli a effetti casuali (frailty models) Modello semiparametrico di Cox Il modello di Cox, detto anche modello a rischi proporzionali, è uno dei modelli più importanti in ambito biomedico. La definizione formale prevede che la funzione di rischio sia: ' h !t , x "=h0 ! t "exp ! " X " con "=[ " 1 ,. . . , " p ] e X n/ p • I parametri vengono stimati massimizzando numericamente la verosimiglianza parziale ad es. con il metodo di Newton-Raphson. • Le stime sono asintoticamente normali e non distorte. h0(t) è la funzione di rischio base, assunta essere uguale per ogni individuo nella popolazione, mentre la funzione di rischio individuale, h(t,x), varia al variare di x. Si noti che se p=1 e X indica l’appartenenza ai gruppi, il parametro " rappresenta, se significativamente diverso da zero, la differenza tra i gruppi. RR= h ! t)x=1 " h0 ! t "exp ! " " = =exp ! " " h ! t) x=0 " h0 ! t " Modello a effetti casuali L’assunzione di rischio base costante per ogni individuo in molti casi risulta essere poco realistico. Eterogeneità individuale L’eterogeneità individuale è data dalle covariate. Quando il nostro modello non prende in considerazione covariate importanti per la funzione di rischio, siamo in presenza di eterogeneità non osservabile. h !t)Z , X "=Z0h! t)X " h !t)Z , X "=Z0h0 ! t "exp ! " ' X " La variabile Z, detta variabile frailty, è una variabile casuale non osservabile che varia da individuo ad individuo aumentandone o diminuendone il rischio.