SMID a.a. 2005/2006 Corso di Statistica per la Ricerca Sperimentale Test sopravvivenza 20/3/2006 Rischio assoluto Valutare il rischio è un elemento chiave per predire gli eventi futuri Al medico interessa poco il rischio generico di un infarto miocardico dopo i 50 anni perché questa stima non è utilizzabile né per la prognosi né per altre decisioni cliniche il medico vuole conoscere quale è il rischio di infarto di un paziente di 50 anni con ben definite caratteristiche cliniche entro, ad esempio, 1 anno Stima del rischio un preciso arco temporale fruibile nella prognosi e nelle decisioni cliniche Sopravvivenza Quando occorre formulare una prognosi il clinico (oltre che sull’esperienza) si basa sulle conoscenze da letteratura scientifica relative al rischio di malattia oppure di morte su pazienti il più possibile simili al proprio caso In maniera indiretta cioè come tasso di incidenza (incidence rate) In maniera diretta (casi di follow-up) come rischio incidente (incidenza cumulativa) • forma tabulare (tavole di sopravvivenza) • forma grafica (curve di sopravvivenza) Rischio incidente Gli epidemiologi in genere riportano l’incidenza della morbilità e della mortalità in termini di tasso di incidenza (incidence rate) Questa stima del rischio non può essere utilizzata direttamente dai clinici Il rischio assoluto (o incidente) può essere calcolato dal tasso incidente con la formula: Rischio incidente = 1 − e−(tasso di incidenza) Vogliamo stimare il rischio della malattia di Alzheimer a 15 anni negli uomini di 65 anni Tabella ricavata Tasso di incidenza per fasce di età età 65-69 70-74 75-79 tasso di incidenza (pazienti per anno) 0.8 / 1000 1.9 / 1000 4.4 / 1000 Vogliamo stimare il rischio della malattia di Alzheimer a 15 anni in un uomo di 65 anni R = 1 − e−(5 · 0.8/1000 + 5 · 1.9/1000 + 5 · 4.4/1000) = 0.035 (3.5%) Punti critici 9 Inizio dell’osservazione l’approccio metodologicamente corretto è studiare solo quei pazienti in cui l’esordio della malattia è stato chiaramente identificato 9 Scelta della scala temporale opportunamente definita (minuti, ore, giorni) in rapporto alla rapidità attesa dell’evento 9 Termine dell’osservazione data in cui lo studio ha termine deve essere ben definita ed è necessario avere informazioni sulla situazione di tutti i pazienti a quella data Analisi della sopravvivenza Fissare un punto di partenza ben identificabile ad esempio: inizio di un “mal di schiena”? primo sintomo, visita dal medico, ricordo paziente Esiste un evento finale (non sempre nefasto!) 9 esame di laurea (tempo dall’iscrizione) 9 decesso (morte) 9 ricovero ospedale (non sempre evento singolo!) La probabilità di essere “persi allo studio” non dipende dall’evento finale (tendenze temporali) come considerare in uno studio sul cancro un caso di suicidio (o rifiuto a continuare la cura)? Grafico di sopravvivenza a b c d e f g h i j M P M M C M P C P C 0 1 pazienti 2 3 4 5 6 7 anni di calendario 8 9 10 censurati a destra Studio epidemiologico Esame pazienti con melanoma 10 pazienti seguiti per 10 anni 504 mesi in totale 4 deceduti 3 persi 3 censurati “a destra” da quando? soggetto a b c d e f g h i j tempo (mesi) evento deceduto 61 perso 111 deceduto 29 46 deceduto 92 censurato deceduto 22 perso 37 censurato 76 perso 14 45 censurato Sopravvivenza media Prendere in considerazione solo i pazienti di cui si conosce tutta la storia (di questi si sa tutto!) la statistica si riduce solo ai casi a,c,d,f sopravviv.media= tempo trascorso fino evento finale numero casi che lo raggiungono sm = (61 + 29 + 46 + 22) / 4 = 39.5 mesi Abbiamo perso la maggioranza dei casi (60%!) Gli altri 6 avrebbero avuto stesso comportamento? verosimile pensare che non sarebbe stato lo stesso! Percentuale di sopravvivenza Il problema non è solo chi sopravvive ma quanto sopravvive Dopo un anno 100%, dopo 99 quasi certamente 0% Occorre fissare una data limite (backdating) che fissa il termine in cui faccio la mia analisi Il cancro: chi risulta vivo dopo 5 anni dall’inizio dello studio dei dati è considerato sopravvissuto indipendentemente da quello che gli accade dopo! sopravviv.% = numero sopravissuti al tempo T numero totale dei casi considerati riduce l’impatto dei censurati (solo per T =5 anni!) Anni-persona Al denominatore abbiamo contato “persone” creando problemi su come considerare i censurati Si può utilizzare il tempo (es. anni) trascorso da ciascun soggetto nello studio cioè il numero totale di anni-persona (tempo-persona) di osservazione Si utilizzano anche le informazioni delle persone che per una ragione o per l’altra sono uscite dallo studio decessi/mese = numero dei morti = 4 / 503 =0.008 numero mesi rischio di decesso costante da un mese all’altro! Tavole di sopravvivenza Quello che possiamo calcolare è quante persone sopravvivono almeno un anno, almeno 2 anni …. non siamo obbligati ad utilizzare intervalli uguali giorni il primo anno, settimane il secondo, poi mesi Le tavole di sopravvivenza (life table) possiedono i vantaggi degli “anni-persona” con la massima utilizzazione dei dati disponibili senza lo svantaggio di dover considerare il rischio costante per lunghi periodi di tempo Approccio attuariale Approccio alla Kaplan-Meier Riporto a inizio studio a b c d e f g h i j M P M M C M P C P C 0 12 24 36 48 60 72 84 96 108 120 mesi di permanenza nello studio pazienti Tabella attuariale permanenza soggetti a nello studio rischio 0-1 anni 10 1-2 10 2-3 8 3-4 7 4-5 4 5-6 4 6-7 3 7-8 2 8-9 1 9-10 0 soggetti deceduti 0 1 1 1 0 1 0 0 0 0 soggetti persi 0 1 0 2 0 0 1 1 1 0 Approccio attuariale Trattare persone che si ritirano dallo studio (P) e le censurate (C) allo stesso modo come “perse” i soggetti ancora vivi all’atto dello studio p(decesso) = numero persone decedute nel periodo numero persone a rischio di morte L’hazard è la probabilità che si verifichi l’evento in un soggetto che è in osservazione al momento in cui inizia uno specifico intervallo di tempo Le persone perse sono (per compromesso) considerate come mezzo anno-persona: numero delle persone perse o censurate / 2 Calcolo probabilità qi = probabilità di morire nel corso dell’anno i pi = (1 – qi) probabilità sopravvivere nell’anno i Di = numero delle persone decedute nell’anno i Li = numero delle persone perse (lost) nell’anno i Ri = numero soggetti a rischio all’inizio dell’anno i qi = Di / [ Ri – (Li / 2)] 10 persone arrivano al 2o anno P2 = 0,895 q2 = 1 / [10 – (1 / 2)] = 0,105 p2 = 0,895 q1 = 0 / [10 – (0 / 2)] = 0 q3 = 1 / [ 8 – (0 / 2)] = 0,125 p3 = 0,875 P3 = 0,783 Pi è la probabilità cumulativa = pi · Pi-1 Tabella probabilità permanenza nello studio probabilità decesso probabilità sopravviv. probabilità cumulativa 0-1 anni 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 0,000 0,105 0,125 0,167 0 0,250 0 0 0 0 1,000 0,895 0,875 0,833 1.000 0,750 1,000 1,000 1,000 1,000 1,000 0,895 0,783 0,652 0,652 0,489 0,489 0,489 0,489 0,489 probabilità sopravvivenza Curva di sopravvivenza attuariale 1 0,9 0,8 0,7 0,6 0,5 0,4 0 2 4 6 8 10 numero di anni Tutti gli eventi riportati alla fine dell’intervallo La differenza tra la probabilità di sopravvivenza pi e la probabilità cumulativa Pi questa è una probabilità condizionata pi|Pi-1 Metodo di Kaplan-Meier Non porre i soggetti deceduti in un intervallo (fisso ma arbitrario) ma al tempo esatto dell’evento La funzione di sopravvivenza è calcolata esattamente quando accade l’evento La curva della probabilità di sopravvivenza pi cambia ogniqualvolta accade l’evento nell’approccio attuariale si hanno intervalli uguali sull’asse x dei tempi nell’approccio alla Kaplan-Meier gli intervalli sono (uguali) sull’asse y delle probabilità I soggetti persi (ritirati o censurati) sono considerati a rischio fino al momento del ritiro Utilizzo di Kaplan-Meier Ordiniamo tutti i dati in ordine di tempo segnando (*) quelli persi 14*, 22, 29, 37*, 45*, 46, 61, 76*, 92*, 111* tempo (mesi) numero numero tasso sopravv. a rischio deceduti mortalità (%) percent. cumul. 22 9 1 0,111 0,889 0,889 29 8 1 0,125 0,875 0,778 46 5 1 0,200 0,800 0,622 61 4 1 0,250 0,750 0,467 probabilità di sopravvivenza Curva di sopravvivenza Kaplan-Meier 1 0,9 0,8 0,7 0,6 0,5 0,4 0 12 24 36 48 60 72 84 96 108 120 numero di mesi Con meno di 50 soggetti Kaplan-Meier è più efficiente: utilizza esattamente l’istante dell’evento Problema: i “persi” tra due eventi sono ignorati! Paragone tra curve di sopravvivenza La sopravvivenza dopo un infarto è peggiore nei più anziani o in quelli che hanno una compromissione della funzione ventricolare o che hanno malattie concomitanti (i diabetici) Per individuare i fattori che influenzano rischi post-infartuali è necessario comparare la sopravvivenza di due gruppi di pazienti che differiscono solo per essere stati esposti o non esposti a quel fattore paragone che potrebbe essere effettuato disegnando le due curve di sopravvivenza Log-rank test Due curve di sopravvivenza possono fra loro sovrapporsi parzialmente o incrociarsi più volte ma non risolve il problema! Paragonare per ogni intervallo di tempo la sopravvivenza dei pazienti esposti e non esposti Log-rank test dovuto a Mantel-Cox confronto tra le probabilità attese dell’evento (il decesso) con il numero di eventi osservato anche se il nome del test li richiama non ha nulla a che fare con i logaritmi e con i ranghi Confronto Immaginiamo di avere due gruppi di pazienti nel primo ci aspettiamo un più basso numero di decessi rispetto al secondo La mortalità attesa si calcola assumendo che essa sia casuale cioè che essa si ripartisca tra i due gruppi in misura proporzionale al numero di soggetti che sono presenti in ciascun gruppo la ripartizione è espressa, intervallo per intervallo, dal numero di soggetti a rischio di ciascun gruppo diviso per il totale dei soggetti a rischio (l’insieme dei due gruppi) nello stesso intervallo Esempio Elenchiamo nei due gruppi il tempo degli eventi (in giorni) o della censura (tempo di censura, *, è l’ultimo tempo in cui è noto lo stato del paziente) I gruppo: 23, 43, 38*, 61, 66*, 83 II gruppo: 25, 26, 36, 60*, 71, 78 In base a questi dati costruiamo una tavola di sopravvivenza di Kaplan-Meyer indicando gli eventi nel I gruppo e calcolando la mortalità osservata e attesa nello stesso gruppo La mortalità attesa si dovrebbe distribuire in eguale misura nei due gruppi (0.5 e 0.5) Tabella giorni 2 (mortalità attesa mortalità osservata) = somma mortalità attese nei due gruppi Il numeratore può essere calcolato utilizzando i dati del primo o del secondo indifferentemente numeratore = 1.132 χ2 Valore del χ2 Il denominatore si calcola moltiplicando i dati dell’ultima colonna dei due gruppi e sommandoli 0.50 · 0.50 + 0.454 · 0.546 + ...... + 1.00 · 0.00 = 1.98 Il risultato finale è 1.132/1.98 χ2sper = 0.64 Il risultato ottenuto va tradotto in probabilità consultando la tavola della distribuzione del χ2 in corrispondenza di un numero di gradi di libertà ν pari al numero dei gruppi meno uno χ2ν=1 = 3.841 > 0.64 non è pertanto significativo Non vi è differente mortalità nei primi 83 giorni!