TITOLO: APPLICAZIONE DELL’IMPUTAZIONE DEI DATI MANCANTI NELLE ANALISI DI SOPRAVVIVENZA SUI DATI DEI REGISTRI TUMORI ITALIANI Autori: Buzzoni C1, Crocetti E1, Coviello E2 , Autelitano M3, Falcini F4, Federico M5, Ferretti S6, Fusco M7, Giacomin A8, Gola G9, Madeddu A10, Mazzoleni G11, Michiara M12, Pannozzo F13, Serraino D14, Tessandori R15, Traina A16, Tumino R17, Vercelli M18, Zambon P19 e AIRTUM Working Group20 1Istituto di Prevenzione Oncologica, Firenze; 2 Azienda Sanitaria Locale BT, Barletta, 3RT Milano, 4RT Romagna, 5RT Modena, 6RT Ferrara, 7RT Napoli, 8RT Biella, 9RT Como, 10RT Siracusa, 11RT Alto Adige, 12RT Parma, 13RT Latina, 14RT Fiuli Venezia Giulia, 15RT Sondrio, 16RT Palermo mammella, 17RT Ragusa, 18RT Genova, 19RT Veneto, 20 www.registri-tumori.it Introduzione. La sopravvivenza, uno dei principali indicatori prodotti con i dati dei registri tumori, è frequentemente utilizzata per effettuare confronti tra aree e periodi temporali diversi. Dati con livelli di qualità, e in particolare completezza, non omogenei possono rendere distorti i confronti. I registri, sempre più orientati alla raccolta di un numero crescente di variabili cliniche e patologiche che caratterizzano la storia dei casi, incorrono frequentemente nella problematica di condurre analisi in presenza di dati mancanti. L’obiettivo del presente lavoro consiste nel valutare l’effetto della presenza di dati mancanti relativi alla definizione dello stadio patologico sulle stime di sopravvivenza di pazienti affette da tumore della mammella e valutare l’impatto sulla stima dell’imputazione dei dati mancanti mediante il metodo imputazioni multiple. Materiali e Metodi. Sono stati selezionati i casi di tumore infiltrante della mammella femminile con informazione sullo stadio alla diagnosi disponibile nella banca dati AIRTUM diagnosticati negli anni 19782006 con follow-up al 31.12.2008 relativi a 18 registri tumori italiani. L’effetto dei dati mancanti è stato analizzato per la variabile stadio, codificata a partire dai valori del TNM patologico sulla base della VI edizione. Sono state condotte tre analisi di sopravvivenza, orientate a valutare l’eccesso del rischio di morte (excess-hazard ratio, EHR) a 5 anni dalla diagnosi: (a) sulla sola casistica con informazione completa (b) sulla totalità della casistica considerando i dati mancanti come una modalità ammissibile, missing category method. (c) sulla totalità della casistica dopo aver applicato la procedura di imputazione. E’ stato adottato il metodo dell’imputazione multipla, il quale può essere riassunto nelle seguenti tre fasi: (1) la generazione di m data-set contenenti i dati imputati in luogo dei valori mancanti, ottenuti in un contesto bayesiano da un modello di regressione sulla varabile che presenta valori mancanti in funzione delle altre; (2) l’analisi degli m data-set imputati con tecniche standard di analisi per dati completi; (3) la combinazione delle m stime ottenute e delle loro varianze in una stima globale, utilizzando le regole definite da Rubin. E’ stato utilizzato il software STATA 12. Risultati. Dalla Banca AIRTUM sono stati selezionati 114.689 casi di tumore della mammella. La proporzione di casi con stadio ignoto risulta pari a 57% negli anni Ottanta, 29% nel quinquennio 1990-94, 28% nel 1995-99, 20% nel 2000-04 e 19% nel 2005-06. Complessivamente i casi con informazione mancante sono il 19% nella fascia di età 0-49 anni, 18% nella fascia 50-59 e 60-69 anni e 37% tra le donne più anziane (70 + anni ). Nel periodo più recente i valori sono inferiori nel Nord-Est. Abbiamo applicato il metodo delle imputazioni multiple; il modello di imputazione finale comprende: stato in vita, tempo di follow-up, l'età, anno di diagnosi, Registro Tumori, il gruppo morfologico e l'interazione tra il periodo della diagnosi e l’area. La procedura di imputazione ha portato ad una ridistribuzione dei valori mancanti. La proporzione di casi in stadio precoce è diminuita (in particolare nei primi periodi analizzati) a favore di un lieve aumento di quella in stadio più avanzati (in particolare nei periodi più recenti analizzati). Gli EHR ottenuti sulla casistica sottoposta al processo di imputazione sono leggermente inferiori per gli stadi avanzati sia rispetto all’analisi completa sia rispetto al missing category method (stadio IV: 78, 112 e 118); sono simili per le altre categorie. Gli errori standard sempre inferiori. Discussione. Questo studio indica che le imputazioni multiple sono una tecnica appropriata per trattare la presenza di informazioni mancanti nello stadio alla diagnosi del tumore della mammella in casistiche di popolazione. Nel presente studio, tuttavia, si ottengono stime simili di EHR sia per la variabile incompleta (stadio alla diagnosi) sia per le altre variabili: queste analisi quindi suggeriscono la presenza di un meccanismo generatore dei casi mancanti di tipo casuale, e rassicurano quindi sulla validità delle stime di sopravvivenza prodotte in passato con approcci tradizionali. In ogni caso l’effetto della procedura di imputazione dovrebbe essere valutato, come possibile analisi di sensibilità, in tutti le situazioni in cui si considerano variabili caratterizzate dalla presenza di valori mancanti.