TITOLO: APPLICAZIONE DELL’IMPUTAZIONE DEI DATI MANCANTI NELLE ANALISI DI
SOPRAVVIVENZA SUI DATI DEI REGISTRI TUMORI ITALIANI
Autori: Buzzoni C1, Crocetti E1, Coviello E2 , Autelitano M3, Falcini F4, Federico M5, Ferretti S6, Fusco M7, Giacomin
A8, Gola G9, Madeddu A10, Mazzoleni G11, Michiara M12, Pannozzo F13, Serraino D14, Tessandori R15, Traina A16,
Tumino R17, Vercelli M18, Zambon P19 e AIRTUM Working Group20
1Istituto
di Prevenzione Oncologica, Firenze; 2 Azienda Sanitaria Locale BT, Barletta, 3RT Milano, 4RT Romagna, 5RT Modena, 6RT
Ferrara, 7RT Napoli, 8RT Biella, 9RT Como, 10RT Siracusa, 11RT Alto Adige, 12RT Parma, 13RT Latina, 14RT Fiuli Venezia Giulia,
15RT Sondrio, 16RT Palermo mammella, 17RT Ragusa, 18RT Genova, 19RT Veneto, 20 www.registri-tumori.it
Introduzione. La sopravvivenza, uno dei principali indicatori prodotti con i dati dei registri tumori, è
frequentemente utilizzata per effettuare confronti tra aree e periodi temporali diversi. Dati con livelli di
qualità, e in particolare completezza, non omogenei possono rendere distorti i confronti. I registri, sempre più
orientati alla raccolta di un numero crescente di variabili cliniche e patologiche che caratterizzano la storia
dei casi, incorrono frequentemente nella problematica di condurre analisi in presenza di dati mancanti.
L’obiettivo del presente lavoro consiste nel valutare l’effetto della presenza di dati mancanti relativi alla
definizione dello stadio patologico sulle stime di sopravvivenza di pazienti affette da tumore della mammella
e valutare l’impatto sulla stima dell’imputazione dei dati mancanti mediante il metodo imputazioni multiple.
Materiali e Metodi. Sono stati selezionati i casi di tumore infiltrante della mammella femminile con
informazione sullo stadio alla diagnosi disponibile nella banca dati AIRTUM diagnosticati negli anni 19782006 con follow-up al 31.12.2008 relativi a 18 registri tumori italiani. L’effetto dei dati mancanti è stato
analizzato per la variabile stadio, codificata a partire dai valori del TNM patologico sulla base della VI
edizione. Sono state condotte tre analisi di sopravvivenza, orientate a valutare l’eccesso del rischio di morte
(excess-hazard ratio, EHR) a 5 anni dalla diagnosi: (a) sulla sola casistica con informazione completa (b)
sulla totalità della casistica considerando i dati mancanti come una modalità ammissibile, missing category
method. (c) sulla totalità della casistica dopo aver applicato la procedura di imputazione. E’ stato adottato il
metodo dell’imputazione multipla, il quale può essere riassunto nelle seguenti tre fasi: (1) la generazione di
m data-set contenenti i dati imputati in luogo dei valori mancanti, ottenuti in un contesto bayesiano da un
modello di regressione sulla varabile che presenta valori mancanti in funzione delle altre; (2) l’analisi degli
m data-set imputati con tecniche standard di analisi per dati completi; (3) la combinazione delle m stime
ottenute e delle loro varianze in una stima globale, utilizzando le regole definite da Rubin. E’ stato utilizzato
il software STATA 12.
Risultati. Dalla Banca AIRTUM sono stati selezionati 114.689 casi di tumore della mammella. La
proporzione di casi con stadio ignoto risulta pari a 57% negli anni Ottanta, 29% nel quinquennio 1990-94,
28% nel 1995-99, 20% nel 2000-04 e 19% nel 2005-06. Complessivamente i casi con informazione
mancante sono il 19% nella fascia di età 0-49 anni, 18% nella fascia 50-59 e 60-69 anni e 37% tra le donne
più anziane (70 + anni ). Nel periodo più recente i valori sono inferiori nel Nord-Est. Abbiamo applicato il
metodo delle imputazioni multiple; il modello di imputazione finale comprende: stato in vita, tempo di
follow-up, l'età, anno di diagnosi, Registro Tumori, il gruppo morfologico e l'interazione tra il periodo della
diagnosi e l’area. La procedura di imputazione ha portato ad una ridistribuzione dei valori mancanti. La
proporzione di casi in stadio precoce è diminuita (in particolare nei primi periodi analizzati) a favore di un
lieve aumento di quella in stadio più avanzati (in particolare nei periodi più recenti analizzati). Gli EHR
ottenuti sulla casistica sottoposta al processo di imputazione sono leggermente inferiori per gli stadi avanzati
sia rispetto all’analisi completa sia rispetto al missing category method (stadio IV: 78, 112 e 118); sono
simili per le altre categorie. Gli errori standard sempre inferiori.
Discussione. Questo studio indica che le imputazioni multiple sono una tecnica appropriata per trattare la
presenza di informazioni mancanti nello stadio alla diagnosi del tumore della mammella in casistiche di
popolazione. Nel presente studio, tuttavia, si ottengono stime simili di EHR sia per la variabile incompleta
(stadio alla diagnosi) sia per le altre variabili: queste analisi quindi suggeriscono la presenza di un
meccanismo generatore dei casi mancanti di tipo casuale, e rassicurano quindi sulla validità delle stime di
sopravvivenza prodotte in passato con approcci tradizionali. In ogni caso l’effetto della procedura di
imputazione dovrebbe essere valutato, come possibile analisi di sensibilità, in tutti le situazioni in cui si
considerano variabili caratterizzate dalla presenza di valori mancanti.