Validazione di algoritmi per individuare diabete, ipertensione e cardiopatia ischemica dai database amministrativi italiani: lo studio MATRICE Rosa Gini Agenzia regionale di sanità della Toscana XXXVIII Congresso AIE, Napoli, 5-7 novembre 2014 Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Contesto Obbiettivo e razionale Metodi Risultati Conclusioni Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Conclusioni Identificare condizioni da database osservazionali Diagnosi Identificare condizioni da database osservazionali Assistenza ospedaliera Assistenza secondaria Causa di morte Altre sorgenti Assistenza primaria Diagnosi Identificare condizioni da database osservazionali Valori di laboratorio Evidenza diagnostica Bioimaging Altre sorgenti Diagnosi Identificare condizioni da database osservazionali Utilizzo dei servizi Altri servizi Evidenza diagnostica Visite specialistiche Esami diagnostici Procedure Farmaci Diagnosi Identificare condizioni da database osservazionali Utilizzo dei servizi Evidenza diagnostica Criteri di raffinamento e/o esclusione Diagnosi Identificare condizioni da database osservazionali L’utilizzo di queste strategie espone al Utilizzo dei rischioservizi di bias di selezione e di misclassificazione Evidenza diagnostica Criteri di raffinamento e/o esclusione Diagnosi Motivazione per uno studio di validazione Uno studio di validazione consente di calcolare gli indici di validità di un algoritmo GS=1 ALG=1 VP GS=0 Prev: marginale di riga FP PPV: condizionale di riga a ALG=1 NPV: condizionale di riga a ALG=0 ALG=0 FN VN Prev oss: marginale di colonna Sens: condizionale di colonna a GS=1 Spec: condizionale di colonna a GS=0 Motivazione per uno studio di validazione GS=1 GS=0 Sorveglianza ALG=1 ALG=0 Prev oss: marginale di colonna Conoscendo gli indici VP FP di validità si può aggiustare la prevalenza osservata FN e stimare VN la prevalenza reale Sens: condizionale di colonna a GS=1 Spec: condizionale di colonna a GS=0 Prev: marginale di riga PPV: condizionale di riga a ALG=1 NPV: condizionale di riga a ALG=0 Motivazione per uno studio di validazione GS=1 GS=0 Calibrazione ALG=1 ALG=0 Prev oss: marginale di colonna Gli indici di un algoritmo danno VP FPuna misura della selezione e della misclassificazione FN VN di ogni studio che usa quell’algoritmo Sens: condizionale di colonna a GS=1 Spec: condizionale di colonna a GS=0 Prev: marginale di riga PPV: condizionale di riga a ALG=1 NPV: condizionale di riga a ALG=0 Nel caso dei database amministrativi italiani? Utilizzo dei servizi Evidenza diagnostica Diagnosi Nel caso dei database amministrativi italiani? × Evidenza diagnostica Utilizzo dei servizi Altri servizi ? Visite specialistiche Esami diagnostici Procedure Farmaci Assistenza ospedaliera × Assistenza secondaria × Causa di morte × Altre sorgenti Assistenza primaria Diagnosi Nel caso dei database amministrativi italiani? × Altri servizi Utilizzo dei servizi ? Evidenza Visite specialistiche diagnostica Criticità per individuare malattie croniche Procedure Esami diagnostici Farmaci Assistenza ospedaliera × Assistenza secondaria × Causa di morte × Altre sorgenti Assistenza primaria Diagnosi Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Contesto Obbiettivo e razionale Metodi Risultati Conclusioni Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Contesto Obbiettivo e razionale Metodi Risultati Conclusioni Agenzia Nazionale per i Servizi Sanitari Regionali (Agenas) AgeNaS supporta il Ministero della salute e le Regioni conducendo studi e progetti Immagine della XXXV conferenza dell’AIE Agenzia Nazionale per i Servizi Sanitari Regionali (Agenas) AgeNaS ha lanciato nel 2011 il progetto MATRICE, che contiene uno studio di validazione Immagine della XXXV conferenza dell’AIE Una risorsa: Società Italiana di Medicina Generale Società scientifica di MMG Una risorsa: Società Italiana di Medicina Generale Alcuni mebri partecipano al network Health Search, che raccoglie dati clinici per svolgere studi epidemiologici Società scientifica di MMG Una risorsa: Società Italiana di Medicina Generale Usano lo stesso software Alcuni mebri partecipano al network Health Search, che raccoglie dati clinici per svolgere studi epidemiologici Società scientifica di MMG Una risorsa: Società Italiana di Medicina Generale Usano lo stesso software Alcuni mebri partecipano al network Health Search, che raccoglie dati clinici per svolgere studi epidemiologici I MMG che partecipano al network sono selezionati in base alla loro accuratezza nel registrare i dati Società scientifica di MMG Una risorsa: Società Italiana di Medicina Generale Usano lo stesso software Tra i MMG di questo network si possono trovare le diagnosi che i flussi amministrativi non Alcuni raccolgono! mebri partecipano al network Health Search, che raccoglie dati clinici per svolgere studi epidemiologici I MMG che partecipano al network sono selezionati in base alla loro accuratezza nel registrare i dati Società scientifica di MMG Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Contesto Obbiettivo e razionale Metodi Risultati Conclusioni Obbiettivo dello studio di validazione MATRICE Identificare strategie ottimali per individuare soggetti con diabete di tipo 2, ipertensione, cardiopatia ischemica, insufficienza cardiaca e loro stadi nei database amministrativi italiani Razionale del disegno di studio GLI MMG sono gatekeeper per l’accesso ai servizi Razionale del disegno di studio Quindi sono a conoscenza della diagnosi di patologia cronica di un loro paziente GLI MMG sono gatekeeper per l’accesso ai servizi Razionale del disegno di studio Gli MMG selezionati da SIMG hanno una buona qualità della registrazione Quindi sono a conoscenza della diagnosi di patologia cronica di un loro paziente GLI MMG sono gatekeeper per l’accesso ai servizi Razionale del disegno di studio Gli MMG selezionati da SIMG hanno una buona qualità della registrazione Quindi sono a conoscenza della diagnosi di patologia cronica di un loro paziente I pazienti dei MMG selezionati hanno pattern simili ai pazienti degli altri MMG GLI MMG sono gatekeeper per l’accesso ai servizi Razionale del disegno di studio Gli MMG selezionati da SIMG hanno una buona qualità della registrazione Quindi sono a conoscenza della diagnosi di patologia cronica di un loro paziente I pazienti dei MMG selezionati hanno pattern simili ai pazienti degli altri MMG GLI MMG sono gatekeeper per l’accesso ai servizi verrà testata Razionale del disegno di studio Gli MMG selezionati da SIMG hanno una buona qualità della registrazione Una query automatica sul DB clinico del MMG dà lo stesso risoltato di una richiesta diretta al MMG Quindi sono a conoscenza della diagnosi di patologia cronica di un loro paziente I pazienti dei MMG selezionati hanno pattern simili ai pazienti degli altri MMG GLI MMG sono gatekeeper per l’accesso ai servizi Studio preparatorio: validazione del Gold Standard Cardopatia ischemica Insufficienza cardiaca Ipertensione Stadi Diabete Studio preparatorio: validazione del Gold Standard Cardopatia ischemica × Insufficienza cardiaca Ipertensione × Stadi Diabete Studi preliminari su dati aggregati Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Contesto Obbiettivo e razionale Metodi Risultati Conclusioni Setting Aziende sanitarie locali A: Bergamo, B: Vicenza, C: Bologna, D: Arezzo, E: Taranto MMG 5 MMG per ogni ASL Popolazione Tutti i pazienti dei 25 MMG al 1/1/2012, età 16+ Raccolta dati Ministry of Health encryption key ARS Local Health Unit encryption key TheMatrix ID ABC CBA BAC CAB V1 1 1 0 0 ... ... ... ... ... V1 1 1 0 0 ... ... ... ... ... Morpheus encryption key ID ABC CBA BAC CAB VN 1 0 0 0 A 7→ X B 7→ Y C 7→ W Merovingio ID XYW WYX YXW WXY GP 1 0 1 0 A 7→ X B 7→ Y C 7→ W Morpheus ID XYW WYX YXW WXY VN 1 0 0 0 Merovingio ID XYW WYX YXW WXY National Research Council ID ARS GS P1 P2 P3 P4 V1 1 1 0 0 Morpheus V1 ... ... ... ... ... ... ... ... ... ... Vn 1 1 0 0 GS 1 0 1 0 1 0 0 0 ... ... ... ... ... GS 1 0 1 0 VN 1 0 0 0 GS 1 0 1 0 Raccolta dati Ministry of Health sono stati sviluppati dei software per eseguire la raccolta dati in modo automatico e sicuro encryption key ARS Local Health Unit GP il processo è trasparente e ripetibile encryption key TheMatrix ID ABC CBA BAC CAB V1 1 1 0 0 ... ... ... ... ... ID XYW WYX YXW WXY V1 1 1 0 0 ID ABC CBA BAC CAB VN 1 0 0 0 A 7→ X B 7→ Y C 7→ W Merovingio ... ... ... ... ... Morpheus encryption key Morpheus ID XYW WYX YXW WXY 1 0 0 0 Merovingio ID XYW WYX YXW WXY National Research Council ID ARS 1 0 1 0 A 7→ X B 7→ Y C 7→ W VN P1 P2 P3 P4 V1 1 1 0 0 GS 1 0 1 0 Morpheus V1 ... ... ... ... ... ... ... ... ... ... Vn 1 1 0 0 il permesso per eseguire il record linkage tra dati ASL e dati MMG è stato richiesto e ottenuto dall’Autorità per la Privacy GS 1 0 0 0 ... ... ... ... ... GS 1 0 1 0 VN 1 0 0 0 GS 1 0 1 0 richiesta di rendere pubblici i dataset dei dati integrati e aggregati (per sesso, età, MMG. . . ) in modo da consentire studi studi di approfondimento? Analisi Unità di osservazione È l’algoritmo Misure Indici di validità: sensibilità, specificità, PPV, NPV Aggregazione Per ASL, pooled grezzi, pooled con effetto casuale sul MMG Eterogeneità Wald test della ASL Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Contesto Obbiettivo e razionale Metodi Risultati Conclusioni Popolazione N F Età MMG 16-44 45-64 65-84 85+ 1 2 3 4 5 A 6951 3443 (49.5) 2836 (40.8) 2515 (36.2) 1424 (20.5) 176 (2.5) 1464 (21.1) 1444 (20.8) 1408 (20.3) 1373 (19.8) 1262 (18.2) B 6839 3522 (51.5) 2626 (38.4) 2254 (33.0) 1648 (24.1) 311 (4.5) 1528 (22.3) 1522 (22.3) 1502 (22.0) 1271 (18.6) 1016 (14.9) C 8038 4305 (53.6) 2916 (36.3) 2623 (32.6) 2082 (25.9) 417 (5.2) 1754 (21.8) 1682 (20.9) 1664 (20.7) 1619 (20.1) 1319 (16.4) D 5764 3023 (52.4) 2130 (37.0) 1817 (31.5) 1459 (25.3) 358 (6.2) 1415 (24.5) 1154 (20.0) 1139 (19.8) 1096 (19.0) 960 (16.7) E 6403 3281 (51.2) 2817 (44.0) 2201 (34.4) 1171 (18.3) 214 (3.3) 1416 (22.1) 1372 (21.4) 1323 (20.7) 1290 (20.1) 1002 (15.6) Tot 33995 17574 (51.7) 13325 (39.2) 11410 (33.6) 7784 (22.9) 1476 (4.3) Disponibilità dati Flusso SDO Esenzioni Farmaci Ambulatoriale A 2001 1991 2009 2009 B 2007 2000 2007 2009 C 2006 2000 2010 2010 D 2006 2009 2006 2006 E 2008 2011 2010 2012 Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.5 1 0.4 6 11 0.6 0.5 8 0.4 1 0.3 0.2 0.8 0.7 9 1 0.3 0.9 7 5 0.7 0.6 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV Sensitivity Diabete Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.6 0.8 0.5 0.4 0.7 9 0.3 11 0.6 0.5 0.4 1 0.3 0.2 6 8 1 1 0.9 7 5 0.7 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica Sensitivity Diabete 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 ((HOSP SEC UNSPEC OR HOSP MAIN UNSPEC OR EXE OR DRUGS INSULIN OR DRUGS ORAL)) OR ((Hba1c)) Sensitivity Specificity PPV NPV κ 0.96 0.96 0.69 1.00 0.78 0.92 0.97 0.76 0.99 0.82 0.87 0.95 0.60 0.99 0.68 0.97 0.86 0.38 1.00 0.49 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.69 1.00 0.96 0.97 0.79 0.87 0.95 0.62 0.99 0.70 0.87 . 0.63 . . (0.86-0.89) (0.60-0.67) < .001 . < .001 . Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.6 0.8 0.5 0.4 0.7 9 0.3 11 0.6 0.5 0.4 1 0.3 0.2 6 8 1 1 0.9 7 5 0.7 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica Sensitivity Diabete 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 ((HOSP SEC UNSPEC OR HOSP MAIN UNSPEC OR EXE OR DRUGS INSULIN OR DRUGS ORAL)) Sensitivity Specificity PPV NPV κ 0.79 0.99 0.92 0.98 0.84 0.83 0.99 0.90 0.98 0.85 0.73 0.99 0.90 0.98 0.79 0.75 0.96 0.65 0.98 0.66 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.69 1.00 0.96 0.97 0.79 0.76 0.99 0.86 0.98 0.79 0.76 . 0.86 . . (0.73-0.79) (0.84-0.88) < .05 . < .001 . Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.6 0.8 0.5 0.4 0.7 9 0.3 11 0.6 0.5 0.4 1 0.3 0.2 6 8 1 1 0.9 7 5 0.7 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica Sensitivity Diabete 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 ((DRUGS INSDDDlastyear OR DRUGS ORDDDlastyear OR HOSP MAIN UNSPEC OR EXE OR HOSP DRG)) Sensitivity Specificity PPV NPV κ 0.71 1.00 0.94 0.97 0.79 0.77 1.00 0.94 0.98 0.84 0.56 1.00 0.93 0.97 0.68 0.55 0.99 0.89 0.96 0.66 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.39 1.00 0.97 0.94 0.53 0.59 1.00 0.94 0.96 0.71 0.60 . 0.94 . . (0.56-0.65) (0.92-0.95) < .001 . 0.068 . Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.6 0.8 0.5 0.4 0.7 9 0.3 11 0.6 0.5 0.4 1 0.3 0.2 6 8 1 1 0.9 7 5 0.7 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica Sensitivity Diabete 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 (ARENIN OR BETABL OR EXE OR HOSP MAIN UNSP OR HOSP SEC UNSP) Sensitivity Specificity PPV NPV κ 0.68 0.97 0.93 0.85 0.70 0.80 0.92 0.85 0.90 0.73 0.77 0.93 0.85 0.89 0.72 0.86 0.82 0.68 0.93 0.63 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.50 0.98 0.91 0.81 0.54 0.72 0.93 0.83 0.87 0.67 0.73 . 0.83 . . (0.70-0.76) (0.81-0.86) < .001 . < .001 . Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.6 0.8 0.5 0.4 0.7 9 0.3 11 0.6 0.5 0.4 1 0.3 0.2 6 8 1 1 0.9 7 5 0.7 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica Sensitivity Diabete 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 ((HOSP MAIN OR HOSP SEC OR NITRATES OR EXE)) Sensitivity Specificity PPV NPV κ 0.72 0.99 0.81 0.99 0.76 0.76 1.00 0.89 0.99 0.81 0.47 0.99 0.80 0.97 0.58 0.60 0.99 0.69 0.98 0.63 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.63 0.99 0.70 0.98 0.65 0.62 0.99 0.79 0.98 0.68 0.63 . 0.79 . . (0.58-0.67) (0.76-0.83) < .001 . < .05 . Algoritmi Ipertensione 1.0 1.0 0.9 0.9 0.8 4 7 0.8 4 3 0.7 0.6 0.5 0.4 0.6 0.8 0.5 0.4 0.7 9 0.3 11 0.6 0.5 0.4 1 0.3 0.2 6 8 1 1 0.9 7 5 0.7 Sensitivity 5 3 2 1.0 3 Sensitivity 6 Cardiopatia ischemica Sensitivity Diabete 10 0.3 0.2 0.2 2 0.1 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 4 0.1 2 ((HOSP MAIN OR HOSP SEC OR NITRATES OR PAI)) Sensitivity Specificity PPV NPV κ 0.87 0.92 0.29 0.99 0.40 0.87 0.91 0.29 0.99 0.40 0.82 0.90 0.33 0.99 0.43 0.91 0.84 0.20 1.00 0.28 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1-PPV 0.61 0.96 0.38 0.98 0.44 0.84 0.90 0.28 0.99 0.38 0.84 . 0.28 . . (0.82-0.87) (0.26-0.31) < .001 . < .001 . Contenuti Identificazione di soggetti con una patologia da database esistenti Studio di validazione del progetto MATRICE Conclusioni Riassunto dei risultati Gruppo AIE-SISMEC Sia nel caso del diabete che nel caso della cardiopatia ischemica gli algoritmi indicati sono quelli prescelti dal gruppo di lavoro AIE-SISMEC nella seconda metà degli anni Duemila. Buon PPV Per tutte e tre le patologie sono disponibili algoritmi specifici e con un PPV superiore all’80% Bassa sensibilità Sensibilità inferiore all’80% e, nel caso della cardiopatia ischemica, inferiore al 65%. Eterogeneità Abbastanza alta: perché i dati sono disponibili per anni diversi? Da approfondire Aspetti inattesi Meglio dell’atteso l’ipertensione, peggio la cardiopatia ischemica Raccomandazioni Gli studi che utilizzano questi algoritmi per selezionare coorti devono condurre analisi di sensibilità per valutare il possibile effetto di selezione, in particolare nel caso della cardiopatia ischemica, e il possibile effetto della misclassificazione Domande? Regola di classificazione Malati (GS) Regola di classificazione In una popolazione che contiene dei malati (Gold Standard, GS) una classificazione (ALG) individua ALG GS Regola di classificazione In una popolazione che contiene dei malati (Gold Standard, GS) una classificazione (ALG) individua ALG FP VP VN FN GS Indici di validità Se in una popolazione è disponibile un GS è possibile calcolare gli indici di validità di ogni algoritmo: sensibilità, specificità, PPV, NPV Sensibilità Denominatore ALG Numeratore GS ALG Probabilità che una persona malata sia individuata da ALG GS Potere predittivo positivo (PPV) Denominatore ALG Numeratore GS ALG Probabilità che una persona individuata da ALG sia malata GS Specificità Denominatore ALG Numeratore GS ALG GS Probabilità che una persona sana sia correttamente individuata come tale da ALG Potere predittivo negativo (NPV) Denominatore ALG Numeratore GS ALG GS Probabilità che una persona individuata come sana da ALG lo sia realmente Se GS non è gold standard: concordanza Denominatore Numeratore ALG κ: concordanza aggiustata GS