Francesca Incardona La condivisione dei dati Condividere i dati: una questione di… resistenze La condivisione di dati rilevanti per la salute è ancora un problema. I motivi principali: 1. Volontà di condivisione: data is money - power I grandi centri che producono molti dati possono usare i proprio dati per studi finanziati dalle aziende farmaceutiche e in questo modo finanziare le proprie attività 2. Organizzazione: ogni centro un sistema Burocrazia (permessi, responsabilità, ecc.) Mancanza di standard Es. Quanto costa un trattamento HIV in Europa? Se voglio rispondere in dettaglio scopro che i dati utilizzabili sono pochissimi: ogni paese raccoglie variabili diverse e il confronto è quasi impossibile Condividere i dati: una questione di… resistenze 3. Difficoltà di integrazione automatica delle basi dati 4. Moli di dati sempre crescenti 5. Privacy – etica 6. lab integrazione integration UKUO CHIC: Collaborative HIV Cohortintranet lab-clinica code clinica tipo elettr lab Prato carta 0 stampati e consult intranet 1 no 0 45.000 records collezionati da numerosi centri in UK: Siena MIE carta 0 stampati no 0 MIU access 1 stampati no 0 perSiena la maggior parte originariamente in CARTACEO Lucca carta 0 stampati manuale 1 Meyer Livorno Massa Grosseto OSMA Arezzo Careggi TOT 11 carta ed elettronico carta access Master carta carta 0 1 0 1 1 0 0 4 stampati, manuale in db, consult intranet stampati e consult intranet stampati manuale stampati e manuale stampati e consult intranet stampati 1 no 1 manuale no manuale manuale 1 no no 4 0 1 0 1 1 0 0 4 Condividere i dati: soluzioni 1. Volontà di condivisione: Unire i piccoli centri Etica e fiducia: condivisione porta ovvi vantaggi medicoscientifici – se ben gestita non porta svantaggi economici Es. ARCA e EuResist Network Sistema di authorship 5-6 paper/anno, 9-11 poster+oral pres./anno Pagare i dati 2. Organizzazione Adozione di standard Es. HL7 (EuResist vi ha contribuito) ICD10 HICDEP: HIV Cohorts Data Exchange Protocol Sono (troppo) complessi!! Condividere i dati: soluzioni 3. Integrazione automatica delle basi dati Molti advancement tecnici, nessuna panacea Roberto D’Autilia Es. interfaccia ARCA-Rete ligure HIV: WS RLH RLH Si è realizzato un database di scambio per la sincronizzazione “bilaterale” ARCA-RLH. Next step: web service RestFul utilizzabile anche con tutti gli altri sistemi che lo volessero Condividere i dati: soluzioni 4. Grandi moli di dati: Disegno del DB: meno dati possibili da inserire per il massimo possibile di informazioni utili da ricavarci Es. ARCA e EuResist nati raccogliendo un set minimo di info: RAW SEQUENCE Species Gene region Raw sequence Aligned sequence SEQUENCE FINDINGS Es. G2P[coreceptor] Il rischio è che poi non si possano usare per es. per studi di burden of disease (mancano variabili di uso del sistema sanitario) es. valutazione convenienza del resistance testing Condividere i dati: soluzioni 4. Privacy, etica Organizzazione: Ethics manager Formazione To share or not to share: A randomized trial of consent for data sharing in genome research: “Most participants (84.9%) randomized to binary consent chose public data release” McGuire et al., Genetics IN Medicine • Volume 13, Number 11, November 2011 Condividere i dati: Soluzione Utilizzo di un unico sistema di raccolta dati possibilmente con un intervento “dall’alto” sulla base di buone pratiche “dal basso” Es. InfCare – In uso in tutta la Scandinavia e in alcuni paesi africani – integrato con EuResist – ora sia HIV che Hep RLH Liguria (HL7) ARCA Toscana? EuResist in InfCare InfCare adopted by all Scandinavian EuResist won the World Computer Honours countries + centres in Award 2009 Somalia, India InfCare HIV In Sweden >99% of individuals with known HIV infection are followed longitudinally from the moment of their diagnosis through the Swedish National HIV Register (InfCare HIV). The InfCare database has been implemented in all HIV care centres in Sweden since 2008 and collects socio-demographic data (gender, age, country of origin, estimated country of transmission, route of transmission) and biological data (e.g. CD4+ T-cell count, viral load, treatment, date of first positive HIV serology, etc.) on all patients. Data from 1995 to 2008 was collected from separate databases and subsequently entered into the InfCare HIV database retrospectively. This makes the Swedish InfCare HIV database one of the most complete, population-based HIV registers in the world. Courtesy Gaetano Marrone EIDB: EuResist Integrated DB Patients per Centrum Tot 60856 66200 30000 28119 25000 20000 15000 10416 8742 10000 8374 5000 1361 1119 1003 865 657 200 bo te c Ti bu rg Lu xe m an da Rw ai xa Irs ic Le uv en BI bo n Li s sk a r Ka ro lin Ar ev i Ar ca 0 Condividere i dati virtualmente Integrazione virtuale o federativa Eurocoord: EU project finito nel 2015 CASCADE, COHERE, EuroSIDA, and PENTA: common virtual database. COEHERE: compiles through HICDEP data from 40 cohorts ~300,000 HIV-positive persons, with data on clinical characteristics, antiretroviral therapy and other medications, HIV seroconversion, opportunistic infections, and laboratory results (CD4-positive T-lymphocyte counts, CD8-positive lymphocytes, viral load, virological and serological tests for other infections, and HIV resistance tests) and socio demographic data (since 2005). CASCADE: 29 cohorts of persons with well-estimated dates of HIV seroconversion (seroconverters) (since 1997). EuroSIDA: ~ 22,000 with data on end-organ diseases and non-AIDS cancers (since 1994). PENTA: collaboration between paediatric HIV centres in Europe, now also on antimicrobials in children, including antibiotics, antivirals and antifungals. Gestire i dati Governance: DB Management e Scientific Board: “Proprietà” dei dati, permessi di accesso e utilizzo: Possibilità per ogni centro di negare l’accesso ai propri dati Possibilità per ogni studio di richiedere l’accesso solo ai dati di alcuni centri? Gestione degli studi commerciali Authorship Es. ARCA e EuResist: il sistema dei “resti” Analisi dati: clinico – MIDDLEWARE - statistico! DB cleaning, cleansing - DB update Es. di utilizzo dei dati Studi clinico epidemiologici Studi bioinformatici: modelli predittivi Es. EuResist engine Connections used during project andlife then system updates Connections used duringlife project andfor then for system updates Connections used by the final users Connections used by the final users Combined predictive system Individual engines Web interface VL End users CD4 Merged EuResist DB genotype therapy … D I L S Zazzi et al 7th EHDRW 2009 Feeding DBs from different countries Interfaccia EuResist Engine input output Comparison with rules based systmes Showed that EuResist Prediction Engine outperforms significantly Stanford HIVDB [Rosen-Zvi 2008] Nuovo motore Presentato al ACM Conference on Bioinformatics and Computational Biology 2016 - Seattle, 2-7 ottobre Grazie