La condivisione dei dati - Francesca Incardona

Francesca
Incardona
La condivisione
dei dati
Condividere i dati: una
questione di… resistenze
La condivisione di dati rilevanti per la salute è ancora un
problema. I motivi principali:
1. Volontà di condivisione: data is money - power

I grandi centri che producono molti dati possono
usare i proprio dati per studi finanziati dalle aziende
farmaceutiche e in questo modo finanziare le proprie
attività
2. Organizzazione: ogni centro un sistema
 Burocrazia (permessi, responsabilità, ecc.)
 Mancanza di standard

Es. Quanto costa un trattamento HIV in Europa? Se voglio rispondere in
dettaglio scopro che i dati utilizzabili sono pochissimi: ogni paese
raccoglie variabili diverse e il confronto è quasi impossibile
Condividere i dati: una
questione di… resistenze
3. Difficoltà di integrazione automatica delle basi dati
4. Moli di dati sempre crescenti
5. Privacy – etica
6.
lab
integrazione integration
UKUO CHIC:
Collaborative
HIV Cohortintranet lab-clinica code
clinica
tipo elettr lab
Prato
carta
0 stampati e consult intranet
1 no
0
45.000
records
collezionati
da
numerosi
centri
in
UK:
Siena MIE
carta
0 stampati
no
0
MIU access
1 stampati
no
0
perSiena
la
maggior
parte
originariamente
in
CARTACEO
Lucca
carta
0 stampati
manuale
1
Meyer
Livorno
Massa
Grosseto
OSMA
Arezzo
Careggi
TOT
11
carta ed
elettronico
carta
access
Master
carta
carta
0
1
0
1
1
0
0
4
stampati, manuale in db,
consult intranet
stampati e consult intranet
stampati
manuale
stampati e manuale
stampati e consult intranet
stampati
1 no
1 manuale
no
manuale
manuale
1 no
no
4
0
1
0
1
1
0
0
4
Condividere i dati: soluzioni
1. Volontà di condivisione:




Unire i piccoli centri
Etica e fiducia: condivisione porta ovvi vantaggi medicoscientifici – se ben gestita non porta svantaggi economici
Es. ARCA e EuResist Network


Sistema di authorship
5-6 paper/anno, 9-11 poster+oral pres./anno
Pagare i dati
2. Organizzazione
 Adozione di standard
 Es. HL7 (EuResist vi ha contribuito)
 ICD10
 HICDEP: HIV Cohorts Data Exchange Protocol
 Sono (troppo) complessi!!
Condividere i dati: soluzioni
3. Integrazione automatica delle basi dati


Molti advancement tecnici, nessuna panacea
Roberto D’Autilia
 Es. interfaccia ARCA-Rete ligure HIV:
WS RLH

RLH
Si è realizzato un database di scambio per la sincronizzazione
“bilaterale” ARCA-RLH. Next step: web service RestFul
utilizzabile anche con tutti gli altri sistemi che lo volessero
Condividere i dati: soluzioni
4. Grandi moli di dati:


Disegno del DB: meno dati possibili da inserire per il
massimo possibile di informazioni utili da ricavarci
Es. ARCA e EuResist nati raccogliendo un set minimo
di info:
RAW SEQUENCE
Species
Gene region
Raw sequence
Aligned sequence
SEQUENCE FINDINGS
Es. G2P[coreceptor]

Il rischio è che poi non si possano usare per es. per
studi di burden of disease (mancano variabili di uso
del sistema sanitario) es. valutazione convenienza del
resistance testing
Condividere i dati: soluzioni
4. Privacy, etica



Organizzazione: Ethics manager
Formazione
To share or not to share: A randomized trial of consent
for data sharing in genome research: “Most
participants (84.9%) randomized to binary consent
chose public data release”
McGuire et al., Genetics IN Medicine • Volume 13, Number 11, November 2011
Condividere i dati: Soluzione

Utilizzo di un unico sistema di raccolta dati
possibilmente con un intervento “dall’alto” sulla base
di buone pratiche “dal basso”
 Es. InfCare – In uso in tutta la Scandinavia e in
alcuni paesi africani – integrato con EuResist – ora
sia HIV che Hep
 RLH Liguria (HL7)

ARCA Toscana?
EuResist in InfCare
InfCare adopted by all
Scandinavian
EuResist won the World Computer
Honours
countries
+ centres in
Award 2009
Somalia, India
InfCare HIV
In Sweden >99% of individuals with known HIV infection are followed
longitudinally from the moment of their diagnosis through the Swedish
National HIV Register (InfCare HIV).
The InfCare database has been implemented in all HIV care centres in
Sweden since 2008 and collects socio-demographic data (gender, age,
country of origin, estimated country of transmission, route of transmission)
and biological data (e.g. CD4+ T-cell count, viral load, treatment, date of
first positive HIV serology, etc.) on all patients. Data from 1995 to 2008
was collected from separate databases and subsequently entered into the
InfCare HIV database retrospectively.
This makes the Swedish InfCare HIV database one of the most complete,
population-based HIV registers in the world.
Courtesy Gaetano Marrone
EIDB: EuResist Integrated DB
Patients per Centrum
Tot 60856
66200
30000
28119
25000
20000
15000
10416
8742
10000
8374
5000
1361
1119
1003
865
657
200
bo
te
c
Ti
bu
rg
Lu
xe
m
an
da
Rw
ai
xa
Irs
ic
Le
uv
en
BI
bo
n
Li
s
sk
a
r
Ka
ro
lin
Ar
ev
i
Ar
ca
0
Condividere i dati virtualmente
 Integrazione virtuale o federativa





Eurocoord: EU project finito nel 2015
CASCADE, COHERE, EuroSIDA, and PENTA: common virtual database.
COEHERE: compiles through HICDEP data from 40 cohorts ~300,000
HIV-positive persons, with data on clinical characteristics, antiretroviral
therapy and other medications, HIV seroconversion, opportunistic
infections, and laboratory results (CD4-positive T-lymphocyte counts,
CD8-positive lymphocytes, viral load, virological and serological tests for
other infections, and HIV resistance tests) and socio demographic data
(since 2005).
CASCADE: 29 cohorts of persons with well-estimated dates of HIV
seroconversion (seroconverters) (since 1997).
EuroSIDA: ~ 22,000 with data on end-organ diseases and non-AIDS
cancers (since 1994).
PENTA: collaboration between paediatric HIV centres in Europe, now
also on antimicrobials in children, including antibiotics, antivirals and
antifungals.
Gestire i dati
 Governance: DB Management e Scientific Board:
 “Proprietà” dei dati, permessi di accesso e utilizzo:
 Possibilità per ogni centro di negare l’accesso ai




propri dati
 Possibilità per ogni studio di richiedere l’accesso
solo ai dati di alcuni centri?
Gestione degli studi commerciali
Authorship
 Es. ARCA e EuResist: il sistema dei “resti”
Analisi dati: clinico – MIDDLEWARE - statistico!
DB cleaning, cleansing - DB update
Es. di utilizzo dei dati
 Studi clinico epidemiologici
 Studi bioinformatici: modelli predittivi
 Es. EuResist engine
Connections
used during
project
andlife
then
system
updates
Connections
used
duringlife
project
andfor
then
for system
updates
Connections
used by the
final
users
Connections
used
by the
final users
Combined
predictive
system
Individual
engines
Web interface
VL
End users
CD4
Merged EuResist DB
genotype
therapy
…
D
I
L
S
Zazzi et al 7th EHDRW 2009
Feeding DBs from different countries
Interfaccia EuResist Engine
input
output
Comparison with rules
based systmes
 Showed that EuResist Prediction Engine outperforms
significantly Stanford HIVDB [Rosen-Zvi 2008]
Nuovo motore
 Presentato al ACM Conference on Bioinformatics and
Computational Biology 2016 - Seattle, 2-7 ottobre
Grazie