Progetto “I LOVE RESEARCH”: Progettazione di un database per la

Progetto “I LOVE RESEARCH”:
Progettazione di un database per la raccolta e la
gestione di dati Clinici e Sperimentali.
Tutor: Carmelo Laudanna, Gianluca Santamaria
Il progetto fa parte dell’iniziativa “I Love Research” promossa dalla Fondazione Univesità “Magna
Graecia” di Catanzaro in collaborazione con l’Istituto di Istruzione Superiore "Malafarina" di
Soverato (CZ). Cinque studenti del quinto anno sono stati selezionati e seguiti da un gruppo di tutor
(assegnisti e/o dottorandi) dell’Università “Magna Graecia”, per essere coinvolti nello sviluppo di
un progetto di ricerca.
Il progetto ha come scopo lo sviluppo di un database web-based per la raccolta, la gestione e
l’analisi bioinformatica di dati clinici e sperimentali generati dai diversi dipartimenti afferenti
all’università “Magna Graecia” di Catanzaro.
BACKGROUND
L'importanza delle informazioni è dovuta dal fatto che esse possono essere archiviate in modo
permanente e ritrovate quando devono essere utilizzate. Il vantaggio che se ne trae è quello di poter
ottenere, dall'elaborazione dei dati ritrovati, informazioni che potrebbero rivelarsi indispensabili o
strategiche nelle decisioni. Anche se potrebbero sembrare due sinonimi, i termini dato e
informazione hanno un significato diverso:


“dato” è un valore astratto, per esempio un numero, che per essere utilizzato deve essere
interpretato;
“informazione” è il significato contenuto nel dato che viene alla luce quando il dato viene
interpretato.
È molto importante decidere il modo in cui i dati vengono conservati perché ciò determinerà
successivamente anche il modo in cui i dati verranno estratti; ad esempio, potrebbe capitare che non
preoccupandosi per tempo dell'organizzazione dei dati durante l'archiviazione , si abbiano difficoltà
o complicazioni durante la fase del loro recupero.
Mentre una volta gli archivi potevano essere su supporto cartaceo, oggi quasi tutti gli archivi si
possono trovare in forma digitale su supporto elettronico, e ciò rende possibile la loro elaborazione
automatizzata. Per esempio, un archivio può avere la forma di un file di dati opportunamente
organizzati.
Utilizzare i singoli file per creare archivi di dati può essere pratico per piccole applicazioni, ma in
generale, questo approccio, può dar luogo anche a diversi problemi. Per esempio: se un’Azienda
Ospedaliera utilizza un file per conservare i dati dei propri pazienti e un file per conservare i dati
delle relative cartelle cliniche, bisogna preoccuparsi di mantenere «sincronizzati» i dati tra i due
archivi. Se l’Azienda Ospedaliera permette l'aggiornamento degli archivi da parte di più
Reparti/Dipartimenti, i problemi aumentano.
I database nascono proprio per superare i limiti e gli inevitabili problemi che si potrebbero
incontrare usando gli archivi tradizionali. Tra i classici problemi vanno ricordati la ridondanza dei
dati e l'inconsistenza degli archivi. Il primo caso si verifica quando in diversi archivi si trovano
memorizzati gli stessi tipi di dati (il problema è quello di dover fare gli aggiornamenti in tutti gli
archivi interessati).
Il secondo caso si verifica come conseguenza della ridondanza, quando questi aggiornamenti non
vengono fatti in tutti gli archivi in cui si dovrebbe, e nascono così incongruenze tra dati nuovi e dati
vecchi.
BASE DI PARTENZA SCIENTIFICA
Nell’ultimo decennio in ambito clinico e biologico è diventato necessario lo sviluppo di sistemi per
l’archiviazione, gestione e analisi dei dati, proprio per un crescendo in ordine esponenziale
dell’ammontare dei dati prodotti. Soprattutto con l’avvento della “Next Generation Sequencing”
(NGS) il bisogno di strutture in grado di gestire grosse quantità di dati è una condizione essenziale.
Alcuni degli esempi più importanti sono soluzioni proposte dalle stesse aziende produttrici dei
sequenziatori di nuova generazione come “BaseSpace” dell’Illumina
(http://www.illumina.com/informatics/research/sequencing-data-analysismanagement/basespace.html), un sistema cloud-based di genomica che permette non solo di
archiviare dati ma anche di analizzarli. Altre soluzioni possibili sono quelle adottate da centri di
ricerca internazionali come l’European Molecular Biology Laboratory (EMBL) attraverso
l’European Bioinformatics Institute (EBI).
L’EBI è stato creato dall’EMBL ed ospita database biologici fra i più importanti, includendo quello
delle sequenze di DNA o sequenze nucleotidiche (ENA), delle sequenze di proteine (UniProt), dei
genomi animali (Ensembl), delle strutture tridimensionali (la Protein Databank), dei dati di
espressione genica (ArrayExpress), delle interazioni proteina-proteina (IntAct) e delle vie di
“signaling” (Reactome), (www.ebi.ac.uk/information).
METODOLOGIA
Gli studenti hanno utilizzato un ambiente di sviluppo di un database , un linguaggio informatico
descrittivo ed eseguito le seguenti attivita’:
•
•
•
•
•
progettare insieme ai tutor lo schema concettuale del database
implementare i costrutti Access necessari alla creazione ed alla generazione delle instanze
del database
progettare la componente strutturale del database
implementare un’interfaccia grafica
documentare l’intero progetto
Il software database utilizzato per il progetto è basato su Microsoft Access, un noto DBMS (Sistemi
per la Gestione di Database). Questo tipo di DBMS permette affidabilità e privatezza garantendo
resistenza a malfunzionamenti hardware e software e controllo degli accessi, e un buon livello di
efficienza ed efficacia. Permette, inoltre, la possibilità di poter traslare le istanze generate per dei
software DBMS più performanti come MySql (open-source). Infine tramite HTML è stata generata
ed integrata la struttura grafica del database.
CONCLUSIONI
Lo sviluppo del database potrebbe permettere un miglior utilizzo di dati tra diversi dipartimenti,
rendendo molto più veloce e sicura la condivisione dei dati stessi. Ogni Dipartimento, in questo
modo, può essere inteso come unità organizzativa che può essere divisa in settori o comunque può
svolgere diverse attività. A ciascun settore o attività corrisponde un sotto-sistema informativo
(privato o porzione di un sistema più grande).
Il database è in grado di favorire un recupero dei dati in modo semplice e istantaneo, come semplice
e istantanea è l’associazione dati-paziente. Questa procedura è utile anche ai fini di ricerca in quanto
permette un utilizzo dei dati, nel rispetto della privicy, per un’analisi a valle sempre più integrata tra
la componente clinica e quella di ricerca.