SVELARE I SEGRETI NASCOSTI NEL DNA DI OGNI INDIVIDUO

RIVISTA DELL’ORDINE
DEGLI INGEGNERI
DELLA PROVINCIA
DI ROMA
N. 007-2015
PORTALE RIVISTA
AREA INTERSETTORIALE
SVELARE I SEGRETI NASCOSTI NEL DNA DI OGNI INDIVIDUO
ANALISI EFFICIENTE DI DATI BIOMEDICI DI NUOVA GENERAZIONE
a cura di
Ing. G. Fiscon
Ing. E. Weitschek
Ing. G. Coni
commissione
Innovazione per l’ingegneria d’impresa
revisione testi:
Ing. T. Ricci
Negli ultimi anni grazie all'avanzamento delle tecnologie di sequenziamento di nuova generazione, sono stati
raccolti enormi quantità di dati biomedici. Pertanto, se da un lato le capacità di produrli sono in continuo
aumento, sono anche tali da superare quelle che ne consentano una gestione, elaborazione ed analisi
efficace ed efficiente in termini di costo e velocità. Questa prorompente crescita di dati, soprattutto in campo
biologico, ha reso necessari metodi informatici per guidare l’analisi di insiemi di dati biomedici al fine di
estrarre informazioni compatte e pertinenti per far luce su questioni biologiche e mediche. Nasce così una
nuova scienza interdisciplinare, la bioinformatica, che unisce la biologia, l'ingegneria, l'informatica e la
tecnologie dell'informazione al fine di fornire metodi e strumenti per proporre soluzioni circa la gestione e
l'analisi di dati biomedici.
In questi ultimi anni, come detto, si è assistito ad un rapido sviluppo delle nuove tecnologie, ma ancor di più
dei dati che queste ultime riescono a produrre. In diversi contesti, tra cui principalmente quello biomedico,
l'ammontare dei dati prodotti è cresciuto vertiginosamente, tanto da rendere obsoleti i vecchi strumenti di
analisi (vedi Figura 1). Per tali motivi, l'informatica è diventata l'elemento chiave in moltissime discipline tra
cui la biologia e la medicina.
Figura 1. Crescita esponenziale di dati genomici.
1
ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA
RIVISTA DELL’ORDINE
DEGLI INGEGNERI
DELLA PROVINCIA
DI ROMA
N. 007-2015
Parallelamente alla crescita dei dati, si sono sviluppati algoritmi e risorse computazionali di supporto alla
raccolta, alla memorizzazione e all’analisi. Oltre alla ricerca di nuovi sistemi per la gestione dei dati, è
necessario trovare tecniche che permettano di estrarre conoscenza dai dati, ovvero informazioni utili nel
modo più efficace ed efficiente possibile al fine di acquisire nuova conoscenza. Quest’insieme integrato di
strumenti informatici/matematici/statistici per ciò che riguarda i dati biologici ha dato vita a quella che oggi
chiamiamo bioinformatica.
La bioinformatica è, quindi, la disciplina che si occupa di trovare soluzioni a problemi biologici con metodi e
strumenti informatici. Tra i sistemi informatici sviluppatisi negli ultimi anni vi sono le banche dati, che si
occupano della memorizzazione e del mantenimento di dati biologici, tra cui troviamo quelli relativi alle
sequenze, che contengono informazioni genomiche (ovvero dati sui genomi di umani, piante, animali e
funghi) e quelli relativi a mutazioni genetiche.
L'ingresso delle tecnologie informatiche nella biologia molecolare ha permesso l'apertura su nuovi fronti,
come per esempio la decodifica del genoma umano. Con il termine genoma si intende l'intero materiale
genetico (ereditario) che caratterizza un organismo vivente. Tale informazione genetica è codificata nel DNA
e suddivisa in unità ereditarie chiamate geni.
Con il termine sequenziamento ci si riferisce alla capacità di stabilire l'esatto ordine dei nucleotidi all'interno
di un acido nucleico (DNA). Decodificare il DNA è molto importante, poiché le informazioni che nasconde
sono sfruttabili in tutte le branche della ricerca biologica. Le prime tecniche sviluppate si sono però mostrate
limitate in scalabilità, velocità, economicità, risoluzione e rendimento. Per far fronte a queste limitazioni sono
nate, negli ultimi anni, quelle che prendono il nome di tecnologie di nuova generazione (Next Generation
Sequencing-NGS), che hanno consentito di ottenere grandi quantità di sequenze con velocità elevante e
costi sempre minori (vedi Figura 2).
Figura 2. Costi decrescenti del sequenziamento del genoma umano.
Le tecniche di nuova generazione richiedono però molte risorse computazionali, sia a livello di spazio di
memorizzazione, sia a livello di processamento, poiché per evitare errori di decodifica estraggono un'enorme
quantità di dati relativi ai singoli nucleotidi. E' quindi necessario rendere il processo più efficiente possibile.
La scoperta della possibilità di analizzare il DNA è stata una reale rivoluzione in campo biomedico, aprendo
nuove frontiere per ciò che riguarda la comprensione a trecentosessanta gradi del sistema umano: sfruttare
la conoscenza del patrimonio genetico di ogni individuo è alla base delle nuove biotecnologie così come
delle avanzate tecniche forensi, che sfruttano informazioni genetiche e che saranno una colonna portante
nella medicina del futuro, dove i farmaci e i trattamenti potranno essere personalizzati in base al genoma
dell'individuo.
MATERIALI E METODI
La definizione del Problema
Grazie ai progressi nelle tecnologie di nuova generazione che hanno portato ad una disponibilità crescente
di dati biologici, molte banche dati ad accesso libero offrono agli scienziati un gran numero di dati
eterogenei. Ci troviamo quindi in un'epoca in cui le capacità di raccolta e memorizzazione di grandi quantità
di dati hanno notevolmente superato quelle di analizzarli, sintetizzarli, e comprenderli fino in fondo. Pertanto,
metodi che forniscano un'estrazione automatica di conoscenza e che quindi facilitino le analisi esplorative
2
ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA
RIVISTA DELL’ORDINE
DEGLI INGEGNERI
DELLA PROVINCIA
DI ROMA
N. 007-2015
sono fondamentali per ottenere una comprensione dei dati ad ampio spettro, che consenta una progressione
reale in campo sia biologico che medico.
L’estrazione di conoscenza
L’estrazione automatica di conoscenza dai dati così come il processo di ricerca di informazioni utili in grandi
insiemi di dati, noti come data mining, diventano in questo contesto essenziali. Tali tecniche trovano
applicazione nei campi più vari, dalla medicina alle attività di mercato, ad esempio per scoprire cosa
potrebbe voler acquistare in un immediato futuro un possibile acquirente. Il data mining è parte integrante di
un'altra attività, chiamata knowledge discovery, con cui si indica l'intero processo che trasforma dati grezzi in
informazione.
In tale contesto, l'obiettivo dell'ingegnere è quello di sviluppare ed applicare tecniche di estrazione della
conoscenza per ottenere l'assegnazione automatica dei dati biologici, al fine di far luce sia su interrogativi di
carattere medico che biologico: sostenere i medici nella formulazione di diagnosi corrette, così come gli
scienziati nell'identificazione di sequenze biologiche rilevanti.
In particolare, la nostra attenzione si focalizza sulla classificazione, dove le classi alle quali i dati devono
essere assegnati siano predefinite. Tale tipo di tecnica è consigliato soprattutto quando si maneggiano
insiemi di dati clinici, come i campioni dei pazienti che sono spesso in precedenza assegnati ad una classe
specifica da medici (ad esempio, sani versus malati). Infine, è opportuno specificare che, quando si analizza
una quantità enorme di dati, il processo di estrazione della conoscenza deve prevedere una fase iniziale di
selezione dei dati più significativi, che ne riduca la dimensione, al fine di estrarre informazioni compatte e
pertinenti che facilitino la procedura di classificazione.
Figura 3. Il processo di ingegnerizzazione: estrarre conoscenza da insiemi di dati.
Pertanto, la figura professionale dell'ingegnere non è più vista come colui che progetta un palazzo, un ponte,
o qualsiasi altra infrastruttura; bensì è colui che è chiamato ad occuparsi della progettazione di sistemi
software in grado di fornire risposte concrete in merito a quello che i dati rappresentino, poiché senza
un’accurata analisi e conseguente interpretazione tali dati rimarrebbero fini a se stessi (vedi Figura 3).
In tale scenario, l’ingegnere è dunque indispensabile sia per far fronte efficientemente alla gestione dei dati
provenienti da sequenziatori di nuova generazione, sia per intervenire efficacemente nello sviluppo e
nell'applicazione delle tecniche di estrazione della conoscenza, al fine di analizzare e interpretare i dati
prodotti da tali tecnologie.
In un’ottica ad ampio raggio, la possibilità di analizzare dati genomici (provenienti dalla ricostruzione delle
sequenze di DNA del genoma umano) apre la frontiera a diagnosi mediche molto più accurate, che
includono terapie sviluppate ad-hoc per ogni individuo, il cui patrimonio genetico correttamente analizzato
rivelerà se stia sviluppando una malattia ora o se la svilupperà in futuro, o anche se risponderà
positivamente o negativamente al trattamento somministrato. Ogni persona è infatti caratterizzata da un
profilo genetico unico e per questo anche delle piccole differenze possono rendere notevolmente variegate
le reazioni ai farmaci da persona a persona. Tale concetto è alla base dello sviluppo di quella che prende il
nome di medicina personalizzata, che ha lo scopo di fornire farmaci realizzati ad-hoc per rispondere ai
bisogni dei singoli individui.
Per raggiungere quindi tale obiettivo, la scienza biomedica necessita di un notevole supporto nell'analisi, per
interpretare correttamente i dati genomici e fornire servizi che effettivamente rispondano alle necessità dei
pazienti.
3
ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA
RIVISTA DELL’ORDINE
DEGLI INGEGNERI
DELLA PROVINCIA
DI ROMA
N. 007-2015
CONCLUSIONI
Il rapido avanzamento delle tecnologie di sequenziamento di DNA di nuova generazione (Next Generation
Sequencing), in grado di produrre grandi quantità di dati in poco tempo, ha permesso l'avvento degli studi
sull'intero genoma umano per capire le basi genetiche delle malattie, cercando soluzioni all'avanguardia o
nuove cure. Tali studi includono esperimenti di sequenziamento del DNA, che producono un’enorme
quantità di dati che devono essere memorizzati efficientemente ed analizzati tramite metodi computazionali
per estrarne nuova conoscenza.
Produrre e condividere tali dati è diventato sempre più semplice, ma allo steso tempo ha richiesto lo sviluppo
di sistemi in grado di gestirli in modo efficace (producendo informazioni utili ai fini della diagnosi di malattie)
ed efficiente (ottimizzando costi e tempi). Lo sviluppo di sistemi che consentano di estrarre più informazioni
possibili dai dati che si hanno a disposizione aiuterà gli scienziati a dare un senso alla rapida crescita di
informazioni sui sistemi viventi che sono la base dell’esistenza di ogni essere umano. L'analisi dei geni e il
loro interagire nell'ambiente può aiutare a trovare il modo per migliorare la salute degli essere umani, ma
anche di piante, animali e di milioni di forme di vita che sostengono il nostro ambiente.
4
ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA