RIVISTA DELL’ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA N. 007-2015 PORTALE RIVISTA AREA INTERSETTORIALE SVELARE I SEGRETI NASCOSTI NEL DNA DI OGNI INDIVIDUO ANALISI EFFICIENTE DI DATI BIOMEDICI DI NUOVA GENERAZIONE a cura di Ing. G. Fiscon Ing. E. Weitschek Ing. G. Coni commissione Innovazione per l’ingegneria d’impresa revisione testi: Ing. T. Ricci Negli ultimi anni grazie all'avanzamento delle tecnologie di sequenziamento di nuova generazione, sono stati raccolti enormi quantità di dati biomedici. Pertanto, se da un lato le capacità di produrli sono in continuo aumento, sono anche tali da superare quelle che ne consentano una gestione, elaborazione ed analisi efficace ed efficiente in termini di costo e velocità. Questa prorompente crescita di dati, soprattutto in campo biologico, ha reso necessari metodi informatici per guidare l’analisi di insiemi di dati biomedici al fine di estrarre informazioni compatte e pertinenti per far luce su questioni biologiche e mediche. Nasce così una nuova scienza interdisciplinare, la bioinformatica, che unisce la biologia, l'ingegneria, l'informatica e la tecnologie dell'informazione al fine di fornire metodi e strumenti per proporre soluzioni circa la gestione e l'analisi di dati biomedici. In questi ultimi anni, come detto, si è assistito ad un rapido sviluppo delle nuove tecnologie, ma ancor di più dei dati che queste ultime riescono a produrre. In diversi contesti, tra cui principalmente quello biomedico, l'ammontare dei dati prodotti è cresciuto vertiginosamente, tanto da rendere obsoleti i vecchi strumenti di analisi (vedi Figura 1). Per tali motivi, l'informatica è diventata l'elemento chiave in moltissime discipline tra cui la biologia e la medicina. Figura 1. Crescita esponenziale di dati genomici. 1 ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA RIVISTA DELL’ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA N. 007-2015 Parallelamente alla crescita dei dati, si sono sviluppati algoritmi e risorse computazionali di supporto alla raccolta, alla memorizzazione e all’analisi. Oltre alla ricerca di nuovi sistemi per la gestione dei dati, è necessario trovare tecniche che permettano di estrarre conoscenza dai dati, ovvero informazioni utili nel modo più efficace ed efficiente possibile al fine di acquisire nuova conoscenza. Quest’insieme integrato di strumenti informatici/matematici/statistici per ciò che riguarda i dati biologici ha dato vita a quella che oggi chiamiamo bioinformatica. La bioinformatica è, quindi, la disciplina che si occupa di trovare soluzioni a problemi biologici con metodi e strumenti informatici. Tra i sistemi informatici sviluppatisi negli ultimi anni vi sono le banche dati, che si occupano della memorizzazione e del mantenimento di dati biologici, tra cui troviamo quelli relativi alle sequenze, che contengono informazioni genomiche (ovvero dati sui genomi di umani, piante, animali e funghi) e quelli relativi a mutazioni genetiche. L'ingresso delle tecnologie informatiche nella biologia molecolare ha permesso l'apertura su nuovi fronti, come per esempio la decodifica del genoma umano. Con il termine genoma si intende l'intero materiale genetico (ereditario) che caratterizza un organismo vivente. Tale informazione genetica è codificata nel DNA e suddivisa in unità ereditarie chiamate geni. Con il termine sequenziamento ci si riferisce alla capacità di stabilire l'esatto ordine dei nucleotidi all'interno di un acido nucleico (DNA). Decodificare il DNA è molto importante, poiché le informazioni che nasconde sono sfruttabili in tutte le branche della ricerca biologica. Le prime tecniche sviluppate si sono però mostrate limitate in scalabilità, velocità, economicità, risoluzione e rendimento. Per far fronte a queste limitazioni sono nate, negli ultimi anni, quelle che prendono il nome di tecnologie di nuova generazione (Next Generation Sequencing-NGS), che hanno consentito di ottenere grandi quantità di sequenze con velocità elevante e costi sempre minori (vedi Figura 2). Figura 2. Costi decrescenti del sequenziamento del genoma umano. Le tecniche di nuova generazione richiedono però molte risorse computazionali, sia a livello di spazio di memorizzazione, sia a livello di processamento, poiché per evitare errori di decodifica estraggono un'enorme quantità di dati relativi ai singoli nucleotidi. E' quindi necessario rendere il processo più efficiente possibile. La scoperta della possibilità di analizzare il DNA è stata una reale rivoluzione in campo biomedico, aprendo nuove frontiere per ciò che riguarda la comprensione a trecentosessanta gradi del sistema umano: sfruttare la conoscenza del patrimonio genetico di ogni individuo è alla base delle nuove biotecnologie così come delle avanzate tecniche forensi, che sfruttano informazioni genetiche e che saranno una colonna portante nella medicina del futuro, dove i farmaci e i trattamenti potranno essere personalizzati in base al genoma dell'individuo. MATERIALI E METODI La definizione del Problema Grazie ai progressi nelle tecnologie di nuova generazione che hanno portato ad una disponibilità crescente di dati biologici, molte banche dati ad accesso libero offrono agli scienziati un gran numero di dati eterogenei. Ci troviamo quindi in un'epoca in cui le capacità di raccolta e memorizzazione di grandi quantità di dati hanno notevolmente superato quelle di analizzarli, sintetizzarli, e comprenderli fino in fondo. Pertanto, metodi che forniscano un'estrazione automatica di conoscenza e che quindi facilitino le analisi esplorative 2 ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA RIVISTA DELL’ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA N. 007-2015 sono fondamentali per ottenere una comprensione dei dati ad ampio spettro, che consenta una progressione reale in campo sia biologico che medico. L’estrazione di conoscenza L’estrazione automatica di conoscenza dai dati così come il processo di ricerca di informazioni utili in grandi insiemi di dati, noti come data mining, diventano in questo contesto essenziali. Tali tecniche trovano applicazione nei campi più vari, dalla medicina alle attività di mercato, ad esempio per scoprire cosa potrebbe voler acquistare in un immediato futuro un possibile acquirente. Il data mining è parte integrante di un'altra attività, chiamata knowledge discovery, con cui si indica l'intero processo che trasforma dati grezzi in informazione. In tale contesto, l'obiettivo dell'ingegnere è quello di sviluppare ed applicare tecniche di estrazione della conoscenza per ottenere l'assegnazione automatica dei dati biologici, al fine di far luce sia su interrogativi di carattere medico che biologico: sostenere i medici nella formulazione di diagnosi corrette, così come gli scienziati nell'identificazione di sequenze biologiche rilevanti. In particolare, la nostra attenzione si focalizza sulla classificazione, dove le classi alle quali i dati devono essere assegnati siano predefinite. Tale tipo di tecnica è consigliato soprattutto quando si maneggiano insiemi di dati clinici, come i campioni dei pazienti che sono spesso in precedenza assegnati ad una classe specifica da medici (ad esempio, sani versus malati). Infine, è opportuno specificare che, quando si analizza una quantità enorme di dati, il processo di estrazione della conoscenza deve prevedere una fase iniziale di selezione dei dati più significativi, che ne riduca la dimensione, al fine di estrarre informazioni compatte e pertinenti che facilitino la procedura di classificazione. Figura 3. Il processo di ingegnerizzazione: estrarre conoscenza da insiemi di dati. Pertanto, la figura professionale dell'ingegnere non è più vista come colui che progetta un palazzo, un ponte, o qualsiasi altra infrastruttura; bensì è colui che è chiamato ad occuparsi della progettazione di sistemi software in grado di fornire risposte concrete in merito a quello che i dati rappresentino, poiché senza un’accurata analisi e conseguente interpretazione tali dati rimarrebbero fini a se stessi (vedi Figura 3). In tale scenario, l’ingegnere è dunque indispensabile sia per far fronte efficientemente alla gestione dei dati provenienti da sequenziatori di nuova generazione, sia per intervenire efficacemente nello sviluppo e nell'applicazione delle tecniche di estrazione della conoscenza, al fine di analizzare e interpretare i dati prodotti da tali tecnologie. In un’ottica ad ampio raggio, la possibilità di analizzare dati genomici (provenienti dalla ricostruzione delle sequenze di DNA del genoma umano) apre la frontiera a diagnosi mediche molto più accurate, che includono terapie sviluppate ad-hoc per ogni individuo, il cui patrimonio genetico correttamente analizzato rivelerà se stia sviluppando una malattia ora o se la svilupperà in futuro, o anche se risponderà positivamente o negativamente al trattamento somministrato. Ogni persona è infatti caratterizzata da un profilo genetico unico e per questo anche delle piccole differenze possono rendere notevolmente variegate le reazioni ai farmaci da persona a persona. Tale concetto è alla base dello sviluppo di quella che prende il nome di medicina personalizzata, che ha lo scopo di fornire farmaci realizzati ad-hoc per rispondere ai bisogni dei singoli individui. Per raggiungere quindi tale obiettivo, la scienza biomedica necessita di un notevole supporto nell'analisi, per interpretare correttamente i dati genomici e fornire servizi che effettivamente rispondano alle necessità dei pazienti. 3 ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA RIVISTA DELL’ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA N. 007-2015 CONCLUSIONI Il rapido avanzamento delle tecnologie di sequenziamento di DNA di nuova generazione (Next Generation Sequencing), in grado di produrre grandi quantità di dati in poco tempo, ha permesso l'avvento degli studi sull'intero genoma umano per capire le basi genetiche delle malattie, cercando soluzioni all'avanguardia o nuove cure. Tali studi includono esperimenti di sequenziamento del DNA, che producono un’enorme quantità di dati che devono essere memorizzati efficientemente ed analizzati tramite metodi computazionali per estrarne nuova conoscenza. Produrre e condividere tali dati è diventato sempre più semplice, ma allo steso tempo ha richiesto lo sviluppo di sistemi in grado di gestirli in modo efficace (producendo informazioni utili ai fini della diagnosi di malattie) ed efficiente (ottimizzando costi e tempi). Lo sviluppo di sistemi che consentano di estrarre più informazioni possibili dai dati che si hanno a disposizione aiuterà gli scienziati a dare un senso alla rapida crescita di informazioni sui sistemi viventi che sono la base dell’esistenza di ogni essere umano. L'analisi dei geni e il loro interagire nell'ambiente può aiutare a trovare il modo per migliorare la salute degli essere umani, ma anche di piante, animali e di milioni di forme di vita che sostengono il nostro ambiente. 4 ORDINE DEGLI INGEGNERI DELLA PROVINCIA DI ROMA