CRIBI Centro di Ricerca Interdipartimentale per le Biotecnologie Innovative PROGETTO OLEA - PIATTAFORMA BIOINFORMATICA Unità operativa coordinata da Giorgio Valle – CRIBI-PADOVA ATTIVITÀ E METODI Le attività sono state finalizzate alla realizzazione di quattro obiettivi principali: 1) una piattaforma per la predizione della struttura genica; 2) una piattaforma per l'annotazione funzionale; 3) una piattaforma avanzata per accedere ai dati; 4) un sito web con un'area informativa di accesso pubblico e un'area “privata” per lo scambio dei dati e delle informazioni tra le unità operative che partecipano al progetto. La predizione genica rappresenta sicuramente uno degli aspetti più importanti e complessi di un progetto genomico. In seguito all’identificazione dei geni codificati dal genoma è infatti possibile comprendere la biologia e la storia evolutiva dell’organismo. La piattaforma di predizione genica implementata al CRIBI prende in considerazione tre diverse tipologie di evidenze, ovverosia tre diversi metodi che permettono di identificare in una determinata regione la possibile presenza di un gene. 1. Predizione ab-initio: utilizza programmi di predizione basati su modelli probabilistici (Hidden Markov Model) che “imparano” a riconoscere la presenza di un gene dopo essere stati allenati su un training set di geni validati sperimentalmente. Questo approccio ha il vantaggio di essere molto veloce e permette di identificare geni anche quando non è presente nessun altro tipo di evidenza sperimentale (come ad esempio sequenze di cDNA). Di contro l'affidabilità di questi programmi è piuttosto bassa e strettamente dipendente dalla qualità dell'insieme di geni utilizzati per l’allenamento. 2. Allineamento di sequenze di cDNA e proteine: questo approccio consiste nell'allineare sul genoma sequenze di cDNA e di proteine dello stesso organismo o di organismi CRIBI UNIVERSITÀ DEGLI STUDI DI PADOVA Centro di Ricerca Interdipartimentale per le Biotecnologie Innovative filogeneticamente vicini. I vantaggi derivati da questo approccio consistono nel fatto che queste sono evidenze di tipo sperimentale e permettono quindi di identificare con buona sicurezza le regioni codificanti. Inoltre, nuovi sistemi di sequenziamento (454-Roche, Illumina e Solid) permettono di ottenere un enorme numero di sequenze in poco tempo, aumentando in questo modo la copertura delle regioni trascritte del genoma. 3. Allineamento di genomi di altri organismi: questa metodologia consiste nell’allineare le sequenze genomiche di due o più organismi filogeneticamente affini. L’idea su cui si basa questo approccio è che le regioni codificanti tendono a rimanere più conservate durante l'evoluzione permettendone cosi’ l'identificazione mediante allineamento. La predizione genica è dunque un processo complesso, che si avvale di diversi tipi di evidenze che devono essere integrate fra loro al fine di raggiungere il risultato più attendibile possibile. L’integrazione di tutti i risultati viene effettuata mediante l’utilizzo del programma JIGSAW che è in grado di valutare il peso di ogni evidenza al fine di definire la soluzione che rappresenta la struttura genica più plausibile. Un altro aspetto importante del progetto è rappresentato dall'annotazione funzionale, cioè dal processo di caratterizzazione dei geni predetti, assegnando loro una funzione biologica o un ruolo metabolico. Sostanzialmente nell'annotazione funzionale l'informazione deriva dalla similarità di sequenza inter-specie, assumendo che regioni altamente conservate in specie diverse mantengano le stesse funzioni. I dati genomici ottenuti nella fase di predizione e annotazione necessitano di essere raccolti in opportuni database per facilitare il loro successivo utilizzo da parte degli utenti finali attraverso opportune interfacce e pagine web. A questo proposito sono stati implementati e messi a punto alcuni strumenti bioinformatici GMOD (Generic Model Organism Database), in particolare Chado, Gbrowse e Apollo. Chado (Mungall, 2007) è uno schema di database relazionale molto sofisticato in grado di rappresentare in modo approfondito e completo qualsiasi dato di tipo biologico e in particolare dati provenienti da progetti genomici; Gbrowse (Stein, 2002) è uno dei più diffusi genome browsers, che offre la possibilità di “navigare” all'interno della sequenza genomica, visualizzando le localizzazioni e la struttura dei geni e di altri dati biologici (EST, proteine, ecc.) lungo i cromosomi; Apollo (Lewis, 2002) è un software per l' “editing” del genoma, utile nella fase “manuale” di annotazione strutturale in quanto gli utenti abilitati possono modificare le strutture dei geni predetti, creando nuovi geni e trascritti alternativi, allungando le UTR o cancellando geni erroneamente predetti. 2 CRIBI UNIVERSITÀ DEGLI STUDI DI PADOVA Centro di Ricerca Interdipartimentale per le Biotecnologie Innovative Per quanto riguarda la possibilità di interrogazione del database e l'accesso ai dati del progetto, è stata sviluppata una piattaforma di interrogazione avanzata basata su XML, attraverso la quale l'utente può facilmente estrarre dal database le informazioni necessarie alle sue analisi. In particolare, questo sistema fornisce la possibilità di classificare i dati in ordine di importanza in base a criteri selezionati. L'insieme dei criteri selezionabili è predisposto nella fase di configurazione, ma possono essere facilmente modificati, rimossi o aggiunti altri criteri di ricerca. Aspetto importante di questo sistema è la possibilità di editare “manualmente” le annotazioni di tipo funzionale (aggiungere/cancellare termini di “gene ontology”, gene symbols, domini proteici, ecc.). Infatti, sebbene Apollo fornisca un buono strumento per l'annotazione della struttura genica (permettendo la creazione di nuovi esoni, la modifica di coordinate, ecc.), non consente un'adeguata possibilità di annotazione funzionale. RISULTATI OTTENUTI Lo sviluppo delle piattaforme dedicate alla predizione genica e all'annotazione funzionale è stato completato ed il sistema è attualmente pronto a ricevere ed elaborare i dati prodotti dal progetto. È stata inoltre sviluppata una piattaforma per annotazione esperta, che consente di editare manualmente il genoma, sia per quanto riguarda gli aspetti strutturali, sia per gli aspetti funzionali. Infine, è stato realizzato un portale del genoma dell'olivo. Il sistema è composto da un'area pubblica, per comunicare gli obiettivi del progetto e divulgarne i risultati ai visitatori, e da un'area privata (accessibile tramite password alle Unità Operative del progetto) che permette di condividere lo stato dei lavori e risultati parziali. Attualmente l'area privata contiene tra l'altro i dati dell'assemblaggio genomico effettuato dai gruppi di San Michele All'Adige e di Udine. È stato implementato il programma BLAST che consente di effettuare ricerche di similarità sui “contig” genomici. Il sito web è accessibile all'indirizzo http://www.oleagenome.org che contiene anche il link per il collegamento all'area privata. Padova, 27 Marzo 2012 Prof. Giorgio Valle Responsabile Scientifico dell'Unità Operativa 3