progetto olea - piattaforma bioinformatica

CRIBI
Centro di Ricerca Interdipartimentale
per le Biotecnologie Innovative
PROGETTO OLEA - PIATTAFORMA BIOINFORMATICA
Unità operativa coordinata da Giorgio Valle – CRIBI-PADOVA
ATTIVITÀ E METODI
Le attività sono state finalizzate alla realizzazione di quattro obiettivi principali: 1) una
piattaforma per la predizione della struttura genica; 2) una piattaforma per l'annotazione funzionale;
3) una piattaforma avanzata per accedere ai dati; 4) un sito web con un'area informativa di accesso
pubblico e un'area “privata” per lo scambio dei dati e delle informazioni tra le unità operative che
partecipano al progetto.
La predizione genica rappresenta sicuramente uno degli aspetti più importanti e complessi di
un progetto genomico. In seguito all’identificazione dei geni codificati dal genoma è infatti
possibile comprendere la biologia e la storia evolutiva dell’organismo.
La piattaforma di predizione genica implementata al CRIBI prende in considerazione tre
diverse tipologie di evidenze, ovverosia tre diversi metodi che permettono di identificare in una
determinata regione la possibile presenza di un gene.
1. Predizione ab-initio: utilizza programmi di predizione basati su modelli probabilistici (Hidden
Markov Model) che “imparano” a riconoscere la presenza di un gene dopo essere stati allenati
su un training set di geni validati sperimentalmente. Questo approccio ha il vantaggio di essere
molto veloce e permette di identificare geni anche quando non è presente nessun altro tipo di
evidenza sperimentale (come ad esempio sequenze di cDNA). Di contro l'affidabilità di questi
programmi è piuttosto bassa e strettamente dipendente dalla qualità dell'insieme di geni
utilizzati per l’allenamento.
2. Allineamento di sequenze di cDNA e proteine: questo approccio consiste nell'allineare sul
genoma sequenze di cDNA e di proteine dello stesso organismo o di organismi
CRIBI
UNIVERSITÀ DEGLI STUDI DI PADOVA
Centro di Ricerca Interdipartimentale
per le Biotecnologie Innovative
filogeneticamente vicini. I vantaggi derivati da questo approccio consistono nel fatto che
queste sono evidenze di tipo sperimentale e permettono quindi di identificare con buona
sicurezza le regioni codificanti. Inoltre, nuovi sistemi di sequenziamento (454-Roche, Illumina
e Solid) permettono di ottenere un enorme numero di sequenze in poco tempo, aumentando in
questo modo la copertura delle regioni trascritte del genoma.
3. Allineamento di genomi di altri organismi: questa metodologia consiste nell’allineare le
sequenze genomiche di due o più organismi filogeneticamente affini. L’idea su cui si basa
questo approccio è che le regioni codificanti tendono a rimanere più conservate durante
l'evoluzione permettendone cosi’ l'identificazione mediante allineamento.
La predizione genica è dunque un processo complesso, che si avvale di diversi tipi di evidenze
che devono essere integrate fra loro al fine di raggiungere il risultato più attendibile possibile.
L’integrazione di tutti i risultati viene effettuata mediante l’utilizzo del programma JIGSAW che è
in grado di valutare il peso di ogni evidenza al fine di definire la soluzione che rappresenta la
struttura genica più plausibile.
Un altro aspetto importante del progetto è rappresentato dall'annotazione funzionale, cioè dal
processo di caratterizzazione dei geni predetti, assegnando loro una funzione biologica o un ruolo
metabolico. Sostanzialmente nell'annotazione funzionale l'informazione deriva dalla similarità di
sequenza inter-specie, assumendo che regioni altamente conservate in specie diverse mantengano le
stesse funzioni.
I dati genomici ottenuti nella fase di predizione e annotazione necessitano di essere raccolti in
opportuni database per facilitare il loro successivo utilizzo da parte degli utenti finali attraverso
opportune interfacce e pagine web. A questo proposito sono stati implementati e messi a punto
alcuni strumenti bioinformatici GMOD (Generic Model Organism Database), in particolare Chado,
Gbrowse e Apollo. Chado (Mungall, 2007) è uno schema di database relazionale molto sofisticato
in grado di rappresentare in modo approfondito e completo qualsiasi dato di tipo biologico e in
particolare dati provenienti da progetti genomici; Gbrowse (Stein, 2002) è uno dei più diffusi
genome browsers, che offre la possibilità di “navigare” all'interno della sequenza genomica,
visualizzando le localizzazioni e la struttura dei geni e di altri dati biologici (EST, proteine, ecc.)
lungo i cromosomi; Apollo (Lewis, 2002) è un software per l' “editing” del genoma, utile nella fase
“manuale” di annotazione strutturale in quanto gli utenti abilitati possono modificare le strutture dei
geni predetti, creando nuovi geni e trascritti alternativi, allungando le UTR o cancellando geni
erroneamente predetti.
2
CRIBI
UNIVERSITÀ DEGLI STUDI DI PADOVA
Centro di Ricerca Interdipartimentale
per le Biotecnologie Innovative
Per quanto riguarda la possibilità di interrogazione del database e l'accesso ai dati del progetto,
è stata sviluppata una piattaforma di interrogazione avanzata basata su XML, attraverso la quale
l'utente può facilmente estrarre dal database le informazioni necessarie alle sue analisi. In
particolare, questo sistema fornisce la possibilità di classificare i dati in ordine di importanza in base
a criteri selezionati. L'insieme dei criteri selezionabili è predisposto nella fase di configurazione, ma
possono essere facilmente modificati, rimossi o aggiunti altri criteri di ricerca.
Aspetto importante di questo sistema è la possibilità di editare “manualmente” le annotazioni
di tipo funzionale (aggiungere/cancellare termini di “gene ontology”, gene symbols, domini
proteici, ecc.). Infatti, sebbene Apollo fornisca un buono strumento per l'annotazione della struttura
genica (permettendo la creazione di nuovi esoni, la modifica di coordinate, ecc.), non consente
un'adeguata possibilità di annotazione funzionale.
RISULTATI OTTENUTI
Lo sviluppo delle piattaforme dedicate alla predizione genica e all'annotazione funzionale è
stato completato ed il sistema è attualmente pronto a ricevere ed elaborare i dati prodotti dal
progetto. È stata inoltre sviluppata una piattaforma per annotazione esperta, che consente di editare
manualmente il genoma, sia per quanto riguarda gli aspetti strutturali, sia per gli aspetti funzionali.
Infine, è stato realizzato un portale del genoma dell'olivo. Il sistema è composto da un'area
pubblica, per comunicare gli obiettivi del progetto e divulgarne i risultati ai visitatori, e da un'area
privata (accessibile tramite password alle Unità Operative del progetto) che permette di condividere
lo stato dei lavori e risultati parziali.
Attualmente l'area privata contiene tra l'altro i dati dell'assemblaggio genomico effettuato dai
gruppi di San Michele All'Adige e di Udine. È stato implementato il programma BLAST che
consente di effettuare ricerche di similarità sui “contig” genomici. Il sito web è accessibile
all'indirizzo http://www.oleagenome.org che contiene anche il link per il collegamento all'area
privata.
Padova, 27 Marzo 2012
Prof. Giorgio Valle
Responsabile Scientifico dell'Unità Operativa
3