Strategie di annotazione di geni e genomi

Strategie di annotazione di
geni e genomi
Dr. Giovanni Emiliani
[email protected]
Bioinformatica A.A. 2011-1012
Concetti generali
Le nuove tecnologie consentono l’ottenimento di una
grande mole di dati ad esempio:
dati di espressione genica per 103-104 geni (microarray,
RNAseq)
dati genomici, migliaia di geni identificati in un genoma
Come ottenere informazioni
biologico da questa mole di dati?
di
significato
Concetti generali
Esempio 1: in un esperimento di espressione genica,
poniamo individuo sano vs individuo malato, sono risultati
differenzialmente espressi 1000 geni;
Per quali proteine codificano?
A quale/i via/e metabolica/he appartengono?
Esempio 2: genomica comparativa di 2 o più organismi;
Per quali caratteristiche funzionali si differenziano?
Concetti generali
È necessario dunque procedere ad una annotazione
funzionale dei geni.
Nel caso di neo-sequenziamenti di genomi annotazione
può significare anche l’identificazione di geni all’interno
del genoma (ORF finding)
L’annotazione si effettua attraverso software (dati in
numero elevato, difficilmente gestibili “manualmente”) che
si basano sulla disponibilità di banche dati costruite ed
aggiornate continuamente sulla base di dati sperimentali
Concetti generali
L’approccio generale di analisi si basa inizialmente sulla
ricerca di similarità di sequenza (BLAST) tra il dataset
sperimentale e le banche dati
Una volta trovata una corrispondenza in banca dati (se
esistente) si possono avere in automatico tutte le
informazioni disponibili riguardo al dato gene/proteina
Problemi
È ormai più facile sequenziare un genoma che
descrivere nel dettaglio una reazione metabolica
Si stanno perciò accumulando moltissimi dati che si
basano sulla similarità di sequenza rispetto a dati già
presenti
Ciò significa che spesso troviamo proteine senza
annotazione perché non è stata chiarita la sua funzione
Database generali e specifici
Esistono database specifici (legati ad esempio ad un
particolare organismo) o database generali su cui
effettuare le analisi
Database generali
Gene Ontology (http://www.geneontology.org/)
Contiene informazioni multi-organismo sulla funzione delle
proteine.
È organizzato in maniera gerarchica (scatole cinesi) dal
processo generale a quello più specifico
È diviso in tre settori principali:
Biological process
Molecular function
Cellular component
Gene Ontology
Gene Ontology
Gene Ontology
Un’analisi lanciata contro il database restituisce
tutti GO terms associati a quella proteina
Gene Ontology
Questo è un approccio “pigro” sensato solo se si
hanno una o poche proteine da annotare
Esempio
Esempio di file di output di un esperimento microarray
Gene Ontology
Si possono però inserire
effettuare analisi batch
le
sequenze
ed
KEGG
KEGG: Kyoto Encyclopedia of Genes and Genomes
http://www.genome.jp/kegg/
Contiene informazioni multi-organismo
È particolarmente utile perché fornisce mappe
metaboliche dei processi biologici
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG può essere interrogato con una proteina oppure
effettuare analisi batch fornendo un file multi-fasta al
tool di analisi KAAS (Kegg Automatic Annotaion Server)
KAAS effettua un’analisi BLAST e recupera le
informazioni relative raggruppando le queries in via/
mappe metaboliche
KEGG
KEGG
KEGG
KEGG
KEGG
KEGG
COG
COG: Clusters of Orthologous Groups
http://www.ncbi.nlm.nih.gov/COG/
COG
COG
InterPro
Cerca domini funzionali nelle proteine
InterPro
InterPro
InterPro
Blast2GO
Tools
di analisi – BLAST2GO
A partire da sequenze consente l’annotazione complessiva
delle proteine (GO + KEGG + Interpro)
Blast2GO
Tools
di analisi – Blast2GO
Blast2GO effettua dei Blast in banche dati, poi
automaticamente ottiene da altri databases (GO, KEGG,
ecc) tutte le informazioni connesse.
Blast2GO
Tools
di analisi – BLAST2GO
A partire da sequenze consente l’annotazione complessiva
delle proteine (GO + KEGG + Interpro)
Blast2GO
Tools
di analisi – BLAST2GO
Blast2GO
Tools
di analisi – BLAST2GO
Blast2GO
Tools
di analisi – BLAST2GO