Strategie di annotazione di geni e genomi Dr. Giovanni Emiliani [email protected] Bioinformatica A.A. 2011-1012 Concetti generali Le nuove tecnologie consentono l’ottenimento di una grande mole di dati ad esempio: dati di espressione genica per 103-104 geni (microarray, RNAseq) dati genomici, migliaia di geni identificati in un genoma Come ottenere informazioni biologico da questa mole di dati? di significato Concetti generali Esempio 1: in un esperimento di espressione genica, poniamo individuo sano vs individuo malato, sono risultati differenzialmente espressi 1000 geni; Per quali proteine codificano? A quale/i via/e metabolica/he appartengono? Esempio 2: genomica comparativa di 2 o più organismi; Per quali caratteristiche funzionali si differenziano? Concetti generali È necessario dunque procedere ad una annotazione funzionale dei geni. Nel caso di neo-sequenziamenti di genomi annotazione può significare anche l’identificazione di geni all’interno del genoma (ORF finding) L’annotazione si effettua attraverso software (dati in numero elevato, difficilmente gestibili “manualmente”) che si basano sulla disponibilità di banche dati costruite ed aggiornate continuamente sulla base di dati sperimentali Concetti generali L’approccio generale di analisi si basa inizialmente sulla ricerca di similarità di sequenza (BLAST) tra il dataset sperimentale e le banche dati Una volta trovata una corrispondenza in banca dati (se esistente) si possono avere in automatico tutte le informazioni disponibili riguardo al dato gene/proteina Problemi È ormai più facile sequenziare un genoma che descrivere nel dettaglio una reazione metabolica Si stanno perciò accumulando moltissimi dati che si basano sulla similarità di sequenza rispetto a dati già presenti Ciò significa che spesso troviamo proteine senza annotazione perché non è stata chiarita la sua funzione Database generali e specifici Esistono database specifici (legati ad esempio ad un particolare organismo) o database generali su cui effettuare le analisi Database generali Gene Ontology (http://www.geneontology.org/) Contiene informazioni multi-organismo sulla funzione delle proteine. È organizzato in maniera gerarchica (scatole cinesi) dal processo generale a quello più specifico È diviso in tre settori principali: Biological process Molecular function Cellular component Gene Ontology Gene Ontology Gene Ontology Un’analisi lanciata contro il database restituisce tutti GO terms associati a quella proteina Gene Ontology Questo è un approccio “pigro” sensato solo se si hanno una o poche proteine da annotare Esempio Esempio di file di output di un esperimento microarray Gene Ontology Si possono però inserire effettuare analisi batch le sequenze ed KEGG KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/ Contiene informazioni multi-organismo È particolarmente utile perché fornisce mappe metaboliche dei processi biologici KEGG KEGG KEGG KEGG KEGG KEGG KEGG KEGG KEGG può essere interrogato con una proteina oppure effettuare analisi batch fornendo un file multi-fasta al tool di analisi KAAS (Kegg Automatic Annotaion Server) KAAS effettua un’analisi BLAST e recupera le informazioni relative raggruppando le queries in via/ mappe metaboliche KEGG KEGG KEGG KEGG KEGG KEGG COG COG: Clusters of Orthologous Groups http://www.ncbi.nlm.nih.gov/COG/ COG COG InterPro Cerca domini funzionali nelle proteine InterPro InterPro InterPro Blast2GO Tools di analisi – BLAST2GO A partire da sequenze consente l’annotazione complessiva delle proteine (GO + KEGG + Interpro) Blast2GO Tools di analisi – Blast2GO Blast2GO effettua dei Blast in banche dati, poi automaticamente ottiene da altri databases (GO, KEGG, ecc) tutte le informazioni connesse. Blast2GO Tools di analisi – BLAST2GO A partire da sequenze consente l’annotazione complessiva delle proteine (GO + KEGG + Interpro) Blast2GO Tools di analisi – BLAST2GO Blast2GO Tools di analisi – BLAST2GO Blast2GO Tools di analisi – BLAST2GO