Elena Porto 591329 DESCRIVI USO E UTILITÀ DELLA BANCA DATI “HOMOLOGENE” PRESSO L’NCBI HomoloGene è un tool d’omologia genica che serve ad identificare automaticamente gli ortologhi putativi tra i geni annotati di alcuni genomi eucariotici completamente sequenziati. Procedura Nella prima versione, HomoloGene comparava sequenze nucleotidiche tra coppie di organismi; da poco è stata introdotta una nuova strategia che procede comparando le proteine degli organismi input. Queste vengono prima confrontate una per una utilizzando blastp, poi a coppie e successivamente divise in gruppi. Il confronto avviene seguendo l’ordine definito da una albero di similarità di sequenza; in pratica gli organismi più strettamente correlati vengono confrontati per primi tra loro e poi questi vengono confrontati con gli organismi più distanti, sempre tenendo conto dell’ordine definito dall’albero. La scelta di confrontare tra loro sequenze proteiche e non di DNA è dovuta al fatto che la sequenza proteica è più conservata di quella nucleotidica e dunque questo metodo ci permette d’identificare omologie più remote. Gli allineamenti proteici vengono poi mappati sulle sequenze di DNA corrispondenti, così da poter calcolare la distanza tra gli ortologhi; per esempio la distanza molecolare può essere calcolata tramite il modello di Juke e Cantor. Quando possibile, le sequenze vengono confrontate considerando la sintenia, cioè tenendo conto dell’eventuale conservazione dell’associazione genetica tra organismi anche molto distanti. Le sequenze rimanenti vengono allineate con un algoritmo che massimizza lo score globale, piuttosto che quello locale ed inoltre sono impostati valori (calcolati basandosi sulla rispettiva distribuzione dei punteggi per i dati gruppi d’organismi) per evitare che vengano raggruppati insieme ortologhi improbabili. Il calcolo delle statistiche è tuttavia ancora riferito alle sequenza di DNA. Le entries di HomoloGene, oltre agli ortologhi, forniscono anche paraloghi; questi vengono identificati trovando le sequenze che sono più vicine nelle specie già analizzate piuttosto che quelle di altre specie. Organismi Gli organismi che vengono considerati nella ricerca di HomoloGene devono avere il completo genoma o almeno 10.000 entries in UniGene. Ad oggi gli organismi sono 20: -Homo sapiens -Pan troglodytes -Canis lupus familiaris -Bos taurus -Mus musculus -Rattus norvegicus -Gallus gallus -Danio rerio -Drosophila melanogaster -Anophles gambiae -Caenorhabditis elegans -Schizosaccharomyces pombe -Saccharomyces cerevisiae -Kluyvermyces lactis -Eremothecium gossypii -Magnaporthe grisea -Neurospora crassa -Arabidopsis thaliana -Oryza sativa -Plasmodium falciparum Nella schermata iniziale per ogni organismo vengono indicati: il numero di geni considerati del genoma, il numero di quelli che sono stati posizionati in un gruppo d’omologia e il numero di gruppi d’omologia per l’organismo. Pagina iniziale di Homologene Ricerca Il tool richiede d’inserire nella query il nome del gene, il suo codice d’accesso o una parola chiave (non la sequenza nucleotidica o aminoacidica).Nella query possono essere utilizzati gli operatori booleani AND, NOT, OR, ma questa non può cominciare con NOT. Inoltre è possibile restringere il campo della ricerca con la feature “LIMITS” che permette di: - Ancestor: viene cercato il nome tassonomico dell’ancestrale comune tra le specie rappresentate nel’entry. - Gene description: ricerca la descrizione dettagliata del gene. - Gene id: cerca l’id di Gene. - Gene name: cerca gli altri nomi del gene. - Nucleotide accession: trova il codice d’accesso di GeneBank per la sequenza nucleotidica. - Nucleotide GI: cerca l’id di Nucleotide. - Organism: fornisce la descrizione dell’organismo o dell’ID tassonomico di NCBI riferito alla specie. - Protein accession: trova il codice d’accesso per Protein della proteina codificata dal gene. - Protein GI: cerca l’id di Protein. - Text word: testo libero che deve essere ricercato in HomoloGene. - Title: fornisce un sunto dell’entry di HomoloGene. - UniGene ID: ricerca l’id di UniGene. La ricerca può essere ulteriormente limitata ai geni legati a malattie umane, a MGI Homology, MGI Phenotype o a omologie con il solo database Flybase. Inoltre, appartenendo al sito dell’NCBI, HomoloGene può usufruire, oltre della feature LIMITS, delle features INDEX/PREVIEW, HISTORY (riporta le ricerche delle precedenti 8 ore d’inattività), CLIPBOARD, DETAILS. Una volta trovato il gruppo di geni omologhi, HomoloGene restituisce una schermata d’informazioni sullo stesso divisa in otto sezioni: -Genes: indica i geni identificati come omologhi putativi durante la ricerca effettuata dal tool. -Proteins: mostra quali sono le proteine usate nei confronti di sequenza e inoltre mostra graficamente l’architettura dei loro domini conservati. -Proteins Allineaments: fornisce link che rimandano all’allineamento multiplo delle proteine considerate, alla tabella dei punteggi di similarità ricavati dall’allineamento a coppie delle proteine e dei loro geni. Inoltre presenta un riquadro dal quale è possibile fare un blast d’allineamento a coppie per rigenerare gli allineamenti pairwise. -Phenotypes: fornisce informazioni sul fenotipo causato dal gene; queste vengono ricavate da database di organismi modello (ex OMIM) -Conserved Domains: indica i domini conservati trovati da CDD (conserved domains database) nelle sequenze di proteine tramite ricerca con rpsblast. -UniGene: elenca link ai gruppi di sequenze trascritte determinati dalla ricerca fatta su UniGene con tblastn. -Related Homology Resources: rimanda ad ulteriori informazioni d’omologia fornite da altri database. -Pubmed: vengono indicati articoli associati ai geni e alle sequenze di questo gruppo d’omologia. Questi sono filtrati per non contenere articoli su geni con livello di omologia troppo bassa o che trattano un numero di geni troppo elevato. Inoltre nell’angolo in altro a destra si trovano due link a: -Download delle sequenze del gruppo in formato FASTA. Si possono scaricare le sequenze del DNA genomico, dell’mRNA o della proteina. È inoltre possibile, per la sequenza di DNA genomico includere un numero a piacere di bp upstream e/o downstream. Questo ci permette di ottenere facilmente un’informazione utile per approfondire la ricerca del gene con altri tool o in altri database. -Link a vari altri tool di entrez utili per la ricerca come PubMed, Taxonomy, Nucleotide, Gene, Conserved Domains etc Esempio di utilizzo: gene TIMELESS di Drosophila melanogaster Per mostrare più chiaramente l’uso e l’utilità di HomoloGene riporterò come esempio una ricerca sul gene che è stato nostro oggetto di studio durante le esercitazioni: il gene TIMELESS di D.melanogaster. 1. Ricerca nel tool inserendo “TIMELESS” nella query HomoloGene ha individuato 5 diversi gruppi di geni omologhi per “TIMELESS”, quindi per una ricerca più mirata posso inserire nella query “TIMELESS AND Drosophila”. Ora i gruppi trovati sono due: uno che riguarda il gene conservato nei Diptera e contiene il gene Timeless di Drosophila, uno che riguarda il gene conservato nei Celomati e contiene solo omologhi o geni similari al gene di Drosophila. 2. Per l’esempio andrò ad analizzare solo il gruppo che contiene il gene di Drosophila. La schermata mostra la pagina riassuntiva riguardante il gruppo. 3. Allineamento multiplo e punteggi: 4. Conserved Domain: 5. Per ulteriori ricerche sono disponibili i numerosi link già nominati In definitiva HomoloGene è una buona risorsa di base per una ricerca più specifica; infatti oltre ad ottenere il gruppo di geni ortologhi, vengono fornite molte informazioni e link per una ricerca più approfondita. Il limite principale del tool è quello di riferirsi a solo 20 organismi.