Elena Porto

Elena Porto
591329
DESCRIVI USO E UTILITÀ DELLA BANCA DATI “HOMOLOGENE”
PRESSO L’NCBI
HomoloGene è un tool d’omologia genica che serve ad identificare automaticamente gli ortologhi
putativi tra i geni annotati di alcuni genomi eucariotici completamente sequenziati.

Procedura
Nella prima versione, HomoloGene comparava sequenze nucleotidiche tra coppie di organismi; da poco
è stata introdotta una nuova strategia che procede comparando le proteine degli organismi input. Queste
vengono prima confrontate una per una utilizzando blastp, poi a coppie e successivamente divise in gruppi. Il
confronto avviene seguendo l’ordine definito da una albero di similarità di sequenza; in pratica gli organismi
più strettamente correlati vengono confrontati per primi tra loro e poi questi vengono confrontati con gli
organismi più distanti, sempre tenendo conto dell’ordine definito dall’albero. La scelta di confrontare tra loro
sequenze proteiche e non di DNA è dovuta al fatto che la sequenza proteica è più conservata di quella
nucleotidica e dunque questo metodo ci permette d’identificare omologie più remote. Gli allineamenti
proteici vengono poi mappati sulle sequenze di DNA corrispondenti, così da poter calcolare la distanza tra
gli ortologhi; per esempio la distanza molecolare può essere calcolata tramite il modello di Juke e Cantor.
Quando possibile, le sequenze vengono confrontate considerando la sintenia, cioè tenendo conto
dell’eventuale conservazione dell’associazione genetica tra organismi anche molto distanti. Le sequenze
rimanenti vengono allineate con un algoritmo che massimizza lo score globale, piuttosto che quello locale ed
inoltre sono impostati valori (calcolati basandosi sulla rispettiva distribuzione dei punteggi per i dati gruppi
d’organismi) per evitare che vengano raggruppati insieme ortologhi improbabili.
Il calcolo delle statistiche è tuttavia ancora riferito alle sequenza di DNA.
Le entries di HomoloGene, oltre agli ortologhi, forniscono anche paraloghi; questi vengono identificati
trovando le sequenze che sono più vicine nelle specie già analizzate piuttosto che quelle di altre specie.

Organismi
Gli organismi che vengono considerati nella ricerca di HomoloGene devono avere il completo genoma o
almeno 10.000 entries in UniGene. Ad oggi gli organismi sono 20:
-Homo sapiens
-Pan troglodytes
-Canis lupus familiaris
-Bos taurus
-Mus musculus
-Rattus norvegicus
-Gallus gallus
-Danio rerio
-Drosophila melanogaster
-Anophles gambiae
-Caenorhabditis elegans
-Schizosaccharomyces pombe
-Saccharomyces cerevisiae
-Kluyvermyces lactis
-Eremothecium gossypii
-Magnaporthe grisea
-Neurospora crassa
-Arabidopsis thaliana
-Oryza sativa
-Plasmodium falciparum
Nella schermata iniziale per ogni organismo vengono indicati: il numero di geni considerati del genoma, il
numero di quelli che sono stati posizionati in un gruppo d’omologia e il numero di gruppi d’omologia per
l’organismo.
Pagina iniziale di Homologene

Ricerca
Il tool richiede d’inserire nella query il nome del gene, il suo codice d’accesso o una parola chiave (non la
sequenza nucleotidica o aminoacidica).Nella query possono essere utilizzati gli operatori booleani AND,
NOT, OR, ma questa non può cominciare con NOT.
Inoltre è possibile restringere il campo della ricerca con la feature “LIMITS” che permette di:
- Ancestor: viene cercato il nome tassonomico dell’ancestrale comune tra le specie rappresentate
nel’entry.
- Gene description: ricerca la descrizione dettagliata del gene.
- Gene id: cerca l’id di Gene.
- Gene name: cerca gli altri nomi del gene.
- Nucleotide accession: trova il codice d’accesso di GeneBank per la sequenza nucleotidica.
- Nucleotide GI: cerca l’id di Nucleotide.
- Organism: fornisce la descrizione dell’organismo o dell’ID tassonomico di NCBI riferito alla
specie.
- Protein accession: trova il codice d’accesso per Protein della proteina codificata dal gene.
- Protein GI: cerca l’id di Protein.
- Text word: testo libero che deve essere ricercato in HomoloGene.
- Title: fornisce un sunto dell’entry di HomoloGene.
- UniGene ID: ricerca l’id di UniGene.
La ricerca può essere ulteriormente limitata ai geni legati a malattie umane, a MGI Homology, MGI
Phenotype o a omologie con il solo database Flybase.
Inoltre, appartenendo al sito dell’NCBI, HomoloGene può usufruire, oltre della feature LIMITS, delle
features INDEX/PREVIEW, HISTORY (riporta le ricerche delle precedenti 8 ore d’inattività),
CLIPBOARD, DETAILS.
Una volta trovato il gruppo di geni omologhi, HomoloGene restituisce una schermata d’informazioni sullo
stesso divisa in otto sezioni:
-Genes: indica i geni identificati come omologhi putativi durante la ricerca effettuata dal tool.
-Proteins: mostra quali sono le proteine usate nei confronti di sequenza e inoltre mostra graficamente
l’architettura dei loro domini conservati.
-Proteins Allineaments: fornisce link che rimandano all’allineamento multiplo delle proteine
considerate, alla tabella dei punteggi di similarità ricavati dall’allineamento a coppie delle proteine e
dei loro geni. Inoltre presenta un riquadro dal quale è possibile fare un blast d’allineamento a coppie
per rigenerare gli allineamenti pairwise.
-Phenotypes: fornisce informazioni sul fenotipo causato dal gene; queste vengono ricavate da database
di organismi modello (ex OMIM)
-Conserved Domains: indica i domini conservati trovati da CDD (conserved domains database) nelle
sequenze di proteine tramite ricerca con rpsblast.
-UniGene: elenca link ai gruppi di sequenze trascritte determinati dalla ricerca fatta su UniGene con
tblastn.
-Related Homology Resources: rimanda ad ulteriori informazioni d’omologia fornite da altri database.
-Pubmed: vengono indicati articoli associati ai geni e alle sequenze di questo gruppo d’omologia.
Questi sono filtrati per non contenere articoli su geni con livello di omologia troppo bassa o che
trattano un numero di geni troppo elevato.
Inoltre nell’angolo in altro a destra si trovano due link a:
-Download delle sequenze del gruppo in formato FASTA. Si possono scaricare le sequenze del DNA
genomico, dell’mRNA o della proteina. È inoltre possibile, per la sequenza di DNA genomico includere un
numero a piacere di bp upstream e/o downstream.
Questo ci permette di ottenere facilmente un’informazione utile per approfondire la ricerca del gene con altri
tool o in altri database.
-Link a vari altri tool di entrez utili per la ricerca come PubMed, Taxonomy, Nucleotide, Gene, Conserved
Domains etc

Esempio di utilizzo: gene TIMELESS di Drosophila melanogaster
Per mostrare più chiaramente l’uso e l’utilità di HomoloGene riporterò come esempio una ricerca sul gene
che è stato nostro oggetto di studio durante le esercitazioni: il gene TIMELESS di D.melanogaster.
1. Ricerca nel tool inserendo “TIMELESS” nella query
HomoloGene ha individuato 5 diversi gruppi di geni omologhi per “TIMELESS”, quindi per una ricerca più
mirata posso inserire nella query “TIMELESS AND Drosophila”.
Ora i gruppi trovati sono due: uno che riguarda il gene conservato nei Diptera e contiene il gene Timeless di
Drosophila, uno che riguarda il gene conservato nei Celomati e contiene solo omologhi o geni similari al
gene di Drosophila.
2. Per l’esempio andrò ad analizzare solo il gruppo che contiene il gene di Drosophila.
La schermata mostra la pagina riassuntiva riguardante il gruppo.
3. Allineamento multiplo e punteggi:
4. Conserved Domain:
5. Per ulteriori ricerche sono disponibili i numerosi link già nominati
In definitiva HomoloGene è una buona risorsa di base per una ricerca più specifica; infatti oltre ad ottenere il
gruppo di geni ortologhi, vengono fornite molte informazioni e link per una ricerca più approfondita.
Il limite principale del tool è quello di riferirsi a solo 20 organismi.