Genomics Session
Lezione 8
Banche dati genomiche
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genome Browsers
Permettono una visione interattiva del genoma, dal
livello cromosomico fino alla singola base;
Riportano sul genoma le annotazioni (ripetizioni, ESTs,
predizioni di geni, conservazione, gaps);
●
●
●
Lezione 8
Ensembl Genome browser
http://www.ensembl.org
NCBI Map Viewer
http://www.ncbi.nlm.nih.gov/mapview/
UCSC Genome Browser
http://genome.ucsc.edu
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genome Browsers
Sono basati praticamente sugli stessi dati;
Le versioni degli assemblaggi possono non essere sincronizzate;
Le annotazioni scelte possono essere differenti;
Permettono l'accesso al genoma di diversi organismi;
Il set di organismi disponibile può essere diverso.
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl
Lo scopo di Ensembl: "To provide annotation for the biological
community that is freely available and of high quality"
●
Fondato nel 1999
●
Porgetto congiunto fra l'EBI e il Sanger Institute
●
●
Lezione 8
Sovvenzionato principalmente dal Wellcome Trust, più fondi
addizionali da EMBL, NIH-NIAID, EU, BBSRC e MRC
Team di circa 40 persone, diretto da Ewan Birney (EBI) e Tim
Hubbard (Sanger)
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl
[Birney et al., 2004]
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Procedure automatiche per l'annotazione di geni
Esistono numerosi metodi per l'annotazione di geni, ciascuno con
vantaggi e svantaggi;
Lo scopo è di costruire un set di geni accurato e più ampio possibile
usando opportunamente le predizioni fornite dagli algoritmi correnti e le
evidenze contenute in banche dati;
L'approccio consiste nel combinare diversi algoritmi e dati dando loro la
giusta prorità
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl Gene Builder
1. Targeted build: allineamento cis di sequenze proteiche per
identificare trascritti provenienti da loci genomici;
2. Similarity build: allineamento trans di sequenze proteiche
per identificare trascritti addizionali;
3. Aggiungere le UTR mediante mappatura di mRNA;
4. Eliminare trascritti ridondanti e definire i geni.
Casi speciali:
- Pseudogeni;
- Non-coding RNA: sequenze prese da RFAM e miRBase, più
predizioni di Infernal
- Geni per immunoglobuline
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl GeneBuild
[Curwen et al., 2004]
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl GeneBuild
Aggiunta delle UTR
[Curwen et al., 2004]
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl GeneBuild
Priorità:
1. Sequenze proteiche cis
2. Sequenze di cDNA cis
3. Sequenze proteiche trans
4. Predizioni ab initio
5. Cluster di EST (solo per identificare forme di splicing)
[Curwen et al., 2004]
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl GeneBuild
Tutte le predizioni di geni in Ensembl sono basate su
evidenza sperimentale:
UniProt/Swiss-Prot
Banca dati curata manualmente da un team di
esperti, quindi considerata il livello di accuratezza
maggiore
NCBI RefSeq
Banca dati che unisce annotazione manuale e
automatica
UniProt/TrEMBL
Annotazione automatica di traduzioni delle
sequenze codificanti (CDS) dell'EMBL
EMBL / GenBank / DDBJ
Banche dati primarie di sequenze nucleotidiche
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
RefSeq
La banca dati Reference Sequence (RefSeq) è
una collezione non-ridondante di sequenze di
DNA, RNA e proteine riccamente annotate e
provenienti da taxa diversi.
Ogni RefSeq rappresenta una singola molecola di
un organismo. Lo scopo ultimo è fornire un
dataset standardizzato e comprendente tutta
l'informazione di sequenza in una specie.
Le sequenze utilizzate per costruire le sequenze
derivano da GenBank, ma mentre GenBank è
solamente una banca dati di dati primari, RefSeq
cerac di fare una sintesi dell' informazione
disponibile, eliminando la ridondanza ed
estraendo l'informazione più attendibile.
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl GeneBuild
Per ogni gene/isoforma è possibile risalire alla fonte (supporting evidence)
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl
Convenzione sugli identificativi di Ensembl:
●
●
●
●
ENSG###
ENST###
ENSP###
ENSE###
Ensembl Gene ID
Ensembl Transcript ID
Ensembl Peptide ID
Ensembl Exon ID
Per altre specie una sigla di tre lettere è aggiunta:
MUS (Mus musculus) per topo: ENSMUSG###
DAR (Danio rerio) per zebrafish: ENSDARG###, etc.
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Dataset esterni in Ensembl
Gene sets curati manualmente in Ensembl:
Vega (Havana)
Homo sapiens, Danio rerio,
Mus musculus and Canis familiaris
WormBase
Caenorhabditis elegans
FlyBase
Drosophila melanogaster
SGD
Saccharomyces cerevisiae
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Dataset esterni
Annotazione automatica
●
Veloce
●
Si possono utilizzare
sequenze incomplete
●
L'annotazione è
consistente
Lezione 8
Annotazione Manuale
• Lenta
• Spesso necessita
della sequenza
completa
• Flessibile
• Tiene conto delle
eccezioni possibili di
ogni regola
• Utilizza dati riportati
in letteratura che
potrebbero non
essere disponibli in
banche dati
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Vega genome browser
http://vega.sanger.ac.uk
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Annotazioni disponibili in Ensembl
•
Gene/transcript/peptide models (coding and noncoding (ncRNAs))
•
IDs in other database
•
Mapped cDNAs, peptides, micro array probes, BAC clones etc.
•
Cytogenetic bands, markers, repeats etc.
•
Comparative data:
orthologues and paralogues, protein families, whole genome
alignments, syntenic regions
•
Variation data:
Single Nucleotide Polymorphisms (SNPs)
•
Regulatory data:
“best guess” set of regulatory elements from ENCODE
•
Lezione 8
Data from external sources (DAS)
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Annotazioni disponibili in Ensembl
●
●
●
●
●
Lezione 8
Microarrays (Affimetrix, Illumina, Agilent)
GO (Gene Ontology: functional classes)
http://www.geneontology.org/
OMIM (human diseases and phenotypes)
http://www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM
Identifiers in Entrez, UniProt, Refseq, etc
PDB, MSD (structural databases)
http://www.rcsb.org/pdb/
http://www.ebi.ac.uk/msd/
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Accesso ai dati in Ensembl
I dati in Ensembl (sequenze, annotazioni)
possono essere reuperati in vari modi:
- Attraverso il browser;
- In file di testo precompilati;
- Attraverso le API;
- Attraverso Biomart.
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Gene name
Ensembl identifier
Gene model
(with splice
variants)
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Orthologues in
other Ensembl
species
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Gene family tree
in all species
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Matches to
external
databases
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
GO terms
Protein info
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Entire chromosome
1 Mb region
1 kb - 1 Mb details
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Ensembl genome browser
Gene
models
Forward
Assembly
sequence
Reverse
Mapped
proteins, ETSs
and cDNAs
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Query
• For all mouse genes on chromosome 10 that
are protein coding, I would like to know the
IDs in both Ensembl and MGI.
• In the query:
Attributes: what we want to know.
Filters: what we know/want
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Query
• For all mouse genes on chromosome 10 that
are protein coding, I would like to know the
IDs in both Ensembl and MGI.
• In the query:
Attributes: what we want to know.
Filters: what we know/want
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Query
• For all mouse genes on chromosome 10 that
are protein coding, I would like to know the
IDs in both Ensembl and MGI.
• In the query:
Attributes: what we want to know.
Filters: what we know/want
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Seleziona gli ID
desiderati
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
‘Markersymbol ID’
associa con gli MGI ID
Ogni gene di Ensembl è associato in Biomart a una serie di riferimenti
a banche dati esterne
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Ensembl Gene ID
Lezione 8
Transcript
ID
MGI
symbol
MGI Accession
Number
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Espandi il
pannello REGION
Seleziona
‘Filters’
Restringiamo il campo solo ai geni in una regione specifica, in questo
caso il cromosoma 10
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Selezioniamo anche solo i geni codofocanti per proteine
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Query
• For all mouse genes on chromosome
10 that are protein coding, I would like
to know the IDs in both Ensembl and
MGI.
• In the query:
Attributes: columns in the Result Table
Filters: what we know/want
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Biomart
Other Export Options (Attributes)
• Sequences: UTRs, flanking sequences,
cDNA and peptides, etc
• Gene IDs from Ensembl and external
sources (MGI, Entrez, etc.)
• Microarray data
• Protein Functions/descriptions (Interpro,
GO)
• Orthologous gene sets
• SNP/ Variation Data
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
}
Overview della pagina intera del
genome browser
Genome viewer
Groppi di dati
Mapping and Sequencing Tracks
Genes and Gene Prediction Tracks
mRNA and EST Tracks
Expression and Regulation
Comparative Genomics
ENCODE Tracks
Variation and Repeats
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Hide: la traccia non è visualizzata
Dense: tutte le informazioni sono collassate in una singola riga
Squish: ogni informazione è separata, ma presentata in
forma compatta
Pack: ogni informazione è separata, ma impilata efficientemente
Full: ogni informazione è su una diversa riga
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Genome backbone
STS markers
Known genes
RefSeq genes
MGC clones
Gene predictions
GenBank mRNAs
GenBank ESTs
conservation
SNPs
repeats
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
informative
description
other resource links
links to sequences
microarray data
mRNA secondary structure
protein domains/structure
homologs in other species
Gene Ontology™ descriptions
SNP
detail page
sample
mRNA descriptions
pathways
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
●
●
●
Lezione 8
Use the DNA link
at the top
Plain or Extended
options
Change colors,
fonts, etc.
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Ricerca nel browser
Per la ricerca di una regione specifica:
chr7
un cromosoma intero
20p13
una regione (banda p13 del cr. 20)
chr3:1-1000000
il primo milione di basi del cr. 3 dal ptel
D16S3046
regione intorno al marcatore (100,000 basi per lato)
RH18061;RH80175
regione tra i due marcatori
AA205474
regione genomica che si allinea con la sequenza con
questo GB accession number
PRNP
regione del genoma che comprende il gene PRNP
NM_017414
NP_059110
11274 (LLID)
Oppure di liste di regioni:
pseudogene mRNA
Lists transcribed pseudogenes, but not cDNAs
homeobox caudal
Lists mRNAs for caudal homeobox genes
zinc finger
Lists many zinc finger mRNAs
huntington
Lists candidate genes associated with Huntington's
disease
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Data mining
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Data mining
Table
description
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
BLAT = BLAST-like Alignment Tool
●
●
Lezione 8
Rapid searches by INDEXING the entire genome
Works best with high similarity matches
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
Opzioni
Incolla una o
più sequenze
DNA limit 25000 bases
Protein limit 10000 aa
25 total sequences
Upload
Submit
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
sorting
●
•
•
Lezione 8
Results with demo sequences, settings default; sort = Query, Score
●
Score is a count of matches—higher number, better match
Click browser to go to Genome Browser image location
Click details to see the alignment to genomic sequence
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
UCSC Genome Browser
BLAT results, alignment details browser
Click to flip frame
query
matches
●
●
•
•
Lezione 8
From browser click in BLAT results
A new line with your Sequence from BLAT Search appears
Watch out for reading frame Click - - - > to flip frame
Base position = full and zoomed in enough to see
amino acids
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010
Genome Browser
Quale browser scegliere?
La scelta dipende da:
- disponiblità di particolari organismi e/o assemblaggi;
- preferenza per un particolare display;
- velocità: Mapviewer può essere molto lento;
- tipi e modalità di interrogazioni consentite;
Oppure si possono scegliere database specializzati disponibili
per alcuni organismi (ad es. Lievito, drosophila, C. elegans):
- migliori annotazioni per quell'organismo
- di solito più aggiornati
Lezione 8
Genomica Computazionale, Laurea Magistrale A.A. 2009/2010