Genomics Session Lezione 8 Banche dati genomiche Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genome Browsers Permettono una visione interattiva del genoma, dal livello cromosomico fino alla singola base; Riportano sul genoma le annotazioni (ripetizioni, ESTs, predizioni di geni, conservazione, gaps); ● ● ● Lezione 8 Ensembl Genome browser http://www.ensembl.org NCBI Map Viewer http://www.ncbi.nlm.nih.gov/mapview/ UCSC Genome Browser http://genome.ucsc.edu Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genome Browsers Sono basati praticamente sugli stessi dati; Le versioni degli assemblaggi possono non essere sincronizzate; Le annotazioni scelte possono essere differenti; Permettono l'accesso al genoma di diversi organismi; Il set di organismi disponibile può essere diverso. Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl Lo scopo di Ensembl: "To provide annotation for the biological community that is freely available and of high quality" ● Fondato nel 1999 ● Porgetto congiunto fra l'EBI e il Sanger Institute ● ● Lezione 8 Sovvenzionato principalmente dal Wellcome Trust, più fondi addizionali da EMBL, NIH-NIAID, EU, BBSRC e MRC Team di circa 40 persone, diretto da Ewan Birney (EBI) e Tim Hubbard (Sanger) Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl [Birney et al., 2004] Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Procedure automatiche per l'annotazione di geni Esistono numerosi metodi per l'annotazione di geni, ciascuno con vantaggi e svantaggi; Lo scopo è di costruire un set di geni accurato e più ampio possibile usando opportunamente le predizioni fornite dagli algoritmi correnti e le evidenze contenute in banche dati; L'approccio consiste nel combinare diversi algoritmi e dati dando loro la giusta prorità Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl Gene Builder 1. Targeted build: allineamento cis di sequenze proteiche per identificare trascritti provenienti da loci genomici; 2. Similarity build: allineamento trans di sequenze proteiche per identificare trascritti addizionali; 3. Aggiungere le UTR mediante mappatura di mRNA; 4. Eliminare trascritti ridondanti e definire i geni. Casi speciali: - Pseudogeni; - Non-coding RNA: sequenze prese da RFAM e miRBase, più predizioni di Infernal - Geni per immunoglobuline Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl GeneBuild [Curwen et al., 2004] Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl GeneBuild Aggiunta delle UTR [Curwen et al., 2004] Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl GeneBuild Priorità: 1. Sequenze proteiche cis 2. Sequenze di cDNA cis 3. Sequenze proteiche trans 4. Predizioni ab initio 5. Cluster di EST (solo per identificare forme di splicing) [Curwen et al., 2004] Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl GeneBuild Tutte le predizioni di geni in Ensembl sono basate su evidenza sperimentale: UniProt/Swiss-Prot Banca dati curata manualmente da un team di esperti, quindi considerata il livello di accuratezza maggiore NCBI RefSeq Banca dati che unisce annotazione manuale e automatica UniProt/TrEMBL Annotazione automatica di traduzioni delle sequenze codificanti (CDS) dell'EMBL EMBL / GenBank / DDBJ Banche dati primarie di sequenze nucleotidiche Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 RefSeq La banca dati Reference Sequence (RefSeq) è una collezione non-ridondante di sequenze di DNA, RNA e proteine riccamente annotate e provenienti da taxa diversi. Ogni RefSeq rappresenta una singola molecola di un organismo. Lo scopo ultimo è fornire un dataset standardizzato e comprendente tutta l'informazione di sequenza in una specie. Le sequenze utilizzate per costruire le sequenze derivano da GenBank, ma mentre GenBank è solamente una banca dati di dati primari, RefSeq cerac di fare una sintesi dell' informazione disponibile, eliminando la ridondanza ed estraendo l'informazione più attendibile. Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl GeneBuild Per ogni gene/isoforma è possibile risalire alla fonte (supporting evidence) Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl Convenzione sugli identificativi di Ensembl: ● ● ● ● ENSG### ENST### ENSP### ENSE### Ensembl Gene ID Ensembl Transcript ID Ensembl Peptide ID Ensembl Exon ID Per altre specie una sigla di tre lettere è aggiunta: MUS (Mus musculus) per topo: ENSMUSG### DAR (Danio rerio) per zebrafish: ENSDARG###, etc. Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Dataset esterni in Ensembl Gene sets curati manualmente in Ensembl: Vega (Havana) Homo sapiens, Danio rerio, Mus musculus and Canis familiaris WormBase Caenorhabditis elegans FlyBase Drosophila melanogaster SGD Saccharomyces cerevisiae Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Dataset esterni Annotazione automatica ● Veloce ● Si possono utilizzare sequenze incomplete ● L'annotazione è consistente Lezione 8 Annotazione Manuale • Lenta • Spesso necessita della sequenza completa • Flessibile • Tiene conto delle eccezioni possibili di ogni regola • Utilizza dati riportati in letteratura che potrebbero non essere disponibli in banche dati Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Vega genome browser http://vega.sanger.ac.uk Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Annotazioni disponibili in Ensembl • Gene/transcript/peptide models (coding and noncoding (ncRNAs)) • IDs in other database • Mapped cDNAs, peptides, micro array probes, BAC clones etc. • Cytogenetic bands, markers, repeats etc. • Comparative data: orthologues and paralogues, protein families, whole genome alignments, syntenic regions • Variation data: Single Nucleotide Polymorphisms (SNPs) • Regulatory data: “best guess” set of regulatory elements from ENCODE • Lezione 8 Data from external sources (DAS) Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Annotazioni disponibili in Ensembl ● ● ● ● ● Lezione 8 Microarrays (Affimetrix, Illumina, Agilent) GO (Gene Ontology: functional classes) http://www.geneontology.org/ OMIM (human diseases and phenotypes) http://www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM Identifiers in Entrez, UniProt, Refseq, etc PDB, MSD (structural databases) http://www.rcsb.org/pdb/ http://www.ebi.ac.uk/msd/ Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Accesso ai dati in Ensembl I dati in Ensembl (sequenze, annotazioni) possono essere reuperati in vari modi: - Attraverso il browser; - In file di testo precompilati; - Attraverso le API; - Attraverso Biomart. Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Gene name Ensembl identifier Gene model (with splice variants) Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Orthologues in other Ensembl species Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Gene family tree in all species Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Matches to external databases Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser GO terms Protein info Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Entire chromosome 1 Mb region 1 kb - 1 Mb details Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Ensembl genome browser Gene models Forward Assembly sequence Reverse Mapped proteins, ETSs and cDNAs Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Query • For all mouse genes on chromosome 10 that are protein coding, I would like to know the IDs in both Ensembl and MGI. • In the query: Attributes: what we want to know. Filters: what we know/want Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Query • For all mouse genes on chromosome 10 that are protein coding, I would like to know the IDs in both Ensembl and MGI. • In the query: Attributes: what we want to know. Filters: what we know/want Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Query • For all mouse genes on chromosome 10 that are protein coding, I would like to know the IDs in both Ensembl and MGI. • In the query: Attributes: what we want to know. Filters: what we know/want Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Seleziona gli ID desiderati Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart ‘Markersymbol ID’ associa con gli MGI ID Ogni gene di Ensembl è associato in Biomart a una serie di riferimenti a banche dati esterne Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Ensembl Gene ID Lezione 8 Transcript ID MGI symbol MGI Accession Number Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Espandi il pannello REGION Seleziona ‘Filters’ Restringiamo il campo solo ai geni in una regione specifica, in questo caso il cromosoma 10 Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Selezioniamo anche solo i geni codofocanti per proteine Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Query • For all mouse genes on chromosome 10 that are protein coding, I would like to know the IDs in both Ensembl and MGI. • In the query: Attributes: columns in the Result Table Filters: what we know/want Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Biomart Other Export Options (Attributes) • Sequences: UTRs, flanking sequences, cDNA and peptides, etc • Gene IDs from Ensembl and external sources (MGI, Entrez, etc.) • Microarray data • Protein Functions/descriptions (Interpro, GO) • Orthologous gene sets • SNP/ Variation Data Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser } Overview della pagina intera del genome browser Genome viewer Groppi di dati Mapping and Sequencing Tracks Genes and Gene Prediction Tracks mRNA and EST Tracks Expression and Regulation Comparative Genomics ENCODE Tracks Variation and Repeats Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Hide: la traccia non è visualizzata Dense: tutte le informazioni sono collassate in una singola riga Squish: ogni informazione è separata, ma presentata in forma compatta Pack: ogni informazione è separata, ma impilata efficientemente Full: ogni informazione è su una diversa riga Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Genome backbone STS markers Known genes RefSeq genes MGC clones Gene predictions GenBank mRNAs GenBank ESTs conservation SNPs repeats Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser informative description other resource links links to sequences microarray data mRNA secondary structure protein domains/structure homologs in other species Gene Ontology™ descriptions SNP detail page sample mRNA descriptions pathways Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser ● ● ● Lezione 8 Use the DNA link at the top Plain or Extended options Change colors, fonts, etc. Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Ricerca nel browser Per la ricerca di una regione specifica: chr7 un cromosoma intero 20p13 una regione (banda p13 del cr. 20) chr3:1-1000000 il primo milione di basi del cr. 3 dal ptel D16S3046 regione intorno al marcatore (100,000 basi per lato) RH18061;RH80175 regione tra i due marcatori AA205474 regione genomica che si allinea con la sequenza con questo GB accession number PRNP regione del genoma che comprende il gene PRNP NM_017414 NP_059110 11274 (LLID) Oppure di liste di regioni: pseudogene mRNA Lists transcribed pseudogenes, but not cDNAs homeobox caudal Lists mRNAs for caudal homeobox genes zinc finger Lists many zinc finger mRNAs huntington Lists candidate genes associated with Huntington's disease Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Data mining Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Data mining Table description Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser BLAT = BLAST-like Alignment Tool ● ● Lezione 8 Rapid searches by INDEXING the entire genome Works best with high similarity matches Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser Opzioni Incolla una o più sequenze DNA limit 25000 bases Protein limit 10000 aa 25 total sequences Upload Submit Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser sorting ● • • Lezione 8 Results with demo sequences, settings default; sort = Query, Score ● Score is a count of matches—higher number, better match Click browser to go to Genome Browser image location Click details to see the alignment to genomic sequence Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 UCSC Genome Browser BLAT results, alignment details browser Click to flip frame query matches ● ● • • Lezione 8 From browser click in BLAT results A new line with your Sequence from BLAT Search appears Watch out for reading frame Click - - - > to flip frame Base position = full and zoomed in enough to see amino acids Genomica Computazionale, Laurea Magistrale A.A. 2009/2010 Genome Browser Quale browser scegliere? La scelta dipende da: - disponiblità di particolari organismi e/o assemblaggi; - preferenza per un particolare display; - velocità: Mapviewer può essere molto lento; - tipi e modalità di interrogazioni consentite; Oppure si possono scegliere database specializzati disponibili per alcuni organismi (ad es. Lievito, drosophila, C. elegans): - migliori annotazioni per quell'organismo - di solito più aggiornati Lezione 8 Genomica Computazionale, Laurea Magistrale A.A. 2009/2010