Sesta lezione - Server users.dimi.uniud.it

Formati di scambio dati
Genbank




È il genetic sequence DataBase del NIH
(National Institute of Health)
Contiene sequenze (primarie) annotate di
nucleotidi e di proteine
I files sono ragguppati in “divisioni”
(caratterizzate da come sono stati ottenuti i
dati)
cresce per effetto della sottomissione dei dati
diretta da parte dei ricercatori (lavoro su base
volontaria)
Collaborazione
GenBank
National Center for Biotechnology Information
NIH-Bethesda, Maryland
DNA Database of Japan
DDBJ
Mishima, Japan
EMBL (European Molecular Biology Laboratory) –database
European Bioinformatics Institute, Hinxton, England
Collaborazione


Si decide di collaborare per poter ”distribuire”
l'informazione
Bisogna decidere:

scelte di fondo comuni

scelta di data model comuni

aggiornamento reciproco dei dati
The Landscape of Biological Data
Sources
PRINTS
BLOCKS
PFAMA
PROSITEDOC
SWISSFAM
Patent USPTO
PFAMB
PIR
NRL3D
DOMO
PROSITE
DDBJ
GENBANK
RHDB
GDB
SNP
OMIM
Clinical DB
dbSNP Population
Celera
Microbial Genomes
STKE
dbSNP Contact
TIGR
GENETICCODE
HUGO
KEGG
SNP Consortium
TAXONOMY
EBI
WIT
UNIGENE
GSDB
TFCELL
Entrez
PDB
TFMATRIX
TFSITE
DBSTS
SWISSPROT
TFCLASS
Medline
EMBL
DSSP
LOCUS LINK
Patent JPO
TREEMBL
PRODOM
GENEPEPT
Patent PCT
FASTA
ENZYME
BLAST
Fly Base
SSEARCH
C. Elegans
CLUSTALW
Coordinamento




bisogna fare in modo che le differenze di format
siano eliminate (ognuno riallinea i record nei
propri formati)
bisogna evitare che gli update di uno non
vengano registrati dagli altri (ognuno e’
responsabile dei record che inserisce)
per GenBank si intende DDBJ/EMBL/GenBank
GenBank e’ parte di una serie di servizi
http://www.ncbi.nlm.nih.gov/Sitemap/index.html
Entrez Global Query CrossDatabase Search System

E un portale che permette la ricerca in diversi
database dell'NCBI




permette l'accesso a tutti i database tramite una
singola interfaccia e un solo linguaggio di query
può recuperare sequenze, strutture e referenze
permette la visione di geni, sequenze proteiche e
mappe cromosomiche
permette l'accesso anche ad alcuni textbooks
Database di Entrez

PubMed: biomedical literature citations and
abstracts, including Medline

PubMed Central: free, full text journal articles

Site Search: NCBI web and FTP web sites

Books: online books

OMIM: online Mendelian Inheritance in Man

OMIA: online Mendelian Inheritance in Animals

Nucleotide: sequence database (GenBank)

Protein: sequence database

Genome: whole genome sequences and Mapping
Database di Entrez (2)

Structure: three-dimensional macromolecular
structures

Taxonomy: organisms in GenBank Taxonomy

SNP: single nucleotide polymorphism

Gene: gene-centered information

HomoloGene: eukaryotic homology groups


PubChem Compound: unique small molecule
chemical structures
PubChem Substance: deposited chemical
substance records
Database di Entrez (3)


Genome Project: genome project information
UniGene: gene-oriented clusters of transcript
sequences

CDD: conserved protein domain database

3D Domains: domains from Entrez Structure

UniSTS: markers and mapping data

PopSet: population study data sets (epidemiology)


GEO Profiles: expression and molecular abundance
profiles
GEO DataSets: experimental sets of GEO data
Database di Entrez (4)





Cancer Chromosomes: cytogenetic databases
PubChem BioAssay: bioactivity screens of chemical
substances
GENSAT: gene expression atlas of mouse central
nervous system
Probe: sequence-specific reagents
NLM Catalog: NLM bibliographic data for over 1.2
million journals, books, audiovisuals, computer
software, electronic resources, and other materials
resident in LocatorPlus
Entrez query
Risultato
Sequenza nucleotidica
Sequenza
Articolo
Dominio proteico
Cromosoma
Ensemble

È un progetto congiunto di European
Bioinformatics Institute (EBI) e Wellcome Trust
Sanger Institute (WTSI) per sviluppare un
sistema per produrre e mantenere annotazioni
automatiche

analisi automatica e accurata di genomi

analisi e annotatizione sui dati

presentazione dei dati via WEB

distribuzione dei dati
Ensemble
Zoom
Zoom (2)
Che tipo di formato dati?

discuteremo il GenBank flat file (GBFF) format




umani e computer hanno diverse esigenze
a volte (spesso) un formato e’ mantenuto
esclusivamente per ragioni storiche
GBFF è semplice e questo ... paga (molti tools lo
usano)
il formato completo dei dati di NCBI e’
rappresentato in modo preciso mediante un
linguaggio formale, ASN.1
Formato di testo

Vantaggi:

Human readable

Usato molto spesso e quindi molto conosciuto


Può essere analizzato tramite linguaggi di
programmazione come PERL
Svantaggi:

Può essere difficilmente interpretabile

Relazione rispetto ad altri dati non sono espliciti

Non ci sono tool standard ma ogni programma deve
avere le routine per analizzarli
Formato di testo (2)
LOCUS
AC105318
110811 bp DNA
linear HTG 30-DEC-2001
DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN
PROGRESS ***, 3 ordered pieces.
ACCESSION AC105318
VERSION AC105318.1 GI:17998701
KEYWORDS HTG; HTGS_PHASE2.
SOURCE
Oryza sativa.
ORGANISM Oryza sativa
Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae;
Ehrhartoideae; Oryzeae; Oryza.
REFERENCE 1 (bases 1 to 110811)
AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P.,
Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L.,
Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J.,
Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F.
TITLE Oryza sativa BAC OJ1058F05 genomic sequence
JOURNAL Unpublished
BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others
ORIGIN
1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt
61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag
121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta
Formato FASTA


Vantaggi:

Human readable

Semplice

Conosciuto
Svantaggi:

Incompleto: non include tutti i dati

Relazione rispetto ad altri dati non sono espliciti

Non ci sono tool standard ma ogni programma deve
avere le routine per analizzarli
Formato FASTA (2)
>gi|532319|pir|TVFV2E|TVFV2E envelope protein
ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT
QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC
HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK
MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK
TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF
APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL
LAAVEAQQQMLKLTIWGVK
ASN.1

Abstract Syntax Notation One (ASN.1) è uno
standard per una notazione per la descrizione e
la condivisione di strutture dati



È costituito da un insieme di regole formali per
descrivere la struttura di oggetti

È un formato ”machine-indipendent”

Non vi sono ambiguità
era stato progettato per l'industria delle
telecomunicazioni
è uno standard ISO
ASN.1


Tipi predefiniti:

integers

booleans

character strings

...
Permette di definire delle strutture complesse:

structures (SEQUENCE),

lists (SEQUENCE OF),

scelte fra tipi (CHOICE),

...
ASN.1



Usa una struttura gerarchica (struttura ad
alberi)
Bisogna specificare uno schema (modulo)
I moduli sono definiti usando la sintassi
Bacchus-Naur Form (BNF), molto comune per
descrivere la sintassi dei linguaggi per
computer
Modulo NCBI
NCBI-Sequence DEFINITIONS ::=
BEGIN
Bioseq ::= SEQUENCE {
id SET OF Seq-id ,
-- equivalent identifiers
descr Seq-descr OPTIONAL ,
-- descriptors
inst Seq-inst ,
-- the sequence data
annot SET OF Seq-annot OPTIONAL
}
Seq-descr ::= SET OF Seqdesc
Seqdesc ::= CHOICE {
mol-type GIBB-mol ,
modif SET OF GIBB-mod ,
method GIBB-method ,
name VisibleString ,
…
}
…
END
-- type of molecule
-- modifiers
-- sequencing method
-- a name for this sequence
PDB

Protein Data Bank




database di modelli 3d di proteine note
elenco di tutti gli atomi presenti nella struttura (e
coordinate in 3 dimensioni)
si può vedere il modello in 3 dimensioni
usa un suo formato ”pdb” per la condivisione
dell'informazione
Esempio