Formati di scambio dati Genbank È il genetic sequence DataBase del NIH (National Institute of Health) Contiene sequenze (primarie) annotate di nucleotidi e di proteine I files sono ragguppati in “divisioni” (caratterizzate da come sono stati ottenuti i dati) cresce per effetto della sottomissione dei dati diretta da parte dei ricercatori (lavoro su base volontaria) Collaborazione GenBank National Center for Biotechnology Information NIH-Bethesda, Maryland DNA Database of Japan DDBJ Mishima, Japan EMBL (European Molecular Biology Laboratory) –database European Bioinformatics Institute, Hinxton, England Collaborazione Si decide di collaborare per poter ”distribuire” l'informazione Bisogna decidere: scelte di fondo comuni scelta di data model comuni aggiornamento reciproco dei dati The Landscape of Biological Data Sources PRINTS BLOCKS PFAMA PROSITEDOC SWISSFAM Patent USPTO PFAMB PIR NRL3D DOMO PROSITE DDBJ GENBANK RHDB GDB SNP OMIM Clinical DB dbSNP Population Celera Microbial Genomes STKE dbSNP Contact TIGR GENETICCODE HUGO KEGG SNP Consortium TAXONOMY EBI WIT UNIGENE GSDB TFCELL Entrez PDB TFMATRIX TFSITE DBSTS SWISSPROT TFCLASS Medline EMBL DSSP LOCUS LINK Patent JPO TREEMBL PRODOM GENEPEPT Patent PCT FASTA ENZYME BLAST Fly Base SSEARCH C. Elegans CLUSTALW Coordinamento bisogna fare in modo che le differenze di format siano eliminate (ognuno riallinea i record nei propri formati) bisogna evitare che gli update di uno non vengano registrati dagli altri (ognuno e’ responsabile dei record che inserisce) per GenBank si intende DDBJ/EMBL/GenBank GenBank e’ parte di una serie di servizi http://www.ncbi.nlm.nih.gov/Sitemap/index.html Entrez Global Query CrossDatabase Search System E un portale che permette la ricerca in diversi database dell'NCBI permette l'accesso a tutti i database tramite una singola interfaccia e un solo linguaggio di query può recuperare sequenze, strutture e referenze permette la visione di geni, sequenze proteiche e mappe cromosomiche permette l'accesso anche ad alcuni textbooks Database di Entrez PubMed: biomedical literature citations and abstracts, including Medline PubMed Central: free, full text journal articles Site Search: NCBI web and FTP web sites Books: online books OMIM: online Mendelian Inheritance in Man OMIA: online Mendelian Inheritance in Animals Nucleotide: sequence database (GenBank) Protein: sequence database Genome: whole genome sequences and Mapping Database di Entrez (2) Structure: three-dimensional macromolecular structures Taxonomy: organisms in GenBank Taxonomy SNP: single nucleotide polymorphism Gene: gene-centered information HomoloGene: eukaryotic homology groups PubChem Compound: unique small molecule chemical structures PubChem Substance: deposited chemical substance records Database di Entrez (3) Genome Project: genome project information UniGene: gene-oriented clusters of transcript sequences CDD: conserved protein domain database 3D Domains: domains from Entrez Structure UniSTS: markers and mapping data PopSet: population study data sets (epidemiology) GEO Profiles: expression and molecular abundance profiles GEO DataSets: experimental sets of GEO data Database di Entrez (4) Cancer Chromosomes: cytogenetic databases PubChem BioAssay: bioactivity screens of chemical substances GENSAT: gene expression atlas of mouse central nervous system Probe: sequence-specific reagents NLM Catalog: NLM bibliographic data for over 1.2 million journals, books, audiovisuals, computer software, electronic resources, and other materials resident in LocatorPlus Entrez query Risultato Sequenza nucleotidica Sequenza Articolo Dominio proteico Cromosoma Ensemble È un progetto congiunto di European Bioinformatics Institute (EBI) e Wellcome Trust Sanger Institute (WTSI) per sviluppare un sistema per produrre e mantenere annotazioni automatiche analisi automatica e accurata di genomi analisi e annotatizione sui dati presentazione dei dati via WEB distribuzione dei dati Ensemble Zoom Zoom (2) Che tipo di formato dati? discuteremo il GenBank flat file (GBFF) format umani e computer hanno diverse esigenze a volte (spesso) un formato e’ mantenuto esclusivamente per ragioni storiche GBFF è semplice e questo ... paga (molti tools lo usano) il formato completo dei dati di NCBI e’ rappresentato in modo preciso mediante un linguaggio formale, ASN.1 Formato di testo Vantaggi: Human readable Usato molto spesso e quindi molto conosciuto Può essere analizzato tramite linguaggi di programmazione come PERL Svantaggi: Può essere difficilmente interpretabile Relazione rispetto ad altri dati non sono espliciti Non ci sono tool standard ma ogni programma deve avere le routine per analizzarli Formato di testo (2) LOCUS AC105318 110811 bp DNA linear HTG 30-DEC-2001 DEFINITION Oryza sativa chromosome 5 clone OJ1058F05, *** SEQUENCING IN PROGRESS ***, 3 ordered pieces. ACCESSION AC105318 VERSION AC105318.1 GI:17998701 KEYWORDS HTG; HTGS_PHASE2. SOURCE Oryza sativa. ORGANISM Oryza sativa Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; Ehrhartoideae; Oryzeae; Oryza. REFERENCE 1 (bases 1 to 110811) AUTHORS Chow,T.-Y., Hsing,Y.-I.C., Chen,C.-S., Chen,H.-H., Wu,H.-P., Liu,S.-M., Chao,Y.-T., Chang,S.-J., Chen,T.-R., Chen,Y.-L., Chow,M.-H.J., Hong,Y.-C., Hsiung,J.-N., Hsu,C.-H., Huang,J.-J., Kau,P.-I., Lee,M.-C., Leu,H.-L., Lin,S.-J., Wu,L.-F. and Shaw,J.-F. TITLE Oryza sativa BAC OJ1058F05 genomic sequence JOURNAL Unpublished BASE COUNT 29791 a 26081 c 24560 g 30258 t 121 others ORIGIN 1 gtttctcctc aacatcaaga gacgctatca acccctcaac ggagtattcc tatctcttgt 61 gtttgagtgc agtaccgaaa cctctccaag atggaggtaa tttcacaata atgcacctag 121 ccacaaattt gttgggtaag acacacttaa ggagttcgag ttcctcagcc atggtttgta Formato FASTA Vantaggi: Human readable Semplice Conosciuto Svantaggi: Incompleto: non include tutti i dati Relazione rispetto ad altri dati non sono espliciti Non ci sono tool standard ma ogni programma deve avere le routine per analizzarli Formato FASTA (2) >gi|532319|pir|TVFV2E|TVFV2E envelope protein ELRLRYCAPAGFALLKCNDADYDGFKTNCSNVSVVHCTNLMNTTVTTGLLLNGSYSENRT QIWQKHRTSNDSALILLNKHYNLTVTCKRPGNKTVLPVTIMAGLVFHSQKYNLRLRQAWC HFPSNWKGAWKEVKEEIVNLPKERYRGTNDPKRIFFQRQWGDPETANLWFNCHGEFFYCK MDWFLNYLNNLTVDADHNECKNTSGTKSGNKRAPGPCVQRTYVACHIRSVIIWLETISKK TYAPPREGHLECTSTVTGMTVELNYIPKNRTNVTLSPQIESIWAAELDRYKLVEITPIGF APTEVRRYTGGHERQKRVPFVXXXXXXXXXXXXXXXXXXXXXXVQSQHLLAGILQQQKL LAAVEAQQQMLKLTIWGVK ASN.1 Abstract Syntax Notation One (ASN.1) è uno standard per una notazione per la descrizione e la condivisione di strutture dati È costituito da un insieme di regole formali per descrivere la struttura di oggetti È un formato ”machine-indipendent” Non vi sono ambiguità era stato progettato per l'industria delle telecomunicazioni è uno standard ISO ASN.1 Tipi predefiniti: integers booleans character strings ... Permette di definire delle strutture complesse: structures (SEQUENCE), lists (SEQUENCE OF), scelte fra tipi (CHOICE), ... ASN.1 Usa una struttura gerarchica (struttura ad alberi) Bisogna specificare uno schema (modulo) I moduli sono definiti usando la sintassi Bacchus-Naur Form (BNF), molto comune per descrivere la sintassi dei linguaggi per computer Modulo NCBI NCBI-Sequence DEFINITIONS ::= BEGIN Bioseq ::= SEQUENCE { id SET OF Seq-id , -- equivalent identifiers descr Seq-descr OPTIONAL , -- descriptors inst Seq-inst , -- the sequence data annot SET OF Seq-annot OPTIONAL } Seq-descr ::= SET OF Seqdesc Seqdesc ::= CHOICE { mol-type GIBB-mol , modif SET OF GIBB-mod , method GIBB-method , name VisibleString , … } … END -- type of molecule -- modifiers -- sequencing method -- a name for this sequence PDB Protein Data Bank database di modelli 3d di proteine note elenco di tutti gli atomi presenti nella struttura (e coordinate in 3 dimensioni) si può vedere il modello in 3 dimensioni usa un suo formato ”pdb” per la condivisione dell'informazione Esempio