DATABASE = collezione di dati biologici RECORD (o ENTRY) = elementi del database CAMPI = attributi dei record IDENTIFICATORE DI RECORD = alfanumerico identificativo di un record IDENTIFICATORE DI CAMPO = alfanumerico identificativo di un campo FLAT FILE = file di testo contenente le descrizioni dei campi di un record DataBase Management System (DBMS) = software che gestisce il DB e consente l’accesso ai dati DATABASE DI SEQUENZE DI DNA I due maggiori centri bioinformatici mondiali, N.C.B.I. di Washington negli Stati Uniti e l'E.B.I. a Cambridge in Europa, gestiscono i principali database di sequenze di DNA: Genbank e EMBL. I due database contengono essenzialmente gli stessi dati e ogni giorno si scambiano le informazioni per aggiornarsi a vicenda. Tuttavia il formato di ogni record, come appare nei corrispondenti "flat files" è leggermente diverso. N.C.B.I./Genbank http://www4.ncbi.nlm.nih.gov/GenBank E.B.I/EMBL http://www.ebi.ac.uk/embl/ ID XX AC XX SV XX DT DT XX DE XX KW XX OS OC OC XX RN RP RA RT RL RL RL XX RN RA RA RT RL HSTELETHO standard; RNA; HUM; 959 BP. AJ000491; AJ000491.1 15-AUG-1997 (Rel. 52, Created) 14-OCT-1997 (Rel. 52, Last updated, Version 6) Homo sapiens mRNA for telethonin 19 kDa protein; sarcomeric protein; telethonin. Homo sapiens (human) Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. [1] 1-959 Valle G.; ; Submitted (17-JUL-1997) to the EMBL/GenBank/DDBJ databases. Valle G., CRIBI Biotechnology Centre, Universita di Padova, via U. Bassi 58b, Padova, 35121, ITALY. [2] Valle G., Faulkner G.P., Deantoni A., Pacchioni B., Pallavicini A., Pandolfo D., Tiso N., Toppo S., Trevisan S., Lanfranchi G.; "Telethonin, a novel sarcomeric protein of heart and skeletal muscle."; FEBS Lett. 415:163-168(1997). XX DR SWISS-PROT; O15273; TELT_HUMAN. XX FH Key Location/Qualifiers FH FT source 1..959 FT /chromosome="17" FT /db_xref="taxon:9606" FT /sequenced_mol="cDNA to mRNA" FT /organism="Homo sapiens" FT /map="q12" FT /tissue_type="skeletal muscle" FT CDS 11..514 FT /codon_start=1 FT /db_xref="SWISS-PROT:O15273" FT /note="19kD sarcomeric protein" FT /product="telethonin" FT /protein_id="CAA04129.1" FT /translation="MATSELSCEVSEENCERREAFWAEWKDLTLSTRPEEGCSLHEEDT FT QRHETYHQQGQCQVLVQRSPWLMMRMGILGRGLQEYQLPYQRVLPLPIFTPAKMGATKE FT EREDTPIQLQELLALETALGGQCVDRQEVAEITKQLPPVVPVSKPGALRRSLSRSMSQE FT AQRG" XX SQ Sequence 959 BP; 196 A; 257 C; 355 G; 151 T; 0 other; cggcacgagc atggctacct cagagctgag ctgcgaggtg tcggaggaga actgtgagcg 60 ccgggaggcc ttctgggcag aatggaagga tctgacactg tccacacggc ccgaggaggg 120 ctgctccctg catgaggagg acacccagag acatgagacc taccaccagc aggggcagtg 180 ccaggtgctg gtgcagcgct cgccctggct gatgatgcgg atgggcatcc tcggccgtgg 240 gctgcaggag taccagctgc cctaccagcg ggtactgccg ctgcccatct tcacccctgc 300 caagatgggc gccaccaagg aggagcgtga ggacaccccc atccagcttc aggagctgct 360 Sistemi INTEGRATI di BANCHE DATI Laboratorio Banca Dati DNA Sistema di Accesso Sistema di Sottomissione N.C.B.I. (USA) Genbank Entrez SeqIN E.B.I. (Europa) EMBL SRS WebIN NIG (Giappone) DDBJ SAKURA I sistemi per la sottomissione dei dati (WebIN, SeqIN e SAKURA) consentono agli autori della sequenza di specificare numerose informazioni funzionali quali presenza di orf, espressione, ruolo funzionale ecc. La maggior parte delle ANNOTAZIONI nelle banche dati derivano direttamente dagli autori delle sequenze. Altre annotazioni vengono aggiunte dai curatori del DB che le derivano dalla letteratura scientifica. Gli aggiornamenti alle annotazioni vengono effettuate in questo modo. RISORSE GENOMICHE Entrez_Genomes e EBI_Genome Risorse integrate dove sono disponibili tutti i genomi Comprehensive Microbial Resource presso l’istituto TIGR Raccolta di tutti i genomi batterici Doe Institute Istituto presso il quale sono in via di sequenziamento o completati numerosi genomi batterici GadFly e FlyBASE Drosophyla GDB Geoma umano ….. ……… Il sequenziamento dei genomi produce una tale massa di sequenze da rendere impossibile una rapida e accurata annotazione da parte dei curatori dei DBs genomici pertanto: i DBs genomici vengono annotati con metodi automatici (BLAST ecc.) almeno negli stadi iniziali. Le annotazioni dei genomi sono spesso imprecise o addirittura errate Ensembl Sviluppato dall’E.B.I. con il Sanger centre Database genomico umano ANNOTATO Ad esempio: Dati sul mappaggio dei geni Presenza di polimorfismi Correlazioni fra locus e malattie genetiche HumGuide Sviluppato dall’NCBI DATABASE EST (Expressed Sequence Tags) Cellula o tessuto Estrazione mRNA mRNA Trascrizione inversa cDNA Clonaggio Library cDNA Sequenziamento EST DB DATABASE EST (Expressed Sequence Tags) dell’NCBI Vantaggio rispetto ai DBs genomici: contiene informazioni sulla specificità tissutale dell’espressione; sui livelli di espressione; su forme alternative di splicing ecc. Contiene molte sequenze parziali di cDNA Sequenze a bassa precisione (molti errori) FANTOMdb: specifico per il topo, contiene solo cDNA completi. (in via di realizzazione per drosofila) DATABASE di polimorfismi e mutazioni POLIMORFISMO: variazione nucleotidica che lascia inalterata la funzione di un gene (variante allelica) Se un allele è presente in almeno l’1% della popolazione si parla di polimorfismo. Single Nucleotide Polymorphism (SNP): Polimorfismo associato al cambiamento di un solo nucleotide. Mutazione: Differenza rispetto a un genoma di riferimento e causa di disfunzioni o manifestazioni fenotipiche in generale DATABASE di polimorfismi e mutazioni Single Nucleotide Polymorphism (SNP): E.B.I. HGVbase NCBI dbSNP Mutazioni: HGMD (human gene mutation database) Solo mutazioni sperimentalmente indagate al livello del DNA. Mutazioni silenti non riportate a meno che non causino alerazioni dell’espressione (ad esempio alterazioni nello splicing). Per ogni mutazione è descritto il fenotipo clinico. OMIM (Online Mendelian Inheritance in Man) Gestita dall’NCBI Tutte le malattie genetiche autosomiche, X linked, Y linked e associate al genoma mitocondriale DATABASE di DNA di Organelli GOBASE (Organelle Genome Database) Sequenze di Mitocondri e Cloroplasti (derivati da Entrez) Molto curata nelle annotazioni MITOMAP (Human Mitocondrial Genome Database) Variazioni del genoma mitocondriale associate a fenotipi MITOP Sequenze di Mitocondri umani, di topo e di lievito MitoNuc Raccoglie i geni nucleari che esprimono proteine destinate ai mitocondri DATABASE DI SEQUENZE PROTEICHE Raccolgono sequenze proteiche determinate sperimentalmente (sequenziamento degli amminoacidi) e sequenze proteiche dedotte da sequenze geniche mediante traduzione “in silico”. Il sequenziamento del DNA è molto più semplice e rapido del sequenziamento dei peptidi, pertanto le sequenze dedotte sono di alcuni ordini di grandezza più numerose di quelle ricavate dal sequenziamento diretto. ATTENZIONE! La traduzione “in silico” non mostra modifiche post traduzionali come ad esempio il “processing proteolitico” e a volte pone problemi quali la scelta del corretto codone di inizio. DATABASE DI SEQUENZE PROTEICHE SWISSPROT Gestita dal SIB (Swiss Institute of Bioinformatics) Formato: flat file simile a quello EMBL Grande cura per le annotazioni in generale Particolare cura nell’annotazione dei nomi (sinonimi) della proteina TREMBL Gestita dall’EBI Deriva dalla traduzione di tutte le sequenze di EMBL Le sequenze complete e ritenute più “sicure” formano il sottoinsieme SPTREMBL che viene poi incamerato in SWISSPROT SWALL SWISSPROT + SPTREMBL RIDONDANTE! DATABASE DI SEQUENZE PROTEICHE PIR (Protein Information Resource) Gestita dalla Georgetown University (USA)+istituto MIPS (Monaco di Baviera) Molto ben annotata ma poco integrata con le altre banche dati DATABASE CORRELATI A SWISSPROT e TREMBL PROSITE Annota famiglie di proteine accomunate da PATTERN AMMINOACIDICI (sperimentali o predetti in silico, strutturali o funzionali) Pfam Ogni entry raccoglie un gruppo di proteine con degli elementi strutturali o funzionali in comune. Ci sono quattro tipi di elementi: Famiglia = proteine con la stessa organizzazione in domini Domini = unità strutturale che può essere presente in famiglie differenti Repeat = unità strutturale ripetuta più volte in una o più famiglie Pattern Famiglia 1 Dom.A B B Dom.A B B Dom.A Famiglia 3 Famiglia 2 Dom.C Dom.C B B D E B D E B D E Repeat tipo 1 Famiglia 4 Dom.A Dom.C Dom.A Dom.F Dom.A Repeat tipo 2 Dom.A G B DATABASE CORRELATI A SWISSPROT e TREMBL ProDOM Annota famiglie di proteine evolutivamente correlate (determinazione automatica con PSI-BLAST) PRINTS Annota famiglie di proteine accomunate da PATTERN AMMINOACIDICI (sperimentali o predetti in silico, strutturali o funzionali) I dati sono tutti rivisti manualmente ed annotati InterPRO Integrazione di molte banche dati di famiglie proteiche incluse Pfam, PROSITE, ProDOM, PRINTS, SMART DATABASE Immunologici IMTG Raccoglie dati relativi a: Immunoglobuline; Recettori delle cellule T; MHC I e II (complesso maggiore di istocompatibilità). MHCpep Annota le sequenze dei peptidi che si legano alle molecole MHC di uomo, topo, ratto, e altri mammiferi modello. MPID Annota funzioni per i peptidi che si legano alle molecole MHC DATABASE pathway metabolici ENZYME Classificazione e nomenclatura UFFICIALE degli enzimi. EC number (EC x.y.z.u) Nome d’uso, attività catalitica, cofattori noti, ecc. PATHWAYS Annota le interazioni fra le proteine! *** Due enzimi che si susseguono in un pathway noto. *** Proteine che fisicamente si legano fra loro. *** Enzima che modifica una proteina bersaglio. MetaCyc Descrive tutti i pathway metabolici noti in letteratura Banche Dati PRIMARIE Raccolgono i dati sperimentali e le loro annotazioni Banche Dati DERIVATE Contengono ANALISI dei dati presenti nelle banche dati primarie Ad esempio: Banca Dati primaria SWISSPROT DERIVATE da SWISSPROT PROSITE Pfam ProDOM PRINTS InterPRO Ad esempio: Banca Dati primaria GenBank/EMBL DERIVATE da GenBank/EMBL DATABASE EST HGVbase dbSNP HGMD (human gene mutation database) OMIM (Online Mendelian Inheritance in Man) GOBASE (Organelle Genome Database) MITOMAP (Human Mitocondrial Genome Database) MITOP MitoNuc ….