DATABASE
=
collezione di dati biologici
RECORD
(o ENTRY)
=
elementi del database
CAMPI
=
attributi dei record
IDENTIFICATORE
DI RECORD
=
alfanumerico identificativo di un record
IDENTIFICATORE
DI CAMPO
=
alfanumerico identificativo di un campo
FLAT FILE
=
file di testo contenente le descrizioni dei campi di
un record
DataBase Management System
(DBMS)
=
software che gestisce il DB e consente l’accesso ai dati
DATABASE DI SEQUENZE DI DNA
I due maggiori centri bioinformatici mondiali, N.C.B.I. di
Washington negli Stati Uniti e l'E.B.I. a Cambridge in Europa,
gestiscono i principali database di sequenze di DNA: Genbank e
EMBL.
I due database contengono essenzialmente gli stessi dati e ogni
giorno si scambiano le informazioni per aggiornarsi a vicenda.
Tuttavia il formato di ogni record, come appare nei
corrispondenti "flat files" è leggermente diverso.
N.C.B.I./Genbank
http://www4.ncbi.nlm.nih.gov/GenBank
E.B.I/EMBL
http://www.ebi.ac.uk/embl/
ID
XX
AC
XX
SV
XX
DT
DT
XX
DE
XX
KW
XX
OS
OC
OC
XX
RN
RP
RA
RT
RL
RL
RL
XX
RN
RA
RA
RT
RL
HSTELETHO
standard; RNA; HUM; 959 BP.
AJ000491;
AJ000491.1
15-AUG-1997 (Rel. 52, Created)
14-OCT-1997 (Rel. 52, Last updated, Version 6)
Homo sapiens mRNA for telethonin
19 kDa protein; sarcomeric protein; telethonin.
Homo sapiens (human)
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Mammalia; Eutheria;
Primates; Catarrhini; Hominidae; Homo.
[1]
1-959
Valle G.;
;
Submitted (17-JUL-1997) to the EMBL/GenBank/DDBJ databases.
Valle G., CRIBI Biotechnology Centre, Universita di Padova, via U. Bassi
58b, Padova, 35121, ITALY.
[2]
Valle G., Faulkner G.P., Deantoni A., Pacchioni B., Pallavicini A.,
Pandolfo D., Tiso N., Toppo S., Trevisan S., Lanfranchi G.;
"Telethonin, a novel sarcomeric protein of heart and skeletal muscle.";
FEBS Lett. 415:163-168(1997).
XX
DR
SWISS-PROT; O15273; TELT_HUMAN.
XX
FH
Key
Location/Qualifiers
FH
FT
source
1..959
FT
/chromosome="17"
FT
/db_xref="taxon:9606"
FT
/sequenced_mol="cDNA to mRNA"
FT
/organism="Homo sapiens"
FT
/map="q12"
FT
/tissue_type="skeletal muscle"
FT
CDS
11..514
FT
/codon_start=1
FT
/db_xref="SWISS-PROT:O15273"
FT
/note="19kD sarcomeric protein"
FT
/product="telethonin"
FT
/protein_id="CAA04129.1"
FT /translation="MATSELSCEVSEENCERREAFWAEWKDLTLSTRPEEGCSLHEEDT
FT
QRHETYHQQGQCQVLVQRSPWLMMRMGILGRGLQEYQLPYQRVLPLPIFTPAKMGATKE
FT
EREDTPIQLQELLALETALGGQCVDRQEVAEITKQLPPVVPVSKPGALRRSLSRSMSQE
FT
AQRG"
XX
SQ
Sequence 959 BP; 196 A; 257 C; 355 G; 151 T; 0 other;
cggcacgagc atggctacct cagagctgag ctgcgaggtg tcggaggaga actgtgagcg
60
ccgggaggcc ttctgggcag aatggaagga tctgacactg tccacacggc ccgaggaggg
120
ctgctccctg catgaggagg acacccagag acatgagacc taccaccagc aggggcagtg
180
ccaggtgctg gtgcagcgct cgccctggct gatgatgcgg atgggcatcc tcggccgtgg
240
gctgcaggag taccagctgc cctaccagcg ggtactgccg ctgcccatct tcacccctgc
300
caagatgggc gccaccaagg aggagcgtga ggacaccccc atccagcttc aggagctgct
360
Sistemi INTEGRATI di BANCHE DATI
Laboratorio Banca Dati
DNA
Sistema
di Accesso
Sistema
di Sottomissione
N.C.B.I.
(USA)
Genbank
Entrez
SeqIN
E.B.I.
(Europa)
EMBL
SRS
WebIN
NIG
(Giappone)
DDBJ
SAKURA
I sistemi per la sottomissione dei dati (WebIN, SeqIN e
SAKURA) consentono agli autori della sequenza di
specificare numerose informazioni funzionali quali presenza
di orf, espressione, ruolo funzionale ecc.
La maggior parte delle ANNOTAZIONI nelle banche dati
derivano direttamente dagli autori delle sequenze.
Altre annotazioni vengono aggiunte dai curatori del DB che
le derivano dalla letteratura scientifica.
Gli aggiornamenti alle annotazioni vengono effettuate in
questo modo.
RISORSE GENOMICHE
Entrez_Genomes e EBI_Genome
Risorse integrate dove sono disponibili tutti i genomi
Comprehensive Microbial Resource presso l’istituto TIGR
Raccolta di tutti i genomi batterici
Doe Institute
Istituto presso il quale sono in via di sequenziamento o completati
numerosi genomi batterici
GadFly e FlyBASE
Drosophyla
GDB
Geoma umano
…..
………
Il sequenziamento dei genomi produce una tale massa di
sequenze da rendere impossibile una rapida e accurata
annotazione da parte dei curatori dei DBs genomici
pertanto:
i DBs genomici vengono annotati con metodi automatici
(BLAST ecc.) almeno negli stadi iniziali.
Le annotazioni dei genomi sono spesso imprecise o
addirittura errate
Ensembl
Sviluppato dall’E.B.I. con il Sanger centre
Database genomico umano ANNOTATO
Ad esempio:
Dati sul mappaggio dei geni
Presenza di polimorfismi
Correlazioni fra locus e malattie genetiche
HumGuide
Sviluppato dall’NCBI
DATABASE EST (Expressed Sequence Tags)
Cellula o tessuto
Estrazione mRNA
mRNA
Trascrizione inversa
cDNA
Clonaggio
Library cDNA
Sequenziamento
EST DB
DATABASE EST (Expressed Sequence Tags)
dell’NCBI
Vantaggio rispetto ai DBs genomici:
contiene informazioni sulla specificità tissutale
dell’espressione; sui livelli di espressione; su forme
alternative di splicing ecc.
Contiene molte sequenze parziali di cDNA
Sequenze a bassa precisione (molti errori)
FANTOMdb:
specifico per il topo, contiene solo cDNA completi.
(in via di realizzazione per drosofila)
DATABASE di polimorfismi e mutazioni
POLIMORFISMO: variazione nucleotidica che lascia inalterata la
funzione di un gene (variante allelica)
Se un allele è presente in almeno l’1% della popolazione si parla di
polimorfismo.
Single Nucleotide Polymorphism (SNP):
Polimorfismo associato al cambiamento di un solo nucleotide.
Mutazione:
Differenza rispetto a un genoma di riferimento e causa di
disfunzioni o manifestazioni fenotipiche in generale
DATABASE di polimorfismi e mutazioni
Single Nucleotide Polymorphism (SNP):
E.B.I.
HGVbase
NCBI
dbSNP
Mutazioni:
HGMD (human gene mutation database)
Solo mutazioni sperimentalmente indagate al livello del DNA.
Mutazioni silenti non riportate a meno che non causino alerazioni
dell’espressione (ad esempio alterazioni nello splicing).
Per ogni mutazione è descritto il fenotipo clinico.
OMIM (Online Mendelian Inheritance in Man)
Gestita dall’NCBI
Tutte le malattie genetiche autosomiche, X linked, Y linked e
associate al genoma mitocondriale
DATABASE di DNA di Organelli
GOBASE (Organelle Genome Database)
Sequenze di Mitocondri e Cloroplasti (derivati da Entrez)
Molto curata nelle annotazioni
MITOMAP (Human Mitocondrial Genome Database)
Variazioni del genoma mitocondriale associate a fenotipi
MITOP
Sequenze di Mitocondri umani, di topo e di lievito
MitoNuc
Raccoglie i geni nucleari che esprimono proteine destinate ai
mitocondri
DATABASE DI SEQUENZE PROTEICHE
Raccolgono sequenze proteiche determinate sperimentalmente
(sequenziamento degli amminoacidi) e sequenze proteiche
dedotte da sequenze geniche mediante traduzione “in silico”.
Il sequenziamento del DNA è molto più semplice e rapido del
sequenziamento dei peptidi, pertanto le sequenze dedotte sono
di alcuni ordini di grandezza più numerose di quelle ricavate
dal sequenziamento diretto.
ATTENZIONE!
La traduzione “in silico” non mostra modifiche post
traduzionali come ad esempio il “processing proteolitico” e a
volte pone problemi quali la scelta del corretto codone di inizio.
DATABASE DI SEQUENZE PROTEICHE
SWISSPROT
Gestita dal SIB (Swiss Institute of Bioinformatics)
Formato: flat file simile a quello EMBL
Grande cura per le annotazioni in generale
Particolare cura nell’annotazione dei nomi (sinonimi) della
proteina
TREMBL
Gestita dall’EBI
Deriva dalla traduzione di tutte le sequenze di EMBL
Le sequenze complete e ritenute più “sicure” formano il
sottoinsieme SPTREMBL che viene poi incamerato in
SWISSPROT
SWALL
SWISSPROT + SPTREMBL
RIDONDANTE!
DATABASE DI SEQUENZE PROTEICHE
PIR (Protein Information Resource)
Gestita dalla Georgetown University (USA)+istituto MIPS
(Monaco di Baviera)
Molto ben annotata ma poco integrata con le altre banche dati
DATABASE CORRELATI A SWISSPROT e TREMBL
PROSITE
Annota famiglie di proteine accomunate da PATTERN
AMMINOACIDICI (sperimentali o predetti in silico, strutturali
o funzionali)
Pfam
Ogni entry raccoglie un gruppo di proteine con degli elementi
strutturali o funzionali in comune.
Ci sono quattro tipi di elementi:
Famiglia = proteine con la stessa organizzazione in domini
Domini = unità strutturale che può essere presente in famiglie
differenti
Repeat = unità strutturale ripetuta più volte in una o più
famiglie
Pattern
Famiglia 1
Dom.A
B
B
Dom.A
B
B
Dom.A
Famiglia 3
Famiglia 2
Dom.C
Dom.C
B
B
D
E
B
D
E
B
D
E
Repeat tipo 1
Famiglia 4
Dom.A
Dom.C
Dom.A
Dom.F
Dom.A
Repeat tipo 2
Dom.A
G
B
DATABASE CORRELATI A SWISSPROT e TREMBL
ProDOM
Annota famiglie di proteine evolutivamente correlate
(determinazione automatica con PSI-BLAST)
PRINTS
Annota famiglie di proteine accomunate da PATTERN
AMMINOACIDICI (sperimentali o predetti in silico, strutturali
o funzionali)
I dati sono tutti rivisti manualmente ed annotati
InterPRO
Integrazione di molte banche dati di famiglie proteiche incluse
Pfam, PROSITE, ProDOM, PRINTS, SMART
DATABASE Immunologici
IMTG
Raccoglie dati relativi a: Immunoglobuline; Recettori delle
cellule T; MHC I e II (complesso maggiore di istocompatibilità).
MHCpep
Annota le sequenze dei peptidi che si legano alle molecole MHC
di uomo, topo, ratto, e altri mammiferi modello.
MPID
Annota funzioni per i peptidi che si legano alle molecole MHC
DATABASE pathway metabolici
ENZYME
Classificazione e nomenclatura UFFICIALE degli enzimi.
EC number (EC x.y.z.u)
Nome d’uso, attività catalitica, cofattori noti, ecc.
PATHWAYS
Annota le interazioni fra le proteine!
*** Due enzimi che si susseguono in un pathway noto.
*** Proteine che fisicamente si legano fra loro.
*** Enzima che modifica una proteina bersaglio.
MetaCyc
Descrive tutti i pathway metabolici noti in letteratura
Banche Dati PRIMARIE
Raccolgono i dati sperimentali e le loro annotazioni
Banche Dati DERIVATE
Contengono ANALISI dei dati presenti nelle banche dati primarie
Ad esempio:
Banca Dati primaria SWISSPROT
DERIVATE da SWISSPROT
PROSITE
Pfam
ProDOM
PRINTS
InterPRO
Ad esempio:
Banca Dati primaria GenBank/EMBL
DERIVATE da GenBank/EMBL
DATABASE EST
HGVbase
dbSNP
HGMD (human gene mutation database)
OMIM (Online Mendelian Inheritance in Man)
GOBASE (Organelle Genome Database)
MITOMAP (Human Mitocondrial Genome Database)
MITOP
MitoNuc
….