1
PROGETTO DATABASES
INTRODUZIONE
L’enorme volume e complessità dei dati biologici oggi disponibili, la loro rapida espansione, la
necessità di renderli facilmente fruibili alla comunità scientifica ha determinato lo sviluppo di un
crescente numero di database scientifici. Lo scopo che ci siamo prefissi di raggiungere nei prossimi
tre mesi, la creazione di un database mitocondriale, ci ha posto nella necessità di studiare il
funzionamento di molti di essi ed i diversi tipi di database esistenti.
Riportiamo qui di seguito una serie d’informazioni di carattere generale che a nostro avviso possono
essere utili per meglio comprendere ciò che verrà riportato in seguito .
Che cosa è un database?
Un database è una raccolta d’informazioni o di dati a cui è associato un DBMS (Database
Management System) ovvero un’applicazione od un programma che permette di gestire queste
informazioni consentendone la memorizzazione di nuove e di eseguire operazioni sui dati in esso
contenuti.
-
Vantaggi dell’utilizzo di un database :
-
Il ritrovamento dei dati è veloce ;
I dati occupano meno spazio ;
I dati possono essere condivisi da più utenti ;
Tipi di database:
- Gerarchico : I dati sono organizzati in record connessi tra loro secondo strutture ad albero. Ogni
record che non sia la radice dell’albero, deve avere uno ed un solo padre .Possono quindi esserci
due record su alberi diversi , che rappresentano la stessa informazione e questo comporta problemi
di ridondanza nel database. Inoltre la struttura di questo tipo di database per l’aggiornamento di un
dato richiede l’accesso e la modifica di diversi record.
-Reticolare: I record sono collegati fra di loro con strutture ad anello (puntatori) che permettono
all’utente di accedere ai dati più facilmente, senza i vincoli rigidi della struttura gerarchica. Ogni
nodo può essere il punto di partenza per raggiungere un dato campo.
Un record può avere uno o più padri ciò permette di evitare i problemi di ridondanza.
Per modificare, anche parzialmente, le strutture bisogna chiudere il DB e ricrearlo.
-Relazionale: I dati sono organizzati in tabelle che rappresentano sia le entità, che le relazioni fra di
esse.
Non esiste alcun meccanismo esplicito per rappresentare i legami logici tra i diversi tipi di record
che non sia la relazione.
La modifica di un dato o di un legame comporta la manipolazione di un solo record di una tabella,
ciò permette di modificare le strutture senza modificare i programmi, anche a DB aperto, con gli
utenti collegati.
2
Database d’interesse biomedico
Possono essere classificate nelle seguenti categorie principali :
-
Database bibliografici ;
Database per la biologia molecolare :
-
Database clinici ;
Database strutturali ;
>Database di sequenza ;
>Database genomici ;
I database genomici e di sequenza, quelli di maggior interesse per quanto ci riguarda, possono
essere ulteriormente divisi in due gruppi:
- Generalizzati :
- Specializzati :
Raccolgono informazioni su particolari classi di molecole senza nessun tipo
di filtro funzionale o filogenetico;
Organizzate intorno a specifici organismi modello o funzioni biologiche
particolari;
Riportiamo qui di seguito i principali database studiati, la loro localizzazione fisica e gli indirizzi
Internet, in seguito verranno approfondite più in dettaglio le caratteristiche di ognuno di essi.
a) Database per sequenze nucleotidiche:
-EMBL (European Molecular Biology Laboratory) ubicata presso l’EBI (European Bioinformatics
Laboratory) a Cambridge. [www.ebi.ac.uk]
-GenBank gestita dal NCBI (National Center for Biotechology Informations) ed ubicata presso la
National Library of Medicine di Bethesda; [www.ncbi.nim.gov]
-DDBJ (DNA Database of Japan) gestita dal National Istitute of Genetics di Mistrima;
[www.ddbj.nig.ac.jp]
b) Database per sequenze proteiche:
-SwissProt curata da EMBL e dallo Swiss Istitute of Bioinformatics; [www.ebi.ac.uk./swissprot/]
-PIR (Protein Information Risource) gestita dalla National Biomedical Research Foundation
affiliata alla Georgetown University; [www-nbrf.georgetown.edu/pirwww]
c) Database specializzati (mitocondriale):
-MITOP; database che fornisce informazioni riguardanti l’aspetto funzionale e patologico dei
mitocondri e delle proteine nucleari. [www. Mips.biochem.mpg.de/proj/medgen/mitop/]
-MitBASE; coordinato da E. Sacconi del nodo EMBNet di Bari, contiene 12989 sequenze di DNA
mitocondriale (febbraio 1999); [www3.ebi.ac.uk/Research/mitbase/mitbase.pl]
3
GeneBank e l'analisi di sequenza
Esistono numerosi database di sequenza, sia per DNA che per proteine. I più' famosi ed importanti sono:
GeneBank, EMBL (European Molecular Biology Laboratory) e DDBJ (Database of Japan).Queste tre
banche dati hanno il compito di organizzare e distribuire i dati di sequenza alla comunità scientifica. La
stretta collaborazione ed il costante aggiornamento le ha rese praticamente equivalenti, ciò ha portato ad
una crescita quasi esponenziale del numero di sequenze depositate (Fig 1).In questa sezione prenderemo
in esame solo GeneBank, con particolare attenzione ai software disponibili per l'analisi di sequenza.
Fig 1
GeneBank è localizzata presso la NCBI (National Center for Biotechnology Information) a
Bethesda (Maryland, USA). GeneBank fornisce servizi di: a) Homology search, b) Database query,
c) Sistemi di " retrival of information" (vedi Enterez).
Attualmente GeneBank è strutturata secondo una logica funzionale (abbandonando l’organizzazione
tassonomica); ovvero le sequenze depositate sono organizzate in:






EST
STS
GSS
HTG
PAT
CON
expressed sequences tags
sequences tagged sites
genome survey sequences
high throughput genomic sequences
patent sequences
virtual contigs of segmented
Le sequenze depositate vengono prima considerate "unfinished", e solo in seguito ad ulteriori
accertamenti sono definite "finished" e rese disponibili per la ricerca di omologia con BLAST.
BLAST (basic local alignment search tool) è un software, disponibile presso la NCBI (….e non
solo), che utilizza un algoritmo per allineare sequenze che mostrano regioni di similarità. BLAST
comprende:
1) Gapped BLAST (noto anche come BLAST 2.0)
2) PSI-BLAST
3) PHI-BLAST
Gapped BLAST permette ai gaps (inserzioni o delezioni)di essere introdotti nell'allineamento di
sequenze simili.
PSI-BLAST (Position specific iterated BLAST) allinea prima una query tramite un gappedBLAST, quindi l'informazione ottenuta viene utilizzata per la creazione di una matrice di
4
posizionamento che spiazza la query nel successivo search. PSI-BLAST è usato più' frequentemente
per individuare omologie di sequenze (solo allineamenti proteici)
PHI-BLAST (Pattern Hit initiated BLAST) cerca qualunque sequenza, in un database proteico, che
abbia un "input pattern" e significativa omologia alla sequenza query in vicinanza di tale pattern.
Il modo più semplice per accedere a BLAST è attraverso il Web ( http://www.ncbi.nlm.nih.gov).
Esistono cinque implementazioni di BLAST, tre (BLASTN, BLASTX, TBLASTX) disegnate per i
nucleotidi e due (BLASTP, TBLASTN) per le proteine. Le prime sono usate per l'analisi di
sequenze genomiche e "single-pass" cDNA data, le altre hanno una maggiore rilevanza nella
identificazione di prodotti genici.
blastp: allinea sequenze proteiche contro database proteici
blastn: allinea sequenze nucleotidiche contro database nucleotidici
blastx: allinea sequenze nucleotidiche tradotte nelle sei ORF contro un database proteico
tblastx: allinea sequenze nucleotidiche tradotte nelle sei ORF contro un database
nucleotidico tradotto nei sei frame di lettura
tblastn: allinea sequenze proteiche contro database nucleotidici tradotti nei sei ORF
- Utilizzo di BLAST L'operazione da compiere è semplice; una volta selezionato BLAST 2.0 (o PSI, PHI) dalla NCBI
Home Page clicca come nella figura……(sceglierai in questo modo il programma: blastn, blastx,
blastp…)
Selezionato il programma è quindi necessario scegliere il database di riferimento, la tabella 1
mostra un ampia gamma di database.
Si inserisce quindi la " query ", e si lancia il programma
5
E' relativamente semplice utilizzare BLAST, la maggiore difficoltà deriva dall'interpretazione dei
dati a causa di una notevole complessità derivata proprio dall'aumento di informazioni di sequenze
proteiche e nucleotidiche.
Database proteico
I database proteici, creati a metà anni ’80, forniscono notizie relative alle proteine o a sequenze
aminoacidiche riportate in letteratura o provenienti da altre fonti.
Il loro compito principale è quello di raccogliere e rendere accessibili in forma organica tutte le
conoscenze relative alle proteine. Per ottenere questo risultato le principali banche dati vengono
create seguendo tre principali criteri:
a) Informazioni
Nelle banche dati si cerca di inserire il maggior numero possibile di informazioni. A tal fine si
utilizzano come fonti sia pubblicazioni che riportano nuovi dati relativi alla sequenza, sia articoli
che periodicamente aggiornano le classificazioni e le peculiarità di famiglie o gruppi di proteine,
sia l’appoggio e la consulenza di esperti esterni all’organizzazione che gestisce la banca dati.
Sotto questo aspetto le due maggiori banche dati proteiche (PIR e SWISS-PROT) attuano scelte
diverse. La prima preferisce l’archiviazione anche di sequenze aminoacidiche prive o povere di
informazioni, SWISS-PROT invece contiene solo elementi di cui si può elaborare un insieme di
informazioni il più completo possibile.
b) Minima ridondanza
Molte banche dati di sequenze contengono, per una data sequenza proteica, diversi elementi che
corrispondono a differenti dati riportati in letteratura. Si cerca così di fondere il più possibile tutti
questi dati che fanno riferimento allo stesso elemento in modo tale da minimizzare la ridondanza
del database. Anche in questo settore le suddette banche dati differiscono, in quanto la scelta di
SWISS-PROT di prestare molta attenzione solo alle sequenze perfettamente conosciute
determina una ridondanza, seppur minima nelle informazioni in essa contenute. Situazione
opposta quella di PIR che ha la prerogativa di essere non ridondante, anche se si possono
incontrare sequenze prive o quasi di annotazioni.
c) Integrazione con altre banche dati
Fondamentale per gli utenti di banche dati biomolecolari aver a disposizione una elevata
integrazione fra i tre tipi di database relativi a sequenze (sequenze nucleotidiche, sequenze
proteiche, strutture terziarie di proteine), così come con database specializzati (per esempio
mitocondriale).
>Protocollo generale di ricerca
Le ricerche che si possono effettuare utilizzando autorevoli database proteici sono di tipo
“confrontazionale”, ciò significa che sottoponendo una data sequenza aminoacidica ad una ricerca
con questo tipo di banche dati, si ottiene una lista di proteine o polipeptidi che assomigliano al
soggetto della ricerca. Quindi la banca dati non fa altro che confrontare la sequenza oggetto della
ricerca con tutte quelle presenti nel suo archivio. Nel risultato così noi potremmo ottenere sia una
sequenza aminoacidica perfettamente coincidente con la nostra (se esistente) che una serie di
proteine che ci assomigliano con gradi di similitudine diversi. Il passo successivo consiste
nell’analizzare tutte le informazioni disponibili in banca dati di ogni singola proteina o di quelle
che più si avvicinano alla nostra. Le informazioni che si possono ottenere sono:
6











Informazioni generali sulla sequenza (Nome, numero di accesso, entrata nel database e sue
successive modifiche);
Le referenze bibliografiche;
I dati tassonomici (descrizione della provenienza biologica della proteina);
La funzione della proteina;
La o le modificazioni post-traduzionali (per esempio carboidrati, fosforilazioni, acetilazioni,
etc);
Descrizione di siti e domini funzionali,
Struttura secondaria;
Struttura quaternaria,
Similarità ad altre proteine;
Patologie associate a deficienze della proteina;
Conflitti di sequenza, varianti, etc.
>Principali database studiati
I principali database proteici presenti su Internet sono: PIR International PSD, SWISS-PROT e
PDB. I primi due sono banche dati di sequenze proteiche mentre PDB è un database di strutture
terziarie di proteine.
Oltre al software principale di ricerca, simile per PIR e SWISS-PROT anche se strutturato e
pensato in maniera differente, questi due database forniscono una serie di programmi applicativi
per effettuare ricerche e analisi circa i vari aspetti della struttura proteica (per esempio
allineamento di sequenze proteiche, analisi della struttura tridimensionale, modificazione dei
residui aminoacidici, analisi dei gruppi di famiglie, superfamiglie e domini di omologia, archivi
delle referenze bibliografiche).
In fine mediante collegamenti con numeri di accesso specifici per ogni singola sequenza proteica,
è possibile risalire alla sequenza nucleotidica corrispondente utilizzando database nucleotidici
(GenBank, EMBJ, DDBJ, GDB).
Database mitocondriale
Un database mitocondriale raccoglie generalmente informazioni su geni mitocondriali e su geni
nucleari a funzione mitocondriale; questi database appartengono ad un sottogruppo di database più
complessi e articolati, nonché più forniti, nei quali sono raccolte tutte le informazioni di qualsiasi
gene e proteina presenti in letteratura
Il database mitocondriale tipo è organizzato in modo da contenere una lista di geni a funzione
mitocondriale. Visivamente è presente un elenco di cromosomi in cui sono contenuti i geni nucleari,
mappati, a funzione mitocondriale più un link per l’intero genoma del mitocondrio. L’impostazione
di questo database è di tipo consultativo: lo si può quindi utilizzare solo ed unicamente per accedere
ad informazioni generali riguardanti geni specifici e ben conosciuti dall’operatore.
>Protocollo generale di ricerca
Nell’unico caso in cui non si volesse effettuare lo studio dei geni presenti sui singoli cromosomi o
sul genoma mitocondriale, si potrebbe seguire una minima ricerca per parole chiave e codici di
identificazione propri dei geni. A questo punto il database oltre alle sequenze aminoacidiche e
proteiche e ai codici di accesso per altri database di maggiore rilievo fornirà solo inutili
informazioni generali.
Si notano quindi i limiti funzionali di tali database i quali raccolgono scarse informazioni senza fare
in modo da poterle utilizzare in maniera “intelligente”, vale a dire con un metodo confrontativo.
7
I possibili miglioramenti del progetto potrebbero essere apportati al sistema di gestione e di
utilizzazione dei dati; ossia cercando di trasformare il metodo consultativo in confrontativo.
>Utilizzo dei principali database studiati
MITOP, MITBASE, MITODAP e MITOMAP sono i principali database mitocondriali presenti in
Internet. Il loro funzionamento è pressappoco identico, così come lo sono le loro scarse
prestazioni. A parte piccole differenze grafiche sono strutturalmente organizzati in modo similare.
Una nota per MITODAT nella cui casella di ricerca si può inserire un’intera frase chiave oltre a
singoli termini di abbreviazione e codici.
Che cos’è ENTREZ?
NCBI, EBI, e DDBJ sono i più completi database esistenti. Ogni giorno acquisiscono dalla
letteratura nuove informazioni su geni e proteine.
Nonostante così grandi questi tre database sono nati e si sono evoluti in maniera totalmente
indipendente; così come tutti gli altri database minori. Il livello di informazione contenuto è così
completo ed elevato da essere praticamente lo stesso in tutti e tre i database.
Negli anni ‘90 la NCBI ha così sviluppato un sistema di comunicazione per i tre database (gestito
dal NCBI stesso) chiamato “Entrez”; questo sistema rappresenta molto più di un semplice mezzo di
comunicazione, esso stesso è mezzo di scambio e confronto dati legato oramai a qualsiasi database
esistente.
ENTREZ è un potente sistema “integrated information retrieval” nel campo della Biologia
molecolare. Un utente può cercare tutte le informazioni rilevanti (per una data query) all interno di
un database o muoversi verso informazioni correlate senza dover iniziare una nuova ricerca. La
facilità con cui un utente può “saltare” tra i database permette di acquisire una quantità di
informazioni notevole.
Le interconnessioni sono ottenute mediante una procedura chiamata “neighboring”. Il
“neighboring” permette all utente di domandare: quale paper (o sequenza) è simile ad un dato
paper? All interno di un database di sequenza, i neighbors sono determinati paragonando una
sequenza con tutte le altre usando BLAST. All interno di un database bibliografico (MEDLINE) i
neighbors sono determinati confrontando per parole chiave.
Le connessioni trovate attraverso la precedente procedura sono chiamate “hard links”. Per esempio
un paper su BRCA1 trovato in MEDLINE può contenere la sequenza nucleotidica per BCRA1. Se è
così un hard link è stabilito tra la MEDLINE entry e la correlata entry nel database di nucleotidi.
Tutti gli hard link sono reciproci, ciò significa che gli utenti possono muoversi tra i database in ogni
direzione.
>Potenzialità del sistema di ENTREZ
I database esistenti in Internet sono ormai di tutti i tipi, per qualsiasi gruppo e sottogruppo di geni
e proteine, con qualsiasi metodo di ricerca e classificazione. Le potenzialità di un sistema come
Entrez sono praticamente infinite; basti pensare a quali tipi (principali) di database esistono:
 Database genomici
 Database proteici (classificati per sequenza e struttura indipendentemente)
 Database a cDNA
 Database legati a particolari patologie
 Altri sottogruppi come i mitocondriali
 …
Se accoppiamo a questi dei programmi di ricerca, di confronto di sequenze (Blast-N) e di
confronto intrecciato geni-proteine (Blast-X), otteniamo il maggior risultato con il minimo sforzo.
8
Si può chiaramente raggiungere un livello di informazione qualsiasi partendo da un livello di
conoscenza qualsiasi, attraversando praticamente tutti i database. (sequenza nucleotidica 
struttura proteica 3D  patologia associata…).
>Utilizzo di Entrez
La schermata principale di Entrez-NCBI è simile ad un altro qualunque database. L’utilizzo anche,
dopo qualche tentativo, risulta intuitivo: basta inserire nella casella di ricerca la parola chiave, la
sequenza (aminoacidica o nucleotidica), il nome della proteina o del gene, selezionare un adeguato
campo di ricerca di informazione, e si ottengono i primi interessanti e sicuramente utili risultati.
I links presenti sono per: l’utilissimo BLAST (programma di confronto di sequenze e conversione
cDNA-proteina); il database OMIM (Online Mendelian Inheritance in Man); le ricerche in
letteratura tramite PubMed; la GeneBank della NCBI.
Tabella 1
Database Proteine
Database
nr
Description
All non-redundant GenBank CDS translations+PDB+SwissProt+PIR+PRF
All new or revised GenBank CDS translation+PDB+SwissProt+PIR released in
month
the last 30 days.
The last major release of the SWISS-PROT protein sequence database (no
swissprot
updates). These are uploaded to our system when they are received from EMBL.
Protein sequences derived from the Patent division of GenBank.
patents
Yeast (Saccharomyces cerevisiae) protein sequences. This database is not to be
confused with a listing of all Yeast protein sequences. It is a database of the
yeast
protein translations of the Yeast complete genome.
E. coli (Escherichia coli) genomic CDS translations.
E. coli
Sequences derived from the 3-dimensional structure Brookhaven Protein Data
pdb
Bank.
Kabat's database of sequences of immunological interest. For more information
kabat
http://immuno.bme.nwu.edu/
[kabatpro]
Translations of select Alu repeats from REPBASE, suitable for masking Alu
repeats from query sequences. It is available at
alu
ftp://ncbi.nlm.nih.gov/pub/jmc/alu. See "Alu alert" by Claverie and
Makalowski, Nature vol. 371, page 752 (1994).
9
Database Nucleotidi
Database
Description
All non-redundant GenBank+EMBL+DDBJ+PDB sequences (but no EST,
nr
STS, GSS, or HTGS sequences).
All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the
month
last 30 days.
Non-redundant database of GenBank+EMBL+DDBJ EST Divisions.
dbest
Non-redundant database of GenBank+EMBL+DDBJ STS Divisions.
dbsts
The non-redundant Database of GenBank+EMBL+DDBJ EST Divisions
mouse ests
limited to the organism mouse.
The Non-redundant Database of GenBank+EMBL+DDBJ EST Divisions
human ests
limited to the organism human.
The non-redundant database of GenBank+EMBL+DDBJ EST Divisions all
other ests
organisms except mouse and human.
Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences. Not a
collection of all Yeast nucelotides sequences, but the sequence fragments
yeast
from the Yeast complete genome.
E. coli (Escherichia coli) genomic nucleotide sequences.
E. coli
Sequences derived from the 3-dimensional structure of proteins.
pdb
Kabat's database of sequences of immunological interest. For more
kabat
[kabatnuc] information http://immuno.bme.nwu.edu/
Nucleotide sequences derived from the Patent division of GenBank.
patents
Vector subset of GenBank(R), NCBI, (ftp://ncbi.nlm.nih.gov/pub/blast/db/
vector
directory).
Database of mitochondrial sequences (Rel. 1.0, July 1995).
mito
Select Alu repeats from REPBASE, suitable for masking Alu repeats from
query sequences. It is available at ftp://ncbi.nlm.nih.gov/pub/jmc/alu. See
alu
"Alu alert" by Claverie and Makalowski, Nature vol. 371, page 752 (1994).
Eukaryotic Promotor Database ISREC in Epalinges s/Lausanne
epd
(Switzerland).
Genome Survey Sequence, includes single-pass genomic data, exon-trapped
gss
sequences, and Alu PCR sequences.
High Throughput Genomic Sequences.
htgs
AUTHORS
Adriani Marsilio
Amendola Elena
Busino Luca
Fasano Carlo
Nitsch Roberto
All the authors contribuited equally to the work.
E-mail us at
[email protected]