1 PROGETTO DATABASES INTRODUZIONE L’enorme volume e complessità dei dati biologici oggi disponibili, la loro rapida espansione, la necessità di renderli facilmente fruibili alla comunità scientifica ha determinato lo sviluppo di un crescente numero di database scientifici. Lo scopo che ci siamo prefissi di raggiungere nei prossimi tre mesi, la creazione di un database mitocondriale, ci ha posto nella necessità di studiare il funzionamento di molti di essi ed i diversi tipi di database esistenti. Riportiamo qui di seguito una serie d’informazioni di carattere generale che a nostro avviso possono essere utili per meglio comprendere ciò che verrà riportato in seguito . Che cosa è un database? Un database è una raccolta d’informazioni o di dati a cui è associato un DBMS (Database Management System) ovvero un’applicazione od un programma che permette di gestire queste informazioni consentendone la memorizzazione di nuove e di eseguire operazioni sui dati in esso contenuti. - Vantaggi dell’utilizzo di un database : - Il ritrovamento dei dati è veloce ; I dati occupano meno spazio ; I dati possono essere condivisi da più utenti ; Tipi di database: - Gerarchico : I dati sono organizzati in record connessi tra loro secondo strutture ad albero. Ogni record che non sia la radice dell’albero, deve avere uno ed un solo padre .Possono quindi esserci due record su alberi diversi , che rappresentano la stessa informazione e questo comporta problemi di ridondanza nel database. Inoltre la struttura di questo tipo di database per l’aggiornamento di un dato richiede l’accesso e la modifica di diversi record. -Reticolare: I record sono collegati fra di loro con strutture ad anello (puntatori) che permettono all’utente di accedere ai dati più facilmente, senza i vincoli rigidi della struttura gerarchica. Ogni nodo può essere il punto di partenza per raggiungere un dato campo. Un record può avere uno o più padri ciò permette di evitare i problemi di ridondanza. Per modificare, anche parzialmente, le strutture bisogna chiudere il DB e ricrearlo. -Relazionale: I dati sono organizzati in tabelle che rappresentano sia le entità, che le relazioni fra di esse. Non esiste alcun meccanismo esplicito per rappresentare i legami logici tra i diversi tipi di record che non sia la relazione. La modifica di un dato o di un legame comporta la manipolazione di un solo record di una tabella, ciò permette di modificare le strutture senza modificare i programmi, anche a DB aperto, con gli utenti collegati. 2 Database d’interesse biomedico Possono essere classificate nelle seguenti categorie principali : - Database bibliografici ; Database per la biologia molecolare : - Database clinici ; Database strutturali ; >Database di sequenza ; >Database genomici ; I database genomici e di sequenza, quelli di maggior interesse per quanto ci riguarda, possono essere ulteriormente divisi in due gruppi: - Generalizzati : - Specializzati : Raccolgono informazioni su particolari classi di molecole senza nessun tipo di filtro funzionale o filogenetico; Organizzate intorno a specifici organismi modello o funzioni biologiche particolari; Riportiamo qui di seguito i principali database studiati, la loro localizzazione fisica e gli indirizzi Internet, in seguito verranno approfondite più in dettaglio le caratteristiche di ognuno di essi. a) Database per sequenze nucleotidiche: -EMBL (European Molecular Biology Laboratory) ubicata presso l’EBI (European Bioinformatics Laboratory) a Cambridge. [www.ebi.ac.uk] -GenBank gestita dal NCBI (National Center for Biotechology Informations) ed ubicata presso la National Library of Medicine di Bethesda; [www.ncbi.nim.gov] -DDBJ (DNA Database of Japan) gestita dal National Istitute of Genetics di Mistrima; [www.ddbj.nig.ac.jp] b) Database per sequenze proteiche: -SwissProt curata da EMBL e dallo Swiss Istitute of Bioinformatics; [www.ebi.ac.uk./swissprot/] -PIR (Protein Information Risource) gestita dalla National Biomedical Research Foundation affiliata alla Georgetown University; [www-nbrf.georgetown.edu/pirwww] c) Database specializzati (mitocondriale): -MITOP; database che fornisce informazioni riguardanti l’aspetto funzionale e patologico dei mitocondri e delle proteine nucleari. [www. Mips.biochem.mpg.de/proj/medgen/mitop/] -MitBASE; coordinato da E. Sacconi del nodo EMBNet di Bari, contiene 12989 sequenze di DNA mitocondriale (febbraio 1999); [www3.ebi.ac.uk/Research/mitbase/mitbase.pl] 3 GeneBank e l'analisi di sequenza Esistono numerosi database di sequenza, sia per DNA che per proteine. I più' famosi ed importanti sono: GeneBank, EMBL (European Molecular Biology Laboratory) e DDBJ (Database of Japan).Queste tre banche dati hanno il compito di organizzare e distribuire i dati di sequenza alla comunità scientifica. La stretta collaborazione ed il costante aggiornamento le ha rese praticamente equivalenti, ciò ha portato ad una crescita quasi esponenziale del numero di sequenze depositate (Fig 1).In questa sezione prenderemo in esame solo GeneBank, con particolare attenzione ai software disponibili per l'analisi di sequenza. Fig 1 GeneBank è localizzata presso la NCBI (National Center for Biotechnology Information) a Bethesda (Maryland, USA). GeneBank fornisce servizi di: a) Homology search, b) Database query, c) Sistemi di " retrival of information" (vedi Enterez). Attualmente GeneBank è strutturata secondo una logica funzionale (abbandonando l’organizzazione tassonomica); ovvero le sequenze depositate sono organizzate in: EST STS GSS HTG PAT CON expressed sequences tags sequences tagged sites genome survey sequences high throughput genomic sequences patent sequences virtual contigs of segmented Le sequenze depositate vengono prima considerate "unfinished", e solo in seguito ad ulteriori accertamenti sono definite "finished" e rese disponibili per la ricerca di omologia con BLAST. BLAST (basic local alignment search tool) è un software, disponibile presso la NCBI (….e non solo), che utilizza un algoritmo per allineare sequenze che mostrano regioni di similarità. BLAST comprende: 1) Gapped BLAST (noto anche come BLAST 2.0) 2) PSI-BLAST 3) PHI-BLAST Gapped BLAST permette ai gaps (inserzioni o delezioni)di essere introdotti nell'allineamento di sequenze simili. PSI-BLAST (Position specific iterated BLAST) allinea prima una query tramite un gappedBLAST, quindi l'informazione ottenuta viene utilizzata per la creazione di una matrice di 4 posizionamento che spiazza la query nel successivo search. PSI-BLAST è usato più' frequentemente per individuare omologie di sequenze (solo allineamenti proteici) PHI-BLAST (Pattern Hit initiated BLAST) cerca qualunque sequenza, in un database proteico, che abbia un "input pattern" e significativa omologia alla sequenza query in vicinanza di tale pattern. Il modo più semplice per accedere a BLAST è attraverso il Web ( http://www.ncbi.nlm.nih.gov). Esistono cinque implementazioni di BLAST, tre (BLASTN, BLASTX, TBLASTX) disegnate per i nucleotidi e due (BLASTP, TBLASTN) per le proteine. Le prime sono usate per l'analisi di sequenze genomiche e "single-pass" cDNA data, le altre hanno una maggiore rilevanza nella identificazione di prodotti genici. blastp: allinea sequenze proteiche contro database proteici blastn: allinea sequenze nucleotidiche contro database nucleotidici blastx: allinea sequenze nucleotidiche tradotte nelle sei ORF contro un database proteico tblastx: allinea sequenze nucleotidiche tradotte nelle sei ORF contro un database nucleotidico tradotto nei sei frame di lettura tblastn: allinea sequenze proteiche contro database nucleotidici tradotti nei sei ORF - Utilizzo di BLAST L'operazione da compiere è semplice; una volta selezionato BLAST 2.0 (o PSI, PHI) dalla NCBI Home Page clicca come nella figura……(sceglierai in questo modo il programma: blastn, blastx, blastp…) Selezionato il programma è quindi necessario scegliere il database di riferimento, la tabella 1 mostra un ampia gamma di database. Si inserisce quindi la " query ", e si lancia il programma 5 E' relativamente semplice utilizzare BLAST, la maggiore difficoltà deriva dall'interpretazione dei dati a causa di una notevole complessità derivata proprio dall'aumento di informazioni di sequenze proteiche e nucleotidiche. Database proteico I database proteici, creati a metà anni ’80, forniscono notizie relative alle proteine o a sequenze aminoacidiche riportate in letteratura o provenienti da altre fonti. Il loro compito principale è quello di raccogliere e rendere accessibili in forma organica tutte le conoscenze relative alle proteine. Per ottenere questo risultato le principali banche dati vengono create seguendo tre principali criteri: a) Informazioni Nelle banche dati si cerca di inserire il maggior numero possibile di informazioni. A tal fine si utilizzano come fonti sia pubblicazioni che riportano nuovi dati relativi alla sequenza, sia articoli che periodicamente aggiornano le classificazioni e le peculiarità di famiglie o gruppi di proteine, sia l’appoggio e la consulenza di esperti esterni all’organizzazione che gestisce la banca dati. Sotto questo aspetto le due maggiori banche dati proteiche (PIR e SWISS-PROT) attuano scelte diverse. La prima preferisce l’archiviazione anche di sequenze aminoacidiche prive o povere di informazioni, SWISS-PROT invece contiene solo elementi di cui si può elaborare un insieme di informazioni il più completo possibile. b) Minima ridondanza Molte banche dati di sequenze contengono, per una data sequenza proteica, diversi elementi che corrispondono a differenti dati riportati in letteratura. Si cerca così di fondere il più possibile tutti questi dati che fanno riferimento allo stesso elemento in modo tale da minimizzare la ridondanza del database. Anche in questo settore le suddette banche dati differiscono, in quanto la scelta di SWISS-PROT di prestare molta attenzione solo alle sequenze perfettamente conosciute determina una ridondanza, seppur minima nelle informazioni in essa contenute. Situazione opposta quella di PIR che ha la prerogativa di essere non ridondante, anche se si possono incontrare sequenze prive o quasi di annotazioni. c) Integrazione con altre banche dati Fondamentale per gli utenti di banche dati biomolecolari aver a disposizione una elevata integrazione fra i tre tipi di database relativi a sequenze (sequenze nucleotidiche, sequenze proteiche, strutture terziarie di proteine), così come con database specializzati (per esempio mitocondriale). >Protocollo generale di ricerca Le ricerche che si possono effettuare utilizzando autorevoli database proteici sono di tipo “confrontazionale”, ciò significa che sottoponendo una data sequenza aminoacidica ad una ricerca con questo tipo di banche dati, si ottiene una lista di proteine o polipeptidi che assomigliano al soggetto della ricerca. Quindi la banca dati non fa altro che confrontare la sequenza oggetto della ricerca con tutte quelle presenti nel suo archivio. Nel risultato così noi potremmo ottenere sia una sequenza aminoacidica perfettamente coincidente con la nostra (se esistente) che una serie di proteine che ci assomigliano con gradi di similitudine diversi. Il passo successivo consiste nell’analizzare tutte le informazioni disponibili in banca dati di ogni singola proteina o di quelle che più si avvicinano alla nostra. Le informazioni che si possono ottenere sono: 6 Informazioni generali sulla sequenza (Nome, numero di accesso, entrata nel database e sue successive modifiche); Le referenze bibliografiche; I dati tassonomici (descrizione della provenienza biologica della proteina); La funzione della proteina; La o le modificazioni post-traduzionali (per esempio carboidrati, fosforilazioni, acetilazioni, etc); Descrizione di siti e domini funzionali, Struttura secondaria; Struttura quaternaria, Similarità ad altre proteine; Patologie associate a deficienze della proteina; Conflitti di sequenza, varianti, etc. >Principali database studiati I principali database proteici presenti su Internet sono: PIR International PSD, SWISS-PROT e PDB. I primi due sono banche dati di sequenze proteiche mentre PDB è un database di strutture terziarie di proteine. Oltre al software principale di ricerca, simile per PIR e SWISS-PROT anche se strutturato e pensato in maniera differente, questi due database forniscono una serie di programmi applicativi per effettuare ricerche e analisi circa i vari aspetti della struttura proteica (per esempio allineamento di sequenze proteiche, analisi della struttura tridimensionale, modificazione dei residui aminoacidici, analisi dei gruppi di famiglie, superfamiglie e domini di omologia, archivi delle referenze bibliografiche). In fine mediante collegamenti con numeri di accesso specifici per ogni singola sequenza proteica, è possibile risalire alla sequenza nucleotidica corrispondente utilizzando database nucleotidici (GenBank, EMBJ, DDBJ, GDB). Database mitocondriale Un database mitocondriale raccoglie generalmente informazioni su geni mitocondriali e su geni nucleari a funzione mitocondriale; questi database appartengono ad un sottogruppo di database più complessi e articolati, nonché più forniti, nei quali sono raccolte tutte le informazioni di qualsiasi gene e proteina presenti in letteratura Il database mitocondriale tipo è organizzato in modo da contenere una lista di geni a funzione mitocondriale. Visivamente è presente un elenco di cromosomi in cui sono contenuti i geni nucleari, mappati, a funzione mitocondriale più un link per l’intero genoma del mitocondrio. L’impostazione di questo database è di tipo consultativo: lo si può quindi utilizzare solo ed unicamente per accedere ad informazioni generali riguardanti geni specifici e ben conosciuti dall’operatore. >Protocollo generale di ricerca Nell’unico caso in cui non si volesse effettuare lo studio dei geni presenti sui singoli cromosomi o sul genoma mitocondriale, si potrebbe seguire una minima ricerca per parole chiave e codici di identificazione propri dei geni. A questo punto il database oltre alle sequenze aminoacidiche e proteiche e ai codici di accesso per altri database di maggiore rilievo fornirà solo inutili informazioni generali. Si notano quindi i limiti funzionali di tali database i quali raccolgono scarse informazioni senza fare in modo da poterle utilizzare in maniera “intelligente”, vale a dire con un metodo confrontativo. 7 I possibili miglioramenti del progetto potrebbero essere apportati al sistema di gestione e di utilizzazione dei dati; ossia cercando di trasformare il metodo consultativo in confrontativo. >Utilizzo dei principali database studiati MITOP, MITBASE, MITODAP e MITOMAP sono i principali database mitocondriali presenti in Internet. Il loro funzionamento è pressappoco identico, così come lo sono le loro scarse prestazioni. A parte piccole differenze grafiche sono strutturalmente organizzati in modo similare. Una nota per MITODAT nella cui casella di ricerca si può inserire un’intera frase chiave oltre a singoli termini di abbreviazione e codici. Che cos’è ENTREZ? NCBI, EBI, e DDBJ sono i più completi database esistenti. Ogni giorno acquisiscono dalla letteratura nuove informazioni su geni e proteine. Nonostante così grandi questi tre database sono nati e si sono evoluti in maniera totalmente indipendente; così come tutti gli altri database minori. Il livello di informazione contenuto è così completo ed elevato da essere praticamente lo stesso in tutti e tre i database. Negli anni ‘90 la NCBI ha così sviluppato un sistema di comunicazione per i tre database (gestito dal NCBI stesso) chiamato “Entrez”; questo sistema rappresenta molto più di un semplice mezzo di comunicazione, esso stesso è mezzo di scambio e confronto dati legato oramai a qualsiasi database esistente. ENTREZ è un potente sistema “integrated information retrieval” nel campo della Biologia molecolare. Un utente può cercare tutte le informazioni rilevanti (per una data query) all interno di un database o muoversi verso informazioni correlate senza dover iniziare una nuova ricerca. La facilità con cui un utente può “saltare” tra i database permette di acquisire una quantità di informazioni notevole. Le interconnessioni sono ottenute mediante una procedura chiamata “neighboring”. Il “neighboring” permette all utente di domandare: quale paper (o sequenza) è simile ad un dato paper? All interno di un database di sequenza, i neighbors sono determinati paragonando una sequenza con tutte le altre usando BLAST. All interno di un database bibliografico (MEDLINE) i neighbors sono determinati confrontando per parole chiave. Le connessioni trovate attraverso la precedente procedura sono chiamate “hard links”. Per esempio un paper su BRCA1 trovato in MEDLINE può contenere la sequenza nucleotidica per BCRA1. Se è così un hard link è stabilito tra la MEDLINE entry e la correlata entry nel database di nucleotidi. Tutti gli hard link sono reciproci, ciò significa che gli utenti possono muoversi tra i database in ogni direzione. >Potenzialità del sistema di ENTREZ I database esistenti in Internet sono ormai di tutti i tipi, per qualsiasi gruppo e sottogruppo di geni e proteine, con qualsiasi metodo di ricerca e classificazione. Le potenzialità di un sistema come Entrez sono praticamente infinite; basti pensare a quali tipi (principali) di database esistono: Database genomici Database proteici (classificati per sequenza e struttura indipendentemente) Database a cDNA Database legati a particolari patologie Altri sottogruppi come i mitocondriali … Se accoppiamo a questi dei programmi di ricerca, di confronto di sequenze (Blast-N) e di confronto intrecciato geni-proteine (Blast-X), otteniamo il maggior risultato con il minimo sforzo. 8 Si può chiaramente raggiungere un livello di informazione qualsiasi partendo da un livello di conoscenza qualsiasi, attraversando praticamente tutti i database. (sequenza nucleotidica struttura proteica 3D patologia associata…). >Utilizzo di Entrez La schermata principale di Entrez-NCBI è simile ad un altro qualunque database. L’utilizzo anche, dopo qualche tentativo, risulta intuitivo: basta inserire nella casella di ricerca la parola chiave, la sequenza (aminoacidica o nucleotidica), il nome della proteina o del gene, selezionare un adeguato campo di ricerca di informazione, e si ottengono i primi interessanti e sicuramente utili risultati. I links presenti sono per: l’utilissimo BLAST (programma di confronto di sequenze e conversione cDNA-proteina); il database OMIM (Online Mendelian Inheritance in Man); le ricerche in letteratura tramite PubMed; la GeneBank della NCBI. Tabella 1 Database Proteine Database nr Description All non-redundant GenBank CDS translations+PDB+SwissProt+PIR+PRF All new or revised GenBank CDS translation+PDB+SwissProt+PIR released in month the last 30 days. The last major release of the SWISS-PROT protein sequence database (no swissprot updates). These are uploaded to our system when they are received from EMBL. Protein sequences derived from the Patent division of GenBank. patents Yeast (Saccharomyces cerevisiae) protein sequences. This database is not to be confused with a listing of all Yeast protein sequences. It is a database of the yeast protein translations of the Yeast complete genome. E. coli (Escherichia coli) genomic CDS translations. E. coli Sequences derived from the 3-dimensional structure Brookhaven Protein Data pdb Bank. Kabat's database of sequences of immunological interest. For more information kabat http://immuno.bme.nwu.edu/ [kabatpro] Translations of select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. It is available at alu ftp://ncbi.nlm.nih.gov/pub/jmc/alu. See "Alu alert" by Claverie and Makalowski, Nature vol. 371, page 752 (1994). 9 Database Nucleotidi Database Description All non-redundant GenBank+EMBL+DDBJ+PDB sequences (but no EST, nr STS, GSS, or HTGS sequences). All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the month last 30 days. Non-redundant database of GenBank+EMBL+DDBJ EST Divisions. dbest Non-redundant database of GenBank+EMBL+DDBJ STS Divisions. dbsts The non-redundant Database of GenBank+EMBL+DDBJ EST Divisions mouse ests limited to the organism mouse. The Non-redundant Database of GenBank+EMBL+DDBJ EST Divisions human ests limited to the organism human. The non-redundant database of GenBank+EMBL+DDBJ EST Divisions all other ests organisms except mouse and human. Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences. Not a collection of all Yeast nucelotides sequences, but the sequence fragments yeast from the Yeast complete genome. E. coli (Escherichia coli) genomic nucleotide sequences. E. coli Sequences derived from the 3-dimensional structure of proteins. pdb Kabat's database of sequences of immunological interest. For more kabat [kabatnuc] information http://immuno.bme.nwu.edu/ Nucleotide sequences derived from the Patent division of GenBank. patents Vector subset of GenBank(R), NCBI, (ftp://ncbi.nlm.nih.gov/pub/blast/db/ vector directory). Database of mitochondrial sequences (Rel. 1.0, July 1995). mito Select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. It is available at ftp://ncbi.nlm.nih.gov/pub/jmc/alu. See alu "Alu alert" by Claverie and Makalowski, Nature vol. 371, page 752 (1994). Eukaryotic Promotor Database ISREC in Epalinges s/Lausanne epd (Switzerland). Genome Survey Sequence, includes single-pass genomic data, exon-trapped gss sequences, and Alu PCR sequences. High Throughput Genomic Sequences. htgs AUTHORS Adriani Marsilio Amendola Elena Busino Luca Fasano Carlo Nitsch Roberto All the authors contribuited equally to the work. E-mail us at [email protected]