Bioinformatica e
Data Base
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica

La bioinformatica include:



Un database biologico è un insieme di informazioni e dati strutturati e
organizzati in modo da essere consultabili e utilizzabili nel miglior
modo possibile, che provengono da




Database Biologici che raccolgono dati sperimentali prodotti nei laboratori
Software per la navigazione nei Data Base
studi in laboratori di ricerca (analisi sia in vitro che in vivo)
centri di bioinformatica (analisi in silico)
da pubblicazioni scientifiche
I database biologici oggi esistenti sono un migliaio, e viene catalogato
praticamente di tutto, dal genoma umano alle malattie, i geni, Rna,
polimorfismi ect...
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica

Esistono tre grandi laboratori internazionali di bioinformatica





Uno europeo EMBL-EBI (http://www.ebi.ac.uk/embl/ )
Uno Americano NCBI (http://www.ncbi.nlm.nih.gov/genbank/)
Uno Giapponese GenomeNet (http://www.genome.jp/)
Molti database biologici sono state sviluppati da questi tre grandi
laboratori e contengono milioni di voci.
In rete esistono database biologici di due tipi


I database primari che raccolgono contengono le informazioni riguardanti il Dna
ossia le sequenze nucleotidiche (DNA, RNA) o proteiche e rendono disponibili
informazioni per identificare le specie da cui hanno origine le sequenze e le loro
funzioni.
I database derivati che raccolgono informazioni più specifiche sulla tassonomia,
le funzioni, le pubblicazioni scientifiche, le malattie correlate alle mutazioni, delle
sequenze nucleotidiche
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica



I database primari contengono dei veri risultati sperimentali, ma
l’annotazione non è tipicamente curata, e le sequenze possono essere
di qualunque tipo (DNA, mRNa, CDS, EST …)
Problema sta nel formato dei dati che sono ideati per essere
manipolati solo dai computers.
Un esempio pratico è il formato flat file FASTA
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica
Un secondo esempio pratico è il formato flat file GBFF
Un file GBFF contiene l’informazione su di una sequenza genomica,
divisa in tre parti





Header
features
sequence.
Il file finisce con il simbolo //.
La prima riga header del file GBFF è la riga del Locus.



La seconda riga header del file GBFF è la definition line.
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica



La terza riga header del file GBFF è l’accession number, che è la
chiave primaria per identificare una certa sequenza.
Se la sequenza cambia (es: cambia un nucleotide) l’accesion number
è invariato ma il numero di versione (quarta riga del file GBFF) viene
incrementato di 1, mentre il gi (quarta riga del file GBFF) cambia del
tutto.
La riga delle keywords permette di aggiungere annotazioni manuali
alla sequenza considerata (!!! qui il vocabolario non è uniforme !!!).
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica


Seguono una parte di source in cui sono riportate informazioni
sull’organismo da cui proviene la sequenza ed eventualmente la sua
tassonomia.
Poi una o più references, ed infine un comment (opzionale)..
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica

La parte centrale del file GBFF è la parte della features, dove è scritta
l’informazione biologica relativa alla sequenza. Ci sono diversi tipi di
features:


La feature source specifica quale è
l’esatta provenienza della sequenza e
il tipo della sequenza che si sta
considerando.
La feature CDS contiene l’informazione
su come ottenere la sequenza di
amminoacidi corrispondente all’mRNA
considerato e la corrispondente
traduzione. Inoltre in questo campo
sono inclusi ids della traduzione,un
accession number e un identificativo gi
.
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica

Infine la sequenza:
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica

I tre principali database primari del DNA sono collegati ai tre laboratori
citati prima.




EMBL datalibrary (http://www.ebi.ac.uk/embl/)
GenBank. (http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide)
DDBJ (http://www.ddbj.nig.ac.jp/ )
Fra queste banche dati c’è un continuo scambio di dati, per cui tutte le
informazioni che potete trovare su una, le trovate anche sull’altra.
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica
Tra i principali Database Biologic primari delle sequenze proteiche sono

Swiss-prot (http://web.expasy.org/docs/swiss-prot_guideline.html)
curata manualmente per cui poco ridondante e ricca di informazioni

TrEMBL nasce grazie alla traduzione automatica dei geni presenti in
EMBL datalibrary, per cui alcune delle proteine predette possono non
esistere nella realtà.

PIR http://pir.georgetown.edu/
Nel
2002
nasce
un
database
(http://www.ebi.ac.uk/uniprot/)
Master "Bio Info"
Reti e Basi di Dati Lezione 7
integrato
UniProt.
I Data Base e la Bioinformatica
I database Biologici derivati raggruppano solo dati relativi a specifici
argomenti, ad esempio:





Ensembl (http://www.ensembl.org) nato dalla collaborazione dell’ EMBL European Bioinformatics Institute (EBI) e il Wellcome Trust Sanger Institute
(WTSI) database del genoma dei vertebrati e di altre specie eucariotica,
OMIM,(Online
Mendelian
Inheritance
in
Man)
(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM) raccolta dei geni
umani e delle malattie ad essi correlate, chiunque lavori nel campo delle
malattie genetiche e della biomedicina vi si ritrova costantemente a contatto
GENEATLAS: http://www.genatlas.org/ come OMIM, contiene informazioni utili a
chi opera nel campo della biomedicina e delle malattie genetiche.
PubMed,(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?CMD=search&DB=pub
med) raggiungibile dal sistema dell’ NCBI Entrez è stato sviluppato dal National
Center for Biotechnology Information (NCBI) e dal National Library of Medicine
(NLM), permette l’accesso a informazioni bibliografiche scientifiche e mediche.
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica



TAIR (The Arabidopsis Information Resource): http://www.arabidopsis.org/
Arabidopsis thaliana rappresenta la pianta modello nella sperimentazione
genomica, biomolecolare, evoluzionistica ed agrobiotecnologica, qui sono
disponibili ampie collezioni di mutanti ed il suo è stato il primo genoma vegetale
sequenziato. Il sito contiene un database annotato con sequenze genomiche,
trascritti e sequenze proteiche di Arabidopsis, nonchè link a risorse correlate
PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum)
raccolta dii
immagini che permette di avere una anteprima del contenuto delle srutture in
3D delle proteine che sono raccolte da Protein Data Bank (PDB).
SMART
Simple Modular Architecture Research Tool (http://smart.emblheidelberg.de/) basato sulla natura modulare delle proteine, ad esempio
contengono moduli funzionali (i domini) che sono rintracciabili perchè si
conservano evolutivamente. SMART permette di identificare i domini proteici e
di analizzarne la struttura, si sono classificati più di 500 famiglie di domini
coinvolti in fattori di trascrizione, proteine associate alla cromatina o
extracellulari, e tutti i domini sono annotati rispettando la distribuzione
filogenetica, la classe funzionale, la struttura terziaria e i residui funzionali più
importanti
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica
Sistemi di Retrieval
 Esistono dei sistemi integrati che permettono di interrogare i data base
biologici attraverso il web
 I tre sistemi principali sono




Entrez http://www.ncbi.nlm.nih.gov/sites/gquery associato a GenBank.
SRS(http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+query+-libList+EMBL
associato a EMBL .
DBGET http://www.genome.jp/dbget/ associato a DDBJ .
I sistemi integrati forniscono una interfaccia WEB omogenea
Master "Bio Info"
Reti e Basi di Dati Lezione 7
I Data Base e la Bioinformatica
Gene Ontology http://www.geneontology.org/
 La ricerca di tutte le informazioni disponibili su ciascuna piccola area di
ricerca è ostacolata dalla variazioni nella terminologia utilizzata
 Gene Ontology(GO) è uno sforzo collaborativo per affrontare la
necessità di descrizioni coerenti di prodotti genici in database diversi.
GO ha sviluppato varie ontologie.




Component Ontology: Rules governing content and stylistic aspects of GO terms
in the cellular component ontology.
Molecular Function Ontology: Rules governing content and stylistic aspects of GO
terms, standard definitions and term relationships in the molecular function
ontology.
Biological Process Ontology: Rules governing content and stylistic aspects of GO
terms, standard definitions and term relationships in the biological process
ontology.
Species-Specific Terms: How the Gene Ontology deals with words or phrases
where the meaning varies depending on the organism.
Master "Bio Info"
Reti e Basi di Dati Lezione 7