basi di dati per la biologia

BASI DI DATI BIOLOGICHE - 3
Principali Basi di Dati Biologiche
Alcune delle principali Basi di Dati Biologiche:
Di sequenze:
NCBI.
Di proteine:
Protein Data Bank.
Di annotazioni:
Ensembl.
Di analisi:
microarray.
Protein Data Bank (PDB)
Archivio globale di dati strutturali relativi a
macromolecole biologiche.
Istituita nel 1971.
Dal 1980 esplosione del numero di strutture grazie ai
progressi nell’ambito delle tecniche utilizzate
(principalmente NMR).
Dai primi anni 90 deposito ed accesso ai dati via www.
PDB – Il deposito dei dati (1)
Il deposito dei dati avviene attraverso ADIT (AutoDep
Input Tool); i dati devono rispettare un dizionario
(mmCIF) di 1700 termini.
Appena ricevuti, i dati entrano a far parte del “core
database”.
Successivamente, vengono controllati attraverso un
certo insieme di interazioni con i submitter.
PDB – Il deposito dei dati (2)
Vengono registrate:
le coordinate della struttura;
informazioni generali sulla struttura (pubblicazioni,
organismi, ...);
informazioni specifiche (dati della NMR, processo di
acquisizione del dato, ...).
Interazione con PDB
PDB – La base di dati (1)
Le basi di ati che costituiscono PDB sono:
Il “core relational database” (Sybase), che contiene i
dati sperimentali primari e i dati relativi alle coordinate.
I dati finali (curati) presenti come file di testo (ASCII).
La “base di dati” POM (Property Object Model), che
comprende oggetti indicizzati che descrivono proprietà
native (coordinate atomiche) o derivate (strutture
secondarie calcolate).
PDB – La base di dati (2)
Il “Biological Macromolecule Crystallization Database”
(Sybase), che contiene informazioni ricavate dalla
letteratura.
La base di dati LDAP usata per indicizzare i campi
testuali del PDB in formato strutturato.
PDB – La base di dati (3)
PDB - Un esempio
http://www.rcsb.org/pdb/
Cercare cyclin.
Scaricare il risultato.
Ensembl - Caratteristiche generali
Scopo del progetto Ensembl è mettere assieme il
mosaico dei segmenti di DNA creati dal
sequenziamento del genoma umano.
Utilizza sequenze ricavate dalle basi di dati pubbliche
per alimentare una pipeline di analisi.
Determina in maniera semi-automatica geni e
caratteristiche rilevanti delle sequenze
Presenta i risultati attraverso il www.
Ensembl - L’architettura
Ensembl - Contenuto
Geni
Noti da altri esperimenti;
Predetti da Ensembl.
Altre caratteristiche:
SNPs;
Repeats;
Homologies.
Ensembl - Identificatori
In progetti di questo tipo è essenziale definire un
vocabolario di nomi comuni affinché un dato elemento
possa essere identificato univocamente (i.e., nomi dei
geni).
E’, inoltre, di fondamentale importanza disporre di
identificatori stabili per le sequenze (pur riconoscendo
la necessità della gestione delle versioni).
Gli identificatori specifici di Ensembl sono del tipo:
ENSG0000XXXX , ENST00000XXXX, ...
Ensembl – La base di dati (1)
Le singole basi di dati vengono costruite in più passi
Creazione dello schema;
Caricamento dei dati di sequenza (DNA, clone, ...);
Costruzione di geni;
Analisi dei geni.
Ensembl – La base di dati (2)
Viene utilizzato MySQL. Le basi di dati possono essere
scaricate dal sito di Ensembl.
Ogni organismo ha più basi di dati:
Core;
Desease;
...
Il Core mantiene le informazioni d'interesse.
Ensembl -Le tabelle della base di dati
Dividiamo le tabelle in 3 gruppi:
tabelle fondamentali;
caratteristiche ed analisi;
ID mapping.
Le tabelle fondamentali - 1
assembly: Descrive come i contig si uniscono per
creare la sequenza del cromosoma. Mantiene un
mapping tra le locazioni sul cromosoma e locazioni sui
contig.
assembly_exception: Fornisce informazioni aggiuntive
su una data sezione della precedente tabella.
attrib_type: Mantiene gli attributi riconducibili ad una
sequenza.
Tabelle fondamentali - 2
dna: Contiene le sequenze di DNA; è in rapporto 1:1
con i Contig.
exon: Mantiene informazioni sugli esoni, è associato ai
trascritti mediante una chiave esterna.
exon_stable_id: Identificatori stabili.
exon_transcript: Mantiene la relazione tra trascritti ed
esoni.
Tabelle fondamentali - 3
gene: Permette di creare una relazione tra geni e
trascritti.
prediction_exon, prediction transcript: Informazione su
esoni e trascritti predetti.
seq_region: Informazioni sulle regioni delle sequenze;
fa riferimento al DNA e al sistema di coordinate.
seq_region_attrib: Informazioni sugli attributi di una
data regione; mantiene riferimenti a attib_type.
Tabelle fondamentali - 4
supporting_feature: giustifica il processo di predizione
con collegamenti ad allineamenti della sequenza con
DNA o proteine.
transcripts: Informazioni sui trascritti.
translation: Descrive quale parte degli esoni viene
usate nella traduzione.
Caratteristiche ed Analisi - 1
analysis: Descrive programmi e basi di dati utilizzati per
creare una feature su un dato pezzo di una sequenza.
dna_align_feature: Descrive un allineamento rispetto
ad una sequenza ottenuto attraverso un BLAST.
map: Registra nomi di mappe per le quali sono
disponibili informazioni sui marker.
marker: Le informazioni sul Marker.
Caratteristiche ed Analisi - 2
marker_feature: Descrive le posizioni dei marker.
marker_map_location: Mette in Relazione i marker e la
mappa.
misc_attrib: Lega attributi a feature.
misc_feature: Mette in relazione l'attributo e la
sequenza.
misc_set: Definisce insiemi di feature.
Caratteristiche ed Analisi - 3
prediction_transcript: Trascritti predetti (genscan,
SNAP).
protein_align_feature: Come per gli allineamenti di
DNA.
protein_feature: Descrive le caratteristiche delle
traduzioni
ID mapping
gene_archive: Mantiene l'elenco dei geni modificati o
cancellati tra una release e l'altra.
mapping_session: Mappa gli stable ID tra le varie basi
di dati.
peptide_archive: Contiene i peptidi per traduzioni
cancellate o modificate.
stable_id_event: Stabilisce cosa sia accaduto ad uno
stable ID (cancellazioni, creazioni, relazioni tra stable
ID).
Altre Basi di Dati Biologiche
TRANSFOG: una base di dati “limite”, in cui tutto è
basato sul programma di ricerca dei fattori
trascrizionali.
BASE: una base di dati per la gestione di analisi di
MicroArray (una descrizione completa dell'esperimento
dall'estrazione all'immagine).
Quanti e quali sono i DB biologici?
http://www3.oup.co.uk/nar/database/
per la lista in ordine alfabetico:
http://www3.oup.co.uk/nar/database/a/