lez_n_3_27-10-2015 - Structural Biology

Funzioni principali della
Bioinformatica
La realizzazione di
BANCHE DATI BIOLOGICHE
Messa a punto di sistemi idonei per collezionare ed
interrogare l'enorme mole di dati biologici disponibili
1
Sorgente di un file HTML ( HyperText Markup Language)
<html>
<head>
<title> il titolo
</title>
<metadata>
</head>
<body>
Corpo della pagina <br>
Ovvero “quel che si vede”
<img src=”/miefoto/ritratto.jpg>
<a href=”http://www.bio.uniroma2.it”> Vai al sito del Dip di Biologia </a>
</body>
</html>
Esempi di XML ( eXtensible Markup Language)

<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don't forget me this weekend!>/body>
</note>
Esempi di XML ( eXtensible Markup Language)
<CATALOG>
<CD>
<TITLE>Empire Burlesque</TITLE>
<ARTIST>Bob Dylan</ARTIST>
<COUNTRY>USA</COUNTRY>
<COMPANY>Columbia</COMPANY>
<PRICE>10.90</PRICE>
<YEAR>1985</YEAR>
</CD>
<CD>
<TITLE>Hide your heart</TITLE>
<ARTIST>Bonnie Tyler</ARTIST>
<COUNTRY>UK</COUNTRY>
<COMPANY>CBS Records</COMPANY>
<PRICE>9.90</PRICE>
<YEAR>1988</YEAR>
</CD>
</CATALOG>
<!DOCTYPE html>
<html>
<body>
<script>
xmlhttp.open("GET","cd_catalog.xml",false);
xmlhttp.send();
xmlDoc=xmlhttp.responseXML;
document.write("<table border='1'>");
var x=xmlDoc.getElementsByTagName("CD");
for (i=0;i<x.length;i++)
{
document.write("<tr><td>");
document.write(x[i].getElementsByTagName("ARTIST")[0].childNodes[0].nodeValue);
document.write("</td><td>");
document.write(x[i].getElementsByTagName("TITLE")[0].childNodes[0].nodeValue);
document.write("</td></tr>");
}
document.write("</table>");
</script>
</body>
</html>
DATABASE BIOLOGICI
Lo sviluppo di tecnologie strumentali sempre più sofisticate ha portato
ad una enorme produzione di dati biologici. Per la gestione di questi
dati è quindi necessario disporre di potenti sistemi di archiviazione e
strumenti per accedere alle loro informazioni.
Sono essenzialmente dei contenitori ordinati di informazioni costruiti per
introdurre e mantenere dati di tipo biologico e permetterne una facile
consultazione (query)

Raccolgono informazioni e dati derivati dalla letteratura e da analisi effettuate
in laboratorio oppure attraverso l’applicazione di analisi bioinformatiche o
analisi in silico.

Sono generalmente accessibili liberamente e possono essere consultati via
web.

Ogni banca dati è caratterizzata da un elemento centrale attorno al quale
viene costruita la entry della banca dati.

Ad esempio, l’elemento centrale per le banche dati di sequenze di acidi nucleici
è la sequenza nucleotidica di DNA o di RNA
10
Gli organismi viventi: classificazione



Nelle scienze biologiche la classificazione è un
concetto che si riferisce alle modalità con le quali i
biologi raggruppano e categorizzano gli organismi
viventi.
La filogenesi è il processo evolutivo degli
organismi viventi dalla loro comparsa sulla terra a
oggi
La classificazione filogenetica è un sistema
artificiale che consente di identificare i gruppi
tassonomici degli organismi viventi sulla base dei
loro rapporti evolutivi
11
Gli organismi viventi: classificazione


La moderna classificazione scientifica è il frutto
della categorizzazione operata da Linneo e riletta
secondo le teorie di Darwin
Col sistema linneano ogni organismo viene
posizionato, mediante una scala gerarchica, in una
serie di gruppi tassonomici, detti taxa (taxon al
singolare). Le suddivisioni principali, dal più
generico al più specifico, sono: Dominio, Regno,
Phylum, Classe, Ordine, Famiglia, Genere e Specie.
12
25-03-2011
Classificazione: esempi
Drosophila melanogaster
(moscerino della frutta)
Homo sapiens
Dominio
Dominio
13
Eukaryota
Eukaryota
Regno
Animalia
Phylum
Chordata
Regno
Animalia
Phylum
Arthropoda
Classe
Mammalia
Classe
Insecta
Ordine
Primates
Ordine
Diptera
Famiglia
Drosophilidae
Genere
Drosophila
Specie
melanogaster
Famiglia
Hominidae
Genere
Homo
Specie
sapiens
Organismi: nomenclatura


La nomenclatura binomiale è una convenzione
standard utilizzata in biologia per conferire il nome
ad una specie.
Il nome scientifico di una specie viene coniato
dalla combinazione di due nomi:



il nome del genere a cui appartiene la specie
un epiteto che caratterizza e distingue quella specie
dalle altre appartenenti a quel genere.
Il primo termine (nome generico) porta sempre l'
iniziale maiuscola, mentre il secondo termine
(nome specifico) viene scritto in minuscolo;
entrambi i nomi vanno inoltre scritti in corsivo
14
Nomenclatura: esempi
Genere
Specie
Nome comune
Apis
mellifera
Ape
Arabidopsis
thaliana
Arabetta comune
Bombyx
mori
Baco da seta
Bos
taurus
Toro
Canis
familiaris
Cane domestico
Drosophila
melanogaster
Moscerino della frutta
Gallus
gallus
Gallo
Homo
sapiens
Uomo
Macaca
mulatta
Macaco
Mus
musculus
Topo
Ovis
aries
Pecora
Pan
troglodytes
Scimpanzè
Rattus
norvegicus
Ratto
Zea
mays
Mais
15
I Geni

Il gene è l’unità ereditaria e funzionale degli organismi
viventi; ad esso sono associate molteplici informazioni:
Analisi
Filogenetica
Struttura
Sequenze omologhe
in altri genomi
Sequenza
Gene
Proteina
(Funzione)
Localizzazione
genomica
-
Organizzazione delle banche dati

Le banche dati biologiche raccolgono informazioni e
dati derivati da:




Letteratura;
Analisi di laboratorio (in vitro e in vivo);
Analisi bioinformatiche (in silico).
Ogni banca dati è caratterizzata da un elemento
biologico centrale che costituisce l’oggetto intorno al
quale viene costruita la entry principale della banca
dati.
17
Bioinformatica: Banche dati biologiche
25-03-2011
Organizzazione delle banche dati (2)



Ciascuna entry raccoglie quindi le informazioni che
caratterizzano l’elemento centrale (attributi).
Molte banche dati biologiche sono fruibili da parte della
comunità scientifica in formato flat-file, cioè file sequenziali
nei quali ogni classe di informazione è riportata su una o
più linee consecutive identificate da un particolare codice.
Tali file sono dunque semplici file di testo strutturati in
modo tale da essere analizzabili mediante opportuni tool in
grado di estrarre le informazioni di interesse.
18
Bioinformatica: Banche dati biologiche
25-03-2011
Organizzazione di un database biologico
L’oggetto principale è la ENTRY, una unità riconoscibile grazie ad un
identificatore univoco, che possiede una descrizione organizzata in campi
standardizzati riconoscibili grazie ad HEADERS (“etichette”), univoci nella
banca dati; esempio Identificatore, Autore, Data, ecc.
Un RECORD biologico
LOCUS un codice
DEFINITION
descrizione della sequenza
ACCESSION un codice
ORGANISM
l’organismo a cui appartiene la
sequenza (e tassonomia)
REFERENCE
Riferimenti bibliografici a quella
sequenza o chi l’ha sottomessa

19
In genere le banche dati presentano 2 versioni delle
entries:
Flat-file: un file di testo semplice, formattato, meno
“accessibile”
HTML (o XML): interattivo, di facile consultazione
L’interattività ha un ruolo centrale per una banca dati:
permette di navigare facilmente tra le sue entries e quelle di
altri database.
Sia i flat-file che le pagine HTML sono ricchi di cross-references,
riferimenti che rimandano ad altre banche dati generiche o
specializzate.
Si ottiene così per ogni entry una serie di informazioni spesso
ridondanti, tra cui è bene sapersi orientare, anche perché alcune
sembrano in contraddizione.
Esempi:
- una proteina può avere dei riferimenti a sequenze codificanti
diverse;
- una entry può avere più nomi per descriverla o corrispondere a
più autori.
Collegamenti tra i database
Caratteristica importante di questi database è il fatto che sono
collegati (in modo intricato) tra di loro. Da un record di un
database è possibile saltare, mediante un link ipertestuale, ai
record ad esso correlati degli altri database integrati nel sistema.
Tipologie di interrogazioni delle Banche Dati
RICERCHE TESTUALI (QUERY)
Utilizzano programmi di RETRIEVAL (di ricerca, reperimento dati) per
restituire i record di un database che soddisfano i criteri richiesti.

sfruttano una ricerca di tipo letterale ed individuano termini
uguali.
Ricordo che i database devono essere tutti standardizzati (tag,
separatori, headers, segni di punteggiatura ecc): questo rende rapida
la ricerca.
RICERCHE PER SIMILARITÀ (su sequenze nucleotidiche o
proteiche)
Restituiscono le sequenze di un database più simili ad una sequenza
fornita come query.
Non sono delle vere e proprie query in quanto richiedono l’esecuzione
di programmi anche piuttosto complessi (ad esempio BLAST o
FASTA).
22
RICERCA BIBLIOGRAFICA
Le modalità con cui si esegue una ricerca bibliografica sono
di esempio per una qualsiasi ricerca testuale o query.
Struttura di un articolo
scientifico
- Rivista dove è pubblicato (nome, data di
pubblicazione, volume, pagina )
- Titolo
- Autori
- Abstract (Riassunto dell’articolo)
- Introduzione
Materiali e metodi
Risultati, discussione,
conclusione
Descrizione del lavoro
- Opzionali: ringraziamenti
- Reference (Bibliografia)
23
Titolo
Autori
Abstract
(riassunto)
Introduzione
Risultati
24
Discussione
Correzioni
Materiali e
metodi
References
(citazioni)
Informazioni
supplementari
in rete
PubMed





PubMed e’ una banca dati che permette di ottenere
informazioni di tipo bibliografico nel campo della
medicina e altre discipline di tipo biologico e
naturalistico
Il database contiene i riferimenti bibliografici a partire
dagli anni ’50 e viene aggiornato giornalmente
Gli articoli provengono da riviste scientifiche di tutto il
mondo ma la maggior parte delle voci sono in lingua
inglese o hanno almeno il riassunto in inglese
L’accesso al testo completo degli articoli può essere
gratuito o a pagamento a seconda della casa editrice
PubMed è accessibile al seguente indirizzo:
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubm
ed
PubMed
Risultati di una ricerca in PubMed


Avviando una ricerca in PubMed viene mostrata una lista con i
riferimenti bibliografici, in forma di semplici citazioni elencate in ordine
cronologico di immissione nella banca dati con in testa i dati più
recenti.
Accanto ad ogni citazione compare un’icona che segnala la
presenza/assenza dell’abstract e/o del full text:




foglietto vuoto: citazione priva di abstract;
foglietto scritto: citazione con abstract;
foglietto evidenziato in verde: citazione con link al sito dell’editore, che offre
gratuitamente il full text;
foglietto evidenziato in arancio e verde: citazione con full text disponibile
nell'archivio centrale di PubMed.
Risultati di una ricerca in PubMed
30
OPERATORI BOOLEANI
Questi potreste già conoscerli dalla matematica!
ATTENZIONE! Oltre a quello
nucleare, esiste anche il
genoma mitocondriale, nei
database sono depositate
sequenze
derivanti
da
entrambe le sorgenti!!!
31
L'uso dei limiti in PubMed
Banche dati primarie


Le banche dati primarie contengono sequenze
nucleotidiche (DNA e RNA) e aminoacidiche (proteine).
Esistono tre banche dati primarie:




GenBank (NCBI – National Center for Biotechnology Information).
EMBL datalibrary (EMBL – European Molecular Biology
Laboratory).
DDBJ (DNA Database of Japan)
Questi istituti cooperano tra loro al fine di condividere e
rendere pubblicamente disponibili tutti i dati di cui
dispongono e differiscono tra loro solamente per il
formato con cui tali dati vengono rilasciati.
33
Bionformatica
Banche dati biologiche
NBRF (1970)
EMBL (1980), GenBank e
DDBJ (1986)
Metodologie bio-computazionali
Programmi per la ricerca di similarità delle
sequenze (BLAST e FASTA
Studi di evoluzione molecolare
PROSITE, EPD (1985)
PDB (Protein Data Bank)
Predizioni di strutture di RNA
Predizioni di strutture secondarie proteiche
Sistemi di interrogazione:
SRS
Entrez
Predizioni di strutture tridimensionali proteiche
Scopo di realizzare una banca dati
Consentire la consultazione e l’analisi delle informazioni in essa contenute e di
ogni altra informazione a esse correlate e memorizzate in altre banche dati
Tipi di banche dati:
Primarie o derivate
Nelle banche dati primarie sono presenti solo le informazioni minime necessarie
da associare ai dati per identificarli al meglio.
Le banche dati derivate contengono invece insiemi di dati omogenei che possono
derivare da banche dati primarie, ma rivisti e annotati con varie informazioni che
danno un valore aggiunto alla banca dati stessa.
Non Curate o curate
Le banche dati non curate contengono i dati grezzi così come sono forniti da chi li
ha ottenuti, o con annotazioni da sistemi automatici.
Le banche dati curate presentano informazioni che sono verificate, confrontate
con quelle di altre banche dati, opportunamente corrette (o per lo meno con
segnalazione di possibili errori e conflitti con altri dati)
Relazionali
Nelle banche dati relazionali i dati sono gestiti come tabelle, tutte correlate tra
loro (ACCESS è un esempio di programma per creare database).
Tipologie di database
Le basi di dati possono avere varie strutture, di solito, in ordine
cronologico:
gerarchica (rappresentabile tramite un albero – anni sessanta),
reticolare (rappresentabile tramite un grafo – anni sessanta),
relazionale (attualmente il più diffuso, rappresentabile mediante tabelle e
relazioni tra esse – anni settanta),
ad oggetti (estensione alle basi di dati del paradigma "Object Oriented",
tipico della programmazione a oggetti – anni ottanta),
semantica (rappresentabile con un grafo relazionale – inizio anni duemila).
La gestione del database
Il DBMS (DataBase Management System) è il software che consente di costruire e
gestire una base di dati, realizzandola nella pratica su memoria di massa, a partire
da un progetto e da uno schema dei dati definiti a livello concettuale e tradotto poi
in un modello logico dei dati.
Le funzioni che il DBMS è in grado di offrire sono:
1) Implementazione del modello logico sul sistema di elaborazione
2) Manipolazione e interrogazione sulla base di dati
3) Controllo dell’integrità dei dati
4) Sicurezza e protezione
Linguaggi per database
I comandi che il DBMS mette a disposizione possono essere classificati nelle
seguenti categorie di linguaggi:
linguaggio per la descrizione dei dati, delle tabelle e delle viste, detto DDL (Data
Definition Language)
linguaggio detto DMCL (Device Media Control Language), cioè il linguaggio di
controllo dei supporti di memorizzazione dei dati
linguaggio per il trattamento (o manipolazione) dei dati contenuti nel database,
detto DML (Data Manipulation Language), che consente le usuali operazioni di
accesso per inserimenti, modifiche o cancellazioni;
linguaggio per fissare i vincoli di integrità, per stabilire le autorizzazioni agli
accessi e i tipi di permessi consentiti agli utenti (inserimento di nuovi dati, sol lettura,
modifica dei dati), detto DCL (Data Control Language).
Linguaggio per le interrogazioni alla base di dati, detto Query Language, che
consente il ritrovamento dei dati che interessano, sulla base dei criteri di ricerca
richiesti dall’utente.
Gli Utenti
Un database viene utilizzato da persone diverse, per funzioni e per applicazioni
diverse:
la responsabilità della gestione del DB è affidata all’Amministratore della Base di
Dati (DBA, Database Administrator), con i seguenti compiti:
implementazione del modello logico del db nel sistema di elaborazione sui supporti
fisici delle memorie di massa (es.create schema nome authorization utente /create
table nome (attributo1 tipo1 [valore default])
gestione e trattamento dei dati
(es.
create index nomeidx on nometabella (attributi)
autorizzazione degli accessi
definizione delle viste per accessi parziali di utenti alla base di dati
controllo dei programmi applicativi che richiedono l’uso del db
manutenzione del database nel tempo, in termini di efficienza e di ottimizzazione
delle risorse
controllo sugli interventi di recupero, nel caso di cattivi funzionamenti, e sulle
copie di salvataggio periodiche;
controllo della disponibilità degli spazi su memoria di massa.
i Programmatori che intendono utilizzare per le loro applicazioni i dati organizzati
in un db, utilizzano un linguaggio DML, oppure comandi che sono un’estensione dei
tradizionali linguaggi di programmazione, oppure un linguaggio specifico per basi di
dati.
gli Utenti finali possono accedere alla base di dati attraverso i comandi di un
linguaggio di interrogazione (query language), oppure, per utenti finali ancora meno
esperti attraverso interfacce software, che presentano sul video il menu o le icone.
Linguaggi di
programmazione server side
●
ASP (di proprietà Microsoft)
●
ColdFusion (di proprietà Adobe)
●
CGI e/o Perl (open source)
●
Java, J2EE o WebObjects
●
PHP (open source)
●
Python (open source)
●
Smalltalk
●
.NET (di proprietà Microsoft)
●
40
Attribute
Tuple
Relation
Funzioni principali della
Bioinformatica
La realizzazione di
BANCHE DATI BIOLOGICHE
Messa a punto di sistemi idonei per collezionare ed
interrogare l'enorme mole di dati biologici disponibili
42
La crescita dei dati
genomici
http://www.ebi.ac.uk/ena/about/statistics
43
Alcuni database di interesse biologico
AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb,
BBDB, BCGD,
Beanref, Biolmage,BioMagResBank,
BIOMDB,
BLOCKS,
BovGBASE,BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY,
CCDC, CD4OLbase, CGAP,ChickGBASE, Colibri, COPE, CottonDB, CSNDB,
CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP,
DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL,
EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView, GCRDB, GDB,
GENATLAS, Genbank, GeneCards, Genline, GenLink, GENOTK,
GenProtEC,
GIFTS, GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB, HAEMB, HAMSTERS,
HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN,
HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho,
LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI,
MHCPEP5Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR,
MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb,
PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB,
PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,PROTOMAP, RatMAP, RDP, REBASE,
RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db,
SRPDB, STACK, StyGene,Sub2D,SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE,
SWISS- MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC,
TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD,
YPD, YPM, etc ……………………..!!!!
45
istituzioni: NCBi e EBi
NCBI (National Center for Biotechnology
Information) 1983
http://www.ncbi.nlm.nih.gov/
EBI (European Bioinformatics Institute) 1982
http://www.ebi.ac.uk/
47
NCBI
accesso a TANTE risorse di vario tipo:
-National Library of Medicine
-National Institutes of Health
-….
accesso a numerosi database attraverso il sistema
Entrez:
GenBank
Swissprot
PubMed
Accesso tra l’altro a diversi software bioinformatici
48
EBI European Bioinformatics Institute
(Hinxton – Cambridge, UK)
49
DDBJ
1984
50
Armonizzazione ed integrazione
INSDC
51
Esempio entry in EMBL
File flat-file
File sequenziale nel quale ogni classe di
informazione è riportata su una o più linee
consecutive identificate da un codice a
sinistra caratterizzante gli attributi annotati
nella linea stessa.
Vantaggi:
1. Molto semplice da creare
2. Facilmente analizzabile da diversi
programmi
Svantaggi:
Dati eterogenei difficilmente maneggiabili
Codici in un File flat-file
Ogni sequenza inviata al database viene contrassegnata
da un accession number (AC) permanente per l’entry.
Viene anche assegnata una entry name (ID).
Altre informazioni annotate:
DT: date di creazione e aggiornamento
KW: parole chiave per la descrizione
OS: nome della specie
OC: classificazione tassonomica
RN, RA, RT, RL: informazioni sulla bibliografia
FT: regioni funzionalmente caratterizzate
SQ: sequenza nucleotidica
NCBI flat file
NCBI flat file
Database Proteici
UNIPROT (http://www.pir.uniprot.org)
E’ la banca dati di riferimento per le sequenze proteiche. Deriva da un consorzio
tra:
1. SWISSPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati
originale, sviluppata in Svizzera.
E’ una banca dati altamente curata, con alto livello di annotazione (descrizione
della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali
e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con
altri database, basso livello di ridondanza. Questa banca dati ci fornisce entry di
formato flat-file che si differenzia da quello di EMBL soprattutto per quanto
riguarda le features che descrivono nelle proteine la presenza di aa modificati,
regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di
polimorfismi
2. TREMBL (http://www.ebi.ac.uk/trembl/access.html): banca dati di sequenze
proteiche ottenute tramite traduzione delle sequenze nucleotidiche contenute in
EMBL, annotate automaticamente. Di queste sequenze annotate una parte che
costituisce SPTREMBL è inserita in SWISSPROT mentre la parte relativa alle
proteine immunologiche è raccolta in REMTREMBL. In SRS con il termine SWALL
è indicato l’insieme di SWISSPROT+ SPTREMBL.
3. PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche
sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con
altri database e quindi offre minori vantaggi nel suo uso.
Swiss-Prot (http://web.expasy.org/docs/swiss-prot_guideline.html)
Il punto di forza di
questo
database è l’elevato
livello
di annotazione
effettuata
dai suoi curatori.
Query di sequenza in UniProt
Siamo interessati a conoscere la sequenza proteica codificata dalla
lactate dehydrogenase A
Anche in questo caso
possiamo ottenere la
sequenza proteica
E molte altre informazioni
sulla struttura secondaria,
terziaria (via PDB), sulle
varianti conosciute e sulla
funzione della proteina
ricercata
62
Database di STRUTTURE
PDB (http://www.rcsb.org/pdb/home/home.do):
Banca dati di riferimento per i dati strutturali 3D di proteine, comprendente le
coordinate atomiche determinate attraverso analisi cristallografiche ai raggi X,
analisi NMR o altre tecniche (microscopia elettronica etc.).
Comprende anche una sezione dedicata alle strutture delle proteine determinate
tramite metodi computazionali.
Anche in questo caso è stato recentemente creato un consorzio tra le tre
organizzazioni responsabili del mantenimento dei server: RCSB (USA), MSD-EBI
(EU) e PDBj (Giappone)
MMDB [Entrez's Molecular Modeling Database]
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure
NDB (http://ndbserver.rutgers.edu/) : banca dati di strutture di acidi nucleici, soli
o assieme a proteine
CSD (http://www.ccdc.cam.ac.uk/products/csd/) : banca dati di strutture di
piccole molecole organiche ed organometalliche
Il file PDB
Il file PDB
Altre banche dati che riguardano la struttura delle proteine:
DSSP (Dictionary of Protein Secondary Structure) raccolta delle strutture
secondarie.
Programma: http://bioweb.pasteur.fr/seqanal/interfaces/dssp-simple.html
Database
http://swift.cmbi.ru.nl/gv/dssp/
HSSP (Homology derived Secondary Structure of Proteins) contiene informazioni
utili per costruire modelli di proteine.
Database
http://swift.cmbi.kun.nl/gv/hssp/
FSSP (Fold classification based on Secondary Structure alignment of Proteins)
include l’allineamento con le proteine di struttura simile e riporta i residui che
sono equivalenti nelle strutture.
PDBsum (http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/) riassume per
ogni proteina tutte le informazioni derivanti dalle varie banche dati correlati.
SCOP [Structural Classification of Proteins] (http://scop.mrc-lmb.cam.ac.uk/scop/)
organizza le strutture proteiche gerarchicamente seguendo criteri evolutivi e di
similarità strutturale.
CATH (http://www.cathdb.info/latest/index.html) presenta una classificazione
strutturale simile a quellla offerta da SCOP, basata su confronti di strutture.
http://blanco.biomol.uci.edu/mpstruc/
SCOP. Structural Classification of Proteins
4 livelli: Classi, fold, superfamiglie e famiglie
Primo livello
CATH: Class- Architecture- Topology Homology
Database gerarchico che suddivide:
1. per Classe
Alla alpha
All beta
Mixed alpha-beta
Non structured
2. per Architettura dei dominii (che presentano un a composizione simile
delle strutture secondarie senza considerarne la topologia ovvero
l'ordine)
3. per Topologia, ossia l'ordine strutturale dei motivi secondari
4 Homologus superfamily raggruppa le famiglie omologhe
I browser genomici
University of California Santa Cruz
UCSC genome browser
(http://genome.ucsc.edu/)
L’enorme aumento dei dati riguardanti interi genomi, in
particolare quelli derivanti dai progetti di sequenziamento di
vertebrati, ha richiesto lo sviluppo di veri e propri browser di
genomi.

Per questo motivo presso la UCSC è stato sviluppato uno
dei primi genome browser in grado di fornire una rapida
visualizzazione grafica di ogni regione di genoma di
qualsivoglia lunghezza assieme ad una grande quantità di
informazioni come:
geni noti, geni predetti, ESTs (expressed sequence
TAGs), mRNA,
elementi regolativi, geni omologhi di altri organismi,
ecc.

Successivamente i principali siti (NCBI, EBI ecc.) hanno
sviluppato piattaforme sempre più complesse, in grado di
integrare il maggior numero di informazioni su una certa
regione in particolare del genoma umano e di numerosi altri
organismi.

http://genome.ucsc.edu/
group
Organismo di cui si
vuole visualizzare la
regione genomica
Gruppo di
organismi
di interesse
Nota: durante il
sequenziamento
di un genoma, spesso sono
rilasciate versioni
successive specialmente
nella fase finale
del progetto: possono
essere più o meno
definitive.
Qui si fa riferimento a varie
versioni (release) del
genoma umano (l’ultima è
del 2009).
Pulsanti di
spostamento sul
genoma
Posizione
attuale
sul genoma
Pulsanti per ingrandire
o rimpicciolire l’area di
interesse
chr: rappresentazione
schematica e posizione
Permette di “saltare” sulla
posizione digitata sulla
finestra di sinistra
Posizione
(bp)
Geni con
esoni, le
barre spesse,
e introni, le
barre sottili.
Traccia dei
trascritti
Grado di
conservazione
della sequenza tra
organismi diversi
Moltissimi sono i campi a disposizione, essi possono essere visualizzati in modo diverso o
nascosti utilizzando le opzioni presenti nella parte inferiore della pagina
Tipologia di
traccia
Ci sono varie
possibilità
di visualizzazione
di ogni
informazione sul
genome browser.
UCSC Genome Browser: descrizione del
gene scelto
….e molte altre informazioni!!
Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio
abbiamo visto che il gene tcap a seconda del record è riportato come titincap protein o telethonin. Questo crea confusione e non facilita la ricerca
informatica.
The Human Genome Organisation (HUGO) ha istituito un comitato allo
scopo di dare un unico nome significativo a tutti i geni umani. Con questo
intento è stato costruito il database HGNC.
http://geneontology.org/
Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere
adottati anche differenti modi per descrivere le loro funzioni e le loro localizzazioni.
A volte è corretto assegnare diverse funzioni ad una molecola biologica (una proteina che
svolge più di una funzione): per non generare confusioni è però necessario usare una
terminologia univoca per ogni funzione.
Per questo motivo è stato fondato il database Gene Ontology: fornisce una definizione
precisa del ruolo svolto dalle singole proteine tramite un vocabolario (le ontologie) che
consenta di definire in modo corretto e non arbitrario il o i processi biologici cui una proteina
partecipa, la/e sue funzioni molecolari e la/e sue localizzazioni cellulare.
Nota: i link con la sigla ‘GO’ rimandano al database della gene
ontology