Borsato_Eleonora_relazione biomol2

Database PROTEIN DATA BANK
(RCSB PDB)
di
Eleonora Borsato
Cos'è il database PDB?
La banca dati RCSB PDB è il deposito centrale di dati biologici di struttura e contiene informazioni
estremamente dettagliate e accurate su strutture proteiche, su complessi proteici e su acidi nucleici
sperimentalmente ottenuti.
PDB è stato creato nel 1971, dal Brookhaven National Laboratory, quando ancora non esisteva la
possibilità di visualizzare graficamente le strutture 3D delle proteine al computer così si è ovviato a
questo problema annotando tutte le posizioni spaziali relative degli atomi che costituivano le
proteine ed è per questo che è estremamente dettagliato.
Le diverse strutture sono state ottenute per mezzo di cristallografie a raggi X e di spettroscopia
NMR (risonanza magnetica nucleare). Il primo metodo permette di identificare la posizione degli
atomi di una proteina fissata con maggior o minor certezza in base al fattore di temperatura (Bfactor), mentre con il secondo metodo si ha una proteina in soluzione perciò è possibile risolverla
anche nei suoi diversi stati conformazionali, quest'ultima tecnica è più utile per visualizzare
proteine che interagiscono con ligandi.
A cosa serve PDB?
PDB permette di visualizzare tutte li informazioni relative alla struttura secondaria e terziaria, se
note sperimentalmente, di qualsiasi proteina o complesso partendo da una query che può essere il
nome della proteina o il suo codice PDB (specifico e univoco per ogni singola proteina).
PDB contiene solo informazioni ricavate da esperimenti e non fa alcun tipo di predizione, infatti,
nel caso non esista la proteina cercata, PDB restituisce alcuni esempi di proteine in esso contenute
molto simili alla nostra.
Se si possiede la sequenza amminoacidica si può anche facilmente fare una ricerca in un database di
sequenze (FASTA, BLAST...) e si può da qua scegliere un omologo molto vicino, ricavare il suo
codice PDB e poi vedere se questa sequenza è presente nel database PDB.
A questo punto sta a noi decidere se avvalerci dei dati cristallografici o se usare uno dei tanti sistemi
di predizione.
Come iniziare?
Aprendo il databese PDB al sito http://www.pdb.org/pdb/home/home.do, facilmente raggiungibile
anche tramite la ricerca in google di “PDB”, ci si trova davanti ad una pagina con tre colonne:
quella più a sinistra è la colonna dei menù, quella centrale è la parte principale del sito, quella più a
destra presenta le novità. (fig. 1)
Esempio:
Per spiegare meglio l'utilizzo del database PDB mi avvalgo di un esempio cercando di prendere in
considerazione tutte le possibili alternative che si possono presentare.
Come esempio prendo l'enzima aldolasi umana, della quale non conosco il codice PDB.
fig. 1: home page di RCSB PDB
Inserisco nel campo della query il nome dell'enzima cercato e lancio la ricerca tramite “search”.
(fig. 2). Oltre al nome dell'enzima (text) o al suo codice PDB, che non è sempre facilmente
reperibile, anche se, se esistente, si può trovare attraverso CATH o UniProt, la ricerca si può fare
per mezzo di altre tipologie di ricerca selezionabili dal menù a tendina. (fig. 3)
Si possono utilizzare direttamente le opzioni di “avanced search” (fig. 4) oppure si può raffinare la
ricerca in un secondo momento (fig. 5) ricordando che l'avanced search è consigliata quando si
vuole trovare una struttura precisa di cui si conosce già qualcosa, mentre quando si procede alla
cieca è preferibile lanciare una ricerca generale il tutto il databese e poi restringere il campo
secondo le esigenze.
fig. 2: modulo di ricerca
fig. 3: menù a tendina del
modulo di ricerca
fig. 4: possibili ricerche fatte da "avanced
search"
fig. 5: pagina per limitare la ricerca
Siccome sto cercando informazioni generali sull'aldolasi ho fatto una ricerca contro database e da
“refine query” ho selezionato ciò che mi interessava. E siccome volevo ottenere l'aldolasi umana,
cristallizzata per mezzo dei raggi X e che avesse una risoluzione di 2 Amstrong, cioè la più bassa tra
le possibili per le aldolasi umane cristallizzate, ho selezionato questi parametri.
Molte operazioni su PDB sono relativamente lente, perciò raccomando di attendere fino a che non
sia stata completamente ricaricata la pagina prima di procedere ad un'altra operazione.
Ottengo un solo output, il cui codice PDB è 1ALD.
Ma si possono ottenere più output e tra questi possiamo scegliere quello che più ci interessa o che
più soddisfa le nostre esigenze.
Dalla barra (fig. 6) in alto alla pagina si può accedere a diversi tipi di informazioni inerenti la
proteina, che per facilità di consultazione sono divise per argomenti. Le tratterò separatamente.
fig. 6: barra da cui accedere alle diverse sezioni
SUMMARY
La pagina che si apre, definita “summary” mostra delle informazioni generali sulla proteina che
corrisponde al codice PDB 1ALD.
Nella “primary citation” si trovano i nomi degli autori della cristallizzazione e i riferimenti alle
riviste in cui è stato pubblicato il lavoro con la possibilità di accedervi per mezzo del link. Vi è poi
riportato l'abstact di PubMed e le parole chiave dell'articolo.
Questa sezione perciò ci da una visone generale della proteina in questione e ci permette di
scegliere se continuare la nostra ricerca su questa proteina o se è necessario fare una nuova ricerca.
Se riteniamo che l'output ottenuto sia interessante si può proseguire nell'analisi.
Sempre nella pagina “summary” si trovano altre informazioni generali quali una descrizione
sommaria della proteina e un riepilogo delle nostra ricerca che ci permette di contestualizzarla
nell'organismo di appartenenza.
Inoltre nella parte a destra è presente un'immagine 3D della struttura biologica cercata e vi è il link
diretto alla visualizzazione con Jmol.
Nel caso volessimo usare un altro visualizzatore proteico che richiede il file di testo PDB, possiamo
scaricarlo dai tre menù in alto a destra e precisamente da “download files”, scegliendo “PDB file
(text)”. Ma sempre da questo menù si possono scaricare moltissimi file che servono per studiare la
nostra proteina attraverso altri programmi o direttamente, infatti si può per esempio scaricare la
sequenza amminoacidica in formato FASTA.
Oppure se si vuole solo fare una consultazione, senza scaricare files, si può visualizzare, attraverso
“display files” ciò che ci interessa che è l'equivalente di ciò che si può scaricare. (fig. 7)
fig. 7: pagina summary con evidenziato il menù di "download files"
Per esempio, la parte più importante del RCSB PDB, quella per cui questo database è nato, si trova
andando in “display files” e poi in “PDB file”. Si aprirà una pagina in cui sono annotate
accuratamente moltissime informazioni.
All'inizio ci sono delle informazioni generali, come il titolo del lavoro, gli autori che hanno fatto la
cristallizzazione, alcune informazioni su quale organismo è stato usato per la cristallografia, giornali
sui quali è stato pubblicato il lavoro ecc... Ma la parte importante corrisponde a SEQRES e ad
ATOM. In SEQRES è indicata la sequenza amminoacidica della proteina, mentre in ATOM sono
riportate tutte le posizioni, nelle 3 dimensioni dello spazio, di tutti gli atomi visibili nella
cristallografia o nel NMR (talvolta il numero di atomi presenti in SEQRES è maggiore di quelli
riportati in ATOM perché non tutti sono visibili o perché sono regioni disordinate e perciò
difficilmente cristallizzabili, o perché sono atomi interni in proteine globulari o complessi
estremamente grandi, oppure la cristallografia non era buona).
La prima colonna indica il numero progressivo degli atomi, la seconda colonna riporta il tipo di
atomo, la terza l'amminoacido di cui fa parte, la quarta il numero progressivo degli amminoacidi, la
quinta, sesta e settima colonna indicano rispettivamente le posizioni lungo le tre dimensioni dello
spazio (X, Y, Z). L'ottava e la nona colonna riportano dei valori che indicano l'affidabilità
dell'indicazione spaziale: l'ottava colonna riporta l'occupancy, cioè indica quante volte un certo
atomo è stato visto in quella posizione e nel caso abbia più conformazioni possibili il valore scende
sotto 1.00 che è il valore massimo, cioè quando è sempre stato visto in quella posizione; mentre la
nona colonna indica il B-factor, cioè quel valore che indica la mobilità di un certo atomo e perciò
l'incertezza della sua posizione dovuta ai moti termici. (fig. 8)
I^ II^
III^
IV^
V^
VI^
VII^
VIII^
IX^
fig. 8: esempio della sezione ATOM del file PDB
SEQUENCE
La pagina che si apre selezionando “sequence” ci fornisce delle informazioni sulla struttura
secondaria e, nel caso si tratti di un complesso, ci fornisce informazioni su ogni singola catena.
Nell'aldolasi è presente una sola catena e di questa oltre a una rappresentazione della struttura
secondaria ci viene fornita una descrizione consistente in: descrizione, in cui c'è il nome della
catena, tipo di catena, il codice UniProt che permette di avere molte altre informazioni non
strutturali, la lunghezza in amminoacidi, la classificazione secondo SCOP, ed infine, molto
importante, sono riportate le percentuali della parte della catena che si trova in alfa elica e in beta
strand secondo diversi programmi di predizione, selezionabili da “more annotation”. (fig. 9)
Se vengono aggiunti più predittori di sequenza secondaria le diverse predizioni vengono disposte
una sotto l'altra nella rappresentazione grafica e sono confrontabili. (fig. 10)
Inoltre tramite il link “clustering results” nella sezione “Redundancy Reduction and Sequence
Clustering” si può accedere ad una pagina che mostra un riassunto di diverse catene simili che sono
contenute in PDB e che possono essere consultate oppure sono elencate tutte le subunità di un
complesso. Infine in “sequence display” si può accedere alla visualizzazione tramite Jmol. (fig. 11)
fig. 9: descrizione dell'unica catena della proteina
fig. 10: rappresentazione grafica della struttura secondaria
mettendo a confronto diverse predizioni
fig. 11: link a "clustering results" e al visualizzatore 3D
ANNOTATION
Questa pagina mostra tutte le diverse classificazioni che sono state fatte per questa proteina dai
diversi siti di classificazione proteica come SCOP, CATH, Pfam e GO. (fig. 12)
fig. 12: esempio di pagina "annotation"
SEQ SIMILARITY
La pagina è la stessa che si può raggiungere anche da “clustering results” nella pagina “sequence”.
Mostra una tabella in cui si possono selezionare altre proteine e il loro grado di identità con la
nostra sequenza proteica.
Se si trova un grado di similarità del 100% significa che si tratta della stessa proteina, ma che ha più
codici PDB assegnati in quanto il risultato è stato ottenuto mediante esperimenti diversi e con
tecniche diverse e siccome il codice PDB è univoco per ogni lavoro, si trovano più codici riferiti
alla stessa proteina.
Si può facilmente capire che si tratta della stessa proteina confrontando il “codice EC” e la
“tassonomia” mostrati in tabella. (fig. 13)
fig. 13: esempio di pagina di "seq similarity" con il risultato della selezione delle sequenze con il 100% di
identità di sequenza
3D SIMILARITY
Questa pagina è estremamente utile se si vuole studiare il grado di similarità strutturale della nostra
query con altre strutture contenute nel database PDB.
Infatti vengono elencate, con i rispettivi gradi di similarità, le diverse proteine che sono contenute in
PDB e ci permette, tramite Jmol, di vedere le due o più catene sovrapposte di nostro interesse e
inoltre c'è un allineamento tra le due sequenze amminoacidiche. (figg. 14, 15, 16)
fig. 14: esempio di pagina “3D similarity”
fig. 15: esempio di sovrapposizione di due catene simili
fig. 16: esempio di allineamento tra le due catene a confronto
LITERATURE
Questa pagina fornisce una serie di collegamenti alla letteratura scientifica inerenti la proteina, in
primis si trova il riferimento al lavoro che ha portato alla cristallizzazione della proteina e poi sono
elencati altri lavori affini.
BIOL. & CHEM.
Si può trovare qui una dettagliatissima descrizione della proteina dal punto di vista biologico e
chimico; le informazioni sono divise per sezioni: “structure details”, “protein details” e “gene
details”.
Ci sono molti link che permettono facilmente di raggiungere i diversi programmi o database citati
così da velocizzare la ricerca.
METHODS
Sono riportati i dettagli tecnici dell'esperimento di cristallografia.
GEOMETRY
Sono riportati i dettagli tecnici di ciò che l'esperimento ha prodotto, con grande attenzione al FDS
(fold deviation score, definito come un multiplo della deviazione standard per un valore di
riferimento specifico) che indica quanto i nostri dati si discostano da dei valori di riferimento.
Questa pagina è divisa in cinque sezioni: “graphics”, “MolProbity Ramachandran plot” “bond
length ”, “bond angle ” e “dihedral angle ”. (fig. 17)
fig. 17: esempio di pagina "geometry"
LINKS
Sono elencati una serie di links a programmi esterni che possono essere utili a completare l'analisi
della struttura biologica cercata. (fig. 18)
fig. 18: esempio di pagina "links"