Database PROTEIN DATA BANK (RCSB PDB) di Eleonora Borsato Cos'è il database PDB? La banca dati RCSB PDB è il deposito centrale di dati biologici di struttura e contiene informazioni estremamente dettagliate e accurate su strutture proteiche, su complessi proteici e su acidi nucleici sperimentalmente ottenuti. PDB è stato creato nel 1971, dal Brookhaven National Laboratory, quando ancora non esisteva la possibilità di visualizzare graficamente le strutture 3D delle proteine al computer così si è ovviato a questo problema annotando tutte le posizioni spaziali relative degli atomi che costituivano le proteine ed è per questo che è estremamente dettagliato. Le diverse strutture sono state ottenute per mezzo di cristallografie a raggi X e di spettroscopia NMR (risonanza magnetica nucleare). Il primo metodo permette di identificare la posizione degli atomi di una proteina fissata con maggior o minor certezza in base al fattore di temperatura (Bfactor), mentre con il secondo metodo si ha una proteina in soluzione perciò è possibile risolverla anche nei suoi diversi stati conformazionali, quest'ultima tecnica è più utile per visualizzare proteine che interagiscono con ligandi. A cosa serve PDB? PDB permette di visualizzare tutte li informazioni relative alla struttura secondaria e terziaria, se note sperimentalmente, di qualsiasi proteina o complesso partendo da una query che può essere il nome della proteina o il suo codice PDB (specifico e univoco per ogni singola proteina). PDB contiene solo informazioni ricavate da esperimenti e non fa alcun tipo di predizione, infatti, nel caso non esista la proteina cercata, PDB restituisce alcuni esempi di proteine in esso contenute molto simili alla nostra. Se si possiede la sequenza amminoacidica si può anche facilmente fare una ricerca in un database di sequenze (FASTA, BLAST...) e si può da qua scegliere un omologo molto vicino, ricavare il suo codice PDB e poi vedere se questa sequenza è presente nel database PDB. A questo punto sta a noi decidere se avvalerci dei dati cristallografici o se usare uno dei tanti sistemi di predizione. Come iniziare? Aprendo il databese PDB al sito http://www.pdb.org/pdb/home/home.do, facilmente raggiungibile anche tramite la ricerca in google di “PDB”, ci si trova davanti ad una pagina con tre colonne: quella più a sinistra è la colonna dei menù, quella centrale è la parte principale del sito, quella più a destra presenta le novità. (fig. 1) Esempio: Per spiegare meglio l'utilizzo del database PDB mi avvalgo di un esempio cercando di prendere in considerazione tutte le possibili alternative che si possono presentare. Come esempio prendo l'enzima aldolasi umana, della quale non conosco il codice PDB. fig. 1: home page di RCSB PDB Inserisco nel campo della query il nome dell'enzima cercato e lancio la ricerca tramite “search”. (fig. 2). Oltre al nome dell'enzima (text) o al suo codice PDB, che non è sempre facilmente reperibile, anche se, se esistente, si può trovare attraverso CATH o UniProt, la ricerca si può fare per mezzo di altre tipologie di ricerca selezionabili dal menù a tendina. (fig. 3) Si possono utilizzare direttamente le opzioni di “avanced search” (fig. 4) oppure si può raffinare la ricerca in un secondo momento (fig. 5) ricordando che l'avanced search è consigliata quando si vuole trovare una struttura precisa di cui si conosce già qualcosa, mentre quando si procede alla cieca è preferibile lanciare una ricerca generale il tutto il databese e poi restringere il campo secondo le esigenze. fig. 2: modulo di ricerca fig. 3: menù a tendina del modulo di ricerca fig. 4: possibili ricerche fatte da "avanced search" fig. 5: pagina per limitare la ricerca Siccome sto cercando informazioni generali sull'aldolasi ho fatto una ricerca contro database e da “refine query” ho selezionato ciò che mi interessava. E siccome volevo ottenere l'aldolasi umana, cristallizzata per mezzo dei raggi X e che avesse una risoluzione di 2 Amstrong, cioè la più bassa tra le possibili per le aldolasi umane cristallizzate, ho selezionato questi parametri. Molte operazioni su PDB sono relativamente lente, perciò raccomando di attendere fino a che non sia stata completamente ricaricata la pagina prima di procedere ad un'altra operazione. Ottengo un solo output, il cui codice PDB è 1ALD. Ma si possono ottenere più output e tra questi possiamo scegliere quello che più ci interessa o che più soddisfa le nostre esigenze. Dalla barra (fig. 6) in alto alla pagina si può accedere a diversi tipi di informazioni inerenti la proteina, che per facilità di consultazione sono divise per argomenti. Le tratterò separatamente. fig. 6: barra da cui accedere alle diverse sezioni SUMMARY La pagina che si apre, definita “summary” mostra delle informazioni generali sulla proteina che corrisponde al codice PDB 1ALD. Nella “primary citation” si trovano i nomi degli autori della cristallizzazione e i riferimenti alle riviste in cui è stato pubblicato il lavoro con la possibilità di accedervi per mezzo del link. Vi è poi riportato l'abstact di PubMed e le parole chiave dell'articolo. Questa sezione perciò ci da una visone generale della proteina in questione e ci permette di scegliere se continuare la nostra ricerca su questa proteina o se è necessario fare una nuova ricerca. Se riteniamo che l'output ottenuto sia interessante si può proseguire nell'analisi. Sempre nella pagina “summary” si trovano altre informazioni generali quali una descrizione sommaria della proteina e un riepilogo delle nostra ricerca che ci permette di contestualizzarla nell'organismo di appartenenza. Inoltre nella parte a destra è presente un'immagine 3D della struttura biologica cercata e vi è il link diretto alla visualizzazione con Jmol. Nel caso volessimo usare un altro visualizzatore proteico che richiede il file di testo PDB, possiamo scaricarlo dai tre menù in alto a destra e precisamente da “download files”, scegliendo “PDB file (text)”. Ma sempre da questo menù si possono scaricare moltissimi file che servono per studiare la nostra proteina attraverso altri programmi o direttamente, infatti si può per esempio scaricare la sequenza amminoacidica in formato FASTA. Oppure se si vuole solo fare una consultazione, senza scaricare files, si può visualizzare, attraverso “display files” ciò che ci interessa che è l'equivalente di ciò che si può scaricare. (fig. 7) fig. 7: pagina summary con evidenziato il menù di "download files" Per esempio, la parte più importante del RCSB PDB, quella per cui questo database è nato, si trova andando in “display files” e poi in “PDB file”. Si aprirà una pagina in cui sono annotate accuratamente moltissime informazioni. All'inizio ci sono delle informazioni generali, come il titolo del lavoro, gli autori che hanno fatto la cristallizzazione, alcune informazioni su quale organismo è stato usato per la cristallografia, giornali sui quali è stato pubblicato il lavoro ecc... Ma la parte importante corrisponde a SEQRES e ad ATOM. In SEQRES è indicata la sequenza amminoacidica della proteina, mentre in ATOM sono riportate tutte le posizioni, nelle 3 dimensioni dello spazio, di tutti gli atomi visibili nella cristallografia o nel NMR (talvolta il numero di atomi presenti in SEQRES è maggiore di quelli riportati in ATOM perché non tutti sono visibili o perché sono regioni disordinate e perciò difficilmente cristallizzabili, o perché sono atomi interni in proteine globulari o complessi estremamente grandi, oppure la cristallografia non era buona). La prima colonna indica il numero progressivo degli atomi, la seconda colonna riporta il tipo di atomo, la terza l'amminoacido di cui fa parte, la quarta il numero progressivo degli amminoacidi, la quinta, sesta e settima colonna indicano rispettivamente le posizioni lungo le tre dimensioni dello spazio (X, Y, Z). L'ottava e la nona colonna riportano dei valori che indicano l'affidabilità dell'indicazione spaziale: l'ottava colonna riporta l'occupancy, cioè indica quante volte un certo atomo è stato visto in quella posizione e nel caso abbia più conformazioni possibili il valore scende sotto 1.00 che è il valore massimo, cioè quando è sempre stato visto in quella posizione; mentre la nona colonna indica il B-factor, cioè quel valore che indica la mobilità di un certo atomo e perciò l'incertezza della sua posizione dovuta ai moti termici. (fig. 8) I^ II^ III^ IV^ V^ VI^ VII^ VIII^ IX^ fig. 8: esempio della sezione ATOM del file PDB SEQUENCE La pagina che si apre selezionando “sequence” ci fornisce delle informazioni sulla struttura secondaria e, nel caso si tratti di un complesso, ci fornisce informazioni su ogni singola catena. Nell'aldolasi è presente una sola catena e di questa oltre a una rappresentazione della struttura secondaria ci viene fornita una descrizione consistente in: descrizione, in cui c'è il nome della catena, tipo di catena, il codice UniProt che permette di avere molte altre informazioni non strutturali, la lunghezza in amminoacidi, la classificazione secondo SCOP, ed infine, molto importante, sono riportate le percentuali della parte della catena che si trova in alfa elica e in beta strand secondo diversi programmi di predizione, selezionabili da “more annotation”. (fig. 9) Se vengono aggiunti più predittori di sequenza secondaria le diverse predizioni vengono disposte una sotto l'altra nella rappresentazione grafica e sono confrontabili. (fig. 10) Inoltre tramite il link “clustering results” nella sezione “Redundancy Reduction and Sequence Clustering” si può accedere ad una pagina che mostra un riassunto di diverse catene simili che sono contenute in PDB e che possono essere consultate oppure sono elencate tutte le subunità di un complesso. Infine in “sequence display” si può accedere alla visualizzazione tramite Jmol. (fig. 11) fig. 9: descrizione dell'unica catena della proteina fig. 10: rappresentazione grafica della struttura secondaria mettendo a confronto diverse predizioni fig. 11: link a "clustering results" e al visualizzatore 3D ANNOTATION Questa pagina mostra tutte le diverse classificazioni che sono state fatte per questa proteina dai diversi siti di classificazione proteica come SCOP, CATH, Pfam e GO. (fig. 12) fig. 12: esempio di pagina "annotation" SEQ SIMILARITY La pagina è la stessa che si può raggiungere anche da “clustering results” nella pagina “sequence”. Mostra una tabella in cui si possono selezionare altre proteine e il loro grado di identità con la nostra sequenza proteica. Se si trova un grado di similarità del 100% significa che si tratta della stessa proteina, ma che ha più codici PDB assegnati in quanto il risultato è stato ottenuto mediante esperimenti diversi e con tecniche diverse e siccome il codice PDB è univoco per ogni lavoro, si trovano più codici riferiti alla stessa proteina. Si può facilmente capire che si tratta della stessa proteina confrontando il “codice EC” e la “tassonomia” mostrati in tabella. (fig. 13) fig. 13: esempio di pagina di "seq similarity" con il risultato della selezione delle sequenze con il 100% di identità di sequenza 3D SIMILARITY Questa pagina è estremamente utile se si vuole studiare il grado di similarità strutturale della nostra query con altre strutture contenute nel database PDB. Infatti vengono elencate, con i rispettivi gradi di similarità, le diverse proteine che sono contenute in PDB e ci permette, tramite Jmol, di vedere le due o più catene sovrapposte di nostro interesse e inoltre c'è un allineamento tra le due sequenze amminoacidiche. (figg. 14, 15, 16) fig. 14: esempio di pagina “3D similarity” fig. 15: esempio di sovrapposizione di due catene simili fig. 16: esempio di allineamento tra le due catene a confronto LITERATURE Questa pagina fornisce una serie di collegamenti alla letteratura scientifica inerenti la proteina, in primis si trova il riferimento al lavoro che ha portato alla cristallizzazione della proteina e poi sono elencati altri lavori affini. BIOL. & CHEM. Si può trovare qui una dettagliatissima descrizione della proteina dal punto di vista biologico e chimico; le informazioni sono divise per sezioni: “structure details”, “protein details” e “gene details”. Ci sono molti link che permettono facilmente di raggiungere i diversi programmi o database citati così da velocizzare la ricerca. METHODS Sono riportati i dettagli tecnici dell'esperimento di cristallografia. GEOMETRY Sono riportati i dettagli tecnici di ciò che l'esperimento ha prodotto, con grande attenzione al FDS (fold deviation score, definito come un multiplo della deviazione standard per un valore di riferimento specifico) che indica quanto i nostri dati si discostano da dei valori di riferimento. Questa pagina è divisa in cinque sezioni: “graphics”, “MolProbity Ramachandran plot” “bond length ”, “bond angle ” e “dihedral angle ”. (fig. 17) fig. 17: esempio di pagina "geometry" LINKS Sono elencati una serie di links a programmi esterni che possono essere utili a completare l'analisi della struttura biologica cercata. (fig. 18) fig. 18: esempio di pagina "links"