capitolo3_motivi strutturali

CAPITOLO 3
GLI ELEMENTI STRUTTURALI DELLE PROTEINE
Gli elementi di struttura secondaria si possono ricondurre sostanzialmente a tre
diverse tipologie (Fig. 1):
-
α-elica
filamenti β
anse o ripiegamenti (“loop”)
Figura 1. Strutture secondarie. È stata molto utile, ai fini di una rapida e chiara "lettura"
delle strutture 3D delle proteine, la rappresentazione schematica introdotta per indicare
gli elementi di struttura secondaria: eliche = cilindri o spirali, filamenti = frecce NÆC,
“loop” = nastri. Tutto ciò ha favorito anche l'identificazione di strutture supersecondarie
e di motivi strutturali ricorrenti nelle proteine.
In una proteina segmenti peptidici di varia lunghezza si dispongono a formare
strutture regolari. Queste strutture sono molto diffuse in quanto stabili, poiché
minimizzano le repulsioni steriche e rendono massima la potenzialità di
formazione dei legami idrogeno.
Le più comuni strutture secondarie sono le α-eliche, mentre il secondo
elemento strutturale principale presente nelle proteine strutturali è il filamento
β che spesso si presenta sotto forma di foglietto costituito da due o più
filamenti. La disposizione più comune di un’ α-elica è all’esterno della
proteina con un lato rivolto verso il solvente e l’altro verso l’interno della
proteina stessa. In questo caso l’elica si dice amfipatica e la sequenza primaria
presenta un’alternanza regolare di aminoacidi a carattere idrofilico e
idrofobico.
65
Il foglietto β è una struttura stabile se costituito da più filamenti e può essere
parallelo o antiparallelo a seconda della direzione in cui sono disposti i vari
filamenti.
L’α-elica
L'α-elica è il risultato del ripiegamento presumibilmente più "naturale" che
una catena peptidica possa produrre. Ciò è confermato dal fatto che l'α-elica è
l'elemento di struttura secondaria più comune nelle proteine. L' α-elica è una
struttura regolare, caratterizzata da parametri ben precisi. Si forma quando un
certo numero di coppie successive degli angoli diedri e ψ assumono valori
intorno a -60° e -50° rispettivamente. In questo modo i piani peptidici si
dispongono in maniera elicoidale intorno ad un asse longitudinale. L' α-elica
ha un passo di 5.4 Å ed ogni spira dell'elica è costituita da 3.6 residui
aminoacidici (Fig. 2).
Figura 2. Schema di un’ α-elica con
evidenziati i legami idrogeno.
L'eccezionale stabilità di questa conformazione dipende dal fatto che tutti gli
NH e i CO dei gruppi peptidici sono impegnati in legami idrogeno. Ogni
legame idrogeno si forma fra l'idrogeno dell'NH di un residuo e l'ossigeno del
CO del quarto residuo successivo. La direzione dei legami a idrogeno è
pressoché parallela all'asse dell'elica. L' α-elica presente nelle proteine è quasi
sempre destrorsa, in quanto gli aminoacidi proteici sono nella configurazione
"L"; ed in un'elica sinistrorsa, i gruppi laterali R risulterebbero troppo vicini ai
gruppi CO, destabilizzando l'elica. Le catene laterali R dei residui
aminoacidici sono tutte rivolte verso l'esterno dell'elica. La caratteristica
chimico-fisica di questi gruppi influisce sul modo in cui le strutture ad α-elica
si dispongono per costituire la struttura terziaria della proteina. Alcuni
66
aminoacidi sono considerati "buoni formatori" di α-eliche, altri, quali la
prolina, possono invece destabilizzare l'elica provocandone un ripiegamento.
Il foglietto β
Anche il secondo elemento di struttura secondaria è caratterizzato da una
conformazione regolare. I tratti della catena peptidica a conformazione β sono
distesi in una struttura con andamento a zig-zag dei piani peptidici. I residui
laterali sono diretti perpendicolarmente al piano mediano della struttura,
orientandosi in maniera alternata da un lato o dall'altro del piano, formando il
filamento β (Fig. 3).
Figura 3. Rappresentazione schematica di un filamento β.
Molto spesso nelle proteine, due o più filamenti β tendono ad affiancarsi
lateralmente e, formando legami idrogeno fra loro, a generare strutture estese,
pieghettate, dette foglietti β. Nelle strutture β, i legami idrogeno vengono a
crearsi fra tratti di catene affiancate (Fig. 4), anziché fra residui del medesimo
tratto, come nell' α-elica. Normalmente i foglietti β non sono planari, ma
tendono ad assumere nell'insieme una forma incurvata e lievemente
"avvitata".
Figura 4. Rappresentazione schematica del foglietto β parallelo.
I filamenti β antiparalleli sono tra gli elementi più stabili. L’elevata stabilità è
dovuta al formarsi di legami idrogeno lineari tra le loro catene principali. Nella
figura 5 è immediatamente osservabile che il gruppo CO ed il gruppo NH sono
67
lineari l’uno rispetto all’altro, in tal caso l’angolo accettore-idrogeno-donore è
pari a 180° e quindi il legame idrogeno è molto stabile.
Figura5. Sopra: foglietto β antiparallelo; sotto:
foglietto β parallelo;
Risultano, invece, meno stabili i foglietti β paralleli, in quanto in essi non si
riscontra tale linearità. Di conseguenza le strutture costituite unicamente da
foglietti β paralleli sono relativamente rare proprio perché meno stabili. Per
ottenere maggiore stabilità i β paralleli devono assumere delle conformazioni
particolari, mentre i “β–barrel”, costituiti da filamenti β antiparalleli, sono tra
le architetture che si trovano più frequentemente.
I “loops”
Oltre ai due elementi regolari di struttura secondaria appena descritti, nelle
proteine sono presenti tratti di catena apparentemente disorganizzati, di
lunghezza anche molto variabile e più o meno convoluti. Questi tratti, definiti
“loops”, fanno da collegamento fra α-eliche o filamenti β, ed hanno un ruolo
importante nell’organizzazione 3D della catena peptidica. Sono relativamente
flessibili e, soprattutto, consentono cambi di direzione alle sequenze a
conformazione α e β.
Molto comuni sono i brevi “loops” di 3-5 residui che collegano due filamenti β
consecutivi, orientati in modo antiparallelo (β-turns), come illustrato in figura
6.
Figura 6. Sinistra: grafico che illustra
la presenza di “loops” a forcina in più
proteine diverse; destra: i due tipi di
“loop” a forcina più frequenti.
68
Inoltre, i “loops” partecipano spesso alla formazione di siti di legame (come i
“loops” degli anticorpi) o del sito attivo degli enzimi. Nelle regioni “loop” è
quasi una costante la presenza degli aminoacidi glicina o prolina, i cui effetti
sulla conformazione della catena sono stati descritti nei precedenti capitoli.
La presenza di strutture secondarie connesse da “loops” di diversa lunghezza
permette di specificare per ogni proteina il concetto di topologia, che può
essere definito come la modalità con cui i diversi elementi di struttura
secondaria si connettono tra loro.
I diagrammi topologici
I diagrammi di topologia risultano molto utili per rappresentare le connessioni
tra gli elementi di struttura secondaria presenti in una proteina. Ad esempio un
foglietto β può essere caratterizzato da topologie notevolmente diverse.
L’identificazione della topologia di una proteina è molto importante in quanto
soltanto proteine aventi la medesima topologia possono avere lo stesso fold e
quindi avere una comparabile struttura tridimensionale.
La figura 7 illustra tre tipi di foglietti beta che si trovano in connessione
diversa.
Figura.7. Diagrammi topologici di alcuni foglietti β
a) foglietto β formato da 4 filamenti antiparalleli
b) foglietto β costituito da 5 filamenti paralleli
c) struttura “β barrel” formata da 8 filamenti antiparalleli
In a) troviamo un tipo di connessione semplice, detta “up and down”, dove il
C-term di un filamento si connette con l’N-term di un altro filamento mediante
un piccolo “loop”; in b) si hanno delle connessioni tra filamenti beta paralleli,
e, di conseguenza, saranno necessari “loop” di connessione molto più lunghi.
In questi casi, tra un filamento e l’altro si trova un’α-elica e, quindi, una
connessione di tipo βαβ. In c) si ha invece una connessione mista, dove esiste
una connessione a forcina (sinistra e destra) ed un motivo a greca (centro).
69
Motivi strutturali
L’unione di strutture α e β dà luogo ad alcuni semplici motivi strutturali la cui
combinazione può generare strutture tridimensionali particolarmente
complesse. In generale, è possibile scomporre una struttura proteica complessa
come sommatoria di elementi base formati da alcuni motivi strutturali (Fig. 8).
I motivi strutturali più ricorrenti sono i seguenti:
1. elica-loop-elica: è presente in molte proteine che legano il Ca2+
(calmodulina, parvalbumina e troponina C) o il DNA.
2. forcina β: due filamenti β antiparalleli uniti da un breve “loop” di 2-5
residui.
3. chiave greca: per formare questo motivo occorrono (minimo) quattro
filamenti β, due brevi “loops” e un “loop” più lungo.
4. β-α-β: è costituito da due filamenti β paralleli, intercalati da un'α-elica.
Figura8. Rappresentazione di alcuni motivi strutturali ricorrenti.
Motivo Elica-”loop”-elica
In figura 9 si può osservare il motivo strutturale “elica-loop-elica” specifico
per il legame con il DNA (Fig. 9sinistra) e per il legame con il calcio (Fig.
9destra).
Figura 9. I due tipici motivi strutturali
elica-loop-elica.
Sinistra:
motivo
strutturale tipico del legame con il DNA;
destra: motivo strutturale tipico del
legame con il calcio.
70
Il motivo che lega il calcio è stato individuato per la prima volta nella
parvalbumina. Tale motivo è detto anche “mano EF” in quanto la quinta (E) e
la sesta elica (F) sono le parti della proteina utilizzate per descrivere i legame
del calcio (Fig. 10).
Figura 10. Schema del motivo strutturale che lega il calcio.
Paragonando il motivo ad una mano, si nota che dalla base dell’indice parte
l’elica E, il “loop” di 12 residui è rappresentato dal dito medio, mentre l’elica
F si direziona partendo dalla base del pollice verso l’estremità. I ligandi del
calcio sono quasi tutti presenti sul “loop” di connessione tra le due eliche, che
sono quasi perpendicolari tra di loro.
Il motivo comprende 2 eliche: E ed F, che affiancano un “loop” formato da 12
residui contigui; 5 di questi residui legano il calcio. Si tratta di residui la cui
catena laterale contiene atomi di ossigeno, che rappresentano i ligandi
preferenziali del calcio che in genere ha un alto numero di coordinazione
(intorno a 6/8). Le catene laterali preferibilmente coordinate sono quelle di
aspartico o glutammico. Le sequenze del motivo EF riportate in figura 11
mostrano che ci sono delle posizioni che devono essere rispettate e che
formano una sequenza consenso: il residuo 6 dev’essere una glicina, gli
aminoacidi deputati al legame con il calcio indicati in arancione devono essere
aminoacidi con catene laterali costituite da possibili ligandi, mentre in verde
sono evidenziati i residui che vanno a formare il core idrofobico.
Figura 11. Sequenze consenso dei motivi EF hand in tre proteine diverse.
71
In figura 12 vediamo il motivo elica-loop-elica presente nei fattori di
trascrizione che interagiscono con il DNA. L’elica di riconoscimento è
indicata in rosso ed in essa sono presenti residui carichi positivi che fanno
interazione con il DNA; l’altra elica è un’elica di supporto di carattere
esclusivamente strutturale.
Figura12. Tipico motivo elica-”loop”-elica legante
il DNA.
Forcine β
Si tratta del più semplice motivo strutturale che coinvolge filamenti β. E’
costituito da 2 filamenti β antiparalleli adiacenti uniti da un “loop” la cui
lunghezza è generalmente compresa tra 2 e 5 residui. Si tratta di un motivo
riscontrabile piuttosto frequentemente sia in forma isolata che come parte di
foglietti β più complessi. La figura 13 illustra proprio questo concetto: nel
caso dell’inibitore della tripsina bovino, la forcina β si trova come foglietto
isolato, mentre nel caso dell’erabulotossina, tossina presente nel veleno di un
serpente, il β turn fa parte di un foglietto più complesso: 2 forcine β più un
filamento β addizionale.
Figura 13. Sinistra inibitore della tripsina bovino; destra: i due motivi a forcina presenti
nell’ erabulotossina.
72
Motivo a greca
Si ritiene che il motivo a greca sia nato in seguito ad una modificazione di una
forcina β, o meglio, che derivi da una lunga forcina ripiegatasi
successivamente nella sua metà. In tale motivo un filamento β è collegato con
un altro che si trova dopo tre filamenti (Fig. 14). Questo motivo è ritrovato in
molte proteine, soprattutto nei barilotti β a filamenti antiparalleli.
Figura 14. Rappresentazione del motivo a greca.
Motivo β-α-β
Il motivo β-α-β permette la connessione tra due filamenti β paralleli, il motivo
è infatti costituito da due filamenti β connessi tra loro da un’α-elica e da due
piccole anse (Fig. 15).
Figura 15. Il motivo β-α-β.
Nel motivo, l’α-elica collega l’estremità carbossilica di un filamento con
quella aminica del filamento successivo. L’elica si associa strettamente ai due
filamenti attraverso interazioni di tipo idrofobico. La connessione di più di un
motivo dà luogo a strutture proteiche relativamente complesse. Il “loop” che
collega il terminale carbossilico del filamento β con quello aminico dell’ αelica è spesso implicato nella formazione del sito attivo. Il motivo β-α-β si
73
trova sempre in connessione destrorsa, in modo tale che l’elica si posizioni al
di sopra del piano formato dai due filamenti (Fig. 16). In tutte le proteine note
β-α-β è sempre di tipo destrorso, l’unica eccezione è rappresentata dalla
subtilisina.
Figura 16. Collegamento destrorso (a) e sinistrorso (b) del motivo β-α-β.
I domini
I diversi motivi strutturali e strutture secondarie si assemblano seguendo
alcune modalità preferenziali. In questo paragrafo verranno prese in
considerazione le modalità di assemblaggio delle strutture α, delle strutture α-β
e delle strutture β.
Strutture a domini alfa
Elica superavvolta
Le α-eliche possono assumere differenti posizioni, ma la più frequente è quella
delle eliche parallele superavvolte. Quando 2 α-eliche si trovano nella
configurazione superavvolta, il numero di residui per giro passa da 3.6 a 3.5.
In tal modo le eliche formano un “heptad repeat”, in cui ogni sette residui è
presente un residuo di leucina. In figura 17 i sette residui sono indicati con
lettere dell’alfabeto: a, b, c, d, e, f, g, dove d rappresenta una leucina. Inoltre,
poiché ogni 3.5 residui le eliche si interfacciano tra di loro, in questa posizione
è sempre presente un residuo a carattere apolare che molto spesso è una valina.
74
Figura 17. Schema e sequenza aminoacidica di due eliche superavvolte.
Le interazioni tra le eliche superavvolte vengono rafforzate, oltre che da
contatti tra residui idrofobici, anche da interazioni elettrostatiche dei residui
che si trovano adiacenti ai residui idrofobici.
Tali residui, come quelli in posizione g ed e, (Fig. 18), hanno carica di segno
opposto al fine di fortificare l’interazione tra le eliche.
Figura 18. Impaccamento dei residui di eliche superavvolte e ruolo dell’interazioni
elettrostatiche.
75
Fascio a 4 eliche
Il fascio a 4 eliche si riscontra frequentemente nei domini composti da α
eliche. Il fascio a 4 eliche è costituito da 2 coppie di eliche che sono
antiparallele l’una rispetto all’altra. In questo dominio le eliche hanno un
carattere fortemente anfipatico e, come si evince dalla figura 19, la parte
interna è fortemente idrofobica, mentre quella esterna è decisamente idrofilica.
Figura 19. Schema del fascio a quattro eliche.
Il ripiegamento è altamente stabile in quanto somma le interazioni idrofobiche
all’interfaccia delle quattro eliche ai legami idrogeno intra-elica già presenti in
ogni singola elica. E’ presente come singolo dominio di proteine
monomeriche, ma anche come motivo di dimerizzazione o di
tetramerizzazione. Inoltre si trova in proteine completamente scorrelate
funzionalmente. In figura 20 sono illustrati, a titolo di esempio, il citocromo
b562 ed il fattore umano della crescita.
Figura 20. Il citocromo b 562 e l’ormone della crescita umano.
76
In figura 21 invece lo stesso dominio è illustrato per Rop che è una proteina
dimerica. In questo caso il monomero è rappresentato da due eliche
antiparalelle. I due monomeri si uniscono tra loro a formare un fascio a 4
eliche. L’architettura è assolutamente identica, tuttavia, nei precedenti esempi
è formata da un’unica proteina, in questo caso da due subunità che insieme
costituiscono l’architettura della macromolecola.
Figura 21. Il fascio a quattro eliche nella proteina dimerica Rop.
Ripiegamento della globina
Una delle più importanti strutture ad α-elica è costituita dal ripiegamento della
globina. La struttura della globina è un fascio ad otto eliche, denominate A-H,
collegate da brevi regioni “loop” e disposte in modo da formare una tasca
idrofobica in cui viene disposto il sito attivo costituito dal gruppo eme. La
lunghezza delle eliche è variabile, la più lunga è la H, circa 28 residui, la più
breve è la C di circa 7 residui (Fig. 22).
Figura 22. Struttura del dominio della globina.
77
Le interazioni tra le eliche avvengono tra eliche che non sono sequenziali ad
eccezione delle ultime due (G e H). Il dominio non può essere scomposto
come sommatoria di motivi strutturali più semplici e può essere descritto
dall’avvitamento delle eliche intorno al core centrale in direzioni diverse.
Il ripiegamento si trova in un elevato numero di proteine correlate
funzionalmente, quali mioglobine, ficocianine, emoglobine.
Strutture a dominio alfa-beta
Il motivo β-α-β è un motivo semplice la cui composizione può generare 3
classi diverse di strutture: il TIM barrel, il foglietto β aperto ed il ferro di
cavallo (Fig. 23).
Figura 23. Struttura del TIM barrel, foglietto β aperto ed il ferro di cavallo.
Nel TIM barrel le α-eliche sono collocate all’esterno di una struttura a barile
costituita da filamenti β. Nella struttura del foglietto aperto i filamenti sono
ruotati uno rispetto all’altro e le α-eliche si trovano sia da una parte che
dall’altra del piano del foglietto. La terza classe è costituita da sequenze ricche
di leucina, dove i filamenti β formano un foglietto ricurvo parzialmente
schermato dal solvente da α eliche esterne. Ne deriva che le eliche si trovano
totalmente da una lato del foglietto, ma la struttura non è chiusa, assumendo,
in particolare, la forma di un ferro di cavallo.
Tutte e tre le classi sono costituite dall’unione del motivo base β-α-β. La
diversità della struttura dipende dalla differente modalità di connessione. Due
motivi di tipo β-α-β infatti hanno due possibilità di connessione nel formare un
foglietto a quattro filamenti paralleli, (Fig. 24). Il filamento β3 infatti può
trovarsi adiacente al β2, generando un foglietto di tipo 1234, oppure al β1
dando origine ad un foglietto di tipo 4312. Poiché il motivo β-α-β è sempre
78
destrorso, nella prima connessione le eliche vengono tutte a trovarsi sullo
stesso lato, dando luogo alla struttura a TIM barrel o a ferro di cavallo. Nel
secondo caso, per allineare i filamenti è necessario ruotare il secondo motivo e
ciò conduce le eliche a posizionarsi sia da un lato che dall’altro del foglietto,
come nella struttura a foglietto aperto (Fig. 24).
Figura 24. Tipologia di connesione di due motivi β-α-β.
TIM barrel
Il TIM barrel è una struttura che ha più costrizioni rispetto al foglietto beta
aperto, il quale potrebbe, in teoria, estendersi in maniera indefinita. Il TIM
barrel è una struttura molto frequente poiché è caratterizzata da una buona
stabilità. La struttura è costituita dalla presenza di un numero definito di
filamenti β, preferenzialmente otto, che forniscono le doghe per formare una
botte chiusa circondata da α-eliche. Questa struttura è una delle più ampie e
regolari, in quanto necessita di circa 200 aminoacidi.
La parte centrale del foglietto β è composta tutta da aminoacidi idrofobici che
risultano strettamente associati alle catene idrofobiche delle eliche che si
interfacciano con i β, mentre le facce esterne delle eliche sono idrofiliche (Fig.
25).
79
Figura 25. Il TIM barrel e la sequenza dei suoi filamenti.
Nelle interazioni che si formano tra filamenti β ed α eliche e nella formazione
del core idrofobico della botte hanno un ruolo predominante i residui di Val,
Ile e Leu che rappresentano circa il 40% dei residui presenti. Si tratta di una
tipologia di proteina che consente di comprendere molto bene la divisione
esistente tra regione strutturale e regione attiva. Infatti, il barrel rappresenta la
parte strutturale, mentre il sito attivo si trova sempre nei ““loops” di
connessione tra il C-terminale del filamento β e l’N-terminale dell’α-elica
stessa (Fig. 26). In linea generale, tutte le proteine possiedono un core sul
quale viene poi ingegnerizzato un sito attivo differente a seconda della
funzione della macromolecola. In base a quanto detto, nel TIM barrel risulterà
molto facile capire dove si trovi il sito attivo, ovvero sui “loops” tra il
filamento β e l’α-elica.
Tutti i TIM barrel noti hanno funzioni enzimatiche, in alcuni di questi enzimi
il TIM barrel rappresenta l’intera proteina, mentre in altri casi la proteina è a
multidominio. Un esempio è fornito dalla piruvato chinasi (Fig. 26) che si
ripiega in più domini, uno dei quali è il TIM barrel. Nelle proteine a
multidominio l’attività enzimatica è sempre associata al TIM barrel.
Figura 26. Struttura
della piruvato chinasi e
collocazione del sito
attivo nel TIM barrel.
80
Foglietto α-β aperto
Le strutture a foglietto aperto hanno α-eliche su entrambi i lati del foglietto.
Questo implica che la struttura non è mai chiusa in quanto non si può mai
formare un barile a meno che i filamenti β non racchiudano le α-eliche di un
lato del foglietto. Inoltre, esistono sempre due filamenti β adiacenti i cui
collegamenti col filamento successivo si trovano su lati opposti rispetto al
foglietto. E’ proprio in tale area che si verifica un cambiamento di direzione
nella connessione con gli altri filamenti e dove si trova sempre il sito attivo,
ossia in prossimità del C-terminale dei filamenti β. Osservando la figura 27 si
può comprendere come il filamento 1 si connetta con il 2 attraverso un’α-elica
e come il filamento 4 si connetta al filamento 5 sempre con un’α-elica. Nel
punto di inversione di connessione (cioè dove ci sono i C-terminali dei
filamenti) esiste una piccola cavità ed è proprio lì che in generale si trova il
sito attivo.
Un’ulteriore caratteristica è che le α-eliche sono sempre strettamente aderenti
al foglietto tramite interazioni idrofobiche.
Figura 27. Collocazione del sito attivo nelle strutture a
foglietto aperto.
In seguito sono riportati alcuni esempi in cui è
possibile presumere la collocazione del sito attivo dalla topologia della
proteina (Fig. 28 e Fig. 29).
Figura 28. Struttura della flavodossina e
adenilato chinasi e collocazione delle fessure
dove è collocato il sito attivo.
81
Figura 29. Struttura dell’esochinasi e della fosfoglicerato mutasi e collocazione delle
fessure dove è collocato il sito attivo.
Ferro di cavallo
L’ultima struttura del tipo α-β è la struttura denominata ferro di cavallo. Dalla
figura 30 si può notare che l’architettura ricorda quella del TIM barrel, in
quanto le α-eliche si trovano tutte dalla stessa parte del foglietto β, ma la
struttura non si chiude ed acquisisce la forma tipica del ferro di cavallo.
Figura 30. Struttura del dominio a ferro di
cavallo.
In questa struttura il numero di filamenti β è maggiore di 8 e la caratteristica
principale è la presenza di numerosi residui di leucina. Infatti, questi motivi
82
sono anche definiti “motivi ricchi in leucina”, poichè sia il filamento β, sia l’αelica, sia il “loop” possiedono un elevato numero di leucine, le quali si trovano
tutte interfacciate verso l’interno formando in tal modo un forte core
idrofobico che stabilizza la struttura (Fig. 31). I residui di leucina 2-5-7-12-1720-24 del motivo sono in genere invarianti e rappresentano quindi una
sequenza consenso in base alla quale individuare i domini a ferro di cavallo.
Figura 31. Schema dell’interazione dei residui di
leucina.
Strutture a dominio beta antiparallele
Nelle strutture β antiparallele, i filamenti β antiparalleli sono solitamente
disposti in modo tale da formare due foglietti β che si impaccano uno contro
l’altro creando una struttura a botte distorta che costituisce il core della
molecola. Tuttavia la botte non è l’unico elemento che può essere composto da
filamenti β antiparalleli. A seconda del modo in cui i filamenti β sono collegati
tra loro, queste strutture possono essere suddivise in:
strutture up and down. Questo tipo di collegamento è molto frequente in
strutture costituite da 8 filamenti β, a forma di botte, dove ogni filamento è
collegato al successivo mediante un piccolo “loop” (es. proteina legante il
retinolo). Generalmente, proteine con un core di questo tipo, legano all’interno
della loro struttura ligandi voluminosi ed idrofobici.
strutture a greca. Anche in questo caso, i filamenti formano una botte.
Questa topologia si ritrova nelle immunoglobuline ed in molti enzimi.
strutture jelly roll. Caratterizzanti varie molecole proteiche, tra cui le
proteine virali di rivestimento e l’emagglutinina del virus dell’influenza.
83
Il β barrel
Nelle proteine “tutte β”, la struttura che risulta essere più stabile è il β barrel, o
barilotto β, molto spesso costituito da 8 filamenti β antiparelleli. In generale, 8
è il numero ideale per formare un barrel, poiché dà la maggior compattezza
possibile. Possono però esistere barilotti con un numero diverso di filamenti β.
I β barrel possono avere topologia diversa e, di conseguenza, connessioni di
tipo diverso. La figura 32 mostra una tipica struttura a botte, dove gli otto
filamenti formano uno scheletro cilindrico, mentre i “loop” accomodano il sito
attivo.
Figura 32. Struttura della Cu,Zn superossido
dismutasi con la sua struttura a botte di otto
filamenti antiparalleli.
Una topologia che si riscontra molto frequentemente nei β barrel è la topologia
a greca, dove esiste la connessione del filamento n con il filamento n-3 o n+3
(Fig. 33).
Figura 33. Il motivo a greca in un dominio a botte antiparallela.
84
L’altra topologia che si ritrova spesso in queste proteine è l’up and down, in
cui il C-terminale di un filamento si connette con l’N-terminale di un altro e
così via.
In figura 34, ad esempio, è illustrata la struttura della proteina che lega il
retinolo: in questo caso il sito attivo si trova all’interno del barrel stesso.
Figura 34. Struttura a botte della proteina che lega il retinolo.
Il sito attivo è costituito da aminoacidi idrofobici forniti dai filamenti β. Una
struttura a botte antiparallela è formata da due foglietti sovrapposti. In figura
34 i filamenti 1 2 3 4 5 6 formano un foglietto mentre i filamenti 1 8 7 6 5
formano il secondo. I filamenti 1 5 6 contribuiscono a formare entrambi.
Un altro esempio di proteina connessa con una topologia up and down è
rappresentato dalla neuroaminidasi. La struttura intera è complessa, in quanto
la proteina è tetramerica (Fig. 35), ma la scomposizione dei motivi presenti in
ogni monomero segnala la presenza di principi strutturali semplici.
Figura 35. La struttura tetramerica della
neuroaminidasi.
La struttura che viene a delinearsi non è
propriamente una botte, in quanto i
foglietti β si dispongono in modo
circolare attorno ad un asse passante per
il centro della molecola. La proteina
contiene
complessivamente
1600
aminoacidi ed è coinvolta nell’idrolisi dell’acido sialico. Ogni singolo
85
monomero è costituito da una ripetizione di 6 foglietti i quali si compongono
di 4 filamenti ciascuno, connessi tra di loro in una topologia up and down (Fig.
36). I sei foglietti sono disposti in modo da formare sei lame di un’elica a sei
pale.
Figura 36. Struttura di un monomero di neuroaminidasi e sua topologia.
Sia le tipologie dei sei foglietti presenti in un monomero, che le connessioni
tra i diversi motivi, risultano essere identiche. Il filamento 4 del primo
foglietto è in connessione con il filamento 1 del foglietto successivo e così via.
Ciò conduce ad una molecola con una simmetria pseudosenaria, in cui i 12
“loops” di connessione si trovano tutti dalla stessa parte della molecola. I
“loops” di connessione rappresentano i “loops” del sito attivo e la
neuroaminidasi rappresenta un esempio emblematico della separazione tra la
regione strutturale e la regione del sito attivo. I filamenti β costituiscono infatti
lo scheletro strutturale su cui viene ad implementarsi il sito attivo, composto
da “loops” di connessione tra un elemento e l’altro (Fig. 37).
Figura 37. Schema della neuroaminidasi e del suo sito attivo.
86
Domini a botte a jelly roll
L’altra struttura a β barrel è la botte a jelly roll. Al fine di comprendere tale
struttura, si consideri una striscia di carta, i cui due lati siano costituiti
ciascuno da quattro filamenti dei quali quelli
posti su lati opposti interagiscono tra loro
(Fig. 38).
Figura 38. Rappresentazione schematica della botte
a jelly roll.
Si immagini, inoltre, di avvolgere il nastro di carta su un cilindro in modo tale
che i filamenti β si trovino sui lati, con i “loop”s sulla cima e sul fondo del
cilindro stesso. I filamenti antiparalleli legati da legami idrogeno, ovvero le
coppie 1-8, 2-7, 3-6, 4-5, si disporranno in modo che il filamento 1 sia
adiacente al 2, il 7 al 4 il 5 al 6 e il 3 al 8. Tutti i filamenti adiacenti sono
antiparalleli. L’8 continua ad interagire con l’1, il 2 col 7 e così via, in altre
parole, le coppie di filamenti β antiparalleli interagiscono tra loro, formando la
struttura della proteina stessa.
La corrispondente topologia viene descritta in figura 39.
Figura 39. Topologia della botte a jelly roll.
Un esempio di botte a jelly roll è la testa dell’emagglutinina (Fig. 40), ovvero
la parte globulare della proteina del virus dell’influenza, che deve riconoscere
l’acido sialico per iniziare il processo di infezione.
87
Figura 40. Struttura del monomero dell’emagglutinina e schema della botte a jelly roll
presente nella zona terminale del monomero.
L’emagglutinina è un trimero e si trova ancorata sulla membrana del virus
dell’influenza. E’ composta da due subunità che sono HA1 e HA2. HA1 è
costituita da 328 aminoacidi e HA2 da 221. Le due catene sono unite da ponti
disolfuro.
Le due catene formano una struttura di cui una parte è costituita da uno stelo
che si estende dalla membrana fino alla seconda parte che rappresenta un
dominio globulare.
HA1 parte dalla membrana anche se non si inserisce in essa e forma una
struttura distesa che segue per circa 100 Å lo stelo fino ad estendersi in una
regione globulare. L’apice globulare è una struttura a jelly roll composta da
otto filamenti costituiti da circa 150 residui. Dopo aver dato origine alla zona
globulare la subunità prosegue a rafforzare lo stelo seguendolo in maniera
parallela con altri 70 residui.
HA2 contribuisce unicamente alla formazione dello stelo ed all’inserimento
nella membrana.
Il sito di riconoscimento per l’acido sialico si trova sulla testa globulare in una
regione interna del jelly roll (Fig. 40) ad una distanza di più di 100 Å dalla
membrana. Il sito di legame per l’acido sialico si trova in una tasca interna. Gli
anticorpi del sistema immunitario si legano a questa molecola in prossimità del
sito di legame per impedire l’infezione virale. Il virus per sfuggire a questo
meccanismo di difesa dà luogo a mutazioni che tuttavia si trovano sull’orlo
della tasca in quanto la parte interna della tasca si deve conservare per
mantenere intatte le capacità di riconoscimento della molecola di acido sialico.
88
Domini ad eliche β parallele
Elica β a 2 foglietti
I domini costituiti da filamenti β paralleli sono relativamente rari in quanto
formano legami idrogeno meno stabili rispetto ai filamenti β antiparalleli. Per
questo motivo la strategia utilizzata dai filamenti β paralleli per avere una
struttura stabile è quella di formare eliche costituite da filamenti β.
In tali strutture la catena polipeptidica forma un superavvolgimento ad elica
costituito da filamenti β connessi da “loops”. Attualmente sono conosciute due
tipologie di tali strutture.
Nella più semplice l’elica β è costituita da due foglietti e ogni giro dell’elica
comprende due filamenti e due “loops”. (Fig. 41).
Figura 41. Schema dell’elica β a due foglietti.
L’unità strutturale base di questo motivo contiene 18 aminoacidi: tre in ogni
filamento e sei in ogni “loop”. La sequenza mostra delle ripetizioni specifiche,
in particolare è possibile identificare una sequenza consenso di nove residui
Gly-Gly-X-Gly-X-Asp-H-U-X, dove U è un aminoacido con catena
ingombrante e idrofobica. I primi sei formano il “loop”, gli ultimi tre il
filamento β. Un’altra caratteristica di questi motivi è che sono coinvolti nel
legame dello ione calcio attraverso il residuo Asp.
L’altra struttura, costituita anch’essa da filamenti β paralleli, è un’altra elica,
dove l’unità base è formata da 3 filamenti β, la cui caratteristica è di essere
estremamente corti, da 3 a 5 residui, i quali sono collegati da “loops” (Fig. 42).
Figura 42. Schema dell’elica a tre filamenti β.
89
La struttura è costituita da tre filamenti: due quasi paralleli ed il terzo
perpendicolare ai primi due. Il “loop” di connessione tra il 1° e il 2° filamento
è costituito unicamente da 2 residui, mentre gli altri due “loops” sono molto
più lunghi e variano per dimensione e conformazione. L’elica viene così a
formare tre ampi foglietti paralleli grossolanamente disposti come tre facce di
un prisma. Un esempio di questa tipologia è rappresentato dalla pectato liasi
(Fig. 43).
Figura 43. Struttura della pectato liasi.
La banca dati CATH
CATH è una banca dati che classifica le proteine su basi strutturali.
La classificazione è di tipo gerarchico. Le due coautrici sono: C. A. Orengo e
J. M. Thornton. CATH rappresenta una banca dati secondaria, in quanto a
differenza di una banca dati primaria, ove i dati derivanti dall’esperimento
vengono inseriti senza alcuna manipolazione, le informazioni vengono
analizzate, selezionate e poi immagazzinate.
L’evoluzione ha generato famiglie di proteine con diversa sequenza ma
correlate strutturalmente. In effetti, proteine con sequenza molto diversa
possono avere una struttura tridimensionale simile, conseguentemente, una
classificazione basata sulla struttura tridimensionale risulterà di grande utilità,
al fine di individuare importanti correlazioni. La classificazione effettuata in
CATH avviene in maniera semi-automatica, ovvero in parte manualmente ed
in parte in modo automatico.
90
La sigla CATH sta per: Class, Architecture, Topology, Homologous
superfamily, termini che individuano i 4 livelli principali di classificazione
delle proteine:
- Classe
- ArchitetturaTopologia
- OmologiaLa Classe (livello C) è un livello molto semplice, e viene
assegnata in maniera automatica. La classe è determinata in accordo al
contenuto di struttura secondaria nella proteina. Sono definite 4 classi che
sono: α, β, αβ ed un’ultima in cui il contenuto di struttura secondaria è
minimo.
L’Architettura (livello A) considera la forma generale del dominio determinata
dalla orientazione delle strutture secondarie ma ignora le connessioni tra le
strutture secondarie stesse. Attualmente, questa classificazione viene effettuata
manualmente usando una semplice descrizione dell’arrangiamento della
struttura secondaria come β barrel o sandwich a tre strati etc..
La Topologia (livello T) prende in considerazione le connessioni tra gli
elementi di struttura secondaria: le strutture sono raggruppate in gruppi di
ripiegamento in base alla forma ed alle connessioni delle strutture secondarie,
per cui le proteine vengono classificate in famiglie di ripiegamento.
Homologous Superfamily (livello H) rappresenta il livello che raggruppa
proteine che si ritiene abbiano un ancestore comune e che quindi siano
omologhe. In questo modo vengono definiti dei gruppi di superfamiglie
omologhe. Esiste anche un 5° livello S (Sequence family), dove vengono
raggruppate proteine che hanno identità di sequenza ≥ 35%. In realtà esistono
ulteriori sottolivelli ma non saranno affrontati in questo capitolo.
Le Classi sono numerate con un numero che va da 1 a 4, la classe α con 1, la
classe β con 2 e così via.
Il livello successivo è l’architettura che, come è stato detto, è la descrizione
dell’arrangiamento della struttura secondaria indipendentemente dalle
connessioni.In figura 44 sono riportate una serie di proteine che appartengono
ad Architetture diverse (fascio di eliche, β-barrel, propellor, ferro di cavallo,
ecc..).
91
Figura 44. Esempi di proteine classificate in diversi gruppi di architettura.
A tal livello viene preso in considerazione l’orientamento delle strutture
secondarie e solamente quando verrà presa in considerazione la Topologia e
quindi la connessione tra i diversi elementi si potrà scendere di livello (Fig.
45).
Nell’esempio descritto dalla figura 45 si parte da una classe α-β, per poi avere
una ramificazione in tre architetture diverse: TIM barrel, sandwich e roll.
L’Architettura sandwich a sua volta si ramifica in due Topologie diverse quali
flavodossina e β-lattamasi in quanto queste proteine pur presentando un
arrangiamento e un’orientazione delle loro struttura secondaria simili, sono
caratterizzate dall’avere una Topologia diversa (ovvero connessioni diverse
degli elementi di struttura secondaria).
Figura 45. Esempio di ramificazione e classificazione in diversi livelli.
92
Quindi flavodossina e lattamasi appartengono a due gruppi di Topologia
diversa ma appartengono alla medesima Architettura sandwich ed
appartengono alla medesima classe α-β.
Proteine appartenenti allo stesso gruppo di Topologia hanno un fold
relativamente simile poichè proteine che hanno la stessa topologia hanno gli
elementi di struttura secondaria conservati. Inoltre, sono conservate le
connessioni tra gli elementi di struttura secondaria. In generale, tra proteine
appartenenti allo stesso gruppo di Topologia l’elemento maggiormente
variabile è la lunghezza delle connessioni, o meglio delle anse con le quali gli
elementi di struttura secondaria vengono connessi. Può anche cambiare la
lunghezza degli elementi di struttura secondaria, quali il β strand e l’α-elica. In
generale, proteine che hanno la stessa Topologia hanno un core che è
abbastanza conservato, e quindi hanno strutture simili ma con funzioni
diverse.
La classificazione di una proteina avviene in maniera gerarchica, così che ogni
proteina viene riconosciuta attraverso un numero (Fig. 46). Nell’esempio, il
numero di riconoscimento è 1.10.490.20 derivante dal fatto che le Classi
vengono ad essere numerate da 1 a 4; per i livelli di Architettura, Topologia e
Superfamiglie omologhe la numerazione va di dieci in dieci. Per cui
1.10.490.20 indica che la proteina appartiene alla Classe 1, Architettura 10,
Topologia 490 e Omologia 20.
Figura 46. Esempio di classificazione e di relativa numerazione.
93
In questo modo vengono classificate e numerate tutte le proteine, così che ad
ogni numero corrisponde una ed una sola proteina.
Un ulteriore esempio di classificazione gerarchica e numerazione è riportato in
figura 47.
Figura 47. Esempio di classificazione e relativa numerazione.
Lo spazio dei livelli non è ugualmente popolato, ad esempio al livello H
(Homologous superfamily) ci sono alcuni ripiegamenti che sono più
rappresentati. La maggior frequenza nella rappresentazione di un fold rispetto
ad un altro indica la sua valenza da un punto di vista strutturale. Alcuni fold
infatti sono presenti in enzimi con caratteristiche funzionali completamente
diverse. Il ripiegamento ha quindi delle sue qualità (di stabilità, di flessibilità)
indipendenti dalla funzione a cui è associato. In figura 48 vengono evidenziate
alcuni dei ripiegamenti al livello H più popolati.
Figura 48. Alcuni dei ripiegamenti (livello H)
percentualmente maggiormente rappresentati.
94
Criteri per la classificazione
La metodologia di classificazione è semi-automatica.
Le strutture vengono selezionate dalla banca dati PDB. Vengono selezionate
strutture risolte per diffrazione o per NMR sia di proteine native che di mutate,
prendendo in considerazione proteine risolte almeno a 3 Å di risoluzione. Il
passaggio successivo è quello della comparazione di sequenze che è un
passaggio diretto, perché proteine che hanno un’identità di sequenza superiore
al 35% vengono messe direttamente al livello S.
Lo step consecutivo è quello della divisione delle proteine in domini, che
verranno poi analizzati singolarmente. L’assegnamento della classe è
automatico perché utilizza una procedura che esamina la composizione della
struttura secondaria analizzando il valore degli angoli Φ e ψ e osservando
quanti valori delle coppie sono relativi a struttura α o β. Viene quindi eseguita
una comparazione delle strutture per definire i livelli H e T. La comparazione
viene effettuata in maniera automatica utilizzando il programma SSAP.
Quest’ultimo compara distanze tra residui di una struttura tridimensionale in
maniera sequenziale. Il parametro utilizzato per la classificazione è il numero
S che è proporzionale all’inverso della sommatoria di queste differenze. Tanto
più piccola è questa differenza tanto più saranno simili le strutture e tanto più
S sarà grande. Se S è uguale a 100 le strutture sono completamente identiche,
riducendosi S la differenza aumenterà. La soglia è S=70 per il livello T, e di
S= 80 per il livello H. Quindi tra 70 e 80 la proteina viene classificata nel
livello T, mentre da 80 in su viene classificata nel livello H.
Il livello relativo all’architettura di appartenenza viene definito manualmente.
E’ infatti abbastanza difficoltoso definire tal livello in maniera anambigua e
deterministica, soprattutto in maniera automatica. Architetture che non sono
facilmente descritte in una prima analisi vengono raggruppate in
un’architettura apposita definita semplicemente ‘architettura complessa’.
Infine, viene assegnato un numero CATH. Le proteine possono essere
recuperate nella banca dati utilizzando:
-
il codice PDB
il codice CATH parole chiave che definiscono le proprietà di questa
proteina
La funzione non è presa in considerazione in questa banca dati.
95
96