CAPITOLO 3 GLI ELEMENTI STRUTTURALI DELLE PROTEINE Gli elementi di struttura secondaria si possono ricondurre sostanzialmente a tre diverse tipologie (Fig. 1): - α-elica filamenti β anse o ripiegamenti (“loop”) Figura 1. Strutture secondarie. È stata molto utile, ai fini di una rapida e chiara "lettura" delle strutture 3D delle proteine, la rappresentazione schematica introdotta per indicare gli elementi di struttura secondaria: eliche = cilindri o spirali, filamenti = frecce NÆC, “loop” = nastri. Tutto ciò ha favorito anche l'identificazione di strutture supersecondarie e di motivi strutturali ricorrenti nelle proteine. In una proteina segmenti peptidici di varia lunghezza si dispongono a formare strutture regolari. Queste strutture sono molto diffuse in quanto stabili, poiché minimizzano le repulsioni steriche e rendono massima la potenzialità di formazione dei legami idrogeno. Le più comuni strutture secondarie sono le α-eliche, mentre il secondo elemento strutturale principale presente nelle proteine strutturali è il filamento β che spesso si presenta sotto forma di foglietto costituito da due o più filamenti. La disposizione più comune di un’ α-elica è all’esterno della proteina con un lato rivolto verso il solvente e l’altro verso l’interno della proteina stessa. In questo caso l’elica si dice amfipatica e la sequenza primaria presenta un’alternanza regolare di aminoacidi a carattere idrofilico e idrofobico. 65 Il foglietto β è una struttura stabile se costituito da più filamenti e può essere parallelo o antiparallelo a seconda della direzione in cui sono disposti i vari filamenti. L’α-elica L'α-elica è il risultato del ripiegamento presumibilmente più "naturale" che una catena peptidica possa produrre. Ciò è confermato dal fatto che l'α-elica è l'elemento di struttura secondaria più comune nelle proteine. L' α-elica è una struttura regolare, caratterizzata da parametri ben precisi. Si forma quando un certo numero di coppie successive degli angoli diedri e ψ assumono valori intorno a -60° e -50° rispettivamente. In questo modo i piani peptidici si dispongono in maniera elicoidale intorno ad un asse longitudinale. L' α-elica ha un passo di 5.4 Å ed ogni spira dell'elica è costituita da 3.6 residui aminoacidici (Fig. 2). Figura 2. Schema di un’ α-elica con evidenziati i legami idrogeno. L'eccezionale stabilità di questa conformazione dipende dal fatto che tutti gli NH e i CO dei gruppi peptidici sono impegnati in legami idrogeno. Ogni legame idrogeno si forma fra l'idrogeno dell'NH di un residuo e l'ossigeno del CO del quarto residuo successivo. La direzione dei legami a idrogeno è pressoché parallela all'asse dell'elica. L' α-elica presente nelle proteine è quasi sempre destrorsa, in quanto gli aminoacidi proteici sono nella configurazione "L"; ed in un'elica sinistrorsa, i gruppi laterali R risulterebbero troppo vicini ai gruppi CO, destabilizzando l'elica. Le catene laterali R dei residui aminoacidici sono tutte rivolte verso l'esterno dell'elica. La caratteristica chimico-fisica di questi gruppi influisce sul modo in cui le strutture ad α-elica si dispongono per costituire la struttura terziaria della proteina. Alcuni 66 aminoacidi sono considerati "buoni formatori" di α-eliche, altri, quali la prolina, possono invece destabilizzare l'elica provocandone un ripiegamento. Il foglietto β Anche il secondo elemento di struttura secondaria è caratterizzato da una conformazione regolare. I tratti della catena peptidica a conformazione β sono distesi in una struttura con andamento a zig-zag dei piani peptidici. I residui laterali sono diretti perpendicolarmente al piano mediano della struttura, orientandosi in maniera alternata da un lato o dall'altro del piano, formando il filamento β (Fig. 3). Figura 3. Rappresentazione schematica di un filamento β. Molto spesso nelle proteine, due o più filamenti β tendono ad affiancarsi lateralmente e, formando legami idrogeno fra loro, a generare strutture estese, pieghettate, dette foglietti β. Nelle strutture β, i legami idrogeno vengono a crearsi fra tratti di catene affiancate (Fig. 4), anziché fra residui del medesimo tratto, come nell' α-elica. Normalmente i foglietti β non sono planari, ma tendono ad assumere nell'insieme una forma incurvata e lievemente "avvitata". Figura 4. Rappresentazione schematica del foglietto β parallelo. I filamenti β antiparalleli sono tra gli elementi più stabili. L’elevata stabilità è dovuta al formarsi di legami idrogeno lineari tra le loro catene principali. Nella figura 5 è immediatamente osservabile che il gruppo CO ed il gruppo NH sono 67 lineari l’uno rispetto all’altro, in tal caso l’angolo accettore-idrogeno-donore è pari a 180° e quindi il legame idrogeno è molto stabile. Figura5. Sopra: foglietto β antiparallelo; sotto: foglietto β parallelo; Risultano, invece, meno stabili i foglietti β paralleli, in quanto in essi non si riscontra tale linearità. Di conseguenza le strutture costituite unicamente da foglietti β paralleli sono relativamente rare proprio perché meno stabili. Per ottenere maggiore stabilità i β paralleli devono assumere delle conformazioni particolari, mentre i “β–barrel”, costituiti da filamenti β antiparalleli, sono tra le architetture che si trovano più frequentemente. I “loops” Oltre ai due elementi regolari di struttura secondaria appena descritti, nelle proteine sono presenti tratti di catena apparentemente disorganizzati, di lunghezza anche molto variabile e più o meno convoluti. Questi tratti, definiti “loops”, fanno da collegamento fra α-eliche o filamenti β, ed hanno un ruolo importante nell’organizzazione 3D della catena peptidica. Sono relativamente flessibili e, soprattutto, consentono cambi di direzione alle sequenze a conformazione α e β. Molto comuni sono i brevi “loops” di 3-5 residui che collegano due filamenti β consecutivi, orientati in modo antiparallelo (β-turns), come illustrato in figura 6. Figura 6. Sinistra: grafico che illustra la presenza di “loops” a forcina in più proteine diverse; destra: i due tipi di “loop” a forcina più frequenti. 68 Inoltre, i “loops” partecipano spesso alla formazione di siti di legame (come i “loops” degli anticorpi) o del sito attivo degli enzimi. Nelle regioni “loop” è quasi una costante la presenza degli aminoacidi glicina o prolina, i cui effetti sulla conformazione della catena sono stati descritti nei precedenti capitoli. La presenza di strutture secondarie connesse da “loops” di diversa lunghezza permette di specificare per ogni proteina il concetto di topologia, che può essere definito come la modalità con cui i diversi elementi di struttura secondaria si connettono tra loro. I diagrammi topologici I diagrammi di topologia risultano molto utili per rappresentare le connessioni tra gli elementi di struttura secondaria presenti in una proteina. Ad esempio un foglietto β può essere caratterizzato da topologie notevolmente diverse. L’identificazione della topologia di una proteina è molto importante in quanto soltanto proteine aventi la medesima topologia possono avere lo stesso fold e quindi avere una comparabile struttura tridimensionale. La figura 7 illustra tre tipi di foglietti beta che si trovano in connessione diversa. Figura.7. Diagrammi topologici di alcuni foglietti β a) foglietto β formato da 4 filamenti antiparalleli b) foglietto β costituito da 5 filamenti paralleli c) struttura “β barrel” formata da 8 filamenti antiparalleli In a) troviamo un tipo di connessione semplice, detta “up and down”, dove il C-term di un filamento si connette con l’N-term di un altro filamento mediante un piccolo “loop”; in b) si hanno delle connessioni tra filamenti beta paralleli, e, di conseguenza, saranno necessari “loop” di connessione molto più lunghi. In questi casi, tra un filamento e l’altro si trova un’α-elica e, quindi, una connessione di tipo βαβ. In c) si ha invece una connessione mista, dove esiste una connessione a forcina (sinistra e destra) ed un motivo a greca (centro). 69 Motivi strutturali L’unione di strutture α e β dà luogo ad alcuni semplici motivi strutturali la cui combinazione può generare strutture tridimensionali particolarmente complesse. In generale, è possibile scomporre una struttura proteica complessa come sommatoria di elementi base formati da alcuni motivi strutturali (Fig. 8). I motivi strutturali più ricorrenti sono i seguenti: 1. elica-loop-elica: è presente in molte proteine che legano il Ca2+ (calmodulina, parvalbumina e troponina C) o il DNA. 2. forcina β: due filamenti β antiparalleli uniti da un breve “loop” di 2-5 residui. 3. chiave greca: per formare questo motivo occorrono (minimo) quattro filamenti β, due brevi “loops” e un “loop” più lungo. 4. β-α-β: è costituito da due filamenti β paralleli, intercalati da un'α-elica. Figura8. Rappresentazione di alcuni motivi strutturali ricorrenti. Motivo Elica-”loop”-elica In figura 9 si può osservare il motivo strutturale “elica-loop-elica” specifico per il legame con il DNA (Fig. 9sinistra) e per il legame con il calcio (Fig. 9destra). Figura 9. I due tipici motivi strutturali elica-loop-elica. Sinistra: motivo strutturale tipico del legame con il DNA; destra: motivo strutturale tipico del legame con il calcio. 70 Il motivo che lega il calcio è stato individuato per la prima volta nella parvalbumina. Tale motivo è detto anche “mano EF” in quanto la quinta (E) e la sesta elica (F) sono le parti della proteina utilizzate per descrivere i legame del calcio (Fig. 10). Figura 10. Schema del motivo strutturale che lega il calcio. Paragonando il motivo ad una mano, si nota che dalla base dell’indice parte l’elica E, il “loop” di 12 residui è rappresentato dal dito medio, mentre l’elica F si direziona partendo dalla base del pollice verso l’estremità. I ligandi del calcio sono quasi tutti presenti sul “loop” di connessione tra le due eliche, che sono quasi perpendicolari tra di loro. Il motivo comprende 2 eliche: E ed F, che affiancano un “loop” formato da 12 residui contigui; 5 di questi residui legano il calcio. Si tratta di residui la cui catena laterale contiene atomi di ossigeno, che rappresentano i ligandi preferenziali del calcio che in genere ha un alto numero di coordinazione (intorno a 6/8). Le catene laterali preferibilmente coordinate sono quelle di aspartico o glutammico. Le sequenze del motivo EF riportate in figura 11 mostrano che ci sono delle posizioni che devono essere rispettate e che formano una sequenza consenso: il residuo 6 dev’essere una glicina, gli aminoacidi deputati al legame con il calcio indicati in arancione devono essere aminoacidi con catene laterali costituite da possibili ligandi, mentre in verde sono evidenziati i residui che vanno a formare il core idrofobico. Figura 11. Sequenze consenso dei motivi EF hand in tre proteine diverse. 71 In figura 12 vediamo il motivo elica-loop-elica presente nei fattori di trascrizione che interagiscono con il DNA. L’elica di riconoscimento è indicata in rosso ed in essa sono presenti residui carichi positivi che fanno interazione con il DNA; l’altra elica è un’elica di supporto di carattere esclusivamente strutturale. Figura12. Tipico motivo elica-”loop”-elica legante il DNA. Forcine β Si tratta del più semplice motivo strutturale che coinvolge filamenti β. E’ costituito da 2 filamenti β antiparalleli adiacenti uniti da un “loop” la cui lunghezza è generalmente compresa tra 2 e 5 residui. Si tratta di un motivo riscontrabile piuttosto frequentemente sia in forma isolata che come parte di foglietti β più complessi. La figura 13 illustra proprio questo concetto: nel caso dell’inibitore della tripsina bovino, la forcina β si trova come foglietto isolato, mentre nel caso dell’erabulotossina, tossina presente nel veleno di un serpente, il β turn fa parte di un foglietto più complesso: 2 forcine β più un filamento β addizionale. Figura 13. Sinistra inibitore della tripsina bovino; destra: i due motivi a forcina presenti nell’ erabulotossina. 72 Motivo a greca Si ritiene che il motivo a greca sia nato in seguito ad una modificazione di una forcina β, o meglio, che derivi da una lunga forcina ripiegatasi successivamente nella sua metà. In tale motivo un filamento β è collegato con un altro che si trova dopo tre filamenti (Fig. 14). Questo motivo è ritrovato in molte proteine, soprattutto nei barilotti β a filamenti antiparalleli. Figura 14. Rappresentazione del motivo a greca. Motivo β-α-β Il motivo β-α-β permette la connessione tra due filamenti β paralleli, il motivo è infatti costituito da due filamenti β connessi tra loro da un’α-elica e da due piccole anse (Fig. 15). Figura 15. Il motivo β-α-β. Nel motivo, l’α-elica collega l’estremità carbossilica di un filamento con quella aminica del filamento successivo. L’elica si associa strettamente ai due filamenti attraverso interazioni di tipo idrofobico. La connessione di più di un motivo dà luogo a strutture proteiche relativamente complesse. Il “loop” che collega il terminale carbossilico del filamento β con quello aminico dell’ αelica è spesso implicato nella formazione del sito attivo. Il motivo β-α-β si 73 trova sempre in connessione destrorsa, in modo tale che l’elica si posizioni al di sopra del piano formato dai due filamenti (Fig. 16). In tutte le proteine note β-α-β è sempre di tipo destrorso, l’unica eccezione è rappresentata dalla subtilisina. Figura 16. Collegamento destrorso (a) e sinistrorso (b) del motivo β-α-β. I domini I diversi motivi strutturali e strutture secondarie si assemblano seguendo alcune modalità preferenziali. In questo paragrafo verranno prese in considerazione le modalità di assemblaggio delle strutture α, delle strutture α-β e delle strutture β. Strutture a domini alfa Elica superavvolta Le α-eliche possono assumere differenti posizioni, ma la più frequente è quella delle eliche parallele superavvolte. Quando 2 α-eliche si trovano nella configurazione superavvolta, il numero di residui per giro passa da 3.6 a 3.5. In tal modo le eliche formano un “heptad repeat”, in cui ogni sette residui è presente un residuo di leucina. In figura 17 i sette residui sono indicati con lettere dell’alfabeto: a, b, c, d, e, f, g, dove d rappresenta una leucina. Inoltre, poiché ogni 3.5 residui le eliche si interfacciano tra di loro, in questa posizione è sempre presente un residuo a carattere apolare che molto spesso è una valina. 74 Figura 17. Schema e sequenza aminoacidica di due eliche superavvolte. Le interazioni tra le eliche superavvolte vengono rafforzate, oltre che da contatti tra residui idrofobici, anche da interazioni elettrostatiche dei residui che si trovano adiacenti ai residui idrofobici. Tali residui, come quelli in posizione g ed e, (Fig. 18), hanno carica di segno opposto al fine di fortificare l’interazione tra le eliche. Figura 18. Impaccamento dei residui di eliche superavvolte e ruolo dell’interazioni elettrostatiche. 75 Fascio a 4 eliche Il fascio a 4 eliche si riscontra frequentemente nei domini composti da α eliche. Il fascio a 4 eliche è costituito da 2 coppie di eliche che sono antiparallele l’una rispetto all’altra. In questo dominio le eliche hanno un carattere fortemente anfipatico e, come si evince dalla figura 19, la parte interna è fortemente idrofobica, mentre quella esterna è decisamente idrofilica. Figura 19. Schema del fascio a quattro eliche. Il ripiegamento è altamente stabile in quanto somma le interazioni idrofobiche all’interfaccia delle quattro eliche ai legami idrogeno intra-elica già presenti in ogni singola elica. E’ presente come singolo dominio di proteine monomeriche, ma anche come motivo di dimerizzazione o di tetramerizzazione. Inoltre si trova in proteine completamente scorrelate funzionalmente. In figura 20 sono illustrati, a titolo di esempio, il citocromo b562 ed il fattore umano della crescita. Figura 20. Il citocromo b 562 e l’ormone della crescita umano. 76 In figura 21 invece lo stesso dominio è illustrato per Rop che è una proteina dimerica. In questo caso il monomero è rappresentato da due eliche antiparalelle. I due monomeri si uniscono tra loro a formare un fascio a 4 eliche. L’architettura è assolutamente identica, tuttavia, nei precedenti esempi è formata da un’unica proteina, in questo caso da due subunità che insieme costituiscono l’architettura della macromolecola. Figura 21. Il fascio a quattro eliche nella proteina dimerica Rop. Ripiegamento della globina Una delle più importanti strutture ad α-elica è costituita dal ripiegamento della globina. La struttura della globina è un fascio ad otto eliche, denominate A-H, collegate da brevi regioni “loop” e disposte in modo da formare una tasca idrofobica in cui viene disposto il sito attivo costituito dal gruppo eme. La lunghezza delle eliche è variabile, la più lunga è la H, circa 28 residui, la più breve è la C di circa 7 residui (Fig. 22). Figura 22. Struttura del dominio della globina. 77 Le interazioni tra le eliche avvengono tra eliche che non sono sequenziali ad eccezione delle ultime due (G e H). Il dominio non può essere scomposto come sommatoria di motivi strutturali più semplici e può essere descritto dall’avvitamento delle eliche intorno al core centrale in direzioni diverse. Il ripiegamento si trova in un elevato numero di proteine correlate funzionalmente, quali mioglobine, ficocianine, emoglobine. Strutture a dominio alfa-beta Il motivo β-α-β è un motivo semplice la cui composizione può generare 3 classi diverse di strutture: il TIM barrel, il foglietto β aperto ed il ferro di cavallo (Fig. 23). Figura 23. Struttura del TIM barrel, foglietto β aperto ed il ferro di cavallo. Nel TIM barrel le α-eliche sono collocate all’esterno di una struttura a barile costituita da filamenti β. Nella struttura del foglietto aperto i filamenti sono ruotati uno rispetto all’altro e le α-eliche si trovano sia da una parte che dall’altra del piano del foglietto. La terza classe è costituita da sequenze ricche di leucina, dove i filamenti β formano un foglietto ricurvo parzialmente schermato dal solvente da α eliche esterne. Ne deriva che le eliche si trovano totalmente da una lato del foglietto, ma la struttura non è chiusa, assumendo, in particolare, la forma di un ferro di cavallo. Tutte e tre le classi sono costituite dall’unione del motivo base β-α-β. La diversità della struttura dipende dalla differente modalità di connessione. Due motivi di tipo β-α-β infatti hanno due possibilità di connessione nel formare un foglietto a quattro filamenti paralleli, (Fig. 24). Il filamento β3 infatti può trovarsi adiacente al β2, generando un foglietto di tipo 1234, oppure al β1 dando origine ad un foglietto di tipo 4312. Poiché il motivo β-α-β è sempre 78 destrorso, nella prima connessione le eliche vengono tutte a trovarsi sullo stesso lato, dando luogo alla struttura a TIM barrel o a ferro di cavallo. Nel secondo caso, per allineare i filamenti è necessario ruotare il secondo motivo e ciò conduce le eliche a posizionarsi sia da un lato che dall’altro del foglietto, come nella struttura a foglietto aperto (Fig. 24). Figura 24. Tipologia di connesione di due motivi β-α-β. TIM barrel Il TIM barrel è una struttura che ha più costrizioni rispetto al foglietto beta aperto, il quale potrebbe, in teoria, estendersi in maniera indefinita. Il TIM barrel è una struttura molto frequente poiché è caratterizzata da una buona stabilità. La struttura è costituita dalla presenza di un numero definito di filamenti β, preferenzialmente otto, che forniscono le doghe per formare una botte chiusa circondata da α-eliche. Questa struttura è una delle più ampie e regolari, in quanto necessita di circa 200 aminoacidi. La parte centrale del foglietto β è composta tutta da aminoacidi idrofobici che risultano strettamente associati alle catene idrofobiche delle eliche che si interfacciano con i β, mentre le facce esterne delle eliche sono idrofiliche (Fig. 25). 79 Figura 25. Il TIM barrel e la sequenza dei suoi filamenti. Nelle interazioni che si formano tra filamenti β ed α eliche e nella formazione del core idrofobico della botte hanno un ruolo predominante i residui di Val, Ile e Leu che rappresentano circa il 40% dei residui presenti. Si tratta di una tipologia di proteina che consente di comprendere molto bene la divisione esistente tra regione strutturale e regione attiva. Infatti, il barrel rappresenta la parte strutturale, mentre il sito attivo si trova sempre nei ““loops” di connessione tra il C-terminale del filamento β e l’N-terminale dell’α-elica stessa (Fig. 26). In linea generale, tutte le proteine possiedono un core sul quale viene poi ingegnerizzato un sito attivo differente a seconda della funzione della macromolecola. In base a quanto detto, nel TIM barrel risulterà molto facile capire dove si trovi il sito attivo, ovvero sui “loops” tra il filamento β e l’α-elica. Tutti i TIM barrel noti hanno funzioni enzimatiche, in alcuni di questi enzimi il TIM barrel rappresenta l’intera proteina, mentre in altri casi la proteina è a multidominio. Un esempio è fornito dalla piruvato chinasi (Fig. 26) che si ripiega in più domini, uno dei quali è il TIM barrel. Nelle proteine a multidominio l’attività enzimatica è sempre associata al TIM barrel. Figura 26. Struttura della piruvato chinasi e collocazione del sito attivo nel TIM barrel. 80 Foglietto α-β aperto Le strutture a foglietto aperto hanno α-eliche su entrambi i lati del foglietto. Questo implica che la struttura non è mai chiusa in quanto non si può mai formare un barile a meno che i filamenti β non racchiudano le α-eliche di un lato del foglietto. Inoltre, esistono sempre due filamenti β adiacenti i cui collegamenti col filamento successivo si trovano su lati opposti rispetto al foglietto. E’ proprio in tale area che si verifica un cambiamento di direzione nella connessione con gli altri filamenti e dove si trova sempre il sito attivo, ossia in prossimità del C-terminale dei filamenti β. Osservando la figura 27 si può comprendere come il filamento 1 si connetta con il 2 attraverso un’α-elica e come il filamento 4 si connetta al filamento 5 sempre con un’α-elica. Nel punto di inversione di connessione (cioè dove ci sono i C-terminali dei filamenti) esiste una piccola cavità ed è proprio lì che in generale si trova il sito attivo. Un’ulteriore caratteristica è che le α-eliche sono sempre strettamente aderenti al foglietto tramite interazioni idrofobiche. Figura 27. Collocazione del sito attivo nelle strutture a foglietto aperto. In seguito sono riportati alcuni esempi in cui è possibile presumere la collocazione del sito attivo dalla topologia della proteina (Fig. 28 e Fig. 29). Figura 28. Struttura della flavodossina e adenilato chinasi e collocazione delle fessure dove è collocato il sito attivo. 81 Figura 29. Struttura dell’esochinasi e della fosfoglicerato mutasi e collocazione delle fessure dove è collocato il sito attivo. Ferro di cavallo L’ultima struttura del tipo α-β è la struttura denominata ferro di cavallo. Dalla figura 30 si può notare che l’architettura ricorda quella del TIM barrel, in quanto le α-eliche si trovano tutte dalla stessa parte del foglietto β, ma la struttura non si chiude ed acquisisce la forma tipica del ferro di cavallo. Figura 30. Struttura del dominio a ferro di cavallo. In questa struttura il numero di filamenti β è maggiore di 8 e la caratteristica principale è la presenza di numerosi residui di leucina. Infatti, questi motivi 82 sono anche definiti “motivi ricchi in leucina”, poichè sia il filamento β, sia l’αelica, sia il “loop” possiedono un elevato numero di leucine, le quali si trovano tutte interfacciate verso l’interno formando in tal modo un forte core idrofobico che stabilizza la struttura (Fig. 31). I residui di leucina 2-5-7-12-1720-24 del motivo sono in genere invarianti e rappresentano quindi una sequenza consenso in base alla quale individuare i domini a ferro di cavallo. Figura 31. Schema dell’interazione dei residui di leucina. Strutture a dominio beta antiparallele Nelle strutture β antiparallele, i filamenti β antiparalleli sono solitamente disposti in modo tale da formare due foglietti β che si impaccano uno contro l’altro creando una struttura a botte distorta che costituisce il core della molecola. Tuttavia la botte non è l’unico elemento che può essere composto da filamenti β antiparalleli. A seconda del modo in cui i filamenti β sono collegati tra loro, queste strutture possono essere suddivise in: strutture up and down. Questo tipo di collegamento è molto frequente in strutture costituite da 8 filamenti β, a forma di botte, dove ogni filamento è collegato al successivo mediante un piccolo “loop” (es. proteina legante il retinolo). Generalmente, proteine con un core di questo tipo, legano all’interno della loro struttura ligandi voluminosi ed idrofobici. strutture a greca. Anche in questo caso, i filamenti formano una botte. Questa topologia si ritrova nelle immunoglobuline ed in molti enzimi. strutture jelly roll. Caratterizzanti varie molecole proteiche, tra cui le proteine virali di rivestimento e l’emagglutinina del virus dell’influenza. 83 Il β barrel Nelle proteine “tutte β”, la struttura che risulta essere più stabile è il β barrel, o barilotto β, molto spesso costituito da 8 filamenti β antiparelleli. In generale, 8 è il numero ideale per formare un barrel, poiché dà la maggior compattezza possibile. Possono però esistere barilotti con un numero diverso di filamenti β. I β barrel possono avere topologia diversa e, di conseguenza, connessioni di tipo diverso. La figura 32 mostra una tipica struttura a botte, dove gli otto filamenti formano uno scheletro cilindrico, mentre i “loop” accomodano il sito attivo. Figura 32. Struttura della Cu,Zn superossido dismutasi con la sua struttura a botte di otto filamenti antiparalleli. Una topologia che si riscontra molto frequentemente nei β barrel è la topologia a greca, dove esiste la connessione del filamento n con il filamento n-3 o n+3 (Fig. 33). Figura 33. Il motivo a greca in un dominio a botte antiparallela. 84 L’altra topologia che si ritrova spesso in queste proteine è l’up and down, in cui il C-terminale di un filamento si connette con l’N-terminale di un altro e così via. In figura 34, ad esempio, è illustrata la struttura della proteina che lega il retinolo: in questo caso il sito attivo si trova all’interno del barrel stesso. Figura 34. Struttura a botte della proteina che lega il retinolo. Il sito attivo è costituito da aminoacidi idrofobici forniti dai filamenti β. Una struttura a botte antiparallela è formata da due foglietti sovrapposti. In figura 34 i filamenti 1 2 3 4 5 6 formano un foglietto mentre i filamenti 1 8 7 6 5 formano il secondo. I filamenti 1 5 6 contribuiscono a formare entrambi. Un altro esempio di proteina connessa con una topologia up and down è rappresentato dalla neuroaminidasi. La struttura intera è complessa, in quanto la proteina è tetramerica (Fig. 35), ma la scomposizione dei motivi presenti in ogni monomero segnala la presenza di principi strutturali semplici. Figura 35. La struttura tetramerica della neuroaminidasi. La struttura che viene a delinearsi non è propriamente una botte, in quanto i foglietti β si dispongono in modo circolare attorno ad un asse passante per il centro della molecola. La proteina contiene complessivamente 1600 aminoacidi ed è coinvolta nell’idrolisi dell’acido sialico. Ogni singolo 85 monomero è costituito da una ripetizione di 6 foglietti i quali si compongono di 4 filamenti ciascuno, connessi tra di loro in una topologia up and down (Fig. 36). I sei foglietti sono disposti in modo da formare sei lame di un’elica a sei pale. Figura 36. Struttura di un monomero di neuroaminidasi e sua topologia. Sia le tipologie dei sei foglietti presenti in un monomero, che le connessioni tra i diversi motivi, risultano essere identiche. Il filamento 4 del primo foglietto è in connessione con il filamento 1 del foglietto successivo e così via. Ciò conduce ad una molecola con una simmetria pseudosenaria, in cui i 12 “loops” di connessione si trovano tutti dalla stessa parte della molecola. I “loops” di connessione rappresentano i “loops” del sito attivo e la neuroaminidasi rappresenta un esempio emblematico della separazione tra la regione strutturale e la regione del sito attivo. I filamenti β costituiscono infatti lo scheletro strutturale su cui viene ad implementarsi il sito attivo, composto da “loops” di connessione tra un elemento e l’altro (Fig. 37). Figura 37. Schema della neuroaminidasi e del suo sito attivo. 86 Domini a botte a jelly roll L’altra struttura a β barrel è la botte a jelly roll. Al fine di comprendere tale struttura, si consideri una striscia di carta, i cui due lati siano costituiti ciascuno da quattro filamenti dei quali quelli posti su lati opposti interagiscono tra loro (Fig. 38). Figura 38. Rappresentazione schematica della botte a jelly roll. Si immagini, inoltre, di avvolgere il nastro di carta su un cilindro in modo tale che i filamenti β si trovino sui lati, con i “loop”s sulla cima e sul fondo del cilindro stesso. I filamenti antiparalleli legati da legami idrogeno, ovvero le coppie 1-8, 2-7, 3-6, 4-5, si disporranno in modo che il filamento 1 sia adiacente al 2, il 7 al 4 il 5 al 6 e il 3 al 8. Tutti i filamenti adiacenti sono antiparalleli. L’8 continua ad interagire con l’1, il 2 col 7 e così via, in altre parole, le coppie di filamenti β antiparalleli interagiscono tra loro, formando la struttura della proteina stessa. La corrispondente topologia viene descritta in figura 39. Figura 39. Topologia della botte a jelly roll. Un esempio di botte a jelly roll è la testa dell’emagglutinina (Fig. 40), ovvero la parte globulare della proteina del virus dell’influenza, che deve riconoscere l’acido sialico per iniziare il processo di infezione. 87 Figura 40. Struttura del monomero dell’emagglutinina e schema della botte a jelly roll presente nella zona terminale del monomero. L’emagglutinina è un trimero e si trova ancorata sulla membrana del virus dell’influenza. E’ composta da due subunità che sono HA1 e HA2. HA1 è costituita da 328 aminoacidi e HA2 da 221. Le due catene sono unite da ponti disolfuro. Le due catene formano una struttura di cui una parte è costituita da uno stelo che si estende dalla membrana fino alla seconda parte che rappresenta un dominio globulare. HA1 parte dalla membrana anche se non si inserisce in essa e forma una struttura distesa che segue per circa 100 Å lo stelo fino ad estendersi in una regione globulare. L’apice globulare è una struttura a jelly roll composta da otto filamenti costituiti da circa 150 residui. Dopo aver dato origine alla zona globulare la subunità prosegue a rafforzare lo stelo seguendolo in maniera parallela con altri 70 residui. HA2 contribuisce unicamente alla formazione dello stelo ed all’inserimento nella membrana. Il sito di riconoscimento per l’acido sialico si trova sulla testa globulare in una regione interna del jelly roll (Fig. 40) ad una distanza di più di 100 Å dalla membrana. Il sito di legame per l’acido sialico si trova in una tasca interna. Gli anticorpi del sistema immunitario si legano a questa molecola in prossimità del sito di legame per impedire l’infezione virale. Il virus per sfuggire a questo meccanismo di difesa dà luogo a mutazioni che tuttavia si trovano sull’orlo della tasca in quanto la parte interna della tasca si deve conservare per mantenere intatte le capacità di riconoscimento della molecola di acido sialico. 88 Domini ad eliche β parallele Elica β a 2 foglietti I domini costituiti da filamenti β paralleli sono relativamente rari in quanto formano legami idrogeno meno stabili rispetto ai filamenti β antiparalleli. Per questo motivo la strategia utilizzata dai filamenti β paralleli per avere una struttura stabile è quella di formare eliche costituite da filamenti β. In tali strutture la catena polipeptidica forma un superavvolgimento ad elica costituito da filamenti β connessi da “loops”. Attualmente sono conosciute due tipologie di tali strutture. Nella più semplice l’elica β è costituita da due foglietti e ogni giro dell’elica comprende due filamenti e due “loops”. (Fig. 41). Figura 41. Schema dell’elica β a due foglietti. L’unità strutturale base di questo motivo contiene 18 aminoacidi: tre in ogni filamento e sei in ogni “loop”. La sequenza mostra delle ripetizioni specifiche, in particolare è possibile identificare una sequenza consenso di nove residui Gly-Gly-X-Gly-X-Asp-H-U-X, dove U è un aminoacido con catena ingombrante e idrofobica. I primi sei formano il “loop”, gli ultimi tre il filamento β. Un’altra caratteristica di questi motivi è che sono coinvolti nel legame dello ione calcio attraverso il residuo Asp. L’altra struttura, costituita anch’essa da filamenti β paralleli, è un’altra elica, dove l’unità base è formata da 3 filamenti β, la cui caratteristica è di essere estremamente corti, da 3 a 5 residui, i quali sono collegati da “loops” (Fig. 42). Figura 42. Schema dell’elica a tre filamenti β. 89 La struttura è costituita da tre filamenti: due quasi paralleli ed il terzo perpendicolare ai primi due. Il “loop” di connessione tra il 1° e il 2° filamento è costituito unicamente da 2 residui, mentre gli altri due “loops” sono molto più lunghi e variano per dimensione e conformazione. L’elica viene così a formare tre ampi foglietti paralleli grossolanamente disposti come tre facce di un prisma. Un esempio di questa tipologia è rappresentato dalla pectato liasi (Fig. 43). Figura 43. Struttura della pectato liasi. La banca dati CATH CATH è una banca dati che classifica le proteine su basi strutturali. La classificazione è di tipo gerarchico. Le due coautrici sono: C. A. Orengo e J. M. Thornton. CATH rappresenta una banca dati secondaria, in quanto a differenza di una banca dati primaria, ove i dati derivanti dall’esperimento vengono inseriti senza alcuna manipolazione, le informazioni vengono analizzate, selezionate e poi immagazzinate. L’evoluzione ha generato famiglie di proteine con diversa sequenza ma correlate strutturalmente. In effetti, proteine con sequenza molto diversa possono avere una struttura tridimensionale simile, conseguentemente, una classificazione basata sulla struttura tridimensionale risulterà di grande utilità, al fine di individuare importanti correlazioni. La classificazione effettuata in CATH avviene in maniera semi-automatica, ovvero in parte manualmente ed in parte in modo automatico. 90 La sigla CATH sta per: Class, Architecture, Topology, Homologous superfamily, termini che individuano i 4 livelli principali di classificazione delle proteine: - Classe - ArchitetturaTopologia - OmologiaLa Classe (livello C) è un livello molto semplice, e viene assegnata in maniera automatica. La classe è determinata in accordo al contenuto di struttura secondaria nella proteina. Sono definite 4 classi che sono: α, β, αβ ed un’ultima in cui il contenuto di struttura secondaria è minimo. L’Architettura (livello A) considera la forma generale del dominio determinata dalla orientazione delle strutture secondarie ma ignora le connessioni tra le strutture secondarie stesse. Attualmente, questa classificazione viene effettuata manualmente usando una semplice descrizione dell’arrangiamento della struttura secondaria come β barrel o sandwich a tre strati etc.. La Topologia (livello T) prende in considerazione le connessioni tra gli elementi di struttura secondaria: le strutture sono raggruppate in gruppi di ripiegamento in base alla forma ed alle connessioni delle strutture secondarie, per cui le proteine vengono classificate in famiglie di ripiegamento. Homologous Superfamily (livello H) rappresenta il livello che raggruppa proteine che si ritiene abbiano un ancestore comune e che quindi siano omologhe. In questo modo vengono definiti dei gruppi di superfamiglie omologhe. Esiste anche un 5° livello S (Sequence family), dove vengono raggruppate proteine che hanno identità di sequenza ≥ 35%. In realtà esistono ulteriori sottolivelli ma non saranno affrontati in questo capitolo. Le Classi sono numerate con un numero che va da 1 a 4, la classe α con 1, la classe β con 2 e così via. Il livello successivo è l’architettura che, come è stato detto, è la descrizione dell’arrangiamento della struttura secondaria indipendentemente dalle connessioni.In figura 44 sono riportate una serie di proteine che appartengono ad Architetture diverse (fascio di eliche, β-barrel, propellor, ferro di cavallo, ecc..). 91 Figura 44. Esempi di proteine classificate in diversi gruppi di architettura. A tal livello viene preso in considerazione l’orientamento delle strutture secondarie e solamente quando verrà presa in considerazione la Topologia e quindi la connessione tra i diversi elementi si potrà scendere di livello (Fig. 45). Nell’esempio descritto dalla figura 45 si parte da una classe α-β, per poi avere una ramificazione in tre architetture diverse: TIM barrel, sandwich e roll. L’Architettura sandwich a sua volta si ramifica in due Topologie diverse quali flavodossina e β-lattamasi in quanto queste proteine pur presentando un arrangiamento e un’orientazione delle loro struttura secondaria simili, sono caratterizzate dall’avere una Topologia diversa (ovvero connessioni diverse degli elementi di struttura secondaria). Figura 45. Esempio di ramificazione e classificazione in diversi livelli. 92 Quindi flavodossina e lattamasi appartengono a due gruppi di Topologia diversa ma appartengono alla medesima Architettura sandwich ed appartengono alla medesima classe α-β. Proteine appartenenti allo stesso gruppo di Topologia hanno un fold relativamente simile poichè proteine che hanno la stessa topologia hanno gli elementi di struttura secondaria conservati. Inoltre, sono conservate le connessioni tra gli elementi di struttura secondaria. In generale, tra proteine appartenenti allo stesso gruppo di Topologia l’elemento maggiormente variabile è la lunghezza delle connessioni, o meglio delle anse con le quali gli elementi di struttura secondaria vengono connessi. Può anche cambiare la lunghezza degli elementi di struttura secondaria, quali il β strand e l’α-elica. In generale, proteine che hanno la stessa Topologia hanno un core che è abbastanza conservato, e quindi hanno strutture simili ma con funzioni diverse. La classificazione di una proteina avviene in maniera gerarchica, così che ogni proteina viene riconosciuta attraverso un numero (Fig. 46). Nell’esempio, il numero di riconoscimento è 1.10.490.20 derivante dal fatto che le Classi vengono ad essere numerate da 1 a 4; per i livelli di Architettura, Topologia e Superfamiglie omologhe la numerazione va di dieci in dieci. Per cui 1.10.490.20 indica che la proteina appartiene alla Classe 1, Architettura 10, Topologia 490 e Omologia 20. Figura 46. Esempio di classificazione e di relativa numerazione. 93 In questo modo vengono classificate e numerate tutte le proteine, così che ad ogni numero corrisponde una ed una sola proteina. Un ulteriore esempio di classificazione gerarchica e numerazione è riportato in figura 47. Figura 47. Esempio di classificazione e relativa numerazione. Lo spazio dei livelli non è ugualmente popolato, ad esempio al livello H (Homologous superfamily) ci sono alcuni ripiegamenti che sono più rappresentati. La maggior frequenza nella rappresentazione di un fold rispetto ad un altro indica la sua valenza da un punto di vista strutturale. Alcuni fold infatti sono presenti in enzimi con caratteristiche funzionali completamente diverse. Il ripiegamento ha quindi delle sue qualità (di stabilità, di flessibilità) indipendenti dalla funzione a cui è associato. In figura 48 vengono evidenziate alcuni dei ripiegamenti al livello H più popolati. Figura 48. Alcuni dei ripiegamenti (livello H) percentualmente maggiormente rappresentati. 94 Criteri per la classificazione La metodologia di classificazione è semi-automatica. Le strutture vengono selezionate dalla banca dati PDB. Vengono selezionate strutture risolte per diffrazione o per NMR sia di proteine native che di mutate, prendendo in considerazione proteine risolte almeno a 3 Å di risoluzione. Il passaggio successivo è quello della comparazione di sequenze che è un passaggio diretto, perché proteine che hanno un’identità di sequenza superiore al 35% vengono messe direttamente al livello S. Lo step consecutivo è quello della divisione delle proteine in domini, che verranno poi analizzati singolarmente. L’assegnamento della classe è automatico perché utilizza una procedura che esamina la composizione della struttura secondaria analizzando il valore degli angoli Φ e ψ e osservando quanti valori delle coppie sono relativi a struttura α o β. Viene quindi eseguita una comparazione delle strutture per definire i livelli H e T. La comparazione viene effettuata in maniera automatica utilizzando il programma SSAP. Quest’ultimo compara distanze tra residui di una struttura tridimensionale in maniera sequenziale. Il parametro utilizzato per la classificazione è il numero S che è proporzionale all’inverso della sommatoria di queste differenze. Tanto più piccola è questa differenza tanto più saranno simili le strutture e tanto più S sarà grande. Se S è uguale a 100 le strutture sono completamente identiche, riducendosi S la differenza aumenterà. La soglia è S=70 per il livello T, e di S= 80 per il livello H. Quindi tra 70 e 80 la proteina viene classificata nel livello T, mentre da 80 in su viene classificata nel livello H. Il livello relativo all’architettura di appartenenza viene definito manualmente. E’ infatti abbastanza difficoltoso definire tal livello in maniera anambigua e deterministica, soprattutto in maniera automatica. Architetture che non sono facilmente descritte in una prima analisi vengono raggruppate in un’architettura apposita definita semplicemente ‘architettura complessa’. Infine, viene assegnato un numero CATH. Le proteine possono essere recuperate nella banca dati utilizzando: - il codice PDB il codice CATH parole chiave che definiscono le proprietà di questa proteina La funzione non è presa in considerazione in questa banca dati. 95 96