INTERAZIONI ACIDI NUCLEICI-PROTEINE Sono molto importanti perché sono la base della regolazione dell’espressione genica; sono estremamente specifiche e alla base di queste interazioni c’è una complementarietà geometrica tra la superficie di Van der Waals del DNA e quella delle proteine. Con quali residui amminoacidici le proteine interagiscono con il DNA? Di solito sono pochi amminoacidi che si trovano a diretto contatto con il DNA e prendono parte a legami specifici con le basi del DNA, come glutammina, asparagina (con l’adenina), o arginina e istidina (amminoacidi basici); questi possono formare legami a idrogeno con le coppie di basi della regione da riconoscere. Che caratteristiche hanno le sequenze di DNA che vengono riconosciute? Vediamo per esempio proteine come il repressore Lac, le proteine CUP, il repressore lambda, riconoscono una precisa sequenza di DNA nel genoma. Notiamo che non ci sono particolari caratteristiche che ci dicono che quella porzione di DNA è riconosciuta da una particolare proteina. Per spiegarci meglio, iniziamo con la lunghezza della sequenza: ci sono sequenze riconosciute molto lunghe (12-20 bp), spesso palindromiche, mentre altre molto corte, spesso non palindromiche. La differenza termodinamica tra sequenze lunghe e corte sta nel fatto che l’interazione DNA- proteine è forte se la sequenza è più lunga, perché ogni coppia di basi fornisce un paio di interazioni con la proteina. Quindi quanto è più lunga la sequenza di coppie di basi, tanti più siti di interazioni ci saranno (cioè tanti più legami H e tante più interazioni idrofobiche); infatti è più semplice staccare la proteina da una sequenza corta che una lunga. In genere, quando abbiamo a che fare con proteine che riconoscono corte sequenza (legate perciò in modo instabile) esse riconoscono molte sequenze ripetute una accanto all’altra, in modo che più domini della proteina interagiscano con piccole corte sequenze, e in questo modo la stabilità dell’interazione è assicurata (questa per esempio è la strategia tipica delle dita di zinco). Inoltre, le sequenze lunghe sono statisticamente poco probabili nel genoma, mentre quelle corte sono disperse un po’ ovunque. Perciò le proteine che riconoscono sequenze molto corte di solito lavorano in più gruppo (cioè ci sono più domini che riconoscono le sequenze corte), in modo tale che se una breve sequenza è possibile per motivi probabilistici, trovare la stessa sequenza qualche base più in là poco probabile, cioè così si verifica la specificità di legame. Vediamo per esempio un repressore procariotico legato ai siti operatore: generalmente queste proteine prendono rapporto con il DNA formando superavvolgimenti intorno alla proteina stessa. Ci sono quattro domini proteici che interagiscono con quattro corte sequenza di DNA ; in realtà sono quattro sequenza identiche per cui la sequenza bilobale è palindroma. Inoltre, generalmente queste proteine che riconoscono il DNA sono multimeriche , perciò vanno incontro a fenomeni di allosteria, importante nel controllo dell’espressione genica. Le proteine che interagiscono con il DNA hanno domini specifici caratteristici: uno dei più noti è il motivo elica-ripiegamento-elica che riconosce sequenze di 4-6 basi . È costituito da due alfa eliche unite da una breve ansa: l’elica C-terminale è quella che interagisce più direttamente con il DNA e si trova adagiata nel solco maggiore di essa; quella N-terminale è strutturale (di sostegno) e serve a porre nella corretta posizione l’elica di riconoscimento. Questo dominio fa parte di strutture molto più grandi e complicate ed è diffuso soprattutto nei procarioti (repressore del triptofano, repressore lambda, ecc.) Questi domini sono esattamente distanziati di 3,4 nm (in modo da accordarsi con il passo dell’elica di DNA) e solitamente agiscono per lo meno come dimeri, per aumentare la specificità di riconoscimento (possono riconoscere due sequenze brevi vicine) e la forza di legame tra DNA e proteine. Prendiamo per esempio il repressore Lac: queste proteine sono grandi e formate da più subunità; oltre i domini di riconoscimento ci sono altre strutture, infatti ogni repressore è formato da 4 proteine. Inoltre ci sono domini cerniera (tra i dimeri e all’interno dei dimeri) e che riconoscono l’effettore (in questo caso l’allolattosio). Abbiamo detto che queste proteine possono andare incontro a fenomeni allosterici, perciò possono cambiare conformazione e trovarsi in due diverse strutture, una in grado di legare il DNA e una no; fungono quindi da interruttori molecolari (accendendo e spegnendo regioni genomiche), che sentono la presenza di particolare sostanze. Negli eucarioti, invece, è molto frequente l’omeodominio, simile al motivo elica-ripiegamentoelica (ha le stesse dimensioni): ha una struttura con 3 alfa eliche, una di riconoscimento, adagiata nel solco maggiore del DNA, e due di sostegno (posizionano l’altra elica). Il fatto che l’elica di riconoscimento nell’omeodominio prende rapporti più estesi con il DNA non vuol dire che le altre eliche di sostegno non possano interagire con il DNA. Infatti un caso è che una delle due eliche di sostegno partecipa all’interazione con il DNA. Un altro motivo strutturale è quello delle dita di zinco, importante nelle proteine eucariotiche di riconoscimento del DNA. Sono in realtà 3 domini a dita di zinco che si trovano in tandem uno dietro l’altro, perché le dita di zinco riconoscono delle sequenze molto corte (non più di due coppie di basi), e quindi si trovano di soliti in domini di tandem per rendere più stabile e specifico il riconoscimento. Il motivo per cui questo dominio prende questo nome è storico: sono stati scoperti quando dalla sequenza delle proteine venivano fuori strutture periodiche interessanti che contenevano residui di cisteina e di istidina posti in posizione tale da coordinare uno ione di zinco, formando una protuberanza che nella struttura secondaria ricordava un dito, con lo zinco alla base del dito. In realtà quando questa struttura tridimensionale è stata risolta si è visto che di dita ce n’erano poche. Di questi domini a dito di zinco ci sono due tipi: • Uno ha due residui di cisteina e due di istidina, con un’organizzazione che vede i due residui di istidina che fanno parte di una corta alfa elica, mentre quelli di cisteina di un corto beta-foglietto anti parallelo; l’alfa elica e il beta foglietto sono uniti da un corto turn di circa 3 amminoacidi. • L’altro ha quattro residui di cisteina (per esempio il recettore dei glucocorticoidi) che sono in grado di coordinare uno ione zinco: abbiamo in questo caso solo una alfa elica di riconoscimento che si adagia nel solco maggiore del DNA, e di solito non c’è il beta foglietto, ma una struttura a random coil. Finora abbiamo visto solo strutture secondarie ad alfa elica, ma anche dei beta foglietti possono costituire la porzione di proteina che interagisce con il DNA (anche se sono rari). Un esempio è il repressore della metionina (che risponde alla concentrazione di S-adenosilmetionina): in questo caso il dominio di interazione è dato da un piccolo foglietto beta antiparallelo che si posiziona nel solco maggiore. In alcuni casi non ci sono strutture secondarie particolari che partecipano al riconoscimento della sequenza specifica, per esempio una proteina è la p53 (di cui una mutazione è responsabile del 50% dei carcinomi umani) non ha motivi canonici; tranne la piccola alfa elica che fa parte di un motivo peculiare di p53, le interazioni si trovano in regioni del tutto destrutturate della proteina (questa proteina assume la sua conformazione tridimensionale solo quando si lega al DNA nella giusta sequenza). Altro motivo importante negli eucarioti sono le cerniere di leucina, formate da due lunghe alfa eliche che formano un coiled coil (avvolgendosi su se stesse). Queste alfa eliche hanno una porzione piuttosto idrofobica che interagisce con il DNA direttamente, ponendosi nel solco maggiore. Il nome di cerniere di leucina deriva dal fatto che la regione in cui i due monomeri della cerniera interagiscono ha residui di leucina intervallati regolarmente tra loro ogni 7 residui. Questi residui di leucina assicurano l’interazione tra i due monomeri (attraverso interazioni idrofobiche). Ogni monomero della cerniera è formato da una parte che riconosce una sequenza specifica di DNA e una deputata alla formazione del dimero. Si conoscono molti esempi di cerniere di leucina che sono omodimeri (due subunità uguali che riconoscono due sequenze di DNA uguali): i monomeri di essi possono dimerizzare tra loro (per cui possono riconoscere un arrangiamento di sequenze regolatorie diverse). Questa strategia che aumenta la capacità di regolazione tramite fenomeni combinatori è una caratteristica molto sfruttata dagli eucarioti. Un altro dominio di riconoscimento del DNA è il motivo elica-loop-elica, costituito da una lunga elica (di cui fa parte la porzione che riconosce il DNA), da un’ansa e da un’altra elica (che si occupa della dimerizzazione di questo motivo). Anche in questo caso sono importanti le interazioni idrofobiche, ma di solito sono localizzate solo a un’estremità delle due eliche (cioè non si forma un coiled coil). Si possono perciò formare sia omodimeri che eterodimeri: quindi si ha una libertà combinatoriale nelle sequenze che possono essere riconosciute. In questo caso specifico, sono descritte anche forme tronche di queste proteine: se ci troviamo di fronte a proteine che costituiscono un dominio elica-loop-elica e abbiamo una sua variante tronca, ci aspettiamo che si possa formare un eterodimero tra la variante integra (che ha la porzione in grado di riconoscere il DNA) e una variante tronca (che manca della porzione che lega il DNA). In questo caso specifico, l’eterodimero cosa farà? La presenza della forma tronca è un modo per controllare l’espressione genica: il fatto che c’è un solo sito di legame per il DNA rende instabile l’interazione tra il DNA e le proteine eterodimeriche, perciò qua si applica il discorso termodinamico (l’interazione è cioè instabile perché i solo dominio di legame non dà la stabilità di legame). Quindi l’eterodimero sta inibendo l’azione della proteina, cioè ad alte concentrazioni della forma tronca si forma l’eterodimero che impedisce la formazione dell’omodimero attivo. Il dominio elica-ripiegamento elica è presente (anche se raramente) negli eucarioti: infatti questo dominio POU ha come motivo di legame con il DNA un’ elica-ripiegamento-elica simile a quella dei procarioti. Ricordiamo che oggigiorno viviamo nella fase dei genomi completi (perciò nei database ci sono genomi interi di centinaia di specie): dal punto di vista bioinformatico, riconoscere i domini delle proteine che legano il DNA è semplice, perche basta prendere la sequenza di DNA, tradurla in proteine e vedere se ci sono i segnali di un dominio che lega il DNA. Ma conoscendo la sequenza di una proteina che lega il DNA, possiamo prevedere dove si legherà? Purtroppo ancora non è cosi chiaro perche le interazioni DNA-proteine sono complicate (ci si affida tuttora a tecniche sperimentali). Finora abbiamo visto interazioni proteina DNA-proteine sequenza-specifiche. Molte interazioni pero non sono sequenza-specifiche, ad esempio l’interazioni tra il DNA e le SSB. Di solito quando non è riconosciuta una sequenza specifica, viene riconosciuto lo scheletro di zucchero-fosfato attraverso strutture a beta-foglietto. Oltre alle SSB, c’è la DNA polimerasi che ha nel palmo della mano un esteso beta foglietto importante per il riconoscimento aspecifico del DNA. Spesso per stabilizzare l’interazione proteine-DNA ci sono interazioni tra le basi del DNA e i residui amminoacidici delle proteine, ma sono interazioni di tipo impilamenti idrofobici tra le strutture planari del tutto aspecifiche. Un discorso a parte meritano che legano l’RNA: sono proteine eterogenee e sono molte (migliaia in una cellula eucariotica). In questo caso parlare di domini specifici è abbastanza difficile: al di là di qualche dominio, il discorso è molto più complicato con l’RNA che non con le proteine. L’RNA infatti ha una struttura dal punto di vista tridimensionale paragonabile alle proteine per complessità: infatti gli RNA funzionali (come ribozimi, RNA guida, ecc.) sono strutturalmente molto complessi (molto più del DNA). Di conseguenza le proteine che interagiscono con l’RNA saranno più complesse di quelle che interagiscono con il DNA. Tra le proteine che legano il DNA è diffuso il dominio RRM (poi ce ne sono altri ma notiamo che ognuna di queste proteine che legano RNA è costituito da molti domini).