INTERAZIONI ACIDI NUCLEICI-PROTEINE
Sono molto importanti perché sono la base della regolazione dell’espressione genica; sono
estremamente specifiche e alla base di queste interazioni c’è una complementarietà geometrica
tra la superficie di Van der Waals del DNA e quella delle proteine.
Con quali residui amminoacidici le proteine interagiscono con il DNA?
Di solito sono pochi amminoacidi che si trovano a diretto contatto con il DNA e prendono parte a
legami specifici con le basi del DNA, come glutammina, asparagina (con l’adenina), o arginina e
istidina (amminoacidi basici); questi possono formare legami a idrogeno con le coppie di basi
della regione da riconoscere.
Che caratteristiche hanno le sequenze di DNA che vengono riconosciute?
Vediamo per esempio proteine come il repressore Lac, le proteine CUP, il repressore lambda,
riconoscono una precisa sequenza di DNA nel genoma.
Notiamo che non ci sono particolari caratteristiche che ci dicono che quella porzione di DNA è
riconosciuta da una particolare proteina. Per spiegarci meglio, iniziamo con la lunghezza della
sequenza: ci sono sequenze riconosciute molto lunghe (12-20 bp), spesso palindromiche, mentre
altre molto corte, spesso non palindromiche. La differenza termodinamica tra sequenze lunghe e
corte sta nel fatto che l’interazione DNA- proteine è forte se la sequenza è più lunga, perché
ogni coppia di basi fornisce un paio di interazioni con la proteina. Quindi quanto è più lunga la
sequenza di coppie di basi, tanti più siti di interazioni ci saranno (cioè tanti più legami H e tante
più interazioni idrofobiche); infatti è più semplice staccare la proteina da una sequenza corta
che una lunga.
In genere, quando abbiamo a che fare con proteine che riconoscono corte sequenza (legate
perciò in modo instabile) esse riconoscono molte sequenze ripetute una accanto all’altra, in
modo che più domini della proteina interagiscano con piccole corte sequenze, e in questo modo
la stabilità dell’interazione è assicurata (questa per esempio è la strategia tipica delle dita di
zinco). Inoltre, le sequenze lunghe sono statisticamente poco probabili nel genoma, mentre
quelle corte sono disperse un po’ ovunque. Perciò le proteine che riconoscono sequenze molto
corte di solito lavorano in più gruppo (cioè ci sono più domini che riconoscono le sequenze
corte), in modo tale che se una breve sequenza è possibile per motivi probabilistici, trovare la
stessa sequenza qualche base più in là poco probabile, cioè così si verifica la specificità di
legame.
Vediamo per esempio un repressore procariotico legato ai siti operatore: generalmente queste
proteine prendono rapporto con il DNA formando superavvolgimenti intorno alla proteina stessa.
Ci sono quattro domini proteici che interagiscono con quattro corte sequenza di DNA ; in realtà
sono quattro sequenza identiche per cui la sequenza bilobale è palindroma.
Inoltre, generalmente queste proteine che riconoscono il DNA sono multimeriche , perciò vanno
incontro a fenomeni di allosteria, importante nel controllo dell’espressione genica.
Le proteine che interagiscono con il DNA hanno domini specifici caratteristici: uno dei più noti è
il motivo elica-ripiegamento-elica che riconosce sequenze di 4-6 basi . È costituito da due alfa
eliche unite da una breve ansa: l’elica C-terminale è quella che interagisce più direttamente con
il DNA e si trova adagiata nel solco maggiore di essa; quella N-terminale è strutturale (di
sostegno) e serve a porre nella corretta posizione l’elica di riconoscimento. Questo dominio fa
parte di strutture molto più grandi e complicate ed è diffuso soprattutto nei procarioti
(repressore del triptofano, repressore lambda, ecc.)
Questi domini sono esattamente distanziati di 3,4 nm (in modo da accordarsi con il passo
dell’elica di DNA) e solitamente agiscono per lo meno come dimeri, per aumentare la specificità
di riconoscimento (possono riconoscere due sequenze brevi vicine) e la forza di legame tra DNA e
proteine.
Prendiamo per esempio il repressore Lac: queste proteine sono grandi e formate da più subunità;
oltre i domini di riconoscimento ci sono altre strutture, infatti ogni repressore è formato da 4
proteine. Inoltre ci sono domini cerniera (tra i dimeri e all’interno dei dimeri) e che riconoscono
l’effettore (in questo caso l’allolattosio).
Abbiamo detto che queste proteine possono andare incontro a fenomeni allosterici, perciò
possono cambiare conformazione e trovarsi in due diverse strutture, una in grado di legare il
DNA e una no; fungono quindi da interruttori molecolari (accendendo e spegnendo regioni
genomiche), che sentono la presenza di particolare sostanze.
Negli eucarioti, invece, è molto frequente l’omeodominio, simile al motivo elica-ripiegamentoelica (ha le stesse dimensioni): ha una struttura con 3 alfa eliche, una di riconoscimento,
adagiata nel solco maggiore del DNA, e due di sostegno (posizionano l’altra elica). Il fatto che
l’elica di riconoscimento nell’omeodominio prende rapporti più estesi con il DNA non vuol dire
che le altre eliche di sostegno non possano interagire con il DNA. Infatti un caso è che una delle
due eliche di sostegno partecipa all’interazione con il DNA.
Un altro motivo strutturale è quello delle dita di zinco, importante nelle proteine eucariotiche
di riconoscimento del DNA. Sono in realtà 3 domini a dita di zinco che si trovano in tandem uno
dietro l’altro, perché le dita di zinco riconoscono delle sequenze molto corte (non più di due
coppie di basi), e quindi si trovano di soliti in domini di tandem per rendere più stabile e
specifico il riconoscimento. Il motivo per cui questo dominio prende questo nome è storico:
sono stati scoperti quando dalla sequenza delle proteine venivano fuori strutture periodiche
interessanti che contenevano residui di cisteina e di istidina posti in posizione tale da coordinare
uno ione di zinco, formando una protuberanza che nella struttura secondaria ricordava un dito,
con lo zinco alla base del dito. In realtà quando questa struttura tridimensionale è stata risolta
si è visto che di dita ce n’erano poche.
Di questi domini a dito di zinco ci sono due tipi:
•
Uno ha due residui di cisteina e due di istidina, con un’organizzazione che vede i due
residui di istidina che fanno parte di una corta alfa elica, mentre quelli di cisteina di un
corto beta-foglietto anti parallelo; l’alfa elica e il beta foglietto sono uniti da un corto
turn di circa 3 amminoacidi.
•
L’altro ha quattro residui di cisteina (per esempio il recettore dei glucocorticoidi) che
sono in grado di coordinare uno ione zinco: abbiamo in questo caso solo una alfa elica di
riconoscimento che si adagia nel solco maggiore del DNA, e di solito non c’è il beta
foglietto, ma una struttura a random coil.
Finora abbiamo visto solo strutture secondarie ad alfa elica, ma anche dei beta foglietti possono
costituire la porzione di proteina che interagisce con il DNA (anche se sono rari). Un esempio è il
repressore della metionina (che risponde alla concentrazione di S-adenosilmetionina): in questo
caso il dominio di interazione è dato da un piccolo foglietto beta antiparallelo che si posiziona
nel solco maggiore.
In alcuni casi non ci sono strutture secondarie particolari che partecipano al riconoscimento
della sequenza specifica, per esempio una proteina è la p53 (di cui una mutazione è responsabile
del 50% dei carcinomi umani) non ha motivi canonici; tranne la piccola alfa elica che fa parte di
un motivo peculiare di p53, le interazioni si trovano in regioni del tutto destrutturate della
proteina (questa proteina assume la sua conformazione tridimensionale solo quando si lega al
DNA nella giusta sequenza).
Altro motivo importante negli eucarioti sono le cerniere di leucina, formate da due lunghe alfa
eliche che formano un coiled coil (avvolgendosi su se stesse). Queste alfa eliche hanno una
porzione piuttosto idrofobica che interagisce con il DNA direttamente, ponendosi nel solco
maggiore. Il nome di cerniere di leucina deriva dal fatto che la regione in cui i due monomeri
della cerniera interagiscono ha residui di leucina intervallati regolarmente tra loro ogni 7
residui. Questi residui di leucina assicurano l’interazione tra i due monomeri (attraverso
interazioni idrofobiche). Ogni monomero della cerniera è formato da una parte che riconosce
una sequenza specifica di DNA e una deputata alla formazione del dimero. Si conoscono molti
esempi di cerniere di leucina che sono omodimeri (due subunità uguali che riconoscono due
sequenze di DNA uguali): i monomeri di essi possono dimerizzare tra loro (per cui possono
riconoscere un arrangiamento di sequenze regolatorie diverse). Questa strategia che aumenta la
capacità di regolazione tramite fenomeni combinatori è una caratteristica molto sfruttata dagli
eucarioti.
Un altro dominio di riconoscimento del DNA è il motivo elica-loop-elica, costituito da una lunga
elica (di cui fa parte la porzione che riconosce il DNA), da un’ansa e da un’altra elica (che si
occupa della dimerizzazione di questo motivo). Anche in questo caso sono importanti le
interazioni idrofobiche, ma di solito sono localizzate solo a un’estremità delle due eliche (cioè
non si forma un coiled coil). Si possono perciò formare sia omodimeri che eterodimeri: quindi si
ha una libertà combinatoriale nelle sequenze che possono essere riconosciute. In questo caso
specifico, sono descritte anche forme tronche di queste proteine: se ci troviamo di fronte a
proteine che costituiscono un dominio elica-loop-elica e abbiamo una sua variante tronca, ci
aspettiamo che si possa formare un eterodimero tra la variante integra (che ha la porzione in
grado di riconoscere il DNA) e una variante tronca (che manca della porzione che lega il DNA). In
questo caso specifico, l’eterodimero cosa farà? La presenza della forma tronca è un modo per
controllare l’espressione genica: il fatto che c’è un solo sito di legame per il DNA rende instabile
l’interazione tra il DNA e le proteine eterodimeriche, perciò qua si applica il discorso
termodinamico (l’interazione è cioè instabile perché i solo dominio di legame non dà la stabilità
di legame). Quindi l’eterodimero sta inibendo l’azione della proteina, cioè ad alte
concentrazioni della forma tronca si forma l’eterodimero che impedisce la formazione
dell’omodimero attivo.
Il dominio elica-ripiegamento elica è presente (anche se raramente) negli eucarioti: infatti
questo dominio POU ha come motivo di legame con il DNA un’ elica-ripiegamento-elica simile a
quella dei procarioti.
Ricordiamo che oggigiorno viviamo nella fase dei genomi completi (perciò nei database ci sono
genomi interi di centinaia di specie): dal punto di vista bioinformatico, riconoscere i domini
delle proteine che legano il DNA è semplice, perche basta prendere la sequenza di DNA, tradurla
in proteine e vedere se ci sono i segnali di un dominio che lega il DNA. Ma conoscendo la
sequenza di una proteina che lega il DNA, possiamo prevedere dove si legherà? Purtroppo ancora
non è cosi chiaro perche le interazioni DNA-proteine sono complicate (ci si affida tuttora a
tecniche sperimentali).
Finora abbiamo visto interazioni proteina DNA-proteine sequenza-specifiche. Molte interazioni
pero non sono sequenza-specifiche, ad esempio l’interazioni tra il DNA e le SSB. Di solito quando
non è riconosciuta una sequenza specifica, viene riconosciuto lo scheletro di zucchero-fosfato
attraverso strutture a beta-foglietto. Oltre alle SSB, c’è la DNA polimerasi che ha nel palmo
della mano un esteso beta foglietto importante per il riconoscimento aspecifico del DNA.
Spesso per stabilizzare l’interazione proteine-DNA ci sono interazioni tra le basi del DNA e i
residui amminoacidici delle proteine, ma sono interazioni di tipo impilamenti idrofobici tra le
strutture planari del tutto aspecifiche.
Un discorso a parte meritano che legano l’RNA: sono proteine eterogenee e sono molte (migliaia
in una cellula eucariotica). In questo caso parlare di domini specifici è abbastanza difficile: al di
là di qualche dominio, il discorso è molto più complicato con l’RNA che non con le proteine.
L’RNA infatti ha una struttura dal punto di vista tridimensionale paragonabile alle proteine per
complessità: infatti gli RNA funzionali (come ribozimi, RNA guida, ecc.) sono strutturalmente
molto complessi (molto più del DNA). Di conseguenza le proteine che interagiscono con l’RNA
saranno più complesse di quelle che interagiscono con il DNA. Tra le proteine che legano il DNA è
diffuso il dominio RRM (poi ce ne sono altri ma notiamo che ognuna di queste proteine che
legano RNA è costituito da molti domini).