DNA non codificante: il futuro della genetica

DNA non codificante:
il futuro della genetica
• ncDNA:
•
•
•
•
ncDNA
Teorie sull’attività genetica
RNAi e miRNA
Elementi di DNA ultraconservati
• Problema della complessità:
• Definizione e paradossi
• Complessità nei procarioti
• Possibili sviluppi delle nuove teorie
ncDNA
•
Per ncDNA si intende il DNA intronico,
intergenico e altre sequenze genomiche
considerati “deserti genetici”.
•
ncDNA è caratteristico degli eucarioti:
– Sequenze codificanti → 1.5% del genoma umano
– Introni → in media 95-97% del gene codificante
– Almeno un terzo del genoma umano viene trascritto
•
Introni discendono da introni di gruppo II selfsplicing e si sono espansi nei geni degli eucarioti
grazie alla separazione dei processi di
trascrizione e traduzione.
•
L’evoluzione successiva dello spliceosoma ha
facilitato la diffusione degli introni negli eucarioti
più complessi.
•
Nei procarioti si ha una piccolissima parte di
ncDNA perché i processi di trascrizione e
traduzione sono quasi simultanei
•
ncDNA nei procarioti è meno dell’1%
Il meccanismo di splicing di gruppo II è il
seguente: l’ossidrile 2’ di una specifica
adenosina dell’introne agisce da nucleofilo,
attaccando l’estremità 5’ dell’esone per formare
una struttura a laccio. Poi l’ossidrile 3’ dell’esone
in 5’ agisce come nucleofilo, completando la
reazione (nel passaggio si forma un legame
fosfodiesterico a spese di quello vecchio
mantenendo invariato il bilancio energetico).
ncDNA
Problema del ncDNA:
Idea predominante: un gene, una proteina ovvero l’informazione
genetica passa dal DNA all’RNA ed infine alle proteine
Si riteneva che il compito di agenti regolatori fosse svolto quasi
esclusivamente dalle proteine
I genomi sequenziati di batteri e archeobatteri sono costituiti principalmente da
sequenze codificanti affiancate da 52 e 32 elementi cis-regolatori che operano
per controllare l’espressione di tali sequenze a livello trascrizionale. Le uniche
eccezioni sono geni che codificano rRNA e tRNA necessari alla sintesi
proteica.
Ruolo del ncDNA:
• facilita il processo di riassortimento
• ragioni strutturali
• traccia dell’assemblamento casuale prebiotico
Secondo questa teoria il ncDNA dopo l’escissione viene semplicemente
degradato e riciclato
Teoria tradizionale attività genetica
Procarioti
Eucarioti
Teoria recente attività genetica
RNA intronici ed esonici interagendo
con altre molecole possono dirigersi
con precisione verso bersagli posti su
altre molecole di DNA ed RNA
Sono state identificate migliaia di
sequenze di RNA che vengono
trascritte e non tradotte in proteine.
Inutile spreco energetico?
RNA intronico sembrerebbe svolgere
un ruolo di regolazione nel
riassortimento degli esoni uniti dallo
spliceosoma:
• elementi ultraconservati
• RNA antisenso modificano gli
schemi dello splicing
Eucarioti
RNAi
Il meccanismo dell’RNA interference è stato scoperto nel 1998 da studi sul
C.Elegans
Segue la scoperta delle capacità di gene silencing dell’RNA antisenso,
essenzialmente una molecola artificiale di RNA (single strand) che si lega
all’mRNA e ne impedisce la traduzione in proteina.
RNAi è in grado di combattere infezioni di RNA virus per cui si pensa che si sia
evoluto per proteggere le cellule eucariotiche contro forme invasive di acidi
nucleici
Caratteristiche importanti dell’RNAi:
• RNAi si diffonde nell’individuo e può essere trasmesso alla progenie
•Solo poche molecole di dsRNA sono sufficienti ad innescare il
meccanismo di RNAi ⇒presenza di componenti catalitiche di
amplificazione
•RNAi agisce a livello post-trascrizionale poiché dsRNA
corrispondenti a sequenze introniche non attivano l’RNAi
•RNAi è altamente specifico: l’iniezione di dsRNA omologo a
sequenze esoniche specifiche di un gene eliminano o riducono solo
l’mRNA corrispondete a quel gene particolare.
RNAi
4 stadi:
1. Dicer taglia il dsRNA in
frammenti a doppia elica
lunghi 21-25 nucleotidi
con terminali 5’ fosfato e
3’ idrossile con 2
nucleotidi addizionali
non accoppiati sul
terminale 3’ (siRNA)
2. I siRNA vengono
incorporati in un
complesso detto RISC
(RNA-induced silencing
complex)
3. Attivazione del RISC
mediante la separazione
delle due catene
4. Degradazione di mRNA
complementare allo
strand di guida del
siRNA presente nel
RISC
5. Si ha un ulteriore step che varia a seconda degli organismi.
Questi siRNA secondari vengono generati durante un’amplificazione
ciclica nella quale l’RdRp (RNA-dependent RNA polimerase)
viene direzionata sul mRNA bersaglio dai siRNA esistenti
Micro-RNA
miRNA sono una classe di piccoli RNA non codificanti che si trovano nei genomi
degli eucarioti.
Nel genoma si trovano negli introni o in regioni non codificanti come singoli geni
o in cluster di vari miRNA diversi entro il raggio di alcune kilobasi
miRNA sembrano coinvolti nella
regolazione dei geni attraverso
vari meccanismi simili all’RNA
antisenso e all’RNAi che portano
al blocco della traduzione o alla
degradazione del mRNA.
miRNA trovati negli
invertebrati si trovano anche
nei vertebrati ma non
viceversa.
Micro-RNA
miRNA vengono trascritti dal DNA come
lunghi precursori primari (pri-miRNA), nel
caso di ammassi di miRNA come
polycistronic RNA con una distinta struttura
secondaria contenente diversi stem.loops
imperfetti
La maturazione dei miRNA richiede
almeno altri due passi di processazione:
• La ribonucleasi III Drosha taglia gli
stem-loops dal pri-miRNA dando luogo a
miRNA precursori (pre-miRNA o stRNA)
lunghi circa 70-80 nucleotidi
• Nel citoplasma il Dicer un’endonucleasi
di tipo III escinde il miRNA maturo (circa
22 nucleotidi) dal stRNA
Ultraconserved elements
•
Solo ∼ 1.2% del genoma umano sembra codificare proteine
•
Dalla separazione con i roditori, ∼5% (~150 Mb) del genoma umano è più conservato di
quanto si aspetterebbe secondo la teoria dell’evoluzione neutrale con più di metà di
queste sequenze che corrispondono a sequenze non codificanti.
•
Ci sono 481 segmenti (ULTRACONSERVED ELEMENTS) più lunghi di 200bp che
sono assolutamente conservati (identità del 100% senza inserzioni o cancellazioni) tra
regioni ortologhe dei genomi di topo, ratto e uomo (tra questi non vengono considerate
le regioni che codificano rRNA). Tra gli elementi assolutamente conservati ci sono
inoltre più di 5000 sequenze lunghe tra 100 e 200 bp.
•
La divergenza del genoma umano da quello del topo sembra risalire a 75 milioni di
anni fa.
•
La probabilità di trovare uno solo di questi segmenti in 2.9 miliardi di basi sotto le
ipotesi di un modello semplice di evoluzione neutrale con sostituzioni indipendenti ad
ogni sito è 10-22, usando il rate di sostituzione più lento che è stato osservato per
qualsiasi regione da 1Mb del genoma.
•
Ognuno dei 481 elementi mostra alti livelli di conservazione con regioni ortologhe nei
genomi della gallina e del cane:
•
•
•
Gallina: 467/481=97% di elementi allineati con una media del 95.7% di identità mentre i restanti 29 hanno il 100% di
identità
Cane: 477/481 = 99.2% di elementi allineati con una media del 99.2% di identità
Sembra che questi elementi ultraconservati siano stati sottoposti ad una selezione
estremamente negativa in molte specie per più di 300 milioni di anni
Ultraconserved elements
• Come aspettato, gli elementi ultraconservati
non mostrano quasi nessuna variazione
naturale nella popolazione umana.
• Dei 481 elementi ultraconservati 111 (partly
exonic) si sovrappongono al mRNA di un gene
codificante conosciuto (includendo le regioni
non tradotte UTR), 256 (non-exonic) non
mostrano prove di trascrizione da qualsiasi
expressed sequence tag (EST) e per i restanti
114 (possibly exonic) le prove di trascrizione
sono inconclusive.
Ultraconserved elements
Sono distribuiti in modo
ampio nel genoma su tutti i
cromosomi escludendo i
cromosomi 21 ed Y e
spesso si trovano
ammassati
Partly exonic
Non-exonic
Possibly exonic
Centromeri
Considerando ammassati
elementi separati da meno di
675 kb, sono stati trovati 89
cluster di 2 o più elementi
La maggioranza dei cluster è composta da elementi non-exonic e da geni inerenti allo
sviluppo
Ultraconserved elements
• Gli elementi non-exonic si trovano spesso nei
“deserti genetici” che spesso si estendono per più
di 1 Mb. I geni più vicini a tali elementi sono geni
coinvolti in compiti inerenti alle prime fasi dello
sviluppo. Questa associazione si ritrova anche per
gli elementi non-exonic presenti negli introni.
• Tra gli elementi ultraconservati molti sono molto
più lunghi di 200bp. Gli elementi più lunghi sono di
779, 770 e 731 bp e tutti e tre si trovano negli
ultimi 3 introni in porzione 3’ del gene POLA sul
cromosoma X.
• Un’altra regione di 711 bp si trova nella regione
intergenica di ∼7kb tra il terminale 3’ del POLA e il
terminale 5’ del gene ARX.
Ultraconserved elements
• ARX è coinvolto nello sviluppo del sistema nervoso
centrale ed è associato a diverse malattie ereditarie
come l’epilessia, l’autismo e altre malformazioni
cerebrali.
• Zone del DNA che hanno una selezione
estremamente negativa (“ipomutabili” o
“iperriparate”) potrebbero svolgere un ruolo vitale
forse come reti autoregolanti di controllo per il
processamento di RNA (nel caso di elementi exonic)
o come reti auto-regolatorie del processo di controllo
trascrizionale (elementi non-exonic).
Ultraconserved elements
•
Nei mammiferi 2 grandi “deserti genetici”
circondano il DACH. In tal modo il DACH risulta
essere l’unico gene in una sequenza di 2630 kb.
•
Comparazioni tra i genomi del topo e dell’uomo in
questo intervallo hanno rivelato più di 1000
sequenze non codificanti >100 bp e con un
identità del 70%.
Il problema è stato risolto comparando il genoma
umano con quello di diversi vertebrati
evolutivamente più lontani. In tal modo il numero
di elementi non codificanti si è ridotto a 32.
•
•
Esperimenti in vivo sui topi su 9 di questi elementi
ha mostrato che sette di questi sono regolatori di
diversi aspetti dell’espressione del gene DACH20.
•
Sequenze cis-regolatorie possono condizionare
l’espressione di geni a distanze dell’ordine della
megabase. Ognuno di questi 7 segmenti contiene
sequenze allineate senza gap che vanno dalle
250 alle 530 bp con un grado di indentità tra il
98% e 99.5% tra uomo, topo e ratto.
•
Recentemente è stato suggerito che mutazioni in
uno di questi enhancer (intensificatore) causa una
forma di malformazione negli arti dei bambini.
Sembrerebbe che questo enhancer regoli la
topologia di espressione del gene SHH negli arti
da una distanza di 1 milione di bp.
•
E’ quindi plausibile che queste sequenze siano
cruciali per lo sviluppo di base dei vertebrati.
Problema della complessità
Complessità Biologica è definita come prodotto di mutamenti sia nelle
caratteristiche macroscopiche che indicano una maggiore sofisticazione, sia
nell’aumento di sequenze di DNA ricche di informazioni.
Complessità Biologica è funzione del range di strutture subcellulari, numero
crescente dei tipi di cellule, organi, funzioni neurali e immunitarie.
PARADOSSI:
• C-value paradox: la quantità di DNA per cellula non è una misura
della complessità biologica
• g-value paradox: il numero di geni per genoma non è una buona
misura della complessità biologica
Se il numero di geni fosse una misura della complessità biologica si
dovrebbero considerare gli urocordati e gli insetti meno complessi dei
nematodi e gli uomini meno complessi del riso. Inoltre ci si aspettava che il
genoma umano comprendesse un numero di geni compreso tra 40.000 e
120.000 geni mentre dal progetto genoma umano si è scoperto che questi
sono circa 25.000
Problema della complessità
Alla luce dei due paradossi suddetti è stato studiato il rapporto tra non-protein
coding DNA (ncDNA) e total genomic DNA (tgDNA) in 85 genomi sequenziati.
[ 59 batteri, 8 archebatteri, 18 eucarioti di cui 7 eucarioti semplici, 1 fungo, 3
piante, 3 invertebrati, 1 urocordati e 3 vertebrati]
Organismi
ncDNA/tgDNA
Procarioti
0.05÷0.24
Eucarioti
unicellulari
0.26÷0.52
Organismi
multicellulari
complessi
0.62÷0.985
Per i procarioti si ha una distribuzione di specie non uniforme con una media di
0.1177. 67 specie batteriche mostrano un trend non lineare tra ncDNA/tgDNA e la
grandezza del genoma.
Il rapporto ncDNA/tgDNA sembra dunque rilevante nel descrivere la complessità
degli eucarioti mentre lo è meno nel descrivere quella dei procarioti
Problema della complessità
Organismi complessi richiedono 2 livelli correlati di programmazione.
1. specifica le componenti strutturali e funzionali (proteine e loro derivati)
2. specifica come questi componenti sono disposti e assemblati a livelli
organizzativi più complessi (cellule, organi) insieme al sistema di controllo
che le gestisce.
Aumento della complessità o funzionalità di un organismo ⇒ nuovi geni funzionali e/o
nuovi regimi regolatori
In qualsiasi caso sarà necessaria un’espansione delle rete regolatoria per integrare le
nuove capacità con quelle preesistenti.
Nuovi geni (o loro varianti di splice) con funzioni diverse dovranno essere regolati
specificamente dando così una crescita lineare del numero di regolatori o di loro
combinazioni. Inoltre una parte di questi regolatori richiederà a sua volta una
regolazione per far si che tutte le parti di un organismo siano completamente connesse.
Complessità nei Procarioti
Più il sistema diventa complesso maggiore sarà la sua porzione dedicata alla
regolazione.
Questa relazione non lineare tra regolazione e funzione è caratteristica di tutti i sistemi
integralmente organizzati.
Questi hanno un limite di complessità intrinseco che è imposto dalla loro architettura di
controllo accelerata (cresce finchè il costo di regolazione addizionale eccede il beneficio
dato da nuove funzioni) a meno di un cambiamento nella natura del sistema di
regolazione
In accordo con questa predizione generale è stato mostrato che il numero di geni
regolatori nei genomi procariotici cresce in modo più che lineare.
Se le reti di regolazione biologiche mostrano una crescita accelerata, esse saranno
caratterizzate da una scarsa connettività ad un basso numero di geni. Se queste reti,
ottimizzate dall’evoluzione, non sono in grado di fare una transizione ad un regime più
densamente connesso, il loro sviluppo evolutivo mostrerebbe un limite alla grandezza
massima della rete.
Questo è quello che si osserva nei procarioti: il loro genoma è limitato a circa 10000
geni o a una grandezza del genoma di circa 10Mb.
Complessità nei Procarioti
Vediamo un modello che si basa su un certo numero di assunzioni plausibili :
•
Ogni nuovo gene aggiunto al genoma esplora uno spazio di interazioni che
è proporzionale al numero totale di geni
•
A priori ogni nuova interazione ha la stessa probabilità (p) di portare al
fissaggio di un nuovo regolatore
•
Supponiamo che la maggior parte di interazioni regolatorie avviene tra geni
non regolatori (interazioni tra regolatori danno luogo a termini di ordine sup.)
Per ogni nuovo gene aggiunto al genoma contenente N geni, ci aspettiamo che
p*N interazioni diventino fissate.
Alcuni geni possono essere integrati nel sistema regolatore solo attraverso fattori di
regolazione già esistenti. Comunque ci aspettiamo che alcuni dei nuovi geni
debbano essere regolati specificamente.
Una frazione (ν) delle nuove interazioni corrisponderà a nuovi fattori di
regolazione.
Aggiungere un nuovo gene corrisponde a fissare ∆R=νpN nuovi regolatori.
Posto νp=c
Aggiungere ∆N nuovi geni risulta in ∆R=cN ∆N nuovi regolatori
Complessità nei Procarioti
• R = numero di nuovi regolatori
• N = numero di geni
• Iniziando da un genoma ipoteticamente
vuoto e aggiungendo un gene alla volta,
possiamo stimare il numero totale di
regolatori come somma di tutti i termini
∆R:
N
2
c * N ( N + 1) c * N
≅
R=
c*n =
2
2
n =0
∑
Quindi il numero di regolatori cresce circa quadraticamente con il numero di
geni.
Complessità nei Procarioti
Dall’analisi dei genomi completamente sequenziati di 89 batteri e archeobatteri si ha:
archeobatteri
batteri
La distribuzione è ben
descritta da una retta con
pendenza 1.96 che
corrisponde ad una
relazione quadratica tra
numero di geni regolatori e
numero totale di geni.
Si ha la relazione empirica:
1.96
R =0.0000163 * N
Complessità nei Procarioti
•
•
•
I regolatori sono la classe di proteine che cresce più rapidamente e tale
comportamento ha una implicazione profonda nella capacità di evolversi dei
procarioti.
La crescita accelerata dei costi di gestione del sistema di regolazione
impone un limite alla dimensione del genoma
Punto in cui il guadagno funzionale è superato dai costi di regolazione nel
modo seguente:
Sia N (numero totale di geni) = R (geni regolatori) + S (geni non regolatori)
∆N=∆R+∆S per ogni aumento di ∆N del genoma
In genomi piccoli la crescita avviene con ∆R<<∆S
Col crescere della dimensione del genoma si arriva al punto in cui
∆R>∆S, cioè quando all’aggiunta di un nuovo gene S si ha l’aggiunta di
più di un gene R
Questo punto indica pressappoco il limite in cui l’espansione del genoma
diventa inefficiente
Da ∆R=c*N* ∆N si evince facilmente che se c*N>1/2 si ha che ∆R>∆S
Dal grafico si ha c=2.40*10-4 e quindi il limite si ha per N>20000
Questo risultato è entro un fattore 2 dal limite di 10000 geni osservato
nei procarioti
Conseguenze nuova genetica
• Malattie come l’epilessia e l’autismo potrebbero essere
legate ad errori nelle zone di ncDNA
• Comprensione del meccanismo di differenziazione
cellulare sarebbe legato ai miRNA
• Comprensione del meccanismo di regolazione negli
eucarioti porterebbe ad un balzo nell’architettura dei
calcolatori tanto importante quanto lo è stato il
passaggio da procarioti a eucarioti
Earth simulator
procarioti
Entrambi accrescono la
dimensione del sistema con un
aumento quadratico della
connettività
•
•
•
•
•
•
•
•
•
•
Bibliografia
Zofia Szweykowska-Kuliñska, Artur Jarmowski and Marek Figlerowicz, RNA
interference and its role in the regulation of eucaryotic gene expression, Acta
Biochimica Polonica, Vol. 50 No. 1/2003, p 217–229
Andrea Tanzer. Jorg Lehmann, Peter F. Stadler, STATISTICAL EVIDENCE FOR
SPECIFIC EXPANSION OF THE miRNA REPERTOIRE IN VERTEBRATES
Gill Bejerano, Michael Pheasant, Igor Makunin, Stuart Stephen, W. James Kent,
John S. Mattick, David Haussler, Ultraconserved Elements in the Human
Genome, SCIENCE VOL 304, 28 MAY 2004, p 1321-1325
Larry J. Croft, Martin J. Lercher, Michael J. Gagen, and John S. Mattick, Is
prokaryotic complexity limited by accelerated growth in regulatory overhead?,
Genome Biol. Preprint Depository [online], http://genomebiology.com/qc/2003/5/1/p2
(2003).
John S.Mattick , RNA regulation: a new genetics?, NATURE REVIEWS |
GENETICS, VOLUME 5 | APRIL 2004,p316-323
John S. Mattick and Michael J. Gagen, Imperatives and inherent limitations of
accelerating networks in biology, engineering and society
Ryan J. Taft and John S. Mattick, Increasing biological complexity is positively
correlated with the relative genome-wide expansion of non-protein-coding DNA
sequencesarXiv Preprint Archive [online], <http://www.arxiv.org/abs/qbio.GN/0401020> (2003).
Gagen, M. J. & Mattick, J. S. Inherent size constraints on prokaryote gene
networks due to ‘accelerating’ growth. arXiv Preprint Archive [online],
<http://arXiv.org/abs/q-bio.MN/0312021> (2004).
Dario Boffelli,Marcelo A.Nobrega and Edward M. Rubin ,COMPARATIVE
GENOMICS AT THE VERTEBRATE EXTREMES, NATURE REVIEWS |
GENETICS, VOLUME 5 | JUNE 2004, p 456-465
Ugo Bastolla, Markus Porto, H. Eduardo Roman, and Michele Vendruscolo,
Statistical properties of neutral evolution, arXiv : cond-mat/0209049 v1 3 Sep
2002