DNA non codificante: il futuro della genetica • ncDNA: • • • • ncDNA Teorie sull’attività genetica RNAi e miRNA Elementi di DNA ultraconservati • Problema della complessità: • Definizione e paradossi • Complessità nei procarioti • Possibili sviluppi delle nuove teorie ncDNA • Per ncDNA si intende il DNA intronico, intergenico e altre sequenze genomiche considerati “deserti genetici”. • ncDNA è caratteristico degli eucarioti: – Sequenze codificanti → 1.5% del genoma umano – Introni → in media 95-97% del gene codificante – Almeno un terzo del genoma umano viene trascritto • Introni discendono da introni di gruppo II selfsplicing e si sono espansi nei geni degli eucarioti grazie alla separazione dei processi di trascrizione e traduzione. • L’evoluzione successiva dello spliceosoma ha facilitato la diffusione degli introni negli eucarioti più complessi. • Nei procarioti si ha una piccolissima parte di ncDNA perché i processi di trascrizione e traduzione sono quasi simultanei • ncDNA nei procarioti è meno dell’1% Il meccanismo di splicing di gruppo II è il seguente: l’ossidrile 2’ di una specifica adenosina dell’introne agisce da nucleofilo, attaccando l’estremità 5’ dell’esone per formare una struttura a laccio. Poi l’ossidrile 3’ dell’esone in 5’ agisce come nucleofilo, completando la reazione (nel passaggio si forma un legame fosfodiesterico a spese di quello vecchio mantenendo invariato il bilancio energetico). ncDNA Problema del ncDNA: Idea predominante: un gene, una proteina ovvero l’informazione genetica passa dal DNA all’RNA ed infine alle proteine Si riteneva che il compito di agenti regolatori fosse svolto quasi esclusivamente dalle proteine I genomi sequenziati di batteri e archeobatteri sono costituiti principalmente da sequenze codificanti affiancate da 52 e 32 elementi cis-regolatori che operano per controllare l’espressione di tali sequenze a livello trascrizionale. Le uniche eccezioni sono geni che codificano rRNA e tRNA necessari alla sintesi proteica. Ruolo del ncDNA: • facilita il processo di riassortimento • ragioni strutturali • traccia dell’assemblamento casuale prebiotico Secondo questa teoria il ncDNA dopo l’escissione viene semplicemente degradato e riciclato Teoria tradizionale attività genetica Procarioti Eucarioti Teoria recente attività genetica RNA intronici ed esonici interagendo con altre molecole possono dirigersi con precisione verso bersagli posti su altre molecole di DNA ed RNA Sono state identificate migliaia di sequenze di RNA che vengono trascritte e non tradotte in proteine. Inutile spreco energetico? RNA intronico sembrerebbe svolgere un ruolo di regolazione nel riassortimento degli esoni uniti dallo spliceosoma: • elementi ultraconservati • RNA antisenso modificano gli schemi dello splicing Eucarioti RNAi Il meccanismo dell’RNA interference è stato scoperto nel 1998 da studi sul C.Elegans Segue la scoperta delle capacità di gene silencing dell’RNA antisenso, essenzialmente una molecola artificiale di RNA (single strand) che si lega all’mRNA e ne impedisce la traduzione in proteina. RNAi è in grado di combattere infezioni di RNA virus per cui si pensa che si sia evoluto per proteggere le cellule eucariotiche contro forme invasive di acidi nucleici Caratteristiche importanti dell’RNAi: • RNAi si diffonde nell’individuo e può essere trasmesso alla progenie •Solo poche molecole di dsRNA sono sufficienti ad innescare il meccanismo di RNAi ⇒presenza di componenti catalitiche di amplificazione •RNAi agisce a livello post-trascrizionale poiché dsRNA corrispondenti a sequenze introniche non attivano l’RNAi •RNAi è altamente specifico: l’iniezione di dsRNA omologo a sequenze esoniche specifiche di un gene eliminano o riducono solo l’mRNA corrispondete a quel gene particolare. RNAi 4 stadi: 1. Dicer taglia il dsRNA in frammenti a doppia elica lunghi 21-25 nucleotidi con terminali 5’ fosfato e 3’ idrossile con 2 nucleotidi addizionali non accoppiati sul terminale 3’ (siRNA) 2. I siRNA vengono incorporati in un complesso detto RISC (RNA-induced silencing complex) 3. Attivazione del RISC mediante la separazione delle due catene 4. Degradazione di mRNA complementare allo strand di guida del siRNA presente nel RISC 5. Si ha un ulteriore step che varia a seconda degli organismi. Questi siRNA secondari vengono generati durante un’amplificazione ciclica nella quale l’RdRp (RNA-dependent RNA polimerase) viene direzionata sul mRNA bersaglio dai siRNA esistenti Micro-RNA miRNA sono una classe di piccoli RNA non codificanti che si trovano nei genomi degli eucarioti. Nel genoma si trovano negli introni o in regioni non codificanti come singoli geni o in cluster di vari miRNA diversi entro il raggio di alcune kilobasi miRNA sembrano coinvolti nella regolazione dei geni attraverso vari meccanismi simili all’RNA antisenso e all’RNAi che portano al blocco della traduzione o alla degradazione del mRNA. miRNA trovati negli invertebrati si trovano anche nei vertebrati ma non viceversa. Micro-RNA miRNA vengono trascritti dal DNA come lunghi precursori primari (pri-miRNA), nel caso di ammassi di miRNA come polycistronic RNA con una distinta struttura secondaria contenente diversi stem.loops imperfetti La maturazione dei miRNA richiede almeno altri due passi di processazione: • La ribonucleasi III Drosha taglia gli stem-loops dal pri-miRNA dando luogo a miRNA precursori (pre-miRNA o stRNA) lunghi circa 70-80 nucleotidi • Nel citoplasma il Dicer un’endonucleasi di tipo III escinde il miRNA maturo (circa 22 nucleotidi) dal stRNA Ultraconserved elements • Solo ∼ 1.2% del genoma umano sembra codificare proteine • Dalla separazione con i roditori, ∼5% (~150 Mb) del genoma umano è più conservato di quanto si aspetterebbe secondo la teoria dell’evoluzione neutrale con più di metà di queste sequenze che corrispondono a sequenze non codificanti. • Ci sono 481 segmenti (ULTRACONSERVED ELEMENTS) più lunghi di 200bp che sono assolutamente conservati (identità del 100% senza inserzioni o cancellazioni) tra regioni ortologhe dei genomi di topo, ratto e uomo (tra questi non vengono considerate le regioni che codificano rRNA). Tra gli elementi assolutamente conservati ci sono inoltre più di 5000 sequenze lunghe tra 100 e 200 bp. • La divergenza del genoma umano da quello del topo sembra risalire a 75 milioni di anni fa. • La probabilità di trovare uno solo di questi segmenti in 2.9 miliardi di basi sotto le ipotesi di un modello semplice di evoluzione neutrale con sostituzioni indipendenti ad ogni sito è 10-22, usando il rate di sostituzione più lento che è stato osservato per qualsiasi regione da 1Mb del genoma. • Ognuno dei 481 elementi mostra alti livelli di conservazione con regioni ortologhe nei genomi della gallina e del cane: • • • Gallina: 467/481=97% di elementi allineati con una media del 95.7% di identità mentre i restanti 29 hanno il 100% di identità Cane: 477/481 = 99.2% di elementi allineati con una media del 99.2% di identità Sembra che questi elementi ultraconservati siano stati sottoposti ad una selezione estremamente negativa in molte specie per più di 300 milioni di anni Ultraconserved elements • Come aspettato, gli elementi ultraconservati non mostrano quasi nessuna variazione naturale nella popolazione umana. • Dei 481 elementi ultraconservati 111 (partly exonic) si sovrappongono al mRNA di un gene codificante conosciuto (includendo le regioni non tradotte UTR), 256 (non-exonic) non mostrano prove di trascrizione da qualsiasi expressed sequence tag (EST) e per i restanti 114 (possibly exonic) le prove di trascrizione sono inconclusive. Ultraconserved elements Sono distribuiti in modo ampio nel genoma su tutti i cromosomi escludendo i cromosomi 21 ed Y e spesso si trovano ammassati Partly exonic Non-exonic Possibly exonic Centromeri Considerando ammassati elementi separati da meno di 675 kb, sono stati trovati 89 cluster di 2 o più elementi La maggioranza dei cluster è composta da elementi non-exonic e da geni inerenti allo sviluppo Ultraconserved elements • Gli elementi non-exonic si trovano spesso nei “deserti genetici” che spesso si estendono per più di 1 Mb. I geni più vicini a tali elementi sono geni coinvolti in compiti inerenti alle prime fasi dello sviluppo. Questa associazione si ritrova anche per gli elementi non-exonic presenti negli introni. • Tra gli elementi ultraconservati molti sono molto più lunghi di 200bp. Gli elementi più lunghi sono di 779, 770 e 731 bp e tutti e tre si trovano negli ultimi 3 introni in porzione 3’ del gene POLA sul cromosoma X. • Un’altra regione di 711 bp si trova nella regione intergenica di ∼7kb tra il terminale 3’ del POLA e il terminale 5’ del gene ARX. Ultraconserved elements • ARX è coinvolto nello sviluppo del sistema nervoso centrale ed è associato a diverse malattie ereditarie come l’epilessia, l’autismo e altre malformazioni cerebrali. • Zone del DNA che hanno una selezione estremamente negativa (“ipomutabili” o “iperriparate”) potrebbero svolgere un ruolo vitale forse come reti autoregolanti di controllo per il processamento di RNA (nel caso di elementi exonic) o come reti auto-regolatorie del processo di controllo trascrizionale (elementi non-exonic). Ultraconserved elements • Nei mammiferi 2 grandi “deserti genetici” circondano il DACH. In tal modo il DACH risulta essere l’unico gene in una sequenza di 2630 kb. • Comparazioni tra i genomi del topo e dell’uomo in questo intervallo hanno rivelato più di 1000 sequenze non codificanti >100 bp e con un identità del 70%. Il problema è stato risolto comparando il genoma umano con quello di diversi vertebrati evolutivamente più lontani. In tal modo il numero di elementi non codificanti si è ridotto a 32. • • Esperimenti in vivo sui topi su 9 di questi elementi ha mostrato che sette di questi sono regolatori di diversi aspetti dell’espressione del gene DACH20. • Sequenze cis-regolatorie possono condizionare l’espressione di geni a distanze dell’ordine della megabase. Ognuno di questi 7 segmenti contiene sequenze allineate senza gap che vanno dalle 250 alle 530 bp con un grado di indentità tra il 98% e 99.5% tra uomo, topo e ratto. • Recentemente è stato suggerito che mutazioni in uno di questi enhancer (intensificatore) causa una forma di malformazione negli arti dei bambini. Sembrerebbe che questo enhancer regoli la topologia di espressione del gene SHH negli arti da una distanza di 1 milione di bp. • E’ quindi plausibile che queste sequenze siano cruciali per lo sviluppo di base dei vertebrati. Problema della complessità Complessità Biologica è definita come prodotto di mutamenti sia nelle caratteristiche macroscopiche che indicano una maggiore sofisticazione, sia nell’aumento di sequenze di DNA ricche di informazioni. Complessità Biologica è funzione del range di strutture subcellulari, numero crescente dei tipi di cellule, organi, funzioni neurali e immunitarie. PARADOSSI: • C-value paradox: la quantità di DNA per cellula non è una misura della complessità biologica • g-value paradox: il numero di geni per genoma non è una buona misura della complessità biologica Se il numero di geni fosse una misura della complessità biologica si dovrebbero considerare gli urocordati e gli insetti meno complessi dei nematodi e gli uomini meno complessi del riso. Inoltre ci si aspettava che il genoma umano comprendesse un numero di geni compreso tra 40.000 e 120.000 geni mentre dal progetto genoma umano si è scoperto che questi sono circa 25.000 Problema della complessità Alla luce dei due paradossi suddetti è stato studiato il rapporto tra non-protein coding DNA (ncDNA) e total genomic DNA (tgDNA) in 85 genomi sequenziati. [ 59 batteri, 8 archebatteri, 18 eucarioti di cui 7 eucarioti semplici, 1 fungo, 3 piante, 3 invertebrati, 1 urocordati e 3 vertebrati] Organismi ncDNA/tgDNA Procarioti 0.05÷0.24 Eucarioti unicellulari 0.26÷0.52 Organismi multicellulari complessi 0.62÷0.985 Per i procarioti si ha una distribuzione di specie non uniforme con una media di 0.1177. 67 specie batteriche mostrano un trend non lineare tra ncDNA/tgDNA e la grandezza del genoma. Il rapporto ncDNA/tgDNA sembra dunque rilevante nel descrivere la complessità degli eucarioti mentre lo è meno nel descrivere quella dei procarioti Problema della complessità Organismi complessi richiedono 2 livelli correlati di programmazione. 1. specifica le componenti strutturali e funzionali (proteine e loro derivati) 2. specifica come questi componenti sono disposti e assemblati a livelli organizzativi più complessi (cellule, organi) insieme al sistema di controllo che le gestisce. Aumento della complessità o funzionalità di un organismo ⇒ nuovi geni funzionali e/o nuovi regimi regolatori In qualsiasi caso sarà necessaria un’espansione delle rete regolatoria per integrare le nuove capacità con quelle preesistenti. Nuovi geni (o loro varianti di splice) con funzioni diverse dovranno essere regolati specificamente dando così una crescita lineare del numero di regolatori o di loro combinazioni. Inoltre una parte di questi regolatori richiederà a sua volta una regolazione per far si che tutte le parti di un organismo siano completamente connesse. Complessità nei Procarioti Più il sistema diventa complesso maggiore sarà la sua porzione dedicata alla regolazione. Questa relazione non lineare tra regolazione e funzione è caratteristica di tutti i sistemi integralmente organizzati. Questi hanno un limite di complessità intrinseco che è imposto dalla loro architettura di controllo accelerata (cresce finchè il costo di regolazione addizionale eccede il beneficio dato da nuove funzioni) a meno di un cambiamento nella natura del sistema di regolazione In accordo con questa predizione generale è stato mostrato che il numero di geni regolatori nei genomi procariotici cresce in modo più che lineare. Se le reti di regolazione biologiche mostrano una crescita accelerata, esse saranno caratterizzate da una scarsa connettività ad un basso numero di geni. Se queste reti, ottimizzate dall’evoluzione, non sono in grado di fare una transizione ad un regime più densamente connesso, il loro sviluppo evolutivo mostrerebbe un limite alla grandezza massima della rete. Questo è quello che si osserva nei procarioti: il loro genoma è limitato a circa 10000 geni o a una grandezza del genoma di circa 10Mb. Complessità nei Procarioti Vediamo un modello che si basa su un certo numero di assunzioni plausibili : • Ogni nuovo gene aggiunto al genoma esplora uno spazio di interazioni che è proporzionale al numero totale di geni • A priori ogni nuova interazione ha la stessa probabilità (p) di portare al fissaggio di un nuovo regolatore • Supponiamo che la maggior parte di interazioni regolatorie avviene tra geni non regolatori (interazioni tra regolatori danno luogo a termini di ordine sup.) Per ogni nuovo gene aggiunto al genoma contenente N geni, ci aspettiamo che p*N interazioni diventino fissate. Alcuni geni possono essere integrati nel sistema regolatore solo attraverso fattori di regolazione già esistenti. Comunque ci aspettiamo che alcuni dei nuovi geni debbano essere regolati specificamente. Una frazione (ν) delle nuove interazioni corrisponderà a nuovi fattori di regolazione. Aggiungere un nuovo gene corrisponde a fissare ∆R=νpN nuovi regolatori. Posto νp=c Aggiungere ∆N nuovi geni risulta in ∆R=cN ∆N nuovi regolatori Complessità nei Procarioti • R = numero di nuovi regolatori • N = numero di geni • Iniziando da un genoma ipoteticamente vuoto e aggiungendo un gene alla volta, possiamo stimare il numero totale di regolatori come somma di tutti i termini ∆R: N 2 c * N ( N + 1) c * N ≅ R= c*n = 2 2 n =0 ∑ Quindi il numero di regolatori cresce circa quadraticamente con il numero di geni. Complessità nei Procarioti Dall’analisi dei genomi completamente sequenziati di 89 batteri e archeobatteri si ha: archeobatteri batteri La distribuzione è ben descritta da una retta con pendenza 1.96 che corrisponde ad una relazione quadratica tra numero di geni regolatori e numero totale di geni. Si ha la relazione empirica: 1.96 R =0.0000163 * N Complessità nei Procarioti • • • I regolatori sono la classe di proteine che cresce più rapidamente e tale comportamento ha una implicazione profonda nella capacità di evolversi dei procarioti. La crescita accelerata dei costi di gestione del sistema di regolazione impone un limite alla dimensione del genoma Punto in cui il guadagno funzionale è superato dai costi di regolazione nel modo seguente: Sia N (numero totale di geni) = R (geni regolatori) + S (geni non regolatori) ∆N=∆R+∆S per ogni aumento di ∆N del genoma In genomi piccoli la crescita avviene con ∆R<<∆S Col crescere della dimensione del genoma si arriva al punto in cui ∆R>∆S, cioè quando all’aggiunta di un nuovo gene S si ha l’aggiunta di più di un gene R Questo punto indica pressappoco il limite in cui l’espansione del genoma diventa inefficiente Da ∆R=c*N* ∆N si evince facilmente che se c*N>1/2 si ha che ∆R>∆S Dal grafico si ha c=2.40*10-4 e quindi il limite si ha per N>20000 Questo risultato è entro un fattore 2 dal limite di 10000 geni osservato nei procarioti Conseguenze nuova genetica • Malattie come l’epilessia e l’autismo potrebbero essere legate ad errori nelle zone di ncDNA • Comprensione del meccanismo di differenziazione cellulare sarebbe legato ai miRNA • Comprensione del meccanismo di regolazione negli eucarioti porterebbe ad un balzo nell’architettura dei calcolatori tanto importante quanto lo è stato il passaggio da procarioti a eucarioti Earth simulator procarioti Entrambi accrescono la dimensione del sistema con un aumento quadratico della connettività • • • • • • • • • • Bibliografia Zofia Szweykowska-Kuliñska, Artur Jarmowski and Marek Figlerowicz, RNA interference and its role in the regulation of eucaryotic gene expression, Acta Biochimica Polonica, Vol. 50 No. 1/2003, p 217–229 Andrea Tanzer. Jorg Lehmann, Peter F. Stadler, STATISTICAL EVIDENCE FOR SPECIFIC EXPANSION OF THE miRNA REPERTOIRE IN VERTEBRATES Gill Bejerano, Michael Pheasant, Igor Makunin, Stuart Stephen, W. James Kent, John S. Mattick, David Haussler, Ultraconserved Elements in the Human Genome, SCIENCE VOL 304, 28 MAY 2004, p 1321-1325 Larry J. Croft, Martin J. Lercher, Michael J. Gagen, and John S. Mattick, Is prokaryotic complexity limited by accelerated growth in regulatory overhead?, Genome Biol. Preprint Depository [online], http://genomebiology.com/qc/2003/5/1/p2 (2003). John S.Mattick , RNA regulation: a new genetics?, NATURE REVIEWS | GENETICS, VOLUME 5 | APRIL 2004,p316-323 John S. Mattick and Michael J. Gagen, Imperatives and inherent limitations of accelerating networks in biology, engineering and society Ryan J. Taft and John S. Mattick, Increasing biological complexity is positively correlated with the relative genome-wide expansion of non-protein-coding DNA sequencesarXiv Preprint Archive [online], <http://www.arxiv.org/abs/qbio.GN/0401020> (2003). Gagen, M. J. & Mattick, J. S. Inherent size constraints on prokaryote gene networks due to ‘accelerating’ growth. arXiv Preprint Archive [online], <http://arXiv.org/abs/q-bio.MN/0312021> (2004). Dario Boffelli,Marcelo A.Nobrega and Edward M. Rubin ,COMPARATIVE GENOMICS AT THE VERTEBRATE EXTREMES, NATURE REVIEWS | GENETICS, VOLUME 5 | JUNE 2004, p 456-465 Ugo Bastolla, Markus Porto, H. Eduardo Roman, and Michele Vendruscolo, Statistical properties of neutral evolution, arXiv : cond-mat/0209049 v1 3 Sep 2002