IL DOGMA CENTRALE GENOMA e PROTEOMA Dati aggiornati al 7 ottobre 2011 Genomi completi: 2935 Genomi in corso di sequenziamento: 7643 Organizzazione dei genomi L’organizzazione dei genomi e’ piuttosto variabile. Nel genoma umano la maggior parte della sequenza (>90%) non e’ codificante, mentre in lievito e in E.Coli il grado di compattazione dei geni e’ piuttosto elevato, con solo il 10% di regioni non corrispondenti a open reading frames (ORF). Negli insetti la situazione e’ intermedia, mentre in piante, come zea mays, e’ molto frequente osservare larghe regioni ripetute con scarso contenuto informativo, con dimensioni totali spesso superiori a quelle dei genomi di vertebrati I genomi batterici vanno da 500000 a pochi milioni di nucleotidi, gli eucarioti miliardi. I batteri hanno un cromosoma a singola copia, gli eucarioti molti a due o più copie ( una nella linea germinale).I geni batterici sono continui, quelli eucariotici discontinui ( esoni+introni ).Il DNA nei batteri è in gran parte codificante, negli eucarioti non I GENOMI NEI VARI ORGANISMI I GENOMI VIRALI I GENOMI PROCARIOTICI Il genoma dei procarioti Architettura dei genomi procariotici L’organizzazione dei genomi batterici I genomi procariotici sono compatti, di dimensioni variabili da un minimo di 400 kb a circa 10 Mb. Le regioni codificanti sono raggruppate in operon, separate da piccole regioni non codificanti. Tipicamente il genoma è costituito da un unico cromosoma circolare, ma esistono genomi lineari e composti da piè catene di DNA; in alcune specie sono presenti plasmidi extracromosomiali. Complessivamente il DNA non codificante è intorno al 10%, distribuito in un gran numero di regioni spaziatrici. Il genoma dei procarioti • Risposta agli stimoli = alterazione livelli di espressione dei geni • Funzioni dei geni nei procarioti: – 32 geni o più: capacità di produrre e replicare il DNA – 100 – 150 geni: fabbricazione delle proteine “strutturali” – 30 geni o più: generazione e immagazzinamento dell’energia • Insieme minimo: 256 – 300 geni. Il genoma dei procarioti L’organizzazione del genoma di E. Coli Il genoma di E. Coli K12 è costituito da circa 600 operon, situati su una unica molecola di DNA circolare di 4.64 Mb. I geni sono localizzati a stretto contatto tra loro, lasciando solo piccole aree non codificanti come spaziatori. Una varietà di sequenze ripetute è presente nelle regioni non codificanti, ma anche in quelle codificanti. La struttura del cromosoma di E. Coli mostra ben visibili le caratteristiche indicate. I GENOMI EUCARIOTICI Il genoma degli eucarioti • Eccezionalmente più complesso • Organismi multicellulari, differenziazione cellulare • Enormi quantità di DNA “spazzatura” Specie Lievito Dim. del genoma Numero di geni (Mb) 13 6 241 Caenorhabditis el. 100 18 424 Arabidopsis 130 25 000 Moscerino della frutta 180 13 601 Pesce zebra 1 700 ? Homo sapiens 3 000 45 000 A = DNA cloroplasto doppio filamento 120 160 kb codifica enzimi per la fotosintesi 20 40 copie per organello B =DNA mitocondriale circolare a doppio filamento 16-18 kb fino a 30 copie per organello I geni mitocondriali • 37 geni totali • 24 geni per RNA: 22 tRNA e 2 rRNA • 13 geni per proteine (subunita’ dei complessi respiratori mitocondriali) Struttura del genoma eucariotico •Sequenze ripetute •Geni interrotti •DNA non codificante • IL GENOMA UMANO e’ composto da 25 differenti molecole di DNA: 24 differenti molecole di DNA nucleare (22 autosomi, X e Y) (GENOMA NUCLEARE), 3200 Mb (3x109 bp); 1 singolo tipo di DNA mitocondriale (GENOMA MITOCONDRIALE), 16,6 kb (1,66x104 bp). Genoma nucleare • 24 differenti molecole di dsDNA corrispondenti ai 24 cromosomi (22 autosomi, X e Y) • Le dimensioni dei singoli cromosomi variano notevolmente, come la loro composizione in GC geni per: rRNA (300) tRNA (1300) 5S RNA (2000) istoni (20) sequenze ripetute intersperse sequenza Alu: 300 nt (x 300.000) sequenze semplici o satelliti: 2-10 nt (x 2-100 copie in tandem x 1-100 blocchi interspersi) Sequenze uniche e ripetute nel genoma Uniche (1-10 volte) 50-70% Maggior parte dei geni in tandem Geni reiterati (rRNA, 5S RNA, tRNA, Istoni etc.) Mediamente ripetute (da centinaia a migliaia Alcune sequenze regolative di volte) intersperse 10-30% Alcune sequenze a funzione speciale (centromeri, origini, etc.) Altamente ripetute (da decine di migliaia a milioni di volte) 5-25% DNA satelliti sequenze semplici I geni umani • Stimati in un numero tra 30 000 e 35 000. • Non sono distribuiti sui cromosomi in maniera uniforme. • La grande maggioranza dei geni umani codifica proteine, mentre una frazione tra il 5 e il 10% di essi specifica molecole di RNA non-tradotte. • Dalla sequenza del genoma si identificano circa 11 000 geni con certezza. Gli altri geni sono stati predetti mediante analisi informatica della sequenza, e sono, quindi, solo putativi. I geni che codificano proteine • Dimensioni molto variabili • Diversa organizzazione esoni-introni • Differenze nel contenuto di DNA ripetitivo (introni e sequenze fiancheggianti) • Distribuzione variabile sui vari cromosomi DNA ripetitivo non-codificante clusterizzato Spesso si trova in blocchi di ripetizioni in tandem, e puo’ essere classificato in: • DNA satellite, soprattutto centromerico • DNA minisatellite, generalmente situato ai telomeri • DNA microsatellite, disperso in tutti i cromosomi, anche nelle regioni codificanti Esiste invece una forte correlazione tra la complessità biologica e la frazione di DNA non codificante proteine sul totale del genoma (nc/tg) Il DNA non codificante è quindi quella parte di genoma che maggiormente varia al variare della complessità INTRONI UTRs REGIONI INTERGENICHE Le regioni intergeniche possono regolare la funzione del genoma in cis (promotori, enhancers, insulators, ecc) o in trans, attraverso RNA non codificanti di varie classi •Le proporzioni relative delle componenti del DNA variano nei diversi genomi eucariotici •Il contenuto assoluto di DNA non ripetitivo aumenta con le dimensioni del genoma, ma raggiunge un plateau a circa 2 x 109 bp. La percentuale di DNA non ripetitivo tende a diminuire con l'aumentare della grandezza del genoma Organismo Specie Grandezza del genoma Complessità del DNA non ripe titivo Percentuale batterio E.coli 4.2 x 106 4.2 x 106 100 lievito S.cerevisiae 1.3 x 107 1.3 x 107 100 verme C.elegans 8.0 x 107 6.7 x 107 83 moscerino D.melanogaster 1.4 x 108 1.0 x 108 70 riccio di mare S.purpuratus 8.6 x 108 4.3 x 108 50 topo M.musculus 2.7 x 109 1.5 x 109 58 rana X.laevis 3.1 x 109 1.7 x 109 54 pianta superiore N.tabacum 4.8 x 109 5.0 x 108 33 tritone T.cristatus 2.2 x 1010 4.7 x 109 47 Organizzazione del genoma •Quanti geni? •Quali geni? •Quanti geni indispensabili? Quanti geni espressi? •Circa 10 000 geni sono espressi in tutte le cellule •Alcuni geni sono espressi solo in alcune cellule Introni e esoni •Esoni: sequenze rappresentate nell’RNA maturo •Introni: sequenze rimosse dal trascritto primario Introni •Assenti nei procarioti (qualche eccezione) •Pochi negli archeobatteri e nei lieviti •Molti negli eucarioti complessi Gene per il collagene 1a2 di pollo DNA genomico e cDNA Origine degli introni •Antica: gli introni sono stati eliminati in alcuni genomi •Moderna: gli introni si sono inseriti in alcuni genomi Origine degli introni Non si è ancora certi dell’origine di tutti gli introni, ma si portano tre spiegazioni che tuttavia non soddisfano l’intera massa Alcuni introni sono “residui fossili” di virus (retrovirus) che hanno lasciato il loro patrimonio inserito nelle cellule ospiti, le quali sono riuscite a evitarne la successiva trascrizione, rendendoli inattivi. La riattivazione di alcuni di questi tratti virali, può indurre gravi malattie genetiche. (antica) Alcuni sono la rimanenza di esoni che, a causa di gravi mutazioni, sono stati silenziati “volontariamente” dalla cellula.(antica) Molti possono essere il risultato del processo di “exon shuffling”, tale teoria ipotizza che gli introni permettano l'assemblaggio delle diverse unità funzionali di una proteinain nuove combinazioni evolutivamente vantaggiose (ad esempio quando un certo genoma ha "imparato" la sequenza che codifica un sito ATPasico, lo inserisce in altri geni che codificano proteine che necessitano di idrolizzare ATP per la loro funzione) (moderna) L’idea che i geni siano stati assemblati per aggregazione di esoni implica che gli introni fossero presenti nei geni degli organismi primitivi. La teoria esonica dei geni Piccoli geni Genoma primordiale I brevi geni dei primi genomi probabilmente codificavano proteine a singolo dominio che, per produrre un enzima attivo, dovevano associarsi formando proteine a molte subunità. Più tardi la sintesi di questo enzima può essere stata resa più efficiente dall’unione dei brevi geni, a formare un gene discontinuo codificante una singola subunità proteica con molti domini. Proteina con molte subunità Singola subunità proteica con molti domini Singolo gene discontinuo Ruolo degli introni nell’evoluzione (teoria del “mescolamento degli esoni”) Splicing alternativo Famiglie geniche Più della metà dei geni di lievito non sono indispensabili •Geni ridondanti (famiglie geniche) •Funzioni accessorie Le famiglie geniche si evolvono per duplicazione di uno o più geni seguita da divergenza tra le copie. Alcune copie subiscono mutazioni inattivanti e diventano pseudogeni Famiglie geniche • Famiglie geniche classiche (istoni, globine) • Geni codificanti prodotti con domini altamente conservati (Homeobox, Paired box, Forkhead, ecc.) • Geni codificanti proteine contenenti corti motivi conservati, correlati ad una comune funzione (DEAD box, WD domain, ecc.). • Superfamiglie (immunoglobuline, recettori G protein coupled, ecc.) . Famiglie geniche • Raggruppate Gruppo singolo (alfa-globine, geni GH) Gruppi multipli (geni HOX, istoni) • Disperse (geni PAX, NF1) Organizzazione delle unità di ripetizione dei geni per gli istoni in diverse specie Famiglia dei geni della globina nell’uomo e altri primati Le emoglobine umane SUBUNITA' EMBRIONE FETO ADULTO di tipo di tipo G, A 2 2 (Gower 1) 22 (HbF) 22 (HbA) tetrameri 22 (Gower 2) 2 2 (Portland) 22 (HbA2) Duplicazioni geniche nell’evoluzione della famiglia genica delle globine umane Il confronto delle sequenze nucleotidiche permette la deduzione delle relazioni evolutive tra i geni delle globine 800 milioni di anni 500 milioni di anni 200 milioni di anni 100 milioni di anni Mioglobina 2 2 -globine 1 40 milioni di anni G A -globine d PSEUDOGENI Pseudogeni = geni non funzionali • copie difettive dell’intera sequenza di un gene funzionale (o della sua porzione codificante) • copie troncate, mancanti di porzioni al 5’, al 3’ • frammenti interni. •Con introni •Maturati Pseudogeni non-processati • Contengono tutte le regioni funzionali del gene • Presentano codoni di stop inappropriati • Originati per duplicazione genica o crossingover ineguale Pseudogeni processati • Contengono solo le sequenze esoniche e una sequenza oligo dA/dT • Copiati dall’mRNA in cDNA e reintegrati nel genoma • Se sono espressi sono detti retrogeni Origine degli pseudogeni PROTEOMA