STRUTTURA E FUNZIONE DEL GENE EVOLUZIONE DEI GENOMI Lodish – Molecular Cell Biology GENOME: total genetic information carried by a cell or organism GENE: physical and functional unit of heredity, which carries information from one generation to the next. In molecular terms, it is the entire DNA sequence (including exons, introns and noncoding transcriptional control regions) necessary for production of a functional protein or RNA ATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGGATGACTTTCCTCCAGCTACGTCTCAAC TATTCAGCCCAGGAGCGCCTTTAGATGTGCACCCACTTAATCCATCCAATCCAGAGACTGTATTTCATTCACATCTTGGTGCAGTCAAAAAGGCACCCAGTGACTTTTCATCTGTGGATCTAAGCTTCTT ACCAGATGAACTTACCCAAGAAAATAAAGACCGAACTGTCACTGGAAACAAAGTCACAAATGAGGAAAGCTTTAGGACTCAAGATTGGCAAAGTCAGTTGCAGTTGCCTGATGAACAAGGCAGTGGG CTGAACTTGAATAGCAACAGTTCACCAGATACCCAGTCATGTCTGTGCTCTCATGATGCTGACTCCAACCAGCTCTCTTCAGAAACACCAAATTCCAATGCCTTACCTGTGGTATTGATATCATCCATGA CACCAATGAACCCTGTTACAGAATGTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCTTTGAATGCCAAAAACACAGAATATA ATCCAAAGAGGTTTGCTGCAGTCATAATGAGGATCCGAGAGCCAAGGACCACAGCTCTTATATTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGACGAGTCTCGGCTGGCAGCAAGA AAGTATGCTCGCGTGGTGCAGAAGCTGGGGTTCCCCGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGCAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGC AGTTCAGTAGTTATGAGCCTGAACTGTTCCCTGGCCTTATTTATAAGATGGTGAAACCGCAGGTTGTGCTGCTCATCTTTGCATCTGGAAAGGTTGTACTGACAGGTGCCAAAGAGCGTTCTGAGATCTA CGAAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGGAGGACATATACCTGGACCTCTTCCTGGATCCTTATACCATCCAGGATGACTTTCCTCCAGCTATGTCTCAA CTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACC AGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTG AACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGC CAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCCCTGAATGCCAAAAACACAGAATATAACC CAAAGAGGTTTGCTGCAGTAATAATGAGGATCCGAGAGCCAAGGACAACAGCTCTCATCTTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGAGGAGTCTCGGCTGGCAGCGAGAAA GTATGCTCGTGTGGTGCAGAAGCTCGGGTTCCCTGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAG TTCAGTAGTTATGAACCTGAACTTTTCCCCGGCCTTATTTATAAGATGGTAAAACCACAGGTTGTGTTGCTAATCTTTGCATCTGGAAAAGTTGTGTTAACAGGTGCCAAAGAGCGTTCTGAGATCTATG AAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGCAGGAGGAGACCTACCTGGAGCTCTACCTGGACCAGTGCGCCGCTCAGGATGGCCTTGCCCCACCCAGGTCTC CCCTGTTCAGCCCAGTTGTACCTTATGATATGTACATACTGAATGCATCCAATCCGGATACTGCATTTAATTCGAACCCTGAAGTCAAAGAAACATCTGGTGATTTCTCATCTGTGGATCTTAGCTTCCTA CCAGATGAAGTTACCCAGGAAAATAAAGACCAGCCTGTCATTAGCAAACACGAAACTGAAGAAAATTCTGAAAGCCAAAGTCCACAAAGTAGGTTGCCATCACCCAGCGAACAGGACGTTGGGCTGG GCTTAAACAGCAGCAGTTTGTCAAATTCCCATTCACAGCTGCACCCTGGTGATACTGACTCAGTCCAGCCCTCTCCTGAGAAACCAAACTCCGACTCCTTGTCTCTGGCATCCATAACTCCCATGACACC AATGACCCCTATTTCAGAATGTTGTGGAATTGTACCTCAACTACAGAATATAGTTTCCACTGTAAACCTGGCCTGTAAGTTGGATCTGAAGAAAATAGCTTTGCATGCAAAAAATGCAGAATATAACCC AAAGAGGTTTGCTGCTGTCATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAAT ATGCTCGTGTGGTGCAGAAGCTTGGGTTCCCTGCCAGATTCCTCGATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAGATTTCCCATCAGGCTGGAAGGTTTGGTGCTAACCCATCAGCAGTT CAGTAGTTACGAGCCTGAACTGTTTCCTGGTCTTATTTATAGAATGGTAAAACCACGAATTGTGTTGCTTATCTTTGTATCTGGAAAAGTTGTGTTGACAGGTGCCAAAGAACGTTCTGAGATCTATGAA GCATTTGAAAACATCTATCCTATTCTAAAAGGTTTTAAAAAAGCCTGAGAAGTCCCCTGGGTAACTTCCAGGCAGCTTCATTTCTGAAGAGTCCAAACTGCAGCATAGAGGACTTATGAAAAACTGTAA AAAATTGGTTTTAAGTGTTCCATTAAACCCAAAGAAAACAGTCACACAACAAAGCCAGACACAGAAAATTAGGGTGACATGTTTCCTGTCATATGTGGAGCCTAGAGAACATAGAGATGATGTGAAAG CAGAAGGAGCTATCAAGAAAAAGGAAAGCAGATGGGGCAGCAGATCCATGGGAATACTGGCAGAACTGTATAATGGAAGAATGTCGTATGCACATATGAACATGTCATAATGAAACCTAGTATTTTGT ACAGTTAATATGGACTAGACAATAGCACAAAGAAATTAGAGATTAGTCTAGCTATATGAAGAGGCTACATCAAAGATCACTCCTTTTTGATGGACAAATTTAATTCCTTATAACTGTAGAGCTGAGATA TTCACTTGCTTGTCAGACATTAAATGTATCCCACTCTTAGGGTCTAGAAGTTACCCAGACTTCTTGTACCATGGTCCCATCTATCTTCAAAGTCAGCAGTGACGACTCTGCCTTATGACAAGGTCATCTCC TGCTTTCAAATCCCTCCCAAAGAGTGGCCAATTCCTCCTTGGCTGCTCAGTCAGTAAGGGCAGGCTTGGATCCTTTCCCTTTCCTAACAATGGACTTGGAATTTTAATTACATCTTCAAAACCCAAGAGC ATTTGGTTTTTTTTAGATAACTGGGAGATACATTTGGAGATAGGGATTTGGGGAGCCACCGAAACATTCTACCTACCATAGGAAATAGTTATAAATCTATTTTACTGGCTGGAGAGATGGCCAAGCAGTT AAGAATACTTTCTGCTTTTTCAAAGGATAGAAATTCTGTTCCTAGCACCCACACTGGGCTTCTTAGTGATTCCAACTCTACAGGACCTGATGCCTCCTTCTCTCTGGCTTCCTTAGATACCAGTTTGTACT GGCACATGCATATGCACAGGAGAAGGCTCTCTCTCTCTCTCTCCCCCCCCCCCCTCTCTCTCTCTCACACACACACACAAGATGGTGAGATATAATTAATAAAATAAAGTAAAATTTGGATCTGTTTTAG TCAGTTTGGGATGCCATAATAAAACACCACAAACTGGGCAGTTTAAACCACAGAAATTTCCTTCATAGTTCTGAAGGCTGGAGATCTAAGATCAAGGTCCCTGCAGATTTGGTCTCTCCTGTAGCAATC CTCCATCTTTCCTTTTAGGTAGCTGCCTTAATGTTGCTCTTTTTACAGCTTTTTCTTTGTATTTCTATGAAAACATCAGACATATTGGATTGGGGCTTCTACACATGATCTTCATGGGATAAGCAATAACCA TAGTTACTGATCTGTGAGGCTGGTTCTGAGTGTGCAGCTCAGTAGGCTGTCTCATTTACAGACACTATGACATTACATCACACATCACTATATAAATCCCAGATTTTTCAAAAGGATCCCCCTATTTTTAT TGGAATGTCTGACTCTAGTGCAGGTTATCCAAGCTCCATTCTCAGGTTCGTTTTATCCACCAAGACTGAGCAGATGAGCTGGGCACAGAGACATGATGATGAATAATTTAAATTGTTCCTTTTAAACAGT AGAATCAAGTAAGGAAGATTTAAAAATACATTTTGCAATCTCTTACATCAAAGTGTCTTCTTCTAGAACAGTTCAATACAGTTAAGCTAAGACATTTGAATTAAAGCGTTTAAGAAAGAAAAGCTTCTCT GGATATTTGGTTTTACATTAACTTCTTGAGTTGTCTGAACCCTAACTGTGGAATTTGCACAGCTGTAGGCAAATTCTCTGTAATAGGTGAAAATCTACCTGGGGTGTGAAGGTGAAGAATAATTACAGAA ATATCACATCTGAATAGATGAGGGGATTCAGCGGGCAAGGGTGCTTGCCACCAAGCCTGACACTCTGGGTTTGATCCTTGTGTTTCTTCCAGAGCTGGAAGGAGAGAACCTACTCCTGAAAATTGTCTT CTGACCATAACATGAGCTCTGCACTGTGCATGTGTCCATGCACACATGCCAATGAAGATAAATCAATATTAGAAATATCACATCTAAGAATCTGGGTATGGTGATGCTCATGCATGTTGTAACCCCAGA ACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAGGGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGGAAAAGGATAAGGATAAAGGCAGAAGAGA AAAGCATTCTTTTCTCACTTGCACAATGAGAAAACCTTATCATGCTACTCTACTGGAAGCACTAGTCTCGGCCCTCCTCTTCTTCTGGGTGCCACCAGCTGTGTCTTGCCTGGCTCATCAACTCCTTCTCT GCTTCTCACCTGACTCCTCAGCTCATTCACAGCATCTGTGCAAGGCAGCAGAGCTGGTCCCGCCTCACTGCGTGCTCCCTGAGGCTGATAAAAGGTATCTGCTCCCACAGCCAGACTGGTACTAACAAA GCTTCTTCCACTTGCCTGGACGCTGATTCCTTTGCTTGTCCTCAGCTCTACGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGA GACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCT GGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATG ATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGATGAC TTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATC TGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCG ATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGG CATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAAGAACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAG GGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTC TCGACTTGCAGCAAGAAAATATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAA ATATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAATATAATGAGGATCCGAG Struttura del GENE GENE procariotico Genoma di E. coli GENE procariotico OPERONE Sequenze regolatrici a monte Sequenze codificanti Sequenze terminatrici della sequenza codificante GENE procariotico animazione GENE procariotico Promotori GENE procariotico Sequenze codificanti ORF (Open Reading Frame) ATGGTATAT-------------------------------TAA MET VAL TYR STOP GENE procariotico A Promotore B C Operone Sequenze codificanti Terminatore GENE procariotico A Promotore B C Operone Sequenze codificanti mRNA Terminatore mRNA mRNA Proteina Proteina Proteina GENE procariotico Repressione A Promotore B C Operone Sequenze codificanti Nessuna espressione Terminatore GENE EUCARIOTICO GENI DELLA I CLASSE RNA RIBOSOMIALE – rRNA (28S-5,8S e 18s) GENI DELLA II CLASSE RNA MESSAGGERO – mRNA Piccoli RNA nucleari – snRNA microRNA - LncRNA GENI DELLA III CLASSE RNA TRANSFER – tRNA Piccoli rna nucleolari – snorna Piccoli rna citoplasmatici - scrna GENE EUCARIOTICO GENE EUCARIOTICO GENE EUCARIOTICO GENE EUCARIOTICO GENE EUCARIOTICO GENE EUCARIOTICO Promotore GENE EUCARIOTICO Promotore GENE EUCARIOTICO Sequenza codificante modulare GENE EUCARIOTICO Segnale di poliadenilazione Organizzazione genica negli eucarioti I geni eucariotici sono monocistronici Eccezioni: Unità di trascrizione policistroniche risolte in mRNA maturi monocistronici per trans-splicing (es in tripanosomi, nematodi, platelminti); uso di IRES, reinizio della traduzione o frameshift traduzionale I geni eucariotici non mostrano nessuna evidente relazione tra localizzazione e l’attività funzionale (functional clustering) o con l’espressione spaziotemporale Eccezioni: Raggruppamento di geni con funzione correlata, quali geni Hox, geni per emoglobine e geni per immunoglobuline (duplicazioni in 23 tandem?) Organizzazione genica negli eucarioti Alcuni geni eucariotici sono policistronici Taxon Tripanosomi (Euglenozoa) Cnidari Platelminti (Metazoa Acoelomata) Nematodi (Metazoa Pseudocoelomata) Ciona intestinalis/Oikopleura dioica Entità tutti gli RNA alcuni RNA pochi RNA molti RNA molti RNA Il processamento del precursore policistronico è associato al Trans Splicing delle estremità 5’ degli mRNA e alla poliadenilazione delle estremità 3’ per generare i trascritti monocistronici. 25 Geni codificanti per proteine - geni presenti in unica copia (single-copy genes) - geni omologhi presenti in copie multiple ed organizzati in famiglie geniche I membri di una stessa famiglia genica possono essere localizzati in unico cluster, dispersi, o localizzati in più cluster: Geni in cluster: -globin (7), growth hormone (5), Class I HLA heavy chain (20),…. Geni dispersi: Pyruvate dehydrogenase (2), Aldolase (5), PAX (>12),.. Geni localizzati in più cluster: HOX (38 – 4), Histones (61 – 2), Olfactory receptors (>900 – 25),… 26 La struttura dei geni eucariotici Nel genoma umano non si osserva una distribuzione omogenea dei geni. La più alta densità genica si osserva nel chr 19, mentre il chr 13 e Y mostrano la più bassa densità. GENE esone introne introne esone TRASCRIZIONE TSS mRNA 5’UTR Caratteristiche dei geni umani esone CDS 3’UTR TRADUZIONE Mediana Media Num ero di esoni 7 8,8 L introni (bp) 1023 3365 L 5'UTR (bp) 240 300 L CDS (bp) 1100 1340 L 3'UTR (bp) 400 770 L gene (bp) 14000 27000 28 La struttura dei geni eucariotici I geni eucariotici presentano una grande varietà di strutture e dimensioni. Ad esempio nel genoma umano: Il più piccolo: Il più grande: tRNAGLU (69 bp) Distrofina (2.4 Mb, la sua trascrizione richiede circa 16h) Il numero di esoni può variare da 1 (geni privi di introni come molti geni per ncRNA, interferoni, istoni, ribonucleasi, HSP, GPCR, ecc.) sino a 363 (Titina). Le dimensioni degli esoni e degli introni sono estremamente variabili. A fronte di esoni costituiti da pochi nucleotidi, l’esone più grande è presente nel gene per ApoB (7.6 kbb). Anche le dimensioni degli introni possono variare da pochi nucleotidi fino a 800 kbp (gene WWOX). Le proteine codificate possono variare nelle dimensioni da pochi residui (piccoli ormoni) sino a molte migliaia (Titina, 38.138 aa). 29 GENE EUCARIOTICO Può un gene codificare per diverse proteine? Uno stesso gene può codificare per proteine indirizzate a diversi compartimenti cellulari: l’esempio del gene NFS1 La proteina codificata dal gene NFS1 rimuove lo zolfo dalla cisteina formando alanina. Questo gene utilizza siti di inizio alternativi della trascrizione e quindi traduzione per generare una isoforma mitocondriale ed una isoforma citoplasmatica. La selezione del sito di inizio della traduzione è regolata dal pH citosolico. L’isoforma che codifica per la proteina mitocondriale (457 aa) contiene un peptide segnale e un dominio aminotrasnferasico. L’altra isoforma, che deriva sa un sito di inizio alternativo della trascrizione codifica per una proteina più corta (397 aa) priva del peptide segnale ma contenente il dominio aminotransferasico. GENE EUCARIOTICO Può un gene codificare per diverse proteine? X Uno stesso gene può esprimere proteine con funzioni opposte: l’esempio dell’attività della Caspasi 9 (CASP9) La forma costitutiva della proteina (CASP9, 9 esoni, 416 aa) induce apoptosi. Essa contiene un Caspase recruitment domain (CARD) e un dominio caspasi Peptidase_C14. L’isoforma più corta della proteina (CASP9S, 5 esoni, 266 aa) contiene un dominio Caspase recruitment domain (CARD) e un dominio tronco della Peptidase_C14. Questa isoforma è priva dell’attività proteasica e agisce da inibitore dell’apoptosi. Splicing Alternativo Oltre il 90% dei geni umani è in grado di esprimere più di un trascritto (ed è quindi soggetto a splicing alternativo). Le diverse isoforme di splicing possono avere specificità a livello di tessuto, di condizione fisiologica, o patologica. 17,635 Human genes 35 30 25 % 20 15 10 5 0 1 2 -5 6 -1 0 1 1 -2 0 2 1 -3 0 Number of Transcripts/ Gene 3 1 -5 0 >5 0 Splicing alternativo e duplicazione genica sono inversamente correlati GENE EUCARIOTICO Può un gene codificare per diverse proteine? Definizione di GENE • La trascrizione di un gene si può arrestare in corrispondenza di diversi terminatori Il gene per tp73L codifica per 10 trascritti alternativi, e utilizza 2 promotori e 3 diversi terminatori della trascrizione I geni possono essere sovrapposti I geni possono essere sovrapposti tra loro, nello stesso orientamento o in orientamento opposto, o anche essere completamente contenuti in altri geni. GENE EUCARIOTICO Geni dentro i geni Geni all’interno di altri geni sono descritti per i genomi di organismi semplici e nei mitocondri Nei mammiferi sono descritti geni contenuti nei grandi introni di alcuni geni. A differenza dei genomi piu’ semplici in questi casi spesso viene utilizzato il filamento opposto al gene “canonico” Esempio: NF1: introne 26 (40Kb) contiene tre piccoli geni (2 esoni) che vengono trascritti dal filamento opposto GENE EUCARIOTICO Geni dentro i geni NF1 Filamento di senso 5’ Filamento antisenso 3’ Introne 26 esone 26 esone 27 3’ 5’ OGMP 2.2KB EVI2B 10 KB EVI2A 4 KB GENE EUCARIOTICO GENE EUCARIOTICO GENE nei virus GENE nei virus VITA? Virus a DNA Virus a RNA GENE nei virus GENE nei virus Geni sovrapposti Met Val … proteina b Sequenza di DNA …GTTTATGGTA… Val Tyr Gly … proteina A Il genoma è fatto solo di geni? Il genoma è fatto solo di geni? Anatomia del Genoma Umano Il genoma è fatto solo di geni? Pseudogeni Talvolta la copia di un gene non è funzionale, ovvero non viene trascritta in RNA, o viene trascritta in un RNA non funzionale. Le copie inattive di un gene vengono dette pseudogeni. Gli pseudogeni possono essere classificati in: 1) non processati; 2) processati. Nel primo caso il gene inattivo è originato dal gene funzionale e contiene la tipica struttura in esoni ed introni. La copia genica può essere completa o parziale. Gli pseudogeni di questo tipo si formano con maggiore probabilità nelle regioni pericentromeriche. Gli pseudogeni processati sono privi di introni in quanto derivano dalla retrotrasposizione di mRNA (retropseudogeni). Il numero di copie di retropseudogeni è correlato al livello di espressione del gene da cui derivano. Pseudogeni La Trascrittasi Inversa codificata da elementi LINE può retrotrascrivere un mRNA in cDNA che successivamente può essere integrato a caso in un cromosoma. Se sul sito di inserimento è casualmente presente un promotore il retrogene può essere eventualmente espresso e diventare funzionale. Normalmente, questo non accade e lo pseudogene comincia ad accumulare mutazioni casuali che distruggono la ORF funzionale (frameshifts, codoni di stop). 51 Pseudogeni Nel genoma umano sono stati descritti ~8.000 pseudogeni (~5.000 nel genoma del topo). Il maggior numero di pseudogeni processati deriva da geni per proteine ribosomiali; altri gruppi derivano da geni che codificano per proteine che legano il DNA e l’RNA, per molecole strutturali ed enzimi metabolici. Molti pseudogeni derivano da geni a cui non è stata attribuita una funzione. Oltre al livello di espressione dei geni, altri fattori gene-specifici sono responsabili dell’origine degli pseudogeni, quali la lunghezza o il loro contenuto in G+C. Il genoma è fatto solo di geni? Il DNA NON CODIFICANTE RIPETUTO IN TANDEM SATELLITE, tipico delle sequenze centromeriche (a-satellite, monomero di 171 bp) MINISATELLITE, monomero 6-64bp, altamente polimorfico. Utilizzato per esami di fingerprint del DNA. Es.DNA telomerico (TTAGGG) MICROSATELLITE, 2-4 bp ripetuti in tandem. Espansioni di triplette sono responsabili di alcune patologie (Distrofia Miotonica) Microsatelliti e Minisatelliti I microsatelliti sono costituiti da unità di ripetizione lunghe da 1 a 10 pb, ripetute in tandem 10-20 volte, che formano raggruppamenti molto corti, <150pb, di tipo (A)n, (CA)n, (CGG)n, ecc. Sono anche detti SSR (simple sequence repeats). Le ripetizioni possono essere perfette o presentare piccole variazioni. I minisatelliti sono costituiti da unità più lunghe (da 11 a 100pb) ripetute in tandem 20-50 volte che formano raggruppamenti di lunghezza fino a 20kb Gli SSR costituiscono circa il 3% del genoma umano. Sono molto importanti nello studio delle malattie genetiche in quanto mostrano un elevato grado di polimorfismo nella popolazione umana. Da: Lander et al. Nature 2001, 409: 860 54 Gli SSR possono formarsi attraverso un meccanismo di scivolamento della replicazione Gli SSR sono presenti con una frequenza di almeno uno ogni circa 2 kb del genoma. • Si originano da vari meccanismi tra cui il più importante è lo scivolamento della DNA polimerasi 55 durante la replicazione. Microsatelliti: Genetic Fingerprint Caratteristiche degli SSRs • Polimorfismo di lunghezza: DNA fingerprinting • Spesso adoperati come marcatori genetici per la mappatura di geni associati a patologie. Microsatelliti e malattie genetiche I microsatelliti, ed in particolare le ripetizioni di triplette sono associati a varie malattie genetiche Il genoma è fatto solo di geni? Il DNA NON CODIFICANTE INTERSPERSO SINE, brevi elementi nucleari ripetuti (pseudogene processato di RNA7SL) Alu (300bp, 1.000.000 copie nel genoma umano) MIR (130bp, 400.000 copie nel genoma umano) LINE, lunghi elementi nucleari ripetuti (retrotrasposoni) L1 (6,1Kb a lunghezza completa, 200.000-500.000 copie) Retrovirus endogeni, HERV Elementi simili retroviral tronchi, RTLV e LTR Trasposoni a DNA, Mariner Porzione non codificante:Ripetizioni intersperse Costituite da sequenze di DNA ripetute, disperse in tutto il genoma. Sono definite anche Elementi mobili del DNA, perché derivano da elementi trasponibili (sequenze di DNA che si muovono o sono duplicate da una posizione ad un’altra nel genoma) Classe I o Retrotrasposoni si originano per eventi di retrotrasposizione, attraverso un intermedio ad RNA • elementi LTR • LINEs: long interspersed nuclear elements • SINEs: short interspersed nuclear elements Classe II o Trasposoni a DNA si originano attraverso un intermedio a DNA, secondo meccanismo di trasposizione conservativa o replicativa 59 Retrotrasposoni La caratteristica di tutti i retrotrasposoni è la presenza di brevi ripetizioni dirette alle estremità 3’ e 5’ , copia della sequenza del sito d’integrazione. Ripetizioni Intersperse nel Genoma Umano Gli elementi ripetuti interspersi costituiscono cirva il 45% del genoma umano. • LINE (Long interspersed nuclear elements) – L1, L2, L3 LINE ( ~21% del genoma, ~100,000 copie) • SINE (Short interspersed nuclear elements) – Alu (~10,7% del genoma, ~1,200, 000 copie) – MIR, MIR3 (~3% del genoma, ~500,000 copie) • Elementi LTR (Long Terminal Repeats) – ERV, MalR (8% del genoma, ~500,000 copie) • Transposoni a DNA – MER1 (Charlie), MER2 (Tigger), others (2,8% del genoma, ~350, 000 copie) Elementi LTR Gli elementi LTR retrovirus. o retrotrasposoni virali (6-7kb) presentano analogie con i Caratteristici degli invertebrati (piante, funghi, insetti) dove sono presenti in gran numero di copie Elementi Ty in S. cerevisiae elementi copia in Drosophila mancano del gene env e non possono formare particelle virali 250-600pb LINEs:long interspersed nuclear elements promotore Pol II RNA binding anche endonucleasi ripetizioni dirette Gli elementi LINEs o trasposoni non-LTR hanno una lunghezza di circa 6-7kb, contengono un promotore per l’RNA polimerasi II (derivano da trascritti della l’RNA pol II), una o due ORF e un segnale di poliadenilazione all’estremità 3’. •ORF1 codifica per una proteina a funzione ignota ( lega l’RNA?), •ORF2 codifica per un’enzima che possiede sia un’attività di trascrittasi inversa (RT), simile a quella dei retrovirus e dei retrotrasposoni virali, che un’attività di DNA endonucleasi (EN). Vi sono tre famiglie principali di elementi LINES: L1 (incluse 60-100 copie tuttora attive e moltissime copie inattive troncate all’estremità 5’); L2 e L3 (inattive). Le copie attive inserendosi in punti critici del genoma possono inattivare dei geni con conseguente insorgenza di patologie. 63 Le LINEs si inseriscono preferibilmente nelle regioni eucromatiche ricche in A+T. Meccanismo di trasposizione degli elementi LINEs 1. Generazione di un trascritto LINE full-length a partire dal promotore. 2. ORF1 e ORF2 vengono tradotte e legano il LINE mRNA. 5’ orf1 orf2 3’ 3. Il complesso LINE mRNA/ORF1/ORF2 si sposta nel nucleo, dove l’attività endonucleasica di ORF2 taglia il dsDNA. L’estremità libera al 3’ (sul DNA) funge da innesco per la retrotrascrizione a partire dal 3’UTR. 5’ orf1 orf2 5’ 3’ 3’ 5’ 3’ Il sito di taglio di ORF1 è TTTT A, e questo spiega l’integrazione preferenziale nelle regioni genomiche ricche in AT. Dato che la LINE RT ha una bassa processività molte delle copie integrate sono tronche (solo 1/100 è completa). SINEs: short interspersed nuclear elements A B AAAA SINE Gli elementi SINEs sono elementi non-autonomi, hanno una lunghezza compresa tra 0.1 e 0.4 kb. Hanno un promotore (interno) per L’RNA polimerasi III (derivano da trascritti della l’RNA pol III), e una regione ricca in A all’estremità 3’ ma non contengono un segnale di poliadenilazione. Gli elementi SINEs non contengono alcuna ORF codificante per una trascrittasi inversa, ma sono in grado di trasporre utilizzando la trascrittasi inversa sintetizzata da altri retroelementi (trasposizione LINEs-dipendente). SINEs: short interspersed nuclear elements Gli elementi SINEs sono distribuiti ad alta densità nelle regioni ricche in CG del genoma (isocore H), perché hanno un più elevato contenuto C+G (~57%) rispetto agli elementi LINEs ( 40%). Nel genoma dei primati sono presenti tre differenti famiglie di elementi SINEs: l’elemento Alu, ancora attivo, e gli elementi inattivi MIR e Ther2/MIR3. L’elemento Alu, il più comune nei primati, è lungo 0,3kb; è presente in circa 1.200.000 di copie nel genoma umano e rappresenta quindi oltre il 10% di tutto il genoma. Presenta una regione ricca in A/T all’estremità 3’, coinvolta nel meccanismo di retrotrasposizione. Le sequenze Alu sono localizzate a monte o a valle dei geni, negli introni, nelle regioni 5’ e 3’ non tradotte dell’mRNA. Non è noto il loro ruolo funzionale, nonostante siano molto diffuse nel genoma di tutti i primati. Le sequenze Alu presentano analogie con l’RNA 7SL, componente di una particella ribonucleoproteica coinvolta nel meccanismo di secrezione dei polipeptidi di nuova sintesi attraverso le membrane del reticolo endoplasmatico. Si ritiene che il primo elemento Alu si è originato per un evento di retrotrascrizione di una molecola di RNA 7SL e successiva integrazione della copia nel genoma. Meccanismo di retroposizione dell’elemento Alu Si pensa che il taglio al sito di inserimento sia opera della L1 endonucleasi Target-primed reverse transcription (TPRT) Il promotore pol III è necessario ma non sufficiente per la trascrizione che richiede anche sequenze fiancheggianti appropriate. La maggior parte degli elementi Alu integrati non è attiva in quanto non viene integrata in un contesto favorevole e muta rapidamente sia nelle sequenze CpG che nella regione ricca in A. Evoluzione e classificazione degli elementi Alu Gli elementi Alu sono classificati in sottofamiglie che si differenziano per l’epoca della loro integrazione nel genoma, dalle più antiche (Sx, J) alle più recenti (Yc1, etc.). da: Batzer and Deininger, Nature Rev. Gen. 3:370380, 2002) Danni genomici indotti da Alu Numerose patologie sono provocate dall'integrazione casuale di Alu (Neurofibromatosi, haemophilia, sindrome di Apert, ecc.) o da ricombinazione disuguale (diabete di tipo II, sindrome di Lesch–Nyhan, malattia di Tay–Sachs, ipercolesterolemia familiare, α-thalassaemia, ecc.). 69 Trasposoni a DNA I Trasposoni a DNA sono elementi mobili distinti in due categorie: •Trasposoni a DNA che si spostano replicandosi: una copia rimane nel sito originale, mentre la nuova copia si inserisce altrove nel genoma •Trasposoni a DNA che si spostano in maniera conservativa, da un sito all’altro del genoma senza aumentare il numero di copie Sono caratterizzati da una sequenza codificante la trasposasi contenente introni, fiancheggiata da ripetizioni terminali invertite, simili a quelle dei trasposoni batterici. Sono meno comuni negli eucarioti (3% nel genoma umano, raggruppati in 7 classi principali) rispetto ai retrotrasposoni. I più noti sono gli Elementi Ac e Ds del granturco, i primi elementi mobili identificati negli anni 50 da B. McClintock e gli elementi P di Drosophila. Traspongono mediante il meccanismo di trasposizione conservativa 70 Funzione degli elementi ripetuti • Punti caldi per ricombinazione (duplicazioni, inversioni, traslocazioni; creazione di nuovi geni per shuffling esonici) • Alterazione della espressione genica in quanto portatori di segnali trascrizionali (es. promotori e enhancer di LTR; promotori di Alu; siti di terminazione deboli della trascrizione di elementi L1; segnali di poliadenilazione) • Presenza in geni per proteine (Le Alu contengono siti criptici di splicing; fonte di domini proteici; contributo a variabilità delle proteine) • Reclutamento come elementi regolatori (es. BC200 di primati deriva da Alu monomerica) • Fonte di pseudogeni processati (ritorno in vita come lunghi esoni? Come nuovi geni? ) • Fonte di plasticità del genoma e quindi ruolo attivo nel rimodellamento genomico (riarrangiamenti cromosomici, reshuffling di geni, etc) Qual è l’origine di tutto questo? Come si sono evoluti i genomi? Origine ed evoluzione dei genomi Origine ed evoluzione dei genomi Mondo a RNA Nascita di molecole autoreplicanti Origine ed evoluzione dei genomi Mondo a RNA Protogenomi a RNA Compartimentalizzazione all’interno di membrane lipidiche Prime strutture di tipo cellulare Origine ed evoluzione dei genomi Come si è evoluto il genoma a DNA? Nascita di enzimi proteici Origine ed evoluzione dei genomi Come si è evoluto il genoma a DNA? Trasferimento della funzione codificante dall’RNA al DNA (chimicamente piu’ stabile) Origine ed evoluzione dei genomi Primi Genomi a DNA (3,8 miliardi di anni fa) Ogni molecola di DNA rappresenta un singolo gene che codifica per una singola proteina singolo gene singola proteina Origine ed evoluzione dei genomi Acquisizione di nuovi geni 1. Duplicazione di alcuni o tutti i geni del genoma 2. Acquisizione di geni da altre specie Origine ed evoluzione dei genomi Acquisizione di nuovi geni Duplicazione di un intero genoma Genoma duplicato Origine ed evoluzione dei genomi Acquisizione di nuovi geni Duplicazione di geni •Crossing-over disuguale •Scambio disuguale tra cromatidi fratelli Origine ed evoluzione dei genomi Acquisizione di nuovi geni Duplicazione di geni Gene A1 Duplicazione Gene A1 Gene A2 Pressione selettiva Nessuna pressione selettiva Gene B Gene A1 Nuova funzione o Funzione simile Divergenza Origine ed evoluzione dei genomi Acquisizione di nuovi geni Duplicazione di geni Famiglie geniche EVOLUZIONE DEI GENI Origine ed evoluzione dei genomi Acquisizione di nuovi geni Riarrangiamento genico •Duplicazione dei domini •Rimescolamento di domini Origine ed evoluzione dei genomi Acquisizione di nuovi geni ESONI = MOTIVI PROTEICI MOTIVI N b b b b b C Proteina Gene ESONI Origine ed evoluzione dei genomi Acquisizione di nuovi geni Acquisizione di geni da altre specie Il trasferimento di geni tra batteri è un fenomeno comune in natura che avviene ancora oggi I retrovirus sono capaci di spostare geni animali tra individui della stesse specie e tra specie diverse EVOLUZIONE DEI GENI Maria C. Rivera & James A. Lake The ring of life provides evidence for a genome fusion origin of eukaryotes NATURE |VOL 431 | 9 SEPTEMBER 2004 Origine ed evoluzione dei genomi INTRONI? UN MISTERO 1. IPOTESI INTRONI ANTICHI: gli introni sono molto antichi e si stanno gradualmente perdendo nei genomi degli eucarioti 2. IPOTESI INTRONI RECENTI: gli introni si sono evoluti di recente e si stanno gradualmente accumulando nei genomi degli eucarioti Origine ed evoluzione dei genomi INTRONI? UN MISTERO Teoria esonica dei geni Origine ed evoluzione dei genomi INTRONI? UN MISTERO Le evidenze attuali non inficiano alcuna ipotesi Origine ed evoluzione dei genomi IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI Origine ed evoluzione dei genomi IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI Uomo – Scimpanzè= 98,5% di omologia? Usando una statistica corretta, considerando il numero di misure fatte, la similitudine si riduce al 96%. Recenti studi indipendenti hanno ricalcolato queste percentuali, ottenendo un range di omologia compreso tra il 66 e il 76% (in base al cromosoma) Origine ed evoluzione dei genomi IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI Recenti studi indipendenti hanno ricalcolato queste percentuali, ottenendo un range di omologia compreso tra il 66 e il 76% (in base al cromosoma) Origine ed evoluzione dei genomi IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI Che cosa ci rende diversi dalle scimmie? Origine ed evoluzione dei genomi IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI Che cosa ci rende diversi dalle scimmie? Sottili cambiamenti nei profili di espressione dei geni coinvolti in processi di sviluppo e nella specificazione delle interconnessioni all’interno del sistema nervoso why do humans have a high risk of cancer, even though chimps rarely develop the disease? Scientists have looked at brain samples of each species. They found that differences in DNA methylation, may contribute to phenotypic changes. The results also hint that DNA methylation plays an important role for some disease-related phenotypes in humans, including cancer and autism. Origine ed evoluzione dei genomi IL GENOMA UMANO: GLI ULTIMI 5 MILIONI DI ANNI Quello che ci rende umani probabilmente non è il genoma umano di per sé, ma il modo in cui il genoma funziona