Bioinformatica Corso di Laurea specialistica in Informatica Il Genoma e i Geni 16/03/2011 Il Genoma • Il genoma è l'insieme di tutte le informazioni biologiche necessarie alla costruzione e al mantenimento di un organismo vivente. • Genomi a DNA – Organismi unicellulari e pluricellulari • Genomi a RNA – Alcuni virus Il Genoma nucleare • Il genoma umano, similmente ai genomi di tutti gli animali pluricellulari, è costituito da due componenti distinte, il genoma nucleare e il genoma mitocondriale. • Genoma nucleare – Contiene circa 3 miliardi di nucleotidi raggruppati in molecole lineari (Cromosomi): • 22 coppie di autosomi (coppie di cromosomi uguali) • 1 coppia di cromosomi sessuali, X e Y – XX nelle donne, XY negli uomini • Le cellule sessuali, o gameti, sono aploidi, contengono cioè solo una copia per cromosoma (23 cromosomi in tutto) a differenza delle cellule somatiche che sono diploidi (46 cromosomi). Il Genoma mitocondriale • E' una molecola di DNA circolare di circa 16 mila nucleotidi, presente in copie numerose nei mitocondri, gli organelli che generano energia. • Contiene informazioni per la sintesi di molecole di rRNA e tRNA. Il Progetto Genoma Umano • Il Genoma è fatto di DNA, molecola costituita da 4 diversi tipi di nucleotidi (A, C, G, T). • Obiettivo del progetto: determinare la sequenza nucleotidica dell'intero genoma nucleare umano. • Progetto pubblico, finanziato da governi e organizzazioni di tutto il mondo. • Progetto privato: Celera Genomics. • Risultati pubblicati nel 2001. – Sequenziato circa l'84% del genoma umano, ad esclusione di alcune regioni telomeriche (estremità dei cromosomi) e prossimali ai centromeri (centro del cromosoma). Il Genoma: ATCGGACTGACTAGCATACAG… • Ciascun progetto genoma ha prodotto oltre 2 miliardi e mezzo di sequenze di coppie di basi. • L'intera sequenza del genoma umano, scritta in Times New Roman, dimensione 12, avrebbe una lunghezza di 5000 km! • Ogni essere umano ha una propria sequenza genomica individuale, ad eccezione dei gemelli omozigoti. • Principali differenze tra i genomi di due individui diversi: – Polimorfismi (Posizioni nella sequenza contenenti nucleotidi differenti) – Microsatelliti (Sequenze ripetute di nucleotidi, differenti in numero tra un individuo ed un altro) La sequenza del Genoma • La sequenza nucleotidica del genoma è presente su ciascuno dei due filamenti della doppia elica del DNA. • I due filamenti sono antiparalleli, uno in direzione 5'-3' e l'altro in direzione 3'-5': 5'-… AGATCGATACGAAAGTAC …-3' |||||||||||||||||| 3'-… TCTAGCTATGCTTTCATG …-5' • Dato un filamento è possibile costruire l'altro per complementarità: ciascun filamento contiene la stessa informazione! Cosa c'è scritto nel Genoma? • Il genoma contiene tutte le informazioni necessarie al funzionamento di un intero organismo. • Ogni cellula contiene una copia del Genoma. • Alcune informazioni sono utilizzate allo stesso modo da ogni tipo di cellula, altre sono invece caratteristiche di determinati tipi cellulari. • Un neurone ed un leucocita (globulo bianco) contengono lo stesso genoma e quindi le stesse informazioni, ma non le utilizzano tutte allo stesso modo. Com'è organizzato il Genoma? • Il Progetto Genoma di un organismo ci rivela la sua sequenza nucleotidica: a quel punto occorre riuscire ad interpretarla correttamente! • La sequenza di un Genoma è apparentemente una successione casuale di nucleotidi; in realtà sono distinguibili diversi tipi di elementi, strutturati in maniera ben precisa, ciascuno preposto ad una ben determinata funzione. Elementi tipici di un Genoma • • • • Geni Pseudogeni Sequenze ripetute Microsatelliti I Geni • Un gene è un segmento di genoma contenente l'informazione per la sintesi di una proteina. Gene Trascrizione/Traduzione La sequenza nucleotidica del gene contiene la "ricetta" per la sintesi della proteina. Proteina I Geni (2) • L'espressione dei geni coinvolge un intermediario chiamato RNA messaggero, che copia la sequenza del gene e la porta fino al citoplasma, dove la sequenza viene tradotta affinché avvenga la sintesi della proteina (nei ribosomi). • Non tutti i geni però codificano proteine. • Alcuni di essi infatti specificano vari tipi di RNA non codificante, alcuni dei quali verranno introdotti più avanti. Gli Pseudogeni • Gli pseudogeni sono copie non funzionali di geni. • Sono una sorta di relitti evolutivi. • Gli pseudogeni convenzionali sono geni inattivati in seguito ad una o più mutazioni nella loro sequenza nucleotidica. • Una volta che uno pseudogene è diventato completamente non funzionale si degraderà per accumulazione di ulteriori mutazioni e potrebbe addirittura non essere più riconosciuto come relitto genico. Junk DNA • Circa il 62% del genoma umano è costituito da regioni intergeniche, parti del genoma che si trovano tra i geni e la cui funzione è sconosciuta. • Queste sequenze venivano chiamate Junk DNA (DNA spazzatura), perché non se ne conosceva la funzione. • Ricerche recenti tendono invece a rivalutare tali sequenze, che si rivelano potenzialmente coinvolte in numerosi processi: non è detto che ciò di cui non capiamo ancora la funzione sia poco importante! Ripetizioni disperse e microsatelliti • La grande maggioranza del DNA intergenico è rappresentata da sequenze ripetute di vario tipo. • Il DNA ripetitivo può essere diviso in due categorie: – Ripetizioni intersperse – DNA ripetuto in tandem Ripetizioni intersperse • Esistono 4 tipi di ripetizioni disperse nel genoma: – – – – SINE LINE Elementi LTR Trasposoni a DNA • Ciascun tipo di queste ripetizioni sembra derivare da un elemento trasponibile, un segmento mobile di DNA in grado di spostarsi da una posizione ad un'altra del genoma, lasciando una propria copia. Microsatelliti • I microsatelliti sono ripetizioni in tandem di DNA. • In un microsatellite l'unità ripetuta è generalmente breve, fino a 13 bp (base pairs – paia di basi). • Non si sa se i microsatelliti hanno una funzione. • Derivano da un errore del processo di replicazione del genoma durante la divisione cellulare, quindi potrebbero rappresentare semplicemente un prodotto inevitabile della replicazione genomica. Il Genoma Umano I Genomi degli eucarioti • Le strutture di base di tutti i genomi eucariotici sono simili, ad eccezione della dimensione. – – – – – Funghi: 12-25 Mb Protozoi: 190 Mb Invertebrati: 97-5000 Mb Vertebrati: 400-3300 Mb Piante: 125-120000 Mb Grande genoma = Molti geni? • La dimensione del genoma è correlata al numero di geni che esso contiene? Non è detto! Saccharomyces cerevisiae (lievito) Homo sapiens (uomo) Genoma: 12 Mb (0,004 volte la grandezza del genoma umano) Genoma: 3200 Mb Geni: 5800 Geni: 25000 • Se dimensione e numero di geni fossero correlate, il lievito dovrebbe contenere, in proporzione a quello umano, solo 100 geni, mentre ne contiene 5800! Il Paradosso del valore C • Con valore C si intende la quantità di DNA per genoma; non c’è un'ovvia correlazione fra la complessità degli organismi e la quantità di DNA del genoma. • In realtà nei genomi degli organismi meno complessi si risparmia spazio in quanto i geni sono più vicini tra loro. • Confrontando il genoma umano con quello del lievito, emerge che l'organizzazione di quest'ultimo è molto più economica di quella del genoma umano: – I geni sono più compatti – Le sequenze intergeniche sono più piccole – Le ripetizioni disperse e le altre sequenze non codificanti occupano molto meno spazio • Il genoma del lievito è più "concentrato"! I Genomi dei Procarioti • I genomi dei procarioti sono molto differenti da quelli degli eucarioti: – Sono molto più piccoli – Sono molto più compatti – Sono contenuti in una singola molecola di DNA circolare – Alcuni geni possono essere localizzati su molecole indipendenti di DNA più piccole, chiamate plasmidi. I Geni • Il gene è l'unità ereditaria e funzionale degli organismi viventi. • La maggior parte dei geni codifica proteine, che sono le macromolecole maggiormente coinvolte nei processi biochimici e metabolici della cellula. • Altri geni non codificano proteine, ma producono RNA non codificante, che può giocare un ruolo fondamentale nella sintesi delle proteine e nell'espressione genica (La trascrizione del DNA in RNA e la traduzione dell'RNA in proteina). • Parte del contenuto dei geni non viene trascritto, ma può coordinare la stessa espressione genica. • Tra queste regioni figurano i promotori, i terminatori e gli introni . Tre classi di geni • I geni non sono sequenze casuali ma hanno caratteristiche ben precise. • Buona parte dell'informazione contenuta in un gene viene "copiata" in una molecola di RNA; il resto del gene è coinvolto comunque nel processo di "copia" (trascrizione). • Alcuni tipi di RNA vengono utilizzati per la sintesi delle proteine, altri svolgono svariati tipi di funzioni. • Esistono tre classi di geni, che differiscono in base al tipo di RNA che viene prodotto con la loro espressione: – Geni della I classe • RNA ribosomiale (rRNA) – Geni della II classe • RNA messaggero (mRNA) • Piccoli RNA nucleari (snRNA) • Micro RNA (miRNA) – Geni della III classe • • • • RNA transfer (tRNA) Piccoli RNA nucleolari (snoRNA) Piccoli RNA citoplasmatici (scRNA) Micro RNA (miRNA) L'RNA messaggero • Gli RNA Messaggeri (mRNA) sono gli unici tipi di RNA codificante. • Sono i trascritti dei geni che codificano proteine. • Trasportano l'informazione genica nel citoplasma, dove tale informazione viene impiegata per la sintesi delle proteine. • Costituiscono solo il 4% circa degli RNA totali della cellula ed hanno vita breve, in quanto vengono degradati poco dopo la sintesi proteica. I principali RNA non codificanti • RNA ribosomiali (rRNA) – Sono i più abbondanti nelle cellule – Sono parte integrante dei ribosomi, le particelle dove ha luogo la sintesi proteica • RNA transfer (tRNA) – Sono piccole molecole coinvolte nella sintesi proteica – Trasportano gli aminoacidi ai ribosomi in modo tale da permettere la loro unione nell'ordine specificato dalla sequenza nucleotidica dell'mRNA Altri tipi di RNA non codificante • Piccoli RNA nucleari (snRNA) – Sono coinvolti nella maturazione degli mRNA • Piccoli RNA nucleolari (snoRNA) – Svolgono un ruolo cruciale nella maturazione delle molecole di rRNA • Piccoli RNA citoplasmatici (scRNA) – Gruppo eterogeneo che comprende molecole con una varietà di funzioni diverse, alcune ancora misteriose • microRNA (miRNA) – Sono piccole molecole che regolano l'espressione genica a livello post-trascrizionale Com'è fatto un gene? ATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGGATGACTTTCCTCCAGCTACGTCTCAAC TATTCAGCCCAGGAGCGCCTTTAGATGTGCACCCACTTAATCCATCCAATCCAGAGACTGTATTTCATTCACATCTTGGTGCAGTCAAAAAGGCACCCAGTGACTTTTCATCTGTGGATCTAAGCTTCTT ACCAGATGAACTTACCCAAGAAAATAAAGACCGAACTGTCACTGGAAACAAAGTCACAAATGAGGAAAGCTTTAGGACTCAAGATTGGCAAAGTCAGTTGCAGTTGCCTGATGAACAAGGCAGTGGG CTGAACTTGAATAGCAACAGTTCACCAGATACCCAGTCATGTCTGTGCTCTCATGATGCTGACTCCAACCAGCTCTCTTCAGAAACACCAAATTCCAATGCCTTACCTGTGGTATTGATATCATCCATGA CACCAATGAACCCTGTTACAGAATGTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCTTTGAATGCCAAAAACACAGAATATA ATCCAAAGAGGTTTGCTGCAGTCATAATGAGGATCCGAGAGCCAAGGACCACAGCTCTTATATTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGACGAGTCTCGGCTGGCAGCAAGA AAGTATGCTCGCGTGGTGCAGAAGCTGGGGTTCCCCGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGCAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGC AGTTCAGTAGTTATGAGCCTGAACTGTTCCCTGGCCTTATTTATAAGATGGTGAAACCGCAGGTTGTGCTGCTCATCTTTGCATCTGGAAAGGTTGTACTGACAGGTGCCAAAGAGCGTTCTGAGATCTA CGAAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGGAGGACATATACCTGGACCTCTTCCTGGATCCTTATACCATCCAGGATGACTTTCCTCCAGCTATGTCTCAA CTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACC AGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTG AACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGC CAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCCCTGAATGCCAAAAACACAGAATATAACC CAAAGAGGTTTGCTGCAGTAATAATGAGGATCCGAGAGCCAAGGACAACAGCTCTCATCTTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGAGGAGTCTCGGCTGGCAGCGAGAAA GTATGCTCGTGTGGTGCAGAAGCTCGGGTTCCCTGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAG TTCAGTAGTTATGAACCTGAACTTTTCCCCGGCCTTATTTATAAGATGGTAAAACCACAGGTTGTGTTGCTAATCTTTGCATCTGGAAAAGTTGTGTTAACAGGTGCCAAAGAGCGTTCTGAGATCTATG AAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGCAGGAGGAGACCTACCTGGAGCTCTACCTGGACCAGTGCGCCGCTCAGGATGGCCTTGCCCCACCCAGGTCTC CCCTGTTCAGCCCAGTTGTACCTTATGATATGTACATACTGAATGCATCCAATCCGGATACTGCATTTAATTCGAACCCTGAAGTCAAAGAAACATCTGGTGATTTCTCATCTGTGGATCTTAGCTTCCTA CCAGATGAAGTTACCCAGGAAAATAAAGACCAGCCTGTCATTAGCAAACACGAAACTGAAGAAAATTCTGAAAGCCAAAGTCCACAAAGTAGGTTGCCATCACCCAGCGAACAGGACGTTGGGCTGG GCTTAAACAGCAGCAGTTTGTCAAATTCCCATTCACAGCTGCACCCTGGTGATACTGACTCAGTCCAGCCCTCTCCTGAGAAACCAAACTCCGACTCCTTGTCTCTGGCATCCATAACTCCCATGACACC AATGACCCCTATTTCAGAATGTTGTGGAATTGTACCTCAACTACAGAATATAGTTTCCACTGTAAACCTGGCCTGTAAGTTGGATCTGAAGAAAATAGCTTTGCATGCAAAAAATGCAGAATATAACCC AAAGAGGTTTGCTGCTGTCATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAAT ATGCTCGTGTGGTGCAGAAGCTTGGGTTCCCTGCCAGATTCCTCGATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAGATTTCCCATCAGGCTGGAAGGTTTGGTGCTAACCCATCAGCAGTT CAGTAGTTACGAGCCTGAACTGTTTCCTGGTCTTATTTATAGAATGGTAAAACCACGAATTGTGTTGCTTATCTTTGTATCTGGAAAAGTTGTGTTGACAGGTGCCAAAGAACGTTCTGAGATCTATGAA GCATTTGAAAACATCTATCCTATTCTAAAAGGTTTTAAAAAAGCCTGAGAAGTCCCCTGGGTAACTTCCAGGCAGCTTCATTTCTGAAGAGTCCAAACTGCAGCATAGAGGACTTATGAAAAACTGTAA AAAATTGGTTTTAAGTGTTCCATTAAACCCAAAGAAAACAGTCACACAACAAAGCCAGACACAGAAAATTAGGGTGACATGTTTCCTGTCATATGTGGAGCCTAGAGAACATAGAGATGATGTGAAAG CAGAAGGAGCTATCAAGAAAAAGGAAAGCAGATGGGGCAGCAGATCCATGGGAATACTGGCAGAACTGTATAATGGAAGAATGTCGTATGCACATATGAACATGTCATAATGAAACCTAGTATTTTGT ACAGTTAATATGGACTAGACAATAGCACAAAGAAATTAGAGATTAGTCTAGCTATATGAAGAGGCTACATCAAAGATCACTCCTTTTTGATGGACAAATTTAATTCCTTATAACTGTAGAGCTGAGATA TTCACTTGCTTGTCAGACATTAAATGTATCCCACTCTTAGGGTCTAGAAGTTACCCAGACTTCTTGTACCATGGTCCCATCTATCTTCAAAGTCAGCAGTGACGACTCTGCCTTATGACAAGGTCATCTCC TGCTTTCAAATCCCTCCCAAAGAGTGGCCAATTCCTCCTTGGCTGCTCAGTCAGTAAGGGCAGGCTTGGATCCTTTCCCTTTCCTAACAATGGACTTGGAATTTTAATTACATCTTCAAAACCCAAGAGC ATTTGGTTTTTTTTAGATAACTGGGAGATACATTTGGAGATAGGGATTTGGGGAGCCACCGAAACATTCTACCTACCATAGGAAATAGTTATAAATCTATTTTACTGGCTGGAGAGATGGCCAAGCAGTT AAGAATACTTTCTGCTTTTTCAAAGGATAGAAATTCTGTTCCTAGCACCCACACTGGGCTTCTTAGTGATTCCAACTCTACAGGACCTGATGCCTCCTTCTCTCTGGCTTCCTTAGATACCAGTTTGTACT GGCACATGCATATGCACAGGAGAAGGCTCTCTCTCTCTCTCTCCCCCCCCCCCCTCTCTCTCTCTCACACACACACACAAGATGGTGAGATATAATTAATAAAATAAAGTAAAATTTGGATCTGTTTTAG TCAGTTTGGGATGCCATAATAAAACACCACAAACTGGGCAGTTTAAACCACAGAAATTTCCTTCATAGTTCTGAAGGCTGGAGATCTAAGATCAAGGTCCCTGCAGATTTGGTCTCTCCTGTAGCAATC CTCCATCTTTCCTTTTAGGTAGCTGCCTTAATGTTGCTCTTTTTACAGCTTTTTCTTTGTATTTCTATGAAAACATCAGACATATTGGATTGGGGCTTCTACACATGATCTTCATGGGATAAGCAATAACCA TAGTTACTGATCTGTGAGGCTGGTTCTGAGTGTGCAGCTCAGTAGGCTGTCTCATTTACAGACACTATGACATTACATCACACATCACTATATAAATCCCAGATTTTTCAAAAGGATCCCCCTATTTTTAT TGGAATGTCTGACTCTAGTGCAGGTTATCCAAGCTCCATTCTCAGGTTCGTTTTATCCACCAAGACTGAGCAGATGAGCTGGGCACAGAGACATGATGATGAATAATTTAAATTGTTCCTTTTAAACAGT AGAATCAAGTAAGGAAGATTTAAAAATACATTTTGCAATCTCTTACATCAAAGTGTCTTCTTCTAGAACAGTTCAATACAGTTAAGCTAAGACATTTGAATTAAAGCGTTTAAGAAAGAAAAGCTTCTCT GGATATTTGGTTTTACATTAACTTCTTGAGTTGTCTGAACCCTAACTGTGGAATTTGCACAGCTGTAGGCAAATTCTCTGTAATAGGTGAAAATCTACCTGGGGTGTGAAGGTGAAGAATAATTACAGAA ATATCACATCTGAATAGATGAGGGGATTCAGCGGGCAAGGGTGCTTGCCACCAAGCCTGACACTCTGGGTTTGATCCTTGTGTTTCTTCCAGAGCTGGAAGGAGAGAACCTACTCCTGAAAATTGTCTT CTGACCATAACATGAGCTCTGCACTGTGCATGTGTCCATGCACACATGCCAATGAAGATAAATCAATATTAGAAATATCACATCTAAGAATCTGGGTATGGTGATGCTCATGCATGTTGTAACCCCAGA ACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAGGGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGGAAAAGGATAAGGATAAAGGCAGAAGAGA AAAGCATTCTTTTCTCACTTGCACAATGAGAAAACCTTATCATGCTACTCTACTGGAAGCACTAGTCTCGGCCCTCCTCTTCTTCTGGGTGCCACCAGCTGTGTCTTGCCTGGCTCATCAACTCCTTCTCT GCTTCTCACCTGACTCCTCAGCTCATTCACAGCATCTGTGCAAGGCAGCAGAGCTGGTCCCGCCTCACTGCGTGCTCCCTGAGGCTGATAAAAGGTATCTGCTCCCACAGCCAGACTGGTACTAACAAA GCTTCTTCCACTTGCCTGGACGCTGATTCCTTTGCTTGTCCTCAGCTCTACGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGG Struttura dei Geni eucariotici codificanti • I geni codificanti sono quelli che vengono trascritti in mRNA. • Contengono una parte realmente codificante, che specifica la sequenza degli aminoacidi che costituiranno la proteina, ed una parte non codificante. • A monte della sequenza che verrà trascritta in mRNA vi sono le sequenze regolatrici. • La sequenza trascritta è costituita da due tipi di elementi, detti esoni ed introni. • Solo gli esoni contengono informazioni per la sintesi della proteina. Struttura del gene Sequenze regolatrici • Le sequenze regolatrici sono situate a monte del sito di inizio della trascrizione. • Svolgono un ruolo fondamentale nell'espressione del gene, permettendo l'avvio e la regolazione della trascrizione. • Le sequenze regolatrici prossimali, cioè vicine al sito di inizio della trascrizione, sono dette Promotori. • Elementi Promotori fondamentali sono il TATA box, il CAAT box e il GC box. • Altri elementi regolatori distali, cioè lontani dal sito di inizio della trascrizione, sono gli enhancers e i silencers (i primi amplificano, i secondi reprimono la trascrizione). Sequenza trascritta • La sequenza che viene trascritta in mRNA, contiene le informazioni necessarie per la sintesi proteica (regione codificante tradotta) ed altre sotto-sequenze non tradotte. • La regione codificante è formata da elementi chiamati Esoni, intervallati da elementi non codificanti chiamati Introni. • Normalmente gli introni sono più grandi degli esoni. Com'è fatta una sequenza codificante? • I geni sono sequenze nucleotidiche, sequenze di 4 tipi diversi di caratteri: A, C, G e T. • I geni che codificano proteine contengono schemi di lettura aperti, ORF (Open Reading Frames), costituiti da una serie di triplette di nucleotidi dette codoni. • L'informazione contenuta nel gene specifica la sequenza della proteina che dovrà essere sintetizzata, ovvero la successione degli aminoacidi della proteina, mediante una successione di codoni: ATGGGACAGCAGGGATTTAATTAA Ogni codone specifica uno ed un solo aminoacido. Come sono fatte le ORF? • Le ORF cominciano con un codone di inizio, normalmente ATG, e finiscono con un codone di stop che può essere TAA, TAG o TGA. Il DNA è formato da due filamenti complementari che sono avvolti a formare una doppia elica, conformazione a bassa energia che conferisce stabilità alla molecola. Le due estremità sono dette per convenzione 5’ e 3’. Le sequenze vengono lette sempre nell’ordine 5’ -> 3’, su entrambi i filamenti. Gli appaiamenti canonici (di Watson/Crick) sono: A-T G-C 5’- AGTAGAACGCCAAATCGAGCCTAGCATA – 3’ 3’- TCATCTTGCGGTTTAGCTCGGATCGTAT – 5’ La sequenza di un gene si trova su uno dei due filamenti: solo uno dei due filamenti contiene la sequenza da trascrivere. Come sono fatte le ORF? (2) • Ogni sequenza di DNA ha 6 possibili schemi di lettura, tre in una direzione e tre nella direzione opposta sul filamento complementare: GGT-----------------------TGG------------------------ATG-------------------------5’- ATGGTAACGCCAAATCGAGCCTAGCATA – 3’ 3’- TCATCTTGCGGTTTAGCTCGGATCGTAT – 5’ ------------------------TAT ----------------------GTA --------------------CGT • Normalmente la ORF codificante è quella più lunga. I codoni • I codoni della ORF corretta specificano la sequenza di aminoacidi della proteina corrispondente. • Il primo codone, che è di solito ATG, specifica sia l'inizio della traduzione che un particolare aminoacido, la Metionina (M). • I tre codoni di stop invece indicano solo la fine della traduzione e non codificano nessun aminoacido. 5’- GTATGAACGCCAAATCGAGCTAGCATA – 3’ 3’- CATACTTGCGGTTTAGCTCGATCGTAT – 5’ Non tutti gli esoni codificano • Gli esoni sono normalmente codificanti, ad eccezione di quelli alle estremità 5' e 3' del gene. • Tali esoni prendono il nome di UTR (UnTranslated Region). Introni Esoni • In questo caso il 5' UTR è costituito da tutto il 1° esone e da parte del 2° esone (regione arancione). • La regione codificante è indicata in blu, inizia nel 2° esone e termina nell'ultimo esone. • Il 3' UTR è costituito da parte dell'ultimo esone (regione gialla). Struttura dei geni procariotici • La struttura dei geni procariotici è più semplice. • Spesso, nei genomi procariotici, diversi geni vengono controllati da un'unica regione regolatrice: un tale insieme di geni viene definito operone (Es. operone formato dai geni A, B, C, D, E). • I geni dell'operone codificano determinate proteine. • Il promotore, a monte dei geni, è necessario all'inizio della trascrizione. • L'operatore, nella sequenza regolatrice, regola l'espressione dei geni.