Bioinformatica (2) Genomi, DNA, RNA e Sintesi Proteica Dott. Alessandro Laganà Genomi, DNA, RNA e Sintesi Proteica 2 Il Genoma I Geni Il Dogma della Biologia Molecolare Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Genoma Il genoma è l'insieme di tutte le informazioni biologiche necessarie alla costruzione e al mantenimento di un organismo vivente. Genomi a DNA Genomi a RNA 3 Organismi unicellulari e pluricellulari Alcuni virus Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Sequenziamento e Progetti Genoma L’obiettivo principale dei progetti genoma è di determinare la sequenza del DNA di un intero genoma, in modo da identificare i geni e le caratteristiche strutturali del genoma. Sequenziamento: 4 Ottenere blocchi di sequenze di DNA Collegare progressivamente i blocchi tra loro in file di sequenze contigue (contig) Collegare i contig nella sequenze dell’intero genoma Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Genoma nucleare Il genoma umano, similmente ai genomi di tutti gli animali pluricellulari, è costituito da due componenti distinte, il genoma nucleare e il genoma mitocondriale. Genoma nucleare Contiene circa 3 miliardi di nucleotidi raggruppati in molecole lineari (Cromosomi): 22 coppie di autosomi (coppie di cromosomi uguali) 1 coppia di cromosomi sessuali, X e Y XX nelle donne, XY negli uomini Le cellule sessuali, o gameti, sono aploidi, contengono cioè solo una copia per cromosoma (23 cromosomi in tutto) a differenza delle cellule somatiche che sono diploidi (46 cromosomi). 5 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Genoma mitocondriale E' una molecola di DNA circolare di circa 16 mila nucleotidi, presente in copie numerose nei mitocondri, gli organelli che generano energia. Contiene informazioni per la sintesi di molecole di rRNA e tRNA. 6 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Progetto Genoma Umano Il Genoma è fatto di DNA, molecola costituita da 4 diversi tipi di nucleotidi (A, C, G, T). Obiettivo del progetto: determinare la sequenza nucleotidica dell'intero genoma nucleare umano. Progetto pubblico, finanziato da governi e organizzazioni di tutto il mondo. Progetto privato: Celera Genomics. Risultati pubblicati nel 2001. 7 Sequenziato circa l'84% del genoma umano, ad esclusione di alcune regioni telomeriche (estremità dei cromosomi) e prossimali ai centromeri (centro del cromosoma). Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Ciascun progetto genoma ha prodotto oltre 2 miliardi e mezzo di sequenze di coppie di basi. L'intera sequenza del genoma umano, scritta in Times New Roman, dimensione 12, avrebbe una lunghezza di 5000 km! Ogni essere umano ha una propria sequenza genomica individuale, ad eccezione dei gemelli omozigoti. Principali differenze tra i genomi di due individui diversi: 8 Polimorfismi (Posizioni nella sequenza contenenti nucleotidi differenti) Microsatelliti (Sequenze ripetute di nucleotidi, differenti in numero tra un individuo ed un altro) Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 La sequenza del Genoma La sequenza nucleotidica del genoma è presente su ciascuno dei due filamenti della doppia elica del DNA. I due filamenti sono antiparalleli, uno in direzione 5'-3' e l'altro in direzione 3'-5': 5'-… AGATCGATACGAAAGTAC …-3' |||||||||||||||||| 3'-… TCTAGCTATGCTTTCATG …-5' Dato un filamento è possibile costruire l'altro per complementarità: ciascun filamento contiene la stessa informazione! 9 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il genoma contiene tutte le informazioni necessarie al funzionamento di un intero organismo. Ogni cellula contiene una copia del Genoma. Alcune informazioni sono utilizzate allo stesso modo da ogni tipo di cellula, altre sono invece caratteristiche di determinati tipi cellulari. Un neurone ed un leucocita contengono lo stesso genoma e quindi le stesse informazioni, ma non le utilizzano tutte allo stesso modo. 10 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Progetto Genoma di un organismo ci rivela la sua sequenza nucleotidica: a quel punto occorre riuscire ad interpretarla correttamente! La sequenza di un Genoma è apparentemente una successione casuale di nucleotidi; in realtà sono distinguibili diversi tipi di elementi, strutturati in maniera ben precisa, ciascuno preposto ad una ben determinata funzione. 11 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Elementi tipici di un Genoma Geni Pseudogeni Sequenze ripetute Microsatelliti 12 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I Geni Un gene è un segmento di genoma contenente l'informazione per la sintesi di una proteina. Gene Trascrizione/Traduzione La sequenza nucleotidica del gene contiene la "ricetta" per la sintesi della proteina. 13 Proteina Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I Geni (2) L'espressione dei geni coinvolge un intermediario chiamato RNA messaggero, che copia la sequenza del gene e la porta fino al citoplasma, dove la sequenza viene tradotta affinché avvenga la sintesi della proteina (nei ribosomi). Non tutti i geni però codificano proteine. Alcuni di essi infatti specificano vari tipi di RNA non codificante, alcuni dei quali verranno introdotti più avanti. 14 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Duplicazione genica In seguito ad eventi di ricombinazione del DNA, è possibile che si ottengano copie multiple di uno stesso gene. Le copie “in eccesso” sono meno vincolate e più libere di variare, dato che la funzione continua ad essere regolarmente svolta dalla copia “originale”. Le copie dei geni duplicati possono divergere, dando origine a geni differenti, o diventare inattive. La duplicazione genica è dunque una delle principali forze dell’evoluzione. 15 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Gli Pseudogeni Gli pseudogeni sono copie non funzionali di geni. Sono una sorta di relitti evolutivi. Gli pseudogeni convenzionali sono geni inattivati in seguito ad una o più mutazioni nella loro sequenza nucleotidica. Una volta che uno pseudogene è diventato completamente non funzionale si degraderà per accumulazione di ulteriori mutazioni e potrebbe addirittura non essere più riconosciuto come relitto genico. 16 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Junk DNA Circa il 62% del genoma umano è costituito da regioni intergeniche, parti del genoma che si trovano tra i geni e la cui funzione è sconosciuta. Queste sequenze venivano chiamate Junk DNA (DNA spazzatura), perché non se ne conosceva la funzione. Ricerche recenti tendono invece a rivalutare tali sequenze, che si rivelano potenzialmente coinvolte in numerosi processi: non è detto che ciò di cui non capiamo ancora la funzione sia poco importante! 17 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Ripetizioni disperse e microsatelliti La grande maggioranza del DNA intergenico è rappresentata da sequenze ripetute di vario tipo. Il DNA ripetitivo può essere diviso in due categorie: 18 Ripetizioni intersperse DNA ripetuto in tandem Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Ripetizioni intersperse Esistono 4 tipi di ripetizioni disperse nel genoma: SINE LINE Elementi LTR Trasposoni a DNA Ciascun tipo di queste ripetizioni sembra derivare da un elemento trasponibile, un segmento mobile di DNA in grado di spostarsi da una posizione ad un'altra del genoma, lasciando una propria copia. 19 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Trasposoni e Retrotrasposoni I trasposoni sono elementi genetici presenti nei cromosomi capaci di spostarsi da una posizione all'altra del genoma. I retrotrasposoni sono trasposoni che utilizzano un intermedio ad RNA per replicarsi in diverse posizioni all'interno del genoma. Sono particolarmente abbondanti nelle piante e negli esseri umani. Lo spostamento di un trasposone da una parte del genoma ad un'altra è detto trasposizione, e può essere replicativa (quando l’elemento trasponibile si sposta in una nuova posizione del genoma lasciando una copia nella posizione originaria). I retrotrasposoni traspongono copiandosi prima in un intermedio ad RNA e, successivamente, revertendo in DNA (attraverso la trascrittasi inversa) integrandosi in una nuova posizione all'interno del genoma. SINE, LINE ed LTR sono particolari tipi di elementi trasponibili. 20 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Controllo dei trasposoni Gli elementi trasponibili possono indurre mutazioni, inserendosi casualmente all'interno di geni funzionali ed alterandone o, in alcuni casi, impedendone il corretto funzionamento. Sembra comunque che la trasposizione e il mantenimento delle copie dei trasposoni all'interno del genoma ospite siano regolate da geni presenti sia sui trasposoni stessi che nel genoma dell'ospite. Questi geni coopererebbero nell'evitare che la trasposizione possa avere effetti deleteri sia sul trasposone che sull'ospite. 21 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Minisatelliti e Microsatelliti I minisatelliti e i microsatelliti sono ripetizioni in tandem di DNA. In un microsatellite l'unità ripetuta è generalmente breve, fino a 10 bp (base pairs – paia di basi), nei minisatelliti varia da 10 a 100 bp. Non si sa se i microsatelliti hanno una funzione. Derivano da un errore del processo di replicazione del genoma durante la divisione cellulare, quindi potrebbero rappresentare semplicemente un prodotto inevitabile della replicazione genomica. 22 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I polimorfismi Con il termine polimorfismo si intende la presenza contemporanea all’interno di una popolazione, di varianti in una data posizione genomica. Un allele è considerato polimorfico se è presente nella popolazione con una frequenza superiore all’1%. Il polimorfismo di un singolo nucleotide (SNP, Single Nucleotide Polymorphism) è una variazione della sequenza tra singoli individui causata dal cambiamento di un solo nucleotide. Gli SNPs sono responsabili della maggior parte della variabilità genetica tra individui. Gli alleli di uno stesso gene mostrano un esteso polimorfismo a livello della sequenza, ma molte variazioni non influenzano la funzione del gene. 23 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Polimorfismi e mappe di restrizione Alcuni polimorfismi del genoma possono essere rivelati mettendo a confronto le mappe di restrizione di individui diversi. A tale scopo vengono adoperati gli enzimi di restrizione, particolari proteine in grado di riconoscere determinate sequenze di DNA e praticare un taglio in corrispondenza di tali sequenze. Quando un certo sito è presente nel genoma di un individuo e assente da quello di un altro, il taglio extra nel primo genoma genera due frammenti che nel secondo genoma corrispondono ad un unico frammento. Su questo tipo di confronti si basano le “prove del DNA” utilizzate per confrontare campioni di DNA in medicina legale. 24 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 DNA fingerprinting Il fingerprinting (impronta) del DNA analizza le differenze tra individui nei frammenti generati da enzimi di restrizione che tagliano regioni contenenti brevi sequenze ripetute. Poiché tali sequenze sono uniche per ogni individuo, la presenza di una particolare combinazione in due individui diversi permette di stabilire la loro ascendenza comune (per es. una relazione genitore-figlio). 25 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Genoma Umano 26 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I Genomi degli eucarioti Le strutture di base di tutti i genomi eucariotici sono simili, ad eccezione della dimensione. 27 Funghi: 12-25 Mb Protozoi: 190 Mb Invertebrati: 97-5000 Mb Vertebrati: 400-3300 Mb Piante: 125-120000 Mb Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Grande genoma = Molti geni? La dimensione del genoma è correlata al numero di geni che esso contiene? Non è detto! Saccharomyces cerevisiae (lievito) Homo sapiens (uomo) Genoma: 12 Mb (0,004 volte la grandezza del genoma umano) Genoma: 3200 Mb Geni: 5800 Geni: 25000 Se dimensione e numero di geni fossero correlate, il lievito dovrebbe contenere, in proporzione a quello umano, solo 100 geni, mentre ne contiene 5800! Il Paradosso del valore C Con valore C si intende la quantità di DNA per genoma; non c’è un'ovvia correlazione fra la complessità degli organismi e la quantità di DNA del genoma. In realtà nei genomi degli organismi meno complessi si risparmia spazio in quanto i geni sono più vicini tra loro. Confrontando il genoma umano con quello del lievito, emerge che l'organizzazione di quest'ultimo è molto più economica di quella del genoma umano: I geni sono più compatti Le sequenze intergeniche sono più piccole Le ripetizioni disperse e le altre sequenze non codificanti occupano molto meno spazio Il genoma del lievito è più "concentrato"! 29 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I Genomi dei Procarioti I genomi dei procarioti sono molto differenti da quelli degli eucarioti: 30 Sono molto più piccoli Sono molto più compatti Sono contenuti in una singola molecola di DNA circolare Alcuni geni possono essere localizzati su molecole indipendenti di DNA più piccole, chiamate plasmidi. Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Genomi, DNA, RNA e Sintesi Proteica Il Genoma I Geni Il Dogma della Biologia Molecolare 31 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I Geni Il gene è l'unità ereditaria e funzionale degli organismi viventi. La maggior parte dei geni codifica proteine, che sono le macromolecole maggiormente coinvolte nei processi biochimici e metabolici della cellula. Altri geni non codificano proteine, ma producono RNA non codificante, che può giocare un ruolo fondamentale nella sintesi delle proteine e nell'espressione genica (La trascrizione del DNA in RNA e la traduzione dell'RNA in proteina). Parte del contenuto dei geni non viene trascritto, ma può coordinare la stessa espressione genica. Tra queste regioni figurano i promotori, i terminatori e gli introni . 32 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Tre classi di geni • I geni non sono sequenze casuali ma hanno caratteristiche ben precise. • Buona parte dell'informazione contenuta in un gene viene "copiata" in una molecola di RNA; il resto del gene è coinvolto comunque nel processo di "copia" (trascrizione). • Alcuni tipi di RNA vengono utilizzati per la sintesi delle proteine, altri svolgono svariati tipi di funzioni. • Esistono tre classi di geni, che differiscono in base al tipo di RNA che viene prodotto con la loro espressione: – Geni della I classe • RNA ribosomiale (rRNA) – Geni della II classe • RNA messaggero (mRNA) • Piccoli RNA nucleari (snRNA) • Micro RNA (miRNA) – Geni della III classe • • • • 33 RNA transfer (tRNA) Piccoli RNA nucleolari (snoRNA) Piccoli RNA citoplasmatici (scRNA) Micro RNA (miRNA) Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 L'RNA messaggero Gli RNA Messaggeri (mRNA) sono gli unici tipi di RNA codificante. Sono i trascritti dei geni che codificano proteine. Trasportano l'informazione genica nel citoplasma, dove tale informazione viene impiegata per la sintesi delle proteine. Costituiscono solo il 4% circa degli RNA totali della cellula ed hanno vita breve, in quanto vengono degradati poco dopo la sintesi proteica. 34 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I principali RNA non codificanti RNA ribosomiali (rRNA) Sono i più abbondanti nelle cellule Sono parte integrante dei ribosomi, le particelle dove ha luogo la sintesi proteica RNA transfer (tRNA) 35 Sono piccole molecole coinvolte nella sintesi proteica Trasportano gli aminoacidi ai ribosomi in modo tale da permettere la loro unione nell'ordine specificato dalla sequenza nucleotidica dell'mRNA Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Altri tipi di RNA non codificante Piccoli RNA nucleari (snRNA) Piccoli RNA nucleolari (snoRNA) Svolgono un ruolo cruciale nella maturazione delle molecole di rRNA Piccoli RNA citoplasmatici (scRNA) Sono coinvolti nella maturazione degli mRNA Gruppo eterogeneo che comprende molecole con una varietà di funzioni diverse, alcune ancora misteriose microRNA (miRNA) 36 Sono piccole molecole che regolano l'espressione genica a livello post-trascrizionale Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 ATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGGATGACTTTCCTCCAGCTACGTCTCAACTAT TCAGCCCAGGAGCGCCTTTAGATGTGCACCCACTTAATCCATCCAATCCAGAGACTGTATTTCATTCACATCTTGGTGCAGTCAAAAAGGCACCCAGTGACTTTTCATCTGTGGATCTAAGCTTCTTACCAG ATGAACTTACCCAAGAAAATAAAGACCGAACTGTCACTGGAAACAAAGTCACAAATGAGGAAAGCTTTAGGACTCAAGATTGGCAAAGTCAGTTGCAGTTGCCTGATGAACAAGGCAGTGGGCTGAAC TTGAATAGCAACAGTTCACCAGATACCCAGTCATGTCTGTGCTCTCATGATGCTGACTCCAACCAGCTCTCTTCAGAAACACCAAATTCCAATGCCTTACCTGTGGTATTGATATCATCCATGACACCAATGA ACCCTGTTACAGAATGTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCTTTGAATGCCAAAAACACAGAATATAATCCAAAGAGGT TTGCTGCAGTCATAATGAGGATCCGAGAGCCAAGGACCACAGCTCTTATATTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGACGAGTCTCGGCTGGCAGCAAGAAAGTATGCTCGCGT GGTGCAGAAGCTGGGGTTCCCCGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGCAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAGTTCAGTAGTTATGA GCCTGAACTGTTCCCTGGCCTTATTTATAAGATGGTGAAACCGCAGGTTGTGCTGCTCATCTTTGCATCTGGAAAGGTTGTACTGACAGGTGCCAAAGAGCGTTCTGAGATCTACGAAGCATTTGAAAACA TGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGGAGGACATATACCTGGACCTCTTCCTGGATCCTTATACCATCCAGGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCC TTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACCAGATGAACTTACCCAAGAAAA TAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTGAACTTGAATAGCAACAGTTCAC CAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGCCAATGAACCCTGTTCCAGGATTTT CTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCCCTGAATGCCAAAAACACAGAATATAACCCAAAGAGGTTTGCTGCAGTAATAATG AGGATCCGAGAGCCAAGGACAACAGCTCTCATCTTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGAGGAGTCTCGGCTGGCAGCGAGAAAGTATGCTCGTGTGGTGCAGAAGCTCGG GTTCCCTGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAGTTCAGTAGTTATGAACCTGAACTTTTCCCC GGCCTTATTTATAAGATGGTAAAACCACAGGTTGTGTTGCTAATCTTTGCATCTGGAAAAGTTGTGTTAACAGGTGCCAAAGAGCGTTCTGAGATCTATGAAGCATTTGAAAACATGTATCCTATTCTAGAAA GTTTTAAGAAAGTCTGAATGGAGCAGGAGGAGACCTACCTGGAGCTCTACCTGGACCAGTGCGCCGCTCAGGATGGCCTTGCCCCACCCAGGTCTCCCCTGTTCAGCCCAGTTGTACCTTATGATATGTAC ATACTGAATGCATCCAATCCGGATACTGCATTTAATTCGAACCCTGAAGTCAAAGAAACATCTGGTGATTTCTCATCTGTGGATCTTAGCTTCCTACCAGATGAAGTTACCCAGGAAAATAAAGACCAGCCT GTCATTAGCAAACACGAAACTGAAGAAAATTCTGAAAGCCAAAGTCCACAAAGTAGGTTGCCATCACCCAGCGAACAGGACGTTGGGCTGGGCTTAAACAGCAGCAGTTTGTCAAATTCCCATTCACAG CTGCACCCTGGTGATACTGACTCAGTCCAGCCCTCTCCTGAGAAACCAAACTCCGACTCCTTGTCTCTGGCATCCATAACTCCCATGACACCAATGACCCCTATTTCAGAATGTTGTGGAATTGTACCTCAA CTACAGAATATAGTTTCCACTGTAAACCTGGCCTGTAAGTTGGATCTGAAGAAAATAGCTTTGCATGCAAAAAATGCAGAATATAACCCAAAGAGGTTTGCTGCTGTCATAATGAGGATCCGAGAGCCCAG GACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAATATGCTCGTGTGGTGCAGAAGCTTGGGTTCCCTGCCAGATTCCTC GATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAGATTTCCCATCAGGCTGGAAGGTTTGGTGCTAACCCATCAGCAGTTCAGTAGTTACGAGCCTGAACTGTTTCCTGGTCTTATTTATAGAATG GTAAAACCACGAATTGTGTTGCTTATCTTTGTATCTGGAAAAGTTGTGTTGACAGGTGCCAAAGAACGTTCTGAGATCTATGAAGCATTTGAAAACATCTATCCTATTCTAAAAGGTTTTAAAAAAGCCTGA GAAGTCCCCTGGGTAACTTCCAGGCAGCTTCATTTCTGAAGAGTCCAAACTGCAGCATAGAGGACTTATGAAAAACTGTAAAAAATTGGTTTTAAGTGTTCCATTAAACCCAAAGAAAACAGTCACACAA CAAAGCCAGACACAGAAAATTAGGGTGACATGTTTCCTGTCATATGTGGAGCCTAGAGAACATAGAGATGATGTGAAAGCAGAAGGAGCTATCAAGAAAAAGGAAAGCAGATGGGGCAGCAGATCCATG GGAATACTGGCAGAACTGTATAATGGAAGAATGTCGTATGCACATATGAACATGTCATAATGAAACCTAGTATTTTGTACAGTTAATATGGACTAGACAATAGCACAAAGAAATTAGAGATTAGTCTAGCTAT ATGAAGAGGCTACATCAAAGATCACTCCTTTTTGATGGACAAATTTAATTCCTTATAACTGTAGAGCTGAGATATTCACTTGCTTGTCAGACATTAAATGTATCCCACTCTTAGGGTCTAGAAGTTACCCAGA CTTCTTGTACCATGGTCCCATCTATCTTCAAAGTCAGCAGTGACGACTCTGCCTTATGACAAGGTCATCTCCTGCTTTCAAATCCCTCCCAAAGAGTGGCCAATTCCTCCTTGGCTGCTCAGTCAGTAAGGG CAGGCTTGGATCCTTTCCCTTTCCTAACAATGGACTTGGAATTTTAATTACATCTTCAAAACCCAAGAGCATTTGGTTTTTTTTAGATAACTGGGAGATACATTTGGAGATAGGGATTTGGGGAGCCACCGAA ACATTCTACCTACCATAGGAAATAGTTATAAATCTATTTTACTGGCTGGAGAGATGGCCAAGCAGTTAAGAATACTTTCTGCTTTTTCAAAGGATAGAAATTCTGTTCCTAGCACCCACACTGGGCTTCTTAG TGATTCCAACTCTACAGGACCTGATGCCTCCTTCTCTCTGGCTTCCTTAGATACCAGTTTGTACTGGCACATGCATATGCACAGGAGAAGGCTCTCTCTCTCTCTCTCCCCCCCCCCCCTCTCTCTCTCTCAC ACACACACACAAGATGGTGAGATATAATTAATAAAATAAAGTAAAATTTGGATCTGTTTTAGTCAGTTTGGGATGCCATAATAAAACACCACAAACTGGGCAGTTTAAACCACAGAAATTTCCTTCATAGTT CTGAAGGCTGGAGATCTAAGATCAAGGTCCCTGCAGATTTGGTCTCTCCTGTAGCAATCCTCCATCTTTCCTTTTAGGTAGCTGCCTTAATGTTGCTCTTTTTACAGCTTTTTCTTTGTATTTCTATGAAAACA TCAGACATATTGGATTGGGGCTTCTACACATGATCTTCATGGGATAAGCAATAACCATAGTTACTGATCTGTGAGGCTGGTTCTGAGTGTGCAGCTCAGTAGGCTGTCTCATTTACAGACACTATGACATTAC ATCACACATCACTATATAAATCCCAGATTTTTCAAAAGGATCCCCCTATTTTTATTGGAATGTCTGACTCTAGTGCAGGTTATCCAAGCTCCATTCTCAGGTTCGTTTTATCCACCAAGACTGAGCAGATGAGC TGGGCACAGAGACATGATGATGAATAATTTAAATTGTTCCTTTTAAACAGTAGAATCAAGTAAGGAAGATTTAAAAATACATTTTGCAATCTCTTACATCAAAGTGTCTTCTTCTAGAACAGTTCAATACAGT TAAGCTAAGACATTTGAATTAAAGCGTTTAAGAAAGAAAAGCTTCTCTGGATATTTGGTTTTACATTAACTTCTTGAGTTGTCTGAACCCTAACTGTGGAATTTGCACAGCTGTAGGCAAATTCTCTGTAATA GGTGAAAATCTACCTGGGGTGTGAAGGTGAAGAATAATTACAGAAATATCACATCTGAATAGATGAGGGGATTCAGCGGGCAAGGGTGCTTGCCACCAAGCCTGACACTCTGGGTTTGATCCTTGTGTTTC TTCCAGAGCTGGAAGGAGAGAACCTACTCCTGAAAATTGTCTTCTGACCATAACATGAGCTCTGCACTGTGCATGTGTCCATGCACACATGCCAATGAAGATAAATCAATATTAGAAATATCACATCTAAGA ATCTGGGTATGGTGATGCTCATGCATGTTGTAACCCCAGAACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAGGGGGAAGGGAAAGAGAAGGAAAAGAAGAAA AGAAAAGGAAAAGGATAAGGATAAAGGCAGAAGAGAAAAGCATTCTTTTCTCACTTGCACAATGAGAAAACCTTATCATGCTACTCTACTGGAAGCACTAGTCTCGGCCCTCCTCTTCTTCTGGGTGCCA CCAGCTGTGTCTTGCCTGGCTCATCAACTCCTTCTCTGCTTCTCACCTGACTCCTCAGCTCATTCACAGCATCTGTGCAAGGCAGCAGAGCTGGTCCCGCCTCACTGCGTGCTCCCTGAGGCTGATAAAAG GTATCTGCTCCCACAGCCAGACTGGTACTAACAAAGCTTCTTCCACTTGCCTGGACGCTGATTCCTTTGCTTGTCCTCAGCTCTACGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGC CTTTAGACATGCACTCACTTCCATCTAATCCAGG 37 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Struttura dei Geni eucariotici codificanti I geni codificanti sono quelli che vengono trascritti in mRNA. Contengono una parte realmente codificante, che specifica la sequenza degli aminoacidi che costituiranno la proteina, ed una parte non codificante. A monte della sequenza che verrà trascritta in mRNA vi sono le sequenze regolatrici. La sequenza trascritta è costituita da due tipi di elementi, detti esoni ed introni. Solo gli esoni contengono informazioni per la sintesi della proteina. 38 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Struttura del gene 39 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Struttura dei geni procariotici La struttura dei geni procariotici è più semplice. Spesso, nei genomi procariotici, diversi geni vengono controllati da un'unica regione regolatrice: un tale insieme di geni viene definito operone (Es. operone formato dai geni A, B, C, D, E). I geni dell'operone codificano determinate proteine. Il promotore, a monte dei geni, è necessario all'inizio della trascrizione. L'operatore, nella sequenza regolatrice, regola l'espressione dei geni. 40 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Genomi, DNA, RNA e Sintesi Proteica Il Genoma I Geni Il Dogma della Biologia Molecolare 41 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il dogma della Biologia Molecolare 42 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 L’espressione genica è il processo attraverso cui l’informazione contenuta in un gene (DNA) viene trascritta in una molecola di mRNA (trascrizione) e quindi convertita in una proteina (traduzione). Tale processo è regolato finemente a diversi livelli, dall’inizio della trascrizione alle modificazioni post-traduzionali delle proteine prodotte. Il cosiddetto dogma centrale della biologia molecolare è il principio secondo il quale il flusso dell'informazione genetica è monodirezionale e parte dagli acidi nucleici per arrivare alle proteine. Fanno eccezione a questo principio i retrovirus, il cui ciclo di replicazione prevede l'introduzione nella cellula della loro informazione genetica sotto forma di RNA, la sua retrotrascrizione nel citoplasma in una molecola di DNA che va ad integrarsi nel genoma dell'ospite. 43 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 La trascrizione La trascrizione produce una catena di RNA identica nella sequenza ad un tratto di filamento di DNA codificante e complementare al filamento stampo su cui avviene la sua sintesi. DNA gene gene 44 mRNA Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 I promotori sono specifiche sequenze di DNA, che vengono riconosciute da particolari proteine note come fattori di trascrizione. Questi fattori si legano ai promotori, reclutando un enzima particolare chiamato RNA polimerasi, che è in grado di sintetizzare una molecola di RNA a partire dalle informazioni codificate nel gene. I promotori sono elementi cruciali che cooperano con altre regioni regolatorie (enhancers, silencers, …) per il controllo del livello di trascrizione di un dato gene. promotori DNA gene gene mRNA Fattori di trascrizione 45 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 La sintesi dell'RNA avviene all'interno di una bolla di trascrizione in cui il DNA viene temporaneamente separato in due filamenti singoli e il filamento stampo è usato per la sintesi del filamento di RNA. La sintesi parte dall'estremità 5' e procede in direzione dell'estremità 3'. La trascrizione ha inizio quando l'enzima RNA polimerasi si lega ad un promotore del gene da trascrivere, originando la bolla di trascrizione. promotori DNA gene gene Fattori di trascrizione 46 mRNA RNA Polimerasi Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 La trascrizione La RNA polimerasi produce un filamento di RNA identico al gene da trascrivere, e per far questo utilizza come stampo il filamento opposto a quello su cui risiede il gene, sintetizzando la molecola di RNA in modo complementare allo stampo. Nei procarioti, degli appositi segnali di terminazione posti a valle del gene, indicano il termine della trascrizione. Non sono stati individuati segnali di terminazione negli eucarioti, ma si è osservato che la terminazione avviene generalmente a valle di una certa sequenza consenso. 47 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Non tutta l’informazione contenuta nel gene è necessaria alla codifica della proteina corrispondente. Per questo, l’informazione superflua viene rimossa mediante un processo detto splicing. Inoltre all’mRNA viene aggiunto un cappuccio all’estremità 5’ (CAP) e una coda di Adenine (Poly-A) al 3’, per aumentarne la stabilità. gene mRNA (Trascritto primario) Splicing gene gene 48 mRNA (Trascritto maturo) AAAAA Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Esportazione dell'mRNA Gli mRNA maturi, provvisti di 5' cap, coda di Poli(A) e privi della parte non codificante, vengono esportati dal nucleo nel citoplasma. 49 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 La traduzione La traduzione (o sintesi proteica) costituisce la seconda fase del processo di espressione genica, ovvero il processo in cui l'informazione contenuta nel DNA dei geni viene convertita in proteine che svolgono nella cellula un'ampia gamma di funzioni. Nella sintesi proteica un filamento di RNA messaggero, prodotto a partire da un gene sul DNA attraverso il processo di trascrizione, è usato come stampo per la produzione di una specifica proteina. 50 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Codice Genetico e la traduzione Il codice genetico permette il passaggio dall’alfabeto dei nucleotidi a quello degli aminoacidi. In particolare, ad ogni tripletta di nucleotidi corrisponde un aminoacido. Il ribosoma, particella composta da RNA e proteine, lega l’mRNA, riconosce un particolare segnale di inizio della traduzione (AUG) e scorre lungo l’mRNA sintetizzando la catena di aminoacidi corrispondente alle triplette presenti sull’mRNA. gene mRNA (Trascritto maturo) Traduzione Proteina 51 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Il Codice Genetico 52 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 La traduzione 53 Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010 Genomica, trascrittomica e proteomica Le scienze omiche: La genomica è lo studio del genoma. La trascrittomica è lo studio del trascrittoma, cioè la serie di tutti i geni espressi, definito in base alle molecole di RNA trascritte (mRNA ed RNA non codificanti). La proteomica è lo studio del proteoma, cioè la serie completa delle proteine, che dovrebbe corrispondere agli mRNA del trascrittoma. Altre scienze omiche: 54 Metabolomica, glicomica, fosfoproteomica… Bioinformatica (2): Genomi, DNA, RNA e Sintesi Proteica 22-03-2010