Corso di Perfezionamento in: “CITOGENETICA E CITOGENOMICA” I EDIZIONE Organizzazione del Genoma Umano Prof. Gabriella De Vita Dipartimento di Medicina Molecolare e Biotecnologie Mediche Università di Napoli Federico II Genoma nucleare • 24 differenti molecole di dsDNA corrispondenti ai 24 cromosomi • Le dimensioni dei singoli cromosomi variano notevolmente, come la loro composizione in GC La differenza di intensità di colorazione con il Giemsa corrisponde alla differente densità genica Zone eucromatiche Bande chiare = alto contenuto G+C = ricche di geni Es. banda chiara 6p21.3 HLA complex, 180 geni in 4Mb Zone eteromatiche Bande scure = basso contenuto G+C = povere di geni Es. banda scura Xp21.2 dystrophin gene, oltre 2.4Mb È estremamente difficile determinare il numero esatto di geni del genoma umano • Il numero di geni codificanti proteine è stimato tra 20.000 e 22.000, molto inferiore alle stime iniziali di 100.000 (fine anni ‘90) • I geni per RNA sono diverse migliaia, ma il loro numero è in continua crescita dovuta alle tecniche NGS che consentono di ottenere un’efficiente RNAseq • Definire l’esatto numero di geni per RNA è tuttora difficile, e ci vorrà ancora del tempo per arrivare ad una stima più accurata I geni che codificano proteine • Dimensioni molto variabili • Diversa organizzazione esoni-introni • Differenze nel contenuto di DNA ripetitivo (introni e sequenze fiancheggianti) • Distribuzione variabile sui vari cromosomi Geni sovrapposti 09_08.jpg Geni compresi in altri geni 09_08_2.jpg Famiglie geniche • Famiglie geniche classiche (istoni, globine, Ras, ecc.) • Geni codificanti prodotti con domini altamente conservati (Homeobox, Paired box, Forkhead, ecc.) • Geni codificanti proteine contenenti corti motivi conservati, correlati ad una comune funzione (DEAD box, WD domain, ecc.). • Superfamiglie (immunoglobuline, globine recettori G protein coupled, ecc.) . 09_09.jpg DEAD (Asp-Glu-Ala-Asp) WD (Trp-Asp) Superfamiglia delle Ig 09_10.jpg Famiglie geniche • Raggruppate Gruppo singolo (alfa-globine, geni GH) Gruppi multipli (geni HOX, istoni) • Disperse (geni PAX, NF1, Ras) Pseudogeni • Copie difettive dell’intera sequenza di un gene funzionale (o della sua porzione codificante), o copie tronche, mancanti di porzioni al 5’, al 3’, o frammenti interni. Pseudogeni non-processati • • • • Contengono tutte le regioni funzionali del gene Presentano codoni di stop inappropriati Originati per duplicazione genica o crossing-over ineguale Es. α- e β- globine Pseudogeni processati • • • Contengono solo le sequenze esoniche e una sequenza oligo dA/dT Copiati dall’mRNA in cDNA e reintegrati nel genoma Se sono espressi sono detti retrogeni Class I HLA gene family 6p2.1 Dispersione di pseudogeni nonprocessed di NF1 Pseudogeni principalmente pericentromerici Pseudogeni nonprocessed di PDK1 Pseudogeni principalmente subtelomerici nonprocessed pseudogenes processed pseudogenes Contengono solo sequenze esoniche Originano per retrotrasposizione Comuni nelle famiglie geniche disperse Pseudogeni processati e retrogeni si originano per retrotrascrizione di mRNA • Pseudogeni appartenenti a famiglie geniche • Pseudogeni solitari (ortologhi di geni funzionali in specie vicine) • Pseudogeni di geni per RNA • Pseudogeni di geni mitocondriali • Retrogeni (pseudogeni processati funzionali) Sono noti numerosi retrogeni con profili di espressione specifici per il testicolo che sono omologhi autosomici di geni X-linked Questi possono sostituire la funzione dei loro omologhi con introni nella meiosi maschile, durante la quale X e Y appaiati formano il corpo XY, eterocromatico e trascrizionalmente inattivo. I geni delle proteine coprono 1.1% del genoma, ma recenti analisi genomiche hanno rivelato che almeno l’85% del genoma umano viene trascritto I geni degli RNA non codificanti (come li conosciamo oggi) I geni degli RNA • Numero in continua crescita • Principalmente coinvolti nei processi di espressione genica (rRNA e tRNA) • Altre classi di RNA con ruoli regolatori Funzioni degli RNA RNA families Individual RNA rRNA e tRNA sono codificati da oltre 1000 geni, principalmente clusterizzati rRNA • 4 tipi: 28S, 5.8S e 5S associati alla subunità maggiore e 18S alla minore • Il 5S è prodotto da piccoli cluster genici (molti pseudogeni) • 28S, 18S e 5.8S sono prodotti da una sola unità trascrizionale multigenica • Tandem repeat di 30-40 copie nel braccio p dei cromosomi acrocentrici 13, 14, 15, 21 e 22 • Esclusi dal progetto genoma tRNA • Oltre 500 geni appartenenti a 49 famiglie (anticodoni) • Poca correlazione tra numero di geni e frequenza dell’aa • Dispersi nel genoma, ma più della metà raggruppati sui cromosomi 6 e 1 Codon usage • Non c’è un rapporto 1:1 tra codoni presenti nei mRNA e anticodoni nei tRNA che li riconoscono • Ogni specie ha un set di anticodoni diverso • Ogni specie usa preferenzialmente alcuni codoni sinonimi rispetto ad altri Human tRNA collection Piccoli RNA nucleari (60-360 bp) • Varie famiglie che assistono l’espressione genica generale nel nucleo • Funzionano in RNPs • Alcuni sono molto ricchi in uridina (U1, U2, ecc.) • 3 categorie: snRNA dello spliceosoma, snRNAcon altre funzioni, snoRNAs localizzati nel nucleolo • Codificati da centinaia di geni per lo più dispersi, oltre a centinaia di pseudogeni Le regioni intergeniche possono regolare la funzione genomica in cis (promoters, enhancers, insulators, etc) o in trans, attraverso molte classi di RNA non codificanti. Il progetto genoma ha rivelato la struttura generale del genoma umano: • La dimensione totale è circa 3.1 Gb per genoma aploide, delle queli 2.9 Gb di eucromatina e 200 Mb di eterocromatina • La composizione in basi della componente eucromatica è in media 41% (G+C), altamente variabile sia tra cromosomi che tra zone diverse dello stesso cromosoma • Anche la proporzione di alcune combinazioni di nucleotidi è molto variabile • Il dinucleotide CpG è mediamente meno rappresentato dell’atteso, come in altri vertebrati • Piccole regioni trascrizionalmente attive, invece, hanno la densità di CpG attesa e il DNA è ipometilato o non metilato (isole di CpG) I geni umani sono distribuiti tra i cromosomi in maniera non uniforme La prima evidenza si è ottenuta proprio ibridizzando la frazione CpG purificata e marcata a cromosomi metafasici. Le isole CpG sono note essere fortemente associate a geni attivi. CpG (Texas Red) Late-replicating (FITC-BrdU) The dark side of the genome La maggior parte del genoma umano consiste di DNA non codificante appartenente a diverse classi • Sequenze regolatorie (spesso conservate) • DNA non codificante altamente ripetuto (ripetizioni clusterizzate in tandem o DNA satellite, ripetizioni intersperse o trasposoni, non conservate) • Pseudogeni (membri non funzionali di famiglie geniche) • Geni per RNA non tradotti (decine di migliaia, poco conservati tra le specie) Fino ad alcuni anni fa, il DNA non codificante era chiamato anche “DNA spazzatura” o “junk DNA” …ma perché il genoma dovrebbe contenere una quantità così grande di “spazzatura”? Due interessanti paradossi in biologia molecolare La complessità biologica non correla con: • Contenuto di DNA genomico (C-value paradox) • numero di Geni codificanti proteine (the G-value paradox) N° di tipi cellulari vs N° di geni codificanti proteine in vari phyla Vogel C, Chothia C (2006) PLoS Comput Biol 2(5): e48" C’è una forte correlazione, invece, tra complessità biologica e frazione del DNA non codificante nel genoma totale (nc/tg) La genomica evoluzionistica ha rivelato che il DNA non codificante è la parte maggiormente variabile tra le specie È questa la chiave per comprendere la complessità degli organismi? ncDNA/ totDNA Mb di CDS Taft RJ, Pheasant M, Mattick JS, Bioessays 28:288-299, 2007 Il DNA non codificante è in realtà la componente del genoma che mostra la correlazione più stretta con la complessità. INTRONI UTR REGIONI INTERGENICHE Gli introni sono ancora oggi considerati privi di informazione genetica essenziale, anche se: • Sono trascritti • Contengono sequenze altamente conservate • Ospitano tutti i snoRNAs ed una frazione significativa di miRNAs Sia il numero che le dimensioni degli introni aumentano all’aumentare della complessità degli organismi Taft RJ, Pheasant M, Mattick JS, Bioessays 28:288-299, 2007 Nel genoma umano ci sono: 34 Mb di sequenze codificanti 32 Mb di UTR Anche la dimensione delle UTR aumenta all’aumentare della complessità biologica Sono sequenze che agiscono in CIS in risposta a segnali che agiscono in TRANS (RNAs o proteine) DNA altamente ripetitivo • I geni contengono alcune sequenze di DNA ripetitivo, codificante o non-codificante, ma la maggior parte si trova in regioni intergeniche • Il DNA altamente ripetitivo costituisce oltre la metà del genoma umano Il DNA ripetitivo non-codificante clusterizzato ( disperso ) DNA ripetitivo non-codificante clusterizzato Blocchi di ripetizioni in tandem Classificato in: • DNA satellite • DNA minisatellite • DNA microsatellite in base alla taglia dell’array (blocco) di ripetizioni Il DNA satellite in gradiente di densità Satellite α • Tandem repeats di un’unità di 171 bp che lega la proteina centromerica CENP-B • Costituisce la gran parte dell’eterocromatina centromerica di tutti i cromosomi • Elevata divergenza di sequenza tra cromosomi diversi • Clonato in cromosomi umani genera nuovi centromeri Organizzazione del Dna satellite ai centromeri 09_16.jpg DNA minisatellite • La famiglia telomerica consiste di 3-20 kb di ripetizioni in tandem (TTAGGG) sintetizzate dalla telomerasi. • Responsabili della funzione di protezione dei telomeri dall’erosione replicativa • Hotspot per ricombinazione omologa • Utilizzato per DNA fingerprinting • Altamente conservato tra i vertebrati Nei telomeri il DNA minisatellite viene legato da un complesso di proteine specializzate (telosoma) per dare origine ad un’ansa protettiva DNA microsatellite • Piccoli gruppi di ripetizioni di una sequenza semplice (fino a 10 bp) • È sparso in tutto il genoma • Si origina per “replication slippage” • Può generare hotspots mutazionali Microsatelliti A) D6S282 B) D12S391 C) D21S11 La maggior parte dei microsatelliti ha unità di 1, 2 o 4 nucleotidi La variabilità del DNA satellite è dovuta principalmente a due meccanismi: Ricombinazione meiotica tra ripetizioni male appaiate Slittamento della DNA polimerasi Principale meccanismo per la variabilità dei minisatelliti Slittamento della polimerasi Principale meccanismo per la variabilità dei microsatelliti (STRP) Utilizzo del minisatellite ipervariabile (VNTR) in genetica forense DNA ripetitivo non-codificante disperso È quasi tutto costituito da trasposoni Retrotrasposoni Trasposoni LTR LINE, SINE Trasposoni a DNA Retrotrasposoni LINE • • • • Long Interspersed Nuclear Elements Sono i trasposoni più attivi e sono molto antichi (topo) Codificano tutti i prodotti necessari alla trasposizione 3 famiglie (L1, L2, L3) comprendenti il 20% del genoma umano • L1 è la famiglia predominante (17%) ed è l’unica che traspone attivamente (circa 6.1 kb) • L1 è responsabile di quasi tutta la retrotrascrizione che avviene nel genoma • Localizzati in regioni AT-rich Trasposoni SINE • Short Interspersed Nuclear Elements • Sono lunghi 100-400bp e hanno colonizzato il genoma umano con successo • Non codificano proteine • Condividono le sequenze terminali con le LINE • Traspongono parassitando il macchinario delle LINE • Si sono originati per copia di geni ad RNA (7SL, tRNA…) • La più abbondante è la famiglia Alu • Localizzati in regioni GC-rich 09_19.jpg Gli elementi trasponibili interni o prossimi a geni possono modificare i geni mediante exon shuffling Gli elementi LINE-1 hanno segnali di poliadenilazione deboli che possono essere superati dalla RNA polII SI RINGRAZIANO LE SEGUENTI DITTE PER IL MATERIALE FORNITO PER IL CORSO DI PERFEZIONAMENTO Nuove classi di geni per RNA (noncoding RNAs o ncRNAs) miRNAs, piRNAs e siRNAs • All’inizio degli anni 2000 sono stati scoperti i primi piccoli RNA citoplasmatici • Scoperti inizialmente in D.melanogaster e C. elegans in studi sull’RNA interference RNA interference • A physiologic and evolutionary ancient form of gene regulation • Protects cells against virus and transposons, both producing long dsRNA during their life cycle • It is used in animal, plants and single-celled fungi • Mammalian cells have RNAi pathway, but the introduction of long dsRNA triggers an interferon response that causes cell death RISC: RNAinduced silencing complex RITS: RNAinduced transcriptional silencing complex microRNA (miRNA) • • • • • • • Scoperti dopo il 2000 Lunghi 21-22 nt Fortemente conservati nell’evoluzione Trascritti da RNA pol II cap 5’ e poly A regolano la traduzione del mRNA e/o la stabilita’ Nell’uomo ci sono circa 1000 miRNA Organizzazione genomica dei miRNA • Intragenici o intergenici • Possono essere trascritti con il proprio gene ospite oppure possono far parte di unita’ policistroniche Biogenesi dei miRNA: pri-miRNA (trascritto primario) DGCR8 riconosce il pri-miRNA Drosha e’ una RNAse tipo III Centro di processamento a 11bp dalla giunzione ss ds Biogenesi dei miRNA: esportazione del pre-miRNA poro nucleare Pre-miRNA hairpin e’ tagliato da Dicer (RNase III) nel citoplasma filamento antisenso o guida miRNA filamento senso o passeggero miRNA* Complesso di silenziamento indotto da RNA (RISC) filamento antisenso o guida miRNA filamento senso o passeggero miRNA* Argonauta: endonucleasi filamenti di 21-23nt uno sara’ il miRNA maturo che verra’ montato sul RISC, l’altro spesso non e’ funzionale I miRNA possono inibire l’espressione dei mRNA bersaglio inducendone la degradazione o bloccandone la traduzione Figure 7-112 Molecular Biology of the Cell (© Garland Science 2008)