206 2 DE VITA Struttura genoma

Corso di Perfezionamento
in:
“CITOGENETICA E CITOGENOMICA”
I EDIZIONE
Organizzazione del Genoma Umano
Prof. Gabriella De Vita
Dipartimento di Medicina Molecolare
e Biotecnologie Mediche
Università di Napoli Federico II
Genoma nucleare
•  24 differenti molecole di dsDNA corrispondenti ai
24 cromosomi
•  Le dimensioni dei singoli cromosomi variano
notevolmente, come la loro composizione in GC
La differenza di intensità di colorazione con il Giemsa corrisponde alla differente
densità genica
Zone eucromatiche
Bande chiare = alto contenuto G+C = ricche di geni
Es. banda chiara 6p21.3 HLA complex, 180 geni in 4Mb
Zone eteromatiche
Bande scure = basso contenuto G+C = povere di geni
Es. banda scura Xp21.2 dystrophin gene, oltre 2.4Mb
È estremamente difficile determinare il numero esatto di geni del
genoma umano
• Il numero di geni codificanti proteine è stimato tra 20.000 e 22.000,
molto inferiore alle stime iniziali di 100.000 (fine anni ‘90)
• I geni per RNA sono diverse migliaia, ma il loro numero è in
continua crescita dovuta alle tecniche NGS che consentono di
ottenere un’efficiente RNAseq
• Definire l’esatto numero di geni per RNA è tuttora difficile, e ci vorrà
ancora del tempo per arrivare ad una stima più accurata
I geni che codificano proteine
•  Dimensioni molto variabili
•  Diversa organizzazione esoni-introni
•  Differenze nel contenuto di DNA ripetitivo (introni e
sequenze fiancheggianti)
•  Distribuzione variabile sui vari cromosomi
Geni sovrapposti
09_08.jpg
Geni compresi in altri geni
09_08_2.jpg
Famiglie geniche
•  Famiglie geniche classiche (istoni, globine, Ras, ecc.)
•  Geni codificanti prodotti con domini altamente
conservati (Homeobox, Paired box, Forkhead, ecc.)
•  Geni codificanti proteine contenenti corti motivi
conservati, correlati ad una comune funzione (DEAD
box, WD domain, ecc.).
•  Superfamiglie (immunoglobuline, globine recettori G
protein coupled, ecc.) .
09_09.jpg
DEAD (Asp-Glu-Ala-Asp)
WD (Trp-Asp)
Superfamiglia delle Ig
09_10.jpg
Famiglie geniche
•  Raggruppate Gruppo singolo (alfa-globine, geni GH)
Gruppi multipli (geni HOX, istoni)
•  Disperse
(geni PAX, NF1, Ras)
Pseudogeni
•  Copie difettive dell’intera sequenza di un gene funzionale (o della sua
porzione codificante), o copie tronche, mancanti di porzioni al 5’, al
3’, o frammenti interni.
Pseudogeni non-processati
• 
• 
• 
• 
Contengono tutte le regioni funzionali del gene
Presentano codoni di stop inappropriati
Originati per duplicazione genica o crossing-over ineguale
Es. α- e β- globine
Pseudogeni processati • 
• 
• 
Contengono solo le sequenze esoniche e una sequenza oligo dA/dT
Copiati dall’mRNA in cDNA e reintegrati nel genoma
Se sono espressi sono detti retrogeni
Class I HLA gene family
6p2.1
Dispersione di pseudogeni nonprocessed di NF1
Pseudogeni principalmente pericentromerici
Pseudogeni nonprocessed di PDK1
Pseudogeni principalmente subtelomerici
nonprocessed pseudogenes
processed pseudogenes
Contengono solo sequenze esoniche
Originano per retrotrasposizione
Comuni nelle famiglie geniche disperse
Pseudogeni processati e retrogeni si originano per retrotrascrizione
di mRNA •  Pseudogeni appartenenti a famiglie geniche
•  Pseudogeni solitari (ortologhi di geni funzionali in specie
vicine)
•  Pseudogeni di geni per RNA
•  Pseudogeni di geni mitocondriali
•  Retrogeni (pseudogeni processati funzionali)
Sono noti numerosi retrogeni con profili di espressione specifici per il
testicolo che sono omologhi autosomici di geni X-linked
Questi possono sostituire la funzione dei loro omologhi con introni nella
meiosi maschile, durante la quale X e Y appaiati formano il corpo XY,
eterocromatico e trascrizionalmente inattivo.
I geni delle proteine coprono 1.1% del
genoma, ma recenti analisi genomiche
hanno rivelato che almeno l’85% del
genoma umano viene trascritto
I geni degli RNA non codificanti
(come li conosciamo oggi)
I geni degli RNA
•  Numero in continua crescita
•  Principalmente coinvolti nei processi di
espressione genica (rRNA e tRNA)
•  Altre classi di RNA con ruoli regolatori
Funzioni degli RNA
RNA families
Individual RNA
rRNA e tRNA sono codificati da oltre 1000 geni,
principalmente clusterizzati
rRNA
•  4 tipi: 28S, 5.8S e 5S associati alla subunità
maggiore e 18S alla minore
•  Il 5S è prodotto da piccoli cluster genici (molti
pseudogeni)
•  28S, 18S e 5.8S sono prodotti da una sola unità
trascrizionale multigenica
•  Tandem repeat di 30-40 copie nel braccio p dei
cromosomi acrocentrici 13, 14, 15, 21 e 22
•  Esclusi dal progetto genoma
tRNA
•  Oltre 500 geni appartenenti a 49 famiglie
(anticodoni)
•  Poca correlazione tra numero di geni e
frequenza dell’aa
•  Dispersi nel genoma, ma più della metà
raggruppati sui cromosomi 6 e 1
Codon usage
•  Non c’è un rapporto 1:1 tra codoni presenti
nei mRNA e anticodoni nei tRNA che li
riconoscono
•  Ogni specie ha un set di anticodoni diverso
•  Ogni specie usa preferenzialmente alcuni
codoni sinonimi rispetto ad altri
Human tRNA collection
Piccoli RNA nucleari (60-360 bp)
•  Varie famiglie che assistono l’espressione genica
generale nel nucleo
•  Funzionano in RNPs
•  Alcuni sono molto ricchi in uridina (U1, U2, ecc.)
•  3 categorie: snRNA dello spliceosoma, snRNAcon
altre funzioni, snoRNAs localizzati nel nucleolo
•  Codificati da centinaia di geni per lo più dispersi, oltre
a centinaia di pseudogeni
Le regioni intergeniche possono regolare la
funzione genomica in cis (promoters, enhancers,
insulators, etc) o in trans, attraverso molte classi
di RNA non codificanti.
Il progetto genoma ha rivelato la struttura
generale del genoma umano:
• La dimensione totale è circa 3.1 Gb per genoma aploide,
delle queli 2.9 Gb di eucromatina e 200 Mb di eterocromatina
• La composizione in basi della componente eucromatica è in
media 41% (G+C), altamente variabile sia tra cromosomi che
tra zone diverse dello stesso cromosoma
• Anche la proporzione di alcune combinazioni di nucleotidi è
molto variabile
• Il dinucleotide CpG è mediamente meno rappresentato
dell’atteso, come in altri vertebrati
• Piccole regioni trascrizionalmente attive, invece, hanno la
densità di CpG attesa e il DNA è ipometilato o non metilato
(isole di CpG)
I geni umani sono distribuiti tra i
cromosomi in maniera non uniforme
La prima evidenza si è ottenuta proprio ibridizzando la
frazione CpG purificata e marcata a cromosomi
metafasici.
Le isole CpG sono note essere fortemente associate a
geni attivi.
CpG (Texas Red)
Late-replicating
(FITC-BrdU)
The dark side of the genome
La maggior parte del genoma umano
consiste di DNA non codificante
appartenente a diverse classi
•  Sequenze regolatorie (spesso conservate)
•  DNA non codificante altamente ripetuto (ripetizioni
clusterizzate in tandem o DNA satellite, ripetizioni
intersperse o trasposoni, non conservate)
•  Pseudogeni (membri non funzionali di famiglie geniche)
•  Geni per RNA non tradotti (decine di migliaia, poco
conservati tra le specie)
Fino ad alcuni anni fa, il DNA non
codificante era chiamato anche “DNA
spazzatura” o “junk DNA”
…ma perché il genoma dovrebbe
contenere una quantità così grande di
“spazzatura”?
Due interessanti paradossi in biologia molecolare
La complessità biologica non correla con:
•  Contenuto di DNA genomico
(C-value paradox)
•  numero di Geni codificanti proteine
(the G-value paradox)
N° di tipi cellulari vs N° di geni codificanti proteine in vari phyla
Vogel C, Chothia C (2006) PLoS Comput Biol 2(5): e48"
C’è una forte correlazione, invece, tra
complessità biologica e frazione del DNA
non codificante nel genoma totale (nc/tg)
La genomica evoluzionistica ha rivelato che il
DNA non codificante è la parte maggiormente
variabile tra le specie
È questa la chiave per comprendere la
complessità degli organismi?
ncDNA/
totDNA
Mb di CDS
Taft RJ, Pheasant M, Mattick JS, Bioessays 28:288-299, 2007
Il DNA non codificante è in realtà la componente
del genoma che mostra la correlazione più stretta
con la complessità.
INTRONI
UTR
REGIONI
INTERGENICHE
Gli introni sono ancora oggi considerati privi di
informazione genetica essenziale, anche se:
•  Sono trascritti
•  Contengono sequenze altamente conservate
•  Ospitano tutti i snoRNAs ed una frazione
significativa di miRNAs
Sia il numero che le dimensioni degli introni aumentano
all’aumentare della complessità degli organismi
Taft RJ, Pheasant M, Mattick JS, Bioessays 28:288-299, 2007
Nel genoma umano ci sono:
34 Mb di sequenze codificanti
32 Mb di UTR
Anche la dimensione delle UTR aumenta all’aumentare della
complessità biologica
Sono sequenze che agiscono in CIS in risposta a segnali che
agiscono in TRANS (RNAs o proteine)
DNA altamente ripetitivo
•  I geni contengono alcune sequenze di DNA ripetitivo, codificante
o non-codificante, ma la maggior parte si trova in regioni
intergeniche
•  Il DNA altamente ripetitivo costituisce oltre la metà del genoma
umano
Il DNA ripetitivo non-codificante
clusterizzato
(
disperso
)
DNA ripetitivo non-codificante clusterizzato
Blocchi di ripetizioni in tandem
Classificato in:
•  DNA satellite
•  DNA minisatellite
•  DNA microsatellite
in base alla taglia dell’array (blocco) di ripetizioni
Il DNA satellite in gradiente di densità
Satellite α
•  Tandem repeats di un’unità di 171 bp che lega la proteina
centromerica CENP-B
•  Costituisce la gran parte dell’eterocromatina centromerica
di tutti i cromosomi
•  Elevata divergenza di sequenza tra cromosomi diversi
•  Clonato in cromosomi umani genera nuovi centromeri
Organizzazione del Dna satellite ai centromeri 09_16.jpg
DNA minisatellite
•  La famiglia telomerica consiste di 3-20 kb di ripetizioni in
tandem (TTAGGG) sintetizzate dalla telomerasi.
•  Responsabili della funzione di protezione dei telomeri
dall’erosione replicativa
•  Hotspot per ricombinazione omologa
•  Utilizzato per DNA fingerprinting
•  Altamente conservato tra i vertebrati
Nei telomeri il DNA minisatellite viene legato da un complesso di proteine
specializzate (telosoma) per dare origine ad un’ansa protettiva
DNA microsatellite
•  Piccoli gruppi di ripetizioni di una sequenza semplice (fino
a 10 bp)
•  È sparso in tutto il genoma
•  Si origina per “replication slippage”
•  Può generare hotspots mutazionali
Microsatelliti
A)  D6S282
B) D12S391
C) D21S11
La maggior parte dei microsatelliti ha unità di 1, 2 o 4 nucleotidi
La variabilità del DNA satellite è dovuta principalmente a due
meccanismi:
Ricombinazione meiotica tra ripetizioni male appaiate
Slittamento della DNA polimerasi
Principale meccanismo per la variabilità dei minisatelliti
Slittamento della
polimerasi
Principale meccanismo per
la variabilità dei
microsatelliti (STRP)
Utilizzo del minisatellite ipervariabile (VNTR) in genetica forense
DNA ripetitivo non-codificante disperso
È quasi tutto costituito da trasposoni
Retrotrasposoni
Trasposoni LTR
LINE, SINE
Trasposoni a DNA
Retrotrasposoni LINE
• 
• 
• 
• 
Long Interspersed Nuclear Elements
Sono i trasposoni più attivi e sono molto antichi (topo)
Codificano tutti i prodotti necessari alla trasposizione
3 famiglie (L1, L2, L3) comprendenti il 20% del
genoma umano
•  L1 è la famiglia predominante (17%) ed è l’unica che
traspone attivamente (circa 6.1 kb)
•  L1 è responsabile di quasi tutta la retrotrascrizione
che avviene nel genoma
•  Localizzati in regioni AT-rich
Trasposoni SINE
•  Short Interspersed Nuclear Elements
•  Sono lunghi 100-400bp e hanno colonizzato il
genoma umano con successo
•  Non codificano proteine
•  Condividono le sequenze terminali con le LINE
•  Traspongono parassitando il macchinario delle LINE
•  Si sono originati per copia di geni ad RNA (7SL,
tRNA…)
•  La più abbondante è la famiglia Alu
•  Localizzati in regioni GC-rich
09_19.jpg
Gli elementi trasponibili interni o
prossimi a geni possono modificare i
geni mediante exon shuffling
Gli elementi LINE-1 hanno segnali di poliadenilazione deboli che possono
essere superati dalla RNA polII
SI RINGRAZIANO LE SEGUENTI DITTE PER IL
MATERIALE FORNITO
PER IL CORSO DI PERFEZIONAMENTO
Nuove classi di geni per RNA
(noncoding RNAs o ncRNAs)
miRNAs, piRNAs e siRNAs
•  All’inizio degli anni 2000 sono stati scoperti i
primi piccoli RNA citoplasmatici
•  Scoperti inizialmente in D.melanogaster e C.
elegans in studi sull’RNA interference
RNA interference
•  A physiologic and evolutionary ancient form of
gene regulation
•  Protects cells against virus and transposons,
both producing long dsRNA during their life
cycle
•  It is used in animal, plants and single-celled
fungi
•  Mammalian cells have RNAi pathway, but the
introduction of long dsRNA triggers an
interferon response that causes cell death
RISC: RNAinduced silencing
complex
RITS: RNAinduced
transcriptional
silencing complex
microRNA (miRNA)
• 
• 
• 
• 
• 
• 
• 
Scoperti dopo il 2000
Lunghi 21-22 nt
Fortemente conservati nell’evoluzione
Trascritti da RNA pol II cap 5’ e poly A
regolano la traduzione del mRNA e/o la stabilita’ Nell’uomo ci sono circa 1000 miRNA
Organizzazione genomica dei miRNA
•  Intragenici o intergenici
•  Possono essere trascritti con il proprio gene ospite oppure possono far
parte di unita’ policistroniche
Biogenesi dei miRNA:
pri-miRNA (trascritto primario)
DGCR8 riconosce
il pri-miRNA
Drosha e’ una
RNAse tipo III
Centro di processamento a 11bp dalla giunzione ss ds
Biogenesi dei miRNA:
esportazione del pre-miRNA
poro nucleare
Pre-miRNA hairpin e’ tagliato da Dicer (RNase III)
nel citoplasma
filamento antisenso o guida miRNA
filamento senso o passeggero miRNA*
Complesso di silenziamento indotto da
RNA (RISC)
filamento antisenso
o guida miRNA
filamento senso o
passeggero
miRNA*
Argonauta: endonucleasi
filamenti di 21-23nt
uno sara’ il miRNA
maturo che verra’
montato sul RISC,
l’altro spesso non
e’ funzionale
I miRNA possono inibire l’espressione dei mRNA
bersaglio inducendone la degradazione o
bloccandone la traduzione
Figure 7-112 Molecular Biology of the Cell (© Garland Science 2008)