IL DOGMA CENTRALE
GENOMA e PROTEOMA
Dati aggiornati al 7 ottobre 2011
Genomi completi: 2935 Genomi in corso di sequenziamento: 7643
Organizzazione dei genomi
L’organizzazione dei genomi e’ piuttosto variabile. Nel genoma
umano la maggior parte della sequenza (>90%) non e’ codificante,
mentre in lievito e in E.Coli il grado di compattazione dei geni e’
piuttosto elevato, con solo il 10% di regioni non corrispondenti a
open reading frames (ORF). Negli insetti la situazione e’
intermedia, mentre in piante, come zea mays, e’ molto frequente
osservare larghe regioni ripetute con scarso contenuto
informativo, con dimensioni totali spesso superiori a quelle dei
genomi di vertebrati
I genomi batterici vanno da 500000 a pochi milioni di nucleotidi, gli
eucarioti miliardi. I batteri hanno un cromosoma a singola copia, gli
eucarioti molti a due o più copie ( una nella linea germinale).I geni
batterici sono continui, quelli eucariotici discontinui ( esoni+introni ).Il
DNA nei batteri è in gran parte codificante, negli eucarioti non
I GENOMI NEI VARI ORGANISMI
I GENOMI VIRALI
I GENOMI PROCARIOTICI
Il genoma dei procarioti
Architettura dei genomi procariotici
L’organizzazione dei genomi batterici
I genomi procariotici sono compatti, di dimensioni variabili da un
minimo di 400 kb a circa 10 Mb. Le regioni codificanti sono
raggruppate in operon, separate da piccole regioni non codificanti.
Tipicamente il genoma è costituito da un unico cromosoma
circolare, ma esistono genomi lineari e composti da piè catene di
DNA; in alcune specie sono presenti plasmidi extracromosomiali.
Complessivamente il DNA non codificante è intorno al 10%,
distribuito in un gran numero di regioni spaziatrici.
Il genoma dei procarioti
• Risposta agli stimoli = alterazione livelli di espressione dei geni
• Funzioni dei geni nei procarioti:
– 32 geni o più: capacità di produrre e replicare il DNA
– 100 – 150 geni: fabbricazione delle proteine “strutturali”
– 30 geni o più: generazione e immagazzinamento dell’energia
• Insieme minimo: 256 – 300 geni.
Il genoma dei procarioti
L’organizzazione del genoma di E. Coli
Il genoma di E. Coli K12 è costituito da circa 600 operon, situati su
una unica molecola di DNA circolare di 4.64 Mb.
I geni sono localizzati a stretto contatto tra loro, lasciando solo
piccole aree non codificanti come spaziatori.
Una varietà di sequenze ripetute è presente nelle regioni non
codificanti, ma anche in quelle codificanti.
La struttura del cromosoma di E. Coli mostra ben visibili le
caratteristiche indicate.
I GENOMI EUCARIOTICI
Il genoma degli eucarioti
• Eccezionalmente più complesso
• Organismi multicellulari, differenziazione cellulare
• Enormi quantità di DNA “spazzatura”
Specie
Lievito
Dim. del genoma Numero di geni
(Mb)
13
6 241
Caenorhabditis el.
100
18 424
Arabidopsis
130
25 000
Moscerino della
frutta
180
13 601
Pesce zebra
1 700
?
Homo sapiens
3 000
45 000
A = DNA cloroplasto
doppio filamento
120 160 kb
codifica enzimi per la fotosintesi
20 40 copie per organello
B =DNA mitocondriale
circolare a doppio filamento
16-18 kb
fino a 30 copie per organello
I geni mitocondriali
• 37 geni totali
• 24 geni per RNA: 22 tRNA e 2 rRNA
• 13 geni per proteine (subunita’ dei complessi respiratori
mitocondriali)
Struttura del genoma eucariotico
•Sequenze ripetute
•Geni interrotti
•DNA non codificante
• IL GENOMA UMANO e’ composto da 25 differenti
molecole di DNA:
24 differenti molecole di DNA nucleare (22 autosomi, X e Y)
(GENOMA NUCLEARE), 3200 Mb (3x109 bp);
1 singolo tipo di DNA mitocondriale (GENOMA
MITOCONDRIALE), 16,6 kb (1,66x104 bp).
Genoma nucleare
• 24 differenti molecole di dsDNA
corrispondenti ai 24 cromosomi
(22 autosomi, X e Y)
• Le dimensioni dei singoli cromosomi variano
notevolmente, come la loro composizione in
GC
geni per: rRNA (300)
tRNA (1300)
5S RNA (2000)
istoni (20)
sequenze ripetute intersperse
sequenza Alu: 300 nt (x 300.000)
sequenze semplici o satelliti: 2-10 nt (x 2-100 copie in tandem x 1-100
blocchi interspersi)
Sequenze uniche e ripetute nel genoma
Uniche
(1-10 volte)
50-70%
Maggior parte dei geni
in tandem
Geni reiterati
(rRNA, 5S RNA, tRNA, Istoni etc.)
Mediamente ripetute
(da centinaia a migliaia
Alcune sequenze regolative
di volte)
intersperse
10-30%
Alcune sequenze a funzione speciale
(centromeri, origini, etc.)
Altamente ripetute
(da decine di migliaia
a milioni di volte)
5-25%
DNA satelliti
sequenze semplici
I geni umani
• Stimati in un numero tra 30 000 e 35 000.
• Non sono distribuiti sui cromosomi in maniera uniforme.
• La grande maggioranza dei geni umani codifica proteine,
mentre una frazione tra il 5 e il 10% di essi specifica
molecole di RNA non-tradotte.
• Dalla sequenza del genoma si identificano circa 11 000
geni con certezza. Gli altri geni sono stati predetti
mediante analisi informatica della sequenza, e sono,
quindi, solo putativi.
I geni che codificano proteine
• Dimensioni molto variabili
• Diversa organizzazione esoni-introni
• Differenze nel contenuto di DNA ripetitivo (introni
e sequenze fiancheggianti)
• Distribuzione variabile sui vari cromosomi
DNA ripetitivo non-codificante
clusterizzato
Spesso si trova in blocchi di ripetizioni in tandem, e
puo’ essere classificato in:
• DNA satellite, soprattutto centromerico
• DNA minisatellite, generalmente situato ai
telomeri
• DNA microsatellite, disperso in tutti i cromosomi,
anche nelle regioni codificanti
Esiste invece una forte correlazione tra la complessità
biologica e la frazione di DNA non codificante proteine
sul totale del genoma (nc/tg)
Il DNA non codificante è quindi quella parte di genoma
che maggiormente varia al variare della complessità
INTRONI
UTRs
REGIONI
INTERGENICHE
Le regioni intergeniche possono regolare la funzione del
genoma in cis (promotori, enhancers, insulators, ecc) o in
trans, attraverso RNA non codificanti di varie classi
•Le proporzioni relative delle componenti del DNA
variano nei diversi genomi eucariotici
•Il contenuto assoluto di DNA non ripetitivo
aumenta con le dimensioni del genoma, ma
raggiunge un plateau a circa 2 x 109 bp.
La percentuale di DNA non ripetitivo tende a diminuire
con l'aumentare della grandezza del genoma
Organismo
Specie
Grandezza
del genoma
Complessità del
DNA non ripe titivo
Percentuale
batterio
E.coli
4.2 x 106
4.2 x 106
100
lievito
S.cerevisiae
1.3 x 107
1.3 x 107
100
verme
C.elegans
8.0 x 107
6.7 x 107
83
moscerino
D.melanogaster
1.4 x 108
1.0 x 108
70
riccio di mare
S.purpuratus
8.6 x 108
4.3 x 108
50
topo
M.musculus
2.7 x 109
1.5 x 109
58
rana
X.laevis
3.1 x 109
1.7 x 109
54
pianta superiore
N.tabacum
4.8 x 109
5.0 x 108
33
tritone
T.cristatus
2.2 x 1010
4.7 x 109
47
Organizzazione del genoma
•Quanti geni?
•Quali geni?
•Quanti geni indispensabili?
Quanti geni espressi?
•Circa 10 000 geni sono espressi in tutte le cellule
•Alcuni geni sono espressi solo in alcune cellule
Introni e esoni
•Esoni: sequenze rappresentate nell’RNA
maturo
•Introni: sequenze rimosse dal trascritto
primario
Introni
•Assenti nei procarioti (qualche eccezione)
•Pochi negli archeobatteri e nei lieviti
•Molti negli eucarioti complessi
Gene per il collagene 1a2 di pollo
DNA genomico e cDNA
Origine degli introni
•Antica: gli introni sono stati eliminati in
alcuni genomi
•Moderna: gli introni si sono inseriti in
alcuni genomi
Origine degli introni
Non si è ancora certi dell’origine di tutti gli introni, ma si portano tre spiegazioni che tuttavia non soddisfano l’intera massa
Alcuni introni sono “residui fossili” di virus (retrovirus) che hanno lasciato il loro patrimonio inserito
nelle cellule ospiti, le quali sono riuscite a evitarne la successiva trascrizione, rendendoli inattivi.
La riattivazione di alcuni di questi tratti virali, può indurre gravi malattie genetiche. (antica)
Alcuni sono la rimanenza di esoni che, a causa di gravi mutazioni, sono stati silenziati “volontariamente” dalla cellula.(antica)
Molti possono essere il risultato del processo di “exon shuffling”, tale teoria ipotizza che gli introni permettano
l'assemblaggio delle diverse unità funzionali di una proteinain nuove combinazioni evolutivamente vantaggiose
(ad esempio quando un certo genoma ha "imparato" la sequenza che codifica un sito ATPasico, lo inserisce
in altri geni che codificano proteine che necessitano di idrolizzare ATP per la loro funzione) (moderna)
L’idea che i geni siano stati assemblati per aggregazione
di esoni implica che gli introni fossero presenti nei geni
degli organismi primitivi.
La teoria esonica dei geni
Piccoli geni
Genoma
primordiale
I brevi geni dei primi genomi
probabilmente codificavano
proteine a singolo dominio
che, per produrre un enzima
attivo, dovevano associarsi
formando proteine a molte
subunità.
Più tardi la sintesi di questo
enzima può essere stata resa
più efficiente dall’unione dei
brevi geni, a formare un
gene discontinuo codificante
una singola subunità
proteica con molti domini.
Proteina con molte subunità
Singola subunità proteica
con molti domini
Singolo gene discontinuo
Ruolo degli introni nell’evoluzione
(teoria del “mescolamento degli esoni”)
Splicing alternativo
Famiglie geniche
Più della metà dei geni di lievito non sono
indispensabili
•Geni ridondanti (famiglie geniche)
•Funzioni accessorie
Le famiglie geniche si evolvono per duplicazione
di uno o più geni seguita da divergenza tra le
copie.
Alcune copie subiscono mutazioni inattivanti e
diventano pseudogeni
Famiglie geniche
• Famiglie geniche classiche (istoni, globine)
• Geni codificanti prodotti con domini altamente
conservati (Homeobox, Paired box, Forkhead, ecc.)
• Geni codificanti proteine contenenti corti motivi
conservati, correlati ad una comune funzione (DEAD
box, WD domain, ecc.).
• Superfamiglie (immunoglobuline, recettori G protein
coupled, ecc.) .
Famiglie geniche
• Raggruppate
Gruppo singolo (alfa-globine, geni GH)
Gruppi multipli (geni HOX, istoni)
• Disperse (geni PAX, NF1)
Organizzazione delle unità di ripetizione
dei geni per gli istoni in diverse specie
Famiglia dei geni della globina
nell’uomo e altri primati
Le emoglobine umane
SUBUNITA'
EMBRIONE
FETO
ADULTO
di tipo 



di tipo 

G, A
  
 2 2
(Gower 1)
22
(HbF)
22
(HbA)
tetrameri
22
(Gower 2)
 2 2
(Portland)
22
(HbA2)
Duplicazioni geniche nell’evoluzione della
famiglia genica delle globine umane
Il confronto delle sequenze nucleotidiche permette la deduzione
delle relazioni evolutive tra i geni delle globine
800 milioni di anni
500 milioni di anni
200 milioni di anni
100 milioni di anni
Mioglobina
2
2
-globine
1

40 milioni di anni
G
A
-globine
d

PSEUDOGENI
Pseudogeni = geni non funzionali
• copie difettive dell’intera sequenza di un gene
funzionale (o della sua porzione codificante)
• copie troncate, mancanti di porzioni al 5’, al 3’
• frammenti interni.
•Con introni
•Maturati
Pseudogeni non-processati
• Contengono tutte le regioni funzionali del gene
• Presentano codoni di stop inappropriati
• Originati per duplicazione genica o crossingover
ineguale
Pseudogeni processati
• Contengono solo le sequenze esoniche e una
sequenza oligo dA/dT
• Copiati dall’mRNA in cDNA e reintegrati nel
genoma
• Se sono espressi sono detti retrogeni
Origine degli pseudogeni
PROTEOMA