Il genoma dimensioni ed organizzazione

Human Genome
Nuclear Genome
3000 Mb
About 21000 genes
Mitochondrial
Genome (0.0005%)
16.6 kb
37 genes
2 rRNA genes
22 tRNA genes
13 polypeptide encoding
genes
Il paradosso del valore C
Il paradosso del valore K
Il paradosso del valore N
Paradosso del valore C: la complessità
dell’organismo non correla con il contenuto
di DNA del genoma.
3.4 X 109 bp
Homo sapiens
1010 bp
1.5 x
Allium cepa
6.8 x 1011 bp
Amoeba dubia
Il contenuto di DNA è commensurato alla complessità
biologica di un organismo?
plasmids
viruses
bacteria
fungi
plants
algae
insects
mollusks
bony fish
amphibians
reptiles
birds
mammals
104
105
106
107
108
109
1010
1011
Dato
un
certo
raggruppamento
tassonomico, solo la dimensione minima
del genoma è approssimativamente
proporzionale
alla
complessità
dell’organismo
La dimensione
Procarioti 500
Funghi
2000
Mammiferi 20000
minima
verosimilmente
rappresenta il
contenuto
minimo di
informazione
Paradosso del valore K: la complessità non
correla con il numero di cromosomi
Homo sapiens: 46
46
Lysandra atlantica: 250
Ophioglossum
reticulatum : 1260
circa
Chromosome number
n
Paradosso del valore N: Il numero di geni
e la complessità degli organismi non
sono correlati
~60000 geni
~21000 geni
~25000 geni
Complessità dello sviluppo e dimensioni in coppie di basi
del genoma
Organismo
Complessità
dello sviluppo
Genoma
Mb
Numero
geni
Geni/106
basi
Data
sequenzia
mento
Batterio
1 cellula pro
4.64
4200
905
1997
Lievito
1 cellula eu
12
5800
483
1996
Verme
1000 cell
100
20000
197
1998
Moscerino
50000
cellule
180
13000
117
2000
Topo
1011
3200
25000
10-13
2002
Uomo
1014
3200
25000
18
2002
il numero di geni aumenta con l’aumentare delle dimensioni del genoma ?
eucarioti
Gene number
Genome size (Mb)
100000
10000
1000
100
10
1
human
mouse
chicken
Numero di geni
xenopus
zebrafish
fugu
ciona
fly
worm
Grandezza del genoma
yeast
La porzione non codificante dei genomi eucariotici
coding
100
90
80
70
60
50
40
30
20
10
0
non coding
NON
CODING
NON
CODING
NON
CODING
NON
CODING
E.coli
S.cerevisiae
C.elegans
Human
4.7 Mb
12.1 Mb
100 Mb
3000 Mb
13
Geni/Kb
DNA
DISPERSIONE GENICA
Batterio
Gene
Gene Gene Gene
Gene
Gene Gene Gene Gene Gene Gene Gene Gene
Lievito
20 kb
13 geni
0.65/Kb
20 kb
Gene
Gene Gene
Gene
Gene Gene
Gene
Gene Gene Gene Gene
11 geni
0.55/Kb
Drosofila
Gene
Gene
Gene
Gene
Gene
Gene
Gene
Gene
200 kb
8 geni
0.04/Kb
Uomo
Gene
Gene
Gene
200 kb
3 geni
0.015/Kb
Genome size and organism complexity
L’aumento assoluto della dimensione del genoma
corrisponde ad una diminuzione relativa della sua
parte codificante
Aumento assoluto e relativo nel numero e
dimensioni del DNA intronico
Aumento assoluto e lieve aumento relativo del
DNA intergenico
La complessità del genoma è
tanto più elevata quanto
maggiore è il numero di
sequenze differenti
Più complesso è un genoma
maggiore è lo sforzo, in
termini di lavoro e risorse, da
impiegare per definirne il
contenuto informativo
Cinetiche di rinaturazione
Rinaturazione o curva “Cot” per un DNA ideale a sequenze
uniche
Asse delle ordinate: % di DNA a singolo filamento
Asse delle ascisse: log del prodotto della concentrazione del DNA (C0) e
del tempo.
L’andamento della curva Cot è funzione di due fattori:
• le dimensioni del genoma. Se paragoniamo genomi di diverse dimensioni a
parità di concentrazione di DNA il numero di sequenze uniche sarà inferiore per il
genoma di maggiore dimensioneC0 = 12 pg (1 pg = 10-9 g)
1 genoma batterico = 0,004 pg
copie del genoma in 12 pg = 3000
1 genoma eucariotico = 3 pg
copie del genoma in 12 pg = 4
• la presenza e quantità di DNA ripetuto. Se paragoniamo uguali concentrazioni
di genomi di identiche dimensioni. Le sequenze ripetute riassoceranno più
rapidamente.
Human Genome
Le cinetiche di riassociazione
sul genoma umano
suggerivano l’esistenza di
sequenze uniche e famiglie di
sequenze più o meno ripetute
Nuclear
Genome
30%
70%
Genes
and gene-related
sequences
Extragenic DNA
80%
10%
90%
Coding
Introns
untraslated sequences
Non coding
90%
gene
fragments
INDEL
Unique or
low copy
number
Tandemly
Pseudogenes
repeated o
clustered
20%
Moderate,
highly
repetitive
Interspersed
repeats
Le famiglie geniche classiche esibiscono
un elevato grado di omologia spesso lungo
l’intera sequenza del gene.
Identificazione delle famiglie
geniche per omologia
Saggi di ibridazione del DNA
Saggi di PCR
Sequenziamento
Origine delle famiglie geniche
Duplicazione ed evoluzione
divergente (proteine identiche accumulano mutazioni che le
adattano a funzioni differenti es: mioglobina ed emoglobine)
Appaiamento scorretto e crossing
over
Evoluzione convergente (proteine
differenti che svolgono funzioni simili finiscono per assomigliarsi es:
miosine e chinesine
)
The end