Human Genome Nuclear Genome 3000 Mb About 21000 genes Mitochondrial Genome (0.0005%) 16.6 kb 37 genes 2 rRNA genes 22 tRNA genes 13 polypeptide encoding genes Il paradosso del valore C Il paradosso del valore K Il paradosso del valore N Paradosso del valore C: la complessità dell’organismo non correla con il contenuto di DNA del genoma. 3.4 X 109 bp Homo sapiens 1010 bp 1.5 x Allium cepa 6.8 x 1011 bp Amoeba dubia Il contenuto di DNA è commensurato alla complessità biologica di un organismo? plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles birds mammals 104 105 106 107 108 109 1010 1011 Dato un certo raggruppamento tassonomico, solo la dimensione minima del genoma è approssimativamente proporzionale alla complessità dell’organismo La dimensione Procarioti 500 Funghi 2000 Mammiferi 20000 minima verosimilmente rappresenta il contenuto minimo di informazione Paradosso del valore K: la complessità non correla con il numero di cromosomi Homo sapiens: 46 46 Lysandra atlantica: 250 Ophioglossum reticulatum : 1260 circa Chromosome number n Paradosso del valore N: Il numero di geni e la complessità degli organismi non sono correlati ~60000 geni ~21000 geni ~25000 geni Complessità dello sviluppo e dimensioni in coppie di basi del genoma Organismo Complessità dello sviluppo Genoma Mb Numero geni Geni/106 basi Data sequenzia mento Batterio 1 cellula pro 4.64 4200 905 1997 Lievito 1 cellula eu 12 5800 483 1996 Verme 1000 cell 100 20000 197 1998 Moscerino 50000 cellule 180 13000 117 2000 Topo 1011 3200 25000 10-13 2002 Uomo 1014 3200 25000 18 2002 il numero di geni aumenta con l’aumentare delle dimensioni del genoma ? eucarioti Gene number Genome size (Mb) 100000 10000 1000 100 10 1 human mouse chicken Numero di geni xenopus zebrafish fugu ciona fly worm Grandezza del genoma yeast La porzione non codificante dei genomi eucariotici coding 100 90 80 70 60 50 40 30 20 10 0 non coding NON CODING NON CODING NON CODING NON CODING E.coli S.cerevisiae C.elegans Human 4.7 Mb 12.1 Mb 100 Mb 3000 Mb 13 Geni/Kb DNA DISPERSIONE GENICA Batterio Gene Gene Gene Gene Gene Gene Gene Gene Gene Gene Gene Gene Gene Lievito 20 kb 13 geni 0.65/Kb 20 kb Gene Gene Gene Gene Gene Gene Gene Gene Gene Gene Gene 11 geni 0.55/Kb Drosofila Gene Gene Gene Gene Gene Gene Gene Gene 200 kb 8 geni 0.04/Kb Uomo Gene Gene Gene 200 kb 3 geni 0.015/Kb Genome size and organism complexity L’aumento assoluto della dimensione del genoma corrisponde ad una diminuzione relativa della sua parte codificante Aumento assoluto e relativo nel numero e dimensioni del DNA intronico Aumento assoluto e lieve aumento relativo del DNA intergenico La complessità del genoma è tanto più elevata quanto maggiore è il numero di sequenze differenti Più complesso è un genoma maggiore è lo sforzo, in termini di lavoro e risorse, da impiegare per definirne il contenuto informativo Cinetiche di rinaturazione Rinaturazione o curva “Cot” per un DNA ideale a sequenze uniche Asse delle ordinate: % di DNA a singolo filamento Asse delle ascisse: log del prodotto della concentrazione del DNA (C0) e del tempo. L’andamento della curva Cot è funzione di due fattori: • le dimensioni del genoma. Se paragoniamo genomi di diverse dimensioni a parità di concentrazione di DNA il numero di sequenze uniche sarà inferiore per il genoma di maggiore dimensioneC0 = 12 pg (1 pg = 10-9 g) 1 genoma batterico = 0,004 pg copie del genoma in 12 pg = 3000 1 genoma eucariotico = 3 pg copie del genoma in 12 pg = 4 • la presenza e quantità di DNA ripetuto. Se paragoniamo uguali concentrazioni di genomi di identiche dimensioni. Le sequenze ripetute riassoceranno più rapidamente. Human Genome Le cinetiche di riassociazione sul genoma umano suggerivano l’esistenza di sequenze uniche e famiglie di sequenze più o meno ripetute Nuclear Genome 30% 70% Genes and gene-related sequences Extragenic DNA 80% 10% 90% Coding Introns untraslated sequences Non coding 90% gene fragments INDEL Unique or low copy number Tandemly Pseudogenes repeated o clustered 20% Moderate, highly repetitive Interspersed repeats Le famiglie geniche classiche esibiscono un elevato grado di omologia spesso lungo l’intera sequenza del gene. Identificazione delle famiglie geniche per omologia Saggi di ibridazione del DNA Saggi di PCR Sequenziamento Origine delle famiglie geniche Duplicazione ed evoluzione divergente (proteine identiche accumulano mutazioni che le adattano a funzioni differenti es: mioglobina ed emoglobine) Appaiamento scorretto e crossing over Evoluzione convergente (proteine differenti che svolgono funzioni simili finiscono per assomigliarsi es: miosine e chinesine ) The end