Genoma umano: 3.2 Gb

Applicazioni della Genetica
- La genomica strutturale (mappatura fisica e sequenza di genomi).
- La genomica funzionale (trascrittoma, insieme completo dei trascritti e proteoma,
l’intera gamma delle proteine codificate dal genoma).
-La genetica in medicina (sviluppo di test genetici, DNA fingerprinting).
- Produzione di sostanze di interesse farmacologico (insulina, interferone, ormone
della crescita, fattore dell’emocoagulazione VIII, antibiotici, vaccini).
- Uso di microrganismi ingegnerizzati per la degradazione di sostanze inquinanti
(erbicidi, pesticidi, fluidi frigoriferi, composti organici come xilene, toluene,
pentaclorofenolo).
- Il DNA ricombinante negli eucarioti (piante ed animali transgenici, terapia
genica).
CHE COS’E’ LA GENOMICA
“GENOM”
(Hans Winkler, Univ. Hamburg, 1920)
gen "gene" + (chromos)om "chromosome”
Si riferiva all’insieme dei cromosomi, intesi
come vettori dei fattori ereditari.
GENOMICA:
 Lo studio dei genomi, a partire dalla
determinazione delle sequenze
nucleotidiche del/dei cromosoma/i di un
organismo.
G-A-T-C
La Genomica puo’ essere suddivisa in:
- Strutturale
- Funzionale
DIMENSIONI DEI GENOMI
Archaea
Il paradosso del valore-C
Il DNA genomico totale (aploide) caratteristico di un organismo è detto valore-C
(C-value). Una relazione diretta tra contenuto di DNA e complessità dell’organismo si
riscontra fino ai nematodi.
In alcuni phyla evolutivi si hanno grosse variazioni del contenuto di DNA tra
organismi che mostrano la stessa complessità.
(1)
La Densità Genica: correla una
data lunghezza di DNA (kb) con il
numero di geni.
La DG decresce in funzione della
quantità di DNA non codificante e
ripetuto.
La DG è inferire negli eucarioti
rispetto ai batteri.
Negli eubatteri e negli
archaeobatteri si ha un gene ogni
circa 1-2 kb.
Negli eucarioti c’è una debole
tendenza all’aumento del C-value
e notevoli differenze della DG.
Moscerino della frutta, genona di
180 Mb ed un gene ogni 13 kb.
Lucusta, genoma di 5000 Mb ed
un gene ogni 365 kb.
I genomi di alcuni anfibi e felci sono 200 volte più grandi di quelli dell’uomo e del topo, mentre il lievito pur
essendo un eucariota ha una quantità di DNA (12 Mb) e una DG (~ 2) simile a quella di alcuni batteri.
Nell’uomo sono state trovate 80 regioni di 1 Mb prive di geni (deserti genici) pari al 25% dell’intero genoma.
(1) La DG è espressa come distanza media in kb tra 2 geni (dimensioni genoma/N. geni).
Il pesce palla presenta la particolarità di
avere un genoma piccolo (393 Mb) ma con
numerosi geni (circa 31000) di cui molti sono
omologhi con quelli umani.
Di conseguenza ha una DG molto elevata
(un gene ogni 13 kb). Pur essendo un
eucariota il pesce palla presenta pochi
introni e di piccole dimensioni.
OBIETTIVI ALLA PARTENZA DEI PROGETTI GENOMA
- Costruire delle mappe genetiche e fisiche
- Determinare la sequenza della basi del DNA
- Identificare tutti i geni, e le sequenze regolative
- Caratterizzare le sequenze di DNA non codificante
- Individuare le basi molecolari dei processi biochimici cellulari e
delle differenze esistenti tra i vari organismi
La quantità di dati ottenuta richiede l’utilizzo di algoritmi e di
computer in grado assemblare, organizzare ed infine analizzare
tutte le informazioni disponibili. Tali dati dovranno essere resi
disponibili alla comunità scientifica.
Mappa genetica di E. coli
effettuata per coniugazione
Aumento delle sequenze depositate (GeBank,
EBi, DBJL) dal 1985 al 2006
Le prime molecole di acidi nucleici ad essere sequenziate
furono RNA
- Nel 1966 un tRNA
- Nel 1976 alcuni RNA del batteriofago MS2
PRIMI ORGANISMI AD ESSERE SEQUENZIATI – I VIRUS
Sanger, F., Air, G.M., Barrell, B.G., Brown, N.L., Coulson, A.R., Fiddes, C.A.,
Hutchison, C.A., Slocombe, P.M. and Smith, M.
Nucleotide sequence of bacteriophage PhiX174 DNA. (1977) Nature, 265, 687695.
 ΦX174 è stato il primo virus di E. coli caratterizzato a
livello di sequenza nucleotidica.
Il suo genoma è costituito da un a singolo filamento di DNA
circolare (ssDNA) di 5386 nucleotidi. Molti geni di ΦX174
sono sovrapposti (vengono usati differenti moduli di lettura).
I primers erano ottenuti purificando frammenti di restrizione
del DNA fagico ed il lavoro si prolungò per circa 2 anni.
Fiers, W. et al. (1978) Complete nucleotide sequence of SV40 DNA.
Nature, vol.273: 113-20.
SV40
 SV40 è un virus in grado di infettare cellule
eucariotiche.
Il suo genoma è costituito da DNA a doppio filamento
(dsDNA), ed è composto di 5243 nucleotidi.
 Il genoma del
batteriofago lambda è
costituito da 48502 bp.
Può essere presente nelle
forme lineare o circolare.
J.Mol.Biol. (1982) 162, 729-773
Shotgun sequencing
- degradazione parziale del
DNA mediante sonicazione
-clonaggio in derivati del
batteriofago M13
- “hybridization probes” per
selezionare i cloni su piastra
(colony blot) necessari a
coprire i gap tra i frammenti di
DNA.
Dal 1995 inizia l’analisi dei genomi su
grande scala
Haemophilus influenzae
Dimensioni del genoma: 1,83 Mb
Sonicazione del DNA
N° cloni selezionati :
Science (1995) 269; 496-512
19687
N° reazioni di sequenza eseguite:
28643
N° coppie di basi di sequenza ottenute: 11 X 106
N° di contigs analizzati:
140 (150 Kb ognuno)
N° di ore necessarie per elaborare i dati ed assemblare la
sequenza preliminare:
30
“Coverage” del genoma:
P= probabilità,
150 Kb
6X
m = copertura
P=e-m P=2,73-6= 99,75% del DNA è stato sequenziato
Le regioni contenenti dei “gap” sono state unite utilizzando
due strategie:
-“library” in λ, contenenti frammenti più grandi (15–20 kb)
degli originali  5 kb.
-PCR con coppie di primers dedotte dai 140 contigs.
5 Kb
Architettura del genoma
(1,8x106 bp) del batterio
Haemophilus influenzae
cloni seq.
term
ori
Sono riportati dall’esterno verso l’interno: siti di restrizione; geni distinti in gruppi funzionali (legenda); regioni ad
alto contenuto di G-C (rosso e blu); regioni ad alto contenuto di A-T (nero e verde); sovrapposizione dei cloni
usati per il sequenziamento; operoni per rRNA (verde) e tRNA (nero); origine di replicazione (frecce verdi) e siti
di terminazione (rosso).
Il DNA del H. influenzae contiene 1737 geni (87% del genoma) di cui 469 sono geni sconosciuti e
le eventuali proteine sintetizzate non hanno corrispondenza con proteine presenti nelle banche
dati.
Tra il 1995 ed il 1997 è stata
determinata la sequenza dell’intero
genoma dei seguenti microrganismi:
Haemophilus influenzae
Micoplasma genitalium
Saccharomyces cerevisiae
Methanococcus jannaschii
Escherichia coli
 Genoma di Escherichia coli
.
.
contains 4 639 221 bp for a total
of 4288 genes (87,8% of the
genome)
Generaltà su alcuni genomi
Methanococcus jannashii è un archeobatterio che vive a 85°C. Possiede un cromosoma circolare di 1.665
Mb (1682 geni) e 2 plasmidi: uno piccolo 16550 bp (12 geni) e uno grande 58407 (44 geni). Molti geni della
replicazione del DNA, della trascrizione e della traduzione sono simili a quelli eucariotici.
Saccharomyces cerevisiae ha 16 cromosomi (~12 Mb) portanti 6607 geni di cui solo 233 presentano introni.
Drosophila melanogaster ha un genoma di ~1.8 Mb di cui 60 Mb formato da DNA altamente ripetuto e non
sequenziabile. Sono stati trovati molti geni omologhi con l’uomo ed in particolare con malattie umane.
Cenorhabdits elegans è un nematode di circa 1 mmm. Ha un genoma di 100,3 Mb con 20443 geni per
proteine e 1270 per diversi RNA. Il numero dei geni è comparabile a quello umano.
Arabidopsis thaliana possiede un genoma di 120 Mb con un numero di geni (25900) simile a quello
dell’uomo. Sono stati trovati molti geni omologhi con l’uomo ed in particolare con malattie umane.
Oryza sativa possiede un genoma piccolo (389 Mb) con un numero molto elevato di geni (56000) superiore a
quello umano.
Mus musculus possiede un genoma molto simile a quello dell’uomo (2700 Mb) con i suoi 22000 geni per
proteine e 3200 geni che codificano per diversi tipi di RNA (rRNA, tRNA, snRNA e microRNA).
Canis familiaris possiede un genoma di 2500 Mb con 15000 geni codificanti proteine e 2500 geni per RNA. I
cani come i topi presentano gran parte dei geni umani. Importanza della selezione artificiale e lo studio di
quelle razze che costituiscono modelli naturali per centinaia di malattie dell’uomo.
Il Progetto Genoma (HGP)
Agli inizi degli anni 90’ la comunità scientifica si propose di sequenziare l’intero genoma umano,
3.2x109 nucleotidi (equivalente a 2000 libri da 500 pagine ognuno), entro i primi anni del terzo
millennio.
Viste le dimensioni del genoma, ai maggiori centri di ricerca, finanziati con grants pubblici
(Consorzio Pubblico coordinato da Francis Collins) vennero assegnate specifiche regioni di
cromosomi o cromosomi interi. Sei sono i paesi che hanno coordinato il lavoro e contribuito
maggiormente alla realizzazione di questo progetto.
Il 70% della sequenza è stata ottenuta da un solo campione (donatore anonimo e sorteggiato)
mentre il restante da diversi individui sempre anonimi.
I Principi delle Bermude (1996): rilascio dei data di sequenza nelle banche pubbliche entro 24 ore
dal loro assemblaggio.
Negli anni 90’ erano comunque disponibili un gran numero di sequenze di cDNA.
Stati Uniti
55-60 %
Gran Bretagna
33 %
Giappone
10 %
Francia
2,5 %
Germania
1,5 %
Cina
1%
Sequenze di DNA di 500-1000 basi, reads,
vengono allineate utilizzando le regioni condivise
(overlapping sequences) tra differenti frammenti.
Per genomi come quello umano è necessario procedere con un fattore di ridondanza pari a 8-10. Il numero
di reads se poste testa-coda, dovrebbe coprire 10 volte il frammento di DNA da sequenziare.
Sub-clonaggio e sequenziamento
Strategia adottata dal consorzio
pubblico
(sequenziamento clone per clone)
Il consorzio pubblico ha proceduto
sequenziando grossi frammenti di DNA la cui
posizione era stata previamente identificata
sulla mappa.
Grossi frammenti di DNA clonati in YAC, BAC
o PAC vengono subclonati in vettori adatti al
sequenziamento.
La working draft consiste di circa 20.000
gruppi (contigs) di 20-30 frammenti di DNA di
5-6 kb ognuno. Il costo della prima fase
(working draft) è stato di circa 300 milioni di
dollari.
Gli obiettivi della seconda fase erano:
a) ordinare ed orientare i frammenti di
ognuno dei 20.000 gruppi;
b) riempire i gaps.
Basso n° di copie (1-2/cellula)
Elevata capacità: 150 -300 kb
Il costo finale per il completamento del
progetto genoma dovrebbe essere di circa
600 milioni di dollari. Pubblicazione 2004.
Strategia adottata dalla Celera Genomics
IL progetto pubblico
prevedeva il sequenziamento di
grossi frammenti di DNA che
sono stati ordinati sulla mappa
(dato che è nota la posizione, la
sequenza è subito utilizzabile).
La Celera Genomics ha
effettuato il sequenziamento del
genoma umano seguendo una
Global Shotgun Strategy.
Questa strategia necessita di
una enorme quantità di dati per
iniziare il processo di
assemblaggio (27 milioni di
frammenti da 500-600 basi per
un totale di 30-35 miliardi di basi
sequenziate che assicura una
copertura del genoma di 10
volte). La Celera aveva
sperimentato con successo
questa procedura nel
sequenziamento del genoma di
Drosofila (la mappa pubblicata
seppur incompleta risulta di
ottima qualità).
2 kb
10 kb
50-100 kb
contig
I cloni sono stati ottenuti da 3 librerie composte da frammenti di
differente lunghezza (2 Kb, 10 Kb e 50-100 Kb). Ogni inserto è
sequenziato da entrambe le estremità con un sequenziatore
automatico che può leggere 500 basi. Dopo subclonaggio in
pUC gli inserti portati nei BAC furono sequenziati
fondamentalmente a caso. Le sequenze sono state ottenute da
cinque individui appartenenti a differenti gruppi etnici.
I laboratori per il sequenziamento di geni alla Celera Genomics diretta da Craig Venter
(Rockville-Maryland )
Sono visibili
alcuni dei 300
sequenziatori
automatici di
DNA utilizzati
per la determinazione della
sequenza dei
genomi.
Assemblaggio di contigs mediante siti di sequenze-etichette (STS)
Gli STS (sequence-tagged sites) sono sequenze uniche (100-300 bp) rivelabili mediante PCR con
una specifica coppia di primers. Una classe di STS molto usata è i microsatelliti. Anche se
inizialmente le posizioni genomiche di questi siti non sono note, si può costruire un quadro
composto da molti STS ed utilizzarlo per allineare i contigs, cloni portanti grossi inserti in YAC, o in
BAC o in PAC. Per realizzare una mappa fisica completa ad alta risoluzione del genoma umano
occorrono almeno 30.000 STS.
Procedura utilizzata per realizzare l’assemblaggio delle
sequenze di un genoma (Whole-Genome-Assembly)
10 - 100 Kbp
0.5-1.0 Kbp
Contigs: tratti di sequenza assemblati senza discontinuità (cloni sovrapposti).
Scaffolds: serie di due o più contigs uniti da lunghi inserti, le cui estremità sono in diversi
contigs ma di cui non si conosce la regione centrale. Assemblaggio di contigs viene effettuato
identificando ed allineando i siti di sequenze-etichette (STS)
Confronto delle due strategie adottate per il
sequenziamento del genoma umano
Le strategie seguite dal Consorzio Pubblico (sequenziamento clone per clone e dalla Celera
Genomics (sequenziamento shotgun) sono diverse e allo stesso tempo complementari.
C. Venter
F. Collins
La Celera Genomics ha potuto allineare i differenti scaffolds sia avvalendosi dei
dati ottenuti dal consorzio pubblico sia mediante l’uso dei siti di sequenzeetichetta STS (ibrido tra shotgun puro e strategia di mappatura-sequenziamento).
Risultati
Genoma umano: 3.2 Gb
La mappa 2004 contiene 2.85 Gb corrispondente al
90% del genoma.
L’ errore è del 0.001% e la sequenza ottenuta
presenta 341 interruzioni (DNA altamente ripetuto o
Z-DNA). Pubblicazione su Nature.
Le interruzioni sono state ridotte a 200 nel 2009.
Meno del ~2 % del genoma sono esoni.
Al momento abbiamo circa 21500 geni codificanti
proteine e 4800 geni codificanti RNA (rRNA, tRNA,
snRNA e microRNA Il numero di geni stimato era 3235000.
23% è costituito da introni.
75% è DNA intergenico.
Identificati circa 3 milioni di Single Nucleotide
Polymorphisms (SNPs). Pubblicazione su Nature nel
2005 e 2007.
Circa 1% di questi SNPs può avere un impatto su
funzioni proteiche.
Nel 2007-08 inizia l’era del sequenziamento genomico personalizzato. I primi 2 DNA sequenziati sono stati
quelli di J. Watson e C. Venter. Sequenziamento di 1000 individui appartenenti a diversi gruppi etnici.
Mappa genica umana
Le regioni in rosso indicano porzioni dei cromosomi ad
alta densità genica (ad esempio i cromosomi 15, 16,
17, 19, 20 e 22).
Altri cromosomi come 4, 18, X e Y mostrano una
colorazione rossa molto debole e sono poveri di geni.
Funzione
sconosciute
Dati cromosoma 22
Un cromosoma ha una lunghezza media di ~150 Mb. La sequenza del cromosoma 22
(braccio lungo) è nota per il 97% (margine errore 1:50,000).
Interruzioni tra i diversi contigs si hanno nelle regioni centromeriche e telomeriche
(eterocromatina).
Pur essendo uno dei cromosomi a più alta densità genica, le regioni codificanti occupano
solo una piccola frazione del cromosoma 22.
Sono stati identificati 679 geni: 247 geni noti, 150 geni correlati le cui sequenze sono
omologhe a geni noti umani o di altre specie, 148 predetti, 134 pseudo-geni che a causa di
mutazioni non sono espressi).
Presenza di numerosi geni ortologhi (uomo-topo).
Barre rosse  sequenze ripetute
Barre blu
 sequenze corrispondenti ad esoni
► Circa 850,000 Long Interspersed Elements LINES (6-8 kb elementi completi, 1-2 kb elementi tronchi)
pari al 21% dell’intero genoma.
► Circa 1,5 milioni di copie di Short Interspersed Elements SINES (100-300 bp) pari al 13% dell’intero
genoma. LINES e SINES sono dei retrotrasposoni.
► Retrovirus-trasposoni-simili (450,000 copie, 8% del DNA totale).
Meccanismo che porta alla
► Trasposoni 300,000 copie (3% dell’intero genoma).
formazione di uno pseudo-gene
La proteina p40 (ORF1) è una chaperonina.
La ORF2 specifica per una proteina che ha attività
sia di endonucleasi che di trascrittasi inversa.
La endonucleasi taglia il DNA nelle regioni ricche
in AT, in particolare nella sequenza TTTT↓A.
La trascrittasi inversa spesso non procede fino
all’estremità 5’ dell’RNA formando elementi
tronchi e quindi inattivi.
Il macchinario molecolare dei LINES è
responsabile della retrotrasposizione dei SINES
e della formazione di pseudo-geni.
DNA Microarrays
High density gridder
In the past, scientists analyzed the expression of a single
or a couple of genes involved in a particular biological
pathway.
Nowadays, with the availability of the complete genome
sequence of many organisms, our view of analyzing gene
expression has changed. These mountains of information
generated by the systematic sequencing of entire genomes
have forced scientists to look for new tools to allow them
a global view for tracking the expression of many genes
at once. The first differential expression measurements of
45 Arabidopsis thaliana genes was made in Patrick O.
Brown laboratory (Science, vol.270, 1995).
In general, DNA Array production begins with the design of gene-specific
primers, needed to amplify, by PCR, every open reading frame of the
genome. Alternatively synthetic oligonucleotides specific for every gene are
synthesized. DNA is spotted onto different surfaces.
 as many as 10.000 genes per
cm square are spotted (nylon
membranes or glass slides).
The DNA is fixed by U.V.
crosslinking.
 Ø of a single spot = 75 m
A certain sequence is found in a genome every 4n bases.
When n=16, 4n is greater then 3,2x109 bp so a 16 nt
oligonucleotide is unique in human genome.
The surface of the array is covered with
thousands, tens of thousands, (or soon
with hundreds of thousands) of spots,
each spot containing a different DNA
oligomer (different genes).
Each oligomer in a DNA microarray
can serve as a probe to detect a
unique, complementary DNA or RNA
molecule.
The use of DNA microarrays in differential gene expression analysis
Comparative hybridization experiment
involves isolation of messenger RNA
(mRNA) from two separate samples
(A). The mRNA from each sample is
treated with reverse transcriptase (B)
and labelled with a distinct fluorescent
tag (C). The two pools of labelled RNA
are mixed, hybridised to the DNA
microarray containing a full set of
thousands or tens of thousands of DNA
sequences based on genome or
complimentary DNA (cDNA)
sequences, and washed (D). The
microarray array is scanned using a
specialised fluorimager, and the colour
of each spot is determined (E). In this
example, genes expressed only in
sample A would be red in colour, genes
expressed only in sample B
would be green and those genes expressed equally in both samples would be yellow. This allows
researchers to determine genes that are specifically expressed: 1) in response to specific treatment or
disease; 2) under stress conditions or different growth conditions; 3) tissue-specific genes that are
expressed in one tissue, but not in other; 4) analysis of different genetic background (wt and mutants).
The transcriptional program in response of human fibroblasts to serum
(Brown’s experiment - analysis of 8600 genes)
1
2
3
Red spots (n. 2 and 4) = genes activated in the presence of serum
Green spots (n. 3) = genes activated in absence of serum
Yellow spots (n. 1) = genes expressed both in the presence and in the absence of serum
(1, 2 and 3, triplicate experiments)
Differential gene expression following heat-shock in E.coli cells. Two E.coli gene arrays were probed
with [33P]-labeled cDNA from cells grown at 30°C (control sample) or cells induced at 42°C for 40
minutes (heat-shock sample). The above phosphorimages were obtained following an overnight exposure
to imaging plates.
Cell grown at 30°C
Cell grown at 42°C
H. pylori, B. subtilis and E. coli
gene arrays (a pair of membranes)
cost about 3, 4 and 21 million of
lire, respectively.
Affimetrix Scanner
Espressione di geni eucariotici in cellule batteriche
Iperproduzione del fattore
della coagulazione VIII
(emofilia)
Iperproduzione del insulina
umana
Le catene A e B
dell’insulina sono
sintetizzate come
proteina di fusione
con la b-Gal
1)
2)
3)
4)
Il cromosoma di una cellula di E. coli
ingegnerizzata contiene il gene della
RNA polimerasi di T7 sotto il controllo
del promotore lac.
Induzione del promotore lac mediante
IPTG.
Sintesi della RNA polimerasi di T7.
La RNA polimerasi di T7 trascrive il
gene clonato a valle del promotore
tardivo di T7 sul vettore di espressione
(Serie pET).
Sintesi di prodotti commerciali – L’enzima di restrizione PstI
Strategia adottata per la clonazione e la
selezione del gene per l’endonucleasi di
restrizione PstI
1. Digestione del DNA cromosomiale di
Providencia stuartii con HindIII.
• Creazione di una genoteca di P. stuatii in E. coli
HB101.
• I trasformanti sono stati coltivati in mezzo
liquido e successivamente infettati con l.
• Selezione delle cellule resistenti all’azione litica
del batteriofago. L’enzima PstI espresso degrada il
DNA di l.
• I cloni resistenti alla lisi ad opera di lambda sono
stati sottoposti ad shock osmotico per liberare le
proteine periplasmatiche ed analizzati per l’attività
enzimatica di restrizione PstI.
All’interno di un frammento di 4 Kb i cloni
positivi contenevano l’operone intatto
dell’endonucleasi di restrizione PstI e della
metilasi compreso in promotore di P. stuartii.
Il livello di PstI espresso in E. coli è circa 10 volte
superiore a quello tipico di P. stuartii.
La produzione di mammiferi geneticamente identici (cloni).
‘Dolly’ è stata generata impiantando il nucleo tratto da una cellula di mammella di una pecora di razza
Finn Dorset nell’uovo enucleato di una femmina Scottish Blackface. In questo modo è stato dimostrato
che in cellule altamente differenziate di mammiferi adulti il nucleo è ancora totipotente.