Lezione 2

Il sequenziamento del genoma umano
1. storia e risultati dei due progetti: HGP e Celera.
2. innovazioni e problematiche di ricerca connesse al
progetto genoma umano: (a) sequenziamento su larga
scala (b) polimorfismi vs errori di sequenziamento (c) DNA
ripetuto (d) Genome assembly
3. Mappe genetiche
4. Mappe fisiche: (a)mappe di restrizione (b) mappe FISH
(c) le mappe di STS e l’integrazione delle mappe genetiche
con quelle fisiche
5. Il sequenziamento di singoli genomi: Venter e Watson
Cronologia
• 1985 progettazione UCSC (University of California Santa
Cruz) progetto pubblico
• 1988 approvazione
• 1990 inizio → finanziamento per 15 anni
• 1998 parte progetto Celera Genomics progetto privato
• 2001 primo annuncio completamento
• 2003 completamento (tasso di errore 1/10,000)
La Rivoluzione dello Human Genome Project
(HGP)
– Assenza di ipotesi “a priori”
– Multidisciplinarità
– Accesso illimitato ai dati
– ELSI Ethical Legal and Social Implications
Obbiettivi dello HGP
• Produzione di mappe fisiche e mappe genetiche
• Sequenza completa del genoma
• Identificazione e localizzazione dei geni
• Identificazione e localizzazione dei polimorfismi
Risultati
• first draft of the human genome in February
2001
– sequence of the entire genome's three billion
base pairs some 90 percent complete.
– number of human genes significantly fewer
than previous estimates (50,000 - 140,000)
• Full sequence completed and published in April
2003
Gli obbiettivi sono stati raggiunti e superati
The announcement
June 26, 2000
Celera (Craig Venter) vs. HGP (Francis Collins)
2001
Venter CJ et al. The sequence of the
human genome. Science. 2001 Feb
16;291(5507):1304-51
Lander E et al. Initial sequencing and
analysis of the human genome. Nature.
2001 Feb 15;409(6822):860-921
polemiche
Myers EW, Sutton GG, Smith HO, Adams MD, Venter JC. On the sequencing and assembly of the
human genome.Proc Natl Acad Sci U S A. 2002 Apr;99(7):4145-6.
Waterston RH, Lander ES, Sulston JE.On the sequencing of the human genome.Proc Natl Acad Sci U
S A. 2002 Mar 19;99(6):3712-6.
Sito web
• http://www.genome.gov/10001772
Il sequenziamento del genoma umano
2. innovazioni e problematiche di ricerca connesse al
progetto genoma umano:
(a) sequenziamento su larga scala
(b) polimorfismi vs errori di sequenziamento
(c) Genome assembly
(d) DNA ripetuto
2. innovazioni e problematiche
a. È possibile sequenziare al max 600 bp
consecutive mentre il cromosoma più piccolo
(cromosoma 21) è lungo 46,944,323 bp…
b. Errori di sequenziamento o polimorfismi?
c. sequence assembly
d. Tratti di sequenze ripetute
e. DNA non clonabile
a. sequenziamento su larga scala
(a) Top-down (hierarchical)
– Un singolo cromosoma viene spezzettato in larghi pezzi (cloni) che
vengono clonati in vettori artificiali.I cloni vengono ordinati e ciascuno
viene ulteriormente suddiviso in altri cloni ordinati. Quando i cloni
raggiungono dimensioni appropiate vengono sequenziati
– Ogni clone è “fingerprinted” (pattern di restrizione o STSs)
– Il risultato è una mappa fisica di cloni ordinati e delle loro rispettive
sequenze.
– La sequenza finale è ottenuta allineando le sequenze dei singoli cloni
a. sequenziamento su larga scala
(b) Bottom-up (shotgun)
– Il DNA viene spezzettato in modo random in
numerosi frammenti di dimesioni sequenziabili. Le
sequenze si chiamano reads
– Questa procedura viene ripetuta più volte per
ottenere reads parzialmente sovrapposte
– La sequenza finale viene ottenuta assemblando al
calcolatore le diverse reads
nessuna conoscenza a priori, nessuna mappa richiesta
Green ED. Strategies for the systematic sequencing of complex genomes.Nat Rev Genet. 2001
Aug;2(8):573-83. Review.
2. innovazioni e problematiche
a. È possibile sequenziare al max 600 bp
consecutive mentre il cromosoma più piccolo
(cromosoma 21) è lungo 46,944,323 bp…
b. Errori di sequenziamento o polimorfismi?
c. sequence assembly
d. Tratti di sequenze ripetute
e. DNA non clonabile
b. errori o polimorfismi?
Polimorfismi:
due sequenze differiscono in media di 1 base ogni 100
Errori:
nella versione finale della sequenza del genoma umano è
presente 1 errore ogni 10,000 basi
Read Coverage
Average number of times a base is sequenced
C
Length of genomic segment: L
Number of reads:
n
Length of each read:
l
C=
nl
L
Lander-Waterman model:
Assuming uniform distribution of reads,
C=10 results in 1 gapped region per 1,000,000 nucleotides
Lander ES, Waterman MS Genomic mapping by fingerprinting random clones: a mathematical
analysis, Genomics 2(3): 231-239 (1988)
2. innovazioni e problematiche
a. È possibile sequenziare al max 600 bp
consecutive mentre il cromosoma più piccolo
(cromosoma 21) è lungo 46,944,323 bp…
b. Errori di sequenziamento o polimorfismi?
c. sequence assembly
d. Tratti di sequenze ripetute
e. DNA non clonabile
Step in assembling the genome
• Given a set of (short) fragments from
sequencing...
– find overlap between all pairs
– find the order of reads in DNA
– determine a consensus sequence
Contig
continuous set of overlapping sequences
Gap
Contigs
Overlap-Layout-Consensus
1. Overlap: find potentially overlapping reads
2. Layout: merge reads into contigs and
contigs into supercontings
3. Consensus: derive the DNA
sequence and correct read errors
Assemblers:
..ACGATTACAATAGGTT..
ARACHNE, PHRAP, CAP, TIGR, CELERA
Filling in gaps
Contig
Probe
libraries
Gap
Contig
Contig
Gap
Fragment Assembly
Assembly was Computational Challenging
Until late 1990s the shotgun fragment
assembly of human genome was viewed
as intractable problem
2. innovazioni e problematiche
a. È possibile sequenziare al max 600 bp
consecutive mentre il cromosoma più piccolo
(cromosoma 21) è lungo 46,944,323 bp…
b. Errori di sequenziamento o polimorfismi?
c. sequence assembly
d. Tratti di sequenze ripetute
e. DNA non clonabile
d. sequenze ripetute
Repeat Types
Low-Complexity DNA:
(e.g. ATATATATACATA…)
Microsatellite repeats: (a1…ak)N where k ~ 3-6 (e.g. CAGCAGCAGCAG)
Transposons/retrotransposons
SINE (Short Interspersed Nuclear Elements): e.g., Alu: ~300 bp long, 106
copies
Long Interspersed Nuclear Elements ~500 - 5,000 bp long, 200,000 copies
LTR retroposons: Long Terminal Repeats (~700 bp) at each end
Gene Families: genes duplicate & then diverge
Segmental duplications: ~very long, very similar copies
Challenges in Fragment Assembly
> 50% of human genome are repeats
Repeat
Repeat
Repeat
La sequenza verde-rosso-azzurro può
essere assemblata in due modi diversi
Repeat
Repeat
Repeat
oppure
Repeat
Repeat
Repeat
Paired-end reads help to resolve repeat order
Raw sequence obtained from both ends of a
cloned insert in any vector
Repeat
Repeat
Repeat
BAC
Il sequenziamento del genoma umano
3. Mappe genetiche
4. Mappe fisiche:
(a)mappe di restrizione
(b) mappe FISH
(c) le mappe di STS e l’integrazione delle mappe genetiche
con quelle fisiche
Genetic marker
•
segment of DNA with an identifiable physical
location on a chromosome and whose inheritance
can be followed.
•
can be a gene, or it can be some section of DNA
with no known function.
•
when is in linkage with a gene whose location has
not yet been identified, markers could be used as
indirect ways of tracking the inheritance pattern of
that gene
http://www.genome.gov/glossary.cfm?key=genetic%20marker
Genetic marker
•
•
genetic markers properties:
– locus-specific
– polymorphic in the studied population
– easily genotyped
The quality of a genetic marker is typically
measured by its:
– Heterozygosity in the population of interest
– PIC (Botstein et al., 1980): Polymorphism
Information Content (probability that the parent is
heterozygous x probability that the offspring is
informative)
http://cgil.uoguelph.ca/QTL/GeneticMarkerDefinition.htm
mappe
posizione di geni e/o marcatori nel genoma
genetiche:
· ottenute mediante incrocio o analisi dei pedigrees
· basate sulle frequenze di ricombinazione
fisiche:
· ottenute con tecniche di biologia molecolare.
· basate sulle distanze nucleotidiche
Mappe genetiche
• le prime costruite in Drosophila all’inizio del secolo
• geni usati come marcatori (marcatori utilizzabili
devono avere almeno 2 forme alleliche)
• utilizzati prima fenotipi morfologici, poi biochimici
(nell’uomo AB0, proteine del siero, antigeni HLA,
malattie)
Morgan (Sturtevant, 1930)
il crossing-over è un evento casuale, che avviene
con (circa) uguale probabilità in ogni punto del
cromosoma
più due punti del cromosoma sono vicini, meno è
frequente il crossing-over tra loro, ovvero più sono
in linkage
la frequenza di ricombinazione può esser presa a
misura della distanza tra due geni
combinando le distanze tra diverse coppie di geni,
si può costruire una mappa genetica della loro
posizione relativa sul cromosoma
In pratica: mappe di linkage
Sistemi:
- organismi modello → incroci pianificati
- uomo → pedigrees
Marcatori:
- Geni, RFLPs, SSLPs, SNPs
→ difficili da realizzare : tempi lunghi per gli incroci
pianificati, pedigree non sempre sufficientemente
grandi, fenotipi difficili da misurare
→ oggi integrate nella costruzione delle mappe
fisiche
mappe fisiche
• mappe di restrizione:
indicano i siti di taglio degli enzimi di restrizione
rapide e dettagliate, ma inapplicabili a genomi grandi
• FISH:
la posizione dei marcatori è determinata ibridando sonde fluorescenti sui
cromosomi interi
poco accurata, ma lenta e tecnicamente difficile
• mappe STS:
la posizione dei marcatori è determinata grazie a tecniche
di PCR e/o di analisi di ibridazione di frammenti
genomici
mappe di restrizione
singole digestioni del DNA, unite a doppie digestioni e a digestioni
parziali, permettono la ricostruzione della posizione relativa di
tutti i siti di restrizione
Lunghezza
Probabilità di trovare il
sequenza
sito di restrizione
palindromica
4
(1/4)4 = 1 ogni 256 bp
5
(1/4)5 = 1 ogni 1024 bp
6
6
(1/4) = 1 ogni 4096 bp
8
8
(1/4) = 1 ogni 65.536 bp
n
(1/4)n
mappe di restrizione
Il risultato è mappa
con le posizioni dei
siti di restrizione
mappe FISH
FISH = Fluorescent In Situ Hybridization
la posizione dei marcatori è determinata ibridando sonde
fluorescenti sui cromosomi interi (metafasici o anche
meno condensati)
Mappe (FISH)
Il principio delle mappe
FISH è l’ibridazione con
sonde fuorescenti
stringenza
La parametro più
importante dell’ibridazione
è la stringenza.
È regolata da temperatura
e forza ionica
Stringenza
• alta stringenza richiede elevata omologia tra sonda e
bersaglio
– elevata Temperatura
– bassa concenrtrazione salina
– presenza di denaturanti chimici
• bassa stringenza è sufficiente bassa omologia tra sonda
e bersaglio
– bassa Temperatura
– elevata [ ] salina
– assenza di denaturanti chimici
Problema con sequenze ripetute
Mappe STS:
la mappa fisica del genoma umano secondo HGP
a. Creazione di librerie PAC e BAC
b. Mappaggio dei cloni
c. fingerprinting dei cloni mediante STS
d. Clone selection
e. Clone sequencing
f.
Contig assembly
YAC: yeast artificial chromosome
Vettori di clonaggio che permettono l’inserimento di DNA >200 Kb
inizialmente basati su mini crosmosomi di lievito (YAC)
instabili
Sito di clonaggio
N S
Telomeri
Marcatore
di
inserimento
Marcatori fenotipici
standard YACs
special YACs
fino a 600 kb
fino a 1400 kb
centromero
Altri vettori
•batteriofago P1: può contenere fino a 125 kb
•BACs: basati sul plasmide F di E.coli; fino a > 300 kb
•PACs: commistione tra P1 e BAC; fino a > 300 kb
•Fosmidi: contengono ori di F e cos di ; simili a cosmidi ma +
stabili
Libraries
YAC library
Library hybridization
Marked
probes
YAC library
hybridization
*
*
STSs: Sequence Tagged Sites
• sequenze brevi (100-500 bp)
• Facilmente amplificabile per PCR
• Unica nel genoma
• Localizzazione genomica nota
Identifica inequivocabilmente la molecola di
DNA più grande che lo contiene
STS-like
• ESTs (Expressed Sequence Tags): corte
sequenze derivanti dall’analisi di cDNA
• SSLPs (Simple Sequence Lenght
Polymorphisms)
− Microsatelliti (STRs, Short Tandem Repeats)
− Minisatelliti (VNTRs, Variable Number
Tandem Repeats)
STS mapping
STS vicini
STS lontani
cromosoma
collezione di
frammenti
4 volte su 6
2 volte su 6
nello stesso
frammento
nello stesso
frammento
La frequenza con cui sono sullo stesso frammento è
propozionale alla distanza
(a) clone libraries
amplification
Cromosome
from donors
pool of large number
of anonymous males
and females
fragmentation
cloning
BAC
(b) clone maps
Determinazione della posizione dei cloni rispetto al
cromosoma sulla base dei (pochi) STSs esistenti
exsisting
maps of STS
clone libraries
(c) fingerprinting
Identificazione di nuovi STSs che permetteranno di
collegare tra loro i cloni
exsisting maps of
STS
new STSs
Clone_1
Clone_2
Clone_13
(d) Clone selection
minimal tiling path collezione di cloni che permette di
coprire la regione con il minor grado di sovrapposizione
Clone_6
Clone_1
Clone_17
Clone_16
Clone_4
Clone_13
Clone_10
(e) Clone sequencing
Clone_1
Clone_4
Clone_6
Clone_10
Clone_13
Clone_16
Shotgun secuencing
Contig assembly
Contig_1
Contig_4
Clone_17
(f) Contig assembly
Contig_1
Contig_4
Contig_6
Contig_10
Contig_17
Contig_13
Contig_16
http://www.ncbi.nlm.nih.gov/Genomes/
Il sequenziamento del genoma umano
5. Il sequenziamento di singoli genomi: Venter e Watson