sequenza del DNA

Lezione 4
Il sequenziamento del DNA,
Sanger e il progetto genoma
umano
Stranneheim and Lundeberg 2012
Un po’ di storia
•
•
•
•
•
•
25 Aprile 1953 James D. Watson e Francis Crick pubblicano la struttura del DNA
(Watson JD, Crick FHC "A Structure for Deoxyribose Nucleic Acid", Nature vol. 171, pp.
737-738; 1953) fondando il campo della genetica molecolare. Premio Nobel nel 1962.
Metà degli anni 50: Arthur Kornberg inizia a studiare il meccanismo di replicazione del
DNA. Nel 1957 identifica la prima DNA polimerasi. L’enzima copia in una sola direzione
e richiede degli inneschi preesistenti (primer) per iniziare a copiare il
filamento. Premio Nobel nel 1959.
All’inizio degli anni 60 Gobind Khorana chiarisce molti aspetti del codice genetico.
Successivamente inizia un progetto per la sintesi in vitro di un gene umano e in questi
esperimenti getta le basi per l’utilizzo di oligonucleotidi sintetici (usati sia come blocchi
per la costruzione del gene, sia come inneschi per la DNA polimerasi). 1968 Premio
Nobel per il suo lavoro sul codice genetico.
1969 Thomas D. Brock isola un nuovo batterio dalle sorgenti calde dello Yellowstone
National Park. Nel 1976 viene islata la DNA polimerasi di T. aquaticus (taq) in grado di
mantenere la sua attività oltre i 75°C.
1975 Frederick Sanger sviluppa un metodo per determinare la sequenza del DNA.
(Sanger F, Nicklen S, Coulson AR "DNA sequencing with chain-terminating inhibitors"
Proc Natl Acad Sci vol. 74(12) pp. 5463-7; 1977). 1980: Premio Nobel.
Nel 1980 tutti I componenti per fare un’ampplificazione con PCR sono conosciuti dalla
comunità scientifica
K. Mullis
50-68 °C
Come disegnare i primers per una reazione di PCR
Good primer design is essential for successful reactions.
DENATURATION > ANNEALING > ELONGATION
1. Primer Length: It is generally accepted that the optimal
length of PCR primers is 18-22 bp. This length is long enough
for adequate specificity and short enough for primers to bind
easily to the template at the annealing temperature.
5’ TTA AGA CTG AGA CAT CAA GCC 3’
3’
21 bp
5’
3’
5’
2. Primer Melting Temperature (Tm):
Tm: the temperature at which one half of the DNA duplex will
dissociate to become single stranded and indicates the duplex
stability.
Primers with melting temperatures in the range of 52-58 °C
generally produce the best results.
The GC content of the sequence gives a fair indication of the
primer Tm.
A simple (too simple!) formula for calculation of the (Tm) is:
Tm = 4(G + C) + 2(A + T) °C
Attenzione! Non è la temperatura di annealing! Però è una sua
stima..in genere Ta < Tm di qualche grado
4. GC Content: The GC content (the number of G's and C's in the
primer as a percentage of the total bases) of primer should be
40-60% to ensure stable binding of primer/template.
GC-rich regions of the target DNA are difficult to amplify, so
these regions are generally avoided when choosing a target DNA
sequence. The presence of G or C bases at the 3′ end of primers
(GC clamp) helps to promote correct binding at the 3′ end due to
the stronger hydrogen bonding of G and C bases. It is best to
select primers with a random base distribution.
4. Try to avoid:
Primer Secondary Structures (hairpin, self dimers , cross dimers)
Repeats, for example: ATATATAT
Long runs of a single base, for example AGCGGGGGATGGGG
5. Primer Pair Tm Mismatch Calculation: The two primers of a
primer pair should have closely matched melting temperatures
for maximizing PCR product yield. The difference of 5oC or more
can lead no amplification.
Software for primer design
• Primer 3
– http://primer3.ut.ee/
• Oligonucleotide properties calculator
– http://www.basic.northwestern.edu/biotools/olig
ocalc.html
• Primer BLAST
‒ http://www.ncbi.nlm.nih.gov/tools/primer-blast/
BLAST (NCBI)
The Basic Local Alignment Search Tool (BLAST) finds regions of local
similarity between sequences.
The program compares nucleotide or protein sequences to
sequence databases and calculates the statistical significance of
matches.
FASTA format
In bioinformatics, FASTA format is a text-based format for representing either
nucleotide sequences or peptide sequences, in which nucleotides or amino
acids are represented using single-letter codes. The format also allows for
sequence names and comments to precede the sequences.
required
Description (optional)
>gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGF
sequence
Dal prodotto di PCR al sequenziamento di Sanger
94-96°C
50-68°C
68-72°C
Dal prodotto di PCR al sequenziamento di Sanger
Verifica dell’avvenuta reazione (e possibile quantificazione), ad esempio
per elettroforesi su gel di agarosio
Prodotto di reazione
Marker (frammenti a lunghezza nota)
Purificazione del prodotto di PCR:
Esempio Exo/SAP (dobbiamo pulire da
dNTPs e primers residui)
Il sequenziamento di Sanger
Elongation
Strand
Separation
Primer Annealing
Termination
Termination
Standard Nucleotides
Dye-labeled
dideoxynucleotides
ddNTP incorporation
leads to chain growth
termination
http://www.wiley.com/college/pratt/0471393878/student/animations/dna_sequencing/index.html
Capillary Electrophoresis
Capillary
Tube
Laser
Photo
cell
http://www.wiley.com/college/pratt/0471393878/student/animations/dna_sequencing/index.html
cromatogramma
ABI 3730, 96-capillary
Good quality
Bad quality (background noise)
Organizzare un progetto di
sequenziamento su larga scala
•
•
Top-down approach (Hierarchal Genome Shotgun)
L’intero genoma viene prima frammentato, poi
clonato in bacterial artificial chromosomes (BAC) e
l’ordine dei frammenti viene stabilito PRIMA del
sequenziamento (servono le mappe fisiche e genetiche)
Shotgun Sequencing
Il genoma viene frammentato e sequenziato,
l’assemblaggio si fa da zero
Mappe
posizione di geni e/o marcatori nel genoma
genetiche:
· ottenute mediante incrocio o analisi dei pedigrees
· basate sulle frequenze di ricombinazione
fisiche:
· ottenute con tecniche di biologia molecolare.
· basate sulle distanze nucleotidiche
Mappe genetiche
Le mappe genetiche sono state determinate classicamente in base ai modelli di ereditarietà
dei caratteri fenotipici
In alcuni casi i geni per differenti caratteri non presentano assortimento indipendente ma
sono associati, ovvero i loro alleli vengono coereditati (Linkage). Però in molti casi il
linkage è incompleto, e durante la formazione dei gameti, grazie al crossing-over, può
avvenire ricombinazione.
Se consideriamo il cromosoma come una
sequenza lineare di geni possiamo
assegnare ad ogni gene una posizione sul
cromosoma usando le frequenze di
ricombinazione.
Tre geni in linkage (colore del corpo (b),
dimensione delle ali (vg) e un gene
associato al colore degli occhi cinnabar
(cn)) sono posizionati sulla base delle
frequenze di ricombinaizone in “test
cross”. Questa mappa si chiama linkage
map perchè rappresenta la sequenza dei
geni lungo I cromosomi, ma non ne dà
una precisa localizzazione.
Alfred Sturtevant at Caltech lab, 1950
L’unità di lunghezza della mappa
genetica è il Morgan
1cM = 1% di ricombinazione
NB: A, B e C non devono essere per
forza geni, possono essere marcatori
genetici (es. STR)!
Marcatori genetici: caratteri mendeliani sufficientemente
polimorfici da offrire una ragionevole probabilità di presentarsi
in stato omozigote
• Famiglie per studi di linkage gene-malattia
• Mappaggio di caratteristiche quantitative (es. Genetica
agraria)
• Etc…
marker
Mappe fisiche
Le mappe fisiche sono costituite da una serie di punti di
riferimento di cui si conosce l'ordine e la distanza nel
genoma, misurata in numero di basi.
La mappa fisica più dettagliata è la sequenza completa, che
definisce la distanza fisica sulla base dei nucleotidi, anche se
esistono variabilità individuali dovute agli indel.
Sequenziamento su larga scala:
Top-down approach (Hierarchal Genome Shotgun)
Prima si crea una library
frammentando il genoma in
pezzi da circa 150 Kb e
clonandolo in vettori.
Poi si organizzano i frammenti
di DNA trovando i sovrapposti
(minimi) e si mappano sui
diversi cromosomi umani
(NB: l’ordine dei frammenti
viene stabilito PRIMA del
sequenziamento).
I cloni vengono spezzettati e
sequenziati usando un
approccio shotgun
E alla fine assemblati
Top-down approach
(Hierarchal Genome Shotgun)
Whole genome shotgun
Il progetto genoma umano: pubblico e privato
Cronologia
•
1985 progettazione UCSC (University of California Santa Cruz)
progetto pubblico
• 1988 approvazione
• 1990 inizio finanziamento per 15 anni
Celera Genomics: 230 x ABI sequencer
3700 (96 capillaries each)
• 1998 parte progetto Celera Genomics (progetto privato)
• 2001 primo annuncio completamento
• 2003 completamento (tasso di errore 1/10,000)
Febbraio 2001
Il progetto genoma umano (1990-2003):
13 anni di finanziamenti pubblici
All’inizio…
Due principi chiave
1. I collaboratori di qualunque nazione e attraverso diversi approcci si
uniscano in uno sforzo collettivo per capire il nostro patrimonio
genetico: nacque così l’International Human Genome Sequencing
Consortium (IHGSC) –fondi pubblici-.
2. Tutte le informazioni sul genoma devono essere libere e
disponibili entro 24 ore dall’assemblaggio.
Due obiettivi iniziali
1. Costriure mappe genetica e fisica de genoma umano e di topo
2. Sequenziare il genoma di lievito e di nematode come test
Da una bozza (draft) alla versione definitiva
Dopo il 2003 (completamento del draft) l’IHGSC inizia la fase
successiva: la “rifinitura”
Riempire i buchi (gaps) e risolvere le sequenze in aree ambigue.
La fase di rifinitura portò al 99% del genoma umano in forma definitiva: 2.85
miliardi di nucleotidicon una previsione di errore di 1/100,000 basi
sequenziate.
Riduzione dei gaps di 400 volte (i rimanenti sono in regioni complesse).
Riduzione della stima dei geni codificanti proteine tra 20,000 e 25,000.
Sfide future: identificare i polimorfismi per gli studi delle
patologie genetiche (progetti HapMap, 1000genomes),
identificazione degli elementi funzionali (progetto ENCODE) …..