Lezione 4 Il sequenziamento del DNA, Sanger Schema della lezione • Polymerase chain reaction (PCR) • Dal prodotto di PCR al sequenziamento di Sanger • Lettura dei prodotti di sequenziamento con sequenziatori automatici a capillare • Dalle molecole ai files di dati: il “basecalling” e il formato FASTA Schema della lezione • Polymerase chain reaction (PCR) • Dal prodotto di PCR al sequenziamento di Sanger • Lettura dei prodotti di sequenziamento con sequenziatori automatici a capillare • Dalle molecole ai files di dati: il “basecalling” e il formato FASTA Polymerase chain reaction (PCR) qualche ora 25 Aprile 1953 James D. Watson e Francis Crick pubblicano la struttura del DNA (Watson JD, Crick FHC "A Structure for Deoxyribose Nucleic Acid", Nature vol. 171, pp. 737-738; 1953) fondando il campo della genetica molecolare. Premio Nobel nel 1962. 1953 Doppia elica Metà degli anni 50: Arthur Kornberg inizia a studiare il meccanismo di replicazione del DNA. Nel 1957 identifica la prima DNA polimerasi. L’enzima copia in una sola direzione e richiede degli inneschi preesistenti (primer) per iniziare a copiare il filamento. Premio Nobel nel 1959. 1953 Doppia elica 1957 Primi ‘60 Oligonucleoti DNApol Codice di sintetici genetico (primers) All’inizio degli anni 60 Gobind Khorana chiarisce molti aspetti del codice genetico. Successivamente inizia un progetto per la sintesi in vitro di un gene umano e in questi esperimenti getta le basi per l’utilizzo di oligonucleotidi sintetici (usati sia come blocchi per la costruzione del gene, sia come inneschi per la DNA polimerasi). 1968 Premio Nobel per il suo lavoro sul codice genetico. Biotechnology in Yellowstone • 1969 Thomas D. Brock isola un nuovo batterio dalle sorgenti calde dello Yellowstone National Park. Nel 1976 viene islata la DNA polimerasi di T. aquaticus (taq) in grado di mantenere la sua attività oltre i 75°C. 1953 Doppia elica • 1957 Primi ‘60 Oligonucleoti 1969 DNApol Codice di sintetici taq genetico (primers) 1975 Sanger sequencing 1975 Frederick Sanger sviluppa un metodo per determinare la sequenza del DNA. (Sanger F, Nicklen S, Coulson AR "DNA sequencing with chainterminating inhibitors" Proc Natl Acad Sci vol. 74(12) pp. 5463-7; 1977). 1980: Premio Nobel. Nel 1980 tutti i componenti per fare un’ampplificazione con PCR sono conosciuti dalla comunità scientifica K. Mullis 50-68 °C Come disegnare i primers per una reazione di PCR Good primer design is essential for successful reactions. DENATURATION > ANNEALING > ELONGATION 1. Primer Length: It is generally accepted that the optimal length of PCR primers is 18-22 bp. This length is long enough for adequate specificity and short enough for primers to bind easily to the template at the annealing temperature. 5’ TTA AGA CTG AGA CAT CAA GCC 3’ 3’ 21 bp 5’ 3’ 5’ 2. Primer Melting Temperature (Tm): Tm: the temperature at which one half of the DNA duplex will dissociate to become single stranded and indicates the duplex stability. Primers with melting temperatures in the range of 52-58 °C generally produce the best results. The GC content of the sequence gives a fair indication of the primer Tm. A simple (too simple!) formula for calculation of the (Tm) is: Tm = 4(G + C) + 2(A + T) °C Attenzione! Non è la temperatura di annealing! Però è una sua stima..in genere Ta < Tm di qualche grado 4. GC Content: The GC content (the number of G's and C's in the primer as a percentage of the total bases) of primer should be 40-60% to ensure stable binding of primer/template. GC-rich regions of the target DNA are difficult to amplify, so these regions are generally avoided when choosing a target DNA sequence. The presence of G or C bases at the 3′ end of primers (GC clamp) helps to promote correct binding at the 3′ end due to the stronger hydrogen bonding of G and C bases. It is best to select primers with a random base distribution. 4. Try to avoid: Primer Secondary Structures (hairpin, self dimers , cross dimers) Repeats, for example: ATATATAT Long runs of a single base, for example AGCGGGGGATGGGG 5. Primer Pair Tm Mismatch Calculation: The two primers of a primer pair should have closely matched melting temperatures for maximizing PCR product yield. The difference of 5oC or more can lead no amplification. Software for primer design • Primer 3 – http://primer3.ut.ee/ • Oligonucleotide properties calculator – http://www.basic.northwestern.edu/biotools/olig ocalc.html • Primer BLAST ‒ http://www.ncbi.nlm.nih.gov/tools/primer-blast/ Provo a disegnare dei primers per amplificare il gene dell’insulina (vedi lezione precedente) Voglio esportare gli esoni in formato FASTA Esone1 Esone2 Apro http://primer3.ut.ee/ Incollo qui la mia sequenza FASTA (un esone solo!) Chiedo al programma di disegnare un Primer left e uno right Right Left 5’ 3’ Reverse complement 5’ Right 3’ TGGCAGAAGGACAGTGATCT 3’ 5’ 3’ 5’ Schema della lezione • Polymerase chain reaction (PCR) • Dal prodotto di PCR al sequenziamento di Sanger • Lettura dei prodotti di sequenziamento con sequenziatori automatici a capillare • Dalle molecole ai files di dati: il “basecalling” e il formato FASTA Dal prodotto di PCR al sequenziamento di Sanger 94-96°C 50-68°C 68-72°C Dal prodotto di PCR al sequenziamento di Sanger Verifica dell’avvenuta reazione (e possibile quantificazione), ad esempio per elettroforesi su gel di agarosio Prodotto di reazione Marker (frammenti a lunghezza nota) Purificazione del prodotto di PCR: Esempio Exo/SAP (dobbiamo pulire da dNTPs e primers residui) Il sequenziamento di Sanger Elongation Strand Separation Primer Annealing Termination Termination Standard Nucleotides Dye-labeled dideoxynucleotides ddNTP incorporation leads to chain growth termination http://www.wiley.com/college/pratt/0471393878/student/animations/dna_sequencing/index.html Schema della lezione • Polymerase chain reaction (PCR) • Dal prodotto di PCR al sequenziamento di Sanger • Lettura dei prodotti di sequenziamento con sequenziatori automatici a capillare • Dalle molecole ai files di dati: il “basecalling” e il formato FASTA Capillary Electrophoresis ABI 3730, 96-capillary cromatogramma Un programma specifico opera il BASECALLING (converte i picchi in A, T, G, C) Schema della lezione • Polymerase chain reaction (PCR) • Dal prodotto di PCR al sequenziamento di Sanger • Lettura dei prodotti di sequenziamento con sequenziatori automatici a capillare • Dalle molecole ai files di dati: il “basecalling” e il formato FASTA Molto importante!!! Good quality I file prodotti dai sequenziatori automatici sono specifici e di solito hanno un’estensione .seq oppure .abi Bad quality (background noise) Apro il file .abi con un programma apposito che legge cromatogrammi (es. Chromas; BioEdit) Questi programmi hanno molte funzioni, quando sono soddisfatto delle mie correzioni posso esportare la sequenza in un formato di testo leggero e leggibile da molti altri programmi (es. programmi di allineamento): FORMATO FASTA Copy FASTA formatted Il segno > contraddistingue il FASTA ed è obbligatorio identifier of the sequence (optional) >XFUS0058 CGTTAGAGGGGACGATTTCTACGTGCCTATGT CCAATGCCACCGGCATTGTTAGGGACCCGTAC GAGTATCCCCAGTACTACCTGGTGGCCCCGTG GGCATACGCCTGCCTGGCAGCGTACATGTTCT TCCTCATTCTCACCGGCTTCCCCGTCAACTTC CTCACCCTGTACGTCACCATCGAGCACAAGAA GCTGCGTACGCCTCTCAACTACATTCTGCTGA ACCTCGCCATTTCCGACCTCTTCATGGTGTTC GGCGGGTTCACCACGACGATGTACACCTCGTT GCACGGCTACTTCGTGTTCGGACGCCTCGGCT GCAACCTGGAAGGCTTCTTCGCGACCCTGGGC sequenza GGTGAAATGGGGCTGTGGTCCCTGGTCGTGCT GGCCTTCGAGAGGTGGATGGTGGTCTGTAAGC CCGTGAGCAACTTCCGCTTCGGAGAGAACCAC GCCATCATGGGCGTGGCCTTCACCTGGGTCAT GGCCTGCTCCTGCGCCGTGCCTCCCCTGGTGG GCTGGTCCCGTTACATCCCCGAGGGCATGCAG TGCTCGTGCGGAGTCGACTACTACACCCGCGC CCCCGGCTACAACAACGAGTCCTTCGTCATCT ACATGTTCATCGTGCACTTCATCATTCCGCTC ATCGTCATATTCTTCTGCTACGGCCGTCTTGT