Lezione 4 Il sequenziamento del DNA, Sanger e il progetto genoma umano Stranneheim and Lundeberg 2012 Un po’ di storia • • • • • • 25 Aprile 1953 James D. Watson e Francis Crick pubblicano la struttura del DNA (Watson JD, Crick FHC "A Structure for Deoxyribose Nucleic Acid", Nature vol. 171, pp. 737-738; 1953) fondando il campo della genetica molecolare. Premio Nobel nel 1962. Metà degli anni 50: Arthur Kornberg inizia a studiare il meccanismo di replicazione del DNA. Nel 1957 identifica la prima DNA polimerasi. L’enzima copia in una sola direzione e richiede degli inneschi preesistenti (primer) per iniziare a copiare il filamento. Premio Nobel nel 1959. All’inizio degli anni 60 Gobind Khorana chiarisce molti aspetti del codice genetico. Successivamente inizia un progetto per la sintesi in vitro di un gene umano e in questi esperimenti getta le basi per l’utilizzo di oligonucleotidi sintetici (usati sia come blocchi per la costruzione del gene, sia come inneschi per la DNA polimerasi). 1968 Premio Nobel per il suo lavoro sul codice genetico. 1969 Thomas D. Brock isola un nuovo batterio dalle sorgenti calde dello Yellowstone National Park. Nel 1976 viene islata la DNA polimerasi di T. aquaticus (taq) in grado di mantenere la sua attività oltre i 75°C. 1975 Frederick Sanger sviluppa un metodo per determinare la sequenza del DNA. (Sanger F, Nicklen S, Coulson AR "DNA sequencing with chain-terminating inhibitors" Proc Natl Acad Sci vol. 74(12) pp. 5463-7; 1977). 1980: Premio Nobel. Nel 1980 tutti I componenti per fare un’ampplificazione con PCR sono conosciuti dalla comunità scientifica K. Mullis 50-68 °C Come disegnare i primers per una reazione di PCR Good primer design is essential for successful reactions. DENATURATION > ANNEALING > ELONGATION 1. Primer Length: It is generally accepted that the optimal length of PCR primers is 18-22 bp. This length is long enough for adequate specificity and short enough for primers to bind easily to the template at the annealing temperature. 5’ TTA AGA CTG AGA CAT CAA GCC 3’ 3’ 21 bp 5’ 3’ 5’ 2. Primer Melting Temperature (Tm): Tm: the temperature at which one half of the DNA duplex will dissociate to become single stranded and indicates the duplex stability. Primers with melting temperatures in the range of 52-58 °C generally produce the best results. The GC content of the sequence gives a fair indication of the primer Tm. A simple (too simple!) formula for calculation of the (Tm) is: Tm = 4(G + C) + 2(A + T) °C Attenzione! Non è la temperatura di annealing! Però è una sua stima..in genere Ta < Tm di qualche grado 4. GC Content: The GC content (the number of G's and C's in the primer as a percentage of the total bases) of primer should be 40-60% to ensure stable binding of primer/template. GC-rich regions of the target DNA are difficult to amplify, so these regions are generally avoided when choosing a target DNA sequence. The presence of G or C bases at the 3′ end of primers (GC clamp) helps to promote correct binding at the 3′ end due to the stronger hydrogen bonding of G and C bases. It is best to select primers with a random base distribution. 4. Try to avoid: Primer Secondary Structures (hairpin, self dimers , cross dimers) Repeats, for example: ATATATAT Long runs of a single base, for example AGCGGGGGATGGGG 5. Primer Pair Tm Mismatch Calculation: The two primers of a primer pair should have closely matched melting temperatures for maximizing PCR product yield. The difference of 5oC or more can lead no amplification. Software for primer design • Primer 3 – http://primer3.ut.ee/ • Oligonucleotide properties calculator – http://www.basic.northwestern.edu/biotools/olig ocalc.html • Primer BLAST ‒ http://www.ncbi.nlm.nih.gov/tools/primer-blast/ BLAST (NCBI) The Basic Local Alignment Search Tool (BLAST) finds regions of local similarity between sequences. The program compares nucleotide or protein sequences to sequence databases and calculates the statistical significance of matches. FASTA format In bioinformatics, FASTA format is a text-based format for representing either nucleotide sequences or peptide sequences, in which nucleotides or amino acids are represented using single-letter codes. The format also allows for sequence names and comments to precede the sequences. required Description (optional) >gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGF sequence Dal prodotto di PCR al sequenziamento di Sanger 94-96°C 50-68°C 68-72°C Dal prodotto di PCR al sequenziamento di Sanger Verifica dell’avvenuta reazione (e possibile quantificazione), ad esempio per elettroforesi su gel di agarosio Prodotto di reazione Marker (frammenti a lunghezza nota) Purificazione del prodotto di PCR: Esempio Exo/SAP (dobbiamo pulire da dNTPs e primers residui) Il sequenziamento di Sanger Elongation Strand Separation Primer Annealing Termination Termination Standard Nucleotides Dye-labeled dideoxynucleotides ddNTP incorporation leads to chain growth termination http://www.wiley.com/college/pratt/0471393878/student/animations/dna_sequencing/index.html Capillary Electrophoresis Capillary Tube Laser Photo cell http://www.wiley.com/college/pratt/0471393878/student/animations/dna_sequencing/index.html cromatogramma ABI 3730, 96-capillary Good quality Bad quality (background noise) Organizzare un progetto di sequenziamento su larga scala • • Top-down approach (Hierarchal Genome Shotgun) L’intero genoma viene prima frammentato, poi clonato in bacterial artificial chromosomes (BAC) e l’ordine dei frammenti viene stabilito PRIMA del sequenziamento (servono le mappe fisiche e genetiche) Shotgun Sequencing Il genoma viene frammentato e sequenziato, l’assemblaggio si fa da zero Mappe posizione di geni e/o marcatori nel genoma genetiche: · ottenute mediante incrocio o analisi dei pedigrees · basate sulle frequenze di ricombinazione fisiche: · ottenute con tecniche di biologia molecolare. · basate sulle distanze nucleotidiche Mappe genetiche Le mappe genetiche sono state determinate classicamente in base ai modelli di ereditarietà dei caratteri fenotipici In alcuni casi i geni per differenti caratteri non presentano assortimento indipendente ma sono associati, ovvero i loro alleli vengono coereditati (Linkage). Però in molti casi il linkage è incompleto, e durante la formazione dei gameti, grazie al crossing-over, può avvenire ricombinazione. Se consideriamo il cromosoma come una sequenza lineare di geni possiamo assegnare ad ogni gene una posizione sul cromosoma usando le frequenze di ricombinazione. Tre geni in linkage (colore del corpo (b), dimensione delle ali (vg) e un gene associato al colore degli occhi cinnabar (cn)) sono posizionati sulla base delle frequenze di ricombinaizone in “test cross”. Questa mappa si chiama linkage map perchè rappresenta la sequenza dei geni lungo I cromosomi, ma non ne dà una precisa localizzazione. Alfred Sturtevant at Caltech lab, 1950 L’unità di lunghezza della mappa genetica è il Morgan 1cM = 1% di ricombinazione NB: A, B e C non devono essere per forza geni, possono essere marcatori genetici (es. STR)! Marcatori genetici: caratteri mendeliani sufficientemente polimorfici da offrire una ragionevole probabilità di presentarsi in stato omozigote • Famiglie per studi di linkage gene-malattia • Mappaggio di caratteristiche quantitative (es. Genetica agraria) • Etc… marker Mappe fisiche Le mappe fisiche sono costituite da una serie di punti di riferimento di cui si conosce l'ordine e la distanza nel genoma, misurata in numero di basi. La mappa fisica più dettagliata è la sequenza completa, che definisce la distanza fisica sulla base dei nucleotidi, anche se esistono variabilità individuali dovute agli indel. Sequenziamento su larga scala: Top-down approach (Hierarchal Genome Shotgun) Prima si crea una library frammentando il genoma in pezzi da circa 150 Kb e clonandolo in vettori. Poi si organizzano i frammenti di DNA trovando i sovrapposti (minimi) e si mappano sui diversi cromosomi umani (NB: l’ordine dei frammenti viene stabilito PRIMA del sequenziamento). I cloni vengono spezzettati e sequenziati usando un approccio shotgun E alla fine assemblati Top-down approach (Hierarchal Genome Shotgun) Whole genome shotgun Il progetto genoma umano: pubblico e privato Cronologia • 1985 progettazione UCSC (University of California Santa Cruz) progetto pubblico • 1988 approvazione • 1990 inizio finanziamento per 15 anni Celera Genomics: 230 x ABI sequencer 3700 (96 capillaries each) • 1998 parte progetto Celera Genomics (progetto privato) • 2001 primo annuncio completamento • 2003 completamento (tasso di errore 1/10,000) Febbraio 2001 Il progetto genoma umano (1990-2003): 13 anni di finanziamenti pubblici All’inizio… Due principi chiave 1. I collaboratori di qualunque nazione e attraverso diversi approcci si uniscano in uno sforzo collettivo per capire il nostro patrimonio genetico: nacque così l’International Human Genome Sequencing Consortium (IHGSC) –fondi pubblici-. 2. Tutte le informazioni sul genoma devono essere libere e disponibili entro 24 ore dall’assemblaggio. Due obiettivi iniziali 1. Costriure mappe genetica e fisica de genoma umano e di topo 2. Sequenziare il genoma di lievito e di nematode come test Da una bozza (draft) alla versione definitiva Dopo il 2003 (completamento del draft) l’IHGSC inizia la fase successiva: la “rifinitura” Riempire i buchi (gaps) e risolvere le sequenze in aree ambigue. La fase di rifinitura portò al 99% del genoma umano in forma definitiva: 2.85 miliardi di nucleotidicon una previsione di errore di 1/100,000 basi sequenziate. Riduzione dei gaps di 400 volte (i rimanenti sono in regioni complesse). Riduzione della stima dei geni codificanti proteine tra 20,000 e 25,000. Sfide future: identificare i polimorfismi per gli studi delle patologie genetiche (progetti HapMap, 1000genomes), identificazione degli elementi funzionali (progetto ENCODE) …..