Il sequenziamento del genoma umano 1. storia e risultati dei due progetti: HGP e Celera. 2. innovazioni e problematiche di ricerca connesse al progetto genoma umano: (a) sequenziamento su larga scala (b) polimorfismi vs errori di sequenziamento (c) DNA ripetuto (d) Genome assembly 3. Mappe genetiche 4. Mappe fisiche: (a)mappe di restrizione (b) mappe FISH (c) le mappe di STS e l’integrazione delle mappe genetiche con quelle fisiche 5. Il sequenziamento di singoli genomi: Venter e Watson Cronologia • 1985 progettazione UCSC (University of California Santa Cruz) progetto pubblico • 1988 approvazione • 1990 inizio → finanziamento per 15 anni • 1998 parte progetto Celera Genomics progetto privato • 2001 primo annuncio completamento • 2003 completamento (tasso di errore 1/10,000) La Rivoluzione dello Human Genome Project (HGP) – Assenza di ipotesi “a priori” – Multidisciplinarità – Accesso illimitato ai dati – ELSI Ethical Legal and Social Implications Obbiettivi dello HGP • Produzione di mappe fisiche e mappe genetiche • Sequenza completa del genoma • Identificazione e localizzazione dei geni • Identificazione e localizzazione dei polimorfismi Risultati • first draft of the human genome in February 2001 – sequence of the entire genome's three billion base pairs some 90 percent complete. – number of human genes significantly fewer than previous estimates (50,000 - 140,000) • Full sequence completed and published in April 2003 Gli obbiettivi sono stati raggiunti e superati The announcement June 26, 2000 Celera (Craig Venter) vs. HGP (Francis Collins) 2001 Venter CJ et al. The sequence of the human genome. Science. 2001 Feb 16;291(5507):1304-51 Lander E et al. Initial sequencing and analysis of the human genome. Nature. 2001 Feb 15;409(6822):860-921 polemiche Myers EW, Sutton GG, Smith HO, Adams MD, Venter JC. On the sequencing and assembly of the human genome.Proc Natl Acad Sci U S A. 2002 Apr;99(7):4145-6. Waterston RH, Lander ES, Sulston JE.On the sequencing of the human genome.Proc Natl Acad Sci U S A. 2002 Mar 19;99(6):3712-6. Sito web • http://www.genome.gov/10001772 Il sequenziamento del genoma umano 2. innovazioni e problematiche di ricerca connesse al progetto genoma umano: (a) sequenziamento su larga scala (b) polimorfismi vs errori di sequenziamento (c) Genome assembly (d) DNA ripetuto 2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp… b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile a. sequenziamento su larga scala (a) Top-down (hierarchical) – Un singolo cromosoma viene spezzettato in larghi pezzi (cloni) che vengono clonati in vettori artificiali.I cloni vengono ordinati e ciascuno viene ulteriormente suddiviso in altri cloni ordinati. Quando i cloni raggiungono dimensioni appropiate vengono sequenziati – Ogni clone è “fingerprinted” (pattern di restrizione o STSs) – Il risultato è una mappa fisica di cloni ordinati e delle loro rispettive sequenze. – La sequenza finale è ottenuta allineando le sequenze dei singoli cloni a. sequenziamento su larga scala (b) Bottom-up (shotgun) – Il DNA viene spezzettato in modo random in numerosi frammenti di dimesioni sequenziabili. Le sequenze si chiamano reads – Questa procedura viene ripetuta più volte per ottenere reads parzialmente sovrapposte – La sequenza finale viene ottenuta assemblando al calcolatore le diverse reads nessuna conoscenza a priori, nessuna mappa richiesta Green ED. Strategies for the systematic sequencing of complex genomes.Nat Rev Genet. 2001 Aug;2(8):573-83. Review. 2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp… b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile b. errori o polimorfismi? Polimorfismi: due sequenze differiscono in media di 1 base ogni 100 Errori: nella versione finale della sequenza del genoma umano è presente 1 errore ogni 10,000 basi Read Coverage Average number of times a base is sequenced C Length of genomic segment: L Number of reads: n Length of each read: l C= nl L Lander-Waterman model: Assuming uniform distribution of reads, C=10 results in 1 gapped region per 1,000,000 nucleotides Lander ES, Waterman MS Genomic mapping by fingerprinting random clones: a mathematical analysis, Genomics 2(3): 231-239 (1988) 2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp… b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile Step in assembling the genome • Given a set of (short) fragments from sequencing... – find overlap between all pairs – find the order of reads in DNA – determine a consensus sequence Contig continuous set of overlapping sequences Gap Contigs Overlap-Layout-Consensus 1. Overlap: find potentially overlapping reads 2. Layout: merge reads into contigs and contigs into supercontings 3. Consensus: derive the DNA sequence and correct read errors Assemblers: ..ACGATTACAATAGGTT.. ARACHNE, PHRAP, CAP, TIGR, CELERA Filling in gaps Contig Probe libraries Gap Contig Contig Gap Fragment Assembly Assembly was Computational Challenging Until late 1990s the shotgun fragment assembly of human genome was viewed as intractable problem 2. innovazioni e problematiche a. È possibile sequenziare al max 600 bp consecutive mentre il cromosoma più piccolo (cromosoma 21) è lungo 46,944,323 bp… b. Errori di sequenziamento o polimorfismi? c. sequence assembly d. Tratti di sequenze ripetute e. DNA non clonabile d. sequenze ripetute Repeat Types Low-Complexity DNA: (e.g. ATATATATACATA…) Microsatellite repeats: (a1…ak)N where k ~ 3-6 (e.g. CAGCAGCAGCAG) Transposons/retrotransposons SINE (Short Interspersed Nuclear Elements): e.g., Alu: ~300 bp long, 106 copies Long Interspersed Nuclear Elements ~500 - 5,000 bp long, 200,000 copies LTR retroposons: Long Terminal Repeats (~700 bp) at each end Gene Families: genes duplicate & then diverge Segmental duplications: ~very long, very similar copies Challenges in Fragment Assembly > 50% of human genome are repeats Repeat Repeat Repeat La sequenza verde-rosso-azzurro può essere assemblata in due modi diversi Repeat Repeat Repeat oppure Repeat Repeat Repeat Paired-end reads help to resolve repeat order Raw sequence obtained from both ends of a cloned insert in any vector Repeat Repeat Repeat BAC Il sequenziamento del genoma umano 3. Mappe genetiche 4. Mappe fisiche: (a)mappe di restrizione (b) mappe FISH (c) le mappe di STS e l’integrazione delle mappe genetiche con quelle fisiche Genetic marker • segment of DNA with an identifiable physical location on a chromosome and whose inheritance can be followed. • can be a gene, or it can be some section of DNA with no known function. • when is in linkage with a gene whose location has not yet been identified, markers could be used as indirect ways of tracking the inheritance pattern of that gene http://www.genome.gov/glossary.cfm?key=genetic%20marker Genetic marker • • genetic markers properties: – locus-specific – polymorphic in the studied population – easily genotyped The quality of a genetic marker is typically measured by its: – Heterozygosity in the population of interest – PIC (Botstein et al., 1980): Polymorphism Information Content (probability that the parent is heterozygous x probability that the offspring is informative) http://cgil.uoguelph.ca/QTL/GeneticMarkerDefinition.htm mappe posizione di geni e/o marcatori nel genoma genetiche: · ottenute mediante incrocio o analisi dei pedigrees · basate sulle frequenze di ricombinazione fisiche: · ottenute con tecniche di biologia molecolare. · basate sulle distanze nucleotidiche Mappe genetiche • le prime costruite in Drosophila all’inizio del secolo • geni usati come marcatori (marcatori utilizzabili devono avere almeno 2 forme alleliche) • utilizzati prima fenotipi morfologici, poi biochimici (nell’uomo AB0, proteine del siero, antigeni HLA, malattie) Morgan (Sturtevant, 1930) il crossing-over è un evento casuale, che avviene con (circa) uguale probabilità in ogni punto del cromosoma più due punti del cromosoma sono vicini, meno è frequente il crossing-over tra loro, ovvero più sono in linkage la frequenza di ricombinazione può esser presa a misura della distanza tra due geni combinando le distanze tra diverse coppie di geni, si può costruire una mappa genetica della loro posizione relativa sul cromosoma In pratica: mappe di linkage Sistemi: - organismi modello → incroci pianificati - uomo → pedigrees Marcatori: - Geni, RFLPs, SSLPs, SNPs → difficili da realizzare : tempi lunghi per gli incroci pianificati, pedigree non sempre sufficientemente grandi, fenotipi difficili da misurare → oggi integrate nella costruzione delle mappe fisiche mappe fisiche • mappe di restrizione: indicano i siti di taglio degli enzimi di restrizione rapide e dettagliate, ma inapplicabili a genomi grandi • FISH: la posizione dei marcatori è determinata ibridando sonde fluorescenti sui cromosomi interi poco accurata, ma lenta e tecnicamente difficile • mappe STS: la posizione dei marcatori è determinata grazie a tecniche di PCR e/o di analisi di ibridazione di frammenti genomici mappe di restrizione singole digestioni del DNA, unite a doppie digestioni e a digestioni parziali, permettono la ricostruzione della posizione relativa di tutti i siti di restrizione Lunghezza Probabilità di trovare il sequenza sito di restrizione palindromica 4 (1/4)4 = 1 ogni 256 bp 5 (1/4)5 = 1 ogni 1024 bp 6 6 (1/4) = 1 ogni 4096 bp 8 8 (1/4) = 1 ogni 65.536 bp n (1/4)n mappe di restrizione Il risultato è mappa con le posizioni dei siti di restrizione mappe FISH FISH = Fluorescent In Situ Hybridization la posizione dei marcatori è determinata ibridando sonde fluorescenti sui cromosomi interi (metafasici o anche meno condensati) Mappe (FISH) Il principio delle mappe FISH è l’ibridazione con sonde fuorescenti stringenza La parametro più importante dell’ibridazione è la stringenza. È regolata da temperatura e forza ionica Stringenza • alta stringenza richiede elevata omologia tra sonda e bersaglio – elevata Temperatura – bassa concenrtrazione salina – presenza di denaturanti chimici • bassa stringenza è sufficiente bassa omologia tra sonda e bersaglio – bassa Temperatura – elevata [ ] salina – assenza di denaturanti chimici Problema con sequenze ripetute Mappe STS: la mappa fisica del genoma umano secondo HGP a. Creazione di librerie PAC e BAC b. Mappaggio dei cloni c. fingerprinting dei cloni mediante STS d. Clone selection e. Clone sequencing f. Contig assembly YAC: yeast artificial chromosome Vettori di clonaggio che permettono l’inserimento di DNA >200 Kb inizialmente basati su mini crosmosomi di lievito (YAC) instabili Sito di clonaggio N S Telomeri Marcatore di inserimento Marcatori fenotipici standard YACs special YACs fino a 600 kb fino a 1400 kb centromero Altri vettori •batteriofago P1: può contenere fino a 125 kb •BACs: basati sul plasmide F di E.coli; fino a > 300 kb •PACs: commistione tra P1 e BAC; fino a > 300 kb •Fosmidi: contengono ori di F e cos di ; simili a cosmidi ma + stabili Libraries YAC library Library hybridization Marked probes YAC library hybridization * * STSs: Sequence Tagged Sites • sequenze brevi (100-500 bp) • Facilmente amplificabile per PCR • Unica nel genoma • Localizzazione genomica nota Identifica inequivocabilmente la molecola di DNA più grande che lo contiene STS-like • ESTs (Expressed Sequence Tags): corte sequenze derivanti dall’analisi di cDNA • SSLPs (Simple Sequence Lenght Polymorphisms) − Microsatelliti (STRs, Short Tandem Repeats) − Minisatelliti (VNTRs, Variable Number Tandem Repeats) STS mapping STS vicini STS lontani cromosoma collezione di frammenti 4 volte su 6 2 volte su 6 nello stesso frammento nello stesso frammento La frequenza con cui sono sullo stesso frammento è propozionale alla distanza (a) clone libraries amplification Cromosome from donors pool of large number of anonymous males and females fragmentation cloning BAC (b) clone maps Determinazione della posizione dei cloni rispetto al cromosoma sulla base dei (pochi) STSs esistenti exsisting maps of STS clone libraries (c) fingerprinting Identificazione di nuovi STSs che permetteranno di collegare tra loro i cloni exsisting maps of STS new STSs Clone_1 Clone_2 Clone_13 (d) Clone selection minimal tiling path collezione di cloni che permette di coprire la regione con il minor grado di sovrapposizione Clone_6 Clone_1 Clone_17 Clone_16 Clone_4 Clone_13 Clone_10 (e) Clone sequencing Clone_1 Clone_4 Clone_6 Clone_10 Clone_13 Clone_16 Shotgun secuencing Contig assembly Contig_1 Contig_4 Clone_17 (f) Contig assembly Contig_1 Contig_4 Contig_6 Contig_10 Contig_17 Contig_13 Contig_16 http://www.ncbi.nlm.nih.gov/Genomes/ Il sequenziamento del genoma umano 5. Il sequenziamento di singoli genomi: Venter e Watson