Adriana Maggi DOCENTE DI BIOTECNOLOGIE FARMACOLOGICHE CORSO DI LAUREA SPECIALISTICA IN BIOTECNOLOGIE DEL FARMACO AA 2011/2012 Lezione 3 La GENOMATICA e la ricerca di nuovi bersagli farmacologci GENOMATICA: studio del genoma* degli esseri viventi attraverso la mappatura o sequenziamento dei geni e lo studio della loro funzione * Per genoma si intende l’intero contenuto in DNA di una cellula, geni e sequenze intrageniche incluse genoma umano Il genoma nucleare umano è costituito da 3.000.000.000 di paia di basi diviso in 24 sequenze lineari : i cromosomi di cui 22 sono autosomi e 2 sono i cromosomi sessuali Il DNA mitocondriale è circolare e ha le dimensioni di 16569 pb Che significato ha localizzare fisicamente i geni nei diversi cromosomi? Come si costruiscono le mappe geniche? • Storicamente attraverso la costruzione di mappe fisiche (identificare e ordinare marcatori lungo il cromosoma) • Attualmente con il sequenziamento Costruzione di mappe fisiche • FISH (Fluorescent in situ hybridization) mapping • studi genetici di ‘linkage’ restriction mapping di banche di DNA use of sequence tagget site (STS) FISH (Fluorescent in situ hybridization) mapping FISH per studiare • Omologie di sequenza • Moltiplicazione di geni • Evoluzione del DNA FISH per localizzare • Delezioni • Traslocazioni • Inserzioni restriction mapping RESTRICTION MAPPING 1. Frammentazione del DNA genomico con enzimi di restrizione 2. Separazione dei frammenti per elettroforesi su agarosio 3. Immobilizzazione DNA per trasferimento su membrana 4. Ibridazione con sonda opportunamente marcata 5. Identificazione di RLFP RESTRICTION MAPPING Gel Data Uncut: 15 kb EcoR1: 4, 5, 6 kb BamH1: 3, 5, 7 kb EcoR1 & BamH1: 1, 3, 5 kb 4E 5E 3B 6E 7B B 3 E 1 5B E 5 B 1 3B1E5E1B5 = 5B1E5E1B3 5 RESTRICTION MAPPING restriction mapping sequence tagget site A sequence-tagged site (or STS) is a short (200 to 500 base pair) DNA sequence that has a single occurrence in the genome and whose location and base sequence are known. STSs can be easily detected by the polymerase chain reaction (PCR) using specific primers. For this reason they are useful for constructing genetic and physical maps from sequence data reported from many different laboratories. They serve as landmarks on the developing physical map of a genome. When STS loci contain genetic polymorphisms (e.g. simple sequence length polymorphisms, SSLPs, single nucleotide polymorphisms), they become valuable genetic markers, i.e. loci which can be used to distinguish individuals. They are used in shotgun sequencing, specifically to aid sequence assembly. studi genetici di ‘linkage’ IL MAPPAGGIO GENETICO Analisi di linkage SU COSA SI BASA IL LINKAGE? Due geni che mappano sullo stesso cromosoma si dicono SINTENICI Due geni sintenici segregherebbero sempre assieme se non esistesse il crossing-over nella prima divisione meiotica l’evento di crossing-over da luogo alla formazione di gameti RICOMBINANTI SINTENICI LA CONCATENAZIONE o LINKAGE Consente di mappare un gene sulla base dello studio della sua vicinanza ad un altro locus sullo stesso cromosoma. LA MEIOSI ED I GAMETI RICOMBINANTI Il crossing-over avviene durante la meiosi • L’evento di crossing-over porta alla formazione di gameti ricombinanti • Se due loci non sono associati avremo il 50% di gameti non ricombinanti ed il 50% di gameti ricombinanti per questi due loci IN GENERALE Il crossing-over separerà raramente loci che si trovano molto vicini sullo stesso cromosoma, in quanto un solo evento di crossing-over localizzato esattamente nel piccolo spazio tra i due loci creera’ dei ricombinanti • Più due loci sono distanti, più è probabile che un evento di crossing-over li separi • Si definisce un valore detto frazione di ricombinazione, misura della distanza di due loci LA DISTANZA GENETICA Il centimorgan(cM) e’ l’unita’ di misura della distanza genetica di due loci DUE LOCI CHE PRESENTANO 1% DI RICOMBINAZIONE SONO DEFINITI DISTANTI 1 cM Conoscendo la frazione di ricombinazione • Sapendo che due loci distanti 1 cM avranno una frazione di ricombinazione uguale a 0,01 • Possiamo ricavare la distanza genetica fra due loci • Ricordando che LA DISTANZA GENETICA NON E’ UGUALE ALLA DISTANZA FISICA Doppio crossing over Dopo una certa distanza fisica la frazione di ricombinazione non rispecchia più la distanza genetica per l’esistenza di doppi crossing-over • Loci che distano su una mappa 40 cM hanno una ricombinazione molto inferiore al 40%, in quanto la frazione di ricombinazione non supera mai lo 0,5 • La frazione di ricombinazione sara’ uguale a 0,5 non solo per loci non sintenici, ma anche per loci sintenici molto distanti fra loro LE FUNZIONI DI MAPPA • La funzione di mappa definisce la relazione tra funzione di ricombinazione e distanza genetica • Esistono diverse funzioni di mappa, che tengono conto di diverse variabili • La più semplice funzione di mappa è la funzione di Haldane ω= -1/2 ln (1-2θ) θ= 1/2[1-exp(-2ω)] dove ω e’la distanza di mappa e θ è la frazione di ricombinazione IL MAPPAGGIO GENETICO NELL’UOMO Associare il gene ad un cromosoma e conoscere la sua posizione • Solitamente vengono studiati geni che, se mutati, sono responsabili di un fenotipo patologico • L’analisi di concatenazione nell’uomo si basa sullo studio degli alberi genealogici e sulla ricerca delle meiosi informative • Una meiosi è informativa quando si può identificare se il gamete è o meno ricombinante IL MAPPAGGIO GENETICO NELL’UOMO • Per mappare i geni nell’uomo vengono usati dei marcatori • il MARCATORE è un carattere mendeliano sufficientemente polimorfico da offrire una ragionevole probabilità che una persona scelta a caso sia eterozigote. • Per mappare il gene è necessario conoscere la posizione del marcatore. Vengono costruite per questo delle mappe genetiche dei marcatori usando un mappaggio marcatore-marcatore QUALI CARATTERI SONO USATI COME MARCATORE? • Qualsiasi carattere mendeliano e polimorfico può essere usato come marcatore • E’ meglio che il carattere possa essere individuato facilmente e a basso costo • Per rendere più facile il mappaggio è necessario che i marcatori siano tanti e quanto piu’ possibile vicini fra loro (progetto genoma) BREVE STORIA DEI MARCATORI • 1910-1960 Gruppi Sanguigni e Varianti della mobilita’ elettroforetica delle proteine del siero • 1970-Tipi Tissutali HLA • 1975-RFLP del DNA • 1985-Minisatelliti • Oggi Microsatelliti Si definiscono microsatelliti (o short tandem repeats o STR) sequenze ripetute di DNA non codificante costituiti da unità di ripetizione molto corte (1-5 bp) disposte secondo una ripetizione in tandem, utilizzabili come marcatori molecolari di loci. La loro presenza nel genoma umano non influisce per più del 3%, ma si pensa che comunque essi svolgano una funzione essenziale per la struttura dei cromosomi. II microsatelliti sono ereditati in modo mendeliano Esempi di microsatelliti: AAAAAAAAAAA o (A)11 GTGTGTGTGTGT o (GT)6 CTGCTGCTGCTG o (CTG)4 ACTCACTCACTCACTC o (ACTC)4 MAPPATURA DI UN GENE-MALATTIA • Ricostruzione dell’albero genealogico delle famiglie da analizzare • Tipizzazione delle famiglie con marcatori informativi • Analisi statistica dell’associazione tra i marcatori e la comparsa della malattia I PROBLEMI… E LA SOLUZIONE • Le famiglie da analizzare solitamente contano pochi membri, o sono disponibili i campioni biologici di un basso numero di individui • In famiglie poco numerose vi e’ un basso numero di ricombinanti • I risultati cosi’ ottenuti hanno una bassa significatività statistica • La soluzione è analizzare più famiglie assieme. Per questo è stato introdotto il LOD SCORE • Il LOD SCORE e’ definito come il logaritmo delle probabilità che i loci siano associati (con frazione di ricombinazione θ) piuttosto che non associati (frazione di ricombinazione 0,5) IL LOD SCORE E’ LA MISURA STATISTICA DEL LINKAGE • Il LOD SCORE (Z) e’ una funzione della frazione di ricombinazione • Vengono calcolati i valori di LOD SCORE per una gamma di valori di θe ne viene stimato il valore massimo (Ž) • La probabilità complessiva di linkage in un gruppo di famiglie è il prodotto delle probabilità in ciascuna famiglia, per cui i lod score di famiglie diverse, che sono logaritmi, possono essere sommati PRINCIPALI VALORI DI LOD SCORE • Tutti i lod score sono uguali a 0 per θ=0,5 poiché si sta misurando il rapporto di due probabilità identiche • I due loci sono in linkage con una probabilità di errore del 5%quando Z e’maggiore o uguale a 3, cioe’quando la probabilità di linkage è mille volte laprobabilità che i due loci non siano concatenati • I due loci non sono in linkages Z e’minore di -2 • Valori tra i due estremi non permettono conclusioni SOFTWARE PER IL MAPPAGGIO GENETICO • Per il calcolo dei lod score vengono usati i programmi LIPED e MLINK • Il programma EXCLUDE trasforma i dati negativi di linkage in un diagramma delle possibili localizzazioni residue IL MAPPAGGIO A PIU’ PUNTI • Serve a mappare un locus patologico rispetto ad una batteria di marcatori • Aiuta a superare i problemi causati dalla limitata informatività dei marcatori • Particolarmente utile, soprattutto per quanto riguarda la costruzione di mappe dei marcatori, per stabilire l’ordine lungo un cromosoma di un gruppo di loci associati IL MAPPAGGIO A PIU’ PUNTI DI UN GENE-MALATTIA • Lo scopo è localizzare il gene in uno degli intervalli della mappa dei marcatori • Viene usato il programma LINKMAP che ricava le posizioni del locus-malattia rispetto la griglia di marcatori, calcolando la probabilità complessiva dei dati di linkage per ciascuna delle posizioni possibili IL RISULTATO Il risultato che si ottiene e’ una curva diprobabilita’rispetto alle localizzazioni di mappa Il picco piu’ alto indica la posizione piu’ probabile del locus malattia Le regioni in cui la curva si trova al di sotto del valore di -2 vanno escluse dall’analisi Oggi, il mappaggio marcatore-malattia a piu’punti non viene usato, a eccezione che per il mappaggio di esclusione COSTRUZIONE DELLE MAPPE MARCATORE-MARCATORE • Uso di famiglie raccolte specificamente a questo scopo dal CEPH (Centrepourl’Etude des Polymorphismes Humaines) • Linee cellulari immortalizzate di tutti i membri delle famiglie disponibili a richiesta per la mappatura di un nuovo marcatore • Risultati delle mappe disponibili in banca dati ad uso di tutti • • • • ORDINE DEI MARCATORI E LORO DISTANZA NELLE MAPPE Per la costruzione delle mappe dei marcatori e’ indispensabile il mappaggio a piu’ punti Per determinare l’ordine dei marcatori vengono usati metodi di mappaggio fisico, oltre che i calcoli di lod score Le distanze genetiche marcatore-marcatore nelle mappe sono approssimative Un obbiettivo del Progetto Genoma e’ la costruzione di mappe genetiche di marcatori che distano fra loro mediamente 1 cM CENNI PER L’ANALISI DI LINKAGE SENZA MODELLI • Usata per lo studio di patologie non perfettamente mendeliane e caratteri multifattoriali come la schizofrenia, il diabete mellito, l’ipertensione… • I metodi usati trascurano l’analisi delle persone non affette • Ci si basa sulla ricerca dei segmenti cromosomici comuni agli individui affetti CON CHI VIENE USATO IL METODO DEI SEGMENTI COMUNI ❚Studio di famiglie nucleari (tipo analisi di coppie di fratelli) ❚Studio di ampie famiglie note ❚Studio di popolazioni POPOLAZIONI STUDIATE ❚POPOLAZIONI GENETICAMENTE ISOLATE ❚POPOLAZIONI GIOVANI: poche generazioni dal momento della fondazione, pochicrossing-overs, pochericombinazioni ❚POPOLAZIONI OMOGENEE: poche famiglie fondatrici ESEMPI DI POPOLAZIONI STUDIATE ❚FINLANDESI: geneticamente e linguisticamente sono molto diversi dai loro vicini nordici e slavi; la popolazione e’ giovane in quanto fondata circa 2000 anni fa da poche famiglie fondatrici ❚ITALIA: studi condotti sulla popolazione SARDA, molto isolata geneticamente STUDI DI ASSOCIAZIONE NELLE POPOLAZIONI ❚Le persone affette dalla malattia ignorano di essere imparentate ❚Molte generazioni e molte meiosi separano gli affetti dal loro antenato comune con una conseguente riduzione della regione identica per discendenza ❚All’interno della regione ci sara’, a livello di popolazione, un’associazione tra la malattia ed un particolare allele o aplotipo http://www2.units.it/crovella/gene09.pdf ASSOCIAZIONE ALLELICA ❚Possibililta’di portare l’analisi di linkage a risoluzioni irraggiungibili con gli studi sulle famiglie anche per condizioni mendeliane ❚Relazioneallelemarcatore/allelemalatt ia ❚Marcatori con elevato potere di risoluzione (1 cM), con frequenze simili a quelledell’allelepatologico LA COSTRUZIONE DI UNA MAPPA PRECISA DEL GENOMA UMANO MEDIANTE SEQUENZIAMENTO Progetto GENOMA UMANO http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml Scopi: • Sequenziamento dei genomi di interesse biologico o farmacologico • Studi di funzione genica Progetto GENOMA UMANO Strategie: • Generazione sistematica di mappe fisiche • Sequenziamento di Expressed Sequence Tag (EST) • Miglioramento delle tecnologie di sequenziamento http://www.ornl.gov/sci/techresources/Human_Genome/project/about.shtml Strategie di sequenziamento del genoma Durata del sequenziamento del genoma umano con il metodo ‘Whole genome shot-gun’ 8 settembre 1999 17 giugno 2000 Craig Venter Termine del progetto Genoma Umano 2003 Investimento NIH nel progetto 3 miliardi di dollari /13 anni Francis Collin 1990-1994 1990: Launch of the Human Genome Project 1990: ELSI Founded (Ethical, Legal and Social Implications ) 1990: Research on BACs 1991: ESTs, Fragments of Genes (expressed-sequence tag ) 1992: Second-generation Genetic Map of Human Genome 1992: Data Release Guidelines Established 1993: NEW HGP Five-year Plan 1994: FLAVR SAVR Tomato (Calgene, Inc. of Davis, California ) 1994: Detailed Human Genetic Map 1994: Microbial Genome Project (The microbes DOE chose do not cause disease but are important for their environmental, energy, and commercial roles 1995-1996 1997-1999 1995: Ban on Genetic Discrimination in Workplace 1995: Two Microbial Genomes Sequenced 1995: Physical Map of Human Genome Comp leted 1996: International Strategy Meeting on Human Genome Sequencing 1996: Mouse Genetic Map Completed 1996: Yeast Genome Sequenced 1996: Archaea Genome Sequenced 1996: Health Insurance Discrimination Banned 1996: 280,000 Expressed Sequence Tags (ESTs) 1996: Human Gene Map Created 1996: Human DNA Sequence Begins (large-scale sequencing) 1997: Bermuda Meeting Affirms Principle of Data Release 1997: E. coli Genome Sequenced 1997: Recommendations on Genetic Testing 1998: Private Company Announces Sequencing Plan 1998: M. Tuberculosis Bacterium Sequenced 1998: Committee on Genetic Testing (Service’s Advisory Committee on Genetic Testing 1998: HGP Map Includes 30,000 Human Genes 1998: New HGP Goals for 2003 1998: SNP Initiative Begins (single nucleotide polymorphism, multigene disorders) 1998: Genome of Roundworm C. elegans Sequenced 1999: Full-scale Human Genome Sequencing 1999: Chromosome 22 2000-2001 2002-2003 2000: Free Access to Genomic Information 2000: Chromosome 21 2000: Working Draft 2000: Drosophila and Arabidopsis genomes sequenced 2000: Executive Order Bans Genetic Descrimination in the Federal Workplace 2000: Yeast Interactome Published 2000: Fly Model of Parkinson's Disease Reported 2001: First Draft of the Human Genome Sequence Released 2001: RNAi Shuts Off Mammalian Genes 2001: FDA Approves Genetics-based Drug to Treat Leukemia Gleevec to treat patients with chronic myeloid leukemia (CML). 2002: Mouse Genome Sequenced 2002: Researchers Find Genetic Variation Associated with Prostate Cancer 2002: Rice Genome Sequenced 2002: The International HapMap Project is Announced 2002: The Genomes to Life Program is Launched 2002: Researchers Identify Gene Linked to Bipolar Disorder 2003: Human Genome Project Completed 2003: Fiftieth Anniversary of Watson and Crick's Description of the Double Helix 2003: The First National DNA Day Celebrated 2003: ENCODE Program Begins 2003: Premature Aging Gene Identified 2004-The Future 2004: Rat and Chicken Genomes Sequenced 2004: FDA Approves First Microarray 2004: Refined Analysis of Complete Human Genome Sequence 2004: Surgeon General Stresses Importance of Family History 2005: Chimpanzee Genomes Sequenced 2005: HapMap Project Completed 2005: Trypanosomatid Genomes Sequenced 2005: Dog Genomes Sequenced 2006: The Cancer Genome Atlas (TCGA) Project Started 2006: Second Non-human Primate Genome is Sequenced 2006: Initiatives to Establish the Genetic & Environmental Causes of Common Diseases Launched Alcuni risultati dell’analisi della sequenza del genoma umano • n. geni 26*103 • arrangiamento dei geni non casuale (in cluster) • esoni 1.1% del genoma • introni 24% • sequenze intergeniche 75% • > 1.4 milioni di siti polimorfici (SNPs) NATURE Human Genome Collection It is now more than 15 years since work began sequencing the 2.85 billion nucleotides of the human genome. While the draft sequence was published in Nature in 2001, researchers at the Human Genome Project continued to fill the gaps and subject individual chromosomes to ever more detailed analyses. Nature is proud to present here the complete and comprehensive DNA sequence of the human genome as a freely available resource. Risultati del Progetto GENOMA UMANO The Cancer Genome Atlas (TCGA) is a comprehensive and coordinated effort to accelerate our understanding of the genetics of cancer using innovative genome analysis technologies. The overarching goal of The Cancer Genome Atlas (TCGA) is to improve our ability to diagnose, treat and prevent cancer The National Institutes of Health announced in 2009 the expansion of TCGA project. After a rigorous review process, the scope of the TCGA Research Network has expanded to include more than 20 tumor types and thousands of samples over the next five years. Each cancer will undergo comprehensive genomic characterization that incorporates powerful bioinformatic and data analysis components. The expansion of TCGA is expected to lead to the most comprehensive understanding of cancer genomes and will enable researchers to further mine the data generated by TCGA to improve prevention, diagnosis and treatment of cancer. 2003 NIH ENCODE Project ENCyclopdia Of DNA Elements (ENCODE). To identify and locate all of the genome’s proteincoding genes, non-protein coding genes, and other sequence-based functional elements. When completed, the collection of elements identified by the ENCODE program will help scientists better understand how the genome influences our health. 1) use gene targeting to make the resource of null alleles, marked with a high utility reporter, preferably in C57BL/6; 2) support a repository to house the products of this resource; 3) develop improved C57BL/6 ES cells that show robust germline transmission, so that they may be used in a high throughput pipeline in generating this resource; 4) implement a data coordination center which will make the status and relevant data of the production effort available to the research community. NIH 2006 Genes and Environment Initiative (GEI). GEI has two components: the analysis of genetic variation among people with specific diseases an effort to develop technology that will find new ways to monitor environmental exposures that interact with genetic variations leading to disease. The specific diseases that GEI will focus on will be decided by peer review. HapMap Project The International HapMap Project is a multi-country effort to identify and catalog genetic similarities and differences in human beings. Using the information in the HapMap, researchers will be able to find genes that affect health, disease, and individual responses to medications and environmental factors. The goal of the International HapMap Project is to compare the genetic sequences of different individuals to identify chromosomal regions where genetic variants are shared