Modulo di Biologia Molecolare Corso di Laurea in Medicina e Chirurgia Canale A-K Anno Accademico 2013/2014 Docente: Prof.ssa Maria R. Mazzoni Testi consigliati • Fondamenti di Biologia Molecolare. L.A. Allison, Zanichelli. • Genetica Molecolare Umana. T. Strachan e A. Read, Zanichelli. • Biologia Molecolare. B. Amaldi et al., Editrice Ambrosiana. • Il Gene X. B. Lewin et al., Zanichelli. • Introduzione alla Genomica. A. M. Lesk, Zanichelli. • L’essenziale di Biologia Molecolare della Cellula. B. Alberts et al., Zanichelli. • La biologia molecolare è una scienza di base nata dalla convergenza di biologia, chimica e fisica, che possiede intensa consapevolezza pratica e commerciale. • La biologia molecolare è lo studio di come il DNA, l’RNA e le proteine sono intercorrelate (D. Baltimore, Nobel Lectures in Molecular Biology). Cronistoria della genetica e della biologia molecolare Un gene codifica un RNA che può codificare una proteina Tre linee di ricerca hanno portato alla scoperta che il DNA è il materiale ereditario Legge della combinazione di caratteri diversi (Mendel, 1866) Il principio trasformante (Griffith, 1928) Il DNA è il materiale genetico dei batteri e dei virus L’ipotesi un gene-un enzima (Beadle e Tantum, 1941) Il DNA è il materiale genetico dei batteri e dei virus La trasformazione batterica ha fornito la prima evidenza del fatto che il DNA è il materiale genetico dei batteri. Le proprietà genetiche possono essere trasferite da un ceppo batterico ad un altro estraendo il DNA dal primo ceppo e somministrandolo al secondo (Avery, MacLeod, e McCarty – 1944). Il DNA è il materiale genetico del batteriofago T2 Il DNA è il materiale genetico dei batteri e dei virus L’infezione fagica (fago T2) ha dimostrato che il DNA è il materiale genetico dei virus. Se il DNA e le proteine del batteriofago sono marcati con isotopi radioattivi diversi, solamente il DNA è trasmesso alla progenie fagica prodotta infettando i batteri (Hershey, e Chase – 1952). Il DNA è il materiale genetico della cellula eucariotica Le cellule eucariotiche possono acquisire un nuovo fenotipo in seguito alla trasfezione con DNA.. Il DNA costituisce il materiale genetico di tutte le cellule e di molti virus. Fanno eccezione alcuni virus che usano come materiale genetico l’RNA. Fotografia di diffrazione ai raggi X del DNA (Wilkins e Franklin, 1952-53) Modello della struttura del DNA (Watson e Crick, 1953) Le catene polinucleotidiche hanno basi azotate unite ad uno scheletro di zuccheri e fosfati Struttura generale dei nucleotidi Struttura chimica dello zucchero pentoso Struttura chimica delle basi azotate Formazione delle catene degli acidi nucleici Struttura secondaria del DNA - fra le basi si formano legami a idrogeno Il DNA è una doppia elica Modello della doppia elica del DNA (Watson e Crick, 1953). Impilamento delle basi – stabilità chimica della doppia elica Il DNA è una doppia elica Il DNA è una doppia elica • Il DNA nella conformazione B è una doppia elica formata da due catene polinucleotidiche che corrono antiparallele. • Le basi azotate di ciascuna catena sono anelli piatti purinici o pirimidinici rivolti verso l’interno ed appaiati tra di loro per mezzo di legami idrogeno che portano solamente alla formazione delle coppie A-T o G-C. • La doppia elica ha un diametro di ~ 20 Å (2 nm) e forma un giro completo ogni 34 Å (3,4 nm), con dieci coppe di basi per giro d’elica. • La doppia elica ha un solco maggiore (22 Å di diametro) ed uno minore (12 Å di diametro). Il DNA è una doppia elica DNA a doppia elica: • forma B (idratata) > elica destrorsa; • forma A (disidratata) > elica destrorsa, ma più corta e spessa della forma B; • forma Z > elica sinistrorsa e più lunga e stretta della forma B. Strutture alternative a doppia elica del DNA Denaturazione, rinaturazione ed ibridizzazione del DNA a doppio filamento Curva di denaturazione del DNA Dependenza della denaturazione del DNA dal contenuto di G-C e dalla concentrazione salina Strutture secondarie insolite del DNA Struttura terziaria del DNA - superavvolgimento del DNA Il DNA è superavvolto Il DNA è superavvolto • Il superavvolgimento si forma solo in molecole di DNA “chiuse” senza estremità libere. • Il DNA chiuso è dato da molecole circolari (cellule procariotiche) o da molecole lineari (cellule eucariotiche) in cui le estremità sono bloccate per interazioni con proteine così da non poter ruotare liberamente. • Una molecola di DNA chiusa ha proprio numero di legame (L), che è dato dalla somma del numero di giri completi o twist (T) e di superavvolgimento writhe (W). • Si può cambiare il numero di legame solamente rompendo e riformando dei legami nell’ossatura del DNA. Replicazione del DNA L’appaiamento delle basi fornisce il meccanismo per la replicazione del DNA La replicazione del DNA è semiconservativa (Meselson e Stahl, 1958 Replicazione del DNA Replicazione del DNA batterico La forcella di replicazione La sintesi di DNA avviene da 5’ a 3’ La replicazione del DNA è semidiscontinua Replicazione degli Ac. Nucleici a doppio e singolo filamento • La replicazione del DNA è eseguita da un complesso di enzimi e proteine che separano i filamenti parentali e sintetizzano i filamenti figli. • La forcella di replicazione è il punto in cui i filamenti parentali vengono separati. • Gli enzimi che sintetizzano il DNA si chiamano DNA polimerasi; catalizzano la sintesi del nuovo filamento solo in direzione 5’ 3’ e necessitano di un innesco di RNA (20 nucleotidi) (“primer”) per poter iniziare la sintesi. • Le nucleasi sono enzimi che degradano gli acidi nucleici, comprendono le DNasi e le RNasi e possono essere suddivise in endonucleasi ed esonucleasi. Le prime tagliano i legami fosfodiestere all’interno della catena nucleotidica, mentre le seconde rimuovono un nucleotide alla volta a partire dall’estremità, tagliando il legame fosfodiestere. Endonucleasi ed esonucleasi Dogma centrale della biologia molecolare L’informazione genetica può essere contenuta nel DNA o nell’RNA • I geni cellulari sono costituiti da DNA, ma i genomi virali possono essere costituiti da RNA. • Il DNA è convertito in RNA dalla trascrizione mentre la trascrizione inversa può convertire l’RNA in DNA. • La traduzione dell’RNA in proteine è unidirezionale. Confronto fra vari genomi Appaiamento delle basi nel DNA a doppio filamento e nell’RNA Landmarks in molecular biology and biotechnology •1869- Friedrich Miescher discovered DNA. 1941- Beadle and Tatum demonstrated that a gene codes for a single protein and one gene one protein theory was put forward. •1944- Avery, McLeod and McCarty showed that DNA is the genetic material. •1951- The helical conformation of a chain of aminoacids was proposed and the α-helix and β-sheet structures in proteins were deciphered. •1952- Hershey and Chase proved that DNA is the carrier of genetic information. •1953- Watson and Crick gave the double helical structure of DNA. •1955- Method for determination of amino acid sequence of a protein was developed by Frederick Sanger and the sequence of insulin was determined. Landmarks in molecular biology and biotechnology •1957- Arthur Kornburg discovered the DNA polymerase I. •1958- Meselson and Stahl showed that DNA replicates in a semiconservative manner. •1960- The detailed 3-D structure of proteins was described to very high resolution. •1960- Polycistronic genes in bacteria were discovered. The one gene one protein theory became obsolete. •1961- The triplet nature of codons was discovered and the genetic code was deciphered by Marshal Nirenberg and H.G. Khurana. •1961- Messenger RNA was discovered. •1961- Jacob and Monad proposed the `operon model’ for regulation of gene expression. •1963- The circular nature of bacterial DNA was discovered by John Cairns. •1967- Enzyme DNA ligase was discovered by Gilbert. Landmarks in molecular biology and biotechnology •1970- Temin and Baltimore reported the discovery of reverse transcriptase in retrovirus. •1973- Type II restriction endonucleases were discovered. •1974- Eukaryotic genes were cloned in bacterial plasmids. •1975- The signal hypothesis was proposed by Gunter Blobel. •1976- Retroviral oncogenes were identified as the causative agents for cellular transformation by JM Bishop and HE Varmus. •1976- DNA sequencing protocols were developed (chemical method by Maxam & Gilbert and enzymatic method by Sanger) and it became possible to find out the nucleotide sequence of gene. 1977- It was shown that the eukaryotic genes are interrupted. The introns were discovered and the splicing mechanism for the removal of introns from primary transcripts was deciphered. 1978- The NIH guidelines for r-DNA technology were formulated. Landmarks in molecular biology and biotechnology •1979- Cellular oncogenes were discovered. •1981- The catalytic activity of RNA was discovered and the concept of ribozyme was accepted. •1981- Transgenic mice and flies were created by introducing novel genes in the germ lines. •1984- Polymerase chain reaction (PCR) was discovered by Kary Mullis. •1997- Dolly, the sheep was cloned from the somatic cell genome. The first animal cloning experiment established the totipotency in animal cells. •1998- RNAi was discovered. •2000- The human genome project was completed. The first draft of the sequence of human genome was published. Functional genomics and proteomics became the new fields. Il genoma • Quanti geni contiene un genoma? • Un gene può essere definito come un’unità di trascrizione. • Il genoma è la serie completa di geni di un organismo. Può essere definito come la sequenza completa di DNA, anche se può non essere possibile identificare ogni gene inequivocabilmente solo in base alla sequenza. • Il trascriptoma è la serie completa di geni espressi in certe condizioni specifiche. Viene definito in funzione dell’insieme di molecole di RNA presenti in un dato momento in qualunque tipo di cellula, in un insieme di cellule (tessuto) od in un organimso. Il trascriptoma può essere più grande del numero di geni definiti nel genoma e comprende: mRNA, tRNA, rRNA, miRNA ed una serie di altri RNA dalle funzioni ancora ignote. • Il proteoma è la serie completa di proteine codificata da un intero genoma o prodotta da una particolare cellula o tessuto. Dovrebbe corrispondere all’mRNA del trascriptoma, anche se vi possono essere alcuni dettagli differenti, dati per esempio da cambiamenti nell’abbondanza relativa o nella stabilità degli mRNA e delle proteine. Ci possono anche essere delle modificazioni post-traduzionali per cui più di una proteine può essere prodotta da un singolo trascritto di mRNA. • Le proteine possono funzionare in modo indipendente o come parte di complessi multiproteici o multimolecolari, come gli oloenzimi o le vie metaboliche in cui gli enzimi sono raggruppati. Come esempi possiamo citare l’oloenzima della RNA polimerasi ed il complesso formato da piccoli RNA nucleare e proteine detto splicesoma. Il contenuto di DNA di varie specie Organismo Numero di coppie di basi Lunghezza del DNA (mm) Dimesioni dello spazio cellulare (mm) Numero di cromosomi Batteriofago 4.85 x 104 0,017 < 0,0001 1 Batterio (Escherichia coli) 4,7 x 106 1,4 0,001 1 Lievito (Saccharomyces cervisiae) 1,25 x 107 4,6 0,005 16 (x 1 o 2) Moscerino della frutta (Drosophila melanogaster) 1,65 x 108 56,0 0,010 4 (x 2) Esseri umani (Homo sapiens) 3 x 109 999,0 0,010 23 (x 2) Organizzazione dei genomi a DNA Genoma Forma Dimensioni (kb) Eucarioti ds lineare da 104 a 106 Batteri ds circolare 103 Plasmidi ds circolare (alcuni ds lineari) 2-15 Virus a DNA dei mammiferi ss lineare, ds lineare, ds circolare 3-280 Batteriofagi ss circolare, ds lineare 50 DNA dei cloroplasti ds circolare 120-160 DNA mitocondriale ds circolare (alcuni ds lineari) Animali: 16,5 Piante: 100-2500 Il genoma eucariotico Genoma batterico Rappresentazione di un batterio contenente DNA plasmidico Genoma del virus SV40 Il DNA degli organelli Eredità materna del genoma mitocondriale negli animali I genomi mitocondriali DNA mitocondriale umano 22 geni per tRNA, 2 geni per rRNA, 13 geni codificanti proteine. Origine dei mitocondri Tipi principali di virus ad RNA Tipo di virus Genoma Virus ad RNA RNA Modo di replicazione RNA RNA Famiglia di virus Togavirus Coronavirus Rabdovirus Paramixovirus Filovirus Reoviru Ortomixovirus Retrovirus RNA RNADNA RNA Lentivirus Alcuni membri patogeni Rosolia, Rinovirus, Poliomelite. Raffreddore comune, SARS. Rabbia. Morbillo, parotite. Ebola Rotavirus Influenza HIV-1 Virus eucariotici ad RNA Caratteristiche delle sequenze genomiche degli eucarioti • E’ possibile distinguere la frequenza di ripetizione di sequenze genomiche dalle cinetiche di riassociazione del DNA di un genoma denaturato. • Dalle cinetiche di riassociazione si individuano due tipi di sequenze genomiche: Il DNA non ripetitivo consiste di sequenze uniche di cui ce ne è una sola copia per genoma aploide. Il DNA ripetitivo consiste di sequenze presenti in più di una copia per genoma. • Le proteine sono in genere codificate da sequenze di DNA non ripetute. • Il DNA ripetitivo può essere suddiviso in due categorie generali: DNA moderatamente ripetitivo, costituito da sequenze relativamente corte ripetute nel genoma in genere da 10 a 1000 volte. Sono sequenze disperse nel genoma. DNA altamente ripetitivo, consiste di sequenze molto corte (in genere meno di 100 bp) ripetute molte migliaia di volte nel genoma e spesso organizzate come lunghe ripetizioni in tandem. • Nessuna delle due classi si trova nelle regioni codificanti. • Nello stesso gruppo tassonomico i genomi più grandi non contengono più geni, ma solo una maggiore quantità di DNA ripetitivo. Le proporzioni delle diverse componenti di sequenza variano nei genomi eucariotici Organizzazione del genoma umano • Soltanto lo 0,1% del genoma umano differisce da una persona all’altra. Ad eccezione della regione codificante gli antigeni leucocitari umani (HLA) la variazione genetica è modesta nel DNA codificante. • Meno del 40% del genoma umano è costituito da geni e da sequenze correlate a geni. • Il DNA intergenico consiste di: 1) sequenze uniche od in basso numero di copie; 2) sequenze moderatamente od altamente ripetitive. • Le sequenze moderatamente od altamente ripetitive si possono suddividere in due classi principali: (1) elementi sparsi; (2) sequenze ripetute in tandem. Elementi dispersi nel genoma • Sono ripetizioni presenti in tutto il genoma che sono trasposoni (elementi instabili del DNA che si possono spostare in parti diverse del genoma) o meglio copie degenerate di trasposoni. • Le ripetizioni non sono raggruppate, ma sono sparse in numerose posizioni all’interno del genoma. Possono essere suddivisi in due categorie in base alla loro lunghezza: Sequenze più corte di 500 bp - SINE (short interspersed nuclear elements); elementi Alu (SINE attivi nell’uomo). Sequenze più lunghe di 500 bp – LINE (long interspersed nuclear elements); elementi L1 (LINE attivi nell’uomo). Classi di elementi trasponibili Classe Intermedio di trasposizione Esempi Retrotrasposoni LTR RNA Lievito: elementi Ty; Esseri umani: Retrovirus endogeni umani (HERV); Topo: particella A intracisternali (AP). Retrotrasposoni non LTR LINE (autonomi) SINE (non autonomi) RNA Esseri umani: Elementi L1 Elementi Alu DNA Batteri: Sequenze di inserzione Batteriofago Mu Trasposoni (batterifago Tn7). Drosophila: Elementi P. Mais: Elementi Ac e Ds. Invertebrati e vertebrati: Superfamiglia Tc1/mariner Classe I Classe II Trasposoni di DNA ITR: ripetizioni terminali invertite; DR: brevi ripetizioni dirette; ORF: modulo di lettura aperto; LTR, lunghe ripetizioni terminali; HERV, retrovirus endogeni umani; gag, antigene gruppo specifico; prt, proteasi; Pol, polimerasi; env, involucro; RT, trascriptasi inversa; EN, endonucleasi; TSD, duplicazioni del sito di bersaglio; UTR, regione terminale non trascritta. Sequenze ripetute in tandem • Le ripetizioni in tandem costituiscono approssimativamente il 10% del genoma e si dividono in tre classi in base alla lunghezza: Satelliti: sono costituiti da DNA altamente ripetitivo con una lunghezza di ripetizione che va da una a parecchie migliaia di coppie di basi. Queste sequenze sono organizzate in grandi gruppi nelle regioni di eterocromatina dei cromosomi, vicino ai centromeri ed ai telomeri, e sono abbondanti anche nel cromosoma Y. Minisatelliti: loci di ripetizioni in tandem a numero variabile (VNTR), sono composti da motivi di sequenza che vanno da circa 15 a 50 bp. La lunghezza totale delle ripetizioni in tandem va da 500 bp a 20 kb. Microsatelliti o brevi ripetizioni in tandem (STR): l’unità ripetuta va da 2 a 6 bp per una lunghezza totale che varia fra 50 e 500 bp. Le sequenze STR più comuni sono ripetizioni dinucleotidiche. La ripetizione in tandem di corte sequenze ha spesso proprietà fisiche distinte che possono essere usate per il suo isolamento (centrifugazione in gradiente di densità di ClCs). • La variazione genetica da individuo ad individuo nei minisatelliti e STR (polimorfismi) è dovuta soprattutto al numero di elementi ripetitivi disposti in tandem, ma ci possono essere piccole differenze anche nella sequenza. • Queste regioni variabili sono particolarmente utili per la genetica legale perché si possono usare per generare un profilo del DNA di un individuo, pur non dando alcuna informazione sui tratti fenotipici dello stesso. Benefits of molecular biology products in medicine Medicine utilizes molecular biology products and techniques in analysis of disease, disease genes and gene function. Early stage diagnostics, new disease biomarkers. New vaccines and medicines. Gene therapy. Personalized medicine. Le basi cromosomiche delle malattie umane Sviluppo di nuovi metodi citologici all’inizio degli anni 1950. 1956: Tjio e Leven (NIH) mostrarono in maniera conclusiva che l’uomo ha un corredo cromosomico costituito da 46 cromosomi. Entro pochi anni da tale dimostrazione, fu stabilita una relazione diretta tra i disordini genetici umani ed il numero anormale di cromosomi o anauplodia. Così, la trisomia fu trovata nella sindrome di Down (cr. 21), nella sindrome di Patau (cr. 13) e nella sindrome di Edward (cr. 18). Furono anche descritte anormalità nel numero dei cromosomi sessuali come nella sindrome di Turner (X) e nella sindrome di Klinefelter (XXY). Nei primi anni 1960, furono identificate traslocazioni cromosomiche in alcuni casi di sindrome di Down. Negli anni 1970, diversi studi dimostrarono che la leucemia mieloide cronica, il linfoma di Burkitt e diverse altre neoplasie del sangue, sono caratterizzate da specifiche traslocazioni cromosomiche. Le basi genetiche delle malattie umane 1) Malattie genetiche “semplici” , malattie geneticamente omogenee, (anemia a cellule falciformi, fibrosi cistica), per le quali gli individui malati condividono mutazioni geniche comuni e sintomi altamente simili. 2) Malattie genetiche “più complesse o meno semplici” come la b-talassemia e la neurofibromatosi 1, nelle quali una varietà di tipi di mutazioni in un singolo gene producono sintomi variabili. 3) Malattie genetiche “complesse”, malattie geneticamente eterogenee, come l’asma ed il disordine bipolare, nelle quali le mutazioni in un numero di geni, in combinazione con fattori ambientali, verosimilmente sono responsabili per sintomi estremamente variabili. La genetica umana nell’era molecolare 1910: il medico J. Herrick di Chicago descrive l’anemia a cellule falciformi. Nella metà degli anni 1940, I. Sherman trova che il sangue di pazienti affetti da anemia a cellule falciformi trasmette la luce in maniera diversa rispetto al sangue normale, suggerendo differenze strutturali nella molecola dell’emoglobina. L. Pouling and H. Itano, isolarono l’emoglobina, la separarono mediante elettroforesi e trovarono che l’emoglobina dei pazienti con anemia falciforme (HbS) migra più lentamente, dimostrando che possiede una minore carica negativa rispetto all’emoglobina normale (HbA) . 1956: V. Ingram e J. Hunt sequenziarono HbA e HbS, trovando che un acido glutammico in posizione 6 nella catena b dell’HbA è sostituito con una valina nella stessa catena polipeptidica nell’HbS. La genetica umana nell’era molecolare Primi anni 1980: la disponibilità della sequenza della proteina e della sequenza predetta del DNA facilitò il clonaggio dei geni della a- e bglobina da una libreria genomica umana. Nel costruire le prime mappe di restrizione del DNA umano clonato, fu subito ovvio che una mutazione puntiforme può cambiare il sito di riconoscimento per una endonucleasi di restrizione, producendo frammenti di diversa dimensione, chiamati polimorfismo di lunghezza dei frammenti di restrizione (RFLP). 1978: Y.W. Kan e A.M. Dozy rivelarono, mediante analisi RFLP, la mutazione responsabile dell’anemia falciforme. Diagnosi RFLP di anemia a cellule falciformi Chang J.C,. and Kan Y.W. 1982. A sensitive new prenatal test for sickle-cell anemia. N. Engl. J. Med. 307: 30-32. Produzione di molecole terapeutiche da geni clonati Alcune patologie umane sono dovute ad un difetto assoluto o relativo nella produzione di un specifica proteina – diabete mellito, emofilia e nanismo ipofisario – e possono essere curate fornendo al paziente la proteina che non viene prodotta o la cui produzione è ridotta, come: l’insulina per il diabete mellito, i fattori di coagulazione VIII e IX per l’emofilia, l’ormone della crescita umano (HGH) per il nanismo ipofisario. Tuttavia, era molto difficoltoso ottenere quantità adeguate e prive di agenti patogeni di queste proteine terapeutiche. Lo sviluppo delle nuove tecniche di biologia molecolare ha reso possibile il clonaggio di diversi geni inclusi quelli che producono proteine importanti da punto di vista medico, come : insulina, fattori della coagulazione, HGH, l’attivatore del plasminogeno tissutale (t-PA), l’interleuchina, l’interferone ed i fattori che stimolano le colonie. 1979: Eli Lilly Co. produce l’insulina ricombinante umana inducendone l’espressione in Escherichia Coli. Biosynthesis of Insulin: Insulin is synthesized in significant quantities only in beta cells in the pancreas. The insulin mRNA is translated as a single chain precursor called preproinsulin, and removal of its signal peptide during insertion into the endoplasmic reticulum generates proinsulin. Proinsulin consists of three domains: an amino-terminal A chain, a carboxy-terminal B chain and a connecting peptide in the middle known as the C peptide. Within the endoplasmic reticulum, proinsulin is exposed to several specific endopeptidases which excise the C peptide, thereby generating the mature form of insulin. Insulin and free C peptide are packaged in the Golgi into secretory granules which accumulate in the cytoplasm. When the b cell is appropriately stimulated, insulin is secreted from the cell by exocytosis and diffuses into islet capillary blood. C peptide is also secreted into blood, but has no known biological activity The first step was to chemically synthesize the DNA chains that carry the specific nucleotide sequences of the A and B polypeptide chains of insulin. Product Generic name/Company Rec. human insulin Rec. HGH Humulin/Eli Lilly & Co. Protropin/Genentech Inc. 1982 1985 Diabetes mellitus hormone deficiency in children Rec. interferon-α Intron A/Scherin-Plough Rec. hepatitis B vaccine Rec. Erythropoietin Recombivax HB/Merck & Co. 1986 1988 1988 1991 1992 1986 Hairy cell leukemia Genital warts Kaposi’s sarcoma Hepatitis C Hepatitis B Hepatitis B prevention EPOGEN/Amgen Ltd. 1989 Rec. interferon-γ Acctimune/Genentech Inc. 1990 Colony-stimulating factor (CSF) Rec. anti-hemophiliac Leukine/Immunex Corp. 1991 Anemia of chronic renal failure Chronic granulomatous disease Bone marrow transplantation 1992 Hemophilia A 1993 Cystic fibrosis 1996 Christmas Disease Hemophilia B Recombinater AHF/ Baxter Healthcare Rec. DNase I Pulmozyme/Genentech, Inc. AlphaNine SD/Alpha Rec. coagulation factor Therapeutic Corp. IX Year of first U.S. Approved for Approval DNA polimorfismo ed identità 1980 -1990: l’analisi molecolare acquisì nuove potenzialità quando l’analisi dei polimorfismi di RFLP fu soppiantata dall’analisi dei polimorfismi di VNTR e di STR. 1984: Alec Jeffreys scoprì il così detto “Jeffreys’ probe” studiando la frazione dei minisatelliti del DNA altamente ripetitivo nel genoma umano. Identificò due sequenze “core” comuni ad una serie di VNTR associati al locus genico della mioglobina. Saggiandoli mediante “Southern blotting”, si produceva un “DNA fingerprint” che era una composizione di VNTR a loci multipli – “multilocus probes”. 1987: Y. Nakamura, R. White et al., ricercando VNTR di “single locus” identificarono più di 100 loci polimorfici distribuiti nel genoma. Ogni “probe” ibridizza ad un’unica regione ipervariabile del genoma e genera un “pattern” che consiste di una o due bande dal DNA di un individuo, a seconda che sia omozigote od eterozigote a quel locus . “Cocktails” di “probes” diversi diretti verso loci diversi sono utilizzati per scopi di medicina legale. DNA polimorfismo ed identità 1992: Thomas Caskey propose l’uso dei polimorfismi degli STR in medicina legale. La corta unità ripetitiva degli STR crea alleli più piccoli, creando le condizioni per recuperare un polimorfismo del STR anche da campioni di DNA degradato. L’analisi degli STR è stata sviluppata utilizzando la PCR ed il sequenziamento automatizzato del DNA. Nel 1997, FBI raccomandava che un pannello di 13 marker di STR, più un marker XY, divenisse la procedura standard utilizzata nelle indagini criminali. I moderni test del DNA hanno la capacità di identificare in maniera inequivocabile ogni persona vivente oggi. Nel Giugno 2002, “FBI’s Combined DNA Index System (CODIS) conteneva 1.013.746 profili di DNA, compresi 997.895 profili di criminali giudicati. Clonaggio genico: dal legame alla diagnosi del DNA La diagnosi del DNA è basata sul collegamento di un allele di un marcatore polimorfico all’eredità di un fenotipo di malattia. Più il marcatore è vicino al locus genico della malattia, più la diagnosi sarà accurata. L’analisi di “linkage” ha permesso di individuare i geni responsabili di alcune patologie genetiche monogeniche, come la malattia di Huntington (HD), la distrofia muscolare di Duchenne, la fibrosi cistica, ecc. www.ncbi.nlm.nih.gov/books/NBK22266 /#A273 La HD è un disordine neurodegenerativo che porta invariabilmente a perdita della funzione motoria, compromissione delle capacità mentali e morte precoce. E’ un raro esempio di patologia letale a trasmissione autosomica dominante. 1983: HD è stato il primo locus genico di malattia mappato mediante analisi del “RFLP/linkage” – mappato all’estremità telomerica del braccio corto del cromosoma 4. 1993: “Huntington’s Disease Collaborative Research Group” riuscì a clonare il gene HD. I pazienti di 75 famiglie con HD mostravano un polimorfismo di lunghezza nella regione codificante del gene dell’huntingtin causato da una ripetizione della tripletta CAG (Glu). Il gene normale dell’huntingtin presenta 6-35 ripetizioni CAG; la versione mutata nei pazienti HD ha 36-180 ripetizioni. Il numero di ripetizione è correlato con l’età di insorgenza dei sintomi; così individui con 36-41 ripetizioni possono anche non sviluppare sintomi di malattia, mentre quelli con più di 50 ripetizioni sviluppano i sintomi prima dei 20 anni. Disease Protein Number of triplet repeats (normal/disease) Huntington’s disease Fragile X mental retardation Spinocerebellar ataxia SCA1 SCA2 SCA3 SCA6 SCA7 SCA12 Spinobulbar muscular atrophy (SBMA) Dentatorubral and pallidolyusian atrophy (DRPLA) Ataxia with intellectual deterioration Schizophrenia Huntingtin FMR1 6–35/36–180 30/60–200 Ataxin-1 Ataxin-2 Ataxin-3 Ataxin-P/Q Ca 2+ channel Ataxin-7 PPP2R2B Androgen receptor 6–39/40–88 14–32/33–77 12–40/55–86 4–18/21–31 7–17/34–200 7–32/55–93 9–36/38–65 Atrophin-1 3-36/49-88 TATA-binding protein 25–42/45–63 KCNN3 Male infertility POLG1 12–28/Long alleles overrepresented 10/0 La malattia legata al cromosoma X, distrofia muscolare di Duchenne, è stato uno dei primi loci di malattia che è stato clonato prima di conoscere il suo prodotto proteico. Il gene distrofina (Xp21) è uno dei geni più grandi e complessi che si conosca che codifica per una proteina di 4000 aa. Questo gene appare essere predisposto a danno, spesso costituito da delezioni di esoni. 1989: isolamento ed analisi del gene che causa la fibrosi cistica (CF) sul cromosoma 7. Il gene della fibrosi cistica è un regolatore della conduttanza transmembrana (CFTR) (250.000 nucleotidi). Gli esoni del gene CFTR producono una proteina di 1480 aa. La lesione genetica primaria della CF è una specifica mutazione che interessa un singolo aa. Circa il 70% dei pazienti con CF mostrano una delezione di 3 bp DF508, che risulta nella perdita di un singolo residuo aa, Phe508. Identificazione dei geni coinvolti in patologie complesse L’asma, la schizofrenia ed il disordine bipolare sono esempi di patologie complesse od eterogenee. Ognuna di queste patologie coinvolge geni multipli la cui espressione è ulteriormente modificata da fattori ambientali come per esempio, la qualità dell’aria nell’asma, la dieta nel diabete mellito di tipo II, l’abuso di alcol o farmaci nella schizofrenia e nel disordine bipolare. Inoltre, a rendere le cose più complesse, ognuna di queste patologie ha un “range” di severità e di espressione. Lo scopo dello studio di popolazioni, come lo studio di famiglie, è quello di correlare polimorfismi del DNA particolari con un fenotipo di malattia. Nonostante ci siano numerosi problemi in questi studi e nelle metodologie utilizzate, negli ultimi 10 anni sono state evidenziate correlazioni per la schizofrenia con loci sui cromosomi 1, 6, 8, 10, 13, 15 e 22. Similmente per il disordine bipolare sono state evidenziate correlazioni con loci sui cromosomi 4, 12,13, 18, 21 e 22. Polimorfismi a singolo nucleotide 1990: i polimorfismi a singolo nucleotide (SNP) non sono altro che mutazioni puntiformi. Vari geni possono essere associati con differenti “markers” in diversi gruppi di popolazione. Per essere utile nella scansione dei geni, un SNP deve avere una frequenza nella popolazione di almeno l’1%. Una volta che la mappa del genoma umano sarà altamente popolato con SNP, i geni correlati a malattie potranno essere identificati in popolazioni eterogenee di individui non correlati. Farmacogenomica L’uso della sequenza del genoma umano per fornire l’informazione per la scoperta dei farmaci è chiamata farmacogenomica. Ogni gene che è stato in maniera definitiva correlato ad una malattia diviene un bersaglio confermato per la scoperta di farmaci. La conoscenza delle mutazioni in quel determinato gene e quindi dei corrispondenti cambiamenti nelle strutture tridimensionali della proteina codificata, permette di sviluppare strategie per lo screening di librerie di composti. Farmacogenetica • Gli SNP offrono la potenzialità di poter predire la risposta negativa ad un farmaco. • La risposta ai farmaci è largamente mediata dagli enzimi metabolici nel fegato – citocromo P450 monossidasi (CPY450s) – che detossificano composti e metabolizzano molti farmaci nelle loro forme bioattive . Così si possono distinguere tre gruppi di persone: 1) persone che sono “metabolizzatori attivi” che efficientemente convertono un determinato farmaco nella sua forma attiva e/o lo metabolizzano ad una velocità che produce l’effetto terapeutico desiderato; 2) persone che sono “metabolizzatori deboli” che non convertono quantità sufficienti del farmaco nella sua forma attiva o lo metabolizzano ad una velocità che non permette di produrre un effetto terapeutico; 3) persone che sono “metabolizzatori tossici” che convertono il farmaco in un prodotto tossico o lo metabolizzano così lentamente che si accumula producendo livelli tossici. Farmacogenetica L’enzima CPY2D6 è coinvolto nel metabolismo di almento 40 farmaci ed i soggetti “metabolizzatori modesti” dei farmaci ereditano un enzima CPY2D6 difettoso. 1988: il clonaggio e sequenziamento del gene CPY2D6 ha rivelato che i “metabolizzatori modesti” hanno polimorfismi di questo gene che producono errori dello “splicing” o sostituzioni di aa. Infine, diversi appaiamenti di aplotipi di SNP nel gene CPY2D6 predicono la risposta al farmaco anti-asma albuterolo.