Applicazioni della Genetica - La genomica strutturale (mappatura fisica e sequenza di genomi). - La genomica funzionale (trascrittoma, insieme completo dei trascritti e proteoma, l’intera gamma delle proteine codificate dal genoma). -La genetica in medicina (sviluppo di test genetici, DNA fingerprinting). - Produzione di sostanze di interesse farmacologico (insulina, interferone, ormone della crescita, fattore dell’emocoagulazione VIII, antibiotici, vaccini). - Uso di microrganismi ingegnerizzati per la degradazione di sostanze inquinanti (erbicidi, pesticidi, fluidi frigoriferi, composti organici come xilene, toluene, pentaclorofenolo). - Il DNA ricombinante negli eucarioti (piante ed animali transgenici, terapia genica). CHE COS’E’ LA GENOMICA “GENOM” (Hans Winkler, Univ. Hamburg, 1920) gen "gene" + (chromos)om "chromosome” Si riferiva all’insieme dei cromosomi, intesi come vettori dei fattori ereditari. GENOMICA: Lo studio dei genomi, a partire dalla determinazione delle sequenze nucleotidiche del/dei cromosoma/i di un organismo. G-A-T-C La Genomica puo’ essere suddivisa in: - Strutturale - Funzionale DIMENSIONI DEI GENOMI Archaea Il paradosso del valore-C Il DNA genomico totale (aploide) caratteristico di un organismo è detto valore-C (C-value). Una relazione diretta tra contenuto di DNA e complessità dell’organismo si riscontra fino ai nematodi. In alcuni phyla evolutivi si hanno grosse variazioni del contenuto di DNA tra organismi che mostrano la stessa complessità. La Densità Genica: correla una data lunghezza di DNA (Mb) con il numero di geni. La DG è calcolata come rapporto: numero di geni / dimensione del genoma (Mb). La DG decresce in funzione della quantità di DNA non codificante e ripetuto, quindi in generale la Densità Genica è inferiore negli eucarioti rispetto ai batteri. Negli eubatteri e negli archaeobatteri si ha un gene ogni circa 1 kb e la DG è molto alta. Il moscerino della frutta ha un genona di 180 Mb e una DG di 82 pari a gene ogni 12-13 kb. Il pesce palla ha un genoma piccolo (393 Mb) ma con numerosi geni (22000 ) di cui molti sono omologhi con quelli umani. Di conseguenza ha una DG relativamente alta 52 con un gene ogni 18 kb. Pur essendo un eucariota il pesce palla presenta pochi introni e di piccole dimensioni. La DG dell’uomo è ~ 6, nel topo ~ 8. I genomi di alcuni anfibi e felci sono 200 volte più grandi di quelli dell’uomo e del topo, mentre il lievito pur essendo un eucariota ha una quantità di DNA di 12 Mb e una DG di 480 simile a quella di alcuni batteri. Nell’uomo sono state trovate 80 regioni di 1 Mb prive di geni (deserti genici) pari al 25% dell’intero genoma. E’ stata analizzata una regione di 60 Kb OBIETTIVI ALLA PARTENZA DEI PROGETTI GENOMA Mappa genetica di E. coli effettuata per coniugazione - Costruire delle mappe genetiche e fisiche - Determinare la sequenza della basi del DNA - Identificare tutti i geni, e le sequenze regolative - Caratterizzare le sequenze di DNA non codificante - Individuare le basi molecolari dei processi biochimici cellulari e delle differenze esistenti tra i vari organismi Aumento delle sequenze depositate (GeBank, EBi, DBJL) dal 1985 al 2006 Le prime molecole di acidi nucleici ad essere sequenziate furono RNA - Nel 1966 un tRNA - Nel 1976 alcuni RNA del batteriofago MS2 PRIMI ORGANISMI AD ESSERE SEQUENZIATI – I VIRUS Sanger, F., Air, G.M., Barrell, B.G., Brown, N.L., Coulson, A.R., Fiddes, C.A., Hutchison, C.A., Slocombe, P.M. and Smith, M. Nucleotide sequence of bacteriophage PhiX174 DNA. (1977) Nature, 265, 687695. ΦX174 è stato il primo virus di E. coli caratterizzato a livello di sequenza nucleotidica. Il suo genoma è costituito da un a singolo filamento di DNA circolare (ssDNA) di 5386 nucleotidi. Molti geni di ΦX174 sono sovrapposti (vengono usati differenti moduli di lettura). I primers erano ottenuti purificando frammenti di restrizione del DNA fagico ed il lavoro si prolungò per circa 2 anni. Fiers, W. et al. (1978) Complete nucleotide sequence of SV40 DNA. Nature, vol.273: 113-20. SV40 SV40 è un virus in grado di infettare cellule eucariotiche. Il suo genoma è costituito da DNA a doppio filamento (dsDNA), ed è composto di 5243 nucleotidi. Il genoma del batteriofago lambda è costituito da 48502 bp. Può essere presente nelle forme lineare o circolare. J.Mol.Biol. (1982) 162, 729-773 Shotgun sequencing - degradazione parziale del DNA mediante sonicazione -clonaggio in derivati del batteriofago M13 - “hybridization probes” per selezionare i cloni su piastra (colony blot) necessari a coprire i gap tra i frammenti di DNA. Dal 1995 inizia l’analisi dei genomi su grande scala Haemophilus influenzae Dimensioni del genoma: 1,83 Mb Sonicazione del DNA N° cloni selezionati : Science (1995) 269; 496-512 19687 N° reazioni di sequenza eseguite: 28643 N° coppie di basi di sequenza ottenute: 11 X 106 N° di contigs analizzati: 140 (150 Kb ognuno) N° di ore necessarie per elaborare i dati ed assemblare la sequenza preliminare: 30 “Coverage” del genoma: P= probabilità, (140) 150 Kb 6X m = copertura P=e-m P=2,73-6= 99,75% del DNA è stato sequenziato Le regioni contenenti dei “gap” sono state unite utilizzando due strategie: -“library” in λ, contenenti frammenti più grandi (15–20 kb) degli originali 5 kb. -PCR con coppie di primers dedotte dai 140 contigs. contig 5 Kb Architettura del genoma (1,8x106 bp) del batterio Haemophilus influenzae cloni seq. term ori Sono riportati dall’esterno verso l’interno: siti di restrizione; geni distinti in gruppi funzionali (legenda); regioni ad alto contenuto di G-C (rosso e blu); regioni ad alto contenuto di A-T (nero e verde); sovrapposizione dei cloni usati per il sequenziamento; operoni per rRNA (verde) e tRNA (nero); origine di replicazione (frecce verdi) e siti di terminazione (rosso). Il DNA del H. influenzae contiene 1737 geni (87% del genoma) di cui 469 sono geni sconosciuti e le eventuali proteine sintetizzate non hanno corrispondenza con proteine presenti nelle banche dati. Tra il 1995 ed il 1997 è stata determinata la sequenza dell’intero genoma dei seguenti microrganismi: Haemophilus influenzae Micoplasma genitalium Saccharomyces cerevisiae Methanococcus jannaschii Escherichia coli Genoma di Escherichia coli . . contains 4 639 221 bp for a total of 4288 genes (87,8% of the genome) Unknown genes Generaltà su alcuni genomi Methanococcus jannashii è un archeobatterio che vive a 85°C. Possiede un cromosoma circolare di 1.665 Mb (1682 geni) e 2 plasmidi: uno piccolo 16550 bp (12 geni) e uno grande 58407 (44 geni). Molti geni della replicazione del DNA, della trascrizione e della traduzione sono simili a quelli eucariotici. Saccharomyces cerevisiae ha 16 cromosomi (~12 Mb) portanti 6607 geni di cui solo 233 (3-4%) presentano introni. Drosophila melanogaster ha un genoma di ~1.8 Mb di cui 60 Mb formato da DNA altamente ripetuto e non sequenziabile. Sono stati trovati molti geni omologhi con l’uomo ed in particolare con malattie umane. Cenorhabdits elegans è un nematode di circa 1 mmm. Ha un genoma di 100,3 Mb con 20443 geni per proteine e 1270 per diversi RNA. Il numero dei geni è comparabile a quello umano. Arabidopsis thaliana possiede un genoma di 120 Mb con un numero di geni (25900) simile a quello dell’uomo. Sono stati trovati molti geni omologhi con l’uomo ed in particolare con malattie umane. Oryza sativa possiede un genoma piccolo (389 Mb) con un numero molto elevato di geni (56000) superiore a quello umano. Mus musculus possiede un genoma molto simile a quello dell’uomo (2700 Mb) con i suoi 22000 geni per proteine e 3200 geni che codificano per diversi tipi di RNA (rRNA, tRNA, snRNA e microRNA). Canis familiaris possiede un genoma di 2500 Mb con 15000 codificanti proteine e 2500 per RNA. I cani come i topi presentano gran parte dei geni umani. Importanza della selezione artificiale e lo studio di quelle razze che costituiscono modelli naturali per centinaia di malattie dell’uomo. Il Progetto Genoma (HGP) Agli inizi degli anni 90’ la comunità scientifica si propose di sequenziare l’intero genoma umano, 3.2x109 nucleotidi (equivalente a 2000 libri da 500 pagine ognuno), entro i primi anni del terzo millennio. Viste le dimensioni del genoma, ai maggiori centri di ricerca, finanziati con grants pubblici (consorzio pubblico coordinato da Francis Collins) vennero assegnate specifiche regioni di cromosomi o cromosomi interi. Sei sono i paesi che hanno coordinato il lavoro e contribuito maggiormente alla realizzazione di questo progetto. Il 70% della sequenza è stata ottenuta da un solo campione (donatore anonimo e sorteggiato) mentre il restante da diversi individui sempre anonimi. I Principi delle Bermude (1996): rilascio dei dati di sequenza nelle banche pubbliche entro 24 ore dal loro assemblaggio. Le sequenze dovevano essere repentinamente rese disponibili a tutta la comunità scientifica. Negli anni 90’ erano comunque disponibili un gran numero di sequenze di cDNA. Stati Uniti 55-60 % Gran Bretagna 33 % Giappone 10 % Francia 2,5 % Germania 1,5 % Cina 1% Sequenze di DNA di 500-1000 basi, read, vengono allineate utilizzando le regioni condivise (overlapping sequences) tra differenti frammenti. Per genomi come quello umano è necessario procedere con un fattore di ridondanza (coverage) pari a 8-10. Il numero di reads se poste testa-coda, dovrebbe coprire 10 volte il frammento di DNA da sequenziare. Sub-clonaggio e sequenziamento Strategia adottata dal consorzio pubblico (sequenziamento clone per clone) Il consorzio pubblico ha proceduto sequenziando grossi frammenti di DNA la cui posizione era stata previamente identificata sulla mappa. Grossi frammenti di DNA clonati in YAC o BAC vengono subclonati in vettori adatti al sequenziamento. La working draft consiste di circa 20.000 contigs (circa 200 Kb) subclonati in 20-30 frammenti di DNA di 5-6 kb ognuno. Il costo della prima fase (working draft) è stato di circa 300 milioni di dollari. Gli obiettivi della seconda fase erano: a) ordinare ed orientare i frammenti di ognuno dei 20.000 contigs (gruppi); b) riempire i gaps. Basso n° di copie (1-2/cellula) Elevata capacità: 150 -300 kb Il costo finale per il completamento del progetto genoma dovrebbe essere di circa 600 milioni di dollari. Pubblicazione 2004. Strategia adottata dalla Celera Genomics IL progetto pubblico prevedeva il sequenziamento di grossi frammenti di DNA che sono stati ordinati sulla mappa (dato che è nota la posizione, la sequenza è subito utilizzabile). La Celera Genomics ha effettuato il sequenziamento del genoma umano seguendo una Global Shotgun Strategy. Questa strategia necessita di una enorme quantità di dati per iniziare il processo di assemblaggio (27 milioni di frammenti da 500-600 basi per un totale di 30-35 miliardi di basi sequenziate che assicura una copertura del genoma di 10 volte). La Celera aveva sperimentato con successo questa procedura nel sequenziamento del genoma di Drosofila (la mappa pubblicata, 1.8 MB seppur incompleta risulta di ottima qualità). 2 kb 10 kb 50-100 kb I cloni sono stati ottenuti da 3 librerie composte da frammenti di differente lunghezza (2 Kb, 10 Kb e 50-100 Kb). Ogni inserto è sequenziato da entrambe le estremità con un sequenziatore automatico che può leggere 500 basi. Dopo subclonaggio in pUC gli inserti di grosse dimensioni portati nei BAC furono sequenziati fondamentalmente a caso. Le sequenze sono state ottenute da cinque individui appartenenti a differenti gruppi etnici. I laboratori per il sequenziamento di geni alla Celera Genomics diretta da Craig Venter (Rockville-Maryland ) Sono visibili alcuni dei 300 sequenziatori automatici di DNA utilizzati per la determinazione della sequenza dei genomi. Assemblaggio di contigs mediante siti di sequenze-etichette (STS) Gli STS (sequence-tagged sites) sono sequenze uniche (100-300 bp) rivelabili mediante PCR con una specifica coppia di primers. I microsatelliti sono una classe polimorfica di STS molto usata. Anche se inizialmente le posizioni genomiche di questi siti non sono note, si può costruire un quadro composto da molti STS ed utilizzarlo per allineare i contigs, cloni portanti grossi inserti in YAC, o in BAC o in PAC. Per realizzare una mappa fisica completa ad alta risoluzione del genoma umano occorrono almeno 30.000 STS. Identificazione di un STS in PCR mediante una coppia specifica di primers Procedura utilizzata per realizzare l’assemblaggio delle sequenze di un genoma (Whole-Genome-Assembly) 10 - 100 Kbp 0.5-1.0 Kbp Contigs: tratti di sequenza assemblati senza discontinuità (cloni sovrapposti). Scaffolds: serie di due o più contigs uniti da lunghi inserti, le cui estremità sono in diversi contigs ma di cui non si conosce la regione centrale. Assemblaggio di contigs viene effettuato identificando ed allineando i siti di sequenze-etichette (STS) Confronto delle due strategie adottate per il sequenziamento del genoma umano Le strategie seguite dal consorzio pubblico, sequenziamento clone per clone e dalla Celera Genomics, sequenziamento shotgun, sono diverse e allo stesso tempo complementari. C. Venter F. Collins La Celera Genomics ha potuto allineare i differenti scaffolds sia avvalendosi dei dati ottenuti dal consorzio pubblico sia mediante l’uso dei siti di sequenzeetichetta STS (ibrido tra shotgun puro e strategia di mappatura-sequenziamento). Risultati Genoma umano: 3.2 Gb La mappa 2004 contiene 2.85 Gb corrispondente al 90% del genoma. L’ errore è del 0.001% e la prima mappa presenta 341 interruzioni (DNA altamente ripetuto o Z-DNA). Pubblicazione su Nature. Le interruzioni sono state ridotte a 200 nel 2009. Meno del ~2 % del genoma sono esoni. Al momento abbiamo circa 21500 geni codificanti proteine e 4800 geni codificanti RNA (rRNA, tRNA, snRNA e microRNA) Il numero di geni stimato è 32-35000 ~65% ~43% ~35% 23% è costituito da introni 70-75% è DNA intergenico Identificati circa 3 milioni di Single Nucleotide Polymorphisms (SNPs). Pubblicazione su Nature nel 2005 e 2007. Circa 1% di questi SNPs può avere un impatto su funzioni proteiche. ~2% Nel 2007-08 inizia l’era del sequenziamento genomico personalizzato. I primi 2 DNA sequenziati sono stati quelli di J. Watson e C. Venter. Sequenziamento di 1000 individui appartenenti a diversi gruppi etnici. Mappa genica umana Le regioni in rosso indicano porzioni dei cromosomi ad alta densità genica (ad esempio i cromosomi 15, 16, 17, 19, 20 e 22). Altri cromosomi come ad esempio 3, 4, 5 18, X e Y mostrano una colorazione rossa molto debole e i tratti in verde indicano le regioni povere di geni. Funzione sconosciute Dati cromosoma 22 Un cromosoma ha una lunghezza di ~150 Mb. La sequenza del cromosoma 22 (braccio lungo) è nota per il 97% (margine errore 1:50,000). Interruzioni tra i diversi contigs si hanno nelle regioni centromeriche e telomeriche (eterocromatina). Pur essendo uno dei cromosomi a più alta densità genica, le regioni codificanti occupano solo una piccola frazione del cromosoma 22. Sono stati identificati 679 geni: 247 geni noti, 150 geni correlati le cui sequenze sono omologhe a geni noti umani o di altre specie, 148 predetti, 134 pseudo-geni che a causa di mutazioni non sono espressi. Presenza di numerosi geni ortologhi (uomo-topo). Barre rosse sequenze ripetute Barre blu sequenze corrispondenti ad esoni Circa il 45% del genoma è costituito da DNA ripetuto ► Circa 850,000 Long Interspersed Elements, LINEs, (6-8 kb elementi completi, 1-2 kb elementi tronchi) pari al 21% dell’intero genoma. ► Circa 1,5 milioni di copie di Short Interspersed Elements, SINEs, (100-300 bp) pari al 13% dell’intero genoma. LINEs e SINEs sono dei retrotrasposoni. ► Retrovirus-trasposoni-simili (450,000 copie, 8% del DNA totale). ► Trasposoni 300,000 copie (3% dell’intero genoma). La proteina p40, ORF1, è una chaperonina (attività sul folding dell’RNA). La ORF2 specifica per una proteina che ha attività sia di endonucleasi che di trascrittasi inversa. Meccanismo che porta alla formazione di uno pseudo-gene La endonucleasi taglia il DNA nelle regioni ricche in AT, in particolare nella sequenza TTT↓A. La trascrittasi inversa spesso non procede fino all’estremità 5’ dell’RNA formando elementi tronchi e quindi inattivi. Il macchinario molecolare dei LINES è responsabile della retrotrasposizione dei SINES e della formazione di pseudo-geni. Gli pseudo-geni mancano della regione promotrice e regolativa e quindi non vengono trascritti. DNA Microarrays High density gridder In the past, scientists analyzed the expression of a single or a couple of genes involved in a particular biological pathway. Nowadays, with the availability of the complete genome sequence of many organisms, our view of analyzing gene expression has changed. These mountains of information generated by the systematic sequencing of entire genomes have forced scientists to look for new tools to allow them a global view for tracking the expression of many genes at once. The first differential expression measurements of 45 Arabidopsis thaliana genes was made in Patrick O. Brown laboratory (Science, vol.270, 1995). In general, DNA Array production begins with the design of gene-specific primers, needed to amplify, by PCR, every open reading frame of the genome. Alternatively synthetic oligonucleotides specific for every gene are synthesized. DNA is spotted onto different surfaces. as many as 10.000 genes per cm square are spotted (nylon membranes or glass slides). The DNA is fixed by U.V. crosslinking. Ø of a single spot = 75 m A certain sequence is found in a genome every 4n bases. When n=16, 4n is greater then 3,2x109 bp so a 16 nt oligonucleotide is unique in human genome The surface of the array is covered with thousands, tens of thousands, (or soon with hundreds of thousands) of spots, each spot containing a different DNA oligomer (different genes). Each oligomer in a DNA microarray can serve as a probe to detect a unique, complementary DNA or RNA molecule. Differential gene expression following heat-shock in E.coli cells. Two E.coli gene arrays were probed with [33P]-labeled cDNA from cells grown at 30°C (control sample) or cells induced at 42°C for 40 minutes (heat-shock sample). The above phosphorimages were obtained following an overnight exposure to imaging plates. Cell grown at 30°C Cell grown at 42°C H. pylori, B. subtilis and E. coli gene arrays (a pair of membranes) cost about 3, 4 and 21 million of lire, respectively. Affimetrix Scanner The use of DNA microarrays in differential gene expression analysis Comparative hybridization experiment involves isolation of messenger RNA (mRNA) from two separate samples (A). The mRNA from each sample is treated with reverse transcriptase (B) and labelled with a distinct fluorescent tag (C). The two pools of labelled RNA are mixed, hybridised to the DNA microarray containing a full set of thousands or tens of thousands of DNA sequences based on genome or complimentary DNA (cDNA) sequences, and washed (D). The microarray array is scanned using a specialised fluorimager, and the colour of each spot is determined (E). In this example, genes expressed only in sample A would be red in colour, genes expressed only in sample B would be green and those genes expressed equally in both samples would be yellow. This allows researchers to determine genes that are specifically expressed: 1) in response to specific treatment or disease; 2) under stress conditions or different growth conditions; 3) tissue-specific genes that are expressed in one tissue, but not in other; 4) analysis of different genetic background (wt and mutants). The transcriptional program in response of human fibroblasts to serum (Brown’s experiment - analysis of 8600 genes) 1 2 3 RNA is extracted from cells treated with serum (probe 1) and from control cells in the absence of serum (probe 2). Probe 1 and 2 are mixed and used to hybridize to DNA chips. Red spots (n. 2 and 4) = genes activated in the presence of serum Green spots (n. 3) = genes activated in absence of serum Yellow spots (n. 1) = genes expressed both in the presence and in the absence of serum (1, 2 and 3, triplicate experiments) Espressione di geni eucariotici in cellule batteriche Iperproduzione del fattore della coagulazione VIII (emofilia) Iperproduzione del insulina umana Le catene A e B dell’insulina sono sintetizzate come proteina di fusione con la b-Gal 1) 2) 3) 4) Il cromosoma di una cellula di E. coli ingegnerizzata contiene il gene della RNA polimerasi di T7 sotto il controllo del promotore lac. Induzione del promotore lac mediante IPTG. Sintesi della RNA polimerasi di T7. La RNA polimerasi di T7 trascrive il gene clonato a valle del promotore tardivo di T7 sul vettore di espressione (Serie pET). Sintesi di prodotti commerciali – L’enzima di restrizione PstI Strategia adottata per la clonazione e la selezione del gene per l’endonucleasi di restrizione PstI 1. Digestione del DNA cromosomiale di Providencia stuartii con HindIII. • Creazione di una genoteca di P. stuatii in E. coli HB101. • I trasformanti sono stati coltivati in mezzo liquido e successivamente infettati con l. • Selezione delle cellule resistenti all’azione litica del batteriofago. L’enzima PstI espresso degrada il DNA di l. • I cloni resistenti alla lisi ad opera di lambda sono stati sottoposti ad shock osmotico per liberare le proteine periplasmatiche ed analizzati per l’attività enzimatica di restrizione PstI. All’interno di un frammento di 4 Kb i cloni positivi contenevano l’operone intatto dell’endonucleasi di restrizione PstI e della metilasi compreso in promotore di P. stuartii. Il livello di PstI espresso in E. coli è circa 10 volte superiore a quello tipico di P. stuartii. La produzione di mammiferi geneticamente identici (cloni). ‘Dolly’ è stata generata impiantando il nucleo tratto da una cellula di mammella di una pecora di razza Finn Dorset nell’uovo enucleato di una femmina Scottish Blackface. In questo modo è stato dimostrato che in cellule altamente differenziate di mammiferi adulti il nucleo è ancora totipotente.