Identificazione di geni candidati nella regione individuata Dopo aver localizzato un gene responsabile di una malattia vicino ad un “ marcatore polimorfico del DNA” si può pensare ad una strategia per identificare e poi clonare il gene responsabile Catalogazione di tutti i geni della regione: quando il locus del gene di una malattia è stato localizzato in una regione, i ricercatori cercano, all'interno di questa regione, tutte LE SEQUENZE CODIFICANTI. Diversi modi per identificare le regioni codificanti in una serie di cloni genomici: 1. Si possono usare analisi bioinformatiche : -si possono rivelare regioni codificanti cercando schemi di lettura aperti, o usando programmi che riconoscono la struttura dei siti di splicing; -si può verificare se la sequenza genomica compare in uno o più cloni EST ottenuti da diversi tessuti umani 2. Si può analizzare la sequenza mediante ZOO blot: le sequenze codificanti degli esseri umani hanno quasi sempre una sequenza conservata nei mammiferi e spesso le due sequenze ibridano tra loro; questa ricerca si fa per Southern 3. Si può usare la tecnica definita dell’ ”exon trapping” (questa tecnica è stata usata nell‘identificazione del gene della Corea di Huntington, dopo avere associato la malattia ad un polimorfismo) Descrizione dell’ “exon trapping” Si clonano tutti i frammenti genomici della regione di interesse in un vettore di questo tipo: VETTORE P1 P2 Esone 1 Introne Esone 2 mcs Esone 1 Esone A TRASFEZIONE e TRASCRIZIONE AAAAAAAA Trascritto PRIMARIO TRASFEZIONE e TRASCRIZIONE AAAAAAAA Trascritto PRIMARIO SPLICING Trascritto MATURO AAAAAAAA P1 AMPLIFICAZIONE Esone 2 SPLICING AAAAAAAA Trascritto MATURO P1 AMPLIFICAZIONE AAAAAAAA P2 PRODOTTO DI PCR P2 PRODOTTO DI PCR Se nel SITO MULTIPLO DI CLONAGGIO del vettore si è inserito un frammento che possiede un ESONE, il prodotto di amplificazione risulterà più grande di quello del vettore in cui sia entrato un frammento contenente una regione non codificante che verrà elimita con lo SPLICING CLONAGGIO POSIZIONALE La capacità di identificare ed isolare geni sulla base di informazioni riguardanti la loro localizzazione cromosomica è stato uno dei maggiori contributi della genomica: questo approccio è detto CLONAGGIO POSIZIONALE (un esempio è dato dal clonaggio del gene della Corea di Huntington) Il CLONAGGIO POSIZIONALE dipende dalla disponibilità di mappe dettagliate della regione cromosomica in cui sono localizzati i geni di interesse. È possibile fare un'analisi di associazione con centinaia di “MARCATORI ANONIMI (come ad esempio gli SNP o i MICROSATELLITI) ed il locus della malattia a cui si è interessati. Se si dimostra un'associazione tra la malattia ed 1 o più marcatori del DNA, mappati in precedenza, allora il gene responsabile è mappato nella regione dove questo "marcatore" è localizzato; ciò facilita il suo CLONAGGIO La Corea di Huntington è stata la prima malattia per cui si è trovata una associazione con un RFLP La Corea di Huntington è una malattia neurodegenerativa, molto grave che è stata descritta in modo dettagliato verso la fine dell’800 da un medico, George Huntington. Una ricercatrice Wexler, la cui famiglia era stata colpita dalla malattia, si è molto impegnata per l’identificazione del gene responsabile. Ha iniziato una collaborazione con un altro giovane ricercatore Jim Gusella, a Boston, ed insieme hanno immaginato la strategia che si è poi rivelata vincente per l’identificazione del gene. Anche se il mondo accademico, intorno al 1983, era ancora scettico sull’uso dei marcatori molecolari polimorfici, loro hanno deciso di utilizzarli per la Corea di Huntington. Avevano a disposizione 2 famiglie, una americana dell’Iowa non molto numerosa ed una del Venezuela, molto numerosa. Hanno raccolto i campioni di DNA di tutti i possibili componenti delle due famiglie e li hanno analizzati usando, a caso, sonde polimofiche che mappavano su diversi cromosomi. Sono stati molto fortunati, in questa fase, poiché all’ottavo tentativo (avevano solo 12 sonde polimorfiche a disposizione), hanno trovato l’associazione! La sonda si chiamava G8! Regione genomica in cui mappa la sonda G8 H H1 (R) H R H2 HR H R R H ( R) CLONE G8 cromosoma 4 (parte telomerica) Aplotipi identificati dal clone G8 H (H)1 (H)2 H H H H Siti HindIII polimorfici 2Kb H1 17,5 3,7 1,2 2,3 17,5 4,9 15,0 3,7 15,0 4,9 8,4 2,3 1,2 2,3 2,3 8,4 8,4 8,4 32,6 kb 2 siti polimorfici H1 e H2! Regione corrispondente nel genoma umano APLOTIPO H2 - + A - - B + + C + - D Ricerca dell’associazione dell’aplotipo rivelato dalla sonda G8 in due famiglie con la Corea di Huntington Famiglia americana AB AB AB AC AB AB AB AA AA AA AB AA AA AB AA AB AA AC AC AA AA AA Associazione con l’aplotipo A (sonda G8) AC Famiglia venezuelana AB AA AB AB AC AB AC AC AB AC AA BC BC BC BC AB BB BC AB AB AB AB BC AB AB BC BB BC AB BC AA BC BC BC AB BB BC BC Associazione con l’aplotipo C (sonda Analisi di associazione del gene della Corea di Huntington con altre sonde polimorfiche della regione Braccio corto del cromosoma 4 (4p) Telomero del 4p Usando altre sonde posizionate verso il centromero il Lod-score diminuiva e quindi ci si allontanava dal gene; quindi il gene era localizzato tra la sonda G8 ed il telomero ad una distanza di 4cM cioè di circa 6 Mega basi Identificazione del gene responsabile della Corea di Huntington (IT-15) Dopo che è stata dimostrata l’associazione con la sonda polimorfica, la regione in cui è localizzato il gene è saturata e tutte le sonde sono analizzate per l’identificazione di trascritti, con la tecnica dell’”exon trapping”. Usando poi confronti tra sani e malati si identifica il 500 kb GENE RESPONSABILE D4S10 (G8) D4S180 D4S98 D4S127 D4S95 telomero centromero Il trascritto è di 11 kb, la proteina è di 3144 aa (348 kda) 200 kb IT-15 CROMOSOMA 4 17 alleli con 11-34 Q affetti 48 Q 67 E IT-11 IT-10C ADDA Scoperta del gene responsabile della malattia L’ identificazione del gene responsabile richiede anche l’analisi di espressione dei geni “candidati”. Ad esempio il gene responsabile del fenotipo neurodegenerativo della Corea di Huntington deve essere espresso nel cervello, mentre un gene responsabile di un tumore alla mammella deve essere espresso in quel tessuto. Negli organismi molto studiati le informazioni sull'espressione possono essere già disponibili nelle banche dati pubbliche delle sequenze EST. Se il pattern non è noto si effettua un Northern blot. Se la sequenza del DNA o del trascritto del gene candidato è alterato in tutti gli individui con la malattia con buona probabilità quello è il gene candidato. Per confermare che uno dei geni identificati sia proprio il GENE RESPONSABILE della malattia, bisogna confrontare la sequenza del gene candidato nel gruppo di individui con la malattia con quella di individui con un fenotipo normale. Oltre al pattern di espressione e la sequenza, alcune ulteriori conferme che il gene identificato è il gene RESPONSABILE del fenotipo alterato sono: 1. Il recupero del fenotipo mutato attraverso l’inserimento di un gene funzionale 2. Il “knock out” del gene Queste prove ulteriori sono ovviamente da compiere in sistemi modello e costituiscono la “GENOMICA FUNZIONALE” RFLP e clonaggio posizionale del gene responsabile della fibrosi cistica CFTR (Cystic Fibrosis Transmembrane Regulator) La relazione approssimativa tra la distanza tra loci nella mappa genetica e la loro effettiva distanza in coppie di basi è la seguente: 1 cM = 1 Unità di Mappa = 1% di frequenza di ricombinazione = 1 Megabase 106 bp (2cM) 5’ 3’ quattro geni candidati IDENTIFICAZIONE DEI GENI CANDIDATI Identificazione del gene responsabile della Fibrosi Cistica 28 S 18 S I bambini affetti da CF hanno una varietà di sintomi che derivano dalla anormale viscosità delle secrezioni polmonari, del pancreas e delle ghiandole sudoripare. L'analisi per Northern, dei 4 geni candidati, ha dimostrato che solo uno, chiamato CFTR, era espresso in tutti i tessuti interessati e non in altri. Il gene, sequenziato nei pazienti, conteneva piccole delezioni o sostituzioni nucleotidiche che ne sopprimevano la funzione. Alcune delle proteine mutanti non si localizzano nella membrana Alcuni dei geni identificati con il “CLONAGGIO POSIZIONALE” Cromosoma 4 Malattia di Huntington Cromosoma 5 Poliposi familiare (APC) Cromosoma 7 Fibrosi cistica Cromosoma 11 Tumore di Wilms Atassia-telangiectasica Cromosoma 13 Retinoblastoma Cromosoma 16 Malattia policistica del rene Cromosoma 17 Cancro della mammella (BRCA1) Neurofibromatosi Cromosoma 19 Distrofia miotonica Cromosoma 21 Sclerosi laterale amiotriofica Cromosoma X Distrofia muscolare di Duchenne Sindrome X fragile Adrenoleucodistrofia Aspettative per la realizzazione del Progetto Genoma Umano La spinta verso la realizzazione del PROGETTO GENOMA è stata la consapevolezza che la conoscenza della sequenza del genoma completo avrebbe potuto permettere più facilmente l ’ identificazione di geni responsabili di MALATTIE GENETICHE Ciò si sarebbe ottenuto attraverso la “reverse genetics” che mette in relazione pezzi di DNA (di cui è nota la localizzazione sui cromosomi) a funzione sconosciuta con una malattia, allo scopo di identificare il gene responsabile L’identificazione di un gene responsabile della malattia può fornire informazioni sul suo ruolo, sul tipo di proteina che produce, rendendo più semplici anche le ricerche su nuovi farmaci; può inoltre permettere di allestire test diagnostici per la malattia e di applicare la terapia genica. I geni responsabili di malattie già noti sono disponibili al sito OMIM : http://www3.ncbi.nlm.nih.gov/Omim/. Progetto Genoma Umano Gruppi coinvolti nel progetto: Pubblico: Internartional Human Genome Sequencing Consortium Privato: Celera Genomics. Costo del progetto -> circa 3 milioni di euro Pubblicazione della prima bozza sul numero di Nature 15 Febbraio 2001 Sito web-> www. nature.com Risultati del sequenziamento del Genoma Umano • Sono state sequenziate 3.2 Gigabasi di DNA (3200 Megabasi, 3.200.000 kilobasi, 3 miliardi e duecentomila basi). • Si è calcolato un numero di geni (ancora non definitivo) pari a circa 25.00035.000 (sono di meno di quanto la comunità scientifica si aspettasse). • Sono stati anche sequenziati completamente i genomi di alcuni organismi modello. • I geni sono : 6000 nel lievito, 13000 nella Drosophila, 18000 in C. elegans, 26000 in Arabidopsis Thaliana. Lo studio dei GENOMI interi di organismi prende il nome di GENOMICA Mappe fisiche La base per il SEQUENZIAMENTO DEI GENOMI è stata la produzione di MAPPE FISICHE; a loro volta queste sono ottenute da mappe di associazione (GENETICHE) e mappe CITOGENETICHE La MAPPA FISICA è una costellazione di frammenti di DNA sovrapposti ordinati ed orientati che si localizzazano su ciascun cromosoma in un genoma; e quindi indicano l’ EFFETTIVO NUMERO DI COPPIE DI BASI che definiscono un locus e lo separano da quello adiacente in una determinata regione cromosomica. Per generare una MAPPA FISICA completa è necessario ottenere un insieme di cloni ordinati (contig) che si sovrappongono e che nel loro insieme rappresentino un INTERO CROMOSOMA O ADDIRITTURA UN INTERO GENOMA. 1) I MARCATORI GENETICI, eventualmente presenti nei cloni, possono essere ORDINATI contribuendo alla MAPPATURA DEL GENOMA 2) Si ottengono dei CLONI CONTIGUI che rappresentano una GENOTECA ORDINATA di sequenze di DNA utilizzabile per analisi genetiche successive (caratterizzazione di particolari regioni o identificazione di geni non ancora caratterizzati) 3) Questi cloni ordinati sono la base per il sequenziamento del GENOMA COMPLETO RFLP 2 80 RFLP 3 50 Gene Z 20 Gene Y 0 RFLP 1 Gene X Correlazione tra mappa GENETICA, CITOLOGICA e FISICA di un cromosoma 100 125 150 MAPPA GENETICA cM MAPPA CITOLOGICA 0 25 50 75 100 125 150 Megabasi Kb 0 500 1000 0 500 1000è il La MAPPA analisi 5 10FISICA a cui si tende inKbultima sequenziamento dei vari 2cloni che 4fornisce l’esatto numero di 3 coppie di basi separano un locus dall’altro Clone YACche 1 Kb 0 Mappa di restrizione Mappa di “contig” Mappa di STS MAPPE FISICHE Che cos’è un “contig” Un insieme di cloni che si sovrappongono è chiamato CONTIG Nelle fasi iniziali di un progetto di mappatura genomica i “contig” sono numerosi e rappresentano cosiddette “ isole” di genoma clonato. Con l ’ aumentare del numero dei cloni caratterizzati, i “ contig ” si ingrandiscono e si fondono l’uno con l’altro finchè alla fine del PROGETTO non rimane un numero di CONTIG pari a quello dei singoli cromosomi dell’organismo in esame. Ottenere un “contig” Per ottenere dei contig è fondamentale ordinare i cloni ottenuti, cercando le SOVRAPPOSIZIONI tra i cloni. I cloni ottenuti si possono ordinare in vario modo: 1) Ordinamento mediante “ MAPPE DI RESTRIZIONE” dei cloni ottenuti 2) Ordinamento mediante STS (sequence tagged sites) presenti nei cloni 3) FISH Un buon punto di partenza per ottenere cloni che si ordinano facilmente è l’utilizzo di GENOTECHE cromosoma-specifiche Costruzione di genoteche cromosoma-specifiche Separazione dei cromosomi mediante FACS (Fluorescence Activated Cell Sorter) Miscela di cromosomi laser Hoechst 33258 (AT) Cromomicina A3 (GC) Rivelatore di fluorescenza caricatore Le gocce che non hanno la specifica fluorescenza impostata sono deviate Campione contenente tutti i tipi di cromosoma Piastra di deflessione Campione contenente un solo tipo di cromosoma Ottenere un “contig” 1) Ordinamento mediante “ MAPPE DI RESTRIZIONE” dei cloni ottenuti 2) Ordinamento mediante STS (sequence tagged sites) presenti nei cloni 3) FISH Ordinamento dei cloni mediante “MAPPE DI RESTRIZIONE” 1. Identificare una serie di cloni genomici che si sovrappongono cromosoma 4 2. Clone 2 4. 3 Clone 1 5 Analizzare ciascun clone per i siti di restrizione e per la localizzazione dei geni identificati geni -> A 3. 2 B C D E F G Clone 1 Creare mappe di cloni genomici che si sovrappongono X Y Z A B C A B C D E F G F G H I L Clone 3 Clone 1 Combinare tutte le informazioni in un’unica mappa fisica che si estende per tutto il cromosoma X Y Z A B C D E F G H I L Ottenere un “contig” 1) Ordinamento mediante “ MAPPE DI RESTRIZIONE” dei cloni ottenuti 2) Ordinamento mediante STS (sequence tagged sites) presenti nei cloni 3) FISH Mappa fisica generata per STS STS 1 BAC 1 STS 2 BAC 2 STS 3 BAC 3 STS 4 BAC 4 BAC 5 STS 5 BAC 6 STS 6 BAC 7 STS 7 BAC 8 È possibile usare brevi sequenze uniche entro lunghi inserti clonati come se fossero delle etichette (tag) al fine di allineare in “contig” i vari cloni. In base a questa caratterizzazione i cloni che hanno in comune particolari STS devono avere inserti parzialmente sovrapposti, quindi possono essere allineati in CONTIG. Spesso gli STS sono ottenuti da cDNA clonati, per cui sono chiamati EST (Espressed Sequence Tags), siti di sequenze etichetta espresse. Approccio top down per la sovrapposizione di cloni contenenti marcatori genetici Questo tipo di approccio permette di ottenere cloni associati a marcatori già mappati in regioni vicine tra loro. Ad es. i marcatori M1 ed M2 sono stati localizzati in una determinata regione del cromosoma. Si usa il marcatore M1 come sonda di ibridazione per analizzare una genoteca in YAC sonda M1 Risultato dopo analisi della genoteca in YAC con 7 marcatori polimorfici (M1-M7) Si usa il marcatore M2 come sonda di ibridazione per analizzare una genoteca in YAC sonda M2 M1 clone yM1 M2 M3 M4 contig clone yM2 M5 Intervallo non coperto da cloni M6 contig yM1 ed yM2 si sovrappongono? Si isola un’ estremità del clone M1, si marca e si utilizza come sonda sul clone M2 digerito e trasferito su un filtro M7 Megabasi Contig completo che comprende l’intera regione M1-M7 clone yM1 Estrazione, restrizione ed elettroforesi del clone M2 Risultato dell’ ibridazione con la sonda M1 M1 M2 L’ibridazione dimostra che l’estremità del clone M1 è presente nel clone M2 M3 M4 M5 M6 M7 Approccio (dal basso) bottom up: per la sovrapposizione di cloni ottenuti a caso Questo tipo di approccio permette di ottenere cloni ordinati in “contig” partendo da cloni “a caso” privi di informazioni sulla loro localizzazione Genoma umano aploide 1) Digerire con enzimi di restrizione e clonare in cosmidi per ottenere una genoteca cosmidica 3) Inserire i dati della mappe di restrizione in un computer per ottenere le sovrapposizioni 2) Tipizzare ciascun cosmide mediante mappe di restrizione 4 5 3 Clone 1 2,5 5 6 5 4 3,5 3 2,5 2 1 3 2,5 2 1 Clone 2 3,5 6 Clone 1 Clone 3 Clone 2 Clone 4 Contig lungo un intero cromosoma 4) Ordinare tutti i cloni cosmidici ottenuti in 24 contig mediante FISH Cromosoma 17 intero milioni di coppie di basi Segmento 17Q21 due milioni di coppie di basi Segmento 17Q21 di 600.000 coppie di basi BAC 283 130.000 coppie di basi BRCA1 BAC 283 17Q21 17Q21 Mappa fisica del cromosoma 17 umano Gene BRCA1 80.000 coppie di basi Mappa fisica del cromosoma Y umano YAC geni STS Bande cromosomiche PSEUDOAUTOSOMALE YAC geni STS Bande cromosomiche Sequenze omologhe X-Y Sequenze ripetute dell’Y