Genomica strutturale Interesse primario della GENOMICA è di: a) Determinare la SEQUENZA COMPLETA dei genomi di interesse b) Identificare quanti più polimorfismi (VARIANTI ALLELICHE) possibili, presenti nei genomi Emblematico per le importantissime applicazioni della genomica è stato il PROGETTO GENOMA UMANO Sistemi per la MAPPATURA DEI GENI Il metodo più classico è quello dell’ASSOCIAZIONE tra marcatori genetici, ciò prevede: 1. L ’ assegnazione di geni a determinati cromosomi (la più semplice è risultata l’associazione con il cromosoma X) 2. La prova genetica che più geni siano assieme sullo STESSO CROMOSOMA 3. Il calcolo della distanza tra due loci ASSOCIATI allo stesso cromosoma mediante la frequenza di ricombinazione Con questo sistema dell’ASSOCIAZIONE genetica classica, solo un limitato numero di geni umani sono stati MAPPATI sui cromosomi Le tecniche del DNA ricombinante hanno cambiato il concetto genetico di locus •Mendel e Morgan identificavano un locus genetico deducendo la sua esistenza da diversi fenotipi dovuti ad alleli differenti •Nella GENETICA MODERNA il concetto di locus (inteso come “concetto FISICO”) può essere separato dal concetto di gene (identificabile con una “funzione” o fenotipo) La costruzione di mappe genetiche (di ASSOCIAZIONE), citologiche e fisiche è alla base del sequenziamento dei genomi Le mappe genetiche a bassa densità sono costruite sulla base di frequenze di ricombinazione 1cM= 1UM=1% Le mappe GENETICHE a bassa densità sono costruite sulla base di frequenze di ricombinazione -> 1cM ricombinazione. = 1UM = 1% frequenza di ricombinazione. Le mappe genetiche ad alta densità, con marcatori spaziati da brevi intervalli, vengono costruite utilizzando dei Le mappe GENETICHE ad alta densità, con marcatori spaziati da brevi intervalli, vengono costruite marcatori molecolari come RFLP. utilizzando dei MARCATORI MOLECOLARI come RFLP. Le mappe citologiche sono basate sul bandeggio dei cromosomi. Le mappe CITOLOGICHE sono basate sul bandeggio dei cromosomi. Le mappe fisiche come le mappe di restrizione sono basate sulle distanze molecolari che separano i vari siti sul DNA. Le mappe FISICHE, sono basate sulle distanze effettive espresse come: •numero di coppie di basi tra i siti di restrizione sul DNA dei (mappe di restrizione) Le•distanze mappe fisiche specificano le localizzazioni cloni genomici sovrappopsti o contig e sequenze nucleotidiche •posizioni e distanze tra sequenze nucleotidiche uniche chiamate sequenze “etichetta” o STS uniche chiamate STS (Sequence Target Sites) •localizzazioni dei cloni genomici sovrapposti (“contig”) a coprire una regione cromosomica Esempio di associazione con marcatori genetici: la sindrome Nail-Patella (NPS) • È una sindrome che interessa le unghie (ipoplasia) e la rotula (riduzione o assenza) • Si trasmette come un carattere autosomico dominante 00 BO I 1 2 II 1 BO 2 BO 3 B0 4 B0 5 00 6 00 7 0 8 B0 9 00 10 00 11 00 È stato determinato il gruppo sanguigno (sistema AB0) degli individui sani e malati della famiglia La maggior parte delle volte che è presente il gruppo sanguigno B, che mappa sul cromosoma 9 in posizione 9q34, si presenta la malattia (tranne che in soli due casi II3 3 II5); questo sta ad indicare che il locus che determina la sindrome NPS è associato al locus del sistema ABO e quindi MAPPA sul cromosoma 9 in vicinanza della posizione 9q34. Quanto sono vicini lo si può definire dalla frequenza di ricombinazione. Esiste un parametro che si chiama LOD-SCORE che indica se l’ipotesi che i due loci siano associati è statisticamente probabile (LOD SCORE = +3 ->le probabilità dell’associazione sono di 1000:1, questo è il valore minimo di LOD SCORE per stabilire l’associazione tra due geni); poi mediante la FREQUENZA di RICOMBINAZIONE se ne stabilisce la distanza RFLP 2 80 RFLP 3 50 Gene Z 20 Gene Y 0 RFLP 1 Gene X Correlazione tra mappa GENETICA, CITOLOGICA e FISICA di un cromosoma 100 125 150 MAPPA GENETICA (cM) MAPPA CITOLOGICA 0 Kb 0 5 25 10 50 Kb 0 75 500 100 125 1000 Kb 0 MAPPA FISICA (megabasi) 150 500 1000 La mappa fisica per eccellenza corrisponde alla “sequenza completa” della regione genomica interessata!!! 2 3 4 Clone YAC 1 Mappa di restrizione Mappa di STS Mappa di “contig” MAPPE FISICHE Molti loci genomici si presentano “polimorfici” Se si clonasse e si sequenziasse la STESSA REGIONE cromosomica di circa 250kb che comprende un gene responsabile di una malattia, da due cromosomi omologhi della maggior parte degli individui SANI, si troverebbe una differenza ogni 1000bp, cioè circa 250 differenze. Si potrebbe sospettare che uno sia l'allele selvatico, mentre l'altro un allele mutante. Nessuna delle differenze riscontrate ha però necessariamente un effetto sulla funzione reale del gene in esame; entrambi gli omologhi potrebbero avere, infatti, un'attività selvatica. I genetisti considerano queste variazioni trovate in qualsiasi punto del genoma come "alleli" alternativi di un locus. Quando in un locus di DNA esistono 2 o più alleli il locus si considera POLIMORFICO . (Un allele per essere considerato UN POLIMORFISMO e non una MUTAZIONE deve avere una frequenza maggiore di 1/100, nella popolazione ). Se questo locus polimorfico è poi usato per studi di malattie o di mappature è detto “marcatore del DNA”. I loci polimorfici nell'uomo potrebbero essere più di 100 milioni e questa è una enorme riserva di potenziali marcatori del DNA. MARCATORI MOLECOLARI per MAPPE GENETICHE Sono utili sia per le analisi di ASSOCIAZIONE con geni responsabili di malattie, sia per determinare le frequenze di ricombinazione tra questi marcatori e i geni delle malattie. SNPs ( Single Nucleotide Polymorphism) MINISATELLITI o VNTR (Variable Number Tandem Repeat) MICROSATELLITI o STR (Simple Tandem Repeat) Altre modificazioni Caratteristiche dei MARCATORI MOLECOLARI •Sono dei veri MARCATORI GENETICI •Corrispondono a posizioni definite nel genoma e mostrano variabilità da un individuo ad un altro •Le differenti forme, che corrispondono alla stessa posizione sul genoma sono FORME ALLELICHE e vengono trasmesse secondo le regole MENDELIANE •Nell’ ETEROZIGOTE i due alleli sono entrambi riconoscibili : si tratta quindi di ALLELI CODOMINANTI Classi di polimorfismi del DNA Classe Dimensione totale del locus Numero di alleli Numero di loci nella popolazione Frequenza di mutazione Uso SNPs Singola coppia di basi 2 100 milioni 10-9 Mappatura di associazione Microsatelliti o STR con ripetizioni di 1-6 basi da 5 a 50 volte 30-300 bp da 2 a 10 200.000 10-3 Mappatura di associazione e genotipizzazione Minisatelliti o VNTR con ripetizioni di 20-200 basi da 50 a 200 volte 1000-20000 bp da 2 a 10 30.000 10-3 Mappatura di associazione e genotipizzazione SNPs ( Single Nucleotide Polymorphism) •La più semplice ed anche la più utile classe di polimorfismi si origina dalla sostituzione di una singola coppia di basi. •Questo tipo di cambiamenti possono essere indotti da sostanze chimiche mutagene, oppure da errori durante la replicazione (forme tautomeriche delle basi) e sono denominate polimorfismi di singoli nucleotidi o SNP (snips). •Quasi tutti gli snips sono biallelici. •Il sequenziamento della stessa regione genomica da individui diversi permette l'identificazione di un elevato numero di SNPs. •Esiste un'associazione (il consorzio internazionale per gli SNPs) che da Dicembre del 2001 ha identificato e mappato più di 5 milioni di SNPs umani. •Nonostante sia possibile che gli SNPs possano alterare la sequenza aminoacidica di proteine, la maggiore parte degli snips si verificano in "loci anonimi". Microsatelliti o STR •Sono elementi di DNA composti di sequenze semplici da 1 a 6 basi ripetute in tandem da 5 a 50 volte. •I microsatelliti si originano spontaneamente da eventi casuali, che inizialmente producono una breve sequenza ripetuta 4 o 5 volte. •Dopo che si è originato, un microsatellite può espandersi in una sequenza più lunga a causa dell'appaiamento errato che può verificarsi durante la replicazione del DNA ("balbuzie durante la replicazione”). Microsatelliti o STR •Sono elementi di DNA composti di sequenze semplici da 1 a 6 basi ripetute in tandem da 5 a 50 volte. •I microsatelliti si originano spontaneamente da eventi casuali, che inizialmente producono una breve sequenza ripetuta 4 o 5 volte. •Dopo che si è originato, un microsatellite può espandersi in una sequenza più lunga a causa dell'appaiamento errato che può verificarsi durante la replicazione del DNA ("balbuzie durante la replicazione”). •Diversamente dagli SNPs che sono biallelici e non cambiano dopo che si sono originati, i microsatelliti continuano a cambiare generando alleli multipli. •La frequenza dei nuovi alleli è più alta della frequenza di mutazione di un singolo nucleotide, allo stesso tempo è sufficientemente bassa da fare in modo che i cambiamenti non avvengano nel corso di poche generazioni, anche in famiglie molto grandi e per ciò possono essere usati come MARCATORI, abbastanza stabili e altamente polimorfici del DNA negli studi di associazione. Minisatelliti o VNTR •Furono scoperti nel 1980 da Alec Jeffreys, che scoprì per primo che tra individuo ed individuo esistevano delle variazioni che che riguardavano sequenze ripetute migliaia di volte, che chiamò appunto minisatelliti. •Questi loci tendono ad essere altamente polimorfici. •Ogni 5-10 loci nel genoma c'è un MINISATELLITE •Utilizzando diverse sequenze di minisatelliti come sonde di ibridazione si può avere direttamente una visione globale di tutto il genoma (“DNA fingerprint”). Altre modificazioni: delezioni, duplicazioni e inserzioni in loci non ripetuti •Eventi mutazionali casuali possono causare anche una vasta categoria di eventi che espandono o contraggono la lunghezza di un locus non ripetuto. •Le piccole delezioni o duplicazioni si possono generare durante la ricombinazione meiotica •Le piccole inserzioni, che vanno da centinaia a migliaia di basi, possono essere causate da ELEMENTI TRASPONIBILI che si integrano casualmente nel genoma. SNPs, microsatelliti, minisatelliti e delezioni inserzioni in loci non ripetuti forniscono le basi per la MAPPATURA GENETICA ed anche, più in generale, per il riconoscimento delle DIFFERENZE GENOTIPICHE tra gli individui (“DNA fingerprint”). Genotipizzazione di un individuo Un approccio generale per determinare il GENOTIPO di un individuo ad un particolare locus polimorfico dovrebbe consistere nell' estrarre il DNA genomico dall'individuo, ottenere cloni rappresentativi del locus, sequenziare il DNA. Questo approccio sarebbe molto dispendioso in termini di tempo, soldi e lavoro. Quindi bisogna ricorrere a strategie diverse che permettano di analizzare centinaia di migliaia di campioni per gli scopi, per esempio, di GENOTIPIZZAZIONE o di MAPPATURA DEI GENOMI. Tecniche per una DIRETTA rivelazione dei polimorfismi del DNA, e quindi per una determinazione diretta del GENOTIPO Si tratta di strategie diverse che permettono di analizzare centinaia di migliaia di campioni per scopi come la GENOTIPIZZAZIONE o la MAPPATURA DEI GENOMI IDENTIFICAZIONE DIRETTA DEGLI SNPs (se la sostituzione nucleotidica riguarda un SITO DI RESTRIZIONE polimorfico): 1)Tecniche del Southern blot (RFLP) 2)Tecnica della amplificazione del DNA mediante PCR Rilevare un SNP ad un sito di restrizione mediante RFLP Frammento di 3 kb riconosciuto dalla sonda Allele SNP1 GAATTC CTTAAG sonda Eco RI GAA TTC CT T AAG GAATTC CTTAAG Eco RI Eco RI Sito di restrizione POLIMORFICO per EcoRI Eco RI Allele SNP2 Eco RI GAATTC CTTAAG sonda GAG TTC CT C AAG GAATTC CTTAAG Frammento di 5kb riconosciuto dalla sonda 5 kb 5 kb 3 kb 3 kb Rilevare un SNP mediante amplificazione con PCR Se l’ SNP riguarda un sito di restrizione POLIMORFICO e se è nota la sequenza che si trova ai lati del sito di restrizione, il polimorfismo può essere determinato attraverso la PCR in 3 passaggi: 1) amplificazione della regione polimorfica compresa tra i due primers (alcune centinaia di coppie di basi) 2) esposizione del prodotto di amplificazione all'enzima di restrizione per cui il sito è polimorfico 3) analisi dei frammenti ottenuti su gel di agarosio. Upper primer Pro Glu Glu CCT GAG GAG GGA CTC CT C Allele emoglobina A normale amminoacido n. 6 Lower primer modificato Sito MstII Pro Val Glu CCT GTG GAG GGA CAC CT C Sito di restrizione assente La lunghezza totale del frammento amplificato è di circa 500 bp -> se il sito è presente (allele A, normale) si produrranno due frammenti di 200 e 300 bp; se il sito è assente (allele S, mutato) si produrrà un unico frammento di 500 bp 500 bp 300 bp 200 bp Allele emoglobina S anemia falciforme (in questo caso l’SNP riguarda una sequenza CODIFICANTE) Trasmissione ereditaria di un allele RFLP associato ad un carattere che si trasmette come un carattere AUTOSOMICO DOMINANTE L’esame dell’albero ed il Southern indicano che i figli colpiti hanno ereditato un cromosoma che porta l’allele A. Se questa modalità viene confermata in grandi famiglie ed in più generazioni, l ’ allele mutato relativo alla PATOLOGIA è localizzato sullo stesso cromosoma dell’allele A. sonda Strategia per associare un RFLP o un altro MARCATORE polimorfico ad un locus cromosomico che può essere responsabile di una malattia È necessario disporre di : 1. una famiglia numerosa con più generazioni in cui sia presente e trasmessa una patologia genetica 2. una raccolta di sequenze clonate che rilevi gli RFLP (almeno una per ogni cromosoma umano). Si costruisce un albero genealogico per determinare le modalità di trasmissione del carattere e per identificare i membri colpiti. Si analizzano poi i marcatori RFLP specifici dei singoli cromosomi, nei componenti della famiglia. Se la patologia genetica ed il marcatore RFLP specifico del cromosoma vengono ereditati insieme in varie generazioni, la patologia genetica e l'RFLP devono essere vicini sullo stesso cromosoma. Mappatura di un gene associato ad una malattia mediante RFLP GENiTORE A con la malattia X Mutazione responsabile della malattia X a localizzazione sconosciuta Cromosoma del genitore che ha la malattia Durante le meiosi dell’individuo, ce ne saranno alcune in cui non avverrà la ricombinazione ed altre in cui questa avverrà e ci saranno nuove combinazioni di alleli Per ogni cromosoma umano sono attualmente disponibili decine di marcatori RFLP In seguito alla FECONDAZIONE molti individui della generazione successiva presentano la malattia X ed i marcatori RFLP c c c c c c Ogni volta che si eredita la malattia sul cromosoma 6 è presente il marcatore RFLP c; quando c ’ è l ’ allele c ’ l’individuo è sano! Formazione di un nuovo allele per la “ balbuzie” della DNA polimerasi Allele con (CA)15 5’ C A C A C A C A C A C A C A C A C A C A C A C A C A C A C 3’ G T G T G T G T G T G T G T G T GT G T G T G T G T G T G C A C A C Filamento nuovo DNA polimerasi A C AC C A C A C A C A C A C A 5’ 3’ G T G T G T G T G T G T G T G T G T G T G T G T G T G T G La DNA polimerasi fa una pausa; all’estremità del filamento di nuova sintesi la doppia elica si “apre” 3’ 5’ 3’ 5’ CA CA CA C A C 3’ 5’ C A C A 3’ G T G T G T G T G T G T G T G T GT G T G T G T G T G T G 5’ AC C A Per caso, i due filamenti si riappaiano fuori registro CA CA CA C A C 3’ 5’ C A C A C A C A C A C A C A 3’ G T G T G T G T G T G T G T G T GT G T G T G T G T G T G 5’ AC Completamento della replicazione C A 5’ C A C A C A C A C A C A C A C A C A C A C A C A C A C C 3’ 3’ G T G T G T G T G T G T G T GT G T G T G T G T G T G T 5’ Riparazione del DNA nel filamento stampo Nuovo allele (CA)17 5’ C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C A C 3’ 3’ G T G T G T G T G T G T G T G T GT G T G T G T G T G T G G T G T 5’