La mappatura dei geni umani SCOPO conoscere la localizzazione dei geni per identificarne la struttura e la funzione Un grande impulso alla costruzione di mappe genetiche è stato dato da • le tecniche della citogenetica visualizzazione della morfologia dei cromosomi • le tecniche della fusione cellulare suddivisione del corredo cromosomico • le tecniche molecolari identificazione di marcatori polimorfici Le mappe genetiche permettono di identificare geni anche quando non si hanno informazioni sulla loro funzione L’approccio detto “Clonaggio posizionale” ha contribuito a caratterizzare le basi genetiche di molte malattie genetiche Le mappe genetiche si basano sull’analisi di ricombinazione tra marcatori genetici alla MEIOSI Che cos’è un MARCATORE • una caratteristica fenotipica • una particolarità biochimica • una sequenza del DNA Tipi di marcatori genetici TIPO N DI LOCI SAGGIO Gruppi sanguigni Circa 20 immunologico Proteine sieriche Circa 30 elettroforesi RFLP >105 PCR Minisatelliti >104 PCR Microsatelliti >104 PCR Un MARCATORE è un qualsiasi carattere genetico che possa essere distinto da individuo a individuo deve perciò corrispondere ad un gene o ad una sequenza di DNA che abbia almeno due ALLELI DUE marcatori genetici alla MEIOSI se sono su cromosomi diversi seguono la legge dell’assortimento indipendente se sono sulla stessa porzione del genoma tendono ad essere co-ereditati in questo caso sono detti associati o linked Analisi di linkage L’analisi di linkage non richiede che si conosca la funzione del gene e le mappe genetiche possono essere costruite anche per geni conosciuti solo per i loro effetti fenotipici Analisi di linkage Se vogliamo stabilire se il gene di una malattia genetica di cui ignoriamo le basi biochimiche è associato ad un marcatore A dovremo esaminare molte famiglie in cui compare la malattia Non tutte le famiglie sono informative Queste famiglie NON SONO informative La figlia ha ereditato la malattia dominante dal padre A1 A1 A2 A2 A1 A2 A1 A2 A1 A2 A1 A2 ma gli alleli del marcatore del padre non possono essere distinti tra di loro ma gli alleli del marcatore del padre non possono essere distinti da quelli della madre Queste famiglie SONO informative A1 A1 A2 A2 A1 A2 A3 A4 A1 A1 A1 A4 La figlia ha ereditato l’allele A1 del marcatore dal padre affetto INSIEME con la malattia ma questo non basta per dire che i due loci sono associati o linked Marcatori polimorfici L’esempio ci fa capire che la probabilità di avere famiglie informative dipende dal NUMERO e dalla FREQUENZA degli alleli dei marcatori cioè dal grado di eterozigosità della popolazione per ciascun marcatore Marcatori polimorfici N di alleli Frequenza Grado di eterozigosità 2 0,5-0,5 0,50 2 2 0,4-0,6 0,3-0,7 0,48 0,42 2 0,2-0,8 0,32 4 tutti 0,25 0,75 10 tutti 0,1 0,90 Se DUE marcatori genetici sono associati la probabilità di essere co-ereditati dipende dalla loro distanza più sono vicini minore è la probabilità che alla meiosi vengano separati dalla RICOMBINAZIONE Le mappe genetiche si basano sulla misura della distanza tra i marcatori in base alla frequenza di ricombinazione è necessario poter distinguere i gameti parentali dai gameti ricombinanti In assenza di ricombinazione: gameti parentali A B 1 2 A 1 oppure B 2 In caso di ricombinazione: gameti ricombinanti A B 1 2 A 2 oppure B 1 La FASE A 1 B 2 In questa meiosi si riconoscono i ricombinanti perchè si conosce la fase Il marcatore A è in cis rispetto al marcatore 1 e in trans rispetto al marcatore 2 APLOTIPI parentali A 1 B 2 APLOTIPI ricombinanti A 2 B 1 Negli incroci sperimentali si possono riconoscere i gameti parentali dai gameti ricombinanti proprio dalla loro frequenza Se i marcatori sono associati i gameti parentali saranno molto più frequenti dei gameti ricombinanti Nell’Uomo il numero di figli del singolo incrocio è troppo piccolo per distinguere i gameti parentali dai ricombinanti se non si conosce la FASE Una meiosi può essere non informativa se non conosciamo la fase degli alleli Aa Bb aa bb ? Aa Bb Aa Bb aa Bb Si può stabilire la fase in una famiglia di tre generazioni In questo modo aa possiamo bb riconoscere Aa Bb Aa Bb aa bb uo d i v i d l’in Aa Bb Aa Bb aa Bb te n a in b m o c i r L’unità di scala delle mappe genetiche Il centimorgan (cM) equivale ad una frazione di ricombinazione θ= 0.01 cioè un gamete su 100 è ricombinante Fisicamente un cM corrisponde approssimativamente a 0,7-1 Mb ma la relazione tra distanze genetiche e distanze fisiche è variabile Distanze genetiche Negli organismi sperimentali si può esaminare la progenie di un singolo incrocio o di molti incroci geneticamente programmati in modo da misurare accuratamente la frazione di ricombinazione Nell’Uomo si fa uso dell’analisi del LOD score un metodo introdotto da Morton nel 1955 Analisi del LOD score Permette di utilizzare i dati ottenuti da molte famiglie informative Attraverso l’analisi di ciascuna famiglia si stima la probabilità che due loci siano associati in corrispondenza di un dato valore della frazione di ricombinazione θ CONTRO l’ipotesi che non siano associati (quindi θ = 0,5) Calcolo del LOD score A2 A5 A1 A6 A1 A2 A3 A4 R A1 A3 A2 A3 A1 A4 A1 A4 A2 A4 A2 A3 Tutte le meiosi sono di fase nota perciò senza ambiguità si può desumere che solo il sesto figlio è ricombinante Calcolo del LOD score se il locus di malattia è associato al marcatore la probabilità di osservare questa distribuzione è p = θ (1- θ)5 se il locus di malattia NON è associato al marcatore la probabilità è p = (0,5)6 Calcolo del LOD score Il LOD score è un punteggio che rappresenta il logaritmo del rapporto tra le due probabilità Zx= log10 Probabilità che il risultato osservato se θ = x Probabilità che il risultato osservato se θ = 0,5 nel caso della famiglia esaminata Zx= log10 [θ (1- θ)5/(0,5)6] Calcolo del LOD score Si esplora l’intervallo da 0 a 0,5 FR 0 0,1 Z -∞ 0,58 0,62 0,51 0,23 0,2 0,3 0,4 0,5 0 Z è una funzione di x che assume un massimo per un determinato valore della frazione di ricombinazione in questo caso 0,2 Calcolo del LOD score A1 A2 A1 A3 A2 A3 A1 A4 A3 A4 A1 A4 A2 A4 A2 A3 La stessa famiglia è assai meno informativa quando la fase non è nota perchè manca il genotipo dei nonni Calcolo del LOD score Il calcolo deve tener conto anche della possibilità che il sesto figlio sia l’unico NON ricombinante Zx= log10 [1/2 θ (1- θ)5 + 1/2 θ 5(1- θ) ] /(0,5)6 FR 0 0,1 0,2 0,3 0,4 0,5 Z -∞ 0,28 0,32 0,22 0,076 0 Il valore di θ per cui si ottiene Zmax è lo stesso ma il valore di Z è circa la metà di prima Analisi del LOD score Il valore di θ che individua il massimo della funzione Z sarà la distanza stimata tra i marcatori Un valore di Z =3 è considerato statisticamente significativo per stabilire un linkage tra due loci Raramente dall’analisi di una sola famiglia si può raggiungere la soglia di significatività La probabilità complessiva di linkage in un insieme di famiglie è il prodotto delle probabilità in ciascuna famiglia Le probabiltità calcolate con il LOD score sono espresse in log quindi i valori di Z possono essere sommati Nella applicazione che abbiamo visto abbiamo analizzato solo due marcatori un locus di malattia dominante ed un marcatore polimorfico A ma il metodo può essere usato per analizzare molti loci contemporaneamente se è nota la localizzazione del marcatore in linkage con il locus di malattia questo si troverà nelle sue vicinanze nell’intervallo definito dalla frazione di ricombinazione Teoricamente bastano cinque famiglie come quella esaminata per avere un valore significativo di linkage In pratica le famiglie sono molto meno numerose e meno informative per cui è necessario avere un insieme consistente di famiglie da esaminare Nell’esempio abbiamo visto un calcolo semplificato per il caso di un locus di malattia DOMINANTE Il metodo si applica anche all’analisi di linkage per le malattie RECESSIVE ma il calcolo è più complicato perchè in molti casi si ignora il genotipo dei non affetti sono perciò necessarie molte più famiglie Le famiglie CEPH In alcuni gruppi etnici le famiglie hanno tipicamente un gran numero di figli ed accurati registri dei matrimoni Sono state selezionate le famiglie con almeno tre generazioni viventi Sono stati stabilite linee cellulari da campioni dei quattro nonni, dei genitori ed almeno sei figli Le famiglie CEPH Le mappe genetiche di un gran numero di marcatori sono state costruite usando queste famiglie di riferimento La presenza di tre generazioni permette di ricostruire la fase dei marcatori La segregazione nei sei figli permette di analizzare le frequenze di ricombinazione tra i marcatori Strategie per identificare geni-malattia Il difetto interessa una proteina a funzione nota Determinazione della sequenza amminoacidica Deduzione della sequenza nucleotidica Sintesi di una sonda oligonucleotidica Isolamento di un clone di cDNA Selezione di un clone genomico Caratterizzazione del clone genomico Identificazione del gene Caratterizzazione delle mutazioni Strategie per identificare geni-malattia Analisi dei sintomi della malattia Diverse proteine note possono essere coinvolte nel difetto genetico Scelta del o dei geni candidati Caratterizzazione delle mutazioni Ricerca delle mutazioni nei pazienti Identificazione del gene Strategie per identificare geni-malattia Malattia genetica Mappatura genetica su un locus Isolamento dei cloni di DNA genomico che ricoprono il locus Identificazione e analisi delle ORF e degli esoni Isolamento di un clone di cDNA Selezione di un clone genomico Caratterizzazione del clone genomico Caratterizzazione delle mutazioni Strategie per identificare geni-malattia Malattia genetica Mappatura genetica su un locus Identificazione e analisi dei geni funzionali e delle EST mappate nello stesso locus Isolamento di un clone di cDNA Selezione di un clone genomico Caratterizzazione del clone genomico Caratterizzazione delle mutazioni