linkage disequilibrium - Dipartimento di Biologia

Linkage HapMap
Lezione 4
By NA
1
Linkage:fase di piu locus
 Definizione della regione candidata con analisi di linkage: ricostruzione degli aplotipi studiando la
segregazione nelle famiglie. E’ necessario risalire alla fase e identificare i ricombinanti
7
5
4
6
6
2
6
5
2
6
2
2
8
6
3
2
1
8
2
2
1
6
2
2
By NA
8
6
3
2
1
8
2
5
2
5
5
5
2
2
1
9
5
5
6
5
2
6
2
2
7
5
4
6
6
2
1
4
1
3
7
5
6
5
2
6
2
2
2
2
1
9
5
5
3
6
5
5
7
8
6
5
2
6
2
2
3
6
5
5
7
8
7
4
4
2
5
4
2
5
2
6
2
2
6
5
2
6
2
2
7
4
4
2
5
4
1
4
1
3
7
5
6
5
2
6
2
2
2
2
1
9
5
8
8
3
8
2
7
10
10
4
6
4
1
6
8
3
8
2
7
10
10
3
2
3
5
8
8
3
8
2
7
10
5
3
5
3
1
7
8
3
8
4
2
3
10
3
2
3
5
8
 Possedere un particolare polimorfismo
non vuol dire avere il fenotipo, lo studio di
linkage e’ a livello di popolazione, serve ad
individuare una regione non la mutazione
2
Linkage
possibili inconvenienti
 Ci possono essere inconvenienti che complicano la possibilita’ di assegnare
un locus a una regione definita da marcatori:
 Errori umani: errata lettura dei dati, scambio di campioni, paternita’……
 Errori nell’interpretazione del fenotipo: un falso ricombinante.Se i marcatori
sono molti e vicini la presenza di un doppio ricombinante fa sospettare un errore
 Eterogeneita’
genetica: famiglie con fenotipo simile vengono accorpate e
non si riesce a trovare il linkage. Sclerosi tuberosa: due loci distinti
E’ importante disporre di numerosi siti polimorfici, che non
siano soggetti a dominanza e recessivita’. I polimorfismi del DNA
sono l’ideale!
By NA
3
Probabilita’ di trovare ricombinanti
NB non si conosce
a a la loro posizione reciproca quindi
bb
ci sono due possibilita’
A A
B B
Aa
B b
a a
bb
SE I LOCI NON SONO ASSOCIATI LA PROBABILITA’ E’
1/2 X 1/2 X 1/2 X1/2 = 1/16=0.0625
SE I LOCI SONO ASSOCIATI LA PROBABILITA
DIPENDE DA QUANTO SONO DISTANTI
a a
b b
A a
B b
a a
b b
Aa
bb
RICOMBINANTE
NON RICOMBINANTI
SE LA FREQUENZA DI
RICOMBINAZIONE E’ 10%
LA P DI 3 NR E 1R=
0.1X0.9X0.9X0.9=0.073=7.3%
Non ho la possibilita’ di scegliere fra le due ipotesi: solo un gran numero di
osservazioni mi potrebbe permettere di riconoscere quale e’ la situazione piu’
probabile NON ESISTE NULLA CHE POSSA SOSTITUIRE I GRANDI
NUMERI….COME POSSIAMO OTTENERE GRANDI NUMERI NELL’UOMO???
By NA
4
Come fare il linkage
Il calcolo del linkage e’ quindi statistico:
occorre una progenie numerosa
e
bisogna conoscere la fase (aplotipo)
dei parentali.
come si fa visto che le famiglie umane
sono di solito piccole?
Si ricorre al lod score
By NA
5
Linkage-lod score
 Il linkage e’ una relazione di vicinanza fra due loci ed e’ funzione della loro
distanza. La definizione di un linkage fra due loci si basa su calcoli statistici
che permettono di quantizzare la probabilta’ che i risultati ottenuti non siano
dovuti al caso . Nel caso dell’uomo l’analisi della progenie di una singola famiglia
raramente fornisce informazioni sia per lo scarso numero di meiosi sia per la
difficolta’ di risalire alla fase. Bisogna mettere insieme i dati provenienti da
piu’ famiglie.
P di un assortimento genetico in una progenie se i geni sono associati
Odds
ratio=
P di un assortimento genetico nella progenie se i geni sono indipendenti
(1- n r
(1/2)n+r
Lod score: logaritmo in base 10 dei singoli rapporti di ogni famiglia, si possono cosi
sommare. Un valore di 3 indica linkage.
By NA
6
LOD SCORE
LOD SCORE (Z): logaritmo della probabilita’ che i loci siano associati (data la frazione di
ricombinazione q ) piuttosto che non associati (q=0.5). La probabilita’ complessiva di un gruppo
di famiglie e’ il prodotto delle probabilta’ di ciascuna famiglia, percio’ la somma dei lod score.
Per q = 0.5, Z=0: infatti sono il rapporto fra probabilta’ identiche e log10(1)=0. Z=3(1000:1) e’
la soglia per accettare il linkage con una probabilita’ di errore del 5%. Z=-2 esclude il linkage.
Z
4
3
2
1
0
0
0.1
0.2
0.3
0.4
Frequenza di ricombinazione
0.5
P di un assortimento genetico in una progenie se i geni sono associati
Z Odds
ratio=
By NA
P di un assortimento genetico nella progenie se i geni sono indipendenti
(1- n r
(1/2)n+r
7
La connessione fra mappe
Quindi si hanno due tipi di mappe: fisica e genetica. Il problema
e’ trovare il modo di legarle: la mappa fisica mi dice in che un
gruppo di sequenze formano un contiguo su un frammento di
cromosoma, ma non mi permette di identificare geni candidati.
La mappa genetica me lo permetterebbe perche’ non riguarda
specifiche sequenze, ma anche locus di cui non conosco la sequenza.
Non posso pero’ studiare il gene candidato perche’ non ho
la sequenza corrispondente.
La possibilita’ di utilizzare STS e EST polimorfici ha
permesso di risolvere il problema
By NA
8
Gli STS: Sequence Target Site
L’automazione del sequenziamento permette di sequenziare corte sequenze (300pb)
clonate a caso da cui ricavare primers per “screenare” con la PCR ormai
automatizzata le librerie e costruire mappe fisiche attraverso la creazione di
contigui . Quando sono polimorfiche sono marcatori comuni alle mappe sia genetiche
che fisiche e permettono di legarle fra loro
1
DNA genomico
A+,B-,C+..
B+,D+,G+
Clonaggio
H+,F+,T-..
Sequenziamento
GACTTAG........CATAGCA ~300bp
B*
D G*
H F*
Q
2
mappa fisica:contiguo
A C B D G
H F Q
A-,B+,C+..
F+,T-,Q+..
screening
library con
PCR
STS A,B,C..
By NA
A* C
scelta dei primers x A,B,C..
mappa genetica: A, G e F
sono in linkage il loro
ordine e’ F-A-G
H F Q
A C B D G
I due contigui sono sullo stesso
cromosoma e via cosi....
9
Confronto fra mappa
fisica e genetica
By NA
10
Linkage
possibili inconvenienti
 Ci possono essere inconvenienti che complicano la possibilita’ di assegnare
un locus a una regione definita da marcatori:
 Errori umani: errata lettura dei dati, scambio di campioni, paternita’……
 Errori nell’interpretazione del fenotipo: un falso ricombinante.Se i marcatori
sono molti e vicini la presenza di un doppio ricombinante fa sospettare un errore
 Eterogeneita’
genetica: famiglie con fenotipo simile vengono accorpate e
non si riesce a trovare il linkage. Sclerosi tuberosa: due loci distinti
E’ importante disporre di numerosi siti polimorfici, che non
siano soggetti a dominanza e recessivita’. I polimorfismi del DNA
sono l’ideale!
By NA
11
Riconoscere i ricombinanti
R
By NA
12
Doppio ricombinante?
By NA
13
Linkage disequilibrium
 Il linkage disequilibrium e’ una situazione per cui un particolare aplotipo e’
statisticamente piu’ probabile in un sottogruppo di una popolazione. Indica che la
popolazione deriva da un comune ancestore o, nel caso delle mutazioni patogene,
che la mutazione e’ avvenuta su un cromosoma ancestrale comune alla popolazione.
Il linkage disequilibrium non ha niente a che fare con la presenza della mutazione
patogena e’ una osservazione che facilita la mappatura genetica. Indica che
fisicamente associato al locus A polimorfico c’e’ un altro locus che, quando mutato
origina la malattia. Essendo un fenomeno legato all’origine comune degli individui
della popolazione, in un’altra popolazione il disequilibrium riguardera’ un altro allele
del locus A
By NA
14
Linkage disequilibrium
 E’
necessario considerare tutte le cause
disequilibrium e’ solo una delle cause
dell’associazione: il linkage
 Causa-effetto
e selezione naturale: Un certo allele rende piu’ suscettibili a
manifestare la malattia o permette alle persone malate di sopravvivere e di avere
figli
 Errori
per la stratificazione della popolazione o per mancata correzione
statistica: se una popolazione e’ composta di sottoinsiemi geneticamente distinti
entrambi i marker possono essere piu’ frequenti, ma senza che questo implichi
un’associazione. Nel secondo caso i dati non vengono confermati da studi successivi
By NA
15
Fibrosi Cistica e linkage disequilibrium
Il gene della Fibrosi Cistica e’ stato clonato
grazie alla presenza del linkage disequilibrium.
CHR CF
(254 con mut)
CHR NORMALI
(318 wild-type)
ALLELE di
XV-2C
ALLELE di
KM-19
numero
percentuale
numero
percentuale
A
1
1
17
6.7
74
28.9
B
1
2
218
86.5
35
16.4
C
2
1
7
2.8
110
44
D
2
2
10
4
31
10.7
APLOTIPO
Incerto
2
4
Dati ottenuti su 114 famiglie britanniche con un figlio affetto. Il
cromosoma CF, identificato perche’ presente nell’affetto, tende a
portare gli alleli X1 e K2.
By NA
16
Possibili cause del linkage disequilibrium
Potrebbe essere causa dell’effetto del fondatore: la mutazione potrebbe essere comparsa
in un antenato della popolazione Nord-Europea che portava l’aplotipo B e probabilmente gli
eventi di ricombinazione non hanno avuto sufficiente tempo per rispristinare una situazione
di equilibrio, cioe ’ ad una associazione casuale. Cio ’ significa anche che gli eventi di
ricombinazione sono rari tra il gene CF e i due marcatori cioe ’ il locus malattia e ’
strettamente associato ai due marcatori XV-2C e KM-19
La
presenza di un particolare aplotipo potrebbe conferire un vantaggio selettivo
nell’individuo che lo porta (come accade per gli antigeni HLA: particolari aplotipi sembrano
migliorare la risposta immunitaria e percio’ sono sottoposti a pressione selettiva)
La conoscenza del linkage disequilibrium oltre a dare una indicazione della localizzazione
precisa del locus malattia, risulta utile per la consulenza: permette di calcolare con
maggiore precisione il rischio di trasmissione. Es: normalmente 1/25 portatori nella
popolozione nord-europea, ma se un individuo ha aplotipo BB il rischio e’ maggiore, mentre
e’ molto ridotto per aplotipi AA.
By NA
17
Origine del linkage disequilibrium (LD)
Alla sua comparsa, una nuova mutazione è in LD (grigio) con tutti I loci
dello stesso cromosoma. Attraverso le generazioni la ricombinazione
riduce progressivamente l’area di LD. Contano soprattutto:
1. Tasso di ricombinazione
By NA
2. Numero di generazioni
18
Consortium. 2005. A haplotype map of the
human genome. Nature 437: 1299-1320.
Nature 449: 851-861, 2007.
By NA
19
HapMap I
By NA
20
HapMap I
... more than one million SNPs for which accurate and complete genotypes
have been obtained in 269 DNA samples from four populations, including
ten 500-kilobase regions in which essentially all information about common
DNA variation has been extracted.
These data document the generality of recombination hotspots,
a block-like structure of linkage disequilibrium and low haplotype diversity,
leading to substantial correlations of SNPs with many of their neighbours.
We show how the HapMap resource can guide the design and analysis of
genetic association studies,
shed light on structural variation and recombination,
and identify loci that may have been subject to natural selection during
human evolution.
By NA
21
HapMap II
We show that 10–30% of pairs of individuals within a
population share at least one region of extended genetic
identity arising from recent ancestry
We demonstrate increased differentiation at nonsynonymous, compared to synonymous, SNPs, resulting
from systematic differences in the strength or efficacy of
natural selection between populations.
By NA
22
HapMap I
La % di ricombinazione, in una regione campione di
500kb e’ discontinua: 80% delle ricombinazioni in 15%
della sequenza. HOT SPOT di ricombinazione
By NA
23
HapMap II
Hotspots account for approximately 60% of recombination
in the human genome and about 6% of sequence
Il genoma e’ ereditato a blocchetti
By NA
24
linkage disequilibrium
m
By NA
25
HapMap
linkage disequilibrium
conseguenze:
The number of tag SNPs that contain most of the information
about the patterns of genetic variation is estimated to be
about 300,000 to 600,000, which is far fewer than the 10
million common SNPs.
By NA
26
Science 319:1100-1104 (2008)
By NA
27
Nature 451:998-1003 (2008).
By NA
28
Science 22 febbraio 2008
Heterozigosity
By NA
29
Nature 21 febbraio 2008
Linkage disequilibrium / distanza
By NA
30
By NA
31
By NA
32