Analisi Genetica delle Malattie complesse

CORSO INTEGRATO DI GENETICA
a.a. 2010-2011
Dr. Giovanni Malerba,
[email protected]
11-11-2010
Analisi Genetica delle
Malattie complesse
UN MODELLO
Body Mass Density & VDR
2
R =0.34 ...
rimane da spiegare il 66% (1-0.34) del modello
statistico (ossia si devono identificare altri fattori importanti)
IL MODELLO DI MALATTIA
COMPLESSA
Fenotipo ~ F_GENETICO + F_AMBIENTALE + .. +
+ (F_GENETICO * F_AMBIENTALE)
interazione
ASMA
familiarità, sesso ( ~età), fumo
Diabete T2
passivo, basso peso alla
storia familiare, età, stile di
nascita, obesità, vivere in
vita sedentario, diabete in
grandi aree urbane,
gravidanza, etnia, pressione
inquinamento ambientale
sanguigna, colesterolo
..GPR154, IL1RN, ADAM33,
elevato, ..
IRAKM, ORMDL3
PPARG, KCNJ11, TCF7L2
Rischio di essere affetto
Dal 'Sì/No' si passa a stimare la probabilità di
essere Sì e di essere NO, oppure il rischio
aumentato di un genotipo rispetto agli altri
F_GENETICO * F_AMBIENTALE
CD14/-260 e livelli di endotossina
Eder et al., J Allergy Clin immunol 2005
L'attrezzatura del genetista
delle malattie complesse
Associazione di un
SINGOLO gene
Clonaggio
posizionale
Geni della malattia
complessa
TRASCRITTOMA
Associazione
genomica
(GWAS: SNP,CNV)
Analisi dei PATHWAY
Network di pathway
Metiloma (Epigenetica)
RISEQUENZIAMENTO
(=sequenza del/dei gene/i –
identificazione varianti rare)
Metaboloma
Meta–Analisi (analsisi di tutti risultati per stimare al megliol'effetto del fattore genetico )
POLIMORFISMI e
POPOLAZIONI
Alcuni aspetti della struttura
del genoma e Il progetto
HAPMAP
FREQUENZE GENICHE
Caucasoidi
Cinesi (Beijing)
Asiatici (Giapponesi- Tokio)
Africani (Yoruba, Nigeria)
http://www.hapmap.org
HAPMAP – Gene APOE
http://www.hapmap.org
HAPMAP
4 popolazioni: Caucasoidi, Cinesi, Giapponesi,
Africani
3.1 milioni di SNP su tutto il genoma
Frequenza di ogni SNP per ogni popolazione
Aplotipi
Blocchi di Linkage Disequilibrium
http://www.hapmap.org
HAPMAP – Gene APOE
http://www.hapmap.org
HAPMAP3 - 2008
Phase 1
Phase 2
Phase 3
Samples & POP
panels
269 samples
(4 panels)
270 samples
(4 panels)
1,115 samples
(11 panels)
Genotyping
centers
HapMap
International
Consortium
Perlegen
Broad & Sanger
Unique QC+
SNPs
1.1 M
3.8 M
(phase I+II)
1.6 M (Affy 6.0 &
Illumina 1M)
Reference
Nature (2005)
437:p1299
Nature (2007)
449:p851
Draft Rel. 1
(May 2008)
HAPMAP3 - 2008
label
ASW*
CEU*
CHB
CHD
GIH
JPT
LWK
MEX*
MKK*
TSI
YRI*
population sample
African ancestry in Southwest USA
Utah residents with Northern and Western
European ancestry from the CEPH collection
Han Chinese in Beijing, China
Chinese in Metropolitan Denver, Colorado
Gujarati Indians in Houston, Texas
Japanese in Tokyo, Japan
Luhya in Webuye, Kenya
Mexican ancestry in Los Angeles, California
Maasai in Kinyawa, Kenya
Toscans in Italy
Yoruba in Ibadan, Nigeria
* Population is made of family trios
# samples
90
QC+ Draft 1
71
180
162
90
100
100
91
100
90
180
100
180
1,301
82
70
83
82
83
71
171
77
163
1,115
Frequenza di SNP in 2 DB
MAF = minor allele frequency
Gorlov et al., AJHG 2008
HAPMAP – Gene APOE
http://www.hapmap.org
HAPMAP Aplotipi & popolazioni
Aplotipi & popolazioni
JPT + CHB
HAPMAP Aplotipi & popolazioni
1000 Genomes Project
A Deep Catalog of Human Genetic Variation
Sequenza dell'intero genoma: 1000 individui
http://www.1000genomes.org/page.php
Come studiare il fattore
genetico nelle malattie
complesse?
Strategia?
APPROCCIO DEL GENE CANDIDATO
Consiste nel formulare ipotesi (anche
complesse) di correlazione tra determinati
geni (i candidati) e la malattia che si vuole
studiare. Si tratta in di geni che sono già noti
per essere associati a meccanismi e fattori
legati alla malattia e che codificano per
proteine a cui si riconosce un ruolo nel
meccanismo patogenetico.
SCANSIONE GENOMICA
Consiste nello studiare il maggior numero di
marcatori possibile in modo da 'scandagliare'
tutte le regioni cromosomiche al fine di
identificare le regioni che correlano con la
malattia. Permette di identificare nuovi geni
dei quali non si sospettava l'associazione con
meccanismi o fattori relati alla malattia.
Asthma: pathway
Vercelli D, 2008
Come studiare il fattore
genetico nelle malattie
complesse?
Modalità?
ANALISI DI LINKAGE (studio attraverso la
segregazione di marcatori del DNA)
ANALISI DI ASSOCIAZIONE
Linkage: alleli a diversi loci che si trovano vicini
sullo stesso cromosoma e tendono a stare
assieme a causa della ridotta probabilità di
crossover (ricombinazione)
Linkage: cosegregazione degli
alleli dei marcatori a causa della
vicinanza dei marcatori stessi
A-1
A-2
A-3
A-4
M-1
M-1
M-2
M-4
A-1
A-3
A-1
A-4
M-1
M-2
M-1
M-4
Linkage: cosegregazione degli
alleli dei marcatori a causa della
vicinanza dei marcatori stessi
A-1
A-2
A-3
A-4
M-2
M-2
M-4
M-1
A-1
A-3
A-1
A-4
M-2
M-4
M-2
M-1
A-1
A-2
A-3
A-4
M-1
M-1
M-2
M-4
A-1
A-3
A-1
A-4
M-1
M-2
M-1
M-4
A-1
A-2
A-3
A-4
M-2
M-2
M-4
M-1
A-1
A-3
A-1
A-4
M-2
M-4
M-2
M-1
Linkage
Nell'esempio mostrato 2 loci si trovano
sullo stesso cromosoma e sono molto
vicini (freq di ricombinazione ridotta).
Mentre nella singola famiglia è possibile
prevedere quale possa essere l'allele al
locus M dato l'allele al locus A (linkage),
non è possibile in generale (es. prendendo
un individuo a caso nella popolazione)
prevedere quale possa essere l'allele al
locus M dato l'allele al locus A.
Linkage: cosegregazione degli
alleli del marcatori con la
malattia
Marcatore
A-1
A-2
A-3
A-4
M
N
N
N Gene ignoto
A-1
A-3
A-2
A-4
M
N
N
N
Es. Autosomica dominante: il padre affetto trasmette al figlio
affetto l'allele A-1, suggerendo che nelle vicinanze del
marcatore A ci siano il gene della malattia.
Linkage non parametrico
CONDIVISIONE ALLELICA
Marcatore
A-1
A-2
A-3
A-4
M
N
N
N Gene ignoto
A-1
A-3
A-2
A-4
M
N
N
N
1
2
3
4
M
N
N
N
1
3
1
4
M
N
M
N
3
2
4
4
M
N
N
N
3
4
3
4
M
N
M
N
AFFECTED SIB-PAIR ANALYSIS
Padre
Madre
Sharing allelico
Sn IBD
S1
2
2
1
figli (affetti)
1
0
S1
S2
S3
S4
analisi di linkage
1
1
0
media_IBD = 4/8(50%)
IBD
12
34
12
34
12
34
12
34
13
24
13
14
13
23
13
13
(IBD=0)
12
14
14
12
(IBD=0)
(IBD=1)
(IBD=1)
(IBD=2)
ECCESSO DI CONDIVISIONE ALLELICA
FRA FRATELLI AFFETTI: LINKAGE
La condivisione allelica viene espressa di
diversi modi: come percentuale (%)
oppure indicando la numero di volte che i
fratelli condividono 2, 1 o 0 alleli. Il
conteggio viene effettuato su un elevato
numero di famiglie.
La struttura base della famiglia prevede la
presenza di padre, madre e 2 figli affetti
(famiglia 'nucleare').
NOTA: Si riconoscono generalmente 2 tipi di linkage:
- parametrico (basato sulla stima della freq di ricombinazione tra l'ignoto locus malattia e il marcatore in
analisi. Si utilizza prevalentemente nello studio delle malattie mendeliane)
- non-parametrico (basato sulla stima della condivisione allelica. Si utilizza nello studio dei fenotipi
complessi)
ECCESSO DI CONDIVISIONE
FRA COPPIE DI FRATELLI
LINKAGE
NO LINKAGE
LINKAGE
Alleli Condivisi
2
1
25 50
50 50
ALLELICA
AFFETTI:
0 Condivisione
25 50.00%
0 75.00%
100 famiglie informative. Nel caso LINKAGE (esempio)
si osserva un'aumentata condivisione allelica rispetto
all'atteso nell'ipotesi di assenza di linkage tra il
marcatore e il locus di suscettibilità (NO LINKAGE).
AFFECTED SIB-PAIR ANALYSIS
Misura il grado di condivisione allelica (sharing allelico)
in coppie di fratelli affetti (maschio – maschio, femmina
– femmina, maschio – femmina).
Il valore atteso, in assenza di linkage è 50%.
E' una analisi di linkage (non parametrico).
Se il marcatore è in linkage con il locus 'malattia' allora
le coppie di fratelli affetti presenteranno un eccesso di
alleli condivisi (=quelli il linkage con il locus 'malattia',
che sono stati trasmessi da uno o entrambi I genitori).
E' possibile misurare lo sharing paterno, materno
oppure, molto più spesso, quello combinato.
Il grado di condivisione allelica viene stimato studiando
centinaia (migliaia) di famiglie con coppie di figli
affetti
Asma nella popolazione Italiana
Scansione cromosoma 5
Studio di associazione
Confrontare la frequenza del fattore genetico
(alleli, genotipi o aplotipi) in un gruppo di
individui affetti rispetto ad un gruppo di
individui non affetti.
Lo studio di associazione caso-controllo può
essere influenzato da diversi fattori come ad
esempio il 'mescolamento' di più popolazioni.
La popolazione dei controlli dovrebbe essere
scelta per essere il più possibile simile alla
popolazione dei casi per tutti i possibili fattori
confondenti (es. età, sesso, etnia, etc)
Studio di associazione
NON AFFETTO (controllo)
AFFETTO (caso)
controlli
casi
è maggiormente frequente nei casi : ASSOCIAZIONE.
Conteggio dei genotipi e
degli alleli in casi e controlli
A1 / A1 A1 / A2 A2 / A2
CASI
70
120
10
CONTROLLI 50
100
50
A1
260
200
A2
140
200
Nell'esempio:
i genotipi A1/A1 e A1/A2 sono più frequenti nei casi rispetto ai
controlli
l'allele A1 è più frequente nei casi rispetto ai controlli
Con opportuni test è possibile verificare se la differenza possa
ritenersi significativa e quindi concludere che il marcatore sia
associato con la malattia
Linkage vs Associazione


ESEMPIO:
una malattia genetica P causata da molte
mutazioni diverse (g1, g2, g3, …) riferibili ad un
solo e determinato gene G.
Nota: trattandosi di una malattia complessa è meglio riferirsi ad alleli
associati ad un aumentato rischio di malattia.
Analisi di Linkage

Ogni famiglia potrebbe contenere un allele di
rischio diverso dalle altre famiglie, sebbene il
gene implicato sia sempre lo stesso (con una ”mutazione”
diversa in ogni famiglia)

Tramite l'AdL parametrico si valuta se una
particolare regione cromosomica (=a una
distanza theta dal marcatore genetico che sto
utilizzando) è trasmessa in accordo con il
modello proposto (es. dominate, recessivo).
Linkage vs Associazione


Focalizzo l'attenzione sul fatto che il marcatore
(e quindi la la regione cromosomica che lo
contiente) segrega con la malattia.
Linkage: studia la segregazione dei marcatori
all'interno delle famiglie. I marcatori possono
essere caratterizzati nelle diverse famiglie da
alleli diversi che segregano con la malattia
(
Analisi di Linkage

Tramite i marcatori genetici l'AdL è in grado di
identificare la regione cromosomica contenente
il gene G sebbene ogni famiglia possieda una
mutazione diversa (che, sempre in questo
esempio, sarà identificata in un momento
successivo tramite sequenziamento del gene
G).
Linkage & Linkage Disequilibium

I Loci A e B si trovano su 2 cromosomi

Locus A: 2 alleli (frequenza A1:0.4 ; A2: 0.6)

Locus B: 2 alleli (frequenza B1:0.4 ; B2: 0.6)

Quale è la frequenza attesa degli individui con
genotipo
A1/A1 per il locus A e
B1/B1 per il locus B?
Linkage & Linkage Disequilibium

Assumendo che le condizione di equilibrio
previste da Hardy e Weinberg siano rispettate:

Freq_A1/A1 : 0.4 * 0.4 = 0.16

Freq_B1/B1 : 0.4 * 0.4 = 0.16


Freq_A1A1B1B1 :
Freq_B1/B1 * Freq_A1/A1 = 0.16*0.16 =0.0256
Considerando contemporaneamente 2 loci, la % di individui che
presentano un particolare genotipo può diventare piuttosto
ridotta (~2.5% nell'esempio), sebbene gli alleli considerati
presentino una frequenza elevata (40% nell'esempio).
Linkage & Linkage Disequilibium


A priori non possiamo sapere se 2 loci
(marcatori) all'interno dello stesso gene, in una
data popolazione, presentino (se entrambi
polimorfici) una associazione assoluta, oppure
siano in equilibrium (nella distribuzione degli
alleli), oppure siano in una situazione
intermedia.
Il progetto internazionale HAPMAP si è posto lo
l'obiettivo di individuare il maggior numero di siti
polimorfici comuni a diverse popolazioni e di
stimare il grado di associazione tra i marcatori
vicini (http://www.hapmap.org).
Linkage & Linkage Disequilibium


Associazione
dei 2 loci
Equilibrium
A1/A1
A1/A2
A2/A2
B1/B1
0.0025
-
-
B1/B2
-
0.095
-
B2/B2
-
-
0.90
A1/A1
A1/A2
A2/A2
B1/B1
0.000006
0.00023
0.00237
B1/B2
0.00023
0.00902
0.0857
B2/B2
0.00237
0.0857
0.81
Linkage & Linkage Disequilibium


Associazione
dei 2 loci
Equilibrium
A1/A1
A1/A2
A2/A2
M1/M1
0.0025
-
-
M1/M2
-
0.095
-
M2/M2
-
-
0.90
A1/A1
A1/A2
A2/A2
M1/M1
0.000006
0.00023
0.00237
M1/M2
0.00023
0.00902
0.0857
M2/M2
0.00237
0.0857
0.81
LINKAGE
12
22
12
22
11
12
12
12
12
12
22
22
11
11
22
22
Allele 1 da padre
Allele 2 da padre
Allele 1 da madre Allele 2 da padre
Allele 2 da madre
Non tutte le famiglie sono pienamente informative (=non posso
stimare con precisione sia la condivisione paterna che la
condivisione materna)
Nell'esempio, in tutti i casi informativi è possibile osservare uan
condivisione allelica: a volte è condiviso l'allele 1 e a volte è
condiviso l'allele 2.
LINKAGE e Associazione
12
11
12
22
11
12
12
12
12
12
22
22
12
12
22
22
Non tutte le famiglie sono pienamente informative (=non posso
stimare con precisione sia la condividione paterna che la
condividione materna)
Nell'esempio, in tutti i casi informativi è possibile osservare una
condivisione allelilca: è sempre condiviso l'allele 2 (LINKAGE
DISEQUILIBRIUM tra l'allele di suscettibilità al locus 'malattia' e
l'allele del marcatore)
Trasmission Disequilibrium Test (TDT)
-Scopo iniziale: Verificare l’esistenza di linkage con
un marcatore localizzato vicino ad un gene
candidato, nei casi dove una associazione con la
malattia fosse stata trovata (1993).
- Negli studi caso/controllo (=di associazione) tra 2
loci può esserci associazione e non linkage
(cause:admixture, stratificazione, etc).
-Il TDT e’ un test di associazione interno alla famiglia.
E' valido anche quando non c’e’ evidenza a priori di
linkage. Attualmente è utilizzato come test di
associazione piuttosto che come test per il linkage.
TDT
AB
TRASMESSO
Caso
BB
1
AB
ALLELE: A
es.
2
NON
TRASMESSO
Controllo ‘interno'
della famiglia
Transmesso
B
Non transmesso
A
20
100
B
100
20
GWAS:
STUDI DI
ASSOCIAZIONE SU
SCALE GENOMICA
(DNA)
GWAS - caratteristiche
●
Dimensione del campione molto grande
(fino a 2000 casi, 20000 controlli)
Alto livello di risoluzione
● Nessuna ipotesi/conoscenza a priori
● Replica dei risultati in un campione
indipendente
●
Problematiche:
● Grande quantità di dati
● Controllo della qualità
● Correzione per la possibile stratificazione
del campione
● Statistica
Replica dei risultati
Dimensioni del II campione sufficiente
● Dati indipendenti
● Fenotipi simile se non identico
● Popolazione simile
● Dimostrazione di un effetto simile e nella
stessa direzione (stesso allele, genotipo o
aplotipo)
●
Gwas - Nuove sfide
Identificazione degli SNP causali
● Miglior uso del fenotipo
● Analisi con marcatori multipli
● Identificazione di altre fonti di variabilità
(CNV, varianti rare)
● Intregazione dell'informazione utilizzando
altre 'omiche' (es. transcrittomica,
matabolomica)
● Medicina personalizzata
●
ESEMPIO DI GWAS:
Bone-mineral-density loci
Nature Genetics 41,
1199 - 1206 (2009)
GWAS – BMD misurata in 2 distretti
Nature Genetics 41, 1199 - 1206
(2009)
GWAS – LOCI nuovi e già noti
Nature Genetics 41, 1199 - 1206
(2009)
GWAS – LOCI nuovi e già noti
Nature Genetics 41, 1199 - 1206
(2009)
Meta-Analisi per i loci identificati
Nature Genetics 41,
1199 - 1206 (2009)
BMD e numero di alleli di rischio


La distribuzione del numero di alleli di rischio portati
da un individuo si avvicina alla curva a campana
Il valore di BMD (espresso in Z-score), in media, si
riduce all'aumentare del numero di alleli di richio!!
(ricorda il modello a soglia)
IL CASO DEI LIPIDI:
varianti comuni e varianti rare


Il rischio determinato tramite gli SNP potrebbe
sottostimare il rischio associato alle vere
varianti causali
Es: 11 dei 30 geni attualmente associati a
variazioni dei livelli di lipidi possono anche
presentare degli alleli rari che sono associati a
forme Mendeliane di dislipidemia (ABCA1,
PCSKA9, LDLR): geni con varianti comuni
associate ad effeti lievi possono anche portare
varianti rare assocate a forti effetti
GWAS: Altezza
GWAS: Altezza
http://www.ncbi.nlm.nih.gov/pubmed/
PATHWAYS
Potenziali target
Representation of the connections between SNPs and corresponding genes for the 42
SNPs with GRAIL (p < 0.01). Thicker and redder lines imply stronger literature-based
connectivity. [doi:10.1038/nature09410]