Lez_13-14_Genomic_25-11-10_WGS

Lezione 11-12
Martedì 23-XI-2010 ore 14:00-15:00
aula 6a
Genomica
corso di laurea
a.a. 2010-2011 biotecnologie industriali
i polimorfismi in tutte le specie
interesse per la biodiversità
coltivazioni ed allevamenti riducono i polimorfismi per
effetto della selezione delle specie e varietà più convenienti
ed utili per la produzione
studio dei polimorfismi come marcatori neutrali per l’analisi
di popolazioni
ribaltamento fenotipo / genotipo / fenotipo
studio dei polimorfismi associati ai fenotipi nella genomica
parliamo di wgs nella specie umana
WGS wide genome screening perchè ci sono i polimorfismi
e perchè si conosce l’intero genoma
gli studi sulla specie umana derivano dal fatto che sono utili
sia a livello di conoscenze di base di biologia che per
l’applicazione alla patologia
negli organismi modello di laboratorio si fanno altri tipi di
esperimento che sull’umano non si può come nei topi
transgenici ecc.
analisi del genoma
tramite wgs (wide genome screening)
cosa significa e come si fa
devono essere noti i marcatori SNPs o VNTR con una
densità nota,
distribuzione omogenea ed alta densità (≠ risoluzione)
ultimi metodi a densità media di un marcatore / 500bp
più marcatori più risoluzione necessità di nuove tecniche
J.N.Hirschhorn & M.J.Daly
Nature Reviews Genetics vol.6; Febr.2005
Genome-wide association studies for common diseases and complex traits
analisi genomiche
approccio globale sull’intero
genoma
sull’uomo: analisi di associazione con fenotipi
vari approcci mappare geni o loci:
per malattie genetiche e tratti quantitativi
tramite: la strategia di studio dei geni candidati
e genome wide studies
in entrambe i casi si usa “linkage mapping”
o genome wide association studies
quando si usa un metodo e quali vantaggi hanno
con quali obbiettivi
analisi della variabilità genetica di popolazione
linkage disequilibrium LD associazione con marcatori
e triadi o famiglie (iniziata per malattie Mendeliane)
analisi di associazione dei fenotipi e patologie
confronto casi controlli
brevetti sui genomi?
si possono brevettare solo strutture artificiali,
caso mai un test, ma non sequenze o organismi
si può discutere sul micoplasma sintetico
non sulle varianti alleliche naturali
si è dovuti arrivare a definire patrimonio dell’umanità, ciò
che ovviamente è di tutti
beni inalienabili: aria e acqua, chi li inquina dovrebbe
ripulirli
i limiti degli studi di linkage
grande utilità per studi di malattie monogeniche Mendeliane
uso di markers che segregano nelle famiglie col gene della
malattia
per definizione malattie monogeniche hanno alta penetranza
i marcatori della malattia cosegregano entro 10-20 Cm (ci
sono poche varianti polimorfiche a causa della selezione
negativa)
è stato applicato anche per malattie non monogeniche con
regioni con forte linkage per varianti che aumentano la
suscettibilità alla malattia: infiammaz.intest, Diabete 1,
schizofr.
successi parziali che spiegano solo parte (non arrivano oltre a
tre volte il rischio) essendo multifattoriali con 30x di rischio
due diverse metodologie
wide genome scr. association: analisi frequenze caso
controllo
analisi di lnkage disequilibrium: famiglie grandi, triadi,
popolazioni inbred, popolazioni omogenee
per definizione sappiamo che c’è linkage
tre marcatori con 6 alleli: A a B b C c
aplotipi con freq uguali, se in disequilibrio aumenta
la frequenza di uno degli aplotipi rispetto agli altri
esiste disequilibrio per effetto della mutazione
recente al’interno della stessa coorte
motivazione delle carenze
- bassa ereditabilità dei tratti genetici più complessi
- mancanza di loci (markers) a meno di 10 cM per avere
informazione più completa
- definizione precisa del fenotipo
- inadeguatezza del piano di indagine sperimentale
- gli studi devono essere molto estesi (molti campionifamiglie)
- complicazione nel verificare molti tratti genetici quantitativi
che partecipano solo in una piccola parte al fenotipo
patologico, i singoli polimorfismi possono avere solo un
peso limitato nel determinare il rischio della malattia
- varianti comuni possono aumentare il rischio di due volte
o meno e non essere sotto selezione negativa forte
basse frequenze non visibili per linkage
questi marcatori con un aumento di rischio di sole due volte o
meno si possono osservare solo su grandi popolazioni e
quindi non su linkage in famiglie per la bassa frequenza che
hanno.
sarebbero necessari studi su milioni di gemelli o famiglie
nessun studio di genome wide linkage ha evidenziato nel
diabete type 2 la regione PPARG che è significativa
alleli comuni e ache rari partecipano alle malattie comuni ed
ai tratti quantitativi,
linkage ha bassa efficienza a trovare alleli comuni a bassa
penetranza
necessità di strategie alternative
linkage mapping e
gw association
“linkage mapping” efficientissimo per malattie monogeniche
Mendeliane
le malattie monogeniche hanno una selezione negativa forte
perciò varianti rare (morbidità e mortalità alte e precoci), alta
penetranza per definizione, i markers cosegregano entro 1020 cM
successo in alcune malattie multifattoriali:
Inflam Bowel dis (IBD);
Shizofrenia,
Diabete tipo I
analisi dei geni candidati
Ethnic difference in patients with type 2 diabetes mellitus in inter-East Asian populations: a systematic review
and meta-analysis focusing on gene polymorphism.
Takeuchi M, Okamoto K, Takagi T, Ishii H. J Diabetes. 2009 Dec;1(4):255-62.
BACKGROUND: We previously reported that the fasting serum insulin level was significantly lower in
Japanese patients than in Korean and Chinese patients, and showed evidence that a difference in the dietary
component would be one of the most influential factors for the ethnic difference. However, it is well known that
type 2 diabetes mellitus (T2DM) results from the interaction between genetic predispositions and
environmental risk factors. Therefore, we investigated ethnic differences by focusing on gene polymorphism,
possibly related to T2DM in Japanese, Korean, and Chinese subjects.
METHODS: Data sources included MEDLINE and EMBASE between January 2001 and October 2008. We
conducted a search for articles containing minor allele frequency (MAF) in the gene polymorphisms of
peroxisome proliferator-activated receptor-γ (PPARG), inward-rectifying potassium channel Kir6.2 (KCNJ11),
Calpain 10 (CAPN10), and transcription factor 7-like 2 (TCF7L2). The pooled odds ratio was calculated by
using a fixed-effects model with the Mantel-Haenszel method after confirming statistical evidence of
homogeneity across the ethnicities using the Breslow-Day test.
RESULTS: The Breslow-Day test revealed that there were no statistically significant differences between
ethnicities in pooled odds ratios for the gene polymorphisms in PPARG (P = 0.828), KCNJ11 (P = 0.194),
CAPN10 (P = 0.090), and TCF7L2 (P = 0.376). Also, pooled odds ratios of each gene polymorphism in East
Asians were 0.645 for PPARG (P = 0.000), 1.168 for KCNJ11 (P = 0.000), 0.967 for CAPN10 (P = 0.759), and
1.386 for TCF7L2 (P = 0.000).
CONCLUSION: The results of this study and our previous studies suggest that behavioral and environmental
risk factors have a more significant impact on ethnic difference in East Asian patients with T2DM compared
with genetic predispositions.
analisi dei geni candidati
selezionati o da regioni di linkage
o da evidenze che mostrano il rischio
tecnica più comune è il risequenziamento del gene candidato
nei pazienti e controlli
si cerca la variante o il set di varianti che sono più frequenti o
assenti nei soggetti ammalati
spesso vengono sequenziate le regioni codificanti ed esoni
analisi di geni candidati
sistema alternativo al LD
per appartenenza a regioni in LD
per evidenze che riguardano/influenzano la patologia
analisi più comune con resequencing di pazienti e controlli
(ricerca delle varianti che sono più presenti o assenti nella
patologia)
analisi spesso ristretta a regioni codificanti o a singolo
esone come il gene recettore per la “melanocortin-4”
implicato in una piccola percentuale dell’obesità giovanile
alcuni alleli introvabili con LD
alleli a bassa suscettibilità non possono essere trovati
a meno di screening con 106 individui
es. variante Pro 12 Ala del gene proliferativo recettore g
attivato del perossisoma PPARG
rischio doppio per diabete tipo 2
mai potrebbe essere trovato per LD (link diseq)
solo con screening su oltre un milione di soggetti
ragionevole credere che le malattie comuni siano
determinate da alleli comuni, rari e tratti con effetto
quantitativo, necessaria strategia complementare
esempio
Cohen and colleagues have successfully applied the
resequencing approach to high-priority candidate genes in
which severe loss-of function variants cause Mendelian
disorders of lipid metabolism; they found that these genes
also harbour less severe but still relatively rare missense
variants that are associated with high, but not extreme,
levels of high-density lipoprotein.
Rare loss-of-function mutations in ANGPTL family members contribute to plasma triglyceride levels in
humans. Romeo S, Yin W, Kozlitina J, Pennacchio LA, Boerwinkle E, Hobbs HH, Cohen JC. J Clin Invest.
2009 Jan;119(1):70-9.
Common Single-Nucleotide Polymorphisms Act in Concert to Affect Plasma Levels of High-Density
Lipoprotein Cholesterol. Spirin V, Schmidt S, Pertsemlidis A, Cooper RS, Cohen JC, Sunyaev SR.
Am J Hum Genet. 2007 Oct 19;81(6). [
Multiple rare variants in NPC1L1 associated with reduced sterol absorption and plasma low-density lipoprotein
levels. Cohen JC, Pertsemlidis A, Fahmi S, Esmail S, Vega GL, Grundy SM, Hobbs HH. Proc Natl Acad Sci U
S A. 2006 Feb 7;103(6):1810-5.
association studies
Association studies using common allelic variants are
cheaper and simpler than the complete resequencing of
candidate genes, and have been proposed as a powerful
means of identifying the common variants that underlie
complex traits. In their simplest form, association studies
compare the frequency of alleles or genotypes of a particular
variant between disease cases and controls.
Alternative approaches include using family-based controls to
avoid the potential problem of population stratification.
case control studies
confronto di frequenze alleliche tra i soggetti patologici o con
1 fenotipo e le frequenze della popolazione di controllo
problemi di stratificazione:
come si devono scegliere le 2 popolazioni da controllare?
I paesi oltreoceano hanno popolazioni miste (melting pot) e
devono essere pesate le componenti della popolazione di
controllo di riferimento e non tutti gli africani o gli europei
sono uguali, cioè non basta prendere dei neri e dei bianchi
come riferimento.
Esiste una statistica apposta per questo:
tests di caso-controlli
una meta analisi fatta su dati di letteratura pubblicati:
(andatevi a vedere cosa è una meta-analisi)
Ethnic difference in patients with type 2 diabetes mellitus in inter-East Asian populations: a
systematic review and meta-analysis focusing on gene polymorphism.
Takeuchi M, Okamoto K, Takagi T, Ishii H. J Diabetes. 2009 Dec;1(4):255-62.
METHODS: Data sources included MEDLINE and EMBASE between
January 2001 and October 2008. We conducted a search for articles
containing minor allele frequency (MAF) in the gene polymorphisms of
peroxisome proliferator-activated receptor-γ (PPARG), inward-rectifying
potassium channel Kir6.2 (KCNJ11), Calpain 10 (CAPN10), and
transcription factor 7-like 2 (TCF7L2). The pooled odds ratio was
calculated by using a fixed-effects model with the Mantel-Haenszel
method after confirming statistical evidence of homogeneity across the
ethnicities using the Breslow-Day test.
candidate gene association limits
Candidate-gene association studies have identified many of the genes
that are known to contribute to susceptibility to common disease. Such
studies are greatly facilitated by using indirect LINKAGEDISEQUILIBRIUM (LD)-based methods.
However,candidate-gene studies rely on having predicted the identity of
the correct gene or genes, usually on the basis of biological hypotheses or
the location of the candidate within a previously determined region of
linkage.Even if these hypotheses are broad (for example, involving the
testing of all genes in the insulin-signalling pathway), they will, at best,
identify only a fraction of genetic risk factors, even for diseases in which
the pathophysiology is relatively well understood.When the fundamental
physiological defects of a disease are unknown, the candidate-gene
approach will clearly be inadequate to fully explain the genetic basis of the
disease.
genome wide association approach
definizione: studio di associazione causale di varianti
genetiche con una rassegna del genoma.
Non ci sono preconcetti sulla regione genomica delle varianti.
Il metodo sfrutta la forza dell’associazione senza avere una
ipotesi sull’identità del gene causale.
E’ un metodo non “bias” (sapete cosa vuol dire?)
cioè privo di una preferenza di scelta, anche in presenza di
evidenze convincenti contrarie sulla funzione e localizzazione
dei geni causali.
Deve essere un metodo capace di trovare appunto i geni che
potrebbero sfuggire ad una indagine del tipo gene-candidato
in cui si suppone l’associazione di un metabolismo ai suoi geni
correlati come predisponenti.
Qui è l’opposto: ricerca dei geni non correlabili sulla base delle
evidenze note.
base statistica per WGS
Estimating haplotype frequencies by combining data from large DNA
pools with database information.
We assume that allele frequency data have been extracted from several large DNA pools,
each containing genetic material of up to hundreds of sampled individuals. Our goal is to
estimate the haplotype frequencies among the sampled individuals by combining the
pooled allele frequency data with prior knowledge about the set of possible haplotypes.
Such prior information can be obtained, for example, from a database such as HapMap.
We present a Bayesian haplotyping method for pooled DNA based on a continuous
approximation of the multinomial distribution. The proposed method is applicable when the
sizes of the DNA pools and/or the number of considered loci exceed the limits of several
earlier methods. In the example analyses, the proposed model clearly outperforms a
deterministic greedy algorithm on real data from the HapMap database. With a small
number of loci, the performance of the proposed method is similar to that of an EMalgorithm, which uses a multinormal approximation for the pooled allele frequencies, but
which does not utilize prior information about the haplotypes. The method has been
implemented using Matlab and the code is available upon request from the authors.
Gasbarra D, Kulathinal S, Pirinen M, Sillanpää MJ.
University of Helsinki, Helsinki.
IEEE/ACM Trans Comput Biol Bioinform. 2011 Jan-Mar;8(1):36-44.
metodi disponibili per analisi throughput
perchè Genome Wide ass. studies
“approaches to mapping the genes that underlie common disease and
quantitative traits fall into two categories: CANDIDATE-GENE studies,
which use either association or resequencing approaches,
and genome-wide studies, which include both LINKAGE
MAPPING and genome-wide association studies. The approaches
and their advantages and disadvantages are summarized in TABLE 1.
In this review,we discuss these approaches and present arguments as
to why genome wide association studies might be advantageous for
identifying the genetic variants associated with common
disease.
One fundamentally different approach, ADMIXTURE MAPPING**, is
not discussed here but has been described elsewhere7–10.”
** studi su campioni di popolazioni mescolate es: America (USA,
Brasile ecc.) il problema è il controllo di riferimento
nelle patologie non Mendeliane o fenotipi
multi fattoriali
bassa penetranza: aumenta la necessità di ampiezza del
campione per la significatività della statistica
ricerca in coorti ad origine limitata e popolazioni isolate
es. Sardegna, Giappone, Foresta Amazzonica ecc.
analisi dei geni identificati per confronto
esempio dei gemelli
Infl Bowel Disease solo 2x il rischio per fattori noti
il calcolo totale del rischio è 30x
quindi il n. di fattori ignoti è molto grande
quali cause: bassa ereditabilità di tratti genetici complessi
copertura parziale dei markers con microsatelliti
definizione imprecisa dei fenotipi
protocolli di studio non adeguatamente potenti
necessità di studi estesi di geni candidati (più difficili?)
da regioni di 10 cM (~106 bp) al gene
dalla regione di linkage per arrivare al gene
analisi dei geni presenti
possibili geni candidati per funzione
sequenziamento e ricerca degli alleli
nel caso di mutazioni non ci potrà essere disequilibrium
il sistema è anche poco efficiente per trovare le varianti
genetiche che hanno poco effetto sulla malattia
effetti quantitativi
tratti con effetti quantitativi con architetture complesse
influenzano il fenotipo con la somma e le interazioni tra
fattori ambientali e genetici
le singole varianti alleliche hanno poca influenza
le varianti comuni freq >1% possono dare suscettibilità
resistono alla selezione negativa per la bassa influenza
ne sono stati trovati con un aumento di rischio = 2x
limiti degli studi gene candidato
l’ipotesi biologica, fisiopatologica,
testare tutti i geni del pathway insulin-signalling dipendente
identificazione solo di una frazione dei fattori genetici di rischio
nonostante le buone conoscenze biologiche
in assenza di conoscenze fondamentali fisiopatologiche della
patologia in esame il sistema è inadeguato (cercare l’ago nel
pagliaio senza la calamita o metal detector)
studi di associazione
in assenza di certezze fisiopatologiche della malattia
l’analisi dei geni candidati non è possibile
uso di varianti alleliche comuni meno caro del
risequenziamento
efficiente per evidenziare regioni complesse
analisi per confronto delle varianti caso/controllo
uso alternativo del controllo con analisi famiglia/malato
wgs per associazione
si cercano le regioni associate “in linkage” con gli alleli
possibili dei geni implicati (niente a che fare con LD)
bassa penetranza per la presenza di molti fattori
analisi di campioni sempre maggiori per gli alleli rari
assenza di presunte regioni preferenziali, no bias
assenza di evidenze della collocazione e funzione dei geni
coinvolti
miglioramento delle tecniche
essenziale per sveltire analisi molto estese
database di 96 dbSNPs umani con frequenze > 1%
costi attuali ~0.001 $ x genotipo = 500 $ per individuo
varie tecniche adottate, la maggior parte con PCR e
ibridazione su chip array
presenza di aplotipi e LD
“ENCODE” encyclopedia of DNA elements
esistenza di lunghi tratti di genoma in LD
alta predittività degli SNPs vicini (o recenti o senza
ricombinazione)
conosciute le regioni in LD (aplotipi) si riducono gli SNPs da
analizzare
si deve analizzare la porzione di genoma a basso LD
nascita della Hap Map data
poche centinaia di migliaia di SNPs per mappare l’intero
genoma
mappa degli aplotipi determina le regioni di LD e blocchi
di genoma con gli stessi alleli che non ricombinano
nelle popolazioni antiche come in Africa ci sono meno LD
sono necessari più SNPs (c’è stato più tempo per
ricombinazione, i gruppi etnici del resto del mondo
partono da alcuni colli di bottiglia con meno alleli e meno
aplotipi
approccio missenso
scelta degli SNPs missenso in regioni codificanti
1-2 SNPs in media per gene riduce a 30-60 x103 il n.tot. di
SNPs
la ricerca di tutti gli SNPs dei geni prevede invece il
resequencing bidirezionale di 3x105 esoni x 48 soggetti
~306 sequenziamenti
possibile solo con i nuovi metodi di sequenziamento massivo
possibili paradossi: linkage di SNP missenso con variante di
regione regolativa (RR)
es. CTLA4 cytotoxic T-lymphocyte-associated protein 4
Thr17Ala in LD con RR polimorfica non codificante in
associazione + forte con autoimmunità
metodi esistenti (alcuni con brevetto)
Selected commercially available high-throughput genotyping platforms
Company
Method of allele discrimination
Method of detection
Number of assays detected simultaneously
Third Wave
PCR, cleavase
Fluorescence; plate reader
Sequenom
PCR, primer extension
Mass spectrometry
7–12
ABI
PCR, primer extension
Fluorescence; gel electrophoresis
48
Illumina
Oligo ligation, generic PCR
Fluorescence; tags on beads
1.536
Parallele
Gap closure, generic PCR
Fluorescence; tags on array
10.000
Affymetrix
Generic PCR, hybridization
Fluorescence; hybridization to array
10,000–100,000
Perlegen
PCR, hybridization
Fluorescence; hybridization to array
100,000+
1 (multiplexed 100-fold at PCR stage only)
approcci diversi su topo
esperimento per fare topi transgenici in ogni parte del
genoma trascritta e tradotta (esoni)
creare una collezione (library) di cellule embrionali
ricombinanti in ogni gene
la prospettiva nel restante 95% del
genoma
genoma si ricomincia da capo
nell’interattoma va inserito il genoma e si
allargano le prospettive
nuove tecniche, metodi, strumenti
da chi è diretto il movimento della
cromatina
cercare di capire come si muove (attiva o passiva)
analisi in vivo con microscopia
i movimenti fuori dal territorio cromosomico controllati
da actina-miosina in topi transgenici [Curr Biol. 2006 Apr
18;16(8):825-31.]
effetto “looping out” dal territorio cromosomico dipendente
dal tipo cellulare: Hoxd di topo ha il “looping” sull’asse
antero-posteriore ma non negli abbozzi degli arti,
effetto di ricollocamento nel territorio nucleare del crms X
dopo inattivazione di Xist, ma i territori crms non sono
barriere per la trascrizione da parte della pol. II
tabella 1 GWS
*candidate-gene studies; ‡ genome wide studies