CORSO INTEGRATO DI GENETICA a.a. 2010-2011 Dr. Giovanni Malerba, [email protected] 11-11-2010 Analisi Genetica delle Malattie complesse UN MODELLO Body Mass Density & VDR 2 R =0.34 ... rimane da spiegare il 66% (1-0.34) del modello statistico (ossia si devono identificare altri fattori importanti) IL MODELLO DI MALATTIA COMPLESSA Fenotipo ~ F_GENETICO + F_AMBIENTALE + .. + + (F_GENETICO * F_AMBIENTALE) interazione ASMA familiarità, sesso ( ~età), fumo Diabete T2 passivo, basso peso alla storia familiare, età, stile di nascita, obesità, vivere in vita sedentario, diabete in grandi aree urbane, gravidanza, etnia, pressione inquinamento ambientale sanguigna, colesterolo ..GPR154, IL1RN, ADAM33, elevato, .. IRAKM, ORMDL3 PPARG, KCNJ11, TCF7L2 Rischio di essere affetto Dal 'Sì/No' si passa a stimare la probabilità di essere Sì e di essere NO, oppure il rischio aumentato di un genotipo rispetto agli altri F_GENETICO * F_AMBIENTALE CD14/-260 e livelli di endotossina Eder et al., J Allergy Clin immunol 2005 L'attrezzatura del genetista delle malattie complesse Associazione di un SINGOLO gene Clonaggio posizionale Geni della malattia complessa TRASCRITTOMA Associazione genomica (GWAS: SNP,CNV) Analisi dei PATHWAY Network di pathway Metiloma (Epigenetica) RISEQUENZIAMENTO (=sequenza del/dei gene/i – identificazione varianti rare) Metaboloma Meta–Analisi (analsisi di tutti risultati per stimare al megliol'effetto del fattore genetico ) POLIMORFISMI e POPOLAZIONI Alcuni aspetti della struttura del genoma e Il progetto HAPMAP FREQUENZE GENICHE Caucasoidi Cinesi (Beijing) Asiatici (Giapponesi- Tokio) Africani (Yoruba, Nigeria) http://www.hapmap.org HAPMAP – Gene APOE http://www.hapmap.org HAPMAP 4 popolazioni: Caucasoidi, Cinesi, Giapponesi, Africani 3.1 milioni di SNP su tutto il genoma Frequenza di ogni SNP per ogni popolazione Aplotipi Blocchi di Linkage Disequilibrium http://www.hapmap.org HAPMAP – Gene APOE http://www.hapmap.org HAPMAP3 - 2008 Phase 1 Phase 2 Phase 3 Samples & POP panels 269 samples (4 panels) 270 samples (4 panels) 1,115 samples (11 panels) Genotyping centers HapMap International Consortium Perlegen Broad & Sanger Unique QC+ SNPs 1.1 M 3.8 M (phase I+II) 1.6 M (Affy 6.0 & Illumina 1M) Reference Nature (2005) 437:p1299 Nature (2007) 449:p851 Draft Rel. 1 (May 2008) HAPMAP3 - 2008 label ASW* CEU* CHB CHD GIH JPT LWK MEX* MKK* TSI YRI* population sample African ancestry in Southwest USA Utah residents with Northern and Western European ancestry from the CEPH collection Han Chinese in Beijing, China Chinese in Metropolitan Denver, Colorado Gujarati Indians in Houston, Texas Japanese in Tokyo, Japan Luhya in Webuye, Kenya Mexican ancestry in Los Angeles, California Maasai in Kinyawa, Kenya Toscans in Italy Yoruba in Ibadan, Nigeria * Population is made of family trios # samples 90 QC+ Draft 1 71 180 162 90 100 100 91 100 90 180 100 180 1,301 82 70 83 82 83 71 171 77 163 1,115 Frequenza di SNP in 2 DB MAF = minor allele frequency Gorlov et al., AJHG 2008 HAPMAP – Gene APOE http://www.hapmap.org HAPMAP Aplotipi & popolazioni Aplotipi & popolazioni JPT + CHB HAPMAP Aplotipi & popolazioni 1000 Genomes Project A Deep Catalog of Human Genetic Variation Sequenza dell'intero genoma: 1000 individui http://www.1000genomes.org/page.php Come studiare il fattore genetico nelle malattie complesse? Strategia? APPROCCIO DEL GENE CANDIDATO Consiste nel formulare ipotesi (anche complesse) di correlazione tra determinati geni (i candidati) e la malattia che si vuole studiare. Si tratta in di geni che sono già noti per essere associati a meccanismi e fattori legati alla malattia e che codificano per proteine a cui si riconosce un ruolo nel meccanismo patogenetico. SCANSIONE GENOMICA Consiste nello studiare il maggior numero di marcatori possibile in modo da 'scandagliare' tutte le regioni cromosomiche al fine di identificare le regioni che correlano con la malattia. Permette di identificare nuovi geni dei quali non si sospettava l'associazione con meccanismi o fattori relati alla malattia. Asthma: pathway Vercelli D, 2008 Come studiare il fattore genetico nelle malattie complesse? Modalità? ANALISI DI LINKAGE (studio attraverso la segregazione di marcatori del DNA) ANALISI DI ASSOCIAZIONE Linkage: alleli a diversi loci che si trovano vicini sullo stesso cromosoma e tendono a stare assieme a causa della ridotta probabilità di crossover (ricombinazione) Linkage: cosegregazione degli alleli dei marcatori a causa della vicinanza dei marcatori stessi A-1 A-2 A-3 A-4 M-1 M-1 M-2 M-4 A-1 A-3 A-1 A-4 M-1 M-2 M-1 M-4 Linkage: cosegregazione degli alleli dei marcatori a causa della vicinanza dei marcatori stessi A-1 A-2 A-3 A-4 M-2 M-2 M-4 M-1 A-1 A-3 A-1 A-4 M-2 M-4 M-2 M-1 A-1 A-2 A-3 A-4 M-1 M-1 M-2 M-4 A-1 A-3 A-1 A-4 M-1 M-2 M-1 M-4 A-1 A-2 A-3 A-4 M-2 M-2 M-4 M-1 A-1 A-3 A-1 A-4 M-2 M-4 M-2 M-1 Linkage Nell'esempio mostrato 2 loci si trovano sullo stesso cromosoma e sono molto vicini (freq di ricombinazione ridotta). Mentre nella singola famiglia è possibile prevedere quale possa essere l'allele al locus M dato l'allele al locus A (linkage), non è possibile in generale (es. prendendo un individuo a caso nella popolazione) prevedere quale possa essere l'allele al locus M dato l'allele al locus A. Linkage: cosegregazione degli alleli del marcatori con la malattia Marcatore A-1 A-2 A-3 A-4 M N N N Gene ignoto A-1 A-3 A-2 A-4 M N N N Es. Autosomica dominante: il padre affetto trasmette al figlio affetto l'allele A-1, suggerendo che nelle vicinanze del marcatore A ci siano il gene della malattia. Linkage non parametrico CONDIVISIONE ALLELICA Marcatore A-1 A-2 A-3 A-4 M N N N Gene ignoto A-1 A-3 A-2 A-4 M N N N 1 2 3 4 M N N N 1 3 1 4 M N M N 3 2 4 4 M N N N 3 4 3 4 M N M N AFFECTED SIB-PAIR ANALYSIS Padre Madre Sharing allelico Sn IBD S1 2 2 1 figli (affetti) 1 0 S1 S2 S3 S4 analisi di linkage 1 1 0 media_IBD = 4/8(50%) IBD 12 34 12 34 12 34 12 34 13 24 13 14 13 23 13 13 (IBD=0) 12 14 14 12 (IBD=0) (IBD=1) (IBD=1) (IBD=2) ECCESSO DI CONDIVISIONE ALLELICA FRA FRATELLI AFFETTI: LINKAGE La condivisione allelica viene espressa di diversi modi: come percentuale (%) oppure indicando la numero di volte che i fratelli condividono 2, 1 o 0 alleli. Il conteggio viene effettuato su un elevato numero di famiglie. La struttura base della famiglia prevede la presenza di padre, madre e 2 figli affetti (famiglia 'nucleare'). NOTA: Si riconoscono generalmente 2 tipi di linkage: - parametrico (basato sulla stima della freq di ricombinazione tra l'ignoto locus malattia e il marcatore in analisi. Si utilizza prevalentemente nello studio delle malattie mendeliane) - non-parametrico (basato sulla stima della condivisione allelica. Si utilizza nello studio dei fenotipi complessi) ECCESSO DI CONDIVISIONE FRA COPPIE DI FRATELLI LINKAGE NO LINKAGE LINKAGE Alleli Condivisi 2 1 25 50 50 50 ALLELICA AFFETTI: 0 Condivisione 25 50.00% 0 75.00% 100 famiglie informative. Nel caso LINKAGE (esempio) si osserva un'aumentata condivisione allelica rispetto all'atteso nell'ipotesi di assenza di linkage tra il marcatore e il locus di suscettibilità (NO LINKAGE). AFFECTED SIB-PAIR ANALYSIS Misura il grado di condivisione allelica (sharing allelico) in coppie di fratelli affetti (maschio – maschio, femmina – femmina, maschio – femmina). Il valore atteso, in assenza di linkage è 50%. E' una analisi di linkage (non parametrico). Se il marcatore è in linkage con il locus 'malattia' allora le coppie di fratelli affetti presenteranno un eccesso di alleli condivisi (=quelli il linkage con il locus 'malattia', che sono stati trasmessi da uno o entrambi I genitori). E' possibile misurare lo sharing paterno, materno oppure, molto più spesso, quello combinato. Il grado di condivisione allelica viene stimato studiando centinaia (migliaia) di famiglie con coppie di figli affetti Asma nella popolazione Italiana Scansione cromosoma 5 Studio di associazione Confrontare la frequenza del fattore genetico (alleli, genotipi o aplotipi) in un gruppo di individui affetti rispetto ad un gruppo di individui non affetti. Lo studio di associazione caso-controllo può essere influenzato da diversi fattori come ad esempio il 'mescolamento' di più popolazioni. La popolazione dei controlli dovrebbe essere scelta per essere il più possibile simile alla popolazione dei casi per tutti i possibili fattori confondenti (es. età, sesso, etnia, etc) Studio di associazione NON AFFETTO (controllo) AFFETTO (caso) controlli casi è maggiormente frequente nei casi : ASSOCIAZIONE. Conteggio dei genotipi e degli alleli in casi e controlli A1 / A1 A1 / A2 A2 / A2 CASI 70 120 10 CONTROLLI 50 100 50 A1 260 200 A2 140 200 Nell'esempio: i genotipi A1/A1 e A1/A2 sono più frequenti nei casi rispetto ai controlli l'allele A1 è più frequente nei casi rispetto ai controlli Con opportuni test è possibile verificare se la differenza possa ritenersi significativa e quindi concludere che il marcatore sia associato con la malattia Linkage vs Associazione ESEMPIO: una malattia genetica P causata da molte mutazioni diverse (g1, g2, g3, …) riferibili ad un solo e determinato gene G. Nota: trattandosi di una malattia complessa è meglio riferirsi ad alleli associati ad un aumentato rischio di malattia. Analisi di Linkage Ogni famiglia potrebbe contenere un allele di rischio diverso dalle altre famiglie, sebbene il gene implicato sia sempre lo stesso (con una ”mutazione” diversa in ogni famiglia) Tramite l'AdL parametrico si valuta se una particolare regione cromosomica (=a una distanza theta dal marcatore genetico che sto utilizzando) è trasmessa in accordo con il modello proposto (es. dominate, recessivo). Linkage vs Associazione Focalizzo l'attenzione sul fatto che il marcatore (e quindi la la regione cromosomica che lo contiente) segrega con la malattia. Linkage: studia la segregazione dei marcatori all'interno delle famiglie. I marcatori possono essere caratterizzati nelle diverse famiglie da alleli diversi che segregano con la malattia ( Analisi di Linkage Tramite i marcatori genetici l'AdL è in grado di identificare la regione cromosomica contenente il gene G sebbene ogni famiglia possieda una mutazione diversa (che, sempre in questo esempio, sarà identificata in un momento successivo tramite sequenziamento del gene G). Linkage & Linkage Disequilibium I Loci A e B si trovano su 2 cromosomi Locus A: 2 alleli (frequenza A1:0.4 ; A2: 0.6) Locus B: 2 alleli (frequenza B1:0.4 ; B2: 0.6) Quale è la frequenza attesa degli individui con genotipo A1/A1 per il locus A e B1/B1 per il locus B? Linkage & Linkage Disequilibium Assumendo che le condizione di equilibrio previste da Hardy e Weinberg siano rispettate: Freq_A1/A1 : 0.4 * 0.4 = 0.16 Freq_B1/B1 : 0.4 * 0.4 = 0.16 Freq_A1A1B1B1 : Freq_B1/B1 * Freq_A1/A1 = 0.16*0.16 =0.0256 Considerando contemporaneamente 2 loci, la % di individui che presentano un particolare genotipo può diventare piuttosto ridotta (~2.5% nell'esempio), sebbene gli alleli considerati presentino una frequenza elevata (40% nell'esempio). Linkage & Linkage Disequilibium A priori non possiamo sapere se 2 loci (marcatori) all'interno dello stesso gene, in una data popolazione, presentino (se entrambi polimorfici) una associazione assoluta, oppure siano in equilibrium (nella distribuzione degli alleli), oppure siano in una situazione intermedia. Il progetto internazionale HAPMAP si è posto lo l'obiettivo di individuare il maggior numero di siti polimorfici comuni a diverse popolazioni e di stimare il grado di associazione tra i marcatori vicini (http://www.hapmap.org). Linkage & Linkage Disequilibium Associazione dei 2 loci Equilibrium A1/A1 A1/A2 A2/A2 B1/B1 0.0025 - - B1/B2 - 0.095 - B2/B2 - - 0.90 A1/A1 A1/A2 A2/A2 B1/B1 0.000006 0.00023 0.00237 B1/B2 0.00023 0.00902 0.0857 B2/B2 0.00237 0.0857 0.81 Linkage & Linkage Disequilibium Associazione dei 2 loci Equilibrium A1/A1 A1/A2 A2/A2 M1/M1 0.0025 - - M1/M2 - 0.095 - M2/M2 - - 0.90 A1/A1 A1/A2 A2/A2 M1/M1 0.000006 0.00023 0.00237 M1/M2 0.00023 0.00902 0.0857 M2/M2 0.00237 0.0857 0.81 LINKAGE 12 22 12 22 11 12 12 12 12 12 22 22 11 11 22 22 Allele 1 da padre Allele 2 da padre Allele 1 da madre Allele 2 da padre Allele 2 da madre Non tutte le famiglie sono pienamente informative (=non posso stimare con precisione sia la condivisione paterna che la condivisione materna) Nell'esempio, in tutti i casi informativi è possibile osservare uan condivisione allelica: a volte è condiviso l'allele 1 e a volte è condiviso l'allele 2. LINKAGE e Associazione 12 11 12 22 11 12 12 12 12 12 22 22 12 12 22 22 Non tutte le famiglie sono pienamente informative (=non posso stimare con precisione sia la condividione paterna che la condividione materna) Nell'esempio, in tutti i casi informativi è possibile osservare una condivisione allelilca: è sempre condiviso l'allele 2 (LINKAGE DISEQUILIBRIUM tra l'allele di suscettibilità al locus 'malattia' e l'allele del marcatore) Trasmission Disequilibrium Test (TDT) -Scopo iniziale: Verificare l’esistenza di linkage con un marcatore localizzato vicino ad un gene candidato, nei casi dove una associazione con la malattia fosse stata trovata (1993). - Negli studi caso/controllo (=di associazione) tra 2 loci può esserci associazione e non linkage (cause:admixture, stratificazione, etc). -Il TDT e’ un test di associazione interno alla famiglia. E' valido anche quando non c’e’ evidenza a priori di linkage. Attualmente è utilizzato come test di associazione piuttosto che come test per il linkage. TDT AB TRASMESSO Caso BB 1 AB ALLELE: A es. 2 NON TRASMESSO Controllo ‘interno' della famiglia Transmesso B Non transmesso A 20 100 B 100 20 GWAS: STUDI DI ASSOCIAZIONE SU SCALE GENOMICA (DNA) GWAS - caratteristiche ● Dimensione del campione molto grande (fino a 2000 casi, 20000 controlli) Alto livello di risoluzione ● Nessuna ipotesi/conoscenza a priori ● Replica dei risultati in un campione indipendente ● Problematiche: ● Grande quantità di dati ● Controllo della qualità ● Correzione per la possibile stratificazione del campione ● Statistica Replica dei risultati Dimensioni del II campione sufficiente ● Dati indipendenti ● Fenotipi simile se non identico ● Popolazione simile ● Dimostrazione di un effetto simile e nella stessa direzione (stesso allele, genotipo o aplotipo) ● Gwas - Nuove sfide Identificazione degli SNP causali ● Miglior uso del fenotipo ● Analisi con marcatori multipli ● Identificazione di altre fonti di variabilità (CNV, varianti rare) ● Intregazione dell'informazione utilizzando altre 'omiche' (es. transcrittomica, matabolomica) ● Medicina personalizzata ● ESEMPIO DI GWAS: Bone-mineral-density loci Nature Genetics 41, 1199 - 1206 (2009) GWAS – BMD misurata in 2 distretti Nature Genetics 41, 1199 - 1206 (2009) GWAS – LOCI nuovi e già noti Nature Genetics 41, 1199 - 1206 (2009) GWAS – LOCI nuovi e già noti Nature Genetics 41, 1199 - 1206 (2009) Meta-Analisi per i loci identificati Nature Genetics 41, 1199 - 1206 (2009) BMD e numero di alleli di rischio La distribuzione del numero di alleli di rischio portati da un individuo si avvicina alla curva a campana Il valore di BMD (espresso in Z-score), in media, si riduce all'aumentare del numero di alleli di richio!! (ricorda il modello a soglia) IL CASO DEI LIPIDI: varianti comuni e varianti rare Il rischio determinato tramite gli SNP potrebbe sottostimare il rischio associato alle vere varianti causali Es: 11 dei 30 geni attualmente associati a variazioni dei livelli di lipidi possono anche presentare degli alleli rari che sono associati a forme Mendeliane di dislipidemia (ABCA1, PCSKA9, LDLR): geni con varianti comuni associate ad effeti lievi possono anche portare varianti rare assocate a forti effetti GWAS: Altezza GWAS: Altezza http://www.ncbi.nlm.nih.gov/pubmed/ PATHWAYS Potenziali target Representation of the connections between SNPs and corresponding genes for the 42 SNPs with GRAIL (p < 0.01). Thicker and redder lines imply stronger literature-based connectivity. [doi:10.1038/nature09410]