Il genoma umano e la variabilità gene1ca Sara Palumbo Laboratorio di Biologia Molecolare, Dipar1mento di Patologia Chirurgica, Medica, Molecolare e dell’Area Cri1ca [email protected] Tutte le cellule hanno lo stesso patrimonio genetico Ogni cellula possiede un nucleo 100 trilioni di cellule Il nucleo contiene il materiale genetico Cellula Nucleo Mitocondrio Cromosoma Il DNA è organizzato in plasmidi DNA mitocondriale Plasmide Il DNA è organizzato in cromosomi DNA nucleare DNA mitocondriale: i plasmidi Ereditato solo dalla madre hIp://www.ncbi.nlm.nih.gov/pubmed/7219534 • Con1ene 37 geni che producono proteine necessarie per le funzioni del mitocondrio Plasmide • E’ molto susceHbile a mutazioni DNA nucleare: i cromosomi 22 cromosomi (autosomi) in duplice copia più 2 cromosomi sessuali Ereditato da entrambi i genitori From Father From Mother Il DNA nucleare con@ene 20000-­‐25000 geni che producono proteine 1953: modello del DNA secondo Watson and Crick Come è faIo il DNA L’informazione contenuta nel DNA è rappresentata dall’alternanza di 4 leIere C Citosina G Guanina A Adenina Basi azotate T Timina Come è faIo il DNA Appaiamento delle basi azotate C G Nucleo1de A T Successivo fosfato deossiribosio Essential Cell Biology (© Garland Science 2010) Il genoma umano E’ il materiale gene1co completo di un organismo, ovvero tuIo il DNA contenuto del nucleo di ogni cellula • Con1ene circa 3 miliardi di paia di basi organizzato in: – GENI: di circa 20 500 geni (2% dell’intero genoma), sono sequenze codifican1 per le proteine – SEQUENZE CODIFICANTI che generano RNA funzionali ma che non codificano per proteine (es. RNA ribosomiale) – SEQUENZE NON CODIFICANTI: • Funzione struIurale • Funzione regolatrice della trascrizione Il genoma umano Regioni intergeniche ed introni non vengono trascriIe Enhancer e promotori sono sequenze che non vengono trascriIe con funzione regolatoria della tascrizione Il genoma umano a confronto con altri organismi Organismo Lunghezza (Mb) Numero di cromosomi Numero di geni Uomo 3230.54 46 20 500 Lievito 12.16 16 6 300 E.Coli 4.64 1 4 498 Homo sapiens hIp://www.ncbi.nlm.nih.gov/genome/51?genome_assembly_id=249422 Saccharomyces Cerevisae hIp://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=22535 Escherichia coli h)p://www.ncbi.nlm.nih.gov/genome/167?genome_assembly_id=161521 Le regioni NON codifican1 hanno un ruolo chiave nella complessità degli organismi Mol@ geni si sono conserva@ durante l’evoluzione Regioni NON codifican@ aumentano nella scala evolu@va hIp://web.ornl.gov/sci/techresources/Human_Genome/project/info.shtml 1990 2001-03 hIp://ghr.nlm.nih.gov/handbook/hgp Numero s@mato dei geni umani Prima del sequenziamento del Genoma 70 000 – 100 000 Dopo la prima bozza del Genoma 30 000 – 40 000 Al termine del sequenziamento < 25 000 Ad oggi 20 500 “Il Proge)o Genoma Umano ha cambiato il modo di fare scienza” Eric Green, Francis Collins e il Nobel James Watson, Nature Diagnosi Prevenzione Cura hIp://www.1000genomes.org/ 2001- 03 2010-12 Nature 2012 hIp://www.nature.com/nature/journal/v491/n7422/pdf/nature11632.pdf 1000 Genomes Samples Population Chinese Dai in Xishuangbanna, China(CDX) Han Chinese in Bejing, China (CHB) Japanese in Tokyo, Japan (JPT) Kinh in Ho Chi Minh City, Vietnam (KHV) Southern Han Chinese, China (CHS) Total East Asian Ancestry (EAS) Bengali in Bangladesh (BEB) Gujarati Indian in Houston,TX (GIH) Indian Telugu in the UK (ITU) Punjabi in Lahore,Pakistan (PJL) Sri Lankan Tamil in the UK (STU) Total South Asian Ancestry (SAS) African Ancestry in Southwest US (ASW) African Caribbean in Barbados (ACB) Esan in Nigeria (ESN) Offspring DNA Samples sequenced from Trios Pilot from blood Available Samples no yes 0 no no 91 no no 94 yes yes 0 no yes 0 185 no yes 0 no yes 0 yes yes 0 yes yes 0 yes yes 0 0 no yes 0 yes yes 0 no yes 0 Gambian in Western Division, The Gambia (GWD) Luhya in Webuye, Kenya (LWK) Mende in Sierra Leone (MSL) Yoruba in Ibadan, Nigeria (YRI) Total African Ancestry (AFR) British in England and Scotland (GBR) Finnish in Finland (FIN) Iberian populations in Spain (IBS) Toscani in Italia (TSI) Utah residents with Northern and Western European ancestry (CEU) Total European Ancestry (EUR) Colombian in Medellin, Colombia (CLM) no no no no yes yes yes yes no no no no yes no yes no no yes no Mexican Ancestry in Los Angeles, California (MXL) Peruvian in Lima, Peru (PEL) Puerto Rican in Puerto Rico (PUR) Total Americas Ancestry (AMR) no yes yes Total Final Phase Phase 1 Discovery Samples Sample 0 99 97 103 89 104 0 101 100 108 286 515 0 86 0 106 0 103 0 96 0 103 0 494 61 66 0 96 0 99 0 97 Final Release Sample 93 103 104 99 105 504 86 103 102 96 102 489 61 96 99 Total 99 106 105 101 112 523 86 106 103 96 103 494 66 96 99 113 99 85 108 661 91 99 107 107 113 116 85 116 691 94 100 107 110 0 102 0 106 208 0 0 0 66 88 246 89 93 14 98 113 101 85 109 669 92 99 107 108 yes 94 160 0 85 379 60 99 505 94 99 503 94 103 514 95 yes yes yes 0 0 0 66 0 55 181 67 86 105 352 64 85 104 347 69 86 105 355 553 1092 2535 2504 2577 Cos1 del sequenziamento Cos1 del sequenziamento • First genera@on sequencing 2001-­‐2007 Sequenziamento tradizionale tramite il metodo Sanger. – Costo: circa 10-­‐100 M $/ genoma • Next genera@on sequencing (NGS) 2008-­‐ Today – Costo: circa 1,000 $ / genoma High-­‐Throughput NGS Instrument Read lenghts Time The HiSeq X ™ Illumina 350 pb 2-­‐3 days 454 Life Sciences/Roche GS FLX 600-­‐1000 pb 10/23 hrs Ion Torrent™ ThermoFisher Scien1fic 400 pb 7.3 hrs NGS Illumina Frammentazione del DNA in frammen1 casuali di 600 pb Ibridizzazione alla Flow cell contenente sequenze complementari agli adaptor e formazione di pon1 NGS Illumina Amplificazione Denaturazione Cicli di amplificazione fino a formazione di cluster 7 NGS Illumina 8 9 Aggiunta del secondo Legame solo del primo La fluorescenza viene nucleo1de sui frammen1 visualizzata in spot colora1 nucleo1de usando nucleo1di fluorescen1 NGS Illumina La fluorescenza viene visualizzata in spot colora1 Successive scansioni dei Allineamento delle sequenze cluster determinano la sequenza nucleo1dica Allineamento informa1co • Allineamento delle sequenze, bilioni di piccole sequenze di DNA, al genoma presente in NCBI – BFAST sviluppato presso l’Università della California – BWA (Burrows-­‐Wheeler Aligner) Sequenziatori Illumina: numero di cluster MiSeq 40 M NextSeq 400 M HiSeq 5000 M Cluster più numerosi Maggiore risoluzione 454 Pyrosequencing process Metodo ABI Solid IL sequenziamento del genoma umano di mol@ individui ha portato all’individuazione di 3 milioni di paia di basi che variano tra gli individui su 3 miliardi di paia di basi che compongono il genoma La variabilità gene1ca • Il 99.9% del DNA è conservato tra individui diversi • Solo gemelli iden@ci possiedono lo stesso genoma Una differenza dello 0.1% nella composizione del DNA è sufficiente per dar luogo alla variabilità della popolazione I Polimorfismi Sono variazioni della sequenza del DNA presen@ nella popolazione con una frequenza > 1% Tipologie di Polimorfismi Cambio di una base ..AAC ATA ACG CCG CGA GAT.. ..AAC ATA ACG CAG CGA GAT.. Sequenze ripetute in TANDEM in numero variabile ..AAC ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG GTT.. ..AAC ATAACG ATAACG ATAACG GTT.. SEQUENZE NUCLEOTIDICHE RIPETUTE IN TANDEM VNTR Variable number tandem repeats (minisatelli@) 15-­‐40 nucleo@di STR Short tandem repeats (Microsatelli@) 2-­‐4 nucleo@di Applicazioni DNA Fingerprin9ng Test di paternità In ambito forense Polimorfismi a singolo nucleo1de: SNP Sono la fonte principale della variabilità gene1ca tra gli individui circa 1 ogni 1000 pb Il numero degli SNP conosciu@ e’ raddoppiato con il progeao 1000 genomi Polimorfismi a singolo nucleo1de: SNP Mutazione Missenso Mutazione Non senso Mutazione Silente Mutazioni che impaIano la struIura proteica Mutazione Missenso Lisina Mutazione Non senso Glutammato La sequenza amminoacidica della proteina codificata è diversa La sequenza amminoacidica non è completa e la proteina è tronca Mutazioni silen1 (sinonime) • Se il polimorfismo cade in una regione del genoma non codificante • Se, cadendo in una zona codificante, la sequenza amminoacidica della proteina corrispondente e’ iden1ca Mutazione Silente Lisina Lisina Polimorfismi a singolo nucleo1de: SNP • E’ stato predeIo che circa un terzo dei polimorfismi Missenso possa avere conseguenze sulla funzione della proteina • Le mutazioni Non senso, causando la produzione di proteine tronche, molto probabilmente risulteranno in una alterazione della funzione proteica • Le mutazioni Silen@ pur non influenzando la struIura della proteina potrebbero alternarne i livelli di espressione SNP: faIori di “DIVERSITA” • • • • Diversità tra popolazioni Diversità individuale Diversa susceHbilità a malaHe Diversa risposta ai farmaci Il conceIo di susceHbilità Condizione che aumenta la probabilità di sviluppare una malaHa MA….. Non è una condizione né necessaria né sufficiente per determinare l’insorgenza di una malaHa INOLTRE… Ci sono individui che possiedono la variante di rischio e non si ammalano Ci cono individui che non possiedo la variante di rischio e si ammalano Il conceIo di susceHbilità Uno SNP concorrere, insieme ad altri faaori, nello sviluppo di patologie: altre varian@ gene@che interazione geni-­‐ambiente Diversa susceHbilità a malaHe J Hum Genet. 2002;47(11):561-­‐6. SNP alleles in human disease and evolu@on. Shastry BS1. ApoE e malaHa di Alzheimer 3 alleli di susceHbilità rs429358 rs7412 ApoE ε2 GACGTGTGCGGCCG…CAGAAGTGCCTGGCA ApoE ε3 GACGTGTGCGGCCGC……CAGAAGCGCCTGGCA ApoE ε4 GACGTGCGCGGCCGC……CAGAAGCGCCTGGCA -­‐ ApoE ε2 Cys Cys ApoE ε3 Cys Arg ApoE ε4 Arg Arg Vantaggi degli SNP • HIV • Malaria • …… Polimorfismo del receIore CCR5 (vantaggio dell’omozigote all’Infezione da HIV) CCR5 ( chemokine (C-­‐C mo@f) receptor 5) CCR5 Linfocita T helper Gli omozigo1 per la variante CCR5Δ32(mutazione che rimuove 32 bp) sembrano essere proteH dall’infezione da HIV Gli eterozigo1 (CCR5 W/ Δ 32) Mostrano un andamento della malaHa più lento CCR5 Δ32 generalmente si trova nelle popolazioni di origine europea, con una frequenza del 10%. In Africa, Asia e Oceania sembra che l’allele CCR5 Δ 32 sia assente Polimorfismi della catena beta β dell’emoglobina (vantaggio dell’eterozigote in ambiente malarico) Sintesi normale delle catene beta HbS ….GAC… Glutamina ….GTC… Valina HbC ….GAG… Glutamina ….AAG… Lisina Mutazione missenso Sintesi difettosa (ridotta) delle catene beta microcitemia (Talassemia minor) = eterozigoti Talassemia major o Morbo di Cooley = omozigoti grave anemia - modificazioni scheletriche necessitano di continue trasfusioni 0 Emoglobina ‘difeIosa’ ha un deficit di filamen1 di ac1na necessari per la diffusione del parassita Diversa risposta ai farmaci • Polimorfismi su geni codifican1 molecole target del farmaco • Polimorfismi sui geni codifican1 gli enzimi che metabolizzano i farmaci, es. il citocromo epa1co c 450, che provocano: – RidoIo metabolismo del farmaco (tossicità) – Eccessivo metabolismo del farmaco (nessuna effeIo farmacologico) Ad esempio.. Nelle terapie an1tumorali Farmaco SNP di risposta al farmaco 5-­‐FU 6-­‐mercaptopurina Metotressato diidropirimidina deidrogenasi catabolismo 1opurina S-­‐me1ltransferasi inaHvazione 5,10-­‐me1lenetetraidrofolato reduIasi Cispla1no gluta1one S-­‐transferasi meccanismo d’azione eliminazione Farmacogenetica Esamina le varianti genetiche che determinano la risposta ad un farmaco e studia il modo in cui queste varianti possono essere usate per prevedere il tipo di risposta Variando la dose Cambiando il farmaco Selezione sulla base di fattori predisponenti alle malattie Prevenzione Dagnosi precoce Selezione sulla base di fattori responsabili di una diversa risposta al trattamento Terapia personalizzata Obiettivo l’intero assetto genetico su un chip grande come una carta di credito • Ricerca di SNP di susceHbilita’ gene1ca a malaHe • Ricerca di mutazioni patogene • Ricerca di SNP di risposta ai farmaci Prevenzione Diagnosi precoce Terapia farmacologica personalizzata Studi di associazione casi-controlli Popolazione senza malattia Popolazione con malattia A T TG C A T G C C A G T A G G SNP T A TG A T T G CC G C T A G G Si cercano differenze nelle frequenze dei polimorfismi nei due gruppi Selezione delle due popolazioni • devono differire solo per il fenotipo di interesse# • devono essere il più omogenee possibile per tutti gli altri aspetti (sesso, età, etnia…)# • devono essere sufficientemente numerose # la numerosità del campione utile per rilevare associazioni statisticamente significative dipende dalla frequenza degli SNP studiati Caso 1: nessuna associazione Gene A Casi Controlli Nessuna variante del gene (verde o nera) è associata con il fenotipo d’interesse Caso 2: associazione significa1va Gene B Casi Controlli La variante rossa del gene è associata con il fenotipo d’interesse L’identificazione delle varianti che rappresentano fattori di vulnerabilità non è semplice in quanto ognuna di esse agisce in concomitanza con molte altre varianti e con numerosi fattori ambientali SNP Semplificazione.. Esistono varianti genetiche che vengono# ereditate insieme # # # #concetto di APLOTIPO HapMap project http://www.hapmap.org# L’utilizzo degli aplotipi può facilitare l’analisi da Nature 426, 789-796 (2003) Banche dati • I da1 genera1 dal sequenziamento del genoma sin ora condoH hanno prodoIo una quan1tà di da1 considerevole • Le informazioni sono raccolte in banche da1 accessibili liberamente sul web – Na1onal Center for Biotechnology informa1on (NIH) – Ensembl – Gene Cards Banche da1 hIps://www.youtube.com/watch?v=-­‐dOQMiEtL8I hIp://www.ncbi.nlm.nih.gov/pubmed Banche da1 hIp://www.ensembl.org/index.html Banche da1 hIp://www.genecards.org/ Banche da1 hIp://hapmap.ncbi.nlm.nih.gov/ E’ un database u1le allo studio degli aplo1pi SNP function prediction • • • • dbSNP SNP FuncPred F-­‐SNP SNPs3D SNP func1on predic1on • dbSNP è un database aggiornato contenete tuH gli SNP di tuH i geni, fa parte di NCBI hIp://www.ncbi.nlm.nih.gov/snp/?term= • SNP FuncPred suggerisce se uno SNP è funzionale e/o patogeno hIp://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm SNP func1on predic1on F-SNP • F-­‐SNP suggerisce un indice di probabilità (un valore tra tra 0 a 1) che lo SNP sia funzionale hIp://compbio.cs.queensu.ca/F-­‐SNP/ SNP func1on SNPs3D permeIe, inserendo il nome di una patologia, di trovare tuH gli SNP associa1 e viceversa hIp://www.snps3d.org/ Conclusione • Oggi è nota l’intera sequenza umana di un gran numero di individui grazie allo sviluppo di: – Tecniche di sequenziamento in parallelo che permeIono di sequenziare interi genomi in poco tempo con cos1 modes1 – Tecniche infoma1che che permeIono di immagazzinare ed analizzarele sequenze dei genomi meIendole a confronto per individuare regioni conservate e diversita’ di sequenza • L’analisi sitema1ca dei genomi umani ha permesso: – L’individuazione di si1 di varialibiità gene1ca – Progressi in campo medico • Individuare faIori di susceHbilità a malaHe • Prevenzione • Terapia farmacologica personalizzata La variabilità gene1ca è responsabile delle diversità individuali, ed è un faIore posi1vo per l’ adaIamento all’ ambiente e per l’evoluzione della vita