Il genoma umano e la variabilità genetica Sara Palumbo Laboratorio di Biologia Molecolare, Dipartimento di Patologia Chirurgica, Medica, Molecolare e dell’Area Critica [email protected] Tutte le cellule hanno lo stesso patrimonio genetico Ogni cellula possiede un nucleo 100 trilioni di cellule Il nucleo contiene il materiale genetico Cellula Nucleo Mitocondrio Cromosoma Il DNA è organizzato in plasmidi DNA mitocondriale Plasmide Il DNA è organizzato in cromosomi DNA nucleare DNA mitocondriale: i plasmidi Ereditato solo dalla madre http://www.ncbi.nlm.nih.gov/pubmed/7219534 • Contiene 37 geni che producono proteine necessarie per le funzioni del mitocondrio Plasmide • E’ molto suscettibile a mutazioni DNA nucleare: i cromosomi 22 cromosomi (autosomi) in duplice copia più 2 cromosomi sessuali Ereditato da entrambi i genitori From Father From Mother Il DNA nucleare contiene 20000-25000 geni che producono proteine 1953: modello del DNA secondo Watson and Crick Come è fatto il DNA L’informazione contenuta nel DNA è rappresentata dall’alternanza di 4 lettere C G A T Citosina Guanina Adenina Timina Basi azotate Come è fatto il DNA Appaiamento delle basi azotate C G Nucleotide A T Successivo fosfato deossiribosio Essential Cell Biology (© Garland Science 2010) Il genoma umano E’ il materiale genetico completo di un organismo, ovvero tutto il DNA contenuto del nucleo di ogni cellula • Contiene circa 3 miliardi di paia di basi organizzato in: – GENI: di circa 20 500 geni (2% dell’intero genoma), sono sequenze codificanti per le proteine – SEQUENZE CODIFICANTI che generano RNA funzionali ma che non codificano per proteine (es. RNA ribosomiale) – SEQUENZE NON CODIFICANTI: • Funzione strutturale • Funzione regolatrice della trascrizione Il genoma umano Regioni intergeniche ed introni non vengono trascritte Enhancer e promotori sono sequenze che non vengono trascritte con funzione regolatoria della tascrizione Il genoma umano a confronto con altri organismi Organismo Lunghezza (Mb) Numero di cromosomi Numero di geni Uomo 3230.54 46 20 500 Lievito 12.16 16 6 300 E.Coli 4.64 1 4 498 Homo sapiens http://www.ncbi.nlm.nih.gov/genome/51?genome_assembly_id=249422 Saccharomyces Cerevisae http://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=22535 Escherichia coli http://www.ncbi.nlm.nih.gov/genome/167?genome_assembly_id=161521 Le regioni NON codificanti hanno un ruolo chiave nella complessità degli organismi Molti geni si sono conservati durante l’evoluzione Regioni NON codificanti aumentano nella scala evolutiva http://web.ornl.gov/sci/techresources/Human_Genome/project/info.shtml 1990 2001-03 http://ghr.nlm.nih.gov/handbook/hgp Numero stimato dei geni umani Prima del sequenziamento del Genoma 70 000 – 100 000 Dopo la prima bozza del Genoma 30 000 – 40 000 Al termine del sequenziamento < 25 000 Ad oggi 20 500 “Il Progetto Genoma Umano ha cambiato il modo di fare scienza” Eric Green, Francis Collins e il Nobel James Watson, Nature Diagnosi Prevenzione Cura http://www.1000genomes.org/ 2001- 03 2010-12 Nature 2012 http://www.nature.com/nature/journal/v491/n7422/pdf/nature11632.pdf 1000 Genomes Samples Population Chinese Dai in Xishuangbanna, China(CDX) Han Chinese in Bejing, China (CHB) Japanese in Tokyo, Japan (JPT) Kinh in Ho Chi Minh City, Vietnam (KHV) Southern Han Chinese, China (CHS) Total East Asian Ancestry (EAS) Bengali in Bangladesh (BEB) Gujarati Indian in Houston,TX (GIH) Indian Telugu in the UK (ITU) Punjabi in Lahore,Pakistan (PJL) Sri Lankan Tamil in the UK (STU) Total South Asian Ancestry (SAS) African Ancestry in Southwest US (ASW) African Caribbean in Barbados (ACB) Esan in Nigeria (ESN) Offspring DNA Samples sequenced from Trios Pilot from blood Available Samples no yes 0 no no 91 no no 94 yes yes 0 no yes 0 185 no yes 0 no yes 0 yes yes 0 yes yes 0 yes yes 0 0 no yes 0 yes yes 0 no yes 0 Gambian in Western Division, The Gambia (GWD) Luhya in Webuye, Kenya (LWK) Mende in Sierra Leone (MSL) Yoruba in Ibadan, Nigeria (YRI) Total African Ancestry (AFR) British in England and Scotland (GBR) Finnish in Finland (FIN) Iberian populations in Spain (IBS) Toscani in Italia (TSI) Utah residents with Northern and Western European ancestry (CEU) Total European Ancestry (EUR) Colombian in Medellin, Colombia (CLM) no no no no yes yes yes yes no no no no yes no yes no no yes no Mexican Ancestry in Los Angeles, California (MXL) Peruvian in Lima, Peru (PEL) Puerto Rican in Puerto Rico (PUR) Total Americas Ancestry (AMR) no yes yes Total Final Phase Phase 1 Discovery Samples Sample 0 99 97 103 89 104 0 101 100 108 286 515 0 86 0 106 0 103 0 96 0 103 0 494 61 66 0 96 0 99 0 97 Final Release Sample 93 103 104 99 105 504 86 103 102 96 102 489 61 96 99 Total 99 106 105 101 112 523 86 106 103 96 103 494 66 96 99 113 99 85 108 661 91 99 107 107 113 116 85 116 691 94 100 107 110 0 102 0 106 208 0 0 0 66 88 246 89 93 14 98 113 101 85 109 669 92 99 107 108 yes 94 160 0 85 379 60 99 505 94 99 503 94 103 514 95 yes yes yes 0 0 0 66 0 55 181 67 86 105 352 64 85 104 347 69 86 105 355 553 1092 2535 2504 2577 Costi del sequenziamento Costi del sequenziamento • First generation sequencing 2001-2007 Sequenziamento tradizionale tramite il metodo Sanger. – Costo: circa 10-100 M $/ genoma • Next generation sequencing (NGS) 2008Today – Costo: circa 1,000 $ / genoma High-Throughput NGS Instrument Read lenghts Time The HiSeq X ™ Illumina 350 pb 2-3 days 454 Life Sciences/Roche GS FLX 600-1000 pb 10/23 hrs Ion Torrent™ ThermoFisher Scientific 400 pb 7.3 hrs NGS Illumina Frammentazione del DNA in frammenti casuali di 600 pb Ibridizzazione alla Flow cell contenente sequenze complementari agli adaptor e formazione di ponti NGS Illumina Amplificazione Denaturazione Cicli di amplificazione fino a formazione di cluster NGS Illumina 7 Legame solo del primo nucleotide sui frammenti usando nucleotidi fluorescenti 8 La fluorescenza viene visualizzata in spot colorati 9 Aggiunta del secondo nucleotide NGS Illumina La fluorescenza viene visualizzata in spot colorati Successive scansioni dei cluster determinano la sequenza nucleotidica Allineamento delle sequenze Allineamento informatico • Allineamento delle sequenze, bilioni di piccole sequenze di DNA, al genoma presente in NCBI – BFAST sviluppato presso l’Università della California – BWA (Burrows-Wheeler Aligner) Sequenziatori Illumina: numero di cluster MiSeq 40 M NextSeq 400 M HiSeq 5000 M Cluster più numerosi Maggiore risoluzione IL sequenziamento del genoma umano di molti individui ha portato all’individuazione di 3 milioni di paia di basi che variano tra gli individui su 3 miliardi di paia di basi che compongono il genoma La variabilità genetica • Il 99.9% del DNA è conservato tra individui diversi • Solo gemelli identici possiedono lo stesso genoma Una differenza dello 0.1% nella composizione del DNA è sufficiente per dar luogo alla variabilità della popolazione I Polimorfismi Sono variazioni della sequenza del DNA presenti nella popolazione con una frequenza > 1% Tipologie di Polimorfismi Cambio di una base ..AAC ATA ACG CCG CGA GAT.. ..AAC ATA ACG CAG CGA GAT.. Sequenze ripetute in TANDEM in numero variabile ..AAC ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG GTT.. ..AAC ATAACG ATAACG ATAACG GTT.. SEQUENZE NUCLEOTIDICHE RIPETUTE IN TANDEM VNTR Variable number tandem repeats (minisatelliti) 15-40 nucleotidi STR Short tandem repeats (Microsatelliti) 2-4 nucleotidi Applicazioni DNA Fingerprinting Test di paternità In ambito forense Polimorfismi a singolo nucleotide: SNP Sono la fonte principale della variabilità genetica tra gli individui circa 1 ogni 1000 pb Il numero degli SNP conosciuti e’ raddoppiato con il progetto 1000 genomi Polimorfismi a singolo nucleotide: SNP Mutazione Missenso Mutazione Non senso Mutazione Silente Mutazioni che impattano la struttura proteica Mutazione Missenso Lisina Mutazione Non senso Glutammato La sequenza amminoacidica della proteina codificata è diversa La sequenza amminoacidica non è completa e la proteina è tronca Mutazioni silenti (sinonime) • Se il polimorfismo cade in una regione del genoma non codificante • Se, cadendo in una zona codificante, la sequenza amminoacidica della proteina corrispondente e’ identica Mutazione Silente Lisina Lisina Polimorfismi a singolo nucleotide: SNP • E’ stato predetto che circa un terzo dei polimorfismi Missenso possa avere conseguenze sulla funzione della proteina • Le mutazioni Non senso, causando la produzione di proteine tronche, molto probabilmente risulteranno in una alterazione della funzione proteica • Le mutazioni Silenti pur non influenzando la struttura della proteina potrebbero alternarne i livelli di espressione SNP: fattori di “DIVERSITA” • • • • Diversità tra popolazioni Diversità individuale Diversa suscettibilità a malattie Diversa risposta ai farmaci Il concetto di suscettibilità Condizione che aumenta la probabilità di sviluppare una malattia MA….. Non è una condizione né necessaria né sufficiente per determinare l’insorgenza di una malattia INOLTRE… Ci sono individui che possiedono la variante di rischio e non si ammalano Ci cono individui che non possiedo la variante di rischio e si ammalano Il concetto di suscettibilità Uno SNP concorrere, insieme ad altri fattori, nello sviluppo di patologie: altre varianti genetiche interazione geni-ambiente Diversa suscettibilità a malattie J Hum Genet. 2002;47(11):561-6. SNP alleles in human disease and evolution. Shastry BS1. ApoE e malattia di Alzheimer 3 alleli di suscettibilità rs429358 rs7412 ApoE e2 GACGTGTGCGGCCG…CAGAAGTGCCTGGCA ApoE e3 GACGTGTGCGGCCGC……CAGAAGCGCCTGGCA ApoE e4 GACGTGCGCGGCCGC……CAGAAGCGCCTGGCA ApoE e2 Cys Cys ApoE e3 Cys Arg ApoE e4 Arg Arg - Vantaggi degli SNP • HIV • Malaria • …… Polimorfismo del recettore CCR5 (vantaggio dell’omozigote all’Infezione da HIV) CCR5 ( chemokine (C-C motif) receptor 5) CCR5 Linfocita T helper Gli omozigoti per la variante CCR5Δ32(mutazione che rimuove 32 bp) sembrano essere protetti dall’infezione da HIV Gli eterozigoti (CCR5 W/ Δ 32) Mostrano un andamento della malattia più lento CCR5 Δ32 generalmente si trova nelle popolazioni di origine europea, con una frequenza del 10%. In Africa, Asia e Oceania sembra che l’allele CCR5 Δ 32 sia assente Polimorfismi della catena beta β dell’emoglobina (vantaggio dell’eterozigote in ambiente malarico) Sintesi normale delle catene beta HbS ….GAC… Glutamina ….GTC… Valina HbC ….GAG… Glutamina ….AAG… Lisina Mutazione missenso Sintesi difettosa (ridotta) delle catene beta microcitemia (Talassemia minor) = eterozigoti Talassemia major o Morbo di Cooley = omozigoti grave anemia - modificazioni scheletriche necessitano di continue trasfusioni 0 Emoglobina ‘difettosa’ ha un deficit di filamenti di actina necessari per la diffusione del parassita Diversa risposta ai farmaci • Polimorfismi su geni codificanti molecole target del farmaco • Polimorfismi sui geni codificanti gli enzimi che metabolizzano i farmaci, es. il citocromo epatico c 450, che provocano: – Ridotto metabolismo del farmaco (tossicità) – Eccessivo metabolismo del farmaco (nessuna effetto farmacologico) Ad esempio.. Nelle terapie antitumorali Farmaco 5-FU 6-mercaptopurina Metotressato Cisplatino SNP di risposta al farmaco diidropirimidina deidrogenasi catabolismo inattivazione tiopurina S-metiltransferasi 5,10-metilenetetraidrofolato reduttasi glutatione S-transferasi meccanismo d’azione eliminazione Farmacogenetica Esamina le varianti genetiche che determinano la risposta ad un farmaco e studia il modo in cui queste varianti possono essere usate per prevedere il tipo di risposta Variando la dose Cambiando il farmaco Selezione sulla base di fattori predisponenti alle malattie Prevenzione Dagnosi precoce Selezione sulla base di fattori responsabili di una diversa risposta al trattamento Terapia personalizzata Obiettivo l’intero assetto genetico su un chip grande come una carta di credito • Ricerca di SNP di suscettibilita’ genetica a malattie • Ricerca di mutazioni patogene • Ricerca di SNP di risposta ai farmaci Prevenzione Diagnosi precoce Terapia farmacologica personalizzata Studi di associazione casi-controlli Popolazione senza malattia Popolazione con malattia SNP A T TG C A T G C C A G T A G G T A TG A T T G CC G C T A G G Si cercano differenze nelle frequenze dei polimorfismi nei due gruppi Selezione delle due popolazioni • devono differire solo per il fenotipo di interesse • devono essere il più omogenee possibile per tutti gli altri aspetti (sesso, età, etnia…) • devono essere sufficientemente numerose la numerosità del campione utile per rilevare associazioni statisticamente significative dipende dalla frequenza degli SNP studiati Caso 1: nessuna associazione Gene A Casi Controlli Nessuna variante del gene (verde o nera) è associata con il fenotipo d’interesse Caso 2: associazione significativa Gene B Casi Controlli La variante rossa del gene è associata con il fenotipo d’interesse L’identificazione delle varianti che rappresentano fattori di vulnerabilità non è semplice in quanto ognuna di esse agisce in concomitanza con molte altre varianti e con numerosi fattori ambientali SNP Semplificazione.. Esistono varianti genetiche che vengono ereditate insieme concetto di APLOTIPO HapMap project http://www.hapmap.org L’utilizzo degli aplotipi può facilitare l’analisi da Nature 426, 789-796 (2003) Banche dati • I dati generati dal sequenziamento del genoma sin ora condotti hanno prodotto una quantità di dati considerevole • Le informazioni sono raccolte in banche dati accessibili liberamente sul web – National Center for Biotechnology information (NIH) – Ensembl – Gene Cards Banche dati https://www.youtube.com/watch?v=-dOQMiEtL8I http://www.ncbi.nlm.nih.gov/pubmed Banche dati http://www.ensembl.org/index.html Banche dati http://www.genecards.org/ SNP function prediction • • • • dbSNP SNP FuncPred F-SNP SNPs3D SNP function prediction • dbSNP è un database aggiornato contenete tutti gli SNP di tutti i geni, fa parte di NCBI http://www.ncbi.nlm.nih.gov/snp/?term= • SNP FuncPred suggerisce se uno SNP è funzionale e/o patogeno http://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm SNP function prediction F-SNP • F-SNP suggerisce un indice di probabilità (un valore tra tra 0 a 1) che lo SNP sia funzionale http://compbio.cs.queensu.ca/F-SNP/ SNP function SNPs3D permette, inserendo il nome di una patologia, di trovare tutti gli SNP associati e viceversa http://www.snps3d.org/ Conclusione • Oggi è nota l’intera sequenza umana di un gran numero di individui grazie allo sviluppo di: – Tecniche di sequenziamento in parallelo che permettono di sequenziare interi genomi in poco tempo con costi modesti – Tecniche infomatiche che permettono di immagazzinare ed analizzarele sequenze dei genomi mettendole a confronto per individuare regioni conservate e diversita’ di sequenza • L’analisi sitematica dei genomi umani ha permesso: – L’individuazione di siti di varialibiità genetica – Progressi in campo medico • Individuare fattori di suscettibilità a malattie • Prevenzione • Terapia farmacologica personalizzata La variabilità genetica è responsabile delle diversità individuali, ed è un fattore positivo per l’ adattamento all’ ambiente e per l’evoluzione della vita