Il genoma umano e la variabilità gene1ca Sara Palumbo Laboratorio di Biologia Molecolare, Dipar1mento di Patologia Chirurgica, Medica, Molecolare e dell’Area Cri1ca [email protected] Tutte le cellule hanno lo stesso
patrimonio genetico
Ogni cellula
possiede un nucleo
100 trilioni
di cellule
Il nucleo
contiene il
materiale
genetico
Cellula
Nucleo
Mitocondrio
Cromosoma
Il DNA è
organizzato in
plasmidi
DNA mitocondriale
Plasmide
Il DNA è
organizzato
in cromosomi
DNA nucleare
DNA mitocondriale: i plasmidi Ereditato solo dalla madre hIp://www.ncbi.nlm.nih.gov/pubmed/7219534 •  Con1ene 37 geni che producono proteine necessarie per le funzioni del mitocondrio Plasmide
•  E’ molto susceHbile a mutazioni DNA nucleare: i cromosomi 22 cromosomi (autosomi) in duplice copia più 2 cromosomi sessuali Ereditato da entrambi i genitori From Father From Mother Il DNA nucleare con@ene 20000-­‐25000 geni che producono proteine 1953: modello del DNA secondo Watson and Crick Come è faIo il DNA L’informazione contenuta nel DNA è rappresentata dall’alternanza di 4 leIere C Citosina G Guanina A Adenina Basi azotate T Timina Come è faIo il DNA Appaiamento delle basi azotate C
G
Nucleo1de A
T
Successivo fosfato deossiribosio Essential Cell Biology (© Garland Science 2010)
Il genoma umano E’ il materiale gene1co completo di un organismo, ovvero tuIo il DNA contenuto del nucleo di ogni cellula •  Con1ene circa 3 miliardi di paia di basi organizzato in: –  GENI: di circa 20 500 geni (2% dell’intero genoma), sono sequenze codifican1 per le proteine –  SEQUENZE CODIFICANTI che generano RNA funzionali ma che non codificano per proteine (es. RNA ribosomiale) –  SEQUENZE NON CODIFICANTI: •  Funzione struIurale •  Funzione regolatrice della trascrizione Il genoma umano Regioni intergeniche ed introni non vengono trascriIe Enhancer e promotori sono sequenze che non vengono trascriIe con funzione regolatoria della tascrizione Il genoma umano a confronto con altri organismi Organismo Lunghezza (Mb) Numero di cromosomi Numero di geni Uomo 3230.54 46 20 500 Lievito 12.16 16 6 300 E.Coli 4.64 1 4 498 Homo sapiens hIp://www.ncbi.nlm.nih.gov/genome/51?genome_assembly_id=249422 Saccharomyces Cerevisae hIp://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=22535 Escherichia coli h)p://www.ncbi.nlm.nih.gov/genome/167?genome_assembly_id=161521 Le regioni NON codifican1 hanno un ruolo chiave nella complessità degli organismi Mol@ geni si sono conserva@ durante l’evoluzione Regioni NON codifican@ aumentano nella scala evolu@va hIp://web.ornl.gov/sci/techresources/Human_Genome/project/info.shtml 1990 2001-03 hIp://ghr.nlm.nih.gov/handbook/hgp Numero s@mato dei geni umani Prima del sequenziamento del Genoma 70 000 – 100 000 Dopo la prima bozza del Genoma 30 000 – 40 000 Al termine del sequenziamento < 25 000 Ad oggi 20 500 “Il Proge)o Genoma Umano ha cambiato il modo di fare scienza” Eric Green, Francis Collins e il Nobel James Watson, Nature Diagnosi Prevenzione Cura hIp://www.1000genomes.org/ 2001- 03 2010-12 Nature 2012 hIp://www.nature.com/nature/journal/v491/n7422/pdf/nature11632.pdf 1000 Genomes Samples
Population
Chinese Dai in Xishuangbanna, China(CDX)
Han Chinese in Bejing, China (CHB)
Japanese in Tokyo, Japan (JPT)
Kinh in Ho Chi Minh City, Vietnam (KHV)
Southern Han Chinese, China (CHS)
Total East Asian Ancestry (EAS)
Bengali in Bangladesh (BEB)
Gujarati Indian in Houston,TX (GIH)
Indian Telugu in the UK (ITU)
Punjabi in Lahore,Pakistan (PJL)
Sri Lankan Tamil in the UK (STU)
Total South Asian Ancestry (SAS)
African Ancestry in Southwest US (ASW)
African Caribbean in Barbados (ACB)
Esan in Nigeria (ESN)
Offspring
DNA
Samples
sequenced from Trios
Pilot
from blood Available Samples
no
yes
0
no
no
91
no
no
94
yes
yes
0
no
yes
0
185
no
yes
0
no
yes
0
yes
yes
0
yes
yes
0
yes
yes
0
0
no
yes
0
yes
yes
0
no
yes
0
Gambian in Western Division, The Gambia (GWD)
Luhya in Webuye, Kenya (LWK)
Mende in Sierra Leone (MSL)
Yoruba in Ibadan, Nigeria (YRI)
Total African Ancestry (AFR)
British in England and Scotland (GBR)
Finnish in Finland (FIN)
Iberian populations in Spain (IBS)
Toscani in Italia (TSI)
Utah residents with Northern and Western
European ancestry (CEU)
Total European Ancestry (EUR)
Colombian in Medellin, Colombia (CLM)
no
no
no
no
yes
yes
yes
yes
no
no
no
no
yes
no
yes
no
no
yes
no
Mexican Ancestry in Los Angeles, California (MXL)
Peruvian in Lima, Peru (PEL)
Puerto Rican in Puerto Rico (PUR)
Total Americas Ancestry (AMR)
no
yes
yes
Total
Final
Phase
Phase 1 Discovery
Samples
Sample
0
99
97
103
89
104
0
101
100
108
286
515
0
86
0
106
0
103
0
96
0
103
0
494
61
66
0
96
0
99
0
97
Final
Release
Sample
93
103
104
99
105
504
86
103
102
96
102
489
61
96
99
Total
99
106
105
101
112
523
86
106
103
96
103
494
66
96
99
113
99
85
108
661
91
99
107
107
113
116
85
116
691
94
100
107
110
0
102
0
106
208
0
0
0
66
88
246
89
93
14
98
113
101
85
109
669
92
99
107
108
yes
94
160
0
85
379
60
99
505
94
99
503
94
103
514
95
yes
yes
yes
0
0
0
66
0
55
181
67
86
105
352
64
85
104
347
69
86
105
355
553
1092
2535
2504
2577
Cos1 del sequenziamento Cos1 del sequenziamento •  First genera@on sequencing 2001-­‐2007 Sequenziamento tradizionale tramite il metodo Sanger. – Costo: circa 10-­‐100 M $/ genoma •  Next genera@on sequencing (NGS) 2008-­‐
Today – Costo: circa 1,000 $ / genoma High-­‐Throughput NGS Instrument Read lenghts Time The HiSeq X ™ Illumina 350 pb 2-­‐3 days 454 Life Sciences/Roche GS FLX 600-­‐1000 pb 10/23 hrs Ion Torrent™ ThermoFisher Scien1fic 400 pb 7.3 hrs NGS Illumina Frammentazione del DNA in frammen1 casuali di 600 pb Ibridizzazione alla Flow cell contenente sequenze complementari agli adaptor e formazione di pon1 NGS Illumina Amplificazione Denaturazione Cicli di amplificazione fino a formazione di cluster 7 NGS Illumina 8 9 Aggiunta del secondo Legame solo del primo La fluorescenza viene nucleo1de sui frammen1 visualizzata in spot colora1 nucleo1de usando nucleo1di fluorescen1 NGS Illumina La fluorescenza viene visualizzata in spot colora1 Successive scansioni dei Allineamento delle sequenze cluster determinano la sequenza nucleo1dica Allineamento informa1co •  Allineamento delle sequenze, bilioni di piccole sequenze di DNA, al genoma presente in NCBI –  BFAST sviluppato presso l’Università della California –  BWA (Burrows-­‐Wheeler Aligner) Sequenziatori Illumina: numero di cluster MiSeq 40 M NextSeq 400 M HiSeq 5000 M Cluster più numerosi Maggiore risoluzione 454 Pyrosequencing process Metodo ABI Solid IL sequenziamento del genoma umano di mol@ individui ha portato all’individuazione di 3 milioni di paia di basi che variano tra gli individui su 3 miliardi di paia di basi che compongono il genoma La variabilità gene1ca •  Il 99.9% del DNA è conservato tra individui diversi •  Solo gemelli iden@ci possiedono lo stesso genoma Una differenza dello 0.1% nella composizione del DNA è sufficiente per dar luogo alla variabilità della popolazione I Polimorfismi Sono variazioni della sequenza del DNA presen@ nella popolazione con una frequenza > 1% Tipologie di Polimorfismi Cambio di una base
..AAC ATA ACG CCG CGA GAT.. ..AAC ATA ACG CAG CGA GAT.. Sequenze ripetute in
TANDEM in numero variabile
..AAC ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG GTT.. ..AAC ATAACG ATAACG ATAACG GTT.. SEQUENZE NUCLEOTIDICHE RIPETUTE IN TANDEM VNTR Variable number tandem repeats (minisatelli@) 15-­‐40 nucleo@di STR Short tandem repeats (Microsatelli@) 2-­‐4 nucleo@di Applicazioni DNA Fingerprin9ng Test di paternità In ambito forense Polimorfismi a singolo nucleo1de: SNP Sono la fonte principale della variabilità gene1ca tra gli individui circa 1 ogni 1000 pb Il numero degli SNP conosciu@ e’ raddoppiato con il progeao 1000 genomi Polimorfismi a singolo nucleo1de: SNP Mutazione Missenso Mutazione Non senso Mutazione Silente Mutazioni che impaIano la struIura proteica Mutazione Missenso Lisina Mutazione Non senso Glutammato La sequenza amminoacidica della proteina codificata è diversa La sequenza amminoacidica non è completa e la proteina è tronca Mutazioni silen1 (sinonime) •  Se il polimorfismo cade in una regione del genoma non codificante •  Se, cadendo in una zona codificante, la sequenza amminoacidica della proteina corrispondente e’ iden1ca Mutazione Silente Lisina Lisina Polimorfismi a singolo nucleo1de: SNP •  E’ stato predeIo che circa un terzo dei polimorfismi Missenso possa avere conseguenze sulla funzione della proteina •  Le mutazioni Non senso, causando la produzione di proteine tronche, molto probabilmente risulteranno in una alterazione della funzione proteica •  Le mutazioni Silen@ pur non influenzando la struIura della proteina potrebbero alternarne i livelli di espressione SNP: faIori di “DIVERSITA” • 
• 
• 
• 
Diversità tra popolazioni Diversità individuale Diversa susceHbilità a malaHe Diversa risposta ai farmaci Il conceIo di susceHbilità Condizione che aumenta la probabilità di sviluppare una malaHa MA….. Non è una condizione né necessaria né sufficiente per determinare l’insorgenza di una malaHa INOLTRE… Ci sono individui che possiedono la variante di rischio e non si ammalano Ci cono individui che non possiedo la variante di rischio e si ammalano Il conceIo di susceHbilità Uno SNP concorrere, insieme ad altri faaori, nello sviluppo di patologie: altre varian@ gene@che interazione geni-­‐ambiente Diversa susceHbilità a malaHe J Hum Genet. 2002;47(11):561-­‐6. SNP alleles in human disease and evolu@on. Shastry BS1. ApoE e malaHa di Alzheimer 3 alleli di susceHbilità rs429358
rs7412
ApoE ε2 GACGTGTGCGGCCG…CAGAAGTGCCTGGCA
ApoE ε3 GACGTGTGCGGCCGC……CAGAAGCGCCTGGCA
ApoE ε4 GACGTGCGCGGCCGC……CAGAAGCGCCTGGCA
-­‐ ApoE ε2
Cys
Cys
ApoE ε3
Cys
Arg
ApoE ε4
Arg
Arg
Vantaggi degli SNP •  HIV •  Malaria •  …… Polimorfismo del receIore CCR5 (vantaggio dell’omozigote all’Infezione da HIV) CCR5 ( chemokine (C-­‐C mo@f) receptor 5)
CCR5
Linfocita T helper Gli omozigo1 per la variante CCR5Δ32(mutazione che rimuove 32 bp) sembrano essere proteH dall’infezione da HIV Gli eterozigo1 (CCR5 W/ Δ 32) Mostrano un andamento della malaHa più lento CCR5 Δ32 generalmente si trova nelle popolazioni di origine europea, con una frequenza del 10%. In Africa, Asia e Oceania sembra che l’allele CCR5 Δ 32 sia assente Polimorfismi della catena beta β dell’emoglobina (vantaggio dell’eterozigote in ambiente malarico) Sintesi normale delle catene beta
HbS ….GAC… Glutamina ….GTC… Valina HbC ….GAG… Glutamina ….AAG… Lisina Mutazione missenso Sintesi difettosa (ridotta) delle catene beta
microcitemia (Talassemia minor) =
eterozigoti
Talassemia major o Morbo di Cooley = omozigoti
grave anemia - modificazioni scheletriche necessitano di continue trasfusioni
0 Emoglobina ‘difeIosa’ ha un deficit di filamen1 di ac1na necessari per la diffusione del parassita Diversa risposta ai farmaci •  Polimorfismi su geni codifican1 molecole target del farmaco •  Polimorfismi sui geni codifican1 gli enzimi che metabolizzano i farmaci, es. il citocromo epa1co c 450, che provocano: –  RidoIo metabolismo del farmaco (tossicità) –  Eccessivo metabolismo del farmaco (nessuna effeIo farmacologico) Ad esempio.. Nelle terapie an1tumorali Farmaco SNP di risposta al farmaco 5-­‐FU
6-­‐mercaptopurina Metotressato
diidropirimidina deidrogenasi catabolismo 1opurina S-­‐me1ltransferasi inaHvazione 5,10-­‐me1lenetetraidrofolato reduIasi Cispla1no gluta1one S-­‐transferasi meccanismo d’azione eliminazione Farmacogenetica
Esamina le varianti genetiche che
determinano la risposta ad un
farmaco e studia il modo in cui
queste varianti possono essere
usate per prevedere il tipo di
risposta
Variando la dose Cambiando il farmaco Selezione sulla
base di fattori
predisponenti
alle malattie
Prevenzione
Dagnosi precoce
Selezione sulla
base di fattori
responsabili di
una diversa
risposta al
trattamento
Terapia personalizzata
Obiettivo l’intero assetto genetico su un chip grande
come una carta di credito •  Ricerca di SNP di susceHbilita’ gene1ca a malaHe •  Ricerca di mutazioni patogene •  Ricerca di SNP di risposta ai farmaci Prevenzione Diagnosi precoce Terapia farmacologica personalizzata Studi di associazione casi-controlli
Popolazione senza malattia
Popolazione con malattia
A T TG C A T G C C A G T A G G
SNP
T A TG A T T G CC G C T A G G
Si cercano differenze nelle frequenze dei
polimorfismi nei due gruppi
Selezione delle due popolazioni • devono differire solo per il fenotipo di interesse#
• devono essere il più omogenee possibile per
tutti gli altri aspetti (sesso, età, etnia…)#
• devono essere sufficientemente numerose #
la numerosità del campione utile per rilevare
associazioni statisticamente significative dipende dalla
frequenza degli SNP studiati Caso 1: nessuna associazione Gene A Casi Controlli Nessuna variante del gene
(verde o nera) è associata con il
fenotipo d’interesse Caso 2: associazione significa1va Gene B Casi Controlli La variante rossa del gene è
associata con il fenotipo
d’interesse L’identificazione delle varianti che
rappresentano fattori di vulnerabilità non è
semplice in quanto ognuna di esse agisce in
concomitanza con molte altre varianti e con
numerosi fattori ambientali
SNP Semplificazione.. Esistono varianti genetiche che vengono#
ereditate insieme #
#
#
#concetto di APLOTIPO HapMap project http://www.hapmap.org#
L’utilizzo degli aplotipi può facilitare l’analisi da Nature 426, 789-796 (2003) Banche dati
•  I da1 genera1 dal sequenziamento del genoma sin ora condoH hanno prodoIo una quan1tà di da1 considerevole •  Le informazioni sono raccolte in banche da1 accessibili liberamente sul web –  Na1onal Center for Biotechnology informa1on (NIH) –  Ensembl –  Gene Cards Banche da1 hIps://www.youtube.com/watch?v=-­‐dOQMiEtL8I hIp://www.ncbi.nlm.nih.gov/pubmed Banche da1 hIp://www.ensembl.org/index.html Banche da1 hIp://www.genecards.org/ Banche da1 hIp://hapmap.ncbi.nlm.nih.gov/ E’ un database u1le allo studio degli aplo1pi SNP function prediction
• 
• 
• 
• 
dbSNP SNP FuncPred F-­‐SNP SNPs3D SNP func1on predic1on •  dbSNP è un database aggiornato contenete tuH gli SNP di tuH i geni, fa parte di NCBI hIp://www.ncbi.nlm.nih.gov/snp/?term= •  SNP FuncPred suggerisce se uno SNP è funzionale e/o patogeno hIp://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm SNP func1on predic1on F-SNP
•  F-­‐SNP suggerisce un indice di probabilità (un valore tra tra 0 a 1) che lo SNP sia funzionale hIp://compbio.cs.queensu.ca/F-­‐SNP/ SNP func1on SNPs3D permeIe, inserendo il nome di una patologia, di trovare tuH gli SNP associa1 e viceversa hIp://www.snps3d.org/ Conclusione •  Oggi è nota l’intera sequenza umana di un gran numero di individui grazie allo sviluppo di: –  Tecniche di sequenziamento in parallelo che permeIono di sequenziare interi genomi in poco tempo con cos1 modes1 –  Tecniche infoma1che che permeIono di immagazzinare ed analizzarele sequenze dei genomi meIendole a confronto per individuare regioni conservate e diversita’ di sequenza •  L’analisi sitema1ca dei genomi umani ha permesso: –  L’individuazione di si1 di varialibiità gene1ca –  Progressi in campo medico •  Individuare faIori di susceHbilità a malaHe •  Prevenzione •  Terapia farmacologica personalizzata La variabilità gene1ca è responsabile delle diversità individuali, ed è un faIore posi1vo per l’ adaIamento all’ ambiente e per l’evoluzione della vita