Il genoma umano e la variabilità
genetica
Sara Palumbo
Laboratorio di Biologia Molecolare, Dipartimento di
Patologia Chirurgica, Medica, Molecolare e dell’Area
Critica
[email protected]
Tutte le cellule hanno lo stesso
patrimonio genetico
Ogni cellula
possiede un
nucleo
100
trilioni
di cellule
Il nucleo
contiene il
materiale
genetico
Cellula
Nucleo
Mitocondrio
Cromosoma
Il DNA è
organizzato
in plasmidi
DNA mitocondriale
Plasmide
Il DNA è
organizzato
in cromosomi
DNA nucleare
DNA mitocondriale: i plasmidi
Ereditato solo dalla madre
http://www.ncbi.nlm.nih.gov/pubmed/7219534
• Contiene 37 geni che producono proteine
necessarie per le funzioni del mitocondrio
Plasmide
• E’ molto suscettibile a mutazioni
DNA nucleare: i cromosomi
22 cromosomi (autosomi) in duplice copia più 2 cromosomi sessuali
Ereditato da entrambi i genitori
From
Father
From
Mother
Il DNA nucleare contiene 20000-25000 geni che producono proteine
1953: modello del DNA secondo
Watson and Crick
Come è fatto il DNA
L’informazione contenuta nel DNA è rappresentata dall’alternanza di 4 lettere
C
G
A
T
Citosina
Guanina
Adenina
Timina
Basi azotate
Come è fatto il DNA
Appaiamento delle basi azotate
C
G
Nucleotide
A
T
Successivo
fosfato
deossiribosio
Essential Cell Biology (© Garland Science 2010)
Il genoma umano
E’ il materiale genetico completo di un organismo, ovvero tutto il DNA
contenuto del nucleo di ogni cellula
• Contiene circa 3 miliardi di paia di
basi organizzato in:
– GENI: di circa 20 500 geni (2%
dell’intero genoma), sono
sequenze codificanti per le
proteine
– SEQUENZE CODIFICANTI che
generano RNA funzionali ma
che non codificano per
proteine (es. RNA ribosomiale)
– SEQUENZE NON CODIFICANTI:
• Funzione strutturale
• Funzione regolatrice della
trascrizione
Il genoma umano
Regioni intergeniche ed
introni non vengono trascritte
Enhancer e promotori sono
sequenze che non vengono
trascritte con funzione
regolatoria della tascrizione
Il genoma umano a confronto con altri
organismi
Organismo
Lunghezza
(Mb)
Numero di
cromosomi
Numero di
geni
Uomo
3230.54
46
20 500
Lievito
12.16
16
6 300
E.Coli
4.64
1
4 498
Homo sapiens http://www.ncbi.nlm.nih.gov/genome/51?genome_assembly_id=249422
Saccharomyces Cerevisae http://www.ncbi.nlm.nih.gov/genome/15?genome_assembly_id=22535
Escherichia coli http://www.ncbi.nlm.nih.gov/genome/167?genome_assembly_id=161521
Le regioni NON codificanti hanno un
ruolo chiave nella complessità degli
organismi
Molti geni si sono conservati
durante l’evoluzione
Regioni NON codificanti
aumentano nella scala
evolutiva
http://web.ornl.gov/sci/techresources/Human_Genome/project/info.shtml
1990
2001-03
http://ghr.nlm.nih.gov/handbook/hgp
Numero stimato dei geni umani
Prima del sequenziamento del Genoma
70 000 – 100 000
Dopo la prima bozza del Genoma
30 000 – 40 000
Al termine del sequenziamento
< 25 000
Ad oggi
20 500
“Il Progetto Genoma Umano ha
cambiato il modo di fare scienza”
Eric Green, Francis Collins e il Nobel James Watson, Nature
Diagnosi
Prevenzione
Cura
http://www.1000genomes.org/
2001- 03
2010-12
Nature 2012
http://www.nature.com/nature/journal/v491/n7422/pdf/nature11632.pdf
1000 Genomes Samples
Population
Chinese Dai in Xishuangbanna, China(CDX)
Han Chinese in Bejing, China (CHB)
Japanese in Tokyo, Japan (JPT)
Kinh in Ho Chi Minh City, Vietnam (KHV)
Southern Han Chinese, China (CHS)
Total East Asian Ancestry (EAS)
Bengali in Bangladesh (BEB)
Gujarati Indian in Houston,TX (GIH)
Indian Telugu in the UK (ITU)
Punjabi in Lahore,Pakistan (PJL)
Sri Lankan Tamil in the UK (STU)
Total South Asian Ancestry (SAS)
African Ancestry in Southwest US (ASW)
African Caribbean in Barbados (ACB)
Esan in Nigeria (ESN)
Offspring
DNA
Samples
sequenced from Trios
Pilot
from blood Available Samples
no
yes
0
no
no
91
no
no
94
yes
yes
0
no
yes
0
185
no
yes
0
no
yes
0
yes
yes
0
yes
yes
0
yes
yes
0
0
no
yes
0
yes
yes
0
no
yes
0
Gambian in Western Division, The Gambia (GWD)
Luhya in Webuye, Kenya (LWK)
Mende in Sierra Leone (MSL)
Yoruba in Ibadan, Nigeria (YRI)
Total African Ancestry (AFR)
British in England and Scotland (GBR)
Finnish in Finland (FIN)
Iberian populations in Spain (IBS)
Toscani in Italia (TSI)
Utah residents with Northern and Western
European ancestry (CEU)
Total European Ancestry (EUR)
Colombian in Medellin, Colombia (CLM)
no
no
no
no
yes
yes
yes
yes
no
no
no
no
yes
no
yes
no
no
yes
no
Mexican Ancestry in Los Angeles, California (MXL)
Peruvian in Lima, Peru (PEL)
Puerto Rican in Puerto Rico (PUR)
Total Americas Ancestry (AMR)
no
yes
yes
Total
Final
Phase
Phase 1 Discovery
Samples
Sample
0
99
97
103
89
104
0
101
100
108
286
515
0
86
0
106
0
103
0
96
0
103
0
494
61
66
0
96
0
99
0
97
Final
Release
Sample
93
103
104
99
105
504
86
103
102
96
102
489
61
96
99
Total
99
106
105
101
112
523
86
106
103
96
103
494
66
96
99
113
99
85
108
661
91
99
107
107
113
116
85
116
691
94
100
107
110
0
102
0
106
208
0
0
0
66
88
246
89
93
14
98
113
101
85
109
669
92
99
107
108
yes
94
160
0
85
379
60
99
505
94
99
503
94
103
514
95
yes
yes
yes
0
0
0
66
0
55
181
67
86
105
352
64
85
104
347
69
86
105
355
553
1092
2535
2504
2577
Costi del sequenziamento
Costi del sequenziamento
• First generation sequencing 2001-2007
Sequenziamento tradizionale tramite il
metodo Sanger.
– Costo: circa 10-100 M $/ genoma
• Next generation sequencing (NGS) 2008Today
– Costo: circa 1,000 $ / genoma
High-Throughput NGS
Instrument
Read lenghts
Time
The HiSeq X ™ Illumina
350 pb
2-3 days
454 Life Sciences/Roche GS FLX
600-1000 pb
10/23
hrs
Ion Torrent™ ThermoFisher Scientific
400 pb
7.3 hrs
NGS Illumina
Frammentazione del DNA in
frammenti casuali di 600 pb
Ibridizzazione alla Flow cell contenente sequenze
complementari agli adaptor e formazione di ponti
NGS Illumina
Amplificazione
Denaturazione
Cicli di amplificazione fino
a formazione di cluster
NGS Illumina
7
Legame solo del primo
nucleotide sui frammenti
usando nucleotidi fluorescenti
8
La fluorescenza viene
visualizzata in spot colorati
9
Aggiunta del secondo
nucleotide
NGS Illumina
La fluorescenza viene
visualizzata in spot
colorati
Successive scansioni dei
cluster determinano la
sequenza nucleotidica
Allineamento delle
sequenze
Allineamento informatico
• Allineamento delle sequenze, bilioni di piccole
sequenze di DNA, al genoma presente in NCBI
– BFAST sviluppato presso l’Università della
California
– BWA (Burrows-Wheeler Aligner)
Sequenziatori Illumina:
numero di cluster
MiSeq
40 M
NextSeq
400 M
HiSeq
5000 M
Cluster più numerosi
Maggiore risoluzione
IL sequenziamento del genoma umano di molti
individui ha portato all’individuazione di
3 milioni di paia di basi che variano tra gli
individui
su 3 miliardi di paia di basi che compongono
il genoma
La variabilità genetica
• Il 99.9% del DNA
è conservato
tra individui diversi
• Solo gemelli identici
possiedono lo stesso genoma
Una differenza dello 0.1% nella
composizione del DNA è sufficiente per dar luogo alla variabilità
della popolazione
I Polimorfismi
Sono variazioni della
sequenza del DNA
presenti nella
popolazione con
una frequenza > 1%
Tipologie di Polimorfismi
Cambio di una base
..AAC ATA ACG CCG CGA GAT..
..AAC ATA ACG CAG CGA GAT..
Sequenze ripetute in
TANDEM in numero variabile
..AAC ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG ATAACG GTT..
..AAC ATAACG ATAACG ATAACG GTT..
SEQUENZE NUCLEOTIDICHE RIPETUTE
IN TANDEM
VNTR
Variable number tandem repeats
(minisatelliti)
15-40 nucleotidi
STR
Short tandem repeats
(Microsatelliti)
2-4 nucleotidi
Applicazioni
DNA Fingerprinting
Test di paternità
In ambito forense
Polimorfismi a singolo nucleotide:
SNP
Sono la fonte principale della variabilità
genetica tra gli individui
circa 1 ogni 1000 pb
Il numero degli SNP conosciuti e’ raddoppiato
con il progetto 1000 genomi
Polimorfismi a singolo nucleotide:
SNP
Mutazione
Missenso
Mutazione
Non senso
Mutazione
Silente
Mutazioni che impattano la struttura
proteica
Mutazione
Missenso
Lisina
Mutazione
Non senso
Glutammato
La sequenza
amminoacidica
della proteina
codificata è diversa
La sequenza
amminoacidica
non è completa e la
proteina
è tronca
Mutazioni silenti (sinonime)
• Se il polimorfismo cade in una regione del
genoma non codificante
• Se, cadendo in una zona codificante, la
sequenza amminoacidica della proteina
corrispondente e’ identica
Mutazione
Silente
Lisina
Lisina
Polimorfismi a singolo nucleotide:
SNP
• E’ stato predetto che circa un terzo dei
polimorfismi Missenso possa avere conseguenze
sulla funzione della proteina
• Le mutazioni Non senso, causando la produzione
di proteine tronche, molto probabilmente
risulteranno in una alterazione della funzione
proteica
• Le mutazioni Silenti pur non influenzando la
struttura della proteina potrebbero alternarne i
livelli di espressione
SNP: fattori di “DIVERSITA”
•
•
•
•
Diversità tra popolazioni
Diversità individuale
Diversa suscettibilità a malattie
Diversa risposta ai farmaci
Il concetto di suscettibilità
Condizione che aumenta la probabilità di sviluppare
una malattia
MA…..
Non è una condizione né necessaria né sufficiente
per determinare l’insorgenza di una malattia
INOLTRE…
Ci sono individui che possiedono la variante di rischio e non si
ammalano
Ci cono individui che non possiedo la variante di rischio e si
ammalano
Il concetto di suscettibilità
Uno SNP concorrere, insieme ad altri fattori,
nello sviluppo di patologie:
altre varianti genetiche
interazione geni-ambiente
Diversa suscettibilità a malattie
J Hum Genet. 2002;47(11):561-6. SNP alleles in human disease and evolution. Shastry BS1.
ApoE e malattia di Alzheimer
3 alleli di suscettibilità
rs429358
rs7412
ApoE e2 GACGTGTGCGGCCG…CAGAAGTGCCTGGCA
ApoE e3 GACGTGTGCGGCCGC……CAGAAGCGCCTGGCA
ApoE e4 GACGTGCGCGGCCGC……CAGAAGCGCCTGGCA
ApoE e2
Cys
Cys
ApoE e3
Cys
Arg
ApoE e4
Arg
Arg
-
Vantaggi degli SNP
• HIV
• Malaria
• ……
Polimorfismo del recettore CCR5
(vantaggio dell’omozigote all’Infezione da HIV)
CCR5 ( chemokine (C-C motif) receptor 5)
CCR5
Linfocita T helper
Gli omozigoti per la variante
CCR5Δ32(mutazione che rimuove 32 bp)
sembrano essere protetti dall’infezione
da HIV
Gli eterozigoti (CCR5 W/ Δ 32)
Mostrano un andamento della malattia più
lento
CCR5 Δ32 generalmente si trova nelle
popolazioni di origine europea, con una
frequenza del 10%. In Africa, Asia e Oceania
sembra che l’allele
CCR5 Δ 32 sia assente
Polimorfismi della catena beta β dell’emoglobina
(vantaggio dell’eterozigote in ambiente malarico)
Sintesi normale delle catene beta
HbS ….GAC… Glutamina
….GTC… Valina
HbC ….GAG… Glutamina
….AAG… Lisina
Mutazione missenso
Sintesi difettosa (ridotta) delle catene beta
microcitemia (Talassemia minor) = eterozigoti
Talassemia major o Morbo di Cooley = omozigoti
grave anemia - modificazioni scheletriche necessitano di continue trasfusioni
0
Emoglobina ‘difettosa’ ha un deficit di filamenti di actina necessari per la diffusione del parassita
Diversa risposta ai farmaci
• Polimorfismi su geni codificanti molecole
target del farmaco
• Polimorfismi sui geni codificanti gli enzimi che
metabolizzano i farmaci, es. il citocromo
epatico c 450, che provocano:
– Ridotto metabolismo del farmaco (tossicità)
– Eccessivo metabolismo del farmaco (nessuna
effetto farmacologico)
Ad esempio.. Nelle terapie
antitumorali
Farmaco
5-FU
6-mercaptopurina
Metotressato
Cisplatino
SNP di risposta al farmaco
diidropirimidina deidrogenasi catabolismo
inattivazione
tiopurina S-metiltransferasi
5,10-metilenetetraidrofolato reduttasi
glutatione S-transferasi
meccanismo
d’azione
eliminazione
Farmacogenetica
Esamina le varianti genetiche che
determinano la risposta ad un
farmaco e studia il modo in cui
queste varianti possono essere
usate per prevedere il tipo di
risposta
Variando la dose
Cambiando il
farmaco
Selezione sulla
base di fattori
predisponenti
alle malattie
Prevenzione
Dagnosi precoce
Selezione sulla
base di fattori
responsabili di
una diversa
risposta al
trattamento
Terapia personalizzata
Obiettivo
l’intero assetto genetico su un chip grande
come una carta di credito
• Ricerca di SNP di suscettibilita’ genetica a malattie
• Ricerca di mutazioni patogene
• Ricerca di SNP di risposta ai farmaci
Prevenzione
Diagnosi precoce
Terapia farmacologica
personalizzata
Studi di associazione casi-controlli
Popolazione senza malattia
Popolazione con malattia
SNP
A T TG C A T G C C A G T A G G
T A TG A T T G CC G C T A G G
Si cercano differenze nelle frequenze dei
polimorfismi nei due gruppi
Selezione delle due popolazioni
• devono differire solo per il fenotipo di interesse
• devono essere il più omogenee possibile per
tutti gli altri aspetti (sesso, età, etnia…)
• devono essere sufficientemente numerose
la numerosità del campione utile per rilevare
associazioni statisticamente significative dipende dalla
frequenza degli SNP studiati
Caso 1: nessuna associazione
Gene A
Casi
Controlli
Nessuna variante del gene
(verde o nera) è associata con il
fenotipo d’interesse
Caso 2: associazione significativa
Gene B
Casi
Controlli
La variante rossa del gene è
associata con il fenotipo
d’interesse
L’identificazione delle varianti che
rappresentano fattori di vulnerabilità non è
semplice in quanto ognuna di esse agisce in
concomitanza con molte altre varianti e con
numerosi fattori ambientali
SNP
Semplificazione..
Esistono varianti genetiche che vengono
ereditate insieme
concetto di APLOTIPO
HapMap project
http://www.hapmap.org
L’utilizzo degli aplotipi può facilitare l’analisi
da Nature 426, 789-796 (2003)
Banche dati
• I dati generati dal sequenziamento del
genoma sin ora condotti hanno prodotto una
quantità di dati considerevole
• Le informazioni sono raccolte in banche dati
accessibili liberamente sul web
– National Center for Biotechnology information
(NIH)
– Ensembl
– Gene Cards
Banche dati
https://www.youtube.com/watch?v=-dOQMiEtL8I
http://www.ncbi.nlm.nih.gov/pubmed
Banche dati
http://www.ensembl.org/index.html
Banche dati
http://www.genecards.org/
SNP function prediction
•
•
•
•
dbSNP
SNP FuncPred
F-SNP
SNPs3D
SNP function prediction
• dbSNP è un database aggiornato contenete tutti gli SNP di
tutti i geni, fa parte di NCBI
http://www.ncbi.nlm.nih.gov/snp/?term=
• SNP FuncPred suggerisce se uno SNP è funzionale e/o
patogeno
http://snpinfo.niehs.nih.gov/snpinfo/snpfunc.htm
SNP function prediction
F-SNP
• F-SNP suggerisce un indice di probabilità (un
valore tra tra 0 a 1) che lo SNP sia funzionale
http://compbio.cs.queensu.ca/F-SNP/
SNP function
SNPs3D permette, inserendo il nome di una
patologia, di trovare tutti gli SNP associati e
viceversa
http://www.snps3d.org/
Conclusione
• Oggi è nota l’intera sequenza umana di un gran numero di individui grazie
allo sviluppo di:
– Tecniche di sequenziamento in parallelo che permettono di
sequenziare interi genomi in poco tempo con costi modesti
– Tecniche infomatiche che permettono di immagazzinare ed
analizzarele sequenze dei genomi mettendole a confronto per
individuare regioni conservate e diversita’ di sequenza
• L’analisi sitematica dei genomi umani ha permesso:
– L’individuazione di siti di varialibiità genetica
– Progressi in campo medico
• Individuare fattori di suscettibilità a malattie
• Prevenzione
• Terapia farmacologica personalizzata
La variabilità genetica è responsabile delle
diversità individuali, ed è un fattore positivo per
l’ adattamento all’ ambiente e per l’evoluzione
della vita