Analisi di variabilità genomica : risorse e metodi per l`analisi

Analisi di variabilità
genomica:
risorse e metodi per
l'analisi dei dati
[email protected]
Dip.Biochimica e Biologia Molecolare
23-marzo-2006
Variabilità è un termine a cui è associata
una enormità di problematiche scientifiche
e culturali.
Variabilità inter-specie
Variabilità intra-specie
In questa lezione verrà posta l’enfasi sulla
variabilità intra-specie umana
(human diversity)
Variabilità Umana
• La variabilità umana rappresenta i “range” di
possibili valori associati ad ogni
caratteristica misurabile, fisica o mentale,
dell’essere umano.
• Le differenze fra tali valori possono essere
irrilevanti o significative, transitorie o
permanenti, volontarie o involontarie,
congenite o acquisite, genetiche o ambientali.
• L’insieme di tali differenze rendono ognuno
dei 6,5 miliardi di individui che popolano il
pianeta terrestre diverso da tutti gli altri.
Variabilità Genetica
• La variabilità genetica è determinata
dalle mutazioni che rendono due
individui diversi.
• Il Genoma Umano nucleare di due
individui è conservato per il 99,9%,
il rimanente 0,1% racchiude quelle
differenze che rendono i due individui
diversi.
• Studiare tali differenze consente di…
……..
– comprendere le cause molecolari delle
malattie genetiche
– studiare le origini dell’uomo
– studiare le migrazioni delle popolazioni
attuali
Tali studi sono stati condotti da che si
sono scoperte le leggi fondamentali della
genetica e quindi dell’ereditarietà ma
l’avvento della Genomica ha dato un
enorme impulso a tali studi sia per quanto
riguarda la quantità di informazioni
disponibili che per quanto riguarda
l’accuratezza delle stesse che oggi
consentono di effettuare le analisi ad un
livello molto più puntuale.
La variabilità genetica
deriva dall’esistenza delle
mutazioni
Variabilità
• Percentuale di siti che mutano rispetto al totale nel
confronto “pairwise”
1. Genoma Umano nucleare: mediamente 0,1%.
2. Genoma Umano mitocondriale: mediamente 0,3%.
• Variabilità media : n. di siti varianti, rispetto al
numero di siti totali costituenti il genoma, osservati in
un gruppo di individui
1. Variabilità media nucleare umana:
10MSNPs/3000Msiti*100 = 0,3% (il n. di individui e popolazioni è
difficile da stimare)
2. Variabilità media mitocondriale :
3466SNPs/16570siti*100= 21% su 2150 genomi mt umani
Mutazione
Alterazione della sequenza di DNA
causata da
– fattori naturali
– fattori ambientali
Mutazione
• Mutazioni di singolo nucleotide, delezioni o
inserzioni di corti frammenti nucleotidici
causano alterazioni in un singolo gene.
• Mutazioni di grossi frammenti cromosomiali
dovuti a delezioni, inserzioni o inversioni sono
dette aberrazioni e coinvolgono più geni e
quindi proteine.
Mutazioni di singolo nucleotide,
delezioni o inserzioni di corti frammenti
nucleotidici causano alterazioni in un
singolo gene.
– fattori naturali (errori durante la
replicazione : mismatch)
– fattori ambientali (modificazioni
chimiche dei nucleotidi)
• Nel caso dei mismatch il sistema di riparo può riconoscere le
mutazioni e correggerle, altrimenti le mutazioni si fissano e
vengono trasmesse alle progenie.
Mutazioni di singolo nucleotide e delezioni o inserzioni di
corti frammenti nucleotidici causano alterazioni in un
singolo gene.
• Mutazioni missenso o non sinonima (sostituzione di un
nucleotide che cambia un aa in un altro)
• Mutazioni non senso (sostituzione di un nucleotide che
cambia un aa in un codone di STOP)
• Mutazione sinonima (sostituzione di un nucleotide
nell’ambito della stessa famiglia di codoni)
• Mutazioni con slittamento causano l’inserimento o la
delezione di piccole stringhe. Può verificarsi in
qualsiasi parte del genoma ma sono preferite regioni
già ripetute che favoriscono lo scivolamento.
• Una mutazione può causare l’acquisto di una nuova
funzione (positiva) o la riduzione o perdita di una
funzione (negativa).
• Una mutazione può manifestarsi in modo più o meno
forte
• Una mutazione può manifestarsi subito o con effetto
ritardato.
• Mutazione costitutiva che sopprime la regolazione su
un gene o un gruppo di geni
• Mutazione leaky ….
Comunque una mutazione è un cambio
del genotipo che produce variabilità
influenzando più o meno il fenotipo.
Allele
ogni possibile stato associabile
ad un locus genico
• Nel caso del singolo sito di DNA possiamo avere 4 alleli (A,C,G,T)
• Il numero di alleli possibili in un organismo n-ploide è n
Genotipo
set di alleli che un individuo
presenta su di un locus genico
• Nel caso del singolo sito di DNA il numero di genotipi possibili
per un organismo n-ploide è dato da 4exp(n).
• Nel caso dell’uomo potremmo avere 16 genotipi diversi.
Polimorfismo
presenza su un locus genomico di
due o più alleli
•RFLP : Restriction Fragment Lenghth Polymorphism
•Microsatelliti: sequenze ripetute in tandem lunghe fino a
150bp, con una unità di 13 bp
•STS: sequence tagged sites (sequenza lunga da 200 a
500 kb unica nel genoma)
•SNP : Single Nucleotide Polymorphism
Polimorfismo
Secondo la definizione classica di
polimorfismo l’allele più raro dovrebbe
avere una frequenza minima pari a 1%
L’eterozigosità misura il grado di
polimorfismo sulla base delle frequenze dei
genotipi.
APLOTIPO
insieme di sequenze
regione
genomica
relative ad una definita
riportanti
un
set
di
polimorfismi completamente coincidenti rispetto
ad un riferimento
Riferimento
Campione # 1
Campione # 2
Campione # 3
Campione # 4
ATGACAGTG
AACTGATTA
AACTGATTA
AACTGATTA
AACTGATTA
Aplotipo A
APLOGRUPPO
insieme di APLOTIPI accomunati da un set di
siti polimorfici portanti lo stesso allele ereditati
dal loro comune ancestore
Aplotipo
Aplotipo
Aplotipo
Aplotipo
Aplotipo
A
B
C
D
E
AACTGATTA
ACCTGTATG
ATCTGATTA
ACCTGGTTT
TACTGATTA
123456789
I siti marcati con i numeri gialli definiscono l’aplogruppo
tag SNPs e Aplotipi
• Sono stati mappati 10M SNPs nelle popolazioni
umane.
• Alleli di SNPs associati definiscono l’aplotipo
• Gran parte delle regioni cromosomiche sono
caratterizzate da aplotipi molto rari
(frequenza max 5%).
• Tali regioni contengono diversi SNPs ma quelli
che definiscono l’unicità dell’aplotipo sono
chiamati tag SNPs
Variabilità Genetica
• Si ricordano le differenze fra
– erditarietà genetica mendeliana (genoma nucleare)
– ereditarietà genetica citoplasmatica (genoma
mitocondriale)
• Nell’ambito del genoma nucleare un ruolo
particolare ha il cromosoma Y.
• Ricordiamo infatti che…
…nel genoma nucleare
cromosomi differenti segregano
indipendentemente durante la meiosi
1. tratti fenotipici (normale o mutante) controllati da geni
localizzati su cromosomi differenti segregano
indipendentemente
2. tratti fenotipici controllati da geni che segregano insieme
con frequenze più alte dell’atteso sono associati (linked)
3. a causa della ricombinazione non è detto che geni
localizzati sullo stesso cromosoma siano associati
4. l’analisi di linkage fornisce una misura della probabilità che
due loci siano associati.
5. il cromosoma Y è presente solo nei maschi e quindi viene
ereditato solo per via patrilineare, inoltre il cromosoma Y
ha una regione estesa che non ricombina
…nel genoma mitocondriale
•
•
•
•
•
l’eredità è citoplasmatica e materna:
il mitocondrio si duplica in interfase nel citoplasma (eredità
citoplasmatica) e durante la meiosi è l’uovo che trasferisce il
citoplasma allo zigote (eredità materna)
il genoma mitocondriale non ricombina
il mitocondrio è presente in copie multiple nel citoplasma e
ogni mitocondrio possiede più copie del genoma (all’incirca 10
nell’uomo)
se il genoma mitocondriale subisce delle mutazioni 
eteroplasmia (% di molecole mutate rispetto al “wild-type” )
la segregazione delle molecole mutate rispetto al wild type è
random o dipende da fattori specifici? (Chinnery et al., Trends in
Genetics Volume 16, Issue 11 , 1 November 2000, Pages 500-505)
Variabilità Genetica
L’avvento delle tecniche di sequenziamento prima e
della Genomica poi hanno dato un impulso sempre più
crescente agli studi di genetica di popolazione e alla
comprensione dei meccanismi molecolari associati alle
malattie genetiche.
L’oggetto di osservazione su cui ci si è concentrati ha
dimensioni differenti nel caso del genoma nucleare
rispetto al genoma mitocondriale.
Genoma nucleare  SNPs
Genoma mitocondriale  la sequenza dell’intero genoma
Genomica Mitocondriale
OH
12s P
H F
rRNA
T
Cyt b
V
0 / 16569 P
16s
rRNA
PL
E
ND6
DEAF 1555G
L
MELAS 3243G
LHON 14484C
LHON 14459A
ND5
ND1
LHON 3460A
I
M
Q
L
S
H
LHON 11778A
ND2
A
W
ND4
N O
C L
Y
NARP 8993 G/C
MERRF 8344G
ND4L
R
S
G
COI
COIII
D
ATPase6
COII K
The Human Mitochondrial DNA Map
ATPase8
From MITOMAP http://www.gen.emory.edu/mitomap.html
Complex III genes
Complex I genes
(ubiquinol: cytochrome c
(NADH dehydrogenase)
oxidoreductase)
Complex IV genes
(cytochrome c oxidase)
Complex V genes
(ATP synthase)
ND3
5 kb deletion
KSS
Transfer RNA genes
Ribosomal RNA genes
Schematica rappresentazione della
regione D-loop nei mammiferi
Central conserved
domain
CSB domain
2
C
3
C
5' OH
1
2
CSBs
Phe
tRNA
C
C
C
C
H strand
HSP
ETAS domain
3'
1
ETASs
Pro
mtRNAprocessing
5'
HVS 2
HVS 1
mrp
RNA
LSP
L strand
mtRNApol+mtTFA
DNA
3'
tRNA
Genoma mitocondriale
• Per le caratteristiche precedentemente descritte del
mitocondrio, gli studi di genetica popolazione si sono fortemente
concentrati sul mitocondrio.
• Prima dell’avvento della genomica, i genetisti popolazionali hanno
utilizzato come marcatori le sequenze delle regioni HVS1 e
HVS2 del D-loop e i polimorfismi RFLP della regione codificante.
• La regione HVS1 è stata sequenziata in un elevatissimo numero di
popolazioni (in GenBank sono annotate circa 11000 sequenze
relative al D-loop o a sue parti).
• Ciò ha permesso la individuazione, su un elevatissimo numero di
popolazioni mondiali, degli aplotipi e quindi degli aplogruppi
mitocondriali.
• Analogamente è stato condotto uno screening a largo raggio della
regione codificante attraverso gli RFLP.
• Gli studi più recenti sul D-loop ….
Group II
Group I
Group III
Genoma mitocondriale
• Il sequenziamento dei genomi mitocondriali
completi ha consentito una classificazione
più fine degli aplogruppi.
• 2150 genomi disponibili relativi ai 5
continenti.
• La classificazione degli aplogruppi
La risorsa genomica mitocondriale
HmtDB
HmtDB
Variabilità sito specifica e classificazione
degli aplogruppi
• Siti del mtDNA con valori di variabilità
discriminanti in una particolare area
geografica, rispetto al resto del mondo,
fungono da marcatori molecolari di
aplogruppi localizzati nella specifica
area.
L’algoritmo MSD per il
riconoscimento dei siti marcatori
• I dati ottenuti da Site_Var sono quindi analizzati
con uno script che calcola il parametro MSD (Mean
Simple Deviation) al fine di quantificare i “valori di
variabilità discriminanti”
MSD i,k =
 ( 
4
k
j
j1
i
i
 / 4
• Siti con MSD maggiori di una prefissata soglia sono
con molta probabilità marcatori di aplogruppi.
• Abbiamo così individuato 81 siti caratterizzanti
nuovi sottoaplogruppi
OH
12s P
H F
rRNA
T
Cyt b
V
0 / 16569 P
16s
rRNA
PL
E
ND6
DEAF 1555G
L
MELAS 3243G
LHON 14484C
LHON 14459A
ND5
ND1
LHON 3460A
I
M
Q
L
S
H
LHON 11778A
ND2
A
W
ND4
N O
C L
Y
NARP 8993 G/C
MERRF 8344G
ND4L
R
S
G
COI
COIII
D
ATPase6
COII K
The Human Mitochondrial DNA Map
ATPase8
From MITOMAP http://www.gen.emory.edu/mitomap.html
Complex III genes
Complex I genes
(ubiquinol: cytochrome c
(NADH dehydrogenase)
oxidoreductase)
Complex IV genes
(cytochrome c oxidase)
Complex V genes
(ATP synthase)
ND3
5 kb deletion
KSS
Transfer RNA genes
Ribosomal RNA genes
Le mutazioni mitocondriali
patologiche
• MITOMAP
• Leberhaplogroup
Febbraio 2001 : pubblicazione del Genoma Umano
Consorzio pubblico
Celera Genomics
I grandi progetti
Antropo-molecolari
Il progetto Genoma Umano ha posto le
basi e ha creato le premesse per lo
studio sistematico della variabilità
umana
– Human Diversity (pre Genoma)
– HapMap
– National Geographic
Human Genome Diversity Project
HGDP
Progetto lanciato agli inzi degli anni 90 con l’obiettivo di
raccogliere in maniera sistematica e su larga scala
campioni biologici relativi a popolazioni
rappresentative di tutto il globo terrestre per la
comprensione dei meccanismi che hanno generato e
genereranno in futuro la variabilità umana per scopi
culturali ma anche e soprattutto di interesse
biomedico.
Il lancio di tale progetto ha provocato numerosi dibattiti
per le problematiche etiche connesse soprattutto in
relazione al campionamento di popolazioni indigene per
le quali si temeva un utilizzo commerciale dei campioni.
Nature Reviews Genetics 6, 333-340 (2005); doi:10.1038/nrg1596
THE HUMAN GENOME DIVERSITY PROJECT: PAST, PRESENT AND FUTURE
L. Luca Cavalli-Sforza
Human Genome Diversity Project
HGDP
• Superati i problemi etici
sono state raccolte per le
popolazioni indigene linee
cellulari di linfoblastomi
• Il lancio vero e proprio del
progetto nel 2002.
• Il CEPH raccoglie i campioni
Nature Reviews Genetics 6, 333-340 (2005); doi:10.1038/nrg1596
THE HUMAN GENOME DIVERSITY PROJECT: PAST, PRESENT AND FUTURE
L. Luca Cavalli-Sforza
52 popolazioni raccolte nel progetto HGDP
HGDP
primi risultati
377 polimorfismi di microsatelliti
relativi a 1056 individui di 52
popolazioni
I grandi progetti
Antropo-molecolari
Il progetto Genoma Umano ha posto le
basi e ha creato le premesse per lo
studio sistematico della variabilità
umana
– Human Diversity (pre Genoma)
– HapMap
– National Geographic
HapMap Project
Finalità : catalogare e rendere pubblicamente disponibili
aplotipi del genoma umano relativi a specifiche regioni
del cromosoma per effettuare studi di associazione
finalizzati al riconoscimento di geni associati a
malattie o il loro ruolo nella risposta al farmaco.
Partecipanti
Popolazioni : 4 popolazioni per un totale di 270 campioni
Pubblicazioni
Accesso ai dati : Mart Browser
I grandi progetti
Antropo-molecolari
Il progetto Genoma Umano ha posto le
basi e ha creato le premesse per lo
studio sistematico della variabilità
umana
– Human Diversity (pre Genoma)
– HapMap
– National Geographic
Progetto lanciato
dalla NG society e
supportato
dall’IBM e dalla
Waitt Family
Foundation
Raccoglierà
campioni relativi a
1000 popolazioni
indigene per
approfondire le
conoscenze
sulla diffusione
dell’uomo nella
preistoria
Le risorse Bioinformatiche per la Human Diversity
•
•
•
•
•
•
•
•
•
•
•
•
dbSNP : http://www.ncbi.nlm.nih.gov/projects/SNP/
deCODE : http://www.decode.com/
EMPOP : http://www.empop.org/
Ensembl : http://www.ensembl.org
HapMap http://www.hapmap.org
HmtDB : http://www.hmdb.uniba.it
Human Diversity : http://www.stanford.edu/group/morrinst/hgdp.html
MitoMAP: http://www.mitomap.org
mtDB : http://www.genpat.uu.se/mtDB/
mtSNP : http://www.giib.or.jp/mtsnp/search_home_e.html
OMIM : http://www.ncbi.nlm.nih.gov/OMM
UCSC : http://genome.ucsc.edu/
Eredità materna del DNA
mitocondriale
back