variabilita` del genoma umano e malattie da espansione

Come e quanto varia il genoma
umano?
Quali sono le conseguenze di
queste variazioni?
Se si confrontano genomi di
individui diversi li si trova identici
per > 99.5%
In che cosa consistono le
differenze tra genomi?
Variazioni su
piccola e su
larga scala
I cambiamenti su
piccola scala
interessano un solo gene
Si riteneva che le
variazioni su larga scala
fossero molto
svantaggiose e quindi
rare. Negli ultimi anni si
è invece scoperto che
sono piuttosto comuni
Scherer et al (2007)-Nat Genet. 39: S7–15.
Sequenziamento del genoma umano: 1990–2003
Studio della variabilità umana: HapMap e1000 genomi
Il progetto 1000 genomi principale è stato
preceduto da tre studi pilota:
1. 180 campioni (da 4 popolazioni) a bassa
copertura (4x)
2. 2 triplette (padre-madre-figlio) a elevata
copertura (20-60x)
3. 1000 regioni geniche a elevata copertura in
900 campioni
Progetto 1000 genomi principale prevede il
sequenziamento di 2500 individui  500
da ciascuna delle 5 aree geografiche
principali (5-7 popolazioni per ciascuna
area geografica)
Aree geografiche  Europa, Africa, America, Asia
orientale e Asia meridionale
Cambiamenti di un singolo nucleotide
Nel genoma umano sono presenti > 40 milioni di SNS
(ca.10 milioni sono polimorfiche)
2007 – genoma di Craig Venter
• 3.2 milioni di SNP
•
ca. 300 000 indel (da 1 a 571 bp) allo stato
eterozigote
• Ca. 560 000 indel (1-82 711 bp) allo stato
omozigote
• 90 grandi inversioni
• 62 varianti di sequenza a elevato no. di copie
12 291 000 bp diverse dalla sequenza
di riferimento
Genoma umano 3.2 x 109 bp  differenze con il genoma di riferimento:
12.3 x 106/3.2 x109 = 0.00386
La variazione più piccola interessa
un singolo nucleotide
(sostituzioni o
inserzioni/delezioni)
Quali effetti sul fenotipo?
Variazioni di una o poche basi che si
verificano in sequenze codificanti
 SNS-Samesense (SS) o sinonime (S)
 SNS-MisSense (MS) o non sinonime (NS)
 SNS-non senso
 Inserzioni o delezioni di poche bp
(indel)
 Inversioni di poche bp (inv)
Esempi di mutazione SS
o sinonima
AAA (Lys)  AAG (Lys)
CUA (Leu)  UUA (Leu)
Esempi di mutazione MS o Non Sinonima
Sostituzione della 1a base del codone:
AAA (Lys)  CAA (Gln)
Sostituzione della 2a base del codone:
AAA (Lys)  ACA (Thr)
Sostituzione della 3a base del codone:
AAA (Lys)  AAC (Asn)
Esempio di mutazione Non Senso
Inserzioni di pochi nt
Formazione di un codone di STOP subito a valle della
delezione di 1 nt
mRNA con codoni di STOP che cadono
prima dell’ultimo esone sono instabili e
vengono degradati  meccanismo
attraverso il quale viene impedita la
produzione di ‘monconi polipeptidici’
che potrebbero essere dannosi per la
cellula
NMD  Nonsense-Mediated Decay =
degradazione mediata da codoni non-senso
Quando gli mRNA arrivano nel citoplasma sono
ancora legati, in corrispondenza dei punti di
splicing, a complessi proteici (EJC = Exon
Junction Complex) che vengono rimossi solo
durante il primo round di traduzione. mRNA
da cui non vengano rimossi gli EJC sono
instabili e vengono degradati
Strachan e Read – Genetica Molecolare Umana, Zanichelli, 2012
Frecce verdi  formazione di codoni di STOP
prematuri prima dell’ultimo esone, mRNA instabili
> non produzione di ‘tronconi polipeptidici’
Frecce rosse  formazione di codoni di STOP
prematuri nell’ultimo esone, mRNA stabili >
produzione di ‘tronconi polipeptidici’. In genere
comportano conseguenze fenotipiche più gravi
E le SNS che interessano regioni
non codificanti?
Le conseguenze sono più difficili
da prevedere
Mutazioni che alterano il
processo di splicing
Rimozione degli introni dal trascritto
primario
Strachan e Read – Genetica Molecolare Umana, Zanichelli, 2012
Sequenze introniche importanti per lo splicing
Strachan e Read – Genetica Molecolare Umana, Zanichelli, 2012
Enahancer di splicing  esoniche o introniche
SNP  come vengono studiati
alcuni SNP (CA. 10%) sono RFLP
(Restriction Fragment Length
Polymorphism)  polimorfismi (bi-allelici)
in cui i due alleli differiscono per la
dimensione dei frammenti generati da una
reazione di digestione enzimatica
DNA
genomico
BamHI
BamHI*
6.4kb
BamHI
14.6kb
ENZIMI DI RESTRIZIONE
Enzimi che riconoscono brevi sequenze di DNA in
corrispondenza delle quali tagliano entrambi i filamenti
La sequenza riconosciuta ha generalmente una lunghezza
di 4-8 bp ed è palindroma rispetto ad un asse di
simmetria
(la stessa sequenza di basi è presente su entrambi i filamenti quando
questi vengono letti in direzione 5’- 3’);
PCR (Polymerase Chain Reaction)
Tecnica in grado di amplificare in maniera
altamente specifica una regione di DNA di cui si
conoscono le sequenze fiancheggianti
L’amplificazione è di tipo esponenziale: ad ogni
ciclo il numero di molecole di DNA bersaglio (tratto
di DNA compreso tra i due primers) raddoppia. In
una PCR di 30 cicli per ogni molecola di DNA
inizialmente presente se ne formeranno 230, cioè un
numero dell’ordine di 109
PCR
Ogni ciclo consta di 3 fasi:
 denaturazione (temp. 94° C)
 appaiamento dei primer (a una temp.
che dipende dalla lunghezza e dalla
composizione in basi dei primer )
 sintesi dei nuovi filamenti (temp. 72°C)
Per una reazione di PCR sono necessari:
 primer (forward e reverse)
 dNTP (deossinucleotidi trifosfati: dATP,
dCTP, dGTP e dTTP)
 DNA polimerasi resistente alle alte
temperature (spesso Taq polimerasi, estratta
da Thermus acquaticus)
 Buffer appropriato
 MgCl2
La reazione avviene in un termociclatore cioè in un
blocco di alluminio che può essere riscaldato e
raffreddato rapidamente
RFLP  inizialmente sono stati studiati utilizzando il Southern
blot: procedimento lungo, costoso e che richiede notevoli
quantità di DNA di partenza
Oggi si studiano accoppiando la PCR alla digestione enzimatica,
i prodotti di digestione vengono separati su gel di agarosio e
visualizzati su un transilluminatore
DNA
genomico
BamHI
BamHI*
6.4kb
BamHI
14.6kb
BamHI*
0.4kb
0.7kb
Digestione del prodotto della PCR
con BamHI
elettroforesi
BamHI*
200 bp
400 bp
1 2 3 4 5 6 7 8 9 101112131415 M
600 bp
400 bp
200 bp
DOT BLOT
 Reazioni di PCR vengono immobilizzate su due distinte
membrane di nitrocellulosa o nylon
 Le membrane vengono sottoposte a trattamento
denaturante e messe in contatto con la soluzione
contenente una sonda ASO (Allele Specific
Oligonucleotide) marcata: una delle due membrane
viene fatta reagire con il probe wild-type l’altra con
quello mutante
 Si eseguono dei lavaggi per eliminare le sonde che non
si sono ibridate perché non perfettamente
complementari al DNA target
 Tramite autoradiografia si evidenziano i campioni che
si sono appaiati in maniera perfetta con il probe
Esperimento di
Dot Blot
L’ibridazione è fatta in condizioni
tali che il legame tra la sonda e il
DNA può avvenire solo se esiste
una perfetta complementarietà
tra le due sequenze, il mal
appaiamento anche di un solo nt.
non consente tale legame
Molto spesso si utilizza il REVERSE DOT
BLOT (RDB): le sonde oligonucleotidiche non
sono marcate e vengono fissate sulla
membrana, mentre il DNA bersaglio viene
marcato e fornito in soluzione.
Il legame tra il DNA bersaglio (marcato)
e l’oligonucleotide specifico attaccato alla
membrana indica la presenza della sequenza
specifica nel bersaglio.
Esperimento di Reverse Dot Blot per
saggiare 6 diverse mutazioni
Ogni filtro è ibridato con il DNA di un soggetto
RDB multiplo: analisi di 36 mutazioni CF
Strip B
17 mutazioni CF
Sonde mutate
Sonde mutate
Strip A
19 mutazioni CF
Sonde
normali
Sonde
normali
PCR con primer allele-specifici
Per ciascun campione vengono
effettuate 2 reazioni di PCR con primer
allele-specifici  il primer termina sul
nt. che presenta le due varianti
alleliche
Saggi TaqMan in RT-PCR
MICROARRAY PER LA
DETERMINAZIONE DEL GENOTIPO
Microarray di oligonucleotidi (della lunghezza di
20-25 nucleotidi) sintetizzati in vitro, ciascuna
sonda è presente nelle due forme alleliche
Il DNA da analizzare viene amplificato, marcato
con una sostanza fluorescente ed ibridato su
questi supporti
Dopo lavaggio la fluorescenza emessa viene letta
ed interpretata da un apposito software
GeneChip
Contiene ca. 1 800 000
sonde
1 000 000 per polimorfismi
del tipo SNP
800 000 per polimorfismi del
tipo CNV (Copy Number
Variation)
STR con effetti fenotipici
patologici
MALATTIE DA
ESPANSIONE (instabile)
DI BREVI TRATTI
RIPETUTI
La base molecolare di queste malattie
consiste nella ripetizione abnorme di un
microsatellite o STR (Short Tandem Repeat)
Cosa sono i microsatelliti o STR ?
Regioni di genoma in cui una breve sequenza di basi
(da 1 a 10 bp), detta repeat, viene ripetuta un certo
numero di volte
Molto spesso questi loci sono variabili: nella
popolazione esistono alleli con un diverso numero di
repeat
La differenza tra gli alleli è quindi un differenza di
lunghezza
Gli alleli vengono in genere indicati con un
numero che corrisponde al numero di ripetizioni
dell’unità di base
Ad esempio, gli alleli 13 e 14 di un microsatellite del tipo
CA (vedi figura A) differiscono l’uno dall’altro per due basi: l’allele
13 presenta il dinucleotide CA ripetuto 13 volte (per un totale di 26
bp), mentre nell’allele 14 esso è ripetuto 14 volte (in totale 28 bp)
Ciascun sito STR è indicato con una sigla (D number)
D6S282
D = DNA; 6 = l’STR considerato sta sul cromosoma 6;
Probabile
meccanismo di
generazione di
nuovi alleli STR
Nelle malattie da espansione
Alleli normali  l’unità base è presente un numero
di volte limitato (anche se variabile da allele ad
allele)
Alleli patologici  l’unità base è presente un
numero di volte molto maggiore
Esempio: nella Corea di Huntington gli alleli normali
contengono il trinucleotide CAG ripetuto 11-36 volte,
gli alleli patologici lo presentano 40-120 volte
40-120
CAG
CAG
CAG
CAG
11-36
CAG
CAG
CAG
CAG
gene HD
In pedigree in cui segregano malattie dovute ad
espansioni nucleotidiche si osservano, in
generazioni successive della stessa famiglia,
 anticipazione dell’età di insorgenza
e
 aumento della gravità dei sintomi clinici
Per alcune malattie queste caratteristiche erano state
evidenziate già nei primi decenni del secolo scorso
I
54a
1
II
56a
1
III
2
46a
41a
2
3
42a
18a
1
4
2
3
5
6
Il no. all’interno del
simbolo dei soggetti
affetti indica l’età di
insorgenza della
malattia
Entrambi i fenomeni sono spiegati dalle seguenti
osservazioni:
l’entità dell’espansione è direttamente collegata alla
gravità della malattia e alla sua età di insorgenza
il tratto espanso è soggetto ad instabilità meiotica (e
anche mitotica)  i portatori di un allele espanso
producono con frequenza elevata gameti con un
numero di ripetizioni ancora più elevato
Esempio  individuo con un allele con un tratto (CAG)48 ha un’elevata
probabilità di formare gameti con (CAG)>48
I
II
48/28
31/30
54a
1
28/30
III
54/31
48/30
56a
1
28/32
1
2
29/27
28/30
50/31
46a
41a
2
62/30
3
4
42a
18a
2
54/30
3
5
6
I no. accanto ai
soggetti affetti
indicano il no. di
ripetizioni
dell’unità di base
La prima dimostrazione che
l’espansione di un microsatellite può
essere causa di patologie risale
all’inizio degli anni ’90
Oggi si conoscono una ventina di
malattie dovute a questo meccanismo
mutazionale
Quali le cause dell’instabilità mitotica e meiotica? Poco note (la
lunghezza del tratto necessario per la formazione di hairpin
coincide con la lunghezza dei frammenti di Okazaki; ruolo della
regione fiancheggiante, fattori sesso-specifici, ecc.)
Le malattie da espansione possono
essere suddivise in 3 categorie sulla
base della regione genica in cui si
trova il tratto ripetuto (regioni
codificanti o non codificanti) e del
meccanismo molecolare alla base
della patogenicità (perdita di
funzione, produzione di una proteina
mutata con nuove caratteristiche,
produzione di mRNA con nuove
funzioni)
Nat Rev Genet (2005) 6: 743-755
1. Malattie in cui il gene contiene l’espansione in una
regione NON codificante (nel 5’ UTR per FRAXA e
FRAXE e nel 1° introne per FRDA) e in cui il
meccanismo patogenetico è la perdita di funzione
 l’unità ripetuta è diversa da gene a gene
 il range di espansione patologico è molto elevato
(centinaia o addirittura migliaia di copie)
2. Malattie in cui il gene contiene l’espansione in una
regione NON codificante (nel 5’ UTR o nel 1°
introne) e il meccanismo patogenetico è la
produzione di un mRNA con nuove caratteristiche
 l’unità ripetuta è diversa da gene a gene
 il range di espansione patologico è molto elevato
(centinaia o addirittura migliaia di copie)
3. Malattie in cui il gene contiene l’espansione in una regione
codificante
 sono malattie neurodegenerative
 l’unità base ripetuta è sempre CAG (codone che codifica per
Glutamina malattie da poli-glutamine)
 sono a trasmissione Autosomica Dominante (tranne SBMA)
 il meccanismo patogenetico è l’acquisizione di funzione da
parte della proteina mutata
Variazioni su
piccola e su
larga scala
Scherer et al (2007)-Nat Genet. 39: S7–15.
A metà del primo decennio di
questo secolo si è cominciata ad
indagare la variabilità che
coinvolge tratti di genoma di > 1 kb
Risultati inattesi  questo tipo di
variabilità è piuttosto comune
dati sulle Structural Variants (SV) derivati dal progetto
1000 genomi- Phase 3:
sequenziamento del genoma di 2500 individui
MEI = Mobile Element Insertions
NUMT = NUclear MiTochondrial Insertions
mCNV = multiallelic Copy Number Variations