5 Cambiamenti evolutivi nelle sequenze di DNA e distanze

Lezione 5
Cambiamenti evolutivi nelle
sequenze nucleotidiche
Distanze
materiale
• Graur and Li ch 3
La lezione 5 ci permetterà di capire
1. come possa evolvere una sequenza di
nucleotidi
2. quanto due sequenze nulceotidiche sono
diverse fra loro
3. mettere questa differenza in relazione con il
tempo trascorso dall’antenato comune
Sostituzioni nucleotidiche
AATGAAAGAA
tempo
10 siti; 3 differenze
ACTGGAGGAA
Sostituzioni nucleotidiche
• Processo base nell’evoluzione molecolare
• Essenziale per comprendere i meccanismi di
evoluzione del DNA
• I cambiamenti delle sequenze nucleotidiche
vengono usati per
– Stimare il tasso di evoluzione
– Ricostruire la storia evolutiva degli organismi
Sostituzioni nucleotidiche
AATGAAAGAA
C
T
tempo
Non direttamente
osservabili
10 siti; 3 differenze
ACTGGAGGAA
Sostituzioni nucleotidiche: modelli
Se vogliamo davvero capire come evolve una
sequenza dobbiamo:
• Stabilire che cosa ci aspettiamo ad un
determinato sito al passare del tempo
• Stabilire i cambiamenti temporali nella
probabilità di avere un determinato
nucleotide ad un dato sito, considerando
possibili «complicazioni» (sostituzioni multiple
etc)
Sostituzioni nucleotidiche: modelli
• Modello: descrizione teorica del modo in cui un
processo funziona
• Parametro: un fattore che definisce il sistema e ne
determina il comportamento
Sostituzioni nucleotidiche: modelli
• Per studiare la dinamica delle sostituzioni dobbiamo
fare delle assunzioni sulla probabilità di
cambiamento di un nucleotide con un altro
• Quanti parametri? Modelli diversi con un diverso
numero di parametri
Sostituzioni nucleotidiche: modelli
Un processo stocastico markoviano è un processo stocastico nel quale
la probabilità di transizione che determina il passaggio ad uno stato di
sistema dipende unicamente dallo stato di sistema immediatamente precedente
(proprietà di Markov) e non dal come si è giunti a tale stato
Le probabilità di transizione p(A|A), p(A|C), p(A|T), p(A|G) etc
modellano la probabilità di transizione da A ad A, C,
T e G rispettivamente. La matrice verrà definita come segue:
probabilità di
transizione
tra gli stati
della catena
Attenzione! Il termine TRNSIZIONE usato in questo contesto indica il CAMBIAMENTO, il
PASSAGGIO da un nucleotide ad un altro. Qui non si intende come PUR→PUR o PIR →PIR come
alternativa alla trasversione
Sostituzioni nucleotidiche: JC69
Modello di Jukes e Cantor (1969)
Assunzioni:
• Tutti i cambiamenti sono equiprobabili: modello
ad UN parametro: un solo tasso di sostituzione
(α)
• Tutti i nucleotidi sono presenti alla stessa
frequenza (25%)
Esempio di :
10-9 sostituzioni/sito /anno
Sostituzioni nucleotidiche: JC69
Qual è la probabilità che il nucleotide A al
tempo 0 sia ancora A al tempo 2?
Due possibili percorsi:
1. Il nucleotide è
rimasto lo stesso
dal tempo 0 al
tempo 2.
2. Il nucleotide è
cambiato in T, C, o G
al tempo 1, ma è
tornato ad essere A al
tempo 2
JC69 permette di correggere per sostituzioni multiple (multiple hits)
Sostituzioni nucleotidiche: K80 o K2P
Modello di Kimura (1980): Kimura 2
parametri
Assunzioni:
• In questo modello il tasso con cui
avvengono le transizioni (α) può essere
diverso da quello con cui avvengono le
trasversioni (β): 2 parametri
• Tutti i nucleotidi sono presenti alla stessa
frequenza (25%)
β

β
β
β 
 β
β
β  β
Sostituzioni nucleotidiche: K80 o K2P
Qual è la probabilità che il nucleotide A al tempo 0 sia ancora A al tempo 2?
Quattro possibili percorsi:
Sostituzioni nucleotidiche: K80 o K2P
Modello di Kimura (1980): Kimura 2 parametri
Assumiamo di nuovo che al tempo 0 il nucleotide sia A,
trasversioni
β

β
β
β 
 β
β
β  β
C
T
G
transizioni
Sostituzioni nucleotidiche: altri modelli
Assunzioni:
• Non tutti i nucleotidi sono presenti alla stessa frequenza!!
T
C
A
G
T
C
A
G
Sostituzioni nucleotidiche: altri modelli
T
C
A
G
T
C
A
G
Sostituzioni nucleotidiche: JC69
Come si può correggere
per tutte le possibili
sostituzioni multiple
contemplando tutti i
passaggi nascosti?
Sostituzioni nucleotidiche: JC69
i
Il calcolo della probabilità di
transizione considera TUTTI i
possibili percorsi evolutivi che
potrebbero essere avvenuti
t1
X= (T, C, A, G)
x
x
t2
x
Teorema di Chapman-Kolmogorov: la probabilità
di transizione di ogni nucleotide i ad ogni
nucleotide j nel tempo t1 + t2 è la sommatoria di
tutti i possibili stati X ad ogni tempo intermedio t1
j
Distanze fra sequenze
tempo
Dopo la divergenza fra due sequenze
nucleotidiche ognuna inizia ad
accumulare sostituzioni
Per comparare due sequenze omologhe si
stima
K = numero di sostituzioni per sito dal
momento della divergenza fra due
sequenze
K
Distanze fra sequenze
Se il tasso di evoluzione è costante nel tempo la distanza in termini di differenze
nucleotidiche tra due sequenze crescerà linearmente con il crescere del tempo di
divergenza.
AATGAAAGAA
ACTGGAGGAA
10 siti; 3 differenze
Una semplice misura di distanza è la proporzione dei siti differenti (a volte chiamata
distanza p)
10 siti; 3 differenze
distanza = 30% = 0.3
Sostituzioni
Distanze
fra nucleotidiche
sequenze
AATGAAAGAA
ACTGGAGGAA
10 siti; 3 differenze
distanza = 30% = 0.3
Questa proporzione grezza funziona per
sequenze che sono molto vicine
evolutivamente.
Se è passato molto tempo dalla divergenza, p
sottostima il numero di sostituzioni che sono
realmente avvenute.
Un sito variabile può originarsi attraverso più
percorsi e perfino un sito uguale in due
sequenze può nascondere retro sostituzioni o
sostituzioni parallele. Sostituzioni multiple
nascondono alcuni cambiamenti, perciò p
non è una funzione diretta del tempo
evolutivo. La proporzione grezza p può essere
usata solo se p < al 5%
Distanze fra sequenze
Complichiamo lo scenario: correggiamo per
“multiple hits”
I modelli di Jukes e Cantor, Kimura, Tamura
e Nei etc. possono essere usati oltre che per
prevedere l’evolversi di una sequenza, anche
per valutare la distanza fra due sequenze
originatesi da una divergenza
Distanze fra sequenze: non coding sites
Modello di Jukes e Cantor (1969)
K
K: numero di sostituzioni per sito dal
momento della divergenza
p: proporzione osservata di siti differenti
tra due sequenze
Distanze fra sequenze: non coding sites
Modello di Kimura 2 parametri (1980)
K: numero di sostituzioni per sito dal
momento della divergenza
(se P e Q sono uguali si torna
all’equazione di JC)
Distanze fra sequenze:
non coding sites
Esempio: rRNA 12s mtDNA
Da Yang “computational molecular evolution” Oxford University Press 2006
Tempo di divergenza: 15.7 Mya (www.timetree.org)
Distanze fra sequenze:
non coding sites
JC69
K
Esempio:
rRNA 12s mtDNA
K2P80
N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948
p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949
P = transiz = (30+23+21+10)/948 =84/948=0.088
Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063
JC69 : K = 0.1015
K2P80: K = 0.1038
La differenza è minima
Da Yang “computational molecular evolution”
Distanze fra sequenze:
non coding sites
JC69
K
Aumentiamo la divergenza:
K2P80
N= 948
p= 500/948 = 0.527
P = transiz = 400/948 = 0.4219
Q= trasv= 100/948 = 0.1055
JC69 : K = 0.91
K2P80: K = 1.55
La differenza tra le due stime aumenta all’aumentare della
divergenza
Se c’è un alto livello di divergenza (diciamo p>5%) e, soprattutto, se ci sono
motivi a priori di pensare che il tasso di transizione differisca da quello di
trasversione è meglio considerare modelli più complessi di Jukes and Cantor
Distanze fra sequenze:
coding sites
Calcolare il numero di
sostituzioni tra due sequenze
codificanti proteine è più
complesso perché è
necessario distinguere tra
sostituzioni sinonime e non
sinonime
Distanze fra sequenze:
coding sites
Seq1
Seq2
KS
KA
Ser
TCA
↕
TCG
Ser
Thr
ACT
↕
ACA
Thr
Sin
Sin
Glu
GAG
GAG
Glu
Non
Sin
Met
ATG
↕
ATA
Ile
Cys Leu
TGT TTA
↕
TGT CTA
Cys Leu
Sin
Basta contare?
NO:
Problemi con il
denominatore
Distanze fra sequenze:
coding sites
Perché non basta contare?
Sinonimo
Non sinonimo
Per esempio alcuni siti non sono
solo sinonimi o solo non
sinonimi, dipende da come
mutano
Distanze fra sequenze:
coding sites
Seq1
Seq2
Ser
TCA
↕
TCG
Ser
Thr
ACT
↕
ACA
Thr
Sin
Sin
Glu
GAG
GAG
Glu
Non
Sin
Met
ATG
↕
ATA
Ile
Cys Leu
TGT TTA
↕
TGT CTA
Cys Leu
Sin
Basta contare?
NO:
Problemi con il
numeratore
Distanze fra sequenze:
coding sites
Problemi col numeratore:
Esempio: quando due codoni omologhi differiscono per due o più sostituzioni
l’ordine delle sostituzioni deve essere conosciuto per classificare il sito come
sinonimo o non sinonimo.
Esempio: CCC nella sequenza 1 e CAA nella sequenza 2
La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute
Percorso I:
CCC (Pro)  CCA (Pro)  CAA (Gln)
1 sinonimo e
1 non sinonimo
Percorso II:
CCC (Pro)  CAC (His)  CAA (Gln)
2 non sinonimi
Distanze fra sequenze:
coding sites
Basta contare?
NO: possibili soluzioni
Metodi di Miyata &
Yasunaga (1980) e Nei &
Gojobori (1986)
Nei and Gojobori calculate average
number of synonymous and
nonsynonymous sites allowing
particular sites to be a portion in each
category (can also “weight”
substitution pathway probabilities).
Distanze fra sequenze:
coding sites
Cambiamenti syn MS (o nonsyn MA)
Tot basi syn NS (o nonsyn NA)
Basta contare?
NO: possibili soluzioni
denominatore
1. Consideriamo una posizione specifica in un
codon. Se i è il numero di possibili
cambiamenti sinonimi a quel sito allora lo
conteremo come i/3 sinonimo e (3 – i)/3
non sinonimo.
2. Contiamo il numero di siti sinonimi e non
sinonimi in ogni sequenza e calcoliamo la
media tra le due sequenze. Il numero medio
si siti sinonimi è NS e quello di non sinonimi
è NA .
Distanze fra sequenze:
coding sites
Differenze syn MS (o nonsyn MA)
Tot basi syn NS (o nonsyn NA)
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
3. Classifichiamo le differenze in sinonime e non sinonime
per due codon con 1 differenza è semplice
Val
Val
GTC
GTC
GTT
> sinonimo
GCC > non sinonimo
Val
Ala
numeratore
per più di una differenza: considerare i diversi percorsi
in che ordine sono avvenute le mutazioni?
Percorso I:
CCC (Pro)  CCA (Pro)  CAA (Gln)
1 sinonimo e 1 non sinonimo
Percorso II:
CCC (Pro)  CAC (His)  CAA (Gln)
2 non sinonimi
Approccio non pesato: Tutto è equiprobabile
Nei and Gojobori
Ma=differenze non sin: (1+2)/2 = 1.5
Ms=differenze sinonime: (1+0)/2 = 0.5
Distanze fra sequenze:
coding sites
Differenze syn MS (o nonsyn MA)
Tot basi syn NS (o nonsyn NA)
Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)
4. Il numero di mutazioni sinonime per sito sinonimo
pS = MS / NS
Il numero di mutazioni non sinonime per sito non sinonimo
pA = MA / NA
Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor (o
altro) per correggere
Distanze fra sequenze:
coding sites
Nei & Gojobori (1986)
Distanze fra sequenze:
coding sites
Nr Siti S
Nr siti A
Ka
Ks
Ka/Ks