Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze materiale • Graur and Li ch 3 La lezione 5 ci permetterà di capire 1. come possa evolvere una sequenza di nucleotidi 2. quanto due sequenze nulceotidiche sono diverse fra loro 3. mettere questa differenza in relazione con il tempo trascorso dall’antenato comune Sostituzioni nucleotidiche AATGAAAGAA tempo 10 siti; 3 differenze ACTGGAGGAA Sostituzioni nucleotidiche • Processo base nell’evoluzione molecolare • Essenziale per comprendere i meccanismi di evoluzione del DNA • I cambiamenti delle sequenze nucleotidiche vengono usati per – Stimare il tasso di evoluzione – Ricostruire la storia evolutiva degli organismi Sostituzioni nucleotidiche AATGAAAGAA C T tempo Non direttamente osservabili 10 siti; 3 differenze ACTGGAGGAA Sostituzioni nucleotidiche: modelli Se vogliamo davvero capire come evolve una sequenza dobbiamo: • Stabilire che cosa ci aspettiamo ad un determinato sito al passare del tempo • Stabilire i cambiamenti temporali nella probabilità di avere un determinato nucleotide ad un dato sito, considerando possibili «complicazioni» (sostituzioni multiple etc) Sostituzioni nucleotidiche: modelli • Modello: descrizione teorica del modo in cui un processo funziona • Parametro: un fattore che definisce il sistema e ne determina il comportamento Sostituzioni nucleotidiche: modelli • Per studiare la dinamica delle sostituzioni dobbiamo fare delle assunzioni sulla probabilità di cambiamento di un nucleotide con un altro • Quanti parametri? Modelli diversi con un diverso numero di parametri Sostituzioni nucleotidiche: modelli Un processo stocastico markoviano è un processo stocastico nel quale la probabilità di transizione che determina il passaggio ad uno stato di sistema dipende unicamente dallo stato di sistema immediatamente precedente (proprietà di Markov) e non dal come si è giunti a tale stato Le probabilità di transizione p(A|A), p(A|C), p(A|T), p(A|G) etc modellano la probabilità di transizione da A ad A, C, T e G rispettivamente. La matrice verrà definita come segue: probabilità di transizione tra gli stati della catena Attenzione! Il termine TRNSIZIONE usato in questo contesto indica il CAMBIAMENTO, il PASSAGGIO da un nucleotide ad un altro. Qui non si intende come PUR→PUR o PIR →PIR come alternativa alla trasversione Sostituzioni nucleotidiche: JC69 Modello di Jukes e Cantor (1969) Assunzioni: • Tutti i cambiamenti sono equiprobabili: modello ad UN parametro: un solo tasso di sostituzione (α) • Tutti i nucleotidi sono presenti alla stessa frequenza (25%) Esempio di : 10-9 sostituzioni/sito /anno Sostituzioni nucleotidiche: JC69 Qual è la probabilità che il nucleotide A al tempo 0 sia ancora A al tempo 2? Due possibili percorsi: 1. Il nucleotide è rimasto lo stesso dal tempo 0 al tempo 2. 2. Il nucleotide è cambiato in T, C, o G al tempo 1, ma è tornato ad essere A al tempo 2 JC69 permette di correggere per sostituzioni multiple (multiple hits) Sostituzioni nucleotidiche: K80 o K2P Modello di Kimura (1980): Kimura 2 parametri Assunzioni: • In questo modello il tasso con cui avvengono le transizioni (α) può essere diverso da quello con cui avvengono le trasversioni (β): 2 parametri • Tutti i nucleotidi sono presenti alla stessa frequenza (25%) β β β β β β β β Sostituzioni nucleotidiche: K80 o K2P Qual è la probabilità che il nucleotide A al tempo 0 sia ancora A al tempo 2? Quattro possibili percorsi: Sostituzioni nucleotidiche: K80 o K2P Modello di Kimura (1980): Kimura 2 parametri Assumiamo di nuovo che al tempo 0 il nucleotide sia A, trasversioni β β β β β β β β C T G transizioni Sostituzioni nucleotidiche: altri modelli Assunzioni: • Non tutti i nucleotidi sono presenti alla stessa frequenza!! T C A G T C A G Sostituzioni nucleotidiche: altri modelli T C A G T C A G Sostituzioni nucleotidiche: JC69 Come si può correggere per tutte le possibili sostituzioni multiple contemplando tutti i passaggi nascosti? Sostituzioni nucleotidiche: JC69 i Il calcolo della probabilità di transizione considera TUTTI i possibili percorsi evolutivi che potrebbero essere avvenuti t1 X= (T, C, A, G) x x t2 x Teorema di Chapman-Kolmogorov: la probabilità di transizione di ogni nucleotide i ad ogni nucleotide j nel tempo t1 + t2 è la sommatoria di tutti i possibili stati X ad ogni tempo intermedio t1 j Distanze fra sequenze tempo Dopo la divergenza fra due sequenze nucleotidiche ognuna inizia ad accumulare sostituzioni Per comparare due sequenze omologhe si stima K = numero di sostituzioni per sito dal momento della divergenza fra due sequenze K Distanze fra sequenze Se il tasso di evoluzione è costante nel tempo la distanza in termini di differenze nucleotidiche tra due sequenze crescerà linearmente con il crescere del tempo di divergenza. AATGAAAGAA ACTGGAGGAA 10 siti; 3 differenze Una semplice misura di distanza è la proporzione dei siti differenti (a volte chiamata distanza p) 10 siti; 3 differenze distanza = 30% = 0.3 Sostituzioni Distanze fra nucleotidiche sequenze AATGAAAGAA ACTGGAGGAA 10 siti; 3 differenze distanza = 30% = 0.3 Questa proporzione grezza funziona per sequenze che sono molto vicine evolutivamente. Se è passato molto tempo dalla divergenza, p sottostima il numero di sostituzioni che sono realmente avvenute. Un sito variabile può originarsi attraverso più percorsi e perfino un sito uguale in due sequenze può nascondere retro sostituzioni o sostituzioni parallele. Sostituzioni multiple nascondono alcuni cambiamenti, perciò p non è una funzione diretta del tempo evolutivo. La proporzione grezza p può essere usata solo se p < al 5% Distanze fra sequenze Complichiamo lo scenario: correggiamo per “multiple hits” I modelli di Jukes e Cantor, Kimura, Tamura e Nei etc. possono essere usati oltre che per prevedere l’evolversi di una sequenza, anche per valutare la distanza fra due sequenze originatesi da una divergenza Distanze fra sequenze: non coding sites Modello di Jukes e Cantor (1969) K K: numero di sostituzioni per sito dal momento della divergenza p: proporzione osservata di siti differenti tra due sequenze Distanze fra sequenze: non coding sites Modello di Kimura 2 parametri (1980) K: numero di sostituzioni per sito dal momento della divergenza (se P e Q sono uguali si torna all’equazione di JC) Distanze fra sequenze: non coding sites Esempio: rRNA 12s mtDNA Da Yang “computational molecular evolution” Oxford University Press 2006 Tempo di divergenza: 15.7 Mya (www.timetree.org) Distanze fra sequenze: non coding sites JC69 K Esempio: rRNA 12s mtDNA K2P80 N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948 p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949 P = transiz = (30+23+21+10)/948 =84/948=0.088 Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063 JC69 : K = 0.1015 K2P80: K = 0.1038 La differenza è minima Da Yang “computational molecular evolution” Distanze fra sequenze: non coding sites JC69 K Aumentiamo la divergenza: K2P80 N= 948 p= 500/948 = 0.527 P = transiz = 400/948 = 0.4219 Q= trasv= 100/948 = 0.1055 JC69 : K = 0.91 K2P80: K = 1.55 La differenza tra le due stime aumenta all’aumentare della divergenza Se c’è un alto livello di divergenza (diciamo p>5%) e, soprattutto, se ci sono motivi a priori di pensare che il tasso di transizione differisca da quello di trasversione è meglio considerare modelli più complessi di Jukes and Cantor Distanze fra sequenze: coding sites Calcolare il numero di sostituzioni tra due sequenze codificanti proteine è più complesso perché è necessario distinguere tra sostituzioni sinonime e non sinonime Distanze fra sequenze: coding sites Seq1 Seq2 KS KA Ser TCA ↕ TCG Ser Thr ACT ↕ ACA Thr Sin Sin Glu GAG GAG Glu Non Sin Met ATG ↕ ATA Ile Cys Leu TGT TTA ↕ TGT CTA Cys Leu Sin Basta contare? NO: Problemi con il denominatore Distanze fra sequenze: coding sites Perché non basta contare? Sinonimo Non sinonimo Per esempio alcuni siti non sono solo sinonimi o solo non sinonimi, dipende da come mutano Distanze fra sequenze: coding sites Seq1 Seq2 Ser TCA ↕ TCG Ser Thr ACT ↕ ACA Thr Sin Sin Glu GAG GAG Glu Non Sin Met ATG ↕ ATA Ile Cys Leu TGT TTA ↕ TGT CTA Cys Leu Sin Basta contare? NO: Problemi con il numeratore Distanze fra sequenze: coding sites Problemi col numeratore: Esempio: quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle sostituzioni deve essere conosciuto per classificare il sito come sinonimo o non sinonimo. Esempio: CCC nella sequenza 1 e CAA nella sequenza 2 La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi Distanze fra sequenze: coding sites Basta contare? NO: possibili soluzioni Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986) Nei and Gojobori calculate average number of synonymous and nonsynonymous sites allowing particular sites to be a portion in each category (can also “weight” substitution pathway probabilities). Distanze fra sequenze: coding sites Cambiamenti syn MS (o nonsyn MA) Tot basi syn NS (o nonsyn NA) Basta contare? NO: possibili soluzioni denominatore 1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 – i)/3 non sinonimo. 2. Contiamo il numero di siti sinonimi e non sinonimi in ogni sequenza e calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e quello di non sinonimi è NA . Distanze fra sequenze: coding sites Differenze syn MS (o nonsyn MA) Tot basi syn NS (o nonsyn NA) Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986) 3. Classifichiamo le differenze in sinonime e non sinonime per due codon con 1 differenza è semplice Val Val GTC GTC GTT > sinonimo GCC > non sinonimo Val Ala numeratore per più di una differenza: considerare i diversi percorsi in che ordine sono avvenute le mutazioni? Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi Approccio non pesato: Tutto è equiprobabile Nei and Gojobori Ma=differenze non sin: (1+2)/2 = 1.5 Ms=differenze sinonime: (1+0)/2 = 0.5 Distanze fra sequenze: coding sites Differenze syn MS (o nonsyn MA) Tot basi syn NS (o nonsyn NA) Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986) 4. Il numero di mutazioni sinonime per sito sinonimo pS = MS / NS Il numero di mutazioni non sinonime per sito non sinonimo pA = MA / NA Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor (o altro) per correggere Distanze fra sequenze: coding sites Nei & Gojobori (1986) Distanze fra sequenze: coding sites Nr Siti S Nr siti A Ka Ks Ka/Ks