A Brief Introduction to
Molecular Systematics
David S. Horner
Dip. Scienze Biomolecolari e
Biotecnologie
[email protected]
Allineamento
Che Cosa è un allineamento?
• E’ una serie di ipotesi di omologia
posizionale
SUGAR
SUCRE
SUGAR
X
SUGR
SUCRE
SUCRE
SUGARSUC –RE
----------------------------
S U ? ?R?
SUGARSUC –RE
ZUCKER
SOKKER
SAKARI
AZUCAR
AçUCAR
SUG-ARSUC– - RE
ZUCKERSOKKERAZUC-ARSAK-ARI
AçUC-AR-------------------- S U C(K)A R -
Possiamo Valutare un
Allineamento
• Match = +2
• Mismatch = -1
• Gap = -2
G
|
G
A
|
A
T
A
T
|
T
C
-
+2 +2 -1 +2 -2
C
|
C
G
C
T
|
T
+2 -1 +2
=6 punti
Models of Amino acid Replacement
Exchangeability Parameters
•Si può calcolare un “punteggio di
similarità” tra 2 sequenze, in base
al punteggio scelto:
Human: W C T F G T T
Mouse: W C A W G T T
11 9 0 1 6 5 5
score = 37
• Saul G. Needleman –
Christian D. Wunsch 1970
Allineamento ottimale di due
sequenze
H
P
A
W
H
E
A
E
E
A
G
A
W
G
H
E
E
La formula
•
Matrice M = (m+1)x(n+1)
•
La posizione m(0,0) è “inizializzata” a zero
•
Poi: m(i,j) è uguale al massimo tra tre possibilità
•
s(xi,yj) è il costo (matrici) della sostituzione dell’i-esima lettera della sequenza
X con la j-esima della sequenza Y
•
d è il costo di una cancellazione (inserimento)
•
Alla fine, la casella in basso a destra conterrà il punteggio dell’allineamento

m(i  1, j  1)  s ( x , y )
i
j

m(i, j )  max 
m(i  1, j )  d

m(i, j  1)  d


Allineamento “globale”
yj allineato
con un “gap”
Allinea carattere
con carattere
m(i-1,j-1) m(i,j-1)
s(xi,yj)
d
m(i-1,j)
xi allineato
con un “gap”
d
F(i,j)
While building the table, keep track of where
optimal score came from, reverse arrows
BLOSUM62 Amino Acid Log-odd Substitution
Matrix
H
E
A
G
A
W
G
H
E
E
0
-8
16 24 32 40 48 56 64 72 80
P
-8
-2
-9
A
16
W
24
H
32
E
40
A
48
E
56
17 25 33 42 49 57 65 73
“Traceback”
Segui le frecce a partire dal basso a destra
• Diagonale: Lettera con lettera
• Su: Gap nella sequenza sopra
• Sinistra: Gap nella sequenza sotto
H
E
0
-8
16 24 32 40 48 56 64 72 80
P
-8
-2
-9
A
-3
16 10
W
-6
24 18 11
H
-8
32 14 18 13
E
-8
40 22
A
-
-
-
A
G
A
W
G
H
E
E
17 25 33 42 49 57 65 73
-4
12 20 28 36 44 52 60
-7
-5
15
-9
-9
16 16
13 21 29 37
-7
13
-3
-7
12 15
HEAGAWGHE-E
-3 --P-AW-HEAE
-
11 19
3
-5
-5
2
Ricerca in Database
• “Trovami nel database le sequenze che allineate
con la mia producono un buon punteggio”
• Nelle ricerche nei database spesso ci si
“accontenta” di trovare similarità locali (domini
conservati, siti attivi, ecc.)
• Il database è enorme: occorrono metodi “veloci”
(che non compilino tutta la tabella) per confrontare
la nostra sequenza ignota con migliaia di altre
sequenze: FASTA, BLAST
• Punteggi piu alto che atessa indicono omologia
Allineamento Progressivo
• Inventato da Feng e Doolittle nel 1987.
• Essenzialmente è un metodo euristico e in quanto
tale non garantisce il reperimento dell’allineamento
“ottimale”.
• Richiede n-1+n-2+n-3...n-n+1 allineamenti a
coppie di sequenze (pairwise) come punto di
partenza - (n(n-1))/2
• La sua implementazione più nota è Clustal (Des
Higgins)
Allineamenti pairwise
• Partire da tutti I possibili
allineamenti pairwise fra ciascuna
coppia di sequenze. Ci sono (n1)+(n-2)...(n-n+1) possibilità.
• Calcolare la “distanza” per ogni
coppia di sequenze sulla base di
questi allineamenti pairwise isolati.
• Generare una matrice di distanza e
un albero filogenetico.
Caso in cui una terza
sequenza vada allineata
alla prime due: ogni volta
che sia necessario
introdurre un gap per
migliorare l’allineamento,
le due entità vengono
trattate come sequenze
singole.
+
H
H
-
D
P
E
-
A
P
-AW-HEAE
+
GAWGHE-E
-AW-HEAE
0.5H 0.5E 0.5A …….
0.5- 0.5- 0.5P …….
-8
H -16
D -24
P -32
H
-
E
-
-16
-24
Profile
AGAWGHE-E
P-AW-HEAE
Progressione
• L’allineamento multiplo viene
progressivamente costruito
in questo modo: ogni
passaggio è trattato come un
allineamento pairwise, a
volte ciascun membro del
pair (coppia) rappresenta più
di una sequenza.
Progressive Alignment-Minimo
Locale
• Problemi potenziali:
– Problema del minimo locale. Se
viene introdotto un errore
precocemente nel processo di
allineamento, non è possibile
correggerlo più tardi nel corso
della procedura.
Muscle
www.drive5.com/muscle
Allineamento di sequenze di
DNA codificanti per proteine
• Non è raccomandabile allineare
sequenze nucleotidiche di geni
codificanti per proteine.
ATGCCCCTGTTAGGG
ATGCCCCT-GTTAGGG
ATGCTCGTAGGG
ATG---CTCGT-AGGG
http://www.cbs.dtu.dk/services/RevTrans/
Allineamento di sequenze di DNA
codificanti per proteine
Allineare le seq. Proteiche, inserire 3 gap
nelle seq. nucleotidiche per ogni gap
nel’allineamento proteico
MetProLeuLeuGly
ATGCCCCTGTTAGGG
MPLLG
M-LVG
ATGCTCGTAGGG
MetLeuValGly
ATGCCCCTGTTAGGG
ATG---CTCGTAGGG
Che Cosa è un allineamento?
• E’ una serie di ipotesi di omologia
posizionale
Allineamenti, omologia posizionale e siti
allineati con segnale potenzialmente
fuorviante
Siamo confidenti che tutti i siti sono
allineati correttamente?
Possiamo escludere siti che non sono bene allineati
Esclusione di siti non bene
allineati
• Si fa manualmente o con software come
Gblocks
• http://molevol.ibmb.csic.es/Gblocks.html
• Rimuove i block con livelli basi di
conservazione in modo obiettivo
Terze Posizioni di codoni
• Tendono essere piu saturati in termini di
numero di sostituzioni, particolarmente
quando le distanze genetiche sono
grandi
• Long Branch Attraction
• A volte vengono escluse
Metodi Basati Sulle
Distanze Genetiche
Cambiamenti multipli a un singolo sito cambiamenti nascosti
Seq 1 AGCGAG
Seq 2 GCCGAC
Numero di cambiamenti
pos 1 A
G
pos 2 G
pos 3 C
A
T
G
C
C
3
1
2
Differences
Substitutions
Distanze
Misure di quanto differenti sono due
sequenze
Il numero di eventi evolutivi che sono
intervenuti dopo la divergenza fra due
sequenze.
La distanza più semplice: p-distance
= la proporzione di siti che non sono
uguali
(Queste non sono buone misure dovuto alla
saturazione )
Modelli dell’evoluzione
molecolare

un “modello del processo”: una descrizione del
meccanismo di cambiamenti molecolari.
Due approcci per la costruzione di modelli.
 EMPIRICAMENTE, possiamo usare proprietà stimate
da confronti fra un numero alto di sequenze
osservate. (valori fissi di parametri)
 Con un metodo PARAMETRICO, usando valori
derivati dai dataset sotto analisi
Modelli dell’evoluzione
molecolare
L’evoluzione molecolare è modellizzata come
un processo probabilistico dipendente dal
tempo. (processo stocastico).
Assunzioni “standard”:
 Tutti i siti evolvono independentamente
 La velocità di sostituzione è costante
rispetto al tempo e in organismi diversi.
 La composizione (di basi o aa) è costante
fra diversi organismi (condizione
stazionaria).
 Le probabilità di vari tipi di sostituzioni
sono uguali per tutti i siti e non cambiano
nel tempo.
Correzioni per sostituzioni
sovrapposte
Jukes and Cantor – tutte le
sostituzioni sono “uguali”
Kimura 2-parameter – differenza fra
transizioni e transversioni
Jukes-Cantor (1969)
1 solo parametro
Composizione di basi:
[1/4, 1/4, 1/4, 1/4]
Tutti i 12 tassi di sostituzioni
“sono” uguali (a)
A
T
C
G
Il logaritmo naturale viene usato per
correggere per sostituzioni sovrapposte
• Se 2 sequenze sono 95% identiche, differiscono al
5% o 0.05 (D) dei siti, quindi:
– dxy = -3/4 ln (1-4/3 0.05) = 0.0517
• Comunque, Se 2 sequenze sono 50% identiche,
differiscono a 50% o 0.5 (D) dei siti, quindi:
– dxy = -3/4 ln (1-4/3 0.5) = 0.824
Modello di Kimura a 2 parametri
(1980)
2 parametri
A
Composizione di basi:
[1/4, 1/4, 1/4, 1/4]
Velocità di
transizione (a) 
Velocità di
transversione (b)
T
C
G
Modello Kimura 2P :
P = transizioni / numero di posizioni
Q = transversioni / numero di posizioni
•D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ]
•
M. Kimura, J. Mol. Evol. 16; 111-120 (1980).
Felsenstein (1981)
composizione di basi
diversa: [pA pC pG, pT]
Tutti I 12 tassi di
sostituzione “sono” uguali
(a)
A
3 parametri
liberi
T
C
G
Hasegawa, Kishino and Yano
composizione di (1985)
basi
diversa: [pA pC pG, pT]
Velocità di transizione (a) 
Velocità di transversione (b)
A
5 parametri
liberi
T
C
G
General Time Reversible
(1984)
composizione di basi
diversa: [pA pC pG, pT]
6 tassi di sostituzione
diversi
A
9 parametri
liberi/indipen
denti
T
C
G
Metodi di “Distanza”
• I metodi di “clustering” usano
algoritmi per generare alberi
– UPGMA (Unweighted Pair Group
Method using Arithmetic Averages):
produce un albero additivo, radicato,
che si conforma all’orologio molecolare
– Neighbor-joining: produce un albero
additivo, non radicato
Approci basati su criteri di ottimalità:
least-squares, minimum evolution,...
Stimare un albero con le distanze
Distanze additive:
• Se potessimo calcolare
accuratamente il vero numero di
eventi evolutivi che sono accaduti
dalla divergenza di due sequenze
sulla base del numero di divergenze
osservate, queste distanze sarebbero
additive.
Metodi di clustering
• UPGMA
distanze additive e ultrametriche
=> basato sull’assunzione di un orologio
molecolare => molto sensibile a tassi di
sostituzioni non uguali. Meglio usare altri
algoritmi di clustering
e.g. Neighbor-joining
B
C
D
E
F
A
2
4
6
6
8
B
C
D
E
4
6
6
8
6
6
8
4
8
8
B
C
D
E
F
A
2
4
6
6
8
B
C
D
E
4
6
6
8
6
6
8
4
8
8
Clusteriziamo le 2 seq più vicine, generiamo una
nuova matrice dove queste seq. vengono
considerate come un cluster unico.
dist(A,B),C = (distAC + distBC) / 2 = 4
dist(A,B),D = (distAD + distBD) / 2 = 6
dist(A,B),E = (distAE + distBE) / 2 = 6
dist(A,B),F = (distAF + distBF) / 2 = 8
A,B
C
4
D 6
E
6
F
8
C
D
E
6
6
8
4
8
8
dist(D,E),C = (distDC + distEC) / 2 = 6
dist(D,E),F = (distDF + distEF) / 2 = 8
Dist(D,E)(A,B)= (distD(AB) + distE(AB)) / 2 = 6
AB C
C
4
DE 6
6
F
8
8
DE
8
dist(ABC),F = (dist(AB)F + distCF) / 2 = 8
dist(ABC),(DE) = (dist(AB)(DE) + distC(DE)) / 2 = 6
AB,C
DE 6
F
8
DE
8
dist(ABC,DE)F = (dist(ABC)(F) + dist(DE)(F)) / 2 = 8
F
ABC,DE
8
B
C
D
E
F
A
2
4
6
6
8
B
C
D
E
4
6
6
8
6
6
8
4
8
8
Pero……
UPGMA is a weak clustering
algorithm
• Neighbor joining is more complicated
but better
• Other clustering algorithms available
(least squares, minimum evolution etc)
Maximum Parsimony
Identifica l’albero che richiede il minimo
numero di cambiamenti evolutivi per
spiegare le differenze osservate tra le
sequenze
Spesso non si può identificare un unico
albero
per grandi set di dati
esaustiva non è possibile
una
ricerca
Maximum Parsimony
Assunzioni implicite riguardo all’evoluzione,
i cambiamenti sono rari (la migliore
ipotesi è quella che richiede il minimo
numero di cambiamenti)
Tutti tipi di sostituzione avengono con la
stessa probibilità
Molto
sensibile
SOSTITUZIONI
a
SATURAZIONE
DI
Siti Informativi e non-informativi
1
2
3
1
2
1
2
4
3
4
4
3
Site
Sequ ence
1
2
3
4
1
2
3
4
5
G
G
G
G
G
A
A
A
C
G
T
T
A
C
G
T
G
G
A
A
6
T
T
T
T
7
C
C
T
T
8
C
C
C
C
9 10
A C
G C
A C
G C
Siti informativi sono quelli che ci permettono
distinguere tra alberi diversi sulla base di
quanti sostituzioni sono postulati.
Un sito informativo deve avere almeno due basi
diversi, e ciascuno di questi basi dev’essere
rappresentato almeno 2 volte
Site
Sequ ence
1
2
3
4
1
2
3
4
5
G
G
G
G
G
A
A
A
C
G
T
T
A
C
G
T
G
G
A
A
I
site 2
site 3
G
G
A
1
G
T
4
T
4
A3
G
A
C
T
A
2G
A
T3
1C
2C
site 9
A
1G
2
site 7
A3
1C
2
site 5
A
G
7
C
C
T
T
8
C
C
C
C
9 10
A C
G C
A C
G C
II
1G
2
6
T
T
T
T
G
A
4
1G
3
A
A2
A
T
T
T
1G
3
A
A
4
G2
T
4
G2
A
T3
1C
T4
3T T
A3
1A
G4
3A A
4 changes
A
1C
3
III
A
T
G
A
4
1G
4
A
A
A
1C
4
T
4
A
1C
T4
4T
G2
1A
G4
4G
A
3
G2
T
T
1G
C2
5 changes
A2
T
3
G2
A
A
A
3
C2
T
T
T3
G2
A
A
A3
6 changes
1
A
2
C
3
C
4
T
[A,C]
5
T
[C]
[C,T]
[T]
2 Cambiamenti
Siti Ancestrali
1
A
2
C
3
C
4
T
[A,C] - C
5
T
[C] - C
[C,T] - T
[T]
2 Cambiamenti
Analisi di parsimonia
• Dato un set di caratteri, ad esempio
delle sequenze allineate, l’analisi di
parsimonia determina l’adattamento
(numero di passaggi) di ciascun
carattere a un dato albero
• La somma dei cambiamenti per tutti
I caratteri è definita “Tree Length”
(TL, lunghezza dell’albero)
• Most parsimonious trees (MPTs, gli
alberi più parsimoniosi) sono quelli
che hanno TL minima
Risultati dell’analisi di
parsimonia
• Vengono prodotti uno o più MPTs
• Ipotesi riguardo all’evoluzione dei
caratteri associate ad ogni albero (dove e
quando sono avvenuti I cambiamenti)
• Lunghezze dei rami (branch lengths) =
numero di cambiamenti associati ai rami
• Alberi sub-ottimali - opzionali
Parsimonia -vantaggi
• Metodo semplice
• Sembra non dipendere da un modello
esplicito di evoluzione
• Produce sia alberi che ipotesi ad essi
associate dell’evoluzione dei caratteri
• Dovrebbe dare risultati accurati se I dati
sono ben strutturati e se l’omoplasia è
rara o ampiamente e casualmente
distribuita su tutto l’albero
Parsimonia -svantaggi
• Può produrre risultati fuorvianti se c’è omoplasia concentrata
in particolari parti dell’albero, per esempio:
- convergenza thermofilica
- bias nella composizione in basi
- long branch attraction (tassi di sostituzione non uguali tra
sequenze)
• Sottostima le lunghezze dei rami (saturazione)
• Il modello di evoluzione è implicito - il comportamento del
metodo non è del tutto chiaro
• Spesso giustificata da un punto di vista filosofico - dobbiamo
preferire le ipotesi più “semplici”
• Per molti sistematici molecolari questo argomento non è
convincente
Numero di alberi distinti in funzione del
numero di taxa
N taxa
N trees
10
2*106
22
3*1023
50
3*1074
100
2*10182
1000
2*102860
Trovare gli alberi ottimali soluzioni esatte
• Ricerca esaustiva
esamina tutti gli alberi
possibili
• Tipicamente usata per
problemi con meno di 10
taxa
Trovare gli alberi ottimali soluzioni euristiche
• Il numero di possibili alberi aumenta
esponenzialmente all’aumentare del
numero di taxa (esempio di problema
NP complete)
• Metodi euristici sono usati per
esplorare il “tree space” in cerca degli
alberi più parsimoniosi
• Non è garantito che gli alberi trovati
siano i più parsimoniosi
Trovare gli alberi ottimali soluzioni euristiche
• Branch Swapping:
Nearest neighbor interchange (NNI)
Subtree pruning and regrafting (SPR)
Tree bisection and reconnection (TBR)
Altri metodi....
Trovare gli alberi ottimali soluzioni euristiche
• Nearest neighbor interchange (NNI)
C
A
D
E
F
B
G
A
D
C
C
E
A
D
E
F
B
G
F
B
G
Trovare gli alberi ottimali soluzioni euristiche
• Subtree pruning and regrafting
(SPR)
A
C
D
E
F
B
G
C
D
E
C
F
G
E
F
G
B
D
A
Trovare gli alberi ottimali soluzioni euristiche
• Tree bisection and reconnection
(TBR) C D
E
A
F
B
G
A
E
A
C
B
G
F
D
F
B
G
D
C
E
Ricerche Euristiche
• In tutti casi, accetiamo un
riarrangemento se produce un
albero migliore di quello
precedente.
• Possiamo usare anche regole piu
complesse (accetiamo se non e
tanto peggio, e poi proviamo altre
riarrangementi)
• Facciamo “n” passi cosi (anche
usando, per es., x passi di NNI
dopo ogni passo di TBR)
Alberi ottimali multipli
• Parsimonia può generare piu di un
albero più parsimonioso
• Possiamo poi selezionare il
“migliore” con criteri addizionali
• Tipicamente relazioni comuni fra
tutti gli alberi ottimali vengono
riassunte in un albero consensus
Consensus methods
• Un albero consensus è una sintesi dei elementi
comuni fra un gruppo di alberi
• Ci sono vari metodi di consensus che differiscono
rispetto a:
– 1. Il tipo di accordo
– 2. Il livello di accordo
• Metodi consensus possono essere usati con alberi
multipli derivanti da un’unica analisi o da analisi
differenti
Majority rule consensus
A
B
C
D
E
F
G
Numbers indicate
frequency of
clades in the
fundamental trees
B
A
E
C
A
B
C
D
F
E
D
A
G
F
B
G
66
100
66
66
66
MAJORITY-RULE CONSENSUS TREE
C
E
D
F
G
Come valutare lo support per
un albero
• bootstrap:
– Selezionare colonne da un
allineamento multiplo con rimpiazzo
(resampling with replacement)
– Ricalcolare l’albero
– Ripetere 100-1000 volte (calcolare 1001000 nuovi alberi)
– Quanto spesso vediamo rami che
mettono insieme sequenze o gruppi di
sequenze?
Bootstrapping
• Costruire un nouvo set di dati con
lunghezza uguale a quello originale.
Colonne di caretteri vengono scelte
casualemente dal dataset originale
in modo tale che colonne orignali
possono essere presente piu di una
volta.
• Fare un’analisi filogenetica e
ricordare l’albero
• Tornare al capo 100 (1000) volte
The Bootstrap
Original
1
A C
B M
C M
2
C
A
C
3
V
V
L
4
K
R
R
5
V
L
L
2x
Scrambled
3
A V
B V
C L
4
K
R
R
3
V
V
L
6
I
I
L
7
Y
F
F
8
S
S
T
8
S
S
T
6
I
I
L
A
B
C
3x
8
S
S
T
6
I
I
L
6
I
I
L
A
B
C
Nonsupportive
Majority rule consensus
A
B
C
D
E
F
G
A
B
C
E
F
D
G A
A
B
B
E
C
C
E
D
D
F
G
66
100
Numbers indicate frequency of
clades in the fundamental trees
F
66
66
66
MAJORITY-RULE CONSENSUS TREE
G
Bootstrapping
• La concordanza fra gli alberi
prodotti viene rappresentata con
un albero “majority-rule
consensus”
• La frequenza con cui certi gruppi
compaiono, le proporzioni di
bootstrap (BPs), è una misura del
supporto dei gruppi stessi
• Informazioni addizionali sono
riportate nelle tabelle di partizione
Bootstrapping - an example
Ciliate SSUrDNA - bootstrap
123456789
Freq
----------------Symbiodinium (2)
100
.**...... 100.00
Prorocentrum (3) ...**....
100.00
.....**.. 100.00
Euplotes (8)
84
...****.. 100.00
Tetrahymena (9)
...******
95.50
Loxodes (4)
.......**
84.33
100
...****.*
11.83
Tracheloraphis
(5)
100
...*****.
3.83
Spirostomum (6) .*******.
2.50
100
.**....*.
1.00
Gruberia (7)
.**.....*
1.00
Majority-rule consensus
Ochromonas (1)
96
Partition Table
Bootstrap - interpretazione
• Purchè non ci siano evidenze di un
forte segnale di distorsione (per
esempio bias nella composione,
grandi differenze nelle lunghezze dei
rami), elevati BPs (> 85%) sono
indicativi di un segnale filogenetico
forte
• Bassi BPs non necessariamente
significano che la relazione
evidenziata è falsa, ma
semplicemente che non è fortemente
supportata
Bootstrap - interpretation
• le BP sono depende sul
numero di caratteri che sono
consistenti con un clade e il
livello di support per altri
relazioni.
• Ci fornicsono una stima
relativa per il grado di
support per un gruppo soto il
modello e metodo di analisi.
Seaview
http://pbil.univ-lyon1.fr/software/seaview.html
PHYLIP
• http://evolution.genetics.wa
shington.edu/phylip.html
NJPlot
http://pbil.univlyon1.fr/software/njplot.html
Maximum Likelihood
Maximum likelihood
• Try to identify the tree and model of
substitution that MAXIMIZES the
probability of observing the data (the
alignment)
Cos’è la probabilità di
osservare un dato?
• lanciamo una moneta, viene testa. Se assumiamo che si
tratti di una moneta “onesta”, la probabilità di avere testa
dovrebbe essere 0.5.
• Se invece pensiamo che questa moneta dia testa nell’80%
dei lanci, la probabilità di avere questo risultato dovrebbe
essere 0.8!
• QUINDI: La probabilità dipende dal modello!
p
=?
Lezione: I dati rimangano
costanti, il cambiamento è
nel modello. Nela caso del
secondo modello, la
probabilità e più alta.
MASSIMA VEROSIMGLIANZE OBIETIVO
• Stimare la probabilità di osservare i dati, dato
un albero filogenetico e un modello che
descrive il processo dell’evoluzione.
Probability of
(
given
p  a,c,g,t
a b

b a

c e

d c
c
e
a
f
d

f 

g

a
)
Una regola…la regola dell’1
• la somma delle probabilità di tutte le
possibilità è SEMPRE uguale a 1.
• Es. per DNA p(a)+p(c)+p(g)+p(t)=1
Cos’è la probabilità di vedere
un nucleotide 'G'?
• Domanda:Data una sequenza di lunghezza 1, il
nucleotide “G”, qual’è la probabilità dei dati?
• Soluzione: Dipende dal modello dell’evoluzione
(composizione).
• E.g.
– Model 1: frequenza di G = 0.4 => likelihood(G) = 0.4
– Model 2: frequenza di G = 0.1 => likelihood(G) =0.1
– Model 3: frequenza di G = 0.25 => likelihood(G) = 0.25
Per sequenze più lunghe?
• Consideriamo un gene con lunghezza 2:
Gene 1:
ga
• La probabilità di osservare questo gene è il
prodotto delle probabilità di osservare ogni
base.
• Es.
– p(g) = 0.4; p(a)=0.15 (per es)
– probabilità(ga) = 0.4 x 0.15 = 0.06
…e così via per
sequenze più lunghe
• Gene 1: gactagctagacagatacgaattac
• Model (di frequenza di basi):
– p(a)=0.15; p(c)=0.2; p(g)=0.4; p(t)=0.25;
– (La somma di tutte probabiltà dev’essere 1)
Prob(Gene 1) = 0.000000000000000018452813
(anche la somma di probabilità di tutti geni =1
Considerazioni sui modelli
• Possiamo vedere che il nostro modello non
è quello ottimale per I dati osservati. Se
avessimo usato questo modello:
• p(a)=0.4; p(c) =0.2; p(g)= 0.2; p(t) = 0.2;
La probabilità sarebbe stata:
Prob(gene 1) = 0.000000000000335544320000
(un valore quasi 10,000 volte più alto)
Lezione: I dati rimangano
costanti, il cambiamento è
nel modello. Nel caso del
secondo modello, la
probabilità e più alta.
In quale modo si riferiscono queste
considerazioni agli alberi filogenetici?
• Consideriamo un allineamento di 2 sequenze:
– Gene 1: gaac
– Gene 2: gacc
• Facciamo l’assunzione che questi geni sono
imparentati da un albero semplice con lunghezze
di rami.
Aumentare la complessità del
modello
• In questo caso, non è possibile usare un modello che
descrive solo la composizione. Dobbiamo includere il
meccanismo di sostituzione.
• Ci sono due parti in questo modello: l’albero e il processo
(il processo è spesso chiamato “il modello”), in realtà il
modello è composto sia dal processo che dall’albero.
NB: Per evitare altra confusione, manteniamo la terminologia confusa.
Il modello
• Le due parti del modello sono: l’albero e il processo (il
modello).
• Il modello è composto dalla composizione e dal processo di
sostituzione (I tassi di varie sostituzioni).
Modello =
+
a b

b a

c e

d c
c
e
a
f
d

f 

g

a
p  a,c,g,t
Un modello “time-reversible”
semplice
• Un modello semplice dice che la probabilità di una sostituzione
da a a c (o vice versa) è 0.4, la composizione (p) a è 0.25 e la
composizione (p) c è 0.25
 . 0.4 . .


0.4 . . .


 .
. . .


. . .
 .
P=
p  0.25 0.25 . .
Probabilità della terza posizione
del nostro allineamento
–Gene ancestrale: gaac
–Gene derivata: gacc
pa c  0.4
• p(a) =0.25; p(c) = 0.25;
Se cominciamo con A, la probabilità di questo nucleotide
è 0.25, mentre la probabilità della sua sostituzione
con C è 0.4. Quindi, la probabilità di osservare questi
dati è:
*probabilità(D|M) = 0.25 x 0.4 =0.01
*La probabilità dei dati, dato il modello.
Diverse lungezze di rami
• Per rami corti, la probabilità che un carattere rimanga
uguale è alta, la probabilità che venga sostituito è bassa
(secondo la nostra matrice)
• Per rami più lunghi, la probabilità di cambiamento dovrebbe
essere più alta.
• I calcoli precedenti sono basati sull’assunzione che la
lunghezza del ramo descrive UNA Certain Evolutionary
Distance or CED.
• Se volessimo considerare un ramo con lunghezza 2CED,
potremmo moltiplicare la matrice per se stessa (matrice2).
Per valori più alti di CED units
1
2
3
10
15
20
30
0.0000300
0.0000559
0.0000782
0.0001620
0.0001770
0.0001750
0.0001520
P
r
o
b
a
b
i
l
i
t
à
0
10
20
30
40
Lunghezza del ramo