Slides 4 - Sito dei docenti di Unife

METODI DI MASSIMA VEROSIMIGLIANZA
• Si basano sul concetto statistico di verosimiglianza
• (il cui massimo diventa il criterio per questi metodi)
• Assumono che
tutti i siti evolvono in maniera indipendente
tutti i rami evolvono in maniera indipendente
• Il modello di evoluzione deve essere esplicito
Verosimiglianza di un ipotesi = L (Likelihood)
Probabilità di osservare i dati D se è vera l’ipotesi H
L (H|D) =Prob(D|H) = P(D|H)
[ Il modello specifica la funzione P(D|H) ]
L’ipotesi che possiede la maggiore L, ossia il maggior valore di
verosimiglianza, è quella da preferire.
Supponiamo di lanciare una moneta e ottenere testa. La
probabilità di osservare i dati (la moneta caduta con il lato testa
verso l’alto) varia con le ipotesi che posso fare sulla moneta
stessa.
Se la moneta ha una testa e una croce, ed è equilibrata
P(D|H1) =0.5
Se la moneta ha due teste
P(D|H2) =1
DIVERSE IPOTESI POSSONO DETERMINARE GRANDI
VARIAZIONI SULLA PROBABILITA’ DI OSSERVARE I DATI
Lanciamo ora una moneta 10 volte e cerchiamo di
stimare la probabilità di ottenere testa in un
singolo lancio
H = ipotesi sul valore che assume la probabilità di osservare
testa nel lancio di una moneta
D = risultato ottenuto dal lancio di 10 monete, ossia sequenza
di teste e croci
Modello: probabilità attesa di ottenere i dati, ossia la sequenza
di teste e croci osservate in 10 lanci, se la probabilità di
ottenere testa in un singolo lancio è p
D = TCCTCCCCCT
P(D|H) = P(D|p) = p(1-p)(1-p)p(1-p)(1-p)(1-p)(1-p)(1-p)p
= p3(1-p)7 = L (p|D)
Rappresento questa funzione (o il suo logaritmo, lnP) per diversi
valori di p ( = diverse ipotesi sul valore p). Il massimo di questa
funzione individua il valore di p di massima verosimiglianza, cioè
l’ipotesi che riguarda p che preferisco.
[ lnP(D|H), in questo caso lnP(D|p),
= lnL(H|D), in questo caso lnL(p|D) ]
0.0025
L(p|D)
0.002
0.0015
0.001
0.0005
0
0
0.2
0.4
0.6
0.8
1
0.8
1
p
0
0
0.2
0.4
0.6
L(p|D)
-5
-10
-15
-20
-25
p
A volte, se la funzione di likelihood è semplice, posso
trovare il massimo derivando ed uguagliando a 0.
lnL = 3ln(p) + 7ln(1-p)
d(lnL)/dp = 3/p +7/(1-p) = 0
Stima di p = 3/10
Altrimenti provo tanti valori di p e scelgo quello che
produce il valore più alto di verosimiglianza
… e per riscostruire filogenesi?
D = sequenze
H = topologia e lunghezza dei rami
Modello = modello evolutivo di sostituzione
Devo trovare la topologia (con lunghezza dei rami) che
massimizza la probabilità di generare le sequenze che osservo,
cioè l’albero con la massima verosimiglianza
(likelihood)
Attenzione a non confondere likelihood con probabilità. La
likelihood di un albero non è la probabilità che un albero sia
quello vero [P(H|D)], ma la probabilità che quell’albero abbia
originato i dati che osserviamo [P(D|H) = L(H|D)].
• Le probabilità sommano sempre a 1, non le likelihood
• Il calcolo delle P(H|D) si fanno con metodi bayesiani, non
di massima verosimiglianza
Se la moneta ha una testa e una croce, ed è equilibrata
P(D|H1) =0.5
Se la moneta ha due teste
P(D|H2) =1
La somma non fa 1! (E la somma delle probabilità di tutti i dati possibili, fissata H, che fa 1)
Probabilità a priori dell’ipotesi
P(D|H) P(H)
(Teorema di Bayes)
P(H|D) =
P(D)
Se P(H1) = 0.9 e P(H2) = 0.1, allora
Probabilità a posteriori dell’ipotesi
P(D|H1)P(H1) = 0.45 e P(D|H2)P(H2) = 0.1
Siccome P(D) non varia con le diverse ipotesi, posso
ottenere le probabilità a posteriori standardizzando:
P(H1|D) = 0.45/0.55 = 0.82 P(H2|D) = 0.1/0.55 =0.18
A
t1
X
t3
C
t2
A
∑ P( A, A, C , X | T )
P(D|H) = P(D|T) =
Tutti X
se X = A
se X = C
se X = T
se X = G
P(A|A,t1)*P(A|A,t2)*P(C|A,t3)
P(A|C,t1)*P(A|C,t2)*P(C|C,t3)
P(A|T,t1)*P(A|T,t2)*P(C|T,t3)
P(A|G,t1)*P(A|G,t2)*P(C|G,t3)
Per i vari t (lunghezza dei rami) si parte di solito da valori plausibili per poi modificarli
Gradualmente, ottenendo per ogni topologia i valori dei vari t che massimizzano la
verosimiglianza
P(D|T) =
∑∑∑∑ P( A, C, C , C , G, x, y, z, w | T ) =
x
y
z
w
∑∑∑∑ P( x) P( y | x, t6 ) P( A | y, t1 ) P(C | y, t 2).....
x
y
z
w
Sono i vari modelli di evoluzione molecolare (il più
semplice è il modello di Jukes e Cantor, ma che come
gia’ detto possono considerare che certe mutazioni sono
più frequenti di altre, che certi siti sono più mutabili di
altri, etc.) che ci danno le funzioni di probabilità.
Le cose, quindi, si fanno piuttosto complesse… e per di
più dobbiamo valutare la likelihood di moltissimi alberi
per determinare quello che possiede il valore maggiore
(di likelihood, appunto). Attenzione ai massimi locali!!
Vantaggi
• Utilizzano tutti i dati (non solo i siti informativi!)
• Permettono di testare statisticamente diverse ipotesi
• Sono spesso superiori a gli altri metodi (se il modello
evolutivo non è troppo diverso dalla realtà)
• Permettono di confrontare diversi modelli evolutivi sulla
base di un albero prefissato (problemi di circolarità??)
Svantaggi
• Problemi se il modello è scorretto
• Posso utilizzarlo solo con poche OTUs
ROOTING: TROVARE LA RADICE DI UN ALBERO
•Mid-point: a metà del ramo più lungo che unisce due OTU
- Assumo tassi approssimativamente costanti
• Outgroup: utilizzo un gruppo “esterno” alla filogenesi
che sto analizzando
- Assumo che l’outgroup si sia separato prima di tutti
gli altri
- La divergenza dell’outgroup non deve essere né
troppo piccola né troppo grande
Assessing Phylogenetic Hypotheses
and Phylogenetic Data
• We use numerical phylogenetic methods because
most data includes potentially misleading
evidence of relationships
• We should not be content with constructing
phylogenetic hypotheses but should also assess
what ‘confidence’ we can place in our hypotheses
Bootstrapping
• Bootstrapping is a modern statistical
technique that uses computer intensive
random resampling of data to determine
sampling error or confidence intervals for
some estimated parameter
Bootstrapping
• Characters are resampled with replacement to
create many bootstrap replicate data sets
• Each bootstrap replicate data set is analysed (e.g.
with parsimony, distance, ML)
• Agreement among the resulting trees is
summarized with a majority-rule consensus tree
• Frequency of occurrence of groups, bootstrap
proportions (BPs), is a measure of support for
those groups
Bootstrapping
Dati originali
Dati ricampionati
Characters
Taxa 1 2 3 4 5 6 7 8
A
RRYYYYYY
B
RRYYYYYY
C
YYYYYR R R
D
YYRR R R R R
Outg R R R R R R R R
Characters
Taxa 1 2 2 5 5 6 6 8
A
RRRYYYYY
B
RRRYYYYY
C
YYYYYR R R
D
YYYR R R R R
Outg R R R R R R R R
Randomly resample characters from the original data
with replacement to build many bootstrap replicate
data sets of the same size as the original - analyse each
replicate data set
A
B
C
1
2
8
7
6
D
1
2
5
4
3
B
A
C
A
B
C
D
D
96 %
5
5
8
6
6
Summarise the results of
multiple analyses with a
majority-rule consensus tree
Bootstrap proportions (BPs)
are the frequencies with
which groups are
encountered in analyses of
replicate data sets
2
66 %
2
1
Outgroup
Outgroup
Outgroup
Bootstrap - interpretation
• High BPs (e.g. >85%) is indicative of strong signal in
the data
• Provided we have no evidence of strong misleading
signal (e.g. base composition biases, great differences in
branch lengths) high BPs are likely to reflect strong
phylogenetic signal
• Low BPs need not mean the relationship is false! Its just
poorly supported
Quale metodo utilizzare?
Confronto tra metodi basato su
• dati veri dei quali si conosce l’albero
• dati simulati
Entrambi i tipi di studi non portano a conclusioni definitive:
analisi su alberi “noti” sono molto rare, studi di simulazione
possono coprire solo una parte delle possibile situazioni
In generale, NJ e MP sono simili, o meglio ognuno
leggermente meglio dell’altro in situazioni diverse. ML tende
ad essere quello che ritrova più frequentemente, nelle
condizioni considerate da questi studi, la vera filogenesi.
Spesso si utilizzano tutti i metodi e si considera “robusto” un
raggruppamento quando viene identificato da tutti i metodi
Comparing competing phylogenetic
hypotheses - tests of two trees
• Particularly useful techniques are those designed
to allow evaluation of alternative phylogenetic
hypotheses
• Several such tests allow us to determine if one
tree is statistically significantly worse than
another:
Winning sites test, Templeton test, Kishino-Hasegawa
test,
Shimodaira-Hasegawa test, parametric bootstrapping
Tests of two trees
• All these tests are of the null hypothesis that the
differences between two trees (A and B) are no
greater than expected from sampling error
• The simplest ‘winning sites’ test sums the number
of sites supporting tree A over tree B and vice
versa (those having fewer steps on, and better fit
to, one of the trees)
• Under the null hypothesis characters are equally
likely to support tree A or tree B and a binomial
distribution gives the probability of the observed
difference in numbers of winning sites