METODI DI MASSIMA VEROSIMIGLIANZA • Si basano sul concetto statistico di verosimiglianza • (il cui massimo diventa il criterio per questi metodi) • Assumono che tutti i siti evolvono in maniera indipendente tutti i rami evolvono in maniera indipendente • Il modello di evoluzione deve essere esplicito Verosimiglianza di un ipotesi = L (Likelihood) Probabilità di osservare i dati D se è vera l’ipotesi H L (H|D) =Prob(D|H) = P(D|H) [ Il modello specifica la funzione P(D|H) ] L’ipotesi che possiede la maggiore L, ossia il maggior valore di verosimiglianza, è quella da preferire. Supponiamo di lanciare una moneta e ottenere testa. La probabilità di osservare i dati (la moneta caduta con il lato testa verso l’alto) varia con le ipotesi che posso fare sulla moneta stessa. Se la moneta ha una testa e una croce, ed è equilibrata P(D|H1) =0.5 Se la moneta ha due teste P(D|H2) =1 DIVERSE IPOTESI POSSONO DETERMINARE GRANDI VARIAZIONI SULLA PROBABILITA’ DI OSSERVARE I DATI Lanciamo ora una moneta 10 volte e cerchiamo di stimare la probabilità di ottenere testa in un singolo lancio H = ipotesi sul valore che assume la probabilità di osservare testa nel lancio di una moneta D = risultato ottenuto dal lancio di 10 monete, ossia sequenza di teste e croci Modello: probabilità attesa di ottenere i dati, ossia la sequenza di teste e croci osservate in 10 lanci, se la probabilità di ottenere testa in un singolo lancio è p D = TCCTCCCCCT P(D|H) = P(D|p) = p(1-p)(1-p)p(1-p)(1-p)(1-p)(1-p)(1-p)p = p3(1-p)7 = L (p|D) Rappresento questa funzione (o il suo logaritmo, lnP) per diversi valori di p ( = diverse ipotesi sul valore p). Il massimo di questa funzione individua il valore di p di massima verosimiglianza, cioè l’ipotesi che riguarda p che preferisco. [ lnP(D|H), in questo caso lnP(D|p), = lnL(H|D), in questo caso lnL(p|D) ] 0.0025 L(p|D) 0.002 0.0015 0.001 0.0005 0 0 0.2 0.4 0.6 0.8 1 0.8 1 p 0 0 0.2 0.4 0.6 L(p|D) -5 -10 -15 -20 -25 p A volte, se la funzione di likelihood è semplice, posso trovare il massimo derivando ed uguagliando a 0. lnL = 3ln(p) + 7ln(1-p) d(lnL)/dp = 3/p +7/(1-p) = 0 Stima di p = 3/10 Altrimenti provo tanti valori di p e scelgo quello che produce il valore più alto di verosimiglianza … e per riscostruire filogenesi? D = sequenze H = topologia e lunghezza dei rami Modello = modello evolutivo di sostituzione Devo trovare la topologia (con lunghezza dei rami) che massimizza la probabilità di generare le sequenze che osservo, cioè l’albero con la massima verosimiglianza (likelihood) Attenzione a non confondere likelihood con probabilità. La likelihood di un albero non è la probabilità che un albero sia quello vero [P(H|D)], ma la probabilità che quell’albero abbia originato i dati che osserviamo [P(D|H) = L(H|D)]. • Le probabilità sommano sempre a 1, non le likelihood • Il calcolo delle P(H|D) si fanno con metodi bayesiani, non di massima verosimiglianza Se la moneta ha una testa e una croce, ed è equilibrata P(D|H1) =0.5 Se la moneta ha due teste P(D|H2) =1 La somma non fa 1! (E la somma delle probabilità di tutti i dati possibili, fissata H, che fa 1) Probabilità a priori dell’ipotesi P(D|H) P(H) (Teorema di Bayes) P(H|D) = P(D) Se P(H1) = 0.9 e P(H2) = 0.1, allora Probabilità a posteriori dell’ipotesi P(D|H1)P(H1) = 0.45 e P(D|H2)P(H2) = 0.1 Siccome P(D) non varia con le diverse ipotesi, posso ottenere le probabilità a posteriori standardizzando: P(H1|D) = 0.45/0.55 = 0.82 P(H2|D) = 0.1/0.55 =0.18 A t1 X t3 C t2 A ∑ P( A, A, C , X | T ) P(D|H) = P(D|T) = Tutti X se X = A se X = C se X = T se X = G P(A|A,t1)*P(A|A,t2)*P(C|A,t3) P(A|C,t1)*P(A|C,t2)*P(C|C,t3) P(A|T,t1)*P(A|T,t2)*P(C|T,t3) P(A|G,t1)*P(A|G,t2)*P(C|G,t3) Per i vari t (lunghezza dei rami) si parte di solito da valori plausibili per poi modificarli Gradualmente, ottenendo per ogni topologia i valori dei vari t che massimizzano la verosimiglianza P(D|T) = ∑∑∑∑ P( A, C, C , C , G, x, y, z, w | T ) = x y z w ∑∑∑∑ P( x) P( y | x, t6 ) P( A | y, t1 ) P(C | y, t 2)..... x y z w Sono i vari modelli di evoluzione molecolare (il più semplice è il modello di Jukes e Cantor, ma che come gia’ detto possono considerare che certe mutazioni sono più frequenti di altre, che certi siti sono più mutabili di altri, etc.) che ci danno le funzioni di probabilità. Le cose, quindi, si fanno piuttosto complesse… e per di più dobbiamo valutare la likelihood di moltissimi alberi per determinare quello che possiede il valore maggiore (di likelihood, appunto). Attenzione ai massimi locali!! Vantaggi • Utilizzano tutti i dati (non solo i siti informativi!) • Permettono di testare statisticamente diverse ipotesi • Sono spesso superiori a gli altri metodi (se il modello evolutivo non è troppo diverso dalla realtà) • Permettono di confrontare diversi modelli evolutivi sulla base di un albero prefissato (problemi di circolarità??) Svantaggi • Problemi se il modello è scorretto • Posso utilizzarlo solo con poche OTUs ROOTING: TROVARE LA RADICE DI UN ALBERO •Mid-point: a metà del ramo più lungo che unisce due OTU - Assumo tassi approssimativamente costanti • Outgroup: utilizzo un gruppo “esterno” alla filogenesi che sto analizzando - Assumo che l’outgroup si sia separato prima di tutti gli altri - La divergenza dell’outgroup non deve essere né troppo piccola né troppo grande Assessing Phylogenetic Hypotheses and Phylogenetic Data • We use numerical phylogenetic methods because most data includes potentially misleading evidence of relationships • We should not be content with constructing phylogenetic hypotheses but should also assess what ‘confidence’ we can place in our hypotheses Bootstrapping • Bootstrapping is a modern statistical technique that uses computer intensive random resampling of data to determine sampling error or confidence intervals for some estimated parameter Bootstrapping • Characters are resampled with replacement to create many bootstrap replicate data sets • Each bootstrap replicate data set is analysed (e.g. with parsimony, distance, ML) • Agreement among the resulting trees is summarized with a majority-rule consensus tree • Frequency of occurrence of groups, bootstrap proportions (BPs), is a measure of support for those groups Bootstrapping Dati originali Dati ricampionati Characters Taxa 1 2 3 4 5 6 7 8 A RRYYYYYY B RRYYYYYY C YYYYYR R R D YYRR R R R R Outg R R R R R R R R Characters Taxa 1 2 2 5 5 6 6 8 A RRRYYYYY B RRRYYYYY C YYYYYR R R D YYYR R R R R Outg R R R R R R R R Randomly resample characters from the original data with replacement to build many bootstrap replicate data sets of the same size as the original - analyse each replicate data set A B C 1 2 8 7 6 D 1 2 5 4 3 B A C A B C D D 96 % 5 5 8 6 6 Summarise the results of multiple analyses with a majority-rule consensus tree Bootstrap proportions (BPs) are the frequencies with which groups are encountered in analyses of replicate data sets 2 66 % 2 1 Outgroup Outgroup Outgroup Bootstrap - interpretation • High BPs (e.g. >85%) is indicative of strong signal in the data • Provided we have no evidence of strong misleading signal (e.g. base composition biases, great differences in branch lengths) high BPs are likely to reflect strong phylogenetic signal • Low BPs need not mean the relationship is false! Its just poorly supported Quale metodo utilizzare? Confronto tra metodi basato su • dati veri dei quali si conosce l’albero • dati simulati Entrambi i tipi di studi non portano a conclusioni definitive: analisi su alberi “noti” sono molto rare, studi di simulazione possono coprire solo una parte delle possibile situazioni In generale, NJ e MP sono simili, o meglio ognuno leggermente meglio dell’altro in situazioni diverse. ML tende ad essere quello che ritrova più frequentemente, nelle condizioni considerate da questi studi, la vera filogenesi. Spesso si utilizzano tutti i metodi e si considera “robusto” un raggruppamento quando viene identificato da tutti i metodi Comparing competing phylogenetic hypotheses - tests of two trees • Particularly useful techniques are those designed to allow evaluation of alternative phylogenetic hypotheses • Several such tests allow us to determine if one tree is statistically significantly worse than another: Winning sites test, Templeton test, Kishino-Hasegawa test, Shimodaira-Hasegawa test, parametric bootstrapping Tests of two trees • All these tests are of the null hypothesis that the differences between two trees (A and B) are no greater than expected from sampling error • The simplest ‘winning sites’ test sums the number of sites supporting tree A over tree B and vice versa (those having fewer steps on, and better fit to, one of the trees) • Under the null hypothesis characters are equally likely to support tree A or tree B and a binomial distribution gives the probability of the observed difference in numbers of winning sites