Filogenesi Molecolare Schema della lezione Introduzione a evoluzione e filogenesi Nomenclatura degli alberi Le cinque fasi della filogenesi molecolare: 1) la selezione delle sequenze 2) allineamento multiplo di sequenze 3) modelli di sostituzione 4) costruzione dell'albero 5) albero di valutazione Approccio pratico alla creazione degli alberi Introduzione Charles Darwin nel suo libro del 1859 (On the Origin of Species By Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life) ha introdotto la teoria dell'evoluzione. Per Darwin, la lotta per l'esistenza induce una naturale selezione. Le nuove generazioni sono dissimili dai loro genitori (cioè, la variabilità esiste), e gli individui che sono più adatti per un dato ambiente sono selezionati. In questo modo, in lunghi periodi di tempo, le specie si evolvono. Gruppi di organismi cambiano nel tempo in modo che i discendenti differiscono strutturalmente e funzionalmente dai loro antenati. Introduzione A livello molecolare, l'evoluzione è un processo di mutazione e successiva selezione. L’ evoluzione molecolare è lo studio delle variazioni nei geni e proteine in tutti i diversi rami dell’albero della vita. La filogenesi è l'inferenza di relazioni evolutive. Tradizionalmente, la filogenesi era basata sul confronto delle caratteristiche morfologiche fra gli organismi. Oggi, anche i dati molecolari delle sequenze vengono utilizzati per l’analisi filogenetica. Teoria neutrale dell'evoluzione Spesso si assume che, così come per gli organismi anche il DNA e le proteine vengano selezionate o contro-selezionate secondo la selezione naturale. Secondo Motoo Kimura (1924-1994), e la sua teoria neutrale dell’evoluzione molecolare (1968), la stragrande maggioranza dei cambiamenti del DNA non sono selezionati in senso darwiniano. La causa principale del cambiamento evolutivo è la deriva casuale di alleli mutanti che sono selettivamente neutre (o quasi). La selezione darwiniana positiva si verifica, ma ha un ruolo limitato. Obiettivi della filogenesi molecolare La filogenesi può rispondere a domande quali: • Quanti geni sono legati al mio gene preferito? • Come sono connessi balene, delfini e focene alle mucche? • Dove e quando l'HIV o altri virus sono comparsi? • Qual è la storia della vita sulla terra? • Il quagga, oggi estinto, era più simile a una zebra o a un cavallo? Il quagga, oggi estinto, era più simile a una zebra o a un cavallo? Ipotesi dell'orologio molecolare Nel 1960, i dati di sequenza sono stati accumulati per piccole proteine abbondanti come globine, citocromi c, e fibrinopeptidi. OSSERVAZIONE: alcune proteine sembrano evolvere lentamente, mentre altre si sono evolute rapidamente. Linus Pauling, Emanuel Margoliash e altri hanno proposto l'ipotesi di un orologio molecolare: Per ogni proteina, il tasso di evoluzione molecolare è approssimativamente costante in tutti le linee evolutive consente di stimare il tempo trascorso dal momento in cui si è verificata divergenza tra 2 specie Ad esempio, Richard Dickerson (1971) ha tracciato i dati da tre famiglie di proteine: citocromo c, emoglobina e fibrinopeptidi. Cambiamenti di aminoacidi Corretti per 100 residui (m) L'asse x mostra i tempi di divergenza della specie, stimati dai dati paleontologici. L’asse y mostra il valore m: il numero di cambiamenti di amminoacido corretto per 100 residui. N è il numero osservato dei cambiamenti di amminoacidi per 100 residui, che è corretto così che m tenga conto di cambiamenti che si verificano, ma non vengono osservati. N = 1 - e- (m/100) 100 Milioni di anni dalla divergenza N è il numero osservato dei cambiamenti di amminoacidi per 100 residui, che è corretto così che m tenga conto di cambiamenti che si verificano, ma non vengono osservati. N = 1 - e- (m/100) 100 Ipotesi dell'orologio molecolare:conclusioni Dickerson ha tratto le seguenti conclusioni: • Per ciascuna proteina, i dati si trovano su una linea retta. • Quindi, il tasso di sostituzione aminoacidica è rimasto costante per ogni proteina. • Il tasso medio di variazione è diverso per ogni proteina. • Il tempo per una variazione dell'1% tra due linee di evoluzione è di 20 MY (citocromo c), 5.8 MY (Emoglobina), e 1.1 MY (fibrinopeptidi). • Le variazioni osservate nel tasso di cambio riflette vincoli funzionali imposti dalla selezione naturale. Orologio molecolare per le proteine: tasso di sostituzioni per sito per 10^9 anni Fibrinopeptidi Kappa caseina Lattoalbumina All'albumina sierica Lisozima Tripsina Insulina Citocromo c Istone H2B Ubiquitina Istone H4 9,0 3,3 2,7 1,9 0,98 0,59 0,44 0,22 0,09 0,010 0,010 Ipotesi dell’orologio molecolare: implicazioni Se sequenze di proteine si evolvono a tassi costanti, possono essere utilizzate per stimare il tempo trascorso dalla loro divergenza. Questo è analogo a datare campioni geologici per decadimento radioattivo. Schema della lezione Introduzione a evoluzione e filogenesi Nomenclatura degli alberi Le cinque fasi della filogenesi molecolare: 1) la selezione delle sequenze 2) allineamento multiplo di sequenze 3) modelli di sostituzione 4) costruzione dell'albero 5) albero di valutazione Approccio pratico alla creazione degli alberi Filogenesi molecolare: nomenclatura degli alberi Un albero e’ definito da due informazioni: topologia e lunghezze dell’albero (somma della lunghezza dei rami). Un albero e’ un grafico formato da nodi e rami. Ora descriveremo le parti di un albero. Nomenclatura degli alberi Nodo (intersezione o punto finale di due o più rami) Ramo (arco) 2 A 1 I 2 1 1 G B H 2 1 6 1 2 C 2 D B C 2 1 E A 2 F D 6 una unità E tempo La filogenesi molecolare è usata per tracciare gli alberi evolutivi delle relazioni tra organismi. Questi alberi sono basati su dati di sequenza nucleotidici o proteici. 2 A 1 I 2 1 1 G B H 2 1 6 1 2 C 2 D B C 2 1 E A 2 F D 6 una unità E tempo Gli alberi, se opportunamente disegnati, danno informazioni sulle distanze e sui tempi evolutivi. Nomenclatura degli alberi I rami sono non in scala ... 2 I rami sono in scala ... A 1 I 2 1 1 G B H 2 1 6 1 2 C 2 D B C 2 1 E A 2 F D 6 una unità E tempo ... I nodi riflettono il tempo …La lunghezza dei rami è proporzionale al numero di aminoacidi che cambiano Sono due rappresentazioni alternative, dipende da cosa si vuole comunicare... Nomenclatura degli alberi taxon taxon 2 A F 1 I 2 1 1 G B 2 H 1 6 1 2 C 2 D B C 2 1 E A 2 D 6 una unità E tempo Un taxon (plurale taxa), o unità tassonomica, è un raggruppamento di organismi reali, distinguibili morfologicamente e geneticamente da altri e riconoscibili come unità sistematica. I taxa si posizionano all'interno di una struttura gerarchica nella classificazione scientifica. Nomenclatura degli alberi Unità operativa tassonomica (OTU) ad esempio una sequenza proteica (sequenza di una proteina o gene di interesse) taxon 2 A 1 I 2 1 1 G B H 2 1 6 1 2 C 2 D B C 2 1 E A 2 F D 6 una unità E tempo Nomenclatura degli alberi: cladi Un clade è un gruppo tassonomico di organismi costituito da un antenato singolo comune e tutti i discendenti comuni a quell'antenato. Clade ABF (gruppo monofiletico) 2 F 1 I 2 A 1 B G H 2 1 6 C D E tempo Nomenclatura degli alberi: cladi 2 A F 1 I 2 1 G B H 2 1 6 C D E tempo Clade CDH Nomenclatura degli alberi: cladi Clade ABF / CDH / G 2 A F 1 I 2 1 G B H 2 1 6 C D E tempo Esempi di cladi Lindblad-Toh et al. Nature 438: 803 (2005), fig. 10 Radici di albero La radice di un albero filogenetico rappresenta l’antenato comune delle sequenze. Alcuni alberi sono senza radice, e quindi non si specifica l’antenato comune. Un albero può essere radicato con un outgroup (cioè un taxon noto per essere significativamente distante da tutte le altre OTU). Nomenclatura degli alberi: radici passato 9 1 7 5 8 6 2 presente 1 7 3 4 2 5 Albero radicato (Specifica un percorso evolutivo) 6 3 8 4 Albero senza radici Nomenclatura degli alberi: radici Un radice può essere impostata aggiungendo un outgroup passato root 9 10 7 8 7 6 2 presente 1 9 8 3 4 2 5 1 3 4 5 6 Outgroup Albero radicato (Utilizzato per posizionare la radice) Enumerazione degli alberi Cavalli-Sforza e Edwards (1967) hanno derivato il numero di possibili alberi senza radici (NU) Per n OTU (n > 3): NU = (2n-5)! 2n-3(n-3)! Il numero di alberi radicati biforcati (NR) e’ invece dato da: NR = (2n-3)! 2n-2(n-2)! Per 10 OTU (ad esempio 10 sequenze di DNA o proteine), il numero di possibili alberi radicati è 34 milioni, e il numero di alberi senza radici è 2 milioni. Molti algoritmi di costruzione di alberi possono esaminare ogni possibile albero fino a 1012 sequenze. Numeri di alberi possibili: estremamente grande per più di 10 sequenze Numero di OTU 2 3 4 5 10 20 Numero di alberi radicati 1 3 15 105 34,459,425 8 x 1021 Numero di alberi senza radici 1 1 3 15 105 2 x 1020 Le cinque fasi dell'analisi filogenetica 1) La selezione delle sequenze per l'analisi 2) allineamento multiplo di sequenze 3) La definizione della distanza 4) Costruzione dell'albero 5) Valutazione dell'albero Fase 1: Uso di DNA, RNA o proteine Per alcuni studi filogenetici, può essere preferibile utilizzare proteine invece di sequenze di DNA. Abbiamo visto che, nell’allineamento a coppie e in BLAST, le sequenze proteiche sono spesso più informative del DNA. Fase 1: Uso di DNA, RNA o proteine Per la filogenesi, il DNA può essere più informativo. - La porzione codificante proteine del DNA può subire mutazioni sinonime o non sinonime. Dunque, alcune variazioni sul DNA possono non tradursi in variazioni proteiche. -Le regioni non codificanti (ad esempio regioni 5‘ e 3' non tradotte) possono essere analizzate con la filogenesi molecolare, così come gli pseudogeni (geni non funzionali) - I tassi di transizioni e trasversioni possono essere misurati. Transizioni: purine (A Trasversioni: pirimidine G) o pirimidine (C purine T) sostituzioni Fase 1: Uso di DNA, RNA o proteine Per la filogenesi, anche le sequenze di proteine sono utilizzate spesso. -Le proteine hanno 20 componenti (amminoacidi) anziché solo quattro come il DNA le sequenze di proteine offrono un più lungo tempo di "look-back“: allineare una proteina umana con quella di una pianta significa andare indietro di 1.5 miliardi di anni Le cinque fasi dell'analisi filogenetica 1) La selezione delle sequenze per l'analisi 2) allineamento multiplo di sequenze 3) La definizione della distanza 4) Costruzione dell'albero 5) Valutazione dell'albero Fase 2: Allineamento multiplo di sequenze La base fondamentale di un albero filogenetico è un allineamento multiplo di sequenze. Il più grosso errore che si possa fare è sbagliare questo punto. (Se c'è un disallineamento, o se una sequenza non omologa è inclusa nell'allineamento, sarà ancora possibile generare un albero! Ma sarà un albero privo di senso) Le cinque fasi dell'analisi filogenetica 1) La selezione delle sequenze per l'analisi 2) allineamento multiplo di sequenze 3) La definizione della distanza 4) Costruzione dell'albero 5) Valutazione dell'albero Fase 3. Metodi per costruire alberi: la distanza L'approccio più semplice per misurare le distanze tra le sequenze è: 1. allineare coppie di sequenze 2. contare il numero di differenze. Il grado di divergenza è chiamato Distanza di Hamming (p-distance). Per una allineamento di lunghezza N con n siti ai quali vi sono differenze, il grado di divergenza D è semplicemente: D=n/N Fase 3. Metodi per costruire alberi: la distanza L'approccio più semplice per misurare le distanze tra le sequenze è: 1. allineare coppie di sequenze 2. contare il numero di differenze. Il grado di divergenza è chiamato Distanza di Hamming (p-distance). Per una allineamento di lunghezza N con n siti ai quali vi sono differenze, il grado di divergenza D è semplicemente: D=n/N Vi sono anche altri metodi, come quelli che usano la correzione di Poisson utile a stimare la componente probabilistica degli eventi evolutivi. Fase 3. Metodi per costruire alberi: la distanza Un altro approccio alternativo alla distanza di Hamming è la distanza di Kimura per le sequenza aminoacidiche (usata anche in MUSCLE): d = - ln ( 1 – p – 0,2p^2 ) d: distanza p: frazione di AA diversi Empiricamente si è osservato che si tratta di una buona stima per sequenza non troppo divergenti (p<=0,7) Le cinque fasi dell'analisi filogenetica 1) La selezione delle sequenze per l'analisi 2) allineamento multiplo di sequenze 3) La definizione della distanza 4) Costruzione dell'albero 5) Valutazione dell'albero Fase 4: Metodi per costruire alberi Discuteremo due metodi di costruzione di un albero: 1. in base alla distanza 2. in base alle sequenze. I metodi basati sulla distanza comportano l’utilizzo di una metrica di distanza, come il numero di cambiamenti di aminoacidi tra le sequenze, o un punteggio di distanza. Esempi di algoritmi basati sulla distanza sono UPGMA e neighbor-joining. Fase 4: Metodi per costruire alberi Discuteremo due metodi albero di costruzione: 1. in base alla distanza 2. in base alle sequenze. I metodi basati sulle sequenze prevedono delle valutazioni più approfondite sulle sequenze (posizioni delle sostituzioni, distribuzione e velocità dei cambiamenti, ecc); includono la massima parsimonia (maximum parsimony), la massima verosimiglianza (maximum likelyhood) e gli approcci bayesiani. La maximum parsimony comporta la ricerca dell'albero con il minor numero di modifiche tra gli amminoacidi (nucleotidi) che spieghino le differenze osservate tra i taxa. Fase 4: Metodi per costruire alberi Ci concentreremo su due metodi basati sulle distanze, UPGMA e Neighbor Joining Metodi per costruire alberi: UPGMA UPGMA sta per: unweighted pair group method using arithmetic mean 1 2 3 4 5 Metodi per costruire alberi: UPGMA Fase 1: calcolare le distanze a coppie di tutte le le proteine. 1 2 3 4 5 Metodi per costruire alberi: UPGMA Fase 2: trova le due proteine con la più piccola distanza a coppie. Raggruppale. Creato il nuovo punto (6), si ricalcolano tutte le distanze tra esso e le altre sequenze/gruppo, semplicemente come media delle distanze tra i componenti del cluster e la sequenza/gruppo 1 2 6 3 4 5 1 2 Si utilizza un nuovo numero (6) per non confondere il cluster con le altre sequenze Metodi per costruire alberi: UPGMA Fase 3: Ripeti il passo precedente. Trova le prossime due proteine con la più piccola distanza a coppie. Raggruppale. Potrebbe capitare di raggruppare una sequenza a un cluster o raggruppare due cluster. 1 2 3 4 6 5 1 7 2 4 5 Metodi per costruire alberi: UPGMA Fase 4: Prosegui. Crea nuovi cluster unendo sequenze e altri cluster in base alla distanza. 1 8 2 7 6 3 4 5 1 2 4 5 3 Metodi per costruire alberi: UPGMA Fase 5: ultimo cluster! Questo è il vostro albero. 9 1 2 8 7 3 6 4 5 1 2 4 5 3 Metodi basati sulla distanza: alberi UPGMA UPGMA è un approccio semplice per fare gli alberi. • Un albero UPGMA è sempre radicato. • Un presupposto dell'algoritmo è che l’orologio molecolare sia costante per le sequenze nella struttura. Se i tassi di sostituzione fossero disuguali, l‘albero potrebbe essere errato. • UPGMA è semplice, ma è meno accurato rispetto all’approccio neighbhor-joining (descritto di seguito). Di fatto si usa raramente nella creazione di alberi filogenetici. Il metodo neighbor-joining Il metodo neighbor-joining di Saitou e Nei (1987) è particolarmente utile per fare alberi con un gran numero di taxa. 1) Si inizia mettendo tutti i taxa in una struttura a stella. 2) Definiamo inoltre delle distanze tra i nodi che immettiamo in una matrice di distanza. Il metodo neighbor-joining • L’algoritmo si basa sull’assunzione che l’albero sia additivo. • Ad esempio per l’albero in figura: La distanza tra A e B sarà pari alla somma della distanza tra A e X e tra B e X. Definizioni • Dij viene definito come la distanza tra le foglie i e j (es.: A e B) è la distanza contenuta nella matrice di distanza • Llm viene definita come la somma delle lunghezze dei rami tra il nodo l e il nodo m. Il metodo neighbor-joining 1. 2. 3. 4. 5. Prendiamo i 2 nodi più vicini (nearest neighbors). Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le distanze nella matrice di distanza (i nodi A e B vengono rimossi) Computiamo la distanza per i rami che sono stati uniti (A-X, B-X) Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento. Il metodo neighbor-joining 1. 2. 3. 4. 5. Prendiamo i 2 nodi più vicini (nearest neighbors). Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le distanze nella matrice di distanza (i nodi A e B vengono rimossi) Computiamo la distanza per i rami che sono stati uniti (A-X, B-X) Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento. Come calcolo quali sono i 2 nearest neighbor • Vengono definiti nearest neighbors la coppia di nodi che producono la somma totale (Slm) di tutti i rami minima. • Ad esempio, nell’albero in figura: Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Come faccio a calcolare Sab?? Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie LXY = DAC Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie LXY = DAC + DAD Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie LXY = DAC + DAD + DAE Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie LXY = DAC + DAD + DAE + DBC Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie LXY = DAC + DAD + DAE + DBC + DBD Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Lxy può essere calcolato come la somma di tutte le distanze tra i due neighbor e le altre foglie LXY = DAC + DAD + DAE + DBC + DBD + DBE Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Ho sommato tutte le distanza da A o B verso E,D e C LXY = DAC + DAD + DAE + DBC + DBD + DBE Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) Sono passato 3 volte nel percorso A--X e B--X Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc) Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc) Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc) Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc) Sono passato 2 volte da in ciascuno dei 3 rami Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più LXY = 1/6 * [DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc)] Poiché sono passato 6 volte su X—Y andando da A e B verso C,D,E divido tutto per 6. Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più (LaX + LbX) = DAB Come calcolo quali sono i 2 nearest neighbor Sab = LXY + (LaX + LbX) + (Le + Ld + Lc) Una volta sommate tutte le distanze dai 2 neighbor agli altri nodi rimuovo i rami in più (Le + Ld + Lc) = 1/2* (DCD+DCE+DDE) Passo 2 volte su ogni ramo Come calcolo quali sono i 2 nearest neighbor Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di neighbor che mi danno la somma totale Slm minima. Stima della nuova matrice di distanze Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di neighbor che mi danno la somma totale Slm minima. Il metodo neighbor-joining 1. 2. 3. 4. 5. Prendiamo i 2 nodi più vicini (nearest neighbors). Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le distanze nella matrice di distanza (i nodi A e B vengono rimossi) Computiamo la distanza per i rami che sono stati uniti (A-X, B-X) Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento. Calcolo delle nuove distanze Dobbiamo calcolare la distanza tra il nuovo nodo X creato e il resto delle foglie dell’albero. La distanza del nodo X (in seguito indicato AB) da una foglia j sarà pari a alla media delle distanze dei 2 neighbor dalla foglia j: D(AB)j = (D1j + D2j)/2 Calcolo delle nuove distanze Nella matrice di distanza vengono rimosse le righe/colonne di A e B e vengono introdotte una nuova riga e colonna relativa alle distanze da X. In totale la matrice si riduce di una riga/colonna Il metodo neighbor-joining 1. 2. 3. 4. 5. Prendiamo i 2 nodi più vicini (nearest neighbors). Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le distanze nella matrice di distanza (i nodi A e B vengono rimossi) Computiamo la distanza per i rami che sono stati uniti (A-X, B-X) Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento. Calcolo della lunghezza dei rami dei 2 nearest neighbor Come si calcola la lunghezza dei rami? Se A e B sono vicini, si ha che LAX=(DAB+DAZ-DBZ)/2 LBX=(DAB+DBZ-DAZ)/2 Dove DAZ = (DAC+ DAD+ DAE)/3 Dove DBZ = (DBC+ DBD+ DBE)/3 Z rappresenta jil gruppo di tutte le foglie eccetto A e B Z Calcolo della lunghezza dei rami dei 2 nearest neighbor Come si calcola la lunghezza dei rami? Se A e B sono vicini, si ha che Fare alberi utilizzando neighbor-joining 4) Infine si ottiene l’albero con la minima lunghezza secondo il metodo: Esempio di un albero neighbor-joining: analisi filogenetica di 13 RBPs Il NJ produce un albero senza radice. La radice potrà essere posta: • sul ramo interno più lungo • con una sequenza esterna. Le cinque fasi dell'analisi filogenetica 1) La selezione delle sequenze per l'analisi 2) allineamento multiplo di sequenze 3) La definizione della distanza 4) Costruzione dell'albero 5) Valutazione dell'albero Fase 5: Valutazione di alberi: bootstrapping Il bootstrap è un approccio comunemente utilizzato per misurare la robustezza della topologia di un albero. Dato un ordine di ramificazione, quanto frequentemente un algoritmo trova una data soluzione a partire da diverse versioni casualmente permutate del set di dati originale? Fase 5: Valutazione di alberi: bootstrapping Il bootstrap è un approccio comunemente utilizzato per misurare la robustezza della topologia di un albero. Dato un ordine di ramificazione, quanto frequentemente un algoritmo trova una data soluzione a partire da diverse versioni casualmente permutate del set di dati originale? Operativamente: • Creare una serie di dati artificiali, ottenuti da un campionamento casuale delle colonne dal MSA originale, con la stessa dimensione dell'originale. • Ripeti per 100 (o 1000) volte. • Osservare la percentuale dei casi in cui la divisione in cladi nella struttura originale è confermata dalle repliche di test. Valori > 70% (50%) sono considerati significativi. Nel 61% dei bootstrap, ssrbp e btrbp (RBP di maiale e mucca) hanno formato una clade distinta. Nel 39% dei casi, un'altra proteina si è unita alla clade (ecrbp ad esempio), o uno di queste due sequenze si è fusa in un’altra clade. Il formato Newick Utile per la descrizione della topologia di un albero: le coppie di sequenze collegate allo stesso nodo sono racchiuse tra parentesi tonde. La descrizione termina con “;” CLADOGRAMMA: le lunghezze dei rami non sono definite FILOGRAMMA: le lunghezze dei sono riportate con una sintassi che sfrutta i “:” Portale Mobyle@Pasteur E’ un portale per analisi bioinformatiche online http://mobyle.pasteur.fr/cgi-bin/portal.py#welcome Portale Mobyle@Pasteur Ha diverse sezioni interattive e integrate distinte per colore Form interattivi dei diversi programmi disponibili Programmi disponibili Risultati e processi in corso sottomessi al sito Portale Mobyle@Pasteur Il menu di sinistra ha una struttura ad albero Programmi per i MSA Form interattivi dei diversi programmi disponibili Programmi per l’analisi filogenetica Portale Mobyle@Pasteur Richiede un login Portale Mobyle@Pasteur Include tool per il MSA Portale Mobyle@Pasteur I risultati sono presentati in diversi formati Sezione dei risultati MSA in formato CLUSTAL Portale Mobyle@Pasteur Propone un percorso per la creazione di alberi Portale Mobyle@Pasteur Con il MSA si calcola una matrice delle distanze Si noti la presenza di più finestre per gestire diversi processi Portale Mobyle@Pasteur La matrice può poi essere usata come input per il calcolo di un albero filogenetico Si noti la presenza di più finestre per gestire diversi processi Alternativa a Mobyle@Pasteur:Phylogeny.fr Un sito simile che offre tool online, più semplice ma meno ricco Tool per l’analisi filogenetica Phylogeny.fr Un sito simile che offre tool online, più semplice ma meno ricco Programmi disponbili per l’analisi Phylogeny.fr Dal menu per la Phylogeny analysis si accede a diverse modalità La modalità più dettagliata detta “à la carte” Ottimo strumento di visualizzazione