Nomenclatura degli alberi

Filogenesi
Molecolare
Schema della lezione
Introduzione a evoluzione e filogenesi
Nomenclatura degli alberi
Le cinque fasi della filogenesi molecolare:
1) la selezione delle sequenze
2) allineamento multiplo di sequenze
3) modelli di sostituzione
4) costruzione dell'albero
5) albero di valutazione
Approccio pratico alla creazione degli alberi
Introduzione
Charles Darwin nel suo libro del 1859 (On the Origin of Species
By Means of Natural Selection, or the Preservation of Favoured Races
in the Struggle for Life) ha introdotto la teoria dell'evoluzione.
Per Darwin, la lotta per l'esistenza induce una naturale
selezione. Le nuove generazioni sono dissimili dai loro
genitori (cioè, la variabilità esiste), e gli individui che sono
più adatti per un dato ambiente sono selezionati. In questo
modo, in lunghi periodi di tempo, le specie si evolvono.
Gruppi di organismi cambiano nel tempo in modo che i
discendenti differiscono strutturalmente e funzionalmente
dai loro antenati.
Introduzione
A livello molecolare, l'evoluzione è un processo di
mutazione e successiva selezione.
L’ evoluzione molecolare è lo studio delle variazioni nei
geni e proteine in tutti i diversi rami dell’albero della vita.
La filogenesi è l'inferenza di relazioni evolutive.
Tradizionalmente, la filogenesi era basata sul confronto
delle caratteristiche morfologiche fra gli organismi. Oggi,
anche i dati molecolari delle sequenze vengono utilizzati
per l’analisi filogenetica.
Teoria neutrale dell'evoluzione
Spesso si assume che, così come per gli organismi anche il
DNA e le proteine vengano selezionate o contro-selezionate
secondo la selezione naturale.
Secondo Motoo Kimura (1924-1994), e la sua teoria neutrale
dell’evoluzione molecolare (1968), la stragrande maggioranza
dei cambiamenti del DNA non sono selezionati in senso
darwiniano. La causa principale del cambiamento evolutivo è
la deriva casuale di alleli mutanti che sono selettivamente
neutre (o quasi). La selezione darwiniana positiva si verifica,
ma ha un ruolo limitato.
Obiettivi della filogenesi molecolare
La filogenesi può rispondere a domande quali:
• Quanti geni sono legati al mio gene preferito?
• Come sono connessi balene, delfini e focene alle
mucche?
• Dove e quando l'HIV o altri virus sono comparsi?
• Qual è la storia della vita sulla terra?
• Il quagga, oggi estinto, era più simile a una zebra o
a un cavallo?
Il quagga, oggi estinto, era più simile a una zebra
o a un cavallo?
Ipotesi dell'orologio molecolare
Nel 1960, i dati di sequenza sono stati accumulati per
piccole proteine abbondanti come globine, citocromi c, e
fibrinopeptidi.
OSSERVAZIONE: alcune proteine sembrano evolvere
lentamente, mentre altre si sono evolute rapidamente.
Linus Pauling, Emanuel Margoliash e altri hanno proposto
l'ipotesi di un orologio molecolare:
Per ogni proteina, il tasso di evoluzione molecolare è
approssimativamente costante in tutti le linee evolutive 
consente di stimare il tempo trascorso dal momento in cui
si è verificata divergenza tra 2 specie
Ad esempio, Richard Dickerson (1971) ha tracciato i dati da tre famiglie di
proteine: citocromo c, emoglobina e fibrinopeptidi.
Cambiamenti di aminoacidi
Corretti per 100 residui (m)
L'asse x mostra i tempi di divergenza della specie, stimati dai dati
paleontologici. L’asse y mostra il valore m: il numero di cambiamenti di
amminoacido corretto per 100 residui.
N è il numero
osservato dei
cambiamenti di
amminoacidi per 100
residui, che è corretto
così che m tenga
conto di
cambiamenti che si
verificano, ma non
vengono osservati.
N = 1 - e- (m/100)
100
Milioni di anni dalla divergenza
N è il numero
osservato dei
cambiamenti di
amminoacidi per 100
residui, che è corretto
così che m tenga
conto di
cambiamenti che si
verificano, ma non
vengono osservati.
N = 1 - e- (m/100)
100
Ipotesi dell'orologio molecolare:conclusioni
Dickerson ha tratto le seguenti conclusioni:
• Per ciascuna proteina, i dati si trovano su una linea retta.
• Quindi, il tasso di sostituzione aminoacidica è rimasto
costante per ogni proteina.
• Il tasso medio di variazione è diverso per ogni proteina.
• Il tempo per una variazione dell'1% tra due linee di
evoluzione è di 20 MY (citocromo c), 5.8 MY (Emoglobina),
e 1.1 MY (fibrinopeptidi).
• Le variazioni osservate nel tasso di cambio riflette vincoli
funzionali imposti dalla selezione naturale.
Orologio molecolare per le proteine:
tasso di sostituzioni per sito per 10^9 anni
Fibrinopeptidi
Kappa caseina
Lattoalbumina
All'albumina sierica
Lisozima
Tripsina
Insulina
Citocromo c
Istone H2B
Ubiquitina
Istone H4
9,0
3,3
2,7
1,9
0,98
0,59
0,44
0,22
0,09
0,010
0,010
Ipotesi dell’orologio molecolare: implicazioni
Se sequenze di proteine si evolvono a tassi
costanti, possono essere utilizzate per
stimare il tempo trascorso dalla loro
divergenza. Questo è analogo a datare
campioni geologici per decadimento
radioattivo.
Schema della lezione
Introduzione a evoluzione e filogenesi
Nomenclatura degli alberi
Le cinque fasi della filogenesi molecolare:
1) la selezione delle sequenze
2) allineamento multiplo di sequenze
3) modelli di sostituzione
4) costruzione dell'albero
5) albero di valutazione
Approccio pratico alla creazione degli alberi
Filogenesi molecolare: nomenclatura
degli alberi
Un albero e’ definito da due informazioni:
topologia e lunghezze dell’albero (somma
della lunghezza dei rami).
Un albero e’ un grafico formato da nodi e
rami. Ora descriveremo le parti di un albero.
Nomenclatura degli alberi
Nodo (intersezione
o punto finale di
due o più rami)
Ramo
(arco)
2
A
1
I
2
1
1
G
B
H 2
1
6
1
2
C
2
D
B
C
2
1
E
A
2
F
D
6
una unità
E
tempo
La filogenesi molecolare è usata per tracciare gli
alberi evolutivi delle relazioni tra organismi. Questi
alberi sono basati su dati di sequenza nucleotidici o
proteici.
2
A
1
I
2
1
1
G
B
H 2
1
6
1
2
C
2
D
B
C
2
1
E
A
2
F
D
6
una unità
E
tempo
Gli alberi, se opportunamente disegnati, danno
informazioni sulle distanze e sui tempi evolutivi.
Nomenclatura degli alberi
I rami sono non in scala ...
2
I rami sono in scala ...
A
1
I
2
1
1
G
B
H 2
1
6
1
2
C
2
D
B
C
2
1
E
A
2
F
D
6
una unità
E
tempo
... I nodi riflettono il
tempo
…La lunghezza dei rami è
proporzionale al numero di
aminoacidi che cambiano
Sono due rappresentazioni alternative, dipende da cosa si vuole comunicare...
Nomenclatura degli alberi
taxon
taxon
2
A
F
1
I
2
1
1
G
B
2
H
1
6
1
2
C
2
D
B
C
2
1
E
A
2
D
6
una unità
E
tempo
Un taxon (plurale taxa), o unità tassonomica, è un raggruppamento di
organismi reali, distinguibili morfologicamente e geneticamente da altri e
riconoscibili come unità sistematica. I taxa si posizionano all'interno di una
struttura gerarchica nella classificazione scientifica.
Nomenclatura degli alberi
Unità operativa
tassonomica (OTU)
ad esempio una sequenza proteica
(sequenza
di una proteina o gene di interesse)
taxon
2
A
1
I
2
1
1
G
B
H 2
1
6
1
2
C
2
D
B
C
2
1
E
A
2
F
D
6
una unità
E
tempo
Nomenclatura degli alberi: cladi
Un clade è un gruppo tassonomico di organismi costituito da un antenato
singolo comune e tutti i discendenti comuni a quell'antenato.
Clade ABF (gruppo monofiletico)
2
F
1
I
2
A
1
B
G
H 2
1
6
C
D
E
tempo
Nomenclatura degli alberi: cladi
2
A
F
1
I
2
1
G
B
H 2
1
6
C
D
E
tempo
Clade CDH
Nomenclatura degli alberi: cladi
Clade ABF / CDH / G
2
A
F
1
I
2
1
G
B
H 2
1
6
C
D
E
tempo
Esempi di cladi
Lindblad-Toh et al. Nature 438:
803 (2005), fig. 10
Radici di albero
La radice di un albero filogenetico rappresenta l’antenato
comune delle sequenze. Alcuni alberi sono senza radice, e
quindi non si specifica l’antenato comune.
Un albero può essere radicato con un outgroup (cioè un
taxon noto per essere significativamente distante da tutte le
altre OTU).
Nomenclatura degli alberi: radici
passato
9
1
7
5
8
6
2
presente
1
7
3 4
2
5
Albero radicato
(Specifica un
percorso evolutivo)
6
3
8
4
Albero senza radici
Nomenclatura degli alberi: radici
Un radice può essere impostata aggiungendo un
outgroup
passato
root
9
10
7
8
7
6
2
presente
1
9
8
3 4
2
5
1
3 4
5
6
Outgroup
Albero radicato
(Utilizzato per posizionare la
radice)
Enumerazione degli alberi
Cavalli-Sforza e Edwards (1967) hanno derivato il numero di
possibili alberi senza radici (NU) Per n OTU (n > 3):
NU =
(2n-5)!
2n-3(n-3)!
Il numero di alberi radicati biforcati (NR) e’ invece dato da:
NR =
(2n-3)!
2n-2(n-2)!
Per 10 OTU (ad esempio 10 sequenze di DNA o proteine), il
numero di possibili alberi radicati è 34 milioni, e il numero di
alberi senza radici è 2 milioni. Molti algoritmi di costruzione
di alberi possono esaminare ogni possibile albero fino a 1012 sequenze.
Numeri di alberi possibili:
estremamente grande per più di 10 sequenze
Numero di
OTU
2
3
4
5
10
20
Numero di alberi
radicati
1
3
15
105
34,459,425
8 x 1021
Numero di alberi
senza radici
1
1
3
15
105
2 x 1020
Le cinque fasi dell'analisi filogenetica
1) La selezione delle sequenze per l'analisi
2) allineamento multiplo di sequenze
3) La definizione della distanza
4) Costruzione dell'albero
5) Valutazione dell'albero
Fase 1: Uso di DNA, RNA o proteine
Per alcuni studi filogenetici, può essere preferibile utilizzare
proteine invece di sequenze di DNA. Abbiamo visto che,
nell’allineamento a coppie e in BLAST, le sequenze
proteiche sono spesso più informative del DNA.
Fase 1: Uso di DNA, RNA o proteine
Per la filogenesi, il DNA può essere più informativo.
- La porzione codificante proteine del DNA può subire mutazioni
sinonime o non sinonime. Dunque, alcune variazioni sul DNA
possono non tradursi in variazioni proteiche.
-Le regioni non codificanti (ad esempio regioni 5‘ e 3' non
tradotte) possono essere analizzate con la filogenesi
molecolare, così come gli pseudogeni (geni non funzionali)
- I tassi di transizioni e trasversioni possono essere misurati.
Transizioni: purine (A
Trasversioni: pirimidine
G) o pirimidine (C
purine
T) sostituzioni
Fase 1: Uso di DNA, RNA o proteine
Per la filogenesi, anche le sequenze di proteine sono
utilizzate spesso.
-Le proteine hanno 20 componenti (amminoacidi) anziché
solo quattro come il DNA
 le sequenze di proteine offrono un più lungo tempo di
"look-back“: allineare una proteina umana con quella di una
pianta significa andare indietro di 1.5 miliardi di anni
Le cinque fasi dell'analisi filogenetica
1) La selezione delle sequenze per l'analisi
2) allineamento multiplo di sequenze
3) La definizione della distanza
4) Costruzione dell'albero
5) Valutazione dell'albero
Fase 2: Allineamento multiplo di sequenze
La base fondamentale di un albero filogenetico è un
allineamento multiplo di sequenze. Il più grosso errore che si
possa fare è sbagliare questo punto.
(Se c'è un disallineamento, o se una sequenza non omologa è
inclusa nell'allineamento, sarà ancora possibile generare un
albero! Ma sarà un albero privo di senso)
Le cinque fasi dell'analisi filogenetica
1) La selezione delle sequenze per l'analisi
2) allineamento multiplo di sequenze
3) La definizione della distanza
4) Costruzione dell'albero
5) Valutazione dell'albero
Fase 3. Metodi per costruire alberi: la
distanza
L'approccio più semplice per misurare le distanze tra le
sequenze è:
1. allineare coppie di sequenze
2. contare il numero di differenze.
Il grado di divergenza è chiamato Distanza di Hamming
(p-distance). Per una allineamento di lunghezza N con n
siti ai quali vi sono differenze, il grado di divergenza D è
semplicemente:
D=n/N
Fase 3. Metodi per costruire alberi: la
distanza
L'approccio più semplice per misurare le distanze tra le
sequenze è:
1. allineare coppie di sequenze
2. contare il numero di differenze.
Il grado di divergenza è chiamato Distanza di Hamming
(p-distance). Per una allineamento di lunghezza N con n
siti ai quali vi sono differenze, il grado di divergenza D è
semplicemente:
D=n/N
Vi sono anche altri metodi, come quelli che usano la
correzione di Poisson utile a stimare la componente
probabilistica degli eventi evolutivi.
Fase 3. Metodi per costruire alberi: la
distanza
Un altro approccio alternativo alla distanza di Hamming
è la distanza di Kimura per le sequenza aminoacidiche
(usata anche in MUSCLE):
d = - ln ( 1 – p – 0,2p^2 )
d: distanza
p: frazione di AA diversi
Empiricamente si è osservato che si tratta di una buona
stima per sequenza non troppo divergenti (p<=0,7)
Le cinque fasi dell'analisi filogenetica
1) La selezione delle sequenze per l'analisi
2) allineamento multiplo di sequenze
3) La definizione della distanza
4) Costruzione dell'albero
5) Valutazione dell'albero
Fase 4: Metodi per costruire alberi
Discuteremo due metodi di costruzione di un albero:
1. in base alla distanza
2. in base alle sequenze.
I metodi basati sulla distanza comportano l’utilizzo di una
metrica di distanza, come il numero di cambiamenti di
aminoacidi tra le sequenze, o un punteggio di distanza.
Esempi di algoritmi basati sulla distanza sono UPGMA e
neighbor-joining.
Fase 4: Metodi per costruire alberi
Discuteremo due metodi albero di costruzione:
1. in base alla distanza
2. in base alle sequenze.
I metodi basati sulle sequenze prevedono delle valutazioni più
approfondite sulle sequenze (posizioni delle sostituzioni,
distribuzione e velocità dei cambiamenti, ecc); includono la
massima parsimonia (maximum parsimony), la massima
verosimiglianza (maximum likelyhood) e gli approcci
bayesiani.
La maximum parsimony comporta la ricerca dell'albero con il
minor numero di modifiche tra gli amminoacidi (nucleotidi) che
spieghino le differenze osservate tra i taxa.
Fase 4: Metodi per costruire alberi
Ci concentreremo su due metodi basati sulle distanze,
UPGMA e Neighbor Joining
Metodi per costruire alberi: UPGMA
UPGMA sta per:
unweighted pair group method
using arithmetic mean
1
2
3
4
5
Metodi per costruire alberi: UPGMA
Fase 1: calcolare le distanze a coppie di tutte le
le proteine.
1
2
3
4
5
Metodi per costruire alberi: UPGMA
Fase 2: trova le due proteine con la più piccola
distanza a coppie. Raggruppale.
Creato il nuovo punto (6), si ricalcolano tutte le distanze tra
esso e le altre sequenze/gruppo, semplicemente come
media delle distanze tra i componenti del cluster e la
sequenza/gruppo
1
2
6
3
4
5
1
2
Si utilizza un
nuovo numero
(6) per non
confondere il
cluster con le
altre sequenze
Metodi per costruire alberi: UPGMA
Fase 3: Ripeti il passo precedente. Trova le prossime
due proteine con la più piccola distanza a coppie.
Raggruppale.
Potrebbe capitare di raggruppare una sequenza a un cluster o
raggruppare due cluster.
1
2
3
4
6
5
1
7
2
4
5
Metodi per costruire alberi: UPGMA
Fase 4: Prosegui. Crea nuovi cluster unendo
sequenze e altri cluster in base alla distanza.
1
8
2
7
6
3
4
5
1
2
4
5
3
Metodi per costruire alberi: UPGMA
Fase 5: ultimo cluster! Questo è il vostro albero.
9
1
2
8
7
3
6
4
5
1
2
4
5
3
Metodi basati sulla distanza: alberi UPGMA
UPGMA è un approccio semplice per fare gli alberi.
• Un albero UPGMA è sempre radicato.
• Un presupposto dell'algoritmo è che l’orologio molecolare sia
costante per le sequenze nella struttura. Se i tassi di
sostituzione fossero disuguali, l‘albero potrebbe essere errato.
• UPGMA è semplice, ma è meno accurato rispetto
all’approccio neighbhor-joining (descritto di seguito). Di fatto si
usa raramente nella creazione di alberi filogenetici.
Il metodo neighbor-joining
Il metodo neighbor-joining di
Saitou e Nei (1987) è
particolarmente utile per fare
alberi con un gran numero di
taxa.
1) Si inizia mettendo tutti i taxa in
una struttura a stella.
2) Definiamo inoltre delle
distanze tra i nodi che
immettiamo in una matrice di
distanza.
Il metodo neighbor-joining
• L’algoritmo si basa
sull’assunzione che
l’albero sia additivo.
• Ad esempio per
l’albero in figura:
La distanza tra A e B
sarà pari alla somma
della distanza tra A e X
e tra B e X.
Definizioni
• Dij viene definito come
la distanza tra le foglie i
e j (es.: A e B)  è la
distanza contenuta nella
matrice di distanza
• Llm viene definita come
la somma delle
lunghezze dei rami tra
il nodo l e il nodo m.
Il metodo neighbor-joining
1.
2.
3.
4.
5.
Prendiamo i 2 nodi più vicini (nearest neighbors).
Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi
Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le
distanze nella matrice di distanza (i nodi A e B vengono rimossi)
Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)
Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.
Il metodo neighbor-joining
1.
2.
3.
4.
5.
Prendiamo i 2 nodi più vicini (nearest neighbors).
Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi
Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le
distanze nella matrice di distanza (i nodi A e B vengono rimossi)
Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)
Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.
Come calcolo quali sono i 2 nearest
neighbor
• Vengono definiti
nearest neighbors la
coppia di nodi che
producono la somma
totale (Slm) di tutti i
rami minima.
• Ad esempio, nell’albero
in figura:
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Come faccio a calcolare Sab??
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
LXY = DAC
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
LXY = DAC + DAD
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
LXY = DAC + DAD + DAE
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
LXY = DAC + DAD + DAE + DBC
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
LXY = DAC + DAD + DAE + DBC + DBD
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Lxy può essere calcolato
come la somma di tutte le
distanze tra i due
neighbor e le altre foglie
LXY = DAC + DAD + DAE + DBC + DBD + DBE
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Ho sommato tutte le
distanza da A o B verso
E,D e C
LXY = DAC + DAD + DAE + DBC + DBD + DBE
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)
Sono passato 3 volte nel percorso A--X e B--X
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)
-2 (Le + Ld + Lc)
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)
-2 (Le + Ld + Lc)
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)
-2 (Le + Ld + Lc)
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX)
-2 (Le + Ld + Lc)
Sono passato 2 volte da in ciascuno dei 3 rami
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
LXY = 1/6 * [DAC + DAD + DAE + DBC + DBD + DBE -3 (LaX + LbX) -2 (Le + Ld + Lc)]
Poiché sono passato 6 volte su X—Y andando da A e B verso
C,D,E divido tutto per 6.
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
(LaX + LbX) = DAB
Come calcolo quali sono i 2 nearest
neighbor
Sab = LXY + (LaX + LbX) + (Le + Ld + Lc)
Una volta sommate tutte
le distanze dai 2 neighbor
agli altri nodi rimuovo i
rami in più
(Le + Ld + Lc) = 1/2* (DCD+DCE+DDE)
Passo 2 volte su ogni ramo
Come calcolo quali sono i 2 nearest
neighbor
Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di
neighbor che mi danno la somma totale Slm minima.
Stima della nuova matrice di distanze
Testando tutte le coppie (AB, AC, AD, …) identifico la coppia di
neighbor che mi danno la somma totale Slm minima.
Il metodo neighbor-joining
1.
2.
3.
4.
5.
Prendiamo i 2 nodi più vicini (nearest neighbors).
Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi
Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le
distanze nella matrice di distanza (i nodi A e B vengono rimossi)
Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)
Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.
Calcolo delle nuove distanze
Dobbiamo calcolare la distanza tra il nuovo nodo X creato e il
resto delle foglie dell’albero.
La distanza del nodo X (in seguito indicato AB) da una foglia j
sarà pari a alla media delle distanze dei 2 neighbor dalla foglia j:
D(AB)j = (D1j + D2j)/2
Calcolo delle nuove distanze
 Nella matrice di distanza vengono rimosse le
righe/colonne di A e B e vengono introdotte una
nuova riga e colonna relativa alle distanze da X.
In totale la matrice si riduce di una riga/colonna
Il metodo neighbor-joining
1.
2.
3.
4.
5.
Prendiamo i 2 nodi più vicini (nearest neighbors).
Definiamo un nuovo nodo X tra i due vicini e il resto dei nodi
Computiamo una distanza tra il nodo X e il resto dei nodi e immettiamo le
distanze nella matrice di distanza (i nodi A e B vengono rimossi)
Computiamo la distanza per i rami che sono stati uniti (A-X, B-X)
Ripetiamo la procedura con i seguenti 2 nodi più vicini fino ad esaurimento.
Calcolo della lunghezza dei rami dei 2
nearest neighbor
Come si calcola la lunghezza dei rami?
Se A e B sono vicini, si ha che
LAX=(DAB+DAZ-DBZ)/2
LBX=(DAB+DBZ-DAZ)/2
Dove DAZ = (DAC+ DAD+ DAE)/3
Dove DBZ = (DBC+ DBD+ DBE)/3
Z rappresenta jil gruppo di tutte le foglie eccetto A e B
Z
Calcolo della lunghezza dei rami dei 2
nearest neighbor
Come si calcola la lunghezza dei rami?
Se A e B sono vicini, si ha che
Fare alberi utilizzando neighbor-joining
4) Infine si ottiene l’albero con la minima
lunghezza secondo il metodo:
Esempio di un albero
neighbor-joining:
analisi filogenetica di
13 RBPs
Il NJ produce un albero senza
radice. La radice potrà essere
posta:
• sul ramo interno più lungo
• con una sequenza esterna.
Le cinque fasi dell'analisi filogenetica
1) La selezione delle sequenze per l'analisi
2) allineamento multiplo di sequenze
3) La definizione della distanza
4) Costruzione dell'albero
5) Valutazione dell'albero
Fase 5: Valutazione di alberi: bootstrapping
Il bootstrap è un approccio comunemente utilizzato per
misurare la robustezza della topologia di un albero.
Dato un ordine di ramificazione, quanto frequentemente un
algoritmo trova una data soluzione a partire da diverse
versioni casualmente permutate del set di dati originale?
Fase 5: Valutazione di alberi: bootstrapping
Il bootstrap è un approccio comunemente utilizzato per
misurare la robustezza della topologia di un albero.
Dato un ordine di ramificazione, quanto frequentemente un
algoritmo trova una data soluzione a partire da diverse
versioni casualmente permutate del set di dati originale?
Operativamente:
• Creare una serie di dati artificiali, ottenuti da un
campionamento casuale delle colonne dal MSA originale,
con la stessa dimensione dell'originale.
• Ripeti per 100 (o 1000) volte.
• Osservare la percentuale dei casi in cui la divisione in cladi
nella struttura originale è confermata dalle repliche di test.
Valori > 70% (50%) sono considerati significativi.
Nel 61% dei bootstrap, ssrbp e
btrbp (RBP di maiale e mucca)
hanno formato una clade distinta.
Nel 39% dei casi, un'altra proteina
si è unita alla clade (ecrbp ad
esempio), o uno di queste due
sequenze si è fusa in un’altra clade.
Il formato Newick
Utile per la descrizione della topologia di un albero: le
coppie di sequenze collegate allo stesso nodo sono
racchiuse tra parentesi tonde. La descrizione termina con “;”
CLADOGRAMMA: le lunghezze dei
rami non sono definite
FILOGRAMMA: le lunghezze dei sono
riportate con una sintassi che sfrutta i “:”
Portale Mobyle@Pasteur
E’ un portale per analisi bioinformatiche online
http://mobyle.pasteur.fr/cgi-bin/portal.py#welcome
Portale Mobyle@Pasteur
Ha diverse sezioni interattive e integrate distinte per colore
Form interattivi dei
diversi programmi
disponibili
Programmi
disponibili
Risultati e processi
in corso sottomessi
al sito
Portale Mobyle@Pasteur
Il menu di sinistra ha una struttura ad albero
Programmi per i
MSA
Form interattivi dei
diversi programmi
disponibili
Programmi per
l’analisi
filogenetica
Portale Mobyle@Pasteur
Richiede un login
Portale Mobyle@Pasteur
Include tool per il MSA
Portale Mobyle@Pasteur
I risultati sono presentati in diversi formati
Sezione dei risultati
MSA in formato
CLUSTAL
Portale Mobyle@Pasteur
Propone un percorso per la creazione di alberi
Portale Mobyle@Pasteur
Con il MSA si calcola una matrice delle distanze
Si noti la presenza
di più finestre per
gestire diversi
processi
Portale Mobyle@Pasteur
La matrice può poi essere usata come input per il calcolo
di un albero filogenetico
Si noti la presenza
di più finestre per
gestire diversi
processi
Alternativa a Mobyle@Pasteur:Phylogeny.fr
Un sito simile che offre tool online, più semplice ma
meno ricco
Tool per l’analisi
filogenetica
Phylogeny.fr
Un sito simile che offre tool online, più semplice ma
meno ricco
Programmi
disponbili per
l’analisi
Phylogeny.fr
Dal menu per la Phylogeny analysis si accede a diverse modalità
La modalità più
dettagliata detta “à
la carte”
Ottimo strumento
di visualizzazione