Geni paraloghi

Filogenesi
molecolare
Geni ortologhi e geni paraloghi
Geni ortologhi: geni simili riscontrabili in organismi correlati tra
loro. Il fenomeno della speciazione porta alla divergenza dei geni
e quindi delle proteine che essi codificano.
es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa
80 milioni di anni fa, quando avvenne la divisione che dette vita ai
primati e ai roditori. I due geni sono da considerarsi ortologhi.
Geni paraloghi: geni originati dalla duplicazione di un unico gene
nello stesso organismo.
es. α-globina e β-globina umana hanno iniziato a divergere in
seguito alla duplicazione di un gene globinico ancestrale. I due geni
sono da considerarsi paraloghi.
Gene ancestrale
duplicazione genica
Gene A
Gene B
speciazione
Gene A1
ortologhi
Gene A2
paraloghi
Gene B1
Specie 1
ortologhi
Gene B2
Specie 2
Distanze genetiche
Per la distinzione filogenetica di due sequenze, è necessario
conoscere quanto esse divergono. Serve quindi un parametro
ripetibile, la distanza genetica.
Ottengo così il Numero di Sostituzioni per Sito che può essere
una sottostima della distanza vera perché le mutazioni possono
anche essere REVERSIONI ed avvenire sullo stesso sito (sito
con multiple hits).
Numero di sostituzioni osservate nell’allineamento
Distanza = --------------------------------------------------------------Lunghezza complessiva dell’allineamento
per le proteine si usa spesso d = - ln ( 1 - p - 0,2 p2)
d: distanza
(kimura)
p: frazione di amino acidi differenti
Proteine o acidi nucleici?
Sequenze proteiche:
- necessitano di matrici si sostituzione 20x20, molto complesse da
trattare.
- sono espressione di sole regioni codificanti.
- aminoacidi identici possono essere espressione di più codoni
Sequenze nucleotidiche:
- sono descrivibili con matrici 4x4.
- possono essere estratte da sequenze genomiche non codificanti
- non hanno degenerazione né ridondanza.
=> Per la filogenesi molecolare è preferibile utilizzare le sequenze
nucleotidiche
Assunzioni a priori
Per formulare un modello evolutivo è necessario considerare
alcuni aspetti generali che possono essere considerati assunzioni a
priori del modello:
1. tutti i siti evolvono in modo indipendente
2. tutti i siti mutano con la stessa probabilità
3. tutte le sostituzioni sono ugualmente probabili
4. la velocità di sostituzione è costante nel tempo
5. la composizione delle basi è costante
in generale si può affermare che:
maggiore è il numero di assunzioni a priori
- maggiore è la semplicità del modello
- minore è l’attendibilità dei risultati
Alcuni modelli proposti
JC69 - Jukes & Cantor (1969). Assunzioni: 1,2,3,4,5.
KIM - Kimura (1980). Assunzioni: 1,2,4,5.
Tamura (1992). Assunzioni: 1,2,4.
F81 - Felsenstein (1981). Assunzioni: 1,2,3,4.
Hasegawa (1985). Assunzioni: 1,2,4.
GTR – Lanave (1984). Assunzioni: 1,2.
Il modello GTR è il più complesso possibile, compatibilmente con
una trattazione matematica adeguata.
Tutti i modelli richiedono però che la composizione in basi sia
stazionaria, altrimenti non possono essere applicati. Bisogna
quindi verificarlo prima.
L’orologio molecolare
L’evoluzione è un processo inevitabilmente divergente e il numero
di mutazioni che si accumulano nel tempo è direttamente
proporzionale al tempo intercorso dalla divergenza delle sequenze
in analisi. (1965, Zuckerkandl e Pauling).
Se questo è vero, data una distanza genetica calcolata osservando le
divergenze, è possibile ottenere il tempo trascorso dal momento in
cui due sequenze hanno cominciato a divergere.
Inoltre, se la velocità di accumulo delle mutazioni è costante, è
possibile la datazione degli organismi in base a un solo dato
verificato di distanza temporale.
K
K
V = ----- => t = -----2t
2V
es. Distanza uomo topo: 80 milioni di anni
Distanza tra le alpha-globine: 0.093
V = 0.56 x 10-8 sostituzioni/sito anno
=> anche se l’orologio molecolare è vero, non è universale, perché
siti diversi hanno diversi tassi di mutazione.
Alberi filogenetici
Sono grafi costituiti da NODI, che rappresentano le unità
tassonomiche e da RAMI che uniscono i nodi, rappresentando le
distanze tra i due. Si definisce TOPOLOGIA la struttura generale
di un albero. Se ai rami non si dà valenza di distanza evolutiva, ho
un CLADOGRAMMA, altrimenti ho un FILOGRAMMA.
Alberi CON RADICE: accetta come vera l’ipotesi dell’orologio
molecolare e i nodi stanno in un preciso ordine temporale.
Alberi SENZA RADICE: non prevede significato evolutivo in
termini temporali.
F
A
nodo
B
radice
C
E
ramo
D
F
E
nodo
C
D
B
ramo
A
Daterminazione della topologia
E’ il primo passo dell’analisi filogenetica.
Il numero complessivo di alberi che si possono costruire con N
sequenze (denominate OTU, cioè operational taxonomic units) è
Rooted:
(2N - 3)!
Nr = ---------------2N-3 (N - 3)!
Unrooted:
(2N - 5)!
Nu = ---------------2N-3 (N - 3)!
es. 10 OTU = ((2*10)-3)! / 27(7)! = circa 35 milioni
Metodi per la crezione degli alberi
Metodologie:
Algoritmi di clusterizzazione (UPMGA, Neighbour Joining):
si basano sull’osservazione delle distanze genetiche calcolare
in precedenza.
Algoritmi di ottimizzazione (Minima evoluzione):
ottimizzazione degli alberi in base a criteri obiettivi di qualità.
Origine dei dati:
Sequenze omologhe multiallineate: tempi di calcolo molto maggiori
Distanze genetiche pre-calcolate: tempi di calcolo minori,
UPGMA: (Unweighted Pair Group Method with Aritmetic mean)
E’ il metodo più semplice. Assume l’orologio molecolare.
Calcolata una matrice di distanze, vengono prese le OTU più simili,
raggruppare e ricalcolata la matrice di distanze. La prima coppia
viene clusterizzata con quella che ha distanza minore con esse. Il
punto di mezzo nell’albero è il nodo tra i clusters, la lunghezza del
ramo è la distanza che separa i vari elementi del cluster.
0.007
0.018
0.009
0.007
0.018
0.030
Chimp
Human
Gorilla
0.027
0.027
Owl monkey
Spider monkey
Neighbour-Joining
Si parte da una topologia a stella. Tra OTU vicine introduce un
ramo corrispondente alla distanza tra le due, e ripete l’inserimento
di rami per tutte le coppie di OTU. Tra tutti gli alberi possibili viene
via via scelto quello che ha il totale di lunghezza dei rami monore.
B
A
1
C
C
B
D
E
D
B
C 2
F
n
D
A
F
A
E
F
E
Massima parsimonia
Non si lavora più con le distanze ma con le sequenze: si cerca
l’albero che richiede il minor numero di sostituzioni che spieghino
le differenze osservate tra le sequenze in analisi. Non si lavora su
tutti i siti del multiallineamneto, ma solo su alcuni
SIGNIFICATIVI, cioè che presentano almeno 2 residui uguali.
1
2
3
G
C
G
G
A
C
A
B
A ATGCATAGCAGCATGCATCG
C C C D
B G C D
G
C
C
C
B ATGCATAGCAGCTTGTTTCG
G
G
C ATCCATACCAGCATGTGTCG
A
B
1
D
D ATCCATACCAGCTTGTTTCG
C
C
C
A
G
A
T
A
A
A
T
A
C
A
B
A
B
A
C
C G T D
B G C D
C A T D
B T T D
T
G
T
T
T
A
T
T
A
T
G
G
A
B
A
B
2
3
D
D
C
C
T
C
A
C
Massima verosimiglianza
Per ciascun sito del multiallineamento si calcola la probabilità che
esso sia generato da un preciso albero. Estendendo la ricerca di
probabilità a tutti i possibili alberi, ottengo l’albero a maggior
probabilità di rappresentare il multiallineamento.
E’ il metodo più corretto di valutare le significatività degli alberi,
ma ha un grosso limite:
L’ enorme mole di calcolo per ottenere il risultato
=> È impossibile ottene risultati per multiallineamenti di più
di 20-30 sequenze
Sono stati prodotti vari metodi di approssimazione, tra cui uno
detto quartet puzzle (QP) in cui si fanno operazioni su gruppi di 4
sequenze, e i risultati vengono intersecati tra loro.
Bootstrapping
E’ un metodo relativamente semplice per determinare la
significatività di un risultato derivante da una analisi complessa:
Si tratta di un RICAMPIONAMENTO casuale di sequenze a cui
vengono applicate le stesse procedure applicate alle sequenze vere.
In questo modo ottengo due valori:
- uno effettivo, quello delle sequenze in analisi
- uno che rappresenta il valore che otterrei con un campione
casuale.
Dal loro confronto è possibile ottenere una stima della veridicità
del risultato. Maggiore è il numero di operazione di bootstrapping,
maggiore è l’attendibilità dei valori. Maggiore è la percentuale di
risultati di bootstrapping che si accordano col risultato vero,
maggiore è la precisione della stima del valore vero.
Principali programmi per l’analisi filogenetica
PHYLIP: è un pacchetto di programmi curati da Joseph Felsenstein
che non hanno interfaccia grafica. Sono programmi rapidi,
efficienti e versatili, ma un po’ scomodi da utilizzare a causa della
diversità dei formati di file utilizzati e dell’approccio di separazione
delle varie fasi.
PAUP: come Phylip, ma con un numero maggiore di test statistici
per la validazione degli alberi. Ma si paga.
Markov: effettua il calcolo delle distanze genetiche utilizzando il
modello GTR e effettua il test di stazionarietà della composizione
del dataset. E’ on-line, ma per utilizzarlo bisogna registrarsi.
Principali programmi per l’analisi filogenetica
MrBayes: utilizza per il calcolo delle distanze un metodo introdotto
recentemente di inferenza bayesiana, che sta dando ottimi risultati
in termini di qualità degli alberi generati.
PhyloWin: dotato di interfaccia grafica, è piuttosto semplice e
consente analisi con i metodi presenti anche in Phylip e PAUP.
MEGA: attualmente è il programma più completo e facile da usare
possibile. Ha un’interfaccia grafica molto intuitiva, una serie di
strumenti grafici per la comprensione dei riusultati e comprende
numerosi approcci per il calcolo delle distanze, per la costruzione
degli alberi e per per la valutazione dell’attendibilità con numerosi
test statistici. Inoltre il manuale di Mega è molto completo, quasi
un libro sulla filogenesi molecolare.