Lezione7_GenomicaComputazionale_2011 (2.98

annuncio pubblicitario
Genomics Session
Lezione 6
Filogenomica
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Filogenetica
Filogenesi: Ricostruzione della storia evolutiva
Obiettivo: inferire la storia evolutiva fra entità biologiche mediante una
serie di caratteri moderni osservati (caratteristiche morfologiche,
sequenze) la cui somiglianza o differenza possa essere stimata
Input:
Caratteri
Misura della distanza
Modello dell' evoluzione
Output: un albero evolutivo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Filogenetica
Assunzioni:
- Le sequenze (specie) divergono per biforcazioni;
- Le sequenze sono essenzialmente indipendenti una volta avvenuta la
divergenza dall'antenato comune;
- La probabilità di osservare un nucleotide k nel sito j in un momento
futuro dipende solo dal nucleotide corrente nel sito j (Markov Chain
assumption);
- Siti diversi evolvono independentemente.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Orologio Molecolare
- Con il passare del tempo dal momento della divergenza, le due
sequenze accumulano mutazioni (quindi differenze);
- Data una sequenza proteica, il tasso di evoluzione della sequenza
è approssimativamente costante nelle varie specie (Zuckerkandl
and Pauling,1965)
- Questo fenomeno permetterebbe di datare accuratamente eventi di
speciazione e duplicazione
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Orologio Molecolare
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Orologio Molecolare
- Il tasso di mutazione delle sequenze può essere molto diverso da
proteina a proteina (o da gene a gene);
- Il tasso di evoluzione delle sequenze non è costante nel tempo;
- Il tasso di mutazione di una sequenza non è costante per tutta la
sequenza
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Approccio cladistico: gli alberi sono costruiti basandosi su dei
caratteri conservati
Approccio fenetico: gli alberi sono costruiti basandosi su una
misura della distanza fra taxa
Le filogenesi molecolari sono inferite da dati molecolari,
normalmente sequenze. Per questo motivo è più semplice definire
delle misure di distanze (cioè differenza fra di esse), ma si
possono anche definire caratteri e usare approcci cladistici (ad
esempio l'ordine dei geni)
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Un albero è un grafo connesso aciclico (non esiste un percorso
che torna al punto di partenza)
Not a tree, due to ciclo
In un albero binario ogni nodo può avere due nodi figli e un solo
nodo padre. I nodi al livello più basso sono detti foglie, gli altri
sono nodi interni.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Rami
Nodi terminali - foglie
A
B
C
D
E
F
G
Nodo ancestrale
– radice
dell'albero
H
I
J
Nodi interni – punti di
divergenza (rappresentano
ancestori ipotetici dei taxa)
Lezione 7
Taxon – Un
gruppo (entità
biologica) che
è considerato
come un'unità
evolutiva:
gene,
cromosoma,
genoma,
popolazione,
specie,
…
Chiamati
anche
operational
taxonomic
units (OTU)
K
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Questa dimensione può non avere scala, o può essere dipendente dalla distanza
genetica, temporale, etc.
La spaziatura
verticale, e
l'ordine dalla
cima al fondo
in cui
compaiono i
taxa sono
relativamente
privi di
significato
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Il numero di punti di
ramificazione fra taxa
diversi riflette la loro
distanza evolutiva
Clado – Un gruppo
consistente di un
antenato e di tutti i
suoi discendenti
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Il numero di punti di
ramificazione fra taxa
diversi riflette la loro
distanza evolutiva
Clado – Un gruppo
consistente di un
antenato e di tutti i
suoi discendenti
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Il numero di punti di
ramificazione fra taxa
diversi riflette la loro
distanza evolutiva
Clado – Un gruppo
consistente di un
antenato e di tutti i
suoi discendenti
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Il numero di punti di
ramificazione fra taxa
diversi riflette la loro
distanza evolutiva
Clado – Un gruppo
consistente di un
antenato e di tutti i
suoi discendenti
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Il numero di punti di
ramificazione fra taxa
diversi riflette la loro
distanza evolutiva
Clado – Un gruppo
consistente di un
antenato e di tutti i
suoi discendenti
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Cladogramma
Filogramma
Unrooted Tree
In un albero senza radice la direzione dell'evoluzione non è esplicita;
La radice rappresenta un ipotetico antenato comune a tutti i taxa
dell'albero;
Si può trasformare un albero senza radice in uno con radice, piazzando
la radice su un ramo o su un nodo
[Yang, 2006]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
A
C
Per n=3 taxa, c'è un solo albero
possibile, con 3 rami e 3 foglie
(cambiando di posto a A,B,C non
cambia la topologia)
B
Lezione 7
A
C
B
D
Per n=4 taxa, ci sono 3 possibili
topologie, con 5 rami e 4 foglie
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
A
C
Si può immaginare di aggiungere
una nuova foglia su qualsiasi
ramo di un albero
B
Lezione 7
A
C
B
D
Per n>3, ogni nuova foglia
aggiunge due nuovi rami.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
A
B
C
A
B
C
A
C
B
D
D
E
A
B
Lezione 7
C
F
D
E
(2N - 5)!! = # unrooted trees for N taxa
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
B
B
C
C
Root
Unrooted tree
Root
D
A
D
A
A
A
B
C
B
D
C
D
Rooted tree
Root
Lezione 7
Root
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Un albero senza radice contenente 4 taxa può presentare la radice in 5
posti diversi, dando luogo a cinque alberi diversi
A
Unrooted tree 1:
Lezione 7
4
1
B
Rooted tree 1a
2
Rooted tree 1b
C
5
D
3
Rooted tree 1c
Rooted tree 1d
Rooted tree 1e
B
A
A
C
D
A
B
B
D
C
C
C
C
A
A
D
D
D
B
B
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Come si definisce la radice dell'albero
Tramite outgroup:
Si utilizza un taxon che è più
distante da tutti gli altri taxa in
esame di quanto lo siano gli uni
con gli altri, pur restando
sufficientemente vicino.
outgroup
A
Tramite midpoint:
Piazza la radice al centro fra i due
taxa più lontani, in base alle
lunghezze dei rami.
d (A,D) = 10 + 3 + 5 = 18
Midpoint = 18 / 2 = 9
10
C
3
B
Lezione 7
2
2
5
D
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
C
A
D
B
A
C
B
A
B
Lezione 7
x
=
D
E
C
D
F
E
(2N - 3)!! = # unrooted trees for N taxa
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Metodi basati su caratteri: Usano direttamente le sequenze (di DNA o proteine),
non necessariamente allineate, per inferire l'albero
Taxa
Specie
Specie
Specie
Specie
Specie
Caratteri
ATGGCTATTCTTATAGTACG
ATCGCTAGTCTTATATTACA
TTCACTAGACCTGTGGTCCA
TTGACCAGACCTGTGGTCCG
TTGACCAGTTCTCTAGTTCG
A
B
C
D
E
Metodi basati sulla distanza: Trasformano le sequenze in distanze fra coppie, e
usano questa matrice delle distanze per costruire l'albero
Species
Species
Species
Species
Species
A
B
C
D
E
A
---0.23
0.87
0.73
0.59
B
0.20
---0.59
1.12
0.89
C
0.50
0.40
---0.17
0.61
D
0.45
0.55
0.15
---0.31
E
0.40
0.50
0.40
0.25
----
“p” distance
(percentuale di
differenza fra
sequenze)
Kimura 2-parameter distance
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Assunzioni
Metodi basati su caratteri:
- I caratteri allineati in un allineamento multiplo sono
omologhi nelle sequenze allineate;
- Ogni carattere evolve indipendentemente ed è trattato
come un'unità evolutiva.
Metodi basati sulla distanza:
- Tutte le sequenze analizzate sono omologhe;
- Le distanze fra i rami sono additive.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Alberi Filogenetici
Metodi per costruzione di alberi filogenetici
UPGMA
Clustering
Neighbor joining (NJ)
Metodi basati sulla distanza
Fitch-Margoliash (FM)
Ottimizzazione
Minimum evolution (ME)
Massima parsimonia (MP)
Metodi basati sui caratteri
Massima verosimiglianza (ML)
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sulle distanze
Metodi basati sulla distanza:
Data una matrice M di dimensioni n X n, dove Mij è la distanza fra gli
oggetti i e j, si vuole costruire un grafo dove ogni foglia corrisponde ad
un oggetto di M e tale che la distanza misurate sull'albero fra due foglie
i e j corrisponda al valore di Mij.
Se tale albero può essere costruito, si dice che le distanze in M sono
additive.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sulle distanze
Ci sono solo tre posizioni differenti fra le sequenze 1 e 2;
Conoscendo la sequenza ancestrale, le sostituzioni avvenute sono invece 12;
Non basta contare le differenze fra sequenze, si deve considerare un modello
dell'evoluzione delle sequenze nucleotidiche.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modello di Jukes-Cantor
2 assunzioni:
- ogni posizione è indipendente;
- transizioni da un nucleotide
all'altro sono equiprobabili.
α è il tasso normalizzato di
sostituzione
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modello di Jukes-Cantor
Beta-globine
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modello di Jukes-Cantor
Beta-globine
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modello di Jukes-Cantor
Beta-globine
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Modello di Kimura
Le transizioni (A<->G, C<->T) sono più probabili delle trasversioni
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sul clustering
Metodi basati sul clustering
Si parte da una matrice delle distanze fra ogni coppie di sequenze;
La distanza si può stimare in vari modi:
Numero di siti dove le sequenze sono diverse (Hamming distance)
Jukes-Cantor
Kimura
Massima verosimiglianza
E molti altri..
Si vogliono raggruppare oservazioni simili e creare una nuova pseudoosservazione che sia risultante dalla loro fusione
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
UPGMA
UPGMA = Unweighted Pair Group Method with Arithmetic mean
Si parte da una matrice delle distanze fra ogni coppia di sequenze;
Ogni sequenza C1,....Cn è posta in un cluster;
La distanza fra due cluster è definita come distanza media fra ogni coppia di
sequenze di ciascuno dei cluster;
Si cercano i due clusters aventi minore distanza, e si fondono nella matrice
delle distanze;
Si aggiunge al grafo il nodo padre dei due cluster fusi ad altezza pari alla
distanza fra i due clusters diviso due;
[Singh, 1999]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
UPGMA
[Singh, 1999]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sull'ottimizzazione
Confrontano tutte le possibili topologie e selezionano l'albero che meglio si
adatta ad un modello evolutivo
Fitch-Margoliash:
L'albero migliore è selezionato basandosi sulla deviazione minima tra le
distanze calcolate su tutti i rami dell'albero e le distanze nel dataset originale
Minimum Evolution:
Approccio simile, che minimizza la somma delle lunghezze dei rami
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sulla sequenza
Dati di partenza: n sequenze allineate
Metodi basati sulla parsimonia:
Si cerca fra tutti i possibili alberi quello che permette di spiegare
l'evoluzione delle n specie con il minore numero di sotituzioni;
Il numero di alberi possibili diventa enorme al crescere di n;
Metodi basati sulla massima verosimiglianza:
Si costruisce un modello statistico di un albero filogenetico basato su
un modello di evoluzioone, e si determinano i parametri dell'albero più
probabile
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Filogenomica
Estensione della filogenetica utilizzando informazione derivata da interi
genomi
E' difficile estendere alcune nozioni utilizzate in filogenetica
I metodi per ricostruire filogenesi si possono dividere in due gruppi:
1. Basati su allineamenti di sequenze
2. Basati su caratteristiche del genoma
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Filogenomica
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su allineamenti di sequenze
Dataset di ortologhi
Allineamenti multipli
UPGMA
Albero per ogni
allineamento
Fusione degli alberi
con matrix
representation
using parsimony
(MRP)
Superalbero
Lezione 7
Concatenazione
degli allineamenti
Supermatrice
UPGMA
Albero
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Filogenomica
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Superalberi
F
E
D
F
C
A
B
D
A
E
B
G
C
B
F
D
A
E
G
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sulla conta delle parole
- Dati una serie di genomi, per ciascuno si contano le frequenze di tutti gli oligomeri lunghi
k nucleotidi;
- Per ogni genoma si definisce un vettore delle frequenze;
- La distanza fra due genomi è calcolata come l'angolo fra i due vettori che li descrivono;
- Queste distanze possono essere usate per costuire l'albero utilizzando uno degli algoritmi
mostrati in precedenza.
Vantaggi:
- Semplici e veloci
- Non si devono identificare gli ortologhi
- Non risentono di grossi riarrangiamenti genomici
- Non risentono di diversi tassi di mutazione di regioni genomiche diverse
- Utilizzano tutto il genoma
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sulla conta delle parole
sp1
sp2
sp3
sp1
sp2
sp3
...
AAAA
104
63
307
...
AAAC
...
...
...
...
...
...
...
...
AAAG
AAAT
....
…
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sulla conta delle parole
- ricostruzione
dell'albero della vita
basato su 109 genomi;
- usati k-meri (k=6) di
proteine
- risultati simili agli
alberi noti per valori di
k lunghi
[Qi et al., 2004]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sul contenuto di geni
- Dati una serie di genomi, si identificano una serie di marcatori ortologhi non
necessariamente presenti in tutti i genomi;
- Dati due genomi si determina quali di questi geni sono presenti in quel genoma;
- La distanza fra due genomi si può calcolare come frazione di geni condivisi
- Queste distanze possono essere usate per costuire l'albero utilizzando uno
degli algoritmi mostrati in precedenza.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sul contenuto di geni
sp1
sp2
sp3
…
sp1
sp2
sp3
...
Gene 1
1
0
0
...
Gene 2
1
1
0
...
...
...
...
...
Gene 3
Gene 4
....
Identificazione dei
marcatori ortologhi
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sull'ordine dei geni
- Dati una serie di genomi, per ciascuno si mappano una serie di marcatori
ortologhi;
- L'ordine dei marcatori (cioè i riarrangiamenti che il genoma ha subito) è
correlato con la distanza evolutiva;
- La distanza fra due genomi si può calcolare in vari modi:
- confronto di geni vicini
- distanza tramite breakpoints
- Queste distanze possono essere usate per costuire l'albero utilizzando uno
degli algoritmi mostrati in precedenza.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
- Anche quando due genomi condividono molti geni con sequenza
estremamente simile, la loro distribuzione sui cromosomi e la loro posizione
relativa può essere molto diversa
Homo sapiens mitochondrial genome (proteins and rRNAs)
COX1 COX2
ATP6
ATP8
COX3
ND3
ND4L
ND4
ND5
CYTB
RNS
RNL
ND1
ND2
ND6
Bombyx mori mitochondrial genome (proteins and rRNAs)
COX1 COX2
ATP6
ATP8
COX3
ND3
ND6
ND5
ND4
ND4L
CYTB
ND2
ND1
RNL
RNS
[source: Bergeron]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
THE ORIGIN AND EVOLUTION OF MODEL ORGANISMS
Hedges, SB Nature Reviews Genetics 3, 838 -849 (2002)
Lezione 7
http://www.ensembl.org/
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
THE ORIGIN AND EVOLUTION OF MODEL ORGANISMS
Hedges, SB Nature Reviews Genetics 3, 838 -849 (2002)
Lezione 7
http://www.ensembl.org/
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
THE ORIGIN AND EVOLUTION OF MODEL ORGANISMS
Hedges, SB Nature Reviews Genetics 3, 838 -849 (2002)
Lezione 7
http://www.ensembl.org/
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
Mouse genome
- Riarrangiamenti notevoli coinvolgono regioni estese;
- L'ordine dei geni è conservato localmente.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Riarrangiamenti cromosomici
Qualche definizione:
- Sintenia: dati due geni A e B di un genoma G, si dicono sintenici se
presenti sullo stesso cromosoma;
- Sintenia conservata: dati due geni A' e B' in un genoma G', ortologhi
rispettivamente di A e B, se anche A' e B' si trovano sullo stesso cromosoma
allora la sintenia è conservata;
- Gruppo conservato: regioni di sintenia conservata in cui anche l'ordine e
l'orientamento di geni risulta conservato.
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Antenato sconosciuto,
87 milioni di anni fa
- Com'era fatto il genoma dell'antenato comune?
- Qual'è la storia evolutiva che ha portato alla formazione dei due
genomi contemporanei?
- E' possibile definire una misura della distanza fra i due genomi?
[source: Tesler]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Caso semplice: genomi monocromosomici
Riarrangiamenti considerati: solo inversioni (reversals)
[source: Tesler]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Caso semplice: genomi monocromosomici
Riarrangiamenti considerati: solo inversioni (reversals)
[source: Tesler]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Caso semplice: genomi monocromosomici
Riarrangiamenti considerati: solo inversioni (reversals)
L'inversione ha causato due breakpoints (siti in cui l'ordine dei marcatori è cambiato)
[source: Tesler]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
• L'ordine dei geni può essere rappresentato da una permutazione
π:
π = π 1 ------ π i-1 π i π i+1 ------ π j-1 π j π j+1 ----- π n
ρ(ι,j)
π 1 ------ π i-1 π j π j-1 ------ π i+1 π i π j+1 ----- πn

Lezione 7
L'inversione ρ ( i, j ) ribalta gli elementi da i a j in π
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Reversal Distance Problem
Obiettivo: Date due permutazioni, trovare il più piccolo insieme
di inversioni (reversals) per trasformare una nell'altra
Input: Permutazioni π e σ
Output: Una serie di inversioni ρ1,…ρt che trasformano π inσ, tali
che t sia minimo
t - reversal distance fra π e σ
d(π, σ) = valore più piccolo possibilie di t, dati π, σ
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Step
Step
Step
Step
Step
Step
Lezione 7
0: π
1:
2:
3:
4:
5: γ
2
2
2
2
-8
1
-4
3
3
3
-7
2
-3
4
4
4
-6
3
5
5
5
5
-5
4
-8
-8
6
6
-4
5
-7
-7
7
7
-3
6
-6
-6
8
8
-2
7
1
1
1
-1
-1
8
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Step
Step
Step
Step
Step
0: π 2 -4 -3
2 3 4
1:
-5 -4 -3
2:
-5 -4 -3
3:
4: γ 1 2 3
5
5
-2
-2
4
-8
-8
-8
-1
5
-7
-7
-7
6
6
-6
-6
-6
7
7
1
1
1
8
8
La reversal distance è il numero minimo di inversioni necessarie per trasformare
una serie ordinata di geni in un'altra
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Sorting By Reversals (approccio greedy)
• Esempio: permutazione π = 1 2 3 6 4 5
• I primi 3 elementi sono già ordinati
• prefisso(π) = lunghezza del prefisso già ordinato
●
prefisso(π) = 3
• Idea: aumentare prefisso(π) ad ogni passo
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
• Cosi facendo, π può essere ordinato
123645
123465
123456
• Il numero di passaggi necessari per ordinare una
permutazione di lunghezza n è al massimo (n – 1)
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
• SimpleReversalSort non garantisce di trovare il numero minimo
di inversioni, e utilizza cinque steps su π = 6 1 2 3 4 5 :
•
•
•
•
•
●
●
Lezione 7
Step 1: 1 6 2 3 4 5
Step 2: 1 2 6 3 4 5
Step 3: 1 2 3 6 4 5
Step 4: 1 2 3 4 6 5
Step 5: 1 2 3 4 5 6
In realtà π può essere ordinata in due passaggi:
●
Step 1: 5 4 3 2 1 6
●
Step 2: 1 2 3 4 5 6
Quindi SimpleReversalSort(π) non è ottimale
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Adiacenze e Breakpoints
π = π1π2π3…πn-1πn
• Una coppia di elementi π i e π i + 1 sono adiacenti se
πi+1 = πi + 1
• Ad esempio:
π=1 9 3 4 7 8 2 6 5
• (3, 4) o (7, 8) e (6,5) sono coppie adiacenti
●
C'è un breakpoint fra ogni elemento non consecutivo:
π=1 9 3 4 7 8 2 6 5
Le coppie (1,9), (9,3), (4,7), (8,2) e (2,6) formano breakpoints della
permutazione π
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
•Adjacenza – consecutiva
•Beakpoint – non consecutiva
Si estende π con π0 = 0 e πn+1 = n+1
adiacenze
π=5 6 2 1 3 4
0 5 6 2 1 3 4 7
breakpoints
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Problema: Dati due genomi π e γ, con 8 marcatori omologhi, trasformare π in γ
con il numero minimo di passaggi
Ogni marcatore i è descritto da un inizio ia e una fine ib
π
γ
Unendo inizio e fine dei marcatori, si definiscono dei percorsi chiusi (cicli)
[source: Tesler]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
6 breakpoints
3 adiacenze
- Il numero di passaggi per
trasformare π in γ è 4.
- Questo numero può essere
calcolato con il teorema di
Hannenhalli-Pevzner:
n = numero di marcatori
c = numero di cicli
h,f = cicli irregolari
Nel nostro caso:
d = 8+1-5+0+0 = 4
Lezione 7
[source: Tesler]
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Problema:
Dati due genomi multicromosomici, e una serie di marcatori conservati in
entrambi, trovare una serie di riarrangiamenti genomici tali da trasformare un
genoma in un altro;
- Il percorso di riarrangiamenti più corto (più parsimonioso) è una stima della
distanza genomica;
- La distanza genomica per genomi con più di un cromosoma può essere
calcolata in tempo polinomiale (quadratico) considerando inversioni,
traslocazioni, fusioni e fissioni
[Pevzner & Tesler, 2004]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Le traslocazioni e le fusioni/fissioni possono essere ricondotte a inversioni, se
si concatenano i cromosomi
[source: Tesler]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
[Pevzner & Tesler, 2004]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Distanza fra genomi
Distanza fra il genoma
umano e di topo:
Blocchi di sintenia: 281
Reversal Distance: 245
[Pevzner & Tesler, 2004]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sull'ordine dei geni
b
sp1
sp2
sp3
…
Identificazione dei
marcatori ortologhi
a
e
sp2
d
sp1
a
b
c
d
c
e
e
c
a
sp3
d
b
…
Identificazione del loro ordine
sul genoma ortologhi
Matrice delle
distanze
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati sull'ordine dei geni
Esempio:
- Filogenesi di un phyla
di archibatteri;
- Basato sulla
frequenza di coppie di
geni adiacenti (quanti
geni vicini conservati in
due genomi);
- Coincide per la
maggior parte con gli
alberi basati su rRNA,
ma evidenzia alcune
nuove parentele
[Wolf et al., 2001]
Lezione 7
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Scarica