Genomics Session Lezione 6 Filogenomica Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Filogenetica Filogenesi: Ricostruzione della storia evolutiva Obiettivo: inferire la storia evolutiva fra entità biologiche mediante una serie di caratteri moderni osservati (caratteristiche morfologiche, sequenze) la cui somiglianza o differenza possa essere stimata Input: Caratteri Misura della distanza Modello dell' evoluzione Output: un albero evolutivo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Filogenetica Assunzioni: - Le sequenze (specie) divergono per biforcazioni; - Le sequenze sono essenzialmente indipendenti una volta avvenuta la divergenza dall'antenato comune; - La probabilità di osservare un nucleotide k nel sito j in un momento futuro dipende solo dal nucleotide corrente nel sito j (Markov Chain assumption); - Siti diversi evolvono independentemente. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Orologio Molecolare - Con il passare del tempo dal momento della divergenza, le due sequenze accumulano mutazioni (quindi differenze); - Data una sequenza proteica, il tasso di evoluzione della sequenza è approssimativamente costante nelle varie specie (Zuckerkandl and Pauling,1965) - Questo fenomeno permetterebbe di datare accuratamente eventi di speciazione e duplicazione Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Orologio Molecolare Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Orologio Molecolare - Il tasso di mutazione delle sequenze può essere molto diverso da proteina a proteina (o da gene a gene); - Il tasso di evoluzione delle sequenze non è costante nel tempo; - Il tasso di mutazione di una sequenza non è costante per tutta la sequenza Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Approccio cladistico: gli alberi sono costruiti basandosi su dei caratteri conservati Approccio fenetico: gli alberi sono costruiti basandosi su una misura della distanza fra taxa Le filogenesi molecolari sono inferite da dati molecolari, normalmente sequenze. Per questo motivo è più semplice definire delle misure di distanze (cioè differenza fra di esse), ma si possono anche definire caratteri e usare approcci cladistici (ad esempio l'ordine dei geni) Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Un albero è un grafo connesso aciclico (non esiste un percorso che torna al punto di partenza) Not a tree, due to ciclo In un albero binario ogni nodo può avere due nodi figli e un solo nodo padre. I nodi al livello più basso sono detti foglie, gli altri sono nodi interni. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Rami Nodi terminali - foglie A B C D E F G Nodo ancestrale – radice dell'albero H I J Nodi interni – punti di divergenza (rappresentano ancestori ipotetici dei taxa) Lezione 7 Taxon – Un gruppo (entità biologica) che è considerato come un'unità evolutiva: gene, cromosoma, genoma, popolazione, specie, … Chiamati anche operational taxonomic units (OTU) K Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Questa dimensione può non avere scala, o può essere dipendente dalla distanza genetica, temporale, etc. La spaziatura verticale, e l'ordine dalla cima al fondo in cui compaiono i taxa sono relativamente privi di significato Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Il numero di punti di ramificazione fra taxa diversi riflette la loro distanza evolutiva Clado – Un gruppo consistente di un antenato e di tutti i suoi discendenti Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Il numero di punti di ramificazione fra taxa diversi riflette la loro distanza evolutiva Clado – Un gruppo consistente di un antenato e di tutti i suoi discendenti Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Il numero di punti di ramificazione fra taxa diversi riflette la loro distanza evolutiva Clado – Un gruppo consistente di un antenato e di tutti i suoi discendenti Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Il numero di punti di ramificazione fra taxa diversi riflette la loro distanza evolutiva Clado – Un gruppo consistente di un antenato e di tutti i suoi discendenti Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Il numero di punti di ramificazione fra taxa diversi riflette la loro distanza evolutiva Clado – Un gruppo consistente di un antenato e di tutti i suoi discendenti Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Cladogramma Filogramma Unrooted Tree In un albero senza radice la direzione dell'evoluzione non è esplicita; La radice rappresenta un ipotetico antenato comune a tutti i taxa dell'albero; Si può trasformare un albero senza radice in uno con radice, piazzando la radice su un ramo o su un nodo [Yang, 2006] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici A C Per n=3 taxa, c'è un solo albero possibile, con 3 rami e 3 foglie (cambiando di posto a A,B,C non cambia la topologia) B Lezione 7 A C B D Per n=4 taxa, ci sono 3 possibili topologie, con 5 rami e 4 foglie Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici A C Si può immaginare di aggiungere una nuova foglia su qualsiasi ramo di un albero B Lezione 7 A C B D Per n>3, ogni nuova foglia aggiunge due nuovi rami. Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici A B C A B C A C B D D E A B Lezione 7 C F D E (2N - 5)!! = # unrooted trees for N taxa Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici B B C C Root Unrooted tree Root D A D A A A B C B D C D Rooted tree Root Lezione 7 Root Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Un albero senza radice contenente 4 taxa può presentare la radice in 5 posti diversi, dando luogo a cinque alberi diversi A Unrooted tree 1: Lezione 7 4 1 B Rooted tree 1a 2 Rooted tree 1b C 5 D 3 Rooted tree 1c Rooted tree 1d Rooted tree 1e B A A C D A B B D C C C C A A D D D B B Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Come si definisce la radice dell'albero Tramite outgroup: Si utilizza un taxon che è più distante da tutti gli altri taxa in esame di quanto lo siano gli uni con gli altri, pur restando sufficientemente vicino. outgroup A Tramite midpoint: Piazza la radice al centro fra i due taxa più lontani, in base alle lunghezze dei rami. d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9 10 C 3 B Lezione 7 2 2 5 D Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici C A D B A C B A B Lezione 7 x = D E C D F E (2N - 3)!! = # unrooted trees for N taxa Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Metodi basati su caratteri: Usano direttamente le sequenze (di DNA o proteine), non necessariamente allineate, per inferire l'albero Taxa Specie Specie Specie Specie Specie Caratteri ATGGCTATTCTTATAGTACG ATCGCTAGTCTTATATTACA TTCACTAGACCTGTGGTCCA TTGACCAGACCTGTGGTCCG TTGACCAGTTCTCTAGTTCG A B C D E Metodi basati sulla distanza: Trasformano le sequenze in distanze fra coppie, e usano questa matrice delle distanze per costruire l'albero Species Species Species Species Species A B C D E A ---0.23 0.87 0.73 0.59 B 0.20 ---0.59 1.12 0.89 C 0.50 0.40 ---0.17 0.61 D 0.45 0.55 0.15 ---0.31 E 0.40 0.50 0.40 0.25 ---- “p” distance (percentuale di differenza fra sequenze) Kimura 2-parameter distance Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Assunzioni Metodi basati su caratteri: - I caratteri allineati in un allineamento multiplo sono omologhi nelle sequenze allineate; - Ogni carattere evolve indipendentemente ed è trattato come un'unità evolutiva. Metodi basati sulla distanza: - Tutte le sequenze analizzate sono omologhe; - Le distanze fra i rami sono additive. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Alberi Filogenetici Metodi per costruzione di alberi filogenetici UPGMA Clustering Neighbor joining (NJ) Metodi basati sulla distanza Fitch-Margoliash (FM) Ottimizzazione Minimum evolution (ME) Massima parsimonia (MP) Metodi basati sui caratteri Massima verosimiglianza (ML) Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sulle distanze Metodi basati sulla distanza: Data una matrice M di dimensioni n X n, dove Mij è la distanza fra gli oggetti i e j, si vuole costruire un grafo dove ogni foglia corrisponde ad un oggetto di M e tale che la distanza misurate sull'albero fra due foglie i e j corrisponda al valore di Mij. Se tale albero può essere costruito, si dice che le distanze in M sono additive. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sulle distanze Ci sono solo tre posizioni differenti fra le sequenze 1 e 2; Conoscendo la sequenza ancestrale, le sostituzioni avvenute sono invece 12; Non basta contare le differenze fra sequenze, si deve considerare un modello dell'evoluzione delle sequenze nucleotidiche. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modello di Jukes-Cantor 2 assunzioni: - ogni posizione è indipendente; - transizioni da un nucleotide all'altro sono equiprobabili. α è il tasso normalizzato di sostituzione Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modello di Jukes-Cantor Beta-globine Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modello di Jukes-Cantor Beta-globine Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modello di Jukes-Cantor Beta-globine Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Modello di Kimura Le transizioni (A<->G, C<->T) sono più probabili delle trasversioni Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sul clustering Metodi basati sul clustering Si parte da una matrice delle distanze fra ogni coppie di sequenze; La distanza si può stimare in vari modi: Numero di siti dove le sequenze sono diverse (Hamming distance) Jukes-Cantor Kimura Massima verosimiglianza E molti altri.. Si vogliono raggruppare oservazioni simili e creare una nuova pseudoosservazione che sia risultante dalla loro fusione Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 UPGMA UPGMA = Unweighted Pair Group Method with Arithmetic mean Si parte da una matrice delle distanze fra ogni coppia di sequenze; Ogni sequenza C1,....Cn è posta in un cluster; La distanza fra due cluster è definita come distanza media fra ogni coppia di sequenze di ciascuno dei cluster; Si cercano i due clusters aventi minore distanza, e si fondono nella matrice delle distanze; Si aggiunge al grafo il nodo padre dei due cluster fusi ad altezza pari alla distanza fra i due clusters diviso due; [Singh, 1999] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 UPGMA [Singh, 1999] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sull'ottimizzazione Confrontano tutte le possibili topologie e selezionano l'albero che meglio si adatta ad un modello evolutivo Fitch-Margoliash: L'albero migliore è selezionato basandosi sulla deviazione minima tra le distanze calcolate su tutti i rami dell'albero e le distanze nel dataset originale Minimum Evolution: Approccio simile, che minimizza la somma delle lunghezze dei rami Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sulla sequenza Dati di partenza: n sequenze allineate Metodi basati sulla parsimonia: Si cerca fra tutti i possibili alberi quello che permette di spiegare l'evoluzione delle n specie con il minore numero di sotituzioni; Il numero di alberi possibili diventa enorme al crescere di n; Metodi basati sulla massima verosimiglianza: Si costruisce un modello statistico di un albero filogenetico basato su un modello di evoluzioone, e si determinano i parametri dell'albero più probabile Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Filogenomica Estensione della filogenetica utilizzando informazione derivata da interi genomi E' difficile estendere alcune nozioni utilizzate in filogenetica I metodi per ricostruire filogenesi si possono dividere in due gruppi: 1. Basati su allineamenti di sequenze 2. Basati su caratteristiche del genoma Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Filogenomica Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati su allineamenti di sequenze Dataset di ortologhi Allineamenti multipli UPGMA Albero per ogni allineamento Fusione degli alberi con matrix representation using parsimony (MRP) Superalbero Lezione 7 Concatenazione degli allineamenti Supermatrice UPGMA Albero Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Filogenomica Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Superalberi F E D F C A B D A E B G C B F D A E G Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sulla conta delle parole - Dati una serie di genomi, per ciascuno si contano le frequenze di tutti gli oligomeri lunghi k nucleotidi; - Per ogni genoma si definisce un vettore delle frequenze; - La distanza fra due genomi è calcolata come l'angolo fra i due vettori che li descrivono; - Queste distanze possono essere usate per costuire l'albero utilizzando uno degli algoritmi mostrati in precedenza. Vantaggi: - Semplici e veloci - Non si devono identificare gli ortologhi - Non risentono di grossi riarrangiamenti genomici - Non risentono di diversi tassi di mutazione di regioni genomiche diverse - Utilizzano tutto il genoma Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sulla conta delle parole sp1 sp2 sp3 sp1 sp2 sp3 ... AAAA 104 63 307 ... AAAC ... ... ... ... ... ... ... ... AAAG AAAT .... … Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sulla conta delle parole - ricostruzione dell'albero della vita basato su 109 genomi; - usati k-meri (k=6) di proteine - risultati simili agli alberi noti per valori di k lunghi [Qi et al., 2004] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sul contenuto di geni - Dati una serie di genomi, si identificano una serie di marcatori ortologhi non necessariamente presenti in tutti i genomi; - Dati due genomi si determina quali di questi geni sono presenti in quel genoma; - La distanza fra due genomi si può calcolare come frazione di geni condivisi - Queste distanze possono essere usate per costuire l'albero utilizzando uno degli algoritmi mostrati in precedenza. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sul contenuto di geni sp1 sp2 sp3 … sp1 sp2 sp3 ... Gene 1 1 0 0 ... Gene 2 1 1 0 ... ... ... ... ... Gene 3 Gene 4 .... Identificazione dei marcatori ortologhi Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sull'ordine dei geni - Dati una serie di genomi, per ciascuno si mappano una serie di marcatori ortologhi; - L'ordine dei marcatori (cioè i riarrangiamenti che il genoma ha subito) è correlato con la distanza evolutiva; - La distanza fra due genomi si può calcolare in vari modi: - confronto di geni vicini - distanza tramite breakpoints - Queste distanze possono essere usate per costuire l'albero utilizzando uno degli algoritmi mostrati in precedenza. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici - Anche quando due genomi condividono molti geni con sequenza estremamente simile, la loro distribuzione sui cromosomi e la loro posizione relativa può essere molto diversa Homo sapiens mitochondrial genome (proteins and rRNAs) COX1 COX2 ATP6 ATP8 COX3 ND3 ND4L ND4 ND5 CYTB RNS RNL ND1 ND2 ND6 Bombyx mori mitochondrial genome (proteins and rRNAs) COX1 COX2 ATP6 ATP8 COX3 ND3 ND6 ND5 ND4 ND4L CYTB ND2 ND1 RNL RNS [source: Bergeron] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici THE ORIGIN AND EVOLUTION OF MODEL ORGANISMS Hedges, SB Nature Reviews Genetics 3, 838 -849 (2002) Lezione 7 http://www.ensembl.org/ Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici THE ORIGIN AND EVOLUTION OF MODEL ORGANISMS Hedges, SB Nature Reviews Genetics 3, 838 -849 (2002) Lezione 7 http://www.ensembl.org/ Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici THE ORIGIN AND EVOLUTION OF MODEL ORGANISMS Hedges, SB Nature Reviews Genetics 3, 838 -849 (2002) Lezione 7 http://www.ensembl.org/ Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici Mouse genome - Riarrangiamenti notevoli coinvolgono regioni estese; - L'ordine dei geni è conservato localmente. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Riarrangiamenti cromosomici Qualche definizione: - Sintenia: dati due geni A e B di un genoma G, si dicono sintenici se presenti sullo stesso cromosoma; - Sintenia conservata: dati due geni A' e B' in un genoma G', ortologhi rispettivamente di A e B, se anche A' e B' si trovano sullo stesso cromosoma allora la sintenia è conservata; - Gruppo conservato: regioni di sintenia conservata in cui anche l'ordine e l'orientamento di geni risulta conservato. Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Antenato sconosciuto, 87 milioni di anni fa - Com'era fatto il genoma dell'antenato comune? - Qual'è la storia evolutiva che ha portato alla formazione dei due genomi contemporanei? - E' possibile definire una misura della distanza fra i due genomi? [source: Tesler] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Caso semplice: genomi monocromosomici Riarrangiamenti considerati: solo inversioni (reversals) [source: Tesler] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Caso semplice: genomi monocromosomici Riarrangiamenti considerati: solo inversioni (reversals) [source: Tesler] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Caso semplice: genomi monocromosomici Riarrangiamenti considerati: solo inversioni (reversals) L'inversione ha causato due breakpoints (siti in cui l'ordine dei marcatori è cambiato) [source: Tesler] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi • L'ordine dei geni può essere rappresentato da una permutazione π: π = π 1 ------ π i-1 π i π i+1 ------ π j-1 π j π j+1 ----- π n ρ(ι,j) π 1 ------ π i-1 π j π j-1 ------ π i+1 π i π j+1 ----- πn Lezione 7 L'inversione ρ ( i, j ) ribalta gli elementi da i a j in π Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Reversal Distance Problem Obiettivo: Date due permutazioni, trovare il più piccolo insieme di inversioni (reversals) per trasformare una nell'altra Input: Permutazioni π e σ Output: Una serie di inversioni ρ1,…ρt che trasformano π inσ, tali che t sia minimo t - reversal distance fra π e σ d(π, σ) = valore più piccolo possibilie di t, dati π, σ Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Step Step Step Step Step Step Lezione 7 0: π 1: 2: 3: 4: 5: γ 2 2 2 2 -8 1 -4 3 3 3 -7 2 -3 4 4 4 -6 3 5 5 5 5 -5 4 -8 -8 6 6 -4 5 -7 -7 7 7 -3 6 -6 -6 8 8 -2 7 1 1 1 -1 -1 8 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Step Step Step Step Step 0: π 2 -4 -3 2 3 4 1: -5 -4 -3 2: -5 -4 -3 3: 4: γ 1 2 3 5 5 -2 -2 4 -8 -8 -8 -1 5 -7 -7 -7 6 6 -6 -6 -6 7 7 1 1 1 8 8 La reversal distance è il numero minimo di inversioni necessarie per trasformare una serie ordinata di geni in un'altra Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Sorting By Reversals (approccio greedy) • Esempio: permutazione π = 1 2 3 6 4 5 • I primi 3 elementi sono già ordinati • prefisso(π) = lunghezza del prefisso già ordinato ● prefisso(π) = 3 • Idea: aumentare prefisso(π) ad ogni passo Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi • Cosi facendo, π può essere ordinato 123645 123465 123456 • Il numero di passaggi necessari per ordinare una permutazione di lunghezza n è al massimo (n – 1) Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi • SimpleReversalSort non garantisce di trovare il numero minimo di inversioni, e utilizza cinque steps su π = 6 1 2 3 4 5 : • • • • • ● ● Lezione 7 Step 1: 1 6 2 3 4 5 Step 2: 1 2 6 3 4 5 Step 3: 1 2 3 6 4 5 Step 4: 1 2 3 4 6 5 Step 5: 1 2 3 4 5 6 In realtà π può essere ordinata in due passaggi: ● Step 1: 5 4 3 2 1 6 ● Step 2: 1 2 3 4 5 6 Quindi SimpleReversalSort(π) non è ottimale Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Adiacenze e Breakpoints π = π1π2π3…πn-1πn • Una coppia di elementi π i e π i + 1 sono adiacenti se πi+1 = πi + 1 • Ad esempio: π=1 9 3 4 7 8 2 6 5 • (3, 4) o (7, 8) e (6,5) sono coppie adiacenti ● C'è un breakpoint fra ogni elemento non consecutivo: π=1 9 3 4 7 8 2 6 5 Le coppie (1,9), (9,3), (4,7), (8,2) e (2,6) formano breakpoints della permutazione π Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi •Adjacenza – consecutiva •Beakpoint – non consecutiva Si estende π con π0 = 0 e πn+1 = n+1 adiacenze π=5 6 2 1 3 4 0 5 6 2 1 3 4 7 breakpoints Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Problema: Dati due genomi π e γ, con 8 marcatori omologhi, trasformare π in γ con il numero minimo di passaggi Ogni marcatore i è descritto da un inizio ia e una fine ib π γ Unendo inizio e fine dei marcatori, si definiscono dei percorsi chiusi (cicli) [source: Tesler] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi 6 breakpoints 3 adiacenze - Il numero di passaggi per trasformare π in γ è 4. - Questo numero può essere calcolato con il teorema di Hannenhalli-Pevzner: n = numero di marcatori c = numero di cicli h,f = cicli irregolari Nel nostro caso: d = 8+1-5+0+0 = 4 Lezione 7 [source: Tesler] Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Problema: Dati due genomi multicromosomici, e una serie di marcatori conservati in entrambi, trovare una serie di riarrangiamenti genomici tali da trasformare un genoma in un altro; - Il percorso di riarrangiamenti più corto (più parsimonioso) è una stima della distanza genomica; - La distanza genomica per genomi con più di un cromosoma può essere calcolata in tempo polinomiale (quadratico) considerando inversioni, traslocazioni, fusioni e fissioni [Pevzner & Tesler, 2004] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Le traslocazioni e le fusioni/fissioni possono essere ricondotte a inversioni, se si concatenano i cromosomi [source: Tesler] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi [Pevzner & Tesler, 2004] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Distanza fra genomi Distanza fra il genoma umano e di topo: Blocchi di sintenia: 281 Reversal Distance: 245 [Pevzner & Tesler, 2004] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sull'ordine dei geni b sp1 sp2 sp3 … Identificazione dei marcatori ortologhi a e sp2 d sp1 a b c d c e e c a sp3 d b … Identificazione del loro ordine sul genoma ortologhi Matrice delle distanze Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011 Metodi basati sull'ordine dei geni Esempio: - Filogenesi di un phyla di archibatteri; - Basato sulla frequenza di coppie di geni adiacenti (quanti geni vicini conservati in due genomi); - Coincide per la maggior parte con gli alberi basati su rRNA, ma evidenzia alcune nuove parentele [Wolf et al., 2001] Lezione 7 Genomica Computazionale, Laurea Magistrale A.A. 2010/2011