Laboratorio di Bioinformatica I Filogenesi Dott. Sergio Marin Vargas (2014 / 2015) Evoluzione Selezione Naturale Selezione Artificiale Variazione casuale Risultato Variazioni Casuali Mutazioni favorite dalla Selezione Naturale Mutazioni non favorevoli Filogenesi (Visualizzare l’evoluzione) Filogenesi (Omologia) Filogenesi (Parologhi ed Ortologhi) Gene ancestrale duplicazione genica Ortologhi: geni omologhi con la stessa funzione in organismi diversi Gene A Gene B Paraloghi: geni all’interno dello stesso organismo derivanti da duplicazione genica speciazione Gene A1 ortologhi Gene A2 paraloghi Gene B1 Specie 1 ortologhi Gene B2 Specie 2 Filogenesi (Distanza genetica) Metodo della massima parsimonia L’albero migliore è quello con il minor numero di cambiamenti (eventi evolutivi,mutazioni, ecc), quello cioè più parsimonioso. Ci possono essere molte topologie che implicano lo stesso numero di cambiamenti, ma sono tutte ugualmente valide. Esercizio 1: Preparazione sequenze Vogliamo ottenere sequenze aminoacidiche dell’emoglobina beta da taxa appartenenti all’ordine dei Cetartiodactyla (balena, maiale, ippopotamo, ecc). Possiamo usare NCBI Protein, cercando con la ricerca avanzata, con i seguenti paramentri: Txid91561 [Organism] citocromo b (identificabile con la sigla cytb) (cercarlo in tutti i campi) Solo nel database RefSeq Si ottengono oltre 200 sequenze, selezionarne le sequenze di queste 11 specie: “Ovis aries”, “Hippopotamus amphibius”, “Lama guanicoe”, “Sus scrofa”, “Camelus ferus”, “Megaptera novaeangliae”, “Cervus elaphus”, “Antilope cervicapra”, “Delphinus capensis”, “Bos taurus” e “Giraffa camelopardalis angolensis” Scaricarle in formato FASTA Modificare il file FASTA in modo che nell’intestazione di ciascuna sequenza ci sia solo il nome dell’organismo (servirà per rendere l’albero filogenetico più leggibile) Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/) Alberi Filogenetici con Mobyle@Pasteur (http://mobyle.pasteur.fr/) Propone un workflow per la creazione di alberi 1 2 3 Esercizio 2: Alberi filogenetici con Mobyle@Pasteur Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità il questo file si trova nella pagina del corso con il nome filogenesi.fasta Aprire il sito http://mobyle.pasteur.fr/ , poi: Nella sezione alignment multiple muscle Fare un allineamento multiplo delle sequenze con muscle (output in formato clustal). Salvare l‘allineamento in formato clustalw. Nella sezione phylogeny distance protdist Utilizzando l’allineamento muscle calcolare la matrice delle distanze con il tool protdist, notare la possibilità di impostare il modello della distanza (Advanced Options Distance model) comunque lasciare i parametri di default. Salvare la matrice delle distanze. Nella sezione phylogeny distance neighbor Calcolare l’albero filogenetico con il programma neighbor a partire dalla matrice di distanza calcolata precedentemente con questi due metodi (Advanced Options Distance method, in alto): • Neighbor-joining • UPGMA Confrontare i due alberi filogenetici generati. Le coppie LamaCammello, Delfino-Balena, Pecora-Antilope sono vicine evolutivamente? Alberi Filogenetici con Jalview http://www.jalview.org/help/html/calculations/tree.html Esercizio 3: Alberi filogenetici con Jalview Aprire Jalview (www.jalview.org), poi caricare l’allineamento fatto con muscle dell’esercizio precedente. Calcolare due alberi filogenetici tramite Jalview, con: Neighbor-joining utilizzando la percentuale di identità. Average distance utilizzando la percentuale di identità. Confrontare i due alberi filogenetici generati tra di loro. Confrontare questi alberi con quelli ottenuti nell’esercizio precedente. Le coppie Lama-Cammello, Delfino-Balena, PecoraAntilope sono sempre vicine evolutivamente? Se cliccate su un qualsiasi punto dell’albero filogenetico di Jalview appare una linea rossa a cosa serve ? Alberi Filogenetici con EMBL-EBI Esercizio 4: Alberi filogenetici con EBI-EMBL Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità questo file si trova nella pagina del corso con il nome filogenesi.fasta. Aprire il programma di allineamento Muscle di EBI-EMBl (http://www.ebi.ac.uk/Tools/msa/muscle/), poi caricare le sequenze per allinearle. Nel risultato dell’allineamento cliccare su “Phylogenetic Tree” e controllare l’albero filogenetico generato nella sezione “Phylogram”. Quale metodo è stato utilizzato per il calcolo della distanza genetica ? Le coppie Lama-Cammello, Delfino-Balena, PecoraAntilope sono sempre vicine evolutivamente? Alberi Filogenetici Bootstrap Il bootstrap serve per testare la robustezza di un albero (o parte di esso): • La tecnica consiste nella randomizzazione. • La confidenza si calcola ri-campionando i dati disponibili. • I caratteri (colonne in un allineamento di sequenze) sono estratte con rimpiazzo per generare molti (almeno 100) pseudo data set. • Ogni pseudo data set viene analizzato per ricostruire una filogenesi (con un qualsiasi metodo). • L’albero che sintetizza i data set, per esempio 100, viene costruito di solito con il metodo del maggior consensus (majority rule consensus ). • La frequenza con cui i diversi gruppi si ritrovano nell’albero di consenso così costruito (le bootstrap proportions) sono una misura del supporto statistico per quel gruppo. Alberi Filogenetici Bootstrap con Mobyle@Pasteur Esercizio 5: Alberi filogenetici Bootstrap Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità questo file si trova nella pagina del corso con il nome filogenesi.fasta. Allineare le sequenze con Clustal omega multialign (di Mobyle@Pasteur) Utilizzando l’allineamento multiplo, nella sezione phylogeny distance protdist, calcolare la matrice delle distanze: Nella sezione “Bootstrap options” Perform a bootstrap before analysis Yes Resampling methods (J)? Bootstrap Random number seed (must be odd) 123 (utilizziamo 123 come seme) How many replicates (R)? 20 (per ridurre il tempo, ma il minimo sarebbe 100) Controllare la matrice delle distanze. Quante matrici ci sono ? Con la matrice delle distanze multipla per il bootstrap, calcolare ora un albero con il bootstrap, nella sezione phylogeny distance neighbor (Verificare di avere nell’input 20 matrici delle distanze) Usare il metodo Neighbor-joining Nella sezione “Bootstrap options” impostare: Analyze multiple data sets (M) yes How many data sets 20 (lo stesso numero usato per protdist) Random number seed for multiple dataset (must be odd) 123 Compute a consensus tree Yes Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre vicine evolutivamente? Phylogeny.fr http://www.phylogeny.fr/ Programmi disponibili per blast, allineamento multiplo e analisi filogenetica Phylogeny.fr http://www.phylogeny.fr/ Un’alternativa a Mobyle@Pasteur, un sito simile che offre tool online, più semplice ma meno ricco. Tool per l’analisi filogenetica Phylogeny.fr http://www.phylogeny.fr/ Dal menu per la Phylogeny analysis si accede a diverse modalità La modalità più dettagliata è “à la carte” http://mrbayes.sourceforge.net/ Diversi strumenti di visualizzazione degli alberi. TreeDyn è un ottimo strumento di visualizzazione. Esercizio 6: Alberi filogenetici con Phylogeny.fr Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare: Multiple Alignment T-Coffee Alignment curation Gblocks Construction of phylogenetic tree Visualisation of phylogenetic tree TNT (Parsimony) TreeDyn Lanciare il workflow con le sequenze dell’esercizio 1. Visualizzare l’albero con “Phylogram”, “Cladogram”, “Radial (by Drawtree)”, “Radial (by TreeDyn)” e “Circular”. Perche sembra che Pecora e Antilope non siano evolutivamente così vicine come con gli altri alberi. Rifare la stessa procedura ma adesso utilizzare come Construction of phylogenetic tree “Maximum Likelihood” (PhyML). Cambia qualcosa ? Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes) Creare un workflow per alberi filogenetici con Phylogeny.fr, utilizzando la modalità dettagliata “à la carte”, quindi impostare: Multiple Alignment Muscle Alignment curation Gblocks Construction of phylogenetic tree Visualisation of phylogenetic tree MrBayes (Bayesian inference) TreeDyn Lanciare il workflow con le sequenze dell’esercizio 1 e le opzioni: MrBayes porre: Number of generations = 1000 Discard first 100 tree sampled. Com’è l’abero risultato? Visualizzare l’albero filogenetico con “Radial (by Drawtree)” Esercizio 7: Alberi filogenetici con Phylogeny.fr (MrBayes)