Laboratorio di Bioinformatica I Allineamenti multipli (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015) NCBI Homologene http://www.ncbi.nlm.nih.gov/homologene Ricerca di un gene (Esempio: GAPDH) Un sistema automatizzato nel quale sono stati pre-costruiti gruppi putativi di proteine omologhe a partire da un gene completo (valido solo per eucarioti). NCBI Homologene risultato 1 Include gruppi di sequenze con elevata similarità da genomi di eucarioti (i procarioti non sono compresi) completamente sequenziati. Fornisce allineamenti multipli con Punteggi informazioni su domini conservati informazioni fenotipiche. Id dell’allineamento Un modo veloce per recuperare allineamenti. in homologene (hgid) Download delle sequenze Informazioni su geni e proteine allineati Link alle risorse in NCBI per il gene/proteina Domini conservati NCBI Homologene risultato 2 Allineamenti precalcolati Domini conservati Link a UniGene Link a Pubmed Esercizio 1: Homologene 1. Provare a cercare in NCBI Homologene il gruppo di proteine omologhe per il gene GAPDH, un enzima che catalizza il 6to passo della Glicolisi (glyceraldehyde-3-phosphate dehydrogenase) 2. Selezionare l’allineamento con codice 107053 3. Visualizzare l’allineamento a coppie 4. Visualizzare l’allineamento multiplo 5. Scaricare le sequenze 6. Non chiudete per confrontare con il prossimo esercizio INTERPRETAZIONE DELL’ALLINEAMENTO 1. Quale specie è stata interessata da un inserimento di 5 aminoacidi? In che posizione? 2. Nella stessa specie vi è un inserimento di un singolo aminoacido, quale e precisamente in che posizione? Esercizio 1: Homologene EBI Multiple Sequence Alignment https://www.ebi.ac.uk/Tools/msa EBI ClustalW (ClustalW2) https://www.ebi.ac.uk/Tools/msa/clustalw2/ EBI Muscle http://www.ebi.ac.uk/Tools/msa/muscle/ EBI Clustal Omega https://www.ebi.ac.uk/Tools/msa/clustalo/ Esercizio 2: ClustalW, Muscle e Clustal Omega 1. 2. 3. 4. 5. Scaricare le sequenze del gruppo “Homegene” 107053 (sono le stesse sequenze scaricate nell’esercizio 1) Allineare le sequenze con ClustalW Allineare le sequenze con Muscle Allineare le sequenze con Clustal Omega Confrontati tutti i 3 risultati tra di loro e con il risultato dell’esercizio 1 Esercizio 2: ClustalW, Muscle e Clustal Omega Esercizio 3: EBI Clustal omega http://www.ebi.ac.uk/Tools/msa/clustalo/ Da NCBI Protein recuperare in formato FASTA le sequenze con i seguenti codice RefSeq (incollarle in un file di testo una sequenza dopo l’altra con l’intestazione fasta): WP_011462395.1, WP_011712155.1, WP_011288924.1, NP_249218.1 WP_011313105.1, WP_011287422.1, ZP_00942609.1 1. Di che tipo di proteine si tratta? Collegarsi al sito di Clustal omega presso EBI ed incollare le 7 sequenze e lanciare il programma con i parametri di default. 2. In quale regione si concentra il numero maggiore di indel e a causa di quale sequenza? 3. Utilizzare l’opzione show colors. Che cosa evidenzia? 4. Visualizzare la matrice di identità (Result Summary). Quali dati riporta? 5. Utilizzando il Tab “Phylogenetic Tree”, quale e’ la differenza tra il cladogramma e l’albero reale? Esercizio 4: Ottenere sequenze utilizzando BLASTP 1. 2. 3. Eseguire una ricerca utilizzando in BLASTP sul database refseq di glyceraldehyde-3-phosphate dehydrogenase (NP_002037) e controllare gli allineamenti a coppie nel risultato della query. Selezionare le proteine con RefSeq: NP_001182355.1; NP_001125767.1; NP_001009307.1; NP_001193288.1; NP_032110.1; NP_001276655.1 facendo clic sulla casella accanto a ciascuna, e scaricare le sequenze FASTA non allineate. Salvare il file. Collegarsi a ClustalW2 presso EBI ed eseguire un allineamento multiplo caricando il file selezionato. Dovuto a quale sequenza è necessario aggiungere 23/24 gaps alle altre sequenze per che siano allineate ? Pfam (http://pfam.xfam.org/) PF00042 Pfam (http://pfam.xfam.org/) http://www.jalview.org/ Eseguire nel Desktop Eseguire come Applet Jalview (www.jalview.org) Browser allineamenti Browser alberi filogenetici Browser struttura proteine Jalview (allineamenti) http://www.jalview.org/help.html Menu “Annotations” -> Show Annotations Conservation: Quality: Consensus: conservazione delle proprietà fisico chimiche probabilità di osservare mutazioni (BLOSUM62) frazione di AA identici Interfaccia di input (incolla allineamento multiplo in formato clustal) Interfaccia di output (diversi formati di allineamento multiplo) Criteri di colorazione dell’allineamento. View: overview window Esercizio 5: Jalview e Pfam 1. 2. 3. 4. 5. Scaricare le proteine “seed” allineate della famiglia delle globine (PF00042) di Pfam in formato fasta. Caricare l’allineamento all’interno di Jalview. Colorarlo col tipo “zappo” In quale posizione si trova l’amino acido più conservato e a quale amino acido corrisponde? Salvare l’allineamento in formato “Clustal” e visualizzare i file, spiegare in cosa consiste il “formato Clustal” ? Esercizio 6: Jalview e Clustal omega 1. 2. 3. 4. 5. Scaricare in formato fasta le proteine “globine” di C. elegans di NCBI che siano non ridondanti e ben annotate. Quante proteine sono ?. Allineare le proteine appena scaricate con “Clustal omega”. Scaricare il risultato dell’allineamento in formato “clustal”. Visualizzare l’allineamento con Jalview. Quali sono i due aminoacidi con una percentuale di identità maggiore in quale posizioni ? Portale Mobyle@Pasteur mobyle.pasteur.fr Il menu di sinistra ha una struttura ad albero Include tool per il MSA: ClustalW, Mafft, Muscle, ecc Programmi per i allineamenti multiple (MSA) ClustalW per sequenze multiple Form interattivi dei diversi programmi disponibili Programmi per l’analisi filogenetica Portale Mobyle@Pasteur mobyle.pasteur.fr Si noti la presenza di più finestre per gestire diversi processi Esegue il programma Opzioni avanzate (formato output, parametri del programma, ecc) Sequenze da allineare Sequenze allineate Portale Mobyle@Pasteur mobyle.pasteur.fr Richiede una mail qualsiasi e un controllo con captcha di sicurezza Portale Mobyle@Pasteur mobyle.pasteur.fr I risultati sono presentati in diversi formati Sezione dei risultati Allineamento nel formato scelto Visualizza a schermo intero Visualizza l’allineamento in JALVIEW Altri dati dell’esecuzione Esercizio 7: Mobyle@Pasteur Nel sito homologene scaricare le sequenze fasta che ci sono nell’entry relativa alla proteina NP_000940.1 ed allinearle con muscle presso http://mobyle.pasteur.fr/ (output in formato clustal): 1. Quante sequenze si stanno allineando? 2. Cosa permette di dire che le sequenze sono in formato FASTA? 3. Salvare l’output dell’allineamento in un file di testo, 4. Aprire l’allineamento con Jalview 5. Dove nell’allineamento è conservata la sequenza “PPVPGPK” (approssimativamente)? 6. Quale è la sequenza e la posizione della seconda regione conservata (in lunghezza) ? Esercizio 8: Mobyle@Pasteur Usando le sequenze in formato FASTA del file proteins.fasta (lipocaline di varie specie) che si trova nella pagina del corso Eseguire gli allineamenti multipli di sequenza utilizzando i seguenti algoritmi disponibili presso mobyle.pasteur.fr (impostare l’output a clustal nelle impostazioni avanzate) clustal omega (multiallineamento) mafft muscle Analizzare e Visualizzare gli allineamenti sia nel file di testo (con un editor qualsiasi) sia con Jalview Quanti e quali residui sono perfettamente conservati in ciascuno dei 3 algoritmi ? Quali posizioni conservano le proprietà fisico-chimiche ? T-Coffee http://tcoffee.crg.cat/apps/tcoffee/index.html Allineamento trascritti Allineamento sequenze proteiche Allineamento multiplo Allineamento sequenze nucleotidiche T-Coffee http://tcoffee.crg.cat/apps/tcoffee/do:regular Sequenze da allineare M-Coffee http://tcoffee.crg.cat/apps/tcoffee/do:mcoffee Sequenze da allineare Esercizio 9: T-Coffee Usando le sequenze in formato FASTA del file proteins.fasta (lipocaline di varie specie) che si trova nella pagina del corso Eseguire l’allineamento multiplo utilizzando T-Coffee Confrontare l’allineamento ottenuto con quelli ottenuti nell’esercizio precedente . Quale coppia di residui della sequenza di ratto non si allinea con nessun’altra sequenza? Ci riusciva Clustal omega ad individuarla? La sequenza SEAA nella entry 1Z24 si allinea alle altre secondo T-Coffee? E secondo Clustal Omega? Esercizio 10: M-Coffee Usando le sequenze in formato FASTA del file proteins.fasta (lipocaline di varie specie) che si trova nella pagina del corso Eseguire l’allineamento multiplo utilizzando M-Coffee Confrontare l’allineamento ottenuto con quello dell’esercizio precedente . La coppia di residui di ratto NL (posizioni 33-34) si allinea con altre sequenze? La sequenza SEAA nella entry 1Z24 si allinea alle altre? Esercizio 10: M-Coffee