Allineamenti Allineamenti multipli (Laboratorio)

Laboratorio di
Bioinformatica I
Allineamenti
multipli
(Laboratorio)
Dott. Sergio Marin Vargas (2014 / 2015)
NCBI Homologene
http://www.ncbi.nlm.nih.gov/homologene
Ricerca di un gene
(Esempio: GAPDH)
Un sistema automatizzato nel quale sono stati pre-costruiti gruppi
putativi di proteine omologhe a partire da un gene completo
(valido solo per eucarioti).
NCBI Homologene risultato 1
Include gruppi di sequenze con elevata similarità da genomi di eucarioti (i procarioti non sono compresi)
completamente sequenziati.
Fornisce allineamenti multipli con
Punteggi
informazioni su domini conservati
informazioni fenotipiche.
Id dell’allineamento
Un modo veloce per recuperare allineamenti.
in homologene (hgid)
Download delle
sequenze
Informazioni su geni e
proteine allineati
Link alle risorse in NCBI
per il gene/proteina
Domini conservati
NCBI Homologene risultato 2
Allineamenti precalcolati
Domini conservati
Link a UniGene
Link a Pubmed
Esercizio 1: Homologene
1. Provare a cercare in NCBI Homologene il gruppo di
proteine omologhe per il gene GAPDH, un enzima che
catalizza il 6to passo della Glicolisi
(glyceraldehyde-3-phosphate dehydrogenase)
2. Selezionare l’allineamento con codice 107053
3. Visualizzare l’allineamento a coppie
4. Visualizzare l’allineamento multiplo
5. Scaricare le sequenze
6. Non chiudete per confrontare con il prossimo esercizio
INTERPRETAZIONE DELL’ALLINEAMENTO
1. Quale specie è stata interessata da un inserimento di 5
aminoacidi? In che posizione?
2. Nella stessa specie vi è un inserimento di un singolo
aminoacido, quale e precisamente in che posizione?
Esercizio 1: Homologene
EBI Multiple Sequence Alignment
https://www.ebi.ac.uk/Tools/msa
EBI ClustalW (ClustalW2)
https://www.ebi.ac.uk/Tools/msa/clustalw2/
EBI Muscle
http://www.ebi.ac.uk/Tools/msa/muscle/
EBI Clustal Omega
https://www.ebi.ac.uk/Tools/msa/clustalo/
Esercizio 2: ClustalW, Muscle
e Clustal Omega
1.
2.
3.
4.
5.
Scaricare le sequenze del gruppo “Homegene”
107053 (sono le stesse sequenze scaricate
nell’esercizio 1)
Allineare le sequenze con ClustalW
Allineare le sequenze con Muscle
Allineare le sequenze con Clustal Omega
Confrontati tutti i 3 risultati tra di loro e con il
risultato dell’esercizio 1
Esercizio 2: ClustalW, Muscle
e Clustal Omega
Esercizio 3: EBI Clustal omega
http://www.ebi.ac.uk/Tools/msa/clustalo/
Da NCBI Protein recuperare in formato FASTA le sequenze
con i seguenti codice RefSeq (incollarle in un file di testo una
sequenza dopo l’altra con l’intestazione fasta):
WP_011462395.1, WP_011712155.1, WP_011288924.1, NP_249218.1
WP_011313105.1, WP_011287422.1, ZP_00942609.1
1. Di che tipo di proteine si tratta?
Collegarsi al sito di Clustal omega presso EBI ed incollare le 7 sequenze
e lanciare il programma con i parametri di default.
2. In quale regione si concentra il numero maggiore di indel e a causa di
quale sequenza?
3. Utilizzare l’opzione show colors. Che cosa evidenzia?
4. Visualizzare la matrice di identità (Result Summary).
Quali dati riporta?
5. Utilizzando il Tab “Phylogenetic Tree”, quale e’ la differenza tra il
cladogramma e l’albero reale?
Esercizio 4: Ottenere sequenze
utilizzando BLASTP
1.
2.
3.
Eseguire una ricerca utilizzando in BLASTP sul database
refseq di glyceraldehyde-3-phosphate dehydrogenase
(NP_002037) e controllare gli allineamenti a coppie nel
risultato della query.
Selezionare le proteine con RefSeq: NP_001182355.1;
NP_001125767.1; NP_001009307.1; NP_001193288.1;
NP_032110.1; NP_001276655.1 facendo clic sulla casella
accanto a ciascuna, e scaricare le sequenze FASTA non
allineate. Salvare il file.
Collegarsi a ClustalW2 presso EBI ed eseguire un
allineamento multiplo caricando il file selezionato. Dovuto a
quale sequenza è necessario aggiungere 23/24 gaps alle
altre sequenze per che siano allineate ?
Pfam (http://pfam.xfam.org/)
PF00042
Pfam (http://pfam.xfam.org/)
http://www.jalview.org/
Eseguire nel
Desktop
Eseguire come
Applet
Jalview (www.jalview.org)
Browser allineamenti
Browser
alberi
filogenetici
Browser
struttura
proteine
Jalview (allineamenti)
http://www.jalview.org/help.html
Menu “Annotations” -> Show Annotations
Conservation:
Quality:
Consensus:
conservazione delle proprietà fisico chimiche
probabilità di osservare mutazioni (BLOSUM62)
frazione di AA identici
Interfaccia di
input (incolla
allineamento
multiplo in
formato clustal)
Interfaccia di output (diversi
formati di allineamento multiplo)
Criteri di colorazione dell’allineamento.
View: overview window
Esercizio 5: Jalview e Pfam
1.
2.
3.
4.
5.
Scaricare le proteine “seed” allineate della
famiglia delle globine (PF00042) di Pfam in
formato fasta.
Caricare l’allineamento all’interno di Jalview.
Colorarlo col tipo “zappo”
In quale posizione si trova l’amino acido più
conservato e a quale amino acido corrisponde?
Salvare l’allineamento in formato “Clustal” e
visualizzare i file, spiegare in cosa consiste il
“formato Clustal” ?
Esercizio 6: Jalview e
Clustal omega
1.
2.
3.
4.
5.
Scaricare in formato fasta le proteine “globine”
di C. elegans di NCBI che siano non ridondanti
e ben annotate. Quante proteine sono ?.
Allineare le proteine appena scaricate con
“Clustal omega”.
Scaricare il risultato dell’allineamento in formato
“clustal”.
Visualizzare l’allineamento con Jalview.
Quali sono i due aminoacidi con una
percentuale di identità maggiore in quale
posizioni ?
Portale Mobyle@Pasteur
mobyle.pasteur.fr
Il menu di sinistra ha una struttura ad albero
Include tool per il MSA: ClustalW, Mafft, Muscle, ecc
Programmi per i allineamenti
multiple (MSA)
ClustalW per sequenze multiple
Form interattivi
dei diversi
programmi
disponibili
Programmi per
l’analisi
filogenetica
Portale Mobyle@Pasteur
mobyle.pasteur.fr
Si noti la
presenza di più
finestre per
gestire diversi
processi
Esegue il
programma
Opzioni avanzate
(formato output,
parametri del
programma, ecc)
Sequenze da allineare
Sequenze allineate
Portale Mobyle@Pasteur
mobyle.pasteur.fr
Richiede una mail qualsiasi e un controllo con captcha di sicurezza
Portale Mobyle@Pasteur
mobyle.pasteur.fr
I risultati sono presentati in diversi formati
Sezione dei
risultati
Allineamento nel
formato scelto
Visualizza a
schermo intero
Visualizza l’allineamento in
JALVIEW
Altri dati
dell’esecuzione
Esercizio 7: Mobyle@Pasteur
Nel sito homologene scaricare le sequenze fasta
che ci sono nell’entry relativa alla proteina
NP_000940.1 ed allinearle con muscle presso
http://mobyle.pasteur.fr/ (output in formato clustal):
1. Quante sequenze si stanno allineando?
2. Cosa permette di dire che le sequenze sono in
formato FASTA?
3. Salvare l’output dell’allineamento in un file di
testo,
4. Aprire l’allineamento con Jalview
5. Dove nell’allineamento è conservata la sequenza
“PPVPGPK” (approssimativamente)?
6. Quale è la sequenza e la posizione della
seconda regione conservata (in lunghezza) ?
Esercizio 8: Mobyle@Pasteur
Usando le sequenze in formato FASTA del file
proteins.fasta (lipocaline di varie specie) che si trova
nella pagina del corso
Eseguire gli allineamenti multipli di sequenza utilizzando
i seguenti algoritmi disponibili presso mobyle.pasteur.fr
(impostare l’output a clustal nelle impostazioni
avanzate)
clustal omega (multiallineamento)
mafft
muscle
Analizzare e Visualizzare gli allineamenti sia nel file di
testo (con un editor qualsiasi) sia con Jalview
Quanti e quali residui sono perfettamente conservati in
ciascuno dei 3 algoritmi ? Quali posizioni conservano le
proprietà fisico-chimiche ?
T-Coffee
http://tcoffee.crg.cat/apps/tcoffee/index.html
Allineamento trascritti
Allineamento sequenze
proteiche
Allineamento multiplo
Allineamento sequenze
nucleotidiche
T-Coffee
http://tcoffee.crg.cat/apps/tcoffee/do:regular
Sequenze da allineare
M-Coffee
http://tcoffee.crg.cat/apps/tcoffee/do:mcoffee
Sequenze da allineare
Esercizio 9: T-Coffee
Usando le sequenze in formato FASTA del file
proteins.fasta (lipocaline di varie specie) che si trova
nella pagina del corso
Eseguire l’allineamento multiplo utilizzando T-Coffee
Confrontare l’allineamento ottenuto con quelli ottenuti
nell’esercizio precedente .
Quale coppia di residui della sequenza di ratto non si
allinea con nessun’altra sequenza?
Ci riusciva Clustal omega ad individuarla?
La sequenza SEAA nella entry 1Z24 si allinea alle altre
secondo T-Coffee? E secondo Clustal Omega?
Esercizio 10: M-Coffee
Usando le sequenze in formato FASTA del file
proteins.fasta (lipocaline di varie specie) che si trova
nella pagina del corso
Eseguire l’allineamento multiplo utilizzando M-Coffee
Confrontare l’allineamento ottenuto con quello
dell’esercizio precedente .
La coppia di residui di ratto NL (posizioni 33-34) si
allinea con altre sequenze?
La sequenza SEAA nella entry 1Z24 si allinea alle
altre?
Esercizio 10: M-Coffee