Diapositiva 1 - Corso di Biologia Molecolare 2

Esempio di utilizzo del programma BLAST
disponibile all’NCBI
www.ncbi.nlm.nih.gov/BLAST
Form di Nucleotide BLAST
Per un uso più avanzato, si possono
impostare parametri particolari (es.
cost to open gap, cost to extende
gap, penalty for mismatch ecc)
Informatica e Bioinformatica – A. A. 2013-2014
1
Sequenza query
La risposta che si ottiene può essere
suddivisa in 4 parti:
1. dati generali
2. allineamento grafico
3. listato delle sequenze con
allineamento significativo
4. dettaglio degli allineamenti ottenuti
1. dati generali
2. allineamento grafico
Informatica e Bioinformatica – A. A. 2013-2014
2
3. listato delle sequenze con allineamento significativo
Ricordate che BLAST è un programma di allineamenti locali, quindi, per ogni confronto tra la sequenza
query e una delle sequenza del database, potrebbero essere trovati più allineamenti differenti.
Significato delle colonne
Max score: punteggio dell’allineamento locale più significativo: punteggio alto  elevata similarità
Total score: la somma dei punteggi di tutti gli allineamenti locali trovati tra la sequenza query e la sequenza del
database
Query coverage: percentuale della sequenza allineata
E value: esprime la probabilità che l’allineamento trovato sia casuale. Più basso è maggiore è la probabilità che
NON sia casuale. (dipende, oltre che dalla similarità, anche dalla numerosità delle sequenze in database)
Max Identit: percentuale di identità dell’allineamento locale più significativo
TTTCTCGACTGCAGAGAAA
||||| ||| ||||||||
TTTCTAGACTGCAGAGAAA
Identità =82% (16 / 19)
Informatica e Bioinformatica – A. A. 2013-2014
3
4. dettaglio degli allineamenti ottenuti
......continua con i dettagli degli altri allineamenti .....
Informatica e Bioinformatica – A. A. 2013-2014
4
Risultato della ricerca (con la stessa sequenza nucleotidica) tramite BLASTX: ricerca di similarità
in una banca dati di sequenze proteiche a partire da una sequenza query di nucleotidi, dopo aver
tradotto automaticamente la query in aminoacidi utilizzando tutti i possibili frame di lettura.
Informatica e Bioinformatica – A. A. 2013-2014
5
ESEMPIO di BLAST 2 SEQUENCES
Utilizziamo BL2SEQ con due sequenze nucleotidiche
Informatica e Bioinformatica – A. A. 2013-2014
6
Form dell’NCBI nel quale immettere le due sequenze da confrontare
Visualizzazione
dei risultati:
dati generali
Informatica e Bioinformatica – A. A. 2013-2014
7
Zoom della regione di
gap tra le due sequenze
allineate
Informatica e Bioinformatica – A. A. 2013-2014
8
BLAT Blast-like alignment tool
Programma specializzato in allineamenti di sequenze su interi genomi e sviluppato
da J. Kent (Santa Cruz, CA).
Informatica e Bioinformatica – A. A. 2013-2014
9
BLAT Blast-like alignment tool
Proviamo a fornire a BLAT la sequenza di un mRNA e a vedere dove e come si allinea sul
genoma umano
Informatica e Bioinformatica – A. A. 2013-2014
10
RISULTATO di BLAT
Si può visualizzare il risultato dell’allineamento selezionando il link ipertestuale browser.
E si possono visualizzare i dettagli dell’allineamento selezionando il link ipertestuale details.
Informatica e Bioinformatica – A. A. 2013-2014
11
I dettagli riguardano sia la
sequenza di input (mRNA)
Informatica e Bioinformatica – A. A. 2013-2014
12
Che le regioni della sequenza genomica che si allineano con l’mRNA
In maiuscolo
la sequenza di
input (mRNA)
In minuscolo e nero
la sequenza genomica
che non allinea:
INTRONE, oppure
regione intergenica.
Gli introni di solito
iniziano con GT e
finiscono con AG
Informatica e Bioinformatica – A. A. 2013-2014
13
BLAT contro BLAST
BLAT mantiene in memoria un indice di un intero genoma: il database target di BLAT non è un set di
sequenze GenBank, ma un indice derivato dall'assemblaggio dell'intero genoma.
BLAT per gli acidi nucleici è scritto per individuare velocemente sequenze di 40 basi o più e con il 95%
di similarità o più. Potrebbe non individuare allineamenti più divergenti o corti.
BLAT per proteine individua sequenze proteiche con più dell'80% di similarità alla query lunga almeno
20 aa.
In pratica, a causa del grado di divergenza tra sequenze nel corso dell'evoluzione:
DNA BLAT lavora bene su uomo ed i primati,
BLAT per proteine trova buoni match tra le proteine conservate di vertebrati terrestri
e anche organismi più distanti filogeneticamente.
Da un punto di vista pratico, BLAT ha diversi vantaggi rispetto a BLAST:
* velocità (no code, risposte in secondi) ma ha una minore specificità
* diverse modalità di ordinamento dell'output
* collegamento diretto nel UCSC Genome Browser
* dettaglio dei blocchi di allineamento nell'ordine naturale nel genomico
BLAT viene solitamente usato per cercare la collocazione di una sequenze nel genoma o per determinare
la struttura esonica di un mRNA.
Informatica e Bioinformatica – A. A. 2013-2014
14