Diapositiva 1 - Corso di Biologia Molecolare 2

ALLINEAMENTO DI
SEQUENZE
1
DATABASE DI
SEQUENZE
RICERCA
TESTUALE
Ricerca dei record i cui campi
soddisfano determinati criteri
(hanno certi valori)
Abbiamo già visto nelle
lezioni precedenti
SIMILARITA’
Ricerca dei record che
hanno le sequenze più
“simili” ad una sequenza
fornita come query
Oggi iniziamo studiare questo metodo
di ricerca
2
CONSIDERAZIONI GENERALI
Acidi nucleici e proteine sono costituiti da sequenze lineari rispettivamente di
nucleotidi e di aminoacidi; entrambi possono essere rappresentati da singole lettere.
È quindi possibile rappresentare acidi nucleici e proteine come stringhe di lettere e
perciò, usando programmi informatici, trattarli come qualsiasi stringa di caratteri.
La stringa di caratteri è soltanto una rappresentazione semplificata del corrispondente
acido nucleico o proteina.
In questa parte del corso cercheremo di dare risposte alle domande:
Cosa significa il termine ‘similarità’ tra due sequenze ?
A cosa servono le ricerce di sequenze ‘simili’ ?
3
Possiamo ricavare alcune considerazioni sulla similarità tra queste coppie di sequenze
?
A) Le due sequenze hanno ambedue 11 A, 9 T, 13 C, 7 G; (sono simili ?)
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
CAGCACGTGGCTTACTCACTACCAGTTCTCACAGAATGCA
B) Queste due seq. hanno lo stesso contenuto in basi e se sovrapposte presentano 22 basi
allineate (più del 50%) è casuale o possono essere considerate simili?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
| | | | | | | || | | | | || | || | | ||
ATTCCCCACGATCGTTTCCTAGTCCGGAAACACAACCGGA
C) Anche queste due sequenze presentano 22 basi allineate sovrapposte, come le consideriamo?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
| ||
||||||||||||||||||
|
TAGTAGCCGACCATTTCTCGACTGCAGAGAATTACTTCAC
D) Due sequenze sovrapposte
ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
| ||||| |
||
|| |
CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG
le due stesse sequenze traslate e sovrapposte
TTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
|||||||||||||||||||||||||||
CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG
4
Dagli esempi riportati si intuisce che, per determinare quanto due sequenze siano
simili, è necessario trovare un modo per allineare le due sequenze e che, per ogni
allineamento significativo trovato, fornisca dei dati per la stima della similarità.
E’ evidente che l’allineamento non può avvenire con la semplice sovrapposizione
delle due sequenze.
In questo corso, prima vedremo un semplice metodo di allineamento di
sequenze (dot-matrix) e poi altri metodi più complessi (blast, blat)
Prima di affrontare l’allineamento di sequenze, cerchiamo di capire perché è
importante ricercare sequenze simili.
Cos’è che determina le variazioni di sequenze ?
Cosa sono le sequenze omologhe, paraloghe e ortologhe ?
5
Evoluzione Genica
Principali motori responsabili dell’evoluzione genica
-Duplicazione dei geni (nelle cellule germinali, intere regioni genomiche (anche contenenti geni)
possono essere duplicate. Inizialmente, l’organismo che si svilupperà, può avere due geni che producono la
stessa proteina (a volte questo è conveniente spesso è letale).
-Mutazione del codice genetico (mutazioni puntiformi, inversioni, delezioni o inserzioni fanno
variare il codice genetico dei singoli geni)
Mutazioni puntiformi - gap (Delezioni o inserzioni)
Mutazioni puntiformi (sNPS)
Met Glu Pro Cys Leu Arg Glu ecc
ATG GAG CCT TGT TTG CGT CAG ecc
Mutazione
silente
Mutazione missense
CysSer
Mutazione
‘non senso’
ATG GAG CCT TGA TTG CGT CAG ecc
Met Glu Pro Ter
ATG GAA CCT TCT TTG CGT CAG ecc
Met Glu Pro Ser Leu Arg Glu ecc
6
Gap: delezioni o inserzioni
(sfasano il frame di traduzione se non sono multipli di 3)
Met Glu Pro Cys Leu Arg Glu
ATG GAG CCT TGT TTG CGT CAG Inserzione di ‘G’
Inserzione di ‘A’
ATG GAG CCT TGG TTT GCG TCA G
Met Glu Pro Trp Phe Ala Ser ecc.
ATG GAG CCT TGA TTT GCG TCA G
Met Glu Pro Ter
Si crea uno stop prematuro
Met Glu Pro Cys Leu Arg Glu
ATG GAG CCT TGT TTG CGT CAG
Cambiano tutti gli
aminoacidi a valle
Delezione della ‘G’
ATG GAG CCT TGT TTC GTC AG
Met Glu Pro Cys Phe Val ecc.
Notare che, in caso di inserzioni o delezioni di lunghezza non multipla di 3, la
sequenza della proteina a valle del gap è completamente differente dall’originale
I gap introducono delle discontinuità e creano una maggior difficoltà negli
allineamenti; gli algoritmi di allineamento devono analizzare in modo esaustivo
tutte le possibili inserzione dei gap.
7
Evoluzione genica e omologia
Organismo X
Gene A-Gene B-Gene C-ecc
Speciazione
(gene A2 da A)
Organismo X
Gene A-Gene B-Gene C-ecc
Organismo Y
Gene A2-Gene B-Gene C-ecc
Speciazione
(gene A3 da A2)
Organismo Y
Gene A2-Gene B-Gene C-ecc
Organismo Z
Gene A3-Gene B-Gene C-ecc
In biologia il termine omologia ha il significato particolare di indicare che due strutture,
ad esempio due organi, hanno un'origine evolutiva comune
L'omologia presuppone quindi l'esistenza di un organismo ancestrale comune da cui le
strutture omologhe si sono evolute
La speciazione (origine di una nuova specie da una già esistente) implica il cambiamento
di alcune funzioni geniche le quali derivato dal ‘cambiamento’ dei rispettivi geni.
Due geni omologhi devono avere un gene ancestrale da cui sono entrambi originati
Nella figura, i geni A, A2, A3 sono omologhi
8
La duplicazione genica è l'evento più frequente nell'evoluzione di nuovi geni o funzioni
Gene A
Gene A
Gene A’
Gene B
Gene A’
E e B sono ortologhi
Duplicazione genica
Gene C
Gene A
Gene D
C e D sono paraloghi
Nel caso di due geni omologhi derivati da duplicazione genica si parla di geni paraloghi, viceversa,
quando due geni omologhi sono derivati da speciazione (ossia duplicazione di specie) allora si parla di
geni ortologhi.
Deve comunque essere chiaro che sia i paraloghi che gli ortologhi sono omologhi.
Duplicazione (1% dei geni / milione anni)
Divergenza per mutazioni (0.1% / milione di anni)
9
Similarità, Omologia e Analogia
(spesso si fanno confusione tra questi termini)
La similarità è un aspetto quantitativo che indica (fissato un criterio comparativo, % identità,
% mutazioni conservative...) un livello di somiglianza tra le sequenze.
L’omologia è un aspetto qualitativo che riguarda più propriamente la “funzione” delle
sequenze ed indica un’origine filogenetica comune
Ad esempio l'ala di un uccello e la pinna anteriore di una foca sono omologhi perchè si
suppone che si siano entrambi evoluti dall'arto anteriore di un rettile ancestrale.
L’analogia indica che due strutture hanno una funzione simile, ma che si sono evolute
indipendentemente: ad esempio l'ala di un uccello e quella di una farfalla. In questo caso la
similarità è determinata da una convergenza adattativa anzichè dalla stessa origine evolutiva.
Il termine omologia si applica anche a sequenze di acidi nucleici e proteine.
La similarità tra due sequenze è generalmente dovuta ad una origine evolutiva comune per
cui molto spesso i termini "similarità" e "omologia" si confondono.
Quando non si è certi di un'origine evolutiva comune si dovrebbe parlare di similarità.
Un errore ancora più grave è di parlare di ‘percentuale di omologia’, che non ha nessun
senso.
10
PERCHE’ CERCARE SEQUENZE SIMILI ?
Alcuni esempi:
- Individuare i geni in genomi ‘neo’ sequenziati
- Scoprire nuovi geni
- Assegnare particolari funzioni geniche
- ricostruire la filogenesi di organismi
- ecc. ecc.
Determinazione della funzione di nuove proteine mediante allineamento
Il sequenziamento sistematico di interi organismi e di interi trascrittomi, hanno permesso di
identificare migliaia di geni, molti dei quali codificano per proteine con funzione ignota.
L’analisi di similarità (e quindi l’allineamento) con proteine già note può fornire la
comprensione della loro funzione.
Sequenziamento  geni
Database di sequenze geniche (o
proteiche) con funzione conosciuta
Ricerca di similarità
Assegnazione e annotazione della
probabile funzione del gene
11
Analisi comparata ed evoluzione biologica e filogenesi
L'analisi comparata classica confronta l’anatomia degli organismi per determinare la loro
evoluzione biologica.
Esempio: confrontando l'anatomia dei vertebrati, si può dedurre che i mammiferi sono nati da
un gruppo di rettili nati a loro volta da un gruppo di anfibi nati a loro volta da un gruppo di
pesci.
Applicando metodi comparativi, in molti casi, si può riconoscere anche l'origine degli organi;
esempio i polmoni che si sono originati dalle vesciche natatorie di alcuni pesci, ecc. ecc.
Analisi comparata a livello molecolare Confrontando sequenze geniche/proteiche in
organismi diversi è possibile ricostruire passo dopo passo l'evoluzione delle proteine nel corso
della filogenesi e capire come esse abbiano affinato le loro funzioni, oppure, come siano nate
funzioni nuove.
12
Il problema dell'allineamento di sequenze è molto complesso e costituisce un campo di ricerca
della bioinformatica in continua evoluzione.
I principali algoritmi (metodi computazionali) per allineare sequenze saranno affrontati in
Bioinformatica 2, che è un corso fondamentale del corso di laurea in Biologia Molecolare.
In questo corso ci limiteremo a spiegare in modo semplice i principali metodi di allineamento.
Allineamento mediante DOT MATRIX
Il metodo della dot matrix consiste nel creare una
matrice in cui vengono confrontati tutti i possibili
appaiamenti di ogni carattere delle due sequenze da
allineare.
In termini pratici, una sequenza viene scritta
orizzontalmente sul lato superiore della matrice, da
sinistra a destra, ponendo ogni carattere in
corrispondenza di ogni colonna. Similmente, la
seconda sequenza viene scritta verticalmente sul lato
sinistro della matrice, dall'alto in basso ponendo ogni
carattere in corrispondenza di ogni riga. Nella figura
la direzione delle sequenze è indicata dalle frecce.
Si riempie la matrice, annerendo le caselle che hanno nella corrispondente riga e colonna la stessa
lettera. Si faranno N(righe) x M (colonne) operazioni di comparazione.
13
Analisi della matrice
Se analizzassimo due sequenze identiche (cioè usiamo la stessa
sequenza sia come sequenza orizzontale che come sequenza
verticale) allora otterremmo una diagonale continua che parte
dall'angolo in alto a sinistra per arrivare a quello in basso a destra
Ovviamente oltre alla diagonale troveremmo molti altri puntini: per le sequenze proteiche ci
dovremmo aspettare una casella positiva ogni 20, una ogni 4 invece in caso di sequenze
nucleotidiche. Questo crea un notevole rumore di fondo.
Un modo per ridurre il rumore è di considerare la media dei valori presenti sulla diagonale
all’interno di una determinata finestra (window) invece che considerare le singole caselle
della matrice
Esempio: variando
l’ampiezza della windows
14
Cerchiamo ora di spiegare la piccola diagonale che si
può distinguere in prossimità dell'angolo in alto a
destra: una diagonale posta in quella posizione indica
che la parte finale della sequenza orizzontale è simile
alla parte iniziale della sequenza verticale.
Inoltre, considerando che la stessa parte della
sequenza verticale è simile anche alla parte iniziale
della sequenza orizzontale, possiamo dedurre che la
prima parte e l'ultima parte della sequenza orizzontale
sono simili, probabilmente generate da una
duplicazione parziale del gene.
In generale, quando si osservano due diagonali
parallele si deve pensare ad una porzione della
sequenza che è ripetuta.
15
La diagonale principale della figura mostra un'evidente
interruzione nella parte centrale per poi continuare su una
diagonale diversa, un po' più bassa.
Questi salti di diagonale sono dovuti alla presenza di "gap",
ossia di "buchi" in una delle due sequenze, cioè a segmenti di
sequenza che sono presenti in una sequenza, ma non nell'altra.
Nel caso del nostro esempio abbiamo una delezione nella
sequenza orizzontale o, se si preferisce, una inserzione nella
sequenza verticale.
In generale possiamo dire che:
- Gli allineamenti di una certa lunghezza appaiono come segmenti diagonali
-Le sequenze ripetute appaiono come segmenti diagonali paralleli
-I gap appaiono come salti in diagonale.
-Segmenti diagonali ortogonali rappresentano delle inversioni
16
Durante le esercitazioni utilizzerete il programma ‘DOTLET’ sviluppato da Marco Pagni e
Thomas Junier, che essenzialmente utilizza l'approccio della Dot Matrix in un modo
elegante e di facile uso.
Il programma DotLet è accessibile presso ‘ExPASy - SIB Bioinformatics Resource Portal’
http://myhits.isb-sib.ch/cgi-bin/dotlet
17
Misura della SIMILARITA’ tra due sequenze
Con l'approccio della dot matrix viene semplicemente mostrata una matrice che deve essere
interpretata visivamente (soggettivamente).
Abbiamo bisogno di un sistema che sia anche in grado di estrarre i dati dalla matrice e trovare
automaticamente gli allineamenti migliori, cioè identificare il "percorso" migliore all'interno della
matrice.
In pratica è necessario disporre di programmi che applichino appositi ALGORITMI DI
ALLINEAMENTO (cioè metodi di come allineare le sequenze) ed applicare un
CRITERIO DI SIMILARITA’ per stimare quanto ‘simili’ sono le sequenze allineate.
Un ALGORITMO E’ caratterizzato dall’insieme di tutte le operazioni (finite) applicate
per risolvere il problema (determinazione di tutti i possibili allineamenti)
e dalla Complessità, cioè da come varia il numero delle operazioni da effettuare al variare
della dimensione del problema.
Il tempo di esecuzione di un programma che implementa l’algoritmo è proporzionale alla
complessità dell’algoritmo.
18
Esempio: nella ricerca di un particolare record, in un database ordinato, col metodo dicotomico,
l’algoritmo è dividere in due l’insieme e scegliere il sotto insieme in cui è presente il record voluto,
reiterando questa operazione fino alla fine. La max. complessità in questo caso è data da
(log2(n.record) +1)
Banale esempio di un algoritmo che determina la similarità tra due
sequenze, scorrendo una sequenza sull’altra (algoritmo di scorrimento)
si fa scorrere una sequenza sull’altra contando,
per ogni spostamento, le identità tra le due
sequenze
30 confronti (6x5)
1+2+3+4....
4 identità:
Notare che lo scorrimento semplice non permette
di individuare questo particolare allineamento:
AAKKQW
AA-KQW
La complessità aumenta, se si considerano anche i
possibili gap (inserzioni e delezioni).
(l’algoritmo di scorrimento non è un buon
algoritmo per allineare due sequenze)
19
2) Criterio di Similarità
Come si può affermare che una sequenza è simile ad un’altra? Come possiamo
‘misurare’ la similarità ?
Funzione di score:
L’allineamento delle sequenze dovrebbe fornire un punteggio (score), col quale è
possibile valutare (secondo i criteri impostati) il grado di similarità.
Ad esempio, con l’algoritmo di scorrimento, utilizzando una banale funzione di score che
assegni ‘1’ se le lettere tra le due sequenze sono uguali o ‘0’ se diverse; per ogni allineamento, si
ricava uno score dato dalla somma ottenuta da tutti gli appaiamenti. Il ‘miglior’ allineamento
potrebbe essere quello che ha ottenuto il maggior punteggio.
Questa funzione di score però non rappresenta un criterio molto valido: non ha senso
penalizzare tutti i mismatch allo stesso modo (in genere nelle proteine, la sostituzione tra
aminoacidi carichi non comporta grandi cambiamenti strutturali, mentre la sostituzione di
aminoacidi aromatici con altri carichi comporta spesso pesanti cambiamenti conformazionali.
Per questo sono state introdotte le matrici di sostituzione (vedi prossima slide)
Inoltre possono essere adottate particolari penalità (score) per l’apertura o l’estensione di un gap
che si sommano allo ‘score’ totale
Adozione di criteri differenti  funzioni di ‘score differenti  score finali
differenti
20
Le matrici di sostituzione
Nel caso dell’allineamento di aminoacidi è opportuno applicare dei criteri di similarità che
non si limitano a verificare l’identità assoluta ma tengano conto del fatto che gli aminoacidi
possono essere più o meno simili tra loro. Aminoacidi molto simili possono essere
indifferentemente sostituiti in una proteina senza alcuna variazione apprezzabile nella struttura
della proteina.
Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e molto spesso nel
corso dell’evoluzione prendono il posto l’uno dell’altro nelle proteine. Al contrario acido
aspartico (D) e triptofano (W) sono molto diversi e non sono assolutamente interscambiabili.
E’ quindi ragionevole valutare differentemente la sostituzione (in generale il confronto) di D
con E e di D con W.
Ciò viene descritto in matrici quadrate di 20*20 caselle in cui si attribuisce un punteggio ad ogni
possibile coppia di aminoacidi. Quanto più alto è il punteggio tanto più interscambiabili sono gli
aminoacidi. Punteggi negativi penalizzano invece aminoacidi molto differenti
Esitono due tipi di matrici di sostituzione:
Matrici PAM e matrici BLOSUM (in questo corso non approfondiamo il loro significato, è
sufficiente ricordare la loro funzione in generale)
Matrici PAM: si basano sulla frequenza con cui ciascun aminoacido può subire un evento di sostituzione calcolato mediante uno
studio di filogenesi molecolare
(esistono matrici PAM1, PAM10, ecc che si differenziano per i ‘passo evolutivi’ di cui noi non ci occuperemo e che approfondirete
nei corsi successivi)
Matrici BLOSUM: sono invece basate su una banca dati (BLOCKS) di allineamenti multipli di segmenti proteici senza GAP.
(anche in questo caso esistono differenti matrici BLOSUM adatte per allineamenti tra sequenze con differenti distanze filogenetica)
21
Esempio: matrice di sostituzione BLOSUM 50
Alanina
Ala
A
Arginina
Arg
R
Asparagina
Asn
N
Ac. aspartico
Asp
D
Asn + Asp
Asx
B
Cisteina
Cys
C
Glutamina
Gln
Q
Ac.glutammico
Glu
E
Gln + Glu
Glx
Z
Glicina
Gly
G
lstidina
His
H
lsoleucina
Ile
I
Leucina
Leu
L
Lisina
Lys
K
Metionina
Met
M
Fenilalanina
Phe
F
Prolina
Pro
P
Serina
Ser
S
Treonina
Thr
T
Triptofano
Trp
W
Tirosina
Tyr
Y
Valina
Val
V
22
ALLINEAMENTI GLOBALI E LOCALI
Consideriamo i seguenti due differenti allineamenti delle stesse sequenze
Nel primo caso si hanno 14 identità (evidenziate dalle linee verticali che uniscono aminoacidi
uguali) e tre sostituzioni conservative (es. A-I, S-T) distribuite su tutta la lunghezza della
sequenza. Nel secondo caso si hanno 13 identità ed una sostituzione conservativa su una
regione di 14 aminoacidi.
Quale dei due allineamenti è da considerarsi migliore?
23
Ricerca di similarità di sequenza in banche dati
La ricerca di similarità di sequenze in banche dati è diventata un'operazione molto importante
in diversi settori della biologia.
I programmi che effettuano questa operazione si basano sul confronto sistematico di una
sequenza di partenza (generalmente chiamata query) con ognuna delle sequenze del database.
Sequenza query
Confronti
Database di sequenze
Abbiamo bisogno di un sistema in grado di trovare automaticamente gli allineamenti migliori
utilizzando un opportuno algoritmo e valutando la similarità tra le coppie di sequenze.
Per ogni possibile coppia di sequenze, l’algoritmo deve ‘valutare’ l’allineamento assegnando un particolare
punteggio (score). Alla fine verranno mostrati gli allienamenti ‘migliori’
Data una sequenza query e un database di sequenze, iun programma di allineamento
sistematico deve, per ogni sequenza del database:
* effettuare l'allineamento con la sequenza query;
* attribuire un punteggio;
* se il punteggio è alto lo memorizza;
* ripetere fino alla fine delle sequenze;
* alla fine, mostrare la lista dei migliori allineamenti trovati.
24
In sintesi: Allineare due sequenze, significa trovare la loro miglior sovrapposizione (in base
ai parametri utilizzati)
E’ possibile visualizzare l’allineamento di lunghe sequenze in modo grafico,
rappresentando le stringhe delle sequenze con dei segmenti.
Ad esempio possiamo allineare una sequenza genomica con un trascritto. Nell’allineamento saranno
distinguibili gli esoni e gli introni (come abbiamo visto nelle rappresentazioni grafiche del database
‘gene’
Sequenza genomica
mRNA
E’ possibile allineare in modo grafico anche sequenze simili, disegnando i segmenti allineati con
spessori/colori differenti che rispecchiano il valore di similarità (troveremo questo metodo di
visualizzazione quando useremo il programma di allineamento ‘Blast’)
25
UCSC genome browser
(Una finestra sul genoma)
• Questo browser genomico è stato sviluppato per fronteggiare il problema
dell’enorme aumento di dati genomici derivanti in particolare dai progetti di
sequenziamento dei vertebrati.
• Ovviamente è poco utile avere lunghe stringhe di basi corrispondenti ai
singoli cromosomi dei vari organismi.
• Per questo motivo l’UCSC genome browser fornisce una rapida
visualizzazione grafica di ogni regione di genoma di qualsivoglia lunghezza
assieme ad una grande quantità di informazioni come:
• geni noti, geni predetti, ESTs (expressed sequence TAGs), mRNA, geni
omologhi di altri organismi, ecc.
26
27
Genome Browse
Gruppo di organismi
di interesse
Organismo di cui si
vuole visualizzare la
regione genomica
Durante il sequenziamento
sitematico di un genoma,
spesso vengono rilasciate
versioni successive
specialmente nella fase
conclusiva del progetto; esse
possono essere più o meno
definitive. Qui si fa riferimento
a varie versioni (release) del
genoma umano.
28
Pulsanti di spostamento sul
genoma
Posizione attuale sul
genoma
Pulsanti per ingrandire o
rimpicciolire l’area di
interesse
Permette di “saltare” sulla
posizione digitata sulla
finestra di sinistra
‘Cromosoma’,
rappresentazione schematica e
posizione attuale
29
Notare le regioni maggiormente
conservate.
(domanda: le regioni codificanti sono ben
conservate?)
esone
3’UTR
Fine sequenza
codificante
Sequenze ‘ufficiali’ del
gene presenti nei
differenti database
Varie sequenze
allineate
ESTs
Grado di conservazione della
sequenza nei differenti
organismi
30
Le sequenze dei trascritti sono caratterizzate dagli esoni. Questi sono rappresentati con line
spesse.
Ricordando che la sequenza codificante di un gene può risiedere nel filamento ‘+’ (forward)
o nel filamento ‘-’ (reverse).
Il verso della sequenza codificante è mostrato tramite i segni ‘ >>> ‘ (forward) oppure
‘<<<‘ (reverse)
esoni
Ecc.
introni
Ecc.
>>>>>
Il verso della sequenza è forward (filamento +)
Durante l’esercitazione osservate, negli esempi che vi verranno dati, le regioni
conservate. Noterete che le regioni codificanti sono generalmente molto
conservate. Esistono, però, anche regioni intergeniche altamente conservate (quale
potrebbe essere il motivo?).
31
Sarebbe impossibile visualizzare tutte le informazioni che sono a disposizione. Si
può scegliere cosa vedere e in che forma ‘settando’ in modo opportuno i
moltissimi campi (impostandoli come dense o full o pack oppure nascosti (hide))
presenti nella parte inferiore della pagina
Dalla finestra principale è possibile risalire a moltissime informazioni, quali
- Descrizione e caratteristiche dei geni visualizzati
-Visualizzare record, nei differenti database, delle sequenze geniche / proteiche
-Estrarre la sequenza genomica (in formato FASTA) con indicati gli esoni - introni –
UTR
-Espressione genica nei differenti tessuti
-Ottenere tutte le sequenze di mRNA o EST allineate
-ecc
In laboratorio, provate tutte le possibilità, vedrete che Genome Browser, può essere un buon
punto di partenza per l’inzio di una ricerca genica
32
Considerando che molti database di sequenze, come ad esempio GenBank, contengono
milioni di sequenze diverse è necessario disporre di programmi informatici in grado di
allineare più sequenze in modo automatico e veloce.
BLAST
Blast è il programma più usato per fare ricerche di similarità in banche dati, è molto
efficiente ed è in grado di portare a termine una ricerca di similarità con molte
sequenze in pochi secondi
In questo corso non entreremo in merito alla strategia computazionale applicata da questo
programma (e da altri), ma ci limiteremo ad utilizzarlo e a capire il significato dei risultati.
Il programma Blast può essere installato e fatto funzionare in un PC locale (nel proprio PC) oppure è
accessibile dalla rete ad esempio al sito http://www.ncbi.nlm.nih.gov/BLAST/ dove può essere
direttamente utilizzato per effettuare ricerche di similarità in banche dati.
E' inoltre disponibile un dettagliato "Blast tutorial" dove possono essere trovate informazioni dettagliate
sull'uso del programma e dell'algoritmo.
33
Due parole su come lavora Blast
Le sequenze, all’interno dei database, sono viste come lunghe parole.
I database sono preventivamente scanditi alla ricerca di corte parole (normalmente lunghe
3 aa per le proteine e 11 basi per i nucleotidi)
Tutte le parole trovate sono memorizzate in modo ordinato in particolari file (‘database di
parole’), inoltre, ad ogni parola sono associati tutti i relativi riferimenti (sequenza e
posizione).
Database
Con molte
sequenze
Scansione e
memorizzazione dati
parola
posizione (e sequenza) dove esiste la parola
AAA
data, data, data
AAC
data, data, data, data
Come avviene la ricerca di similarità:
La sequenza query viene vagliata in tutte le possibili corte parole trovando in maniera
veloce le eventuali corrispondenze presenti nel database di parole. Trovati gli ‘hit’
(sequenze e posizioni dove esistono le corte parole) il programma cerca di allungare
l’allineamento, verso sinistra e verso destra, ‘al meglio’, in base ai parametri impostati,
In questo caso non si utilizza lo scorrimento tra due sequenze, ma si utilizza
indici e puntatori a corte parole che rende meno complesso l’algoritmo e quindi
più veloce la ricerca
34
Pagina iniziale di Blast
Differenti metodi e
programmi di Blast
Sono disponibili
ricerche ‘particolari’
e/o database
‘particolari’
35
Sono state sviluppate diverse versioni del programma BLAST che consentono di ricercare
sequenze sia a livello di acidi nucleici che di proteine:
blastp→cerca similarità in una banca dati di sequenze di aminoacidi a partire da una
sequenza query di aminoacidi;
blastn→cerca similarità in una banca dati di sequenze nucleotidiche a partire da una
sequenza query di nucleotidi;
blastx→cerca similarità in una banca dati di sequenze di aminoacidi a partire da una
sequenza query di nucleotidi, dopo aver tradotto automaticamente la query in aminoacidi
utilizzando tutti i possibili frame di lettura;
tblastn→cerca similarità in una banca dati di sequenze di nucleotidi a partire da una
sequenza query di aminoacidi, traducendo automaticamente ogni sequenza della banca dati
utilizzando tutti i possibili frame di lettura;
tblastx→cerca similarità in una banca dati
di sequenze di nucleotidi a partire da una
sequenza query nucleotidica, traducendo
sia la query che le sequenze subject in
aminoacidi, in tutte le possibili fasi di
lettura.
In breve:
36
Alcuni criteri per la scelta del tipo di blast da adottare
Per ricercare se una sequenza esiste già in un database si usa generalmente blastn o blastp
rispettivamente per sequenze nucleotidiche e proteiche
Se si ha a disposizione una nuova sequenza nucleotidica e si vuole cercare eventuali
sequenze di geni omologhi ‘conosciuti’ (sono disponibili le sequenze proteiche) si usa
blastx (traduzione della seq. nucleotidica e ricerca di similarità in un database di
proteine)
Nota: le sequenze nucleotidiche omologhe potrebbero essere ‘molto’ differenti per il
codice genetico degenere
Se si ricercano omologie con geni ancora sconosciuti (potrebbero esistere le sequenze
nucleotidiche, ma non le proteiche) si usa tblastx: traduzione della sequenza query
nucleotidica in proteina, traduzione di tutte le sequenze nucleotidiche del database in
proteine e poi ricerca di similarità.
Esempio: un eventuale allineamento ‘significativo’ ottenuto con tblastx di una nuova
sequenza nucleotidica contro un esteso database nucleotidico, potrebbe far scoprire nuovi
domini o geni (attenzione però che questo programma è lento .. Perché ?...).
Ecc. ecc. ecc.
37
Nelle nostre esperienze in laboratorio
utilizzeremo il programma Blast
disponibile all’NCBI
(scegliendo le opzioni descritte in Basic
Blast)
http://www.ncbi.nlm.nih.gov/blast/Blast.cgi
Form relativa a nucleotide blast
Program Selection: tre differenti modi (solo per le
sequenze nucleotidiche).
1) Blastn classico
2) Megablast utilizza lunghe parole per cercare gli hits
(adatto per ricercare lunghe sequenze molto simili)
molto veloce
3) Discontiguous megablast: utilizza lunghe parole
per gli hits, ma cerca anche parole non perfettamente
uguali (veloce e permette ricerche di ‘scarse’ similarità
Per un uso più avanzato, possono essere
impostati parametri particolari (es. cost to
open gap, cost to extende gap, penalty
for mismatch ecc)
38
Sequenza query:
> PBPRA1929
atgtctgatcacagtgcaatacatacaggacaatcaacaaaagacactgatcttaacaacacggaaaacccagaagcgaaacctgaaataaaaggagggcttgatggctacttctatattacagagcgtggcagt
acagtaaaaatagaaatggtagccgggttaactacgtttttagcgatggtttact
La risposta che si ottiene può essere
suddivisa in 4 parti:
a) Dati generali
b) Allineamento grafico
c) Listato delle sequenze con significativo
allineamento
d) Dettaglio degli allineamenti ottenuti
a) Dati generali
b) Allineamento grafico
39
c) Listato delle sequenze con allineamento ‘significativo’
Ricordo che blast è un programma di allineamenti locali, quindi, per ogni confronto tra la
sequenza query e una delle sequenza del database, potrebbero essere trovati più allineamenti
differenti
Significato delle colonne evidenziate
- Max score: punteggio dell’allineamento locale più significativo’ (punteggio allto  elevata similarità)
- Total score: la somma dei punteggi di tutti gli allineamenti locali trovati tra la sequenza query e la
sequenza del database
- Query coverage: percentuale della sequenza allineata
- E value (Expect): esprime la probabilità che l’allineamento trovato sia casuale. Più basso è maggiore è la
probabilità che NON sia casuale. (dipende, oltre che dalla similarità, anche dalla numerosità delle sequenze
in database)
- Max identit: percentuale di identità dell’allineamento locale più ‘significativo’
TTTCTCGACTGCAGAGAAA
||||| ||| ||||||||
TTTCTAGACTGCAGAGAAA
Identità=82% (16 / 19)
40
d) Dettaglio degli allineamenti ottenuti
......continua con i dettagli degli altri allineamenti .....
41
Allineamento in più regioni
(due) della sequenza query
con la sequenza subjct
42
Risultato ricerca (con la stessa sequenza nucleotidica) tramite BLASTX
Ricordo che BLASTX cerca similarità in una banca dati di sequenze proteiche a partire da una sequenza query di nucleotidi,
dopo aver tradotto automaticamente la query in aminoacidi utilizzando tutti i possibili frame di lettura;
43
ESEMPIO BLAST 2 SEQUENCE
E’ possibile allineare due sequenze (nucleotidiche o proteiche) tra loro
44
Multiallineamento
Allineamento contemporaneo di più sequenze
Abbiamo usato Blast per determinare l’allineamento migliore tra due sequenze e/o per
ricercare tra le sequenze di un database quelle che possiedono una miglior similarità con una
sequenza impostata come query.
Per studiare l'evoluzione delle proteine o dei geni, per eseguire studi di filogenesi è
necessario fare una analisi comparata tra più sequenze. Per questo è necessario ottenere il
miglior allineamento complessivo di tutte le sequenze relative allo studio.
Uno dei programmi capaci di eseguire multiallineamenti di sequenze (proteiche o
nucleotidiche) è ClustalW (disponibile all’EBI)
(E’ possibile anche scaricare il programma ed installarlo nel proprio PC)
45
Qual’è l’algoritmo di ClustalW: allinea tutte le sequenze a coppie (tutte le possibili
combinazioni delle due sequenze di input prese 2 alla volta) , poi assembla le coppie
di allineamenti ottenendo alla fine un allineamento di tutte le sequenze.
Es. di multiallineamento
ottenuto con le sequenze
delle proteine relative al
gene tcap (telethonin) di 5
organismi differenti
ClustalW fornisce anche il probabile albero filogenetico (osservare anche le stime delle
distanze evolutive; ricordo che Danio rerio è un pesce mentre gli altri sono mammiferi)
46
Il confronto tra più sequenze permette anche di individuare eventuali
regioni conservate sconosciute (domini, motivi o pattern funzionali)
Abbiamo già visto i domini funzionali (parte di proteina con una propria struttura
tridimensionale ed in grado di svolgere una propria funzione).
Motivi funzionali sono invece corte sequenze aminoacidiche, formate da combinazioni
di pochi aa, che forniscono alla proteina particolari proprietà. Es. siti di glicosilazione o
fosforilazione
SITI CONSERVATI
I siti funzionalmente più rilevanti mostrano un elevato grado di conservazione o
risulteranno invariati in molte delle sequenze considerate
Al contrario i siti corrispondenti a regioni funzionalmente meno importanti mostreranno
una maggiore variabilità
47
Dettaglio di un allineamento multiplo ed individuazione di motivi o pattern
In una delle prossime esercitazione simuleremo una ricerca di motivi
funzionale sconosciuti
48