Informatica e Bioinformatica – AA 2013-2014

Purtroppo non esiste un modo univoco per indicare un gene. Ad esempio abbiamo visto che il
gene tcap a seconda del record è riportato come titin-cap protein o telethonin. Questo crea
confusione e non facilita la ricerca informatica.
The Human Genome Organisation (HUGO) ha istituito un comitato allo scopo di dare un unico
nome significativo a tutti i geni umani. Con questo intento è stato costruito il database HGNC.
Informatica e Bioinformatica – A. A. 2013-2014
1
http://geneontology.org/
Oltre che esistere differenti nomi per lo stesso gene/proteina, possono esistere o essere adottati anche
differenti modi per descrivere le loro funzioni e le loro localizzazioni.
A volte è corretto assegnare diverse funzioni ad una molecola biologica (una proteina che svolge più di una
funzione): per non generare confusioni è però necessario usare una terminologia univoca per ogni funzione.
Per questo motivo è stato fondato il database Gene Ontology: fornisce una definizione precisa del ruolo
svolto dalle singole proteine tramite un vocabolario (le ontologie) che consenta di definire in modo corretto e
non arbitrario il o i processi biologici cui una proteina partecipa, la/e sue funzioni molecolari e la/e sue
localizzazioni cellulare.
Nota: i link con la sigla ‘GO’ rimandano al database della gene ontology
Informatica e Bioinformatica – A. A. 2013-2014
2
ALLINEAMENTO DI
SEQUENZE
Informatica e Bioinformatica – A. A. 2013-2014
3
DATABASE DI
SEQUENZE
RICERCA
TESTUALE
Ricerca dei record i cui campi
soddisfano determinati criteri.

già vista nelle precedenti lezioni
SIMILARITÀ
Ricerca dei record che hanno le
sequenze più “simili” ad una
sequenza fornita come query.

ora ci occuperemo di questa.
Informatica e Bioinformatica – A. A. 2013-2014
4
CONSIDERAZIONI GENERALI
Acidi nucleici e proteine sono costituiti da sequenze lineari rispettivamente di nucleotidi e di
aminoacidi; entrambi possono essere rappresentati da singole lettere o stringhe di caratteri.
>gi|11496883|ref|NM_001832.2| Homo sapiens colipase, pancreatic (CLPS), mRNA
CTGTCTCCCGCCACCCACACCAGCTGTCCCACTCACCATGGAGAAGATCCTGATCCTCCTGCTTGTCGCCCTC
TCTGTGGCCTATGCAGCTCCTGGCCCCCGGGGGATCATTATCAACCTGGAGAACGGTGAGCTCTGCATGAA
TAGTGCCCAGTGTAAGAGCAATTGCTGCCAGCATTCAAGTGCGCTGGGCCTGGCCCGCTGCACATCCATGG
CCAGCGAGAACAGCGAGTGCTCTGTCAAGACGCTCTATGGGATTTACTACAAGTGTCCCTGTGAGCGTGGC
CTGACCTGTGAGGGAGACAAGACCATCGTGGGCTCCATCACCAACACCAACTTTGGCATCTGCCATGACGCT
GGACGCTCCAAGCAGTGAGACTGCCCACCCACTCCCACACCTAGCCCAGAATGCTGTAGGCCACTAGGCGC
AGGGGCATCTCTCCCCTGCTCCAGCGCATCTCCCGGGCTGGCCACCTCCTTGACCAGCATATCTGTTTTCTG
ATTGCGCTCTTCACAATTAAAGGCCTCCTGCAAACCTT
>colipase-protein
MEKILILLLVALSVAYAAPGPRGIIINLENGELCMNSAQCKSNCCQH
SSALGLARCTSMASENSECSVKTLYGIYYKCPCERGLTCEGDKTIVG
SITNTNFG ICHDAGRSKQ

Un acido nucleico
rappresentato come
stringa di caratteri,
formato FASTA.
La corrispondente proteina
rappresentata come stringa
di caratteri, formato
FASTA.
La stringa di caratteri è soltanto una rappresentazione semplificata del corrispondente
acido nucleico o proteina, ma permette di gestire ed analizzare le sequenze mediante
opportuni programmi informatici.
Informatica e Bioinformatica – A. A. 2013-2014
5
Ricerca di similarità tra sequenze
Quando viene ottenuta una sequenza nucleotidica o proteica si cerca innanzitutto di
individuarne la funzione. Come?
 Viene subito in mente di cercare tra le sequenze già esistenti in database, alla ricerca di una o
più sequenze che siano “confrontabili” alla nostra. Da questa ricerca cosa possiamo ottenere?

Sequenza query
Confronti
Database di sequenze
Nel caso più semplice, potremmo trovare una sequenza identica alla nostra, magari a funzione
già nota. Potremo quasi sicuramente trasferire la funzione della sequenza target (subject) anche
alla nostra sequenza query.
 Potrebbe non esserci alcuna sequenza identica alla nostra. Dovremo in questo caso cercare le
sequenze più simili alla nostra:
in questo caso potremo formulare delle ipotesi sull’ipotetica funzione della nostra
sequenza query. Più alto sarà il livello di similarità tra le sequenze, più attendibili
saranno le nostre ipotesi.

L’allineamento di sequenze basato sulla similarità è un metodo che ci permette di
assegnare una probabile funzione a sequenze prima sconosciute.

Informatica e Bioinformatica – A. A. 2013-2014
6
Quando inferire la funzione!
Se le sequenze di due proteine o di DNA sono molto simili, allora lo saranno anche
le loro strutture e le funzioni.

SEQUENZA
STRUTTURA
FUNZIONE
SIMILE
SIMILE
SIMILE
Non è però vero il contrario. Infatti, proteine con funzione e struttura simili non
hanno necessariamente sequenze simili (ad esempio i trasportatori di membrana).

Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto
sequenza nucleotidica corrispondente diversa. Es. mutazioni silenti che interessano la
terza base di un codone: l’aminoacido rimane lo stesso ma è cambiato il DNA!

Informatica e Bioinformatica – A. A. 2013-2014
7
Analisi comparata
Un aspetto importante della biologia è capire come si siano originate le strutture biologiche
nel corso dell'evoluzione: evoluzione biologica e filogenesi.
Analisi comparata classica: confrontando l'anatomia dei vertebrati, si può dedurre che i
mammiferi si sono originati da un gruppo di rettili originati a loro volta da un gruppo di
anfibi, originati a loro volta da un gruppo di pesci.
Analisi comparata a livello molecolare: confrontando sequenze proteiche in organismi
diversi è possibile ricostruire passo dopo passo l'evoluzione delle proteine nel corso della
filogenesi e capire come esse abbiano affinato le loro funzioni; oppure come siano nate
funzioni nuove da proteine ancestrali con funzioni diverse.
 l’allineamento di sequenze è oggi alla base di molti studi di filogenesi molecolare.
Set di geni/proteine
Organismo A
Analisi comparata delle similarità
Set di geni/proteine
Organismo B
Set di geni/proteine
Organismo C
Allineamento
delle sequenze
Costruzione dell’albero
filogenetico degli organismi
Set di geni/proteine
Organismo D
Set di geni/proteine
Organismo E
ACEBD
Informatica e Bioinformatica – A. A. 2013-2014
8
Alcune definizioni: Similarità, omologia ed analogia
Spesso si fa confusione tra similarità ed omologia.
La similarità è un aspetto quantitativo che indica un livello di somiglianza tra le
sequenze: prevede che venga fissato un criterio comparativo (% identità, % mutazioni
conservative ecc.).
L’omologia è un aspetto qualitativo che riguarda più propriamente la “funzione”
delle sequenze ed indica un’origine filogenetica comune.
L'omologia presuppone l'esistenza di un organismo ancestrale comune da cui
le strutture omologhe si sono evolute.
Ad esempio l'ala di un uccello e la pinna anteriore di una foca sono omologhi perché si suppone che
si siano entrambi evoluti dall'arto anteriore di un rettile ancestrale.
Invece, il termine analogia indica che due strutture hanno una funzione simile, ma
che si sono evolute indipendentemente.
Ad esempio l'ala di un uccello e quella di una farfalla: la similarità in questo caso è determinata da una
convergenza adattativa e non dalla stessa origine evolutiva.
Informatica e Bioinformatica – A. A. 2013-2014
9
Il termine omologia si applica anche a sequenze di acidi nucleici e proteine:
due geni sono omologhi se hanno un gene ancestrale da cui sono originati
entrambi.
La similarità tra due sequenze è generalmente dovuta ad una origine evolutiva
comune per cui molto spesso i termini "similarità" e "omologia" si
confondono.

Quando non si è certi di un’origine evolutiva comune si dovrebbe parlare di similarità.
Un errore ancora più grave è di parlare di percentuale di omologia, che non ha
nessun senso.
Informatica e Bioinformatica – A. A. 2013-2014
10
Evoluzione genica ed omologia
speciazione:
origine di una nuova specie da una già esistente

(A) Quando due geni omologhi derivano dalla speciazione si
parla di geni ortologhi.
(B) Quando due geni omologhi derivano dalla duplicazione
genica, si parla di geni paraloghi.
Deve essere chiaro che sia i geni paraloghi che i geni
ortologhi sono omologhi perchè il termine omologia si
riferisce all’esistenza di un comune ancestor.
Informatica e Bioinformatica – A. A. 2013-2014
11
ESEMPIO
Nel corso dell'evoluzione dei vertebrati (prima della evoluzione degli anfibi), si è verificato un evento di
duplicazione del gene della globina (globina alfa e beta).
Oggi alcuni pesci hanno un singolo gene, mentre altri ne hanno due: uno simile alla globina alfa e uno alla
globina beta. Dai pesci con due globine si sono evoluti gli anfibi, e da questi rettili, uccelli e mammiferi.
Tutti i geni della globina sono omologhi in quanto derivano da un unico gene ancestrale:
- i geni delle globine alfa sono ortologhi tra loro così come i geni delle globine beta;
- i geni dell’alfa e beta globina sono paraloghi tra loro in quanto derivano da un processo di
duplicazione genica.
Vertebrati
Globina di uomo
Pesci con un solo gene
per la globina
Pesci con un solo
gene per la globina
Pesci con alfa e
beta globine
Anfibi
Anfibi
Pesci con alfa e
beta globine
Rettili
Mammiferi
Informatica e Bioinformatica – A. A. 2013-2014
Rettili
12
Cominciamo ad allineare tra loro le sequenze: la DOT MATRIX
Il primo semplice sistema di visualizzazione di
allineamenti risale al 1970 e si chiama metodo della
Dot Matrix (matrice a punti).

Le due sequenze da confrontare sono inserite ai
margini di una matrice. Se le due lettere
corrispondenti ad una casella sono uguali, allora la
casella viene colorata di nero ed apparirà come un
punto (dot) all’interno della matrice.

Gli allineamenti di una certa lunghezza
appariranno come segmenti diagonali e saranno
distinguibili visivamente.

Informatica e Bioinformatica – A. A. 2013-2014
13
Analisi della matrice
Confrontando due sequenze identiche (la stessa sequenza sia in
orizzontale che verticale) otterremo una diagonale continua che
parte dall'angolo in alto a sinistra per arrivare a quello in basso a
destra.
NOTA: statisticamente parlando, dal confronto tra sequenze proteiche ci possiamo
aspettare una casella positiva ogni 20. Ancor di più, dal confronto di sequenze di acidi
nucleici potremmo avere una casella positiva ogni 4: si crea un notevole rumore di fondo.
Un modo per ridurre il rumore di fondo è di considerare la media dei valori presenti sulla
diagonale all’interno di una determinata finestra (window) invece che considerare le singole
caselle della matrice.
Variazione del rumore di
fondo con diversi valori del
parametro window.
Informatica e Bioinformatica – A. A. 2013-2014
14
Osservazioni
Significato della diagonale posta in prossimità dell'angolo in alto a destra:
la parte finale della sequenza orizzontale è simile alla parte iniziale della sequenza verticale.
In altre parole, la sequenza verticale è simile alla sequenza orizzontale in due porzioni
distinte, possibilmente generate da parziale duplicazione del gene.

Una diagonale parallela quella principale indica una parziale duplicazione genica
o la presenza di domini multipli.
Informatica e Bioinformatica – A. A. 2013-2014
15
La diagonale principale della figura mostra un'evidente interruzione nella parte centrale per
poi continuare su una diagonale diversa, un po' più bassa.
Questi salti di diagonale sono dovuti ad alcuni segmenti di sequenza che sono presenti in una
sequenza, ma non nell'altra.
In altre parole, una sequenza possiede un gap (discontinuità, buco) rispetto all’altra.
Nel caso del nostro esempio abbiamo un gap (delezione) nella sequenza orizzontale o, se si
preferisce, un segmento di sequenza aggiuntivo (inserzione) nella sequenza verticale.
Esempio di gap tra due sequenze
Informatica e Bioinformatica – A. A. 2013-2014
16
Schema per l’interpretazione della Dot Matrix
Informatica e Bioinformatica – A. A. 2013-2014
17
Con l'approccio della dot matrix viene semplicemente mostrata una matrice, la
quale viene in seguito interpretata visivamente ed in modo soggettivo.
Abbiamo bisogno di un sistema che sia anche in grado di estrarre i dati dalla
matrice e trovare automaticamente gli allineamenti migliori, cioè di identificare
il "percorso" migliore all'interno della matrice.
Occorre individuare un metodo per confrontare sequenze che utilizzi un
criterio per quantificare il grado di similarità tra sequenze.

servono dei programmi informatici capaci di utilizzare appositi algoritmi di
allineamento (metodo di allineamento) e che sfruttino un criterio di similarità
capace di stimare la bontà di un certo allineamento.
Informatica e Bioinformatica – A. A. 2013-2014
18
RICERCA DELLE SIMILARITÀ TRA 2 SEQUENZE
Per determinare la similarità tra due sequenze dobbiamo quindi definire:
1. l’algoritmo di allineamento
2. il criterio di similarità
1. ALGORITMO DI ALLINEAMENTO
Un algoritmo è caratterizzato da
• l’insieme di tutte le operazioni da eseguire per risolvere un problema
(determinazione di tutti i possibili allineamenti);
• la complessità, cioè da come varia il numero delle operazioni da effettuare al variare
della dimensione del problema: il tempo di esecuzione del programma che implementa
l’algoritmo è infatti proporzionale alla
complessità dell’algoritmo!
Esempio: algoritmo di scorrimento. Si fa
scorrere una sequenza sull’altra contando
le identità tra le due sequenze
4 identità
Informatica e Bioinformatica – A. A. 2013-2014
19
2. CRITERIO DI SIMILARITÀ
Funzione di score
L’allineamento delle sequenze dovrebbe essere caratterizzato da un punteggio (score),
col quale è possibile valutare (secondo i criteri impostati) il grado di similarità.
Ad esempio, con l’algoritmo di scorrimento e una semplice funzione di score che assegni
‘1’ se le lettere tra le due sequenze sono uguali;
‘0’ se le lettere sono diverse,
per ogni allineamento si ricava uno score dato dalla somma ottenuta da tutti gli appaiamenti.
Il ‘miglior’ allineamento potrebbe essere quello che ha ottenuto il maggior punteggio.
Questo esempio di funzione di score potrebbe non rappresentare un criterio molto valido:
non ha senso penalizzare tutte le differenze (i mismatch) allo stesso modo!
in genere nelle proteine la sostituzione tra aminoacidi carichi non comporta
grandi cambiamenti strutturali, mentre la sostituzione di aminoacidi aromatici con altri
carichi comporta spesso pesanti cambiamenti conformazionali.
Per questo sono state introdotte le matrici di sostituzione (vedi prossima slide).
Inoltre possono essere adottate particolari penalità (score) per l’apertura o l’estensione di un
gap che si sommano allo ‘score’ totale.
Adozione di criteri differenti  funzioni di score differenti  score finali differenti
Informatica e Bioinformatica – A. A. 2013-2014
20
LE MATRICI DI SOSTITUZIONE
Nel caso dell’allineamento di aminoacidi è opportuno applicare dei criteri di similarità che non
si limitino a verificare l’identità assoluta, ma tengano conto del fatto che gli aminoacidi possono
essere più o meno simili tra loro:
aminoacidi molto simili possono essere indifferentemente sostituiti in una proteina
senza una variazione apprezzabile nella struttura (e quindi funzione) della proteina.
Per esempio acido aspartico (D) e acido glutammico (E) sono molto simili e nel corso
dell’evoluzione prendono facilmente il posto l’uno dell’altro nelle proteine.
Viceversa acido aspartico (D) e triptofano (W) sono molto diversi e non sono interscambiabili.
E’ ragionevole valutare differentemente la sostituzione di D con E e di D con W.
Questa tipologia di confronti viene descritta in matrici quadrate di 20x20 caselle in cui si
attribuisce un punteggio ad ogni possibile coppia di aminoacidi:
- più alto è il punteggio tanto più interscambiabili sono gli aminoacidi;
- punteggi negativi penalizzano invece aminoacidi molto differenti.
Approfondiamo brevemente le matrici di sostituzione più diffuse,
le matrici PAM e le matrici BLOSUM.
Informatica e Bioinformatica – A. A. 2013-2014
21
MATRICI PAM (point accepted mutation)
Le matrici PAM (mutazioni puntiformi accettate) elencano la probabilità di cambiamento da un
aminoacido ad un altro in sequenze proteiche omologhe nel corso dell’evoluzione.
Sono basate su uno studio di filogenesi molecolare condotto su 71 famiglie di proteine nel 1978
da Margareth Dayhoff e collaboratori. E’ stata effettuata una ricostruzione dell’evoluzione
molecolare delle proteine, in cui ad ogni passaggio evolutivo si presuppone una sostituzione
aminoacidica.
PAM1 rappresenta un singolo
passaggio evolutivo (il primo) che
tiene conto della probabilità di
sostituzione di ogni aminoacido
con ciascun altro e tale da
prevedere una mutazione ogni
100 aminoacidi.
Informatica e Bioinformatica – A. A. 2013-2014
22
I passi evolutivi successivi vengono simulati applicando nuovamente le probabilità
di sostituzione definite in PAM 1 per ricalcolare, ad ogni nuovo passo, nuove
probabilità di sostituzione.
Una distanza evolutiva di 100 PAM non corrisponde alla sostituzione del 100%
degli aminoacidi, ma a 100 passi evolutivi.
Possiamo simulare qualsivoglia distanza evolutiva e calcolarne la corrispondente
PAM.
Alla fine della simulazione otteniamo dei punteggi che ci indicano quanto più
probabile è che l’appaiamento tra gli aminoacidi sia dovuto ad omologia piuttosto
che al caso.
Nota: il modello prevede che le sostituzioni aminoacidiche osservate a grandi distanze evolutive
derivino esclusivamente dalla somma di tante mutazioni indipendenti.
Informatica e Bioinformatica – A. A. 2013-2014
23
MATRICI BLOSUM
(1992, Henikoff and Henikoff)
Sono basate sulla banca dati BLOCKS, la quale contiene una
collezione di allineamenti multipli di segmenti proteici (senza gap).
I blocchi sono derivati da osservazione diretta, cioè non viene fatta
nessun tipo di assunzione di omologia.
Ogni blocco di allineamenti contiene sequenze con un numero di
aminoacidi identici superiore ad una certa percentuale (P).
Ad esempio, una BLOSUM60 corrisponde ad un 60 % di identità minima
(più alto è l’indice, tanto più ci si avvicina alla matrice di identità).
Da ognuno di questi blocchi è possibile (reiterando il calcolo in
modalità simili al metodo PAM) ricavare la frequenza relativa di
sostituzione degli aminoacidi e costruire delle matrici di sostituzione.
Informatica e Bioinformatica – A. A. 2013-2014
24
Le tabelle (o matrici) di sostituzione dei 20 aminoacidi comprendono:
190 valori di relazione tra aminoacidi diversi, più 20 valori di identità,
per un totale di 210 valori.
Spesso queste matrici sono riportate anche nella loro parte speculare per un
totale di altri 190 valori, uguali ai primi.
Il tutto si può facilmente rappresentare con una matrice di 20x20, 400 valori.
Questa tabella corrisponde alla
matrice PAM240, una delle più
comunemente usate per allineare
tra loro sequenze di aminoacidi.
In genere, per ogni coppia:
valori alti  aa. identici;
medi  aa. “simili”;
bassi  aa. molto “differenti”
(ad esempio W & G = -7).
Informatica e Bioinformatica – A. A. 2013-2014
25
In sintesi
Matrici PAM: si basano sulla frequenza con cui ciascun aminoacido può subire un
evento di sostituzione calcolato mediante uno studio di filogenesi molecolare
(esistono matrici PAM1, PAM10, ecc. che si differenziano per i ‘passi evolutivi’ considerati nel
loro calcolo)
Matrici BLOSUM: sono invece basate su una banca dati (BLOCKS) di allineamenti
multipli di segmenti proteici senza gap.
(anche in questo caso esistono differenti matrici BLOSUM adatte per allineamenti tra sequenze
con differenti distanze filogenetica)
Esistono diverse matrici PAM e BLOSUM, che servono per confrontare sequenze simili
oppure molto divergenti. Questo perché si basano sulle frequenze di sostituzione osservate in
famiglie di proteine simili, che variano in base alla distanza evolutiva delle stesse famiglie di
proteine.
PAM80  PAM120  PAM200  PAM250: aumento distanza evolutiva.
BLOSUM80  BLOSUM62  BLOSUM45: aumento distanza evolutiva.
Perché le BLOSUM “vanno” all’opposto?
Informatica e Bioinformatica – A. A. 2013-2014
26
I principali programmi di allineamento tra sequenze usano le matrici PAM e
BLOSUM per assegnare i punteggi di allineamento (funzione di score).
Esistono altre matrici di sostituzione basate su differenti criteri di similarità
chimica, oppure sul numero minimo di mutazioni necessarie per sostituire il
codone di un aminoacido in un altro.
Esistono matrici di sostituzione anche per le sequenze di DNA.
Queste matrici contengono informazioni sull'occorrenza di transizioni (purina a
purina, pirimidina a pirimidina) e transversioni (purina a pirimidina, e viceversa).
Informatica e Bioinformatica – A. A. 2013-2014
27
Proviamo a confrontare due sequenze allineandole tra loro
1. Le due sequenze sono entrambe formate da 11 A, 9 T, 13 C, 7 G: sono simili ?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
CAGCACGTGGCTTACTCACTACCAGTTCTCACAGAATGCA
2. Due sequenze di 39 basi hanno lo stesso contenuto in basi. Se allineate, notiamo 22 basi identiche: più del
50%. Possiamo considerarle simili o no?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
| | | | | | | || | | | | || | || | | ||
ATTCCCCACGATCGTTTCCTAGTCCGGAAACACAACCGGA
3. Anche queste due sequenze hanno 22 basi allineate ed identiche. Come le consideriamo? Come nel caso
precedente o in altro modo?
ACTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
| || |
|||||||||||||||| | |
TAGTAGCCGACCATTTCTCGACTGCAGACCTTAATTAGTT
4a. Date le due sequenze sovrapposte:
ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
|
||
|| |
|| ||
CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG
è sufficiente traslare una delle sequenze per ottenere:
ACTTTCACCCTAGCTTTCTCGACTGCAGAGAAACTAGCCGA
CAAAGCGCGAAAACTTTCACCCTAGCTTTCTCGACTGCAGAG
Informatica e Bioinformatica – A. A. 2013-2014
28
ALLINEAMENTI GLOBALI E LOCALI
Consideriamo i seguenti due differenti allineamenti delle stesse sequenze
. |
Nel primo caso si hanno 14 identità (evidenziate dalle linee verticali) e tre
sostituzioni conservative (evidenziate dai punti) distribuite su tutta la lunghezza della
sequenza.
Nel secondo caso si hanno 13 identità ed una sostituzione conservativa su una
regione di 14 aminoacidi.
Quale dei due allineamenti è da considerarsi migliore?
Informatica e Bioinformatica – A. A. 2013-2014
29
ALLINEAMENTI GLOBALI O LOCALI?
Dal punto di vista biologico generalmente vengono privilegiati gli allineamenti
locali, che riguardano regioni limitate delle proteine o di acidi nucleici.
Abbiamo già parlato di domini delle proteine o anche degli acidi nucleici. Se ad
esempio siamo interessati a trovare tutte le sequenze di proteine di una banca dati
che contengono un certo dominio, allora sicuramente si cercheranno similarità
locali.
Gli allineamenti globali vengono applicati quando si vogliono confrontare
accuratamente due sequenze in cui la similarità sia estesa per tutta la lunghezza.
N.B. Un allineamento locale non è necessariamente limitato ad una piccola regione
della sequenza, ma potrebbe estendersi anche all’intera lunghezza della sequenza.
Informatica e Bioinformatica – A. A. 2013-2014
30
Ricerca di similarità di sequenza in banche dati
La ricerca di similarità di sequenze in banche dati è diventata una operazione molto
importante in diversi settori della biologia.
I programmi che effettuano questa operazione si basano sul confronto sistematico di una
sequenza di partenza (la query) con ognuna delle sequenze del database (dette subject).
Sequenza query
Confronti
Database di sequenze
Alcuni programmi, come BLAST, sono estremamente efficienti e sono in grado di portare a
termine una ricerca di similarità in pochi secondi. Questi programmi si basano essenzialmente
su procedure che, per ogni sequenza del database:
* effettua l'allineamento;
* attribuisce un punteggio;
* se il punteggio è alto lo memorizza;
* ripete fino alla fine delle sequenze;
* mostra la lista dei migliori allineamenti trovati.
Informatica e Bioinformatica – A. A. 2013-2014
31
BLAST
Basic Local Alignment Search Tool
Il programma più usato per fare ricerche di similarità in banche dati è BLAST.
In questo corso ci limiteremo a descriverne alcune applicazioni e a capire il
significato dei risultati.
BLAST può essere installato e fatto funzionare in un PC locale (nel proprio PC)
oppure è accessibile dalla rete ad esempio al sito:
http://www.ncbi.nlm.nih.gov/BLAST/
dove può essere direttamente utilizzato per effettuare ricerche di similarità in banche
dati.
E' inoltre disponibile un dettagliato "Blast tutorial" dove possono essere trovate
informazioni approfondite sull'uso del programma e sull'algoritmo.
Informatica e Bioinformatica – A. A. 2013-2014
32
All’NCBI sono reperibili numerosi tutorial e questo vale anche per BLAST
Sono introdotti concetti
molto generali…
…fino alla definizione di
terminologie molto tecniche
e fondamentali
Informatica e Bioinformatica – A. A. 2013-2014
33
Sono state sviluppate diverse applicazioni base del programma BLAST che consentono di
ricercare sequenze sia a livello di acidi nucleici che di proteine:
BLASTP → cerca similarità in una banca dati di sequenze di aminoacidi a partire da una
sequenza query di aminoacidi;
BLASTN → cerca similarità in una banca dati di sequenze nucleotidiche a partire da una
sequenza query di nucleotidi;
BLASTX → cerca similarità in una banca dati di sequenze di aminoacidi a partire da una
sequenza query di nucleotidi, dopo aver tradotto automaticamente la query in aminoacidi
utilizzando tutti i possibili frame di lettura* (cosa sono??);
TBLASTN → cerca similarità in una banca dati di sequenze di nucleotidi a partire da una
sequenza query di aminoacidi, traducendo automaticamente ogni sequenza della banca dati
utilizzando tutti i possibili frame di lettura;
TBLASTX → cerca similarità in una
banca dati di sequenze di nucleotidi a
partire da una sequenza query di
nucleotidi, traducendo sia la query che le
sequenze subject in aminoacidi, in tutte le
possibili fasi di lettura (fasi=frame).
Informatica e Bioinformatica – A. A. 2013-2014
34
* Riguardo al BLASTX (ma anche al TBLASTN e TBLASTX), cosa può significare la frase:
“dopo aver tradotto automaticamente la query (subject) in amminoacidi utilizzando tutti
i possibili frame di lettura”?
Questi concetti sono già
stati introdotti nel corso:
fateli vostri!
Informatica e Bioinformatica – A. A. 2013-2014
35