Una vera matrice di sostituzione
A
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
H
I
K
L
M
N
P
Q
2 -2 0 0 -4
1 -1
12 -5 -5 -4 -3 -3
4 3 -6
1
1
4 -5 0
1
8 -5 -2
5 -2
6
C
D
E
F
G
-1
-2
-2
-2
1
-3
-2
5
-1
-5
0
0
-5
-2
0
-2
5
-2
-6
-4
-3
2
-4
-2
2
-3
6
-1
-5
-3
-2
0
-3
-2
2
0
4
6
0
-4
2
1
-4
0
2
-2
1
-3
-2
2
1
-3
-1
-1
-5
-1
0
-2
-1
-3
-2
-1
6
0
-5
2
2
-5
-1
3
-2
1
-2
-1
1
0
4
R
S
T
V W
Y
-2
1
1 0 -6 -3
-4 0 -2 -2 -8 0
-1 0 0 -2 -6 -4
-1 0 0 -2 -6 -4
-4 -3 -3 -1 0 6
-3
1 0 -1 -6 -5
2 -1 -1 -2 -3 0
-2 -1 0 4 -5 -1
3 0 0 -2 -3 -4
-3 -3 -2 2 -2 -1
0 -2 -1 2 -4 -2
0
1 0 -2 -4 -2
0
1 0 -1 -6 -5
1 -1 -1 -2 -5 -4
6 0 -1 -2 2 -4
2
1 -1 -2 -3
3 0 -5 -3
4 -6 -2
17 0
10
Probabilità congiunta
Probabilità di tirare un 4
= p(4) = 1/6 = 0.16
Probabilità di tirare 4 per due volte di
seguito
= p(4) * p(4)
= 1/6 * 1/6
= 0.16 * 0.16 = 0.025
Per 3 volte = 0.16*0.16*0.16 = 0.0046
Una matrice di sostituzione
Probabilità congiunta di due eventi
Quando si allineano due sequenze, i valori da assegnare ad ogni coppia di residui possono venire
ricavati da una matrice di sostituzione.
Una matrice di sostituzione contiene un valore per ogni tipo possibile di sostituzione fra due
aminoacidi. I punteggi della matrice sono di tipo positivo o negativo a seconda della similarità della
coppia di aminoacidi. Le coppie di aminoacidi identici si trovano sulla diagonale ed hanno
generalmente un valore più alto rispetto alle altre sostituzioni dello stesso residuo, visto che
ovviamente è più probabile nel corso dell'evoluzione che un aminoacido non venga sostituito
piuttosto che il contrario.
Il valore assegnato ad ogni coppia di aminoacidi è calcolato a partire dalla frequenza della coppia in
allineamenti di sequenze omologhe. Il modo esatto in cui sono costruite è descritto in questo
capitolo.
Due eventi indipendenti hanno una probabilità di verificarsi contemporaneamente pari al prodotto delle
loro probabilità di verificarsi singolarmente. Ad esempio se la probabilità di ottenere un 4 con un dado
a 6 facce è di un 1/6, la probabilità di ottenere 2 volte 4 lanciando due dadi (eventi indipendenti) sarà
di 1/36 (1/6 x 1/6).
Probabilità di una sequenza
A-A-C-E-E
Frequenze degli aminoacidi
AACCAAACCA
AACCCAACCC
AACCADDEED
AACCCDDEEE
Numero di aminoacidi:
p(A) x p(A) x p(C) x p(E) x p(E)
= f(A) x f(A) x f(C) x f(E) x f(E)
= 0.05 x 0.05 x 0.05 x 0.05 x 0.05
= 3,125 x 10-7
A= 15
C = 15
D=5
E=5
--Totale = 40
Frequenza degli aminoacidi:
= numero/ totale
fA= 15/40
fC= 15/40
fD= 5/40
fE= 5/40
= 0.375
= 0.375
= 0.125
= 0.125
Probabilità di osservare una sequenza
Frequenze aminoacidiche
Se una sequenza di aminoacidi è generata attraverso una serie di eventi casuali e indipendenti, la
probabilità di osservarla è analoga a quella di pescare le stesse lettere da cui è composta
estraendole nello stesso ordine una dopo l'altra da un sacchetto. Questa probabilità è pari al
prodotto delle probabilità di estrazione di ognuna delle lettere. Se il sacchetto contiene un numero
infinito di lettere e un numero di lettere uguale per ogni tipo, la probabilità di estrazione di ogni
lettera e' di 1/20 e la probabilità per un intera sequenza di lunghezza n è di (1/20)n.
La frequenza di un aminoacido X in un insieme di sequenze costituito da N aminoacidi è data dal
rapporto tra il numero di volte in cui compare l'aminoacido X e il numero totale di aminoacidi N. Per
calcolare quindi la frequenza di un aminoacido si conta quante volte quell'aminoacido è presente e si
divide il valore per il numero totale degli aminoacidi. Nelle 4 sequenze della figura la frequenza della A
è pari a 15 (il numero delle A) diviso 40 (il numero totale degli aminoacidi nelle 4 sequenze), ovvero
0.375.
Composizione aminoacidica
Probabilità di una sequenza
Frequenze osservate
degli aminoacidi:
AACEE
fA= 0.375
fC= 0.375
fD= 0.125
fE= 0.125
Prodotto delle probabilità di occorrenza di ogni coppia
= f(A) x f(A) x f(C) x f(E) x f(E)
= 0.375 x 0.375 x 0.375 x 0.125 x 0.125 = 8,2 x 10-4
Composizione aminoacidica
Probabilità di sequenze reali
La composizione aminoacidica di una sequenza è l'insieme delle frequenze di ogunno dei 20
aminoacidi calcolate per la sequenza stessa. Considerando la composizione di un gran numero di
sequenze si osserva che i diversi aminoacidi in natura non sono egualmente rappresentati ma ci
sono aminoacidi più frequenti, come ad esempio alanina (0.09) e glicina ed aminoacidi meno
frequenti come il triptofano (0.01).
Per calcolare la probabilitò di osservare una sequenza in natura non bisogna quindi considerare ogni
aminoacido egualmente probabile, poichè maggiore è la frequenza di quell'aminaocido in natura
maggiore è la probabilità che questo venga usato (estratto dal sacchetto).
La probabilità di osservare una sequenza reale è quindi il prodotto delle frequenze di tutti gli
aminoacidi che la compongono.
A parità di lunghezza, quindi, una sequenza formata da aminoacidi con un'alta frequenza sarà più
probabile rispetto ad un'altra composta da aminoacidi più rari.
Allineamenti casuali
DEAADCCACE
CAEDAACCAC
ECACCDAAEA
AACCADCACC
Affiancare
casualmente
Sequenze
casuali
DEAADCCACE
|
CAEDAACCAC
ECACCDAAEA
|
|
AACCADCACC
p(AC)= f(A) * f(C) = 2*0.375 * 0.375 = 0.28
p(DD)= f(D) * f(D) = 0.125 * 0.125 = 0.015
Sostituzioni casuali
A
C
D
A
C
D
E
A
C
D
E
fAfA
2fAfC
2fAfD
2fAfE
0.14
0.28
0.09
0.09
fCfC
2fCfD
2fCfE
0.14
0.09
0.09
fDfD
2fDfD
0.015
0.03
E
fEfE
Frequenze osservate
degli aminoacidi:
A
C
D
E
0.015
Matrice delle frequenze
attese per caso
fA= 0.375
fC= 0.375
fD= 0.125
fE= 0.125
Sostituzioni osservate in allineamenti casuali
Matrici delle sostituzioni casuali
Come si possono generare sequenze casuali, allo stesso modo si possono anche generare
allineamenti casuali di sequenze casuali. Allineare casualmente due sequenze significa affiancarle
casualmente l'una all'altra in uno dei diversi modi possibili senza considerare la similarità fra gli
aminoacidi che stiamo appaiando.
Quale è la probabilità di osservare una coppia di aminoacidi, ad esempio la coppia AC, in una data
posizione di un allineamento casuale? Questa probabilità dipende solamente dalla frequenza degli
aminoacidi che la compongono.
Ad esempio la probabilità di osservare la coppia AC in una posizione dell'allineamento è data dal
prodotto delle probabilità di osservare una A in quella posizione sulla prima sequenza e una C nella
stessa posizione sulla seconda sequenza, o viceversa, ovvero la somma di f(C)xf(A) + f(A)xf(C) o
2xf(A)xf(C).
Per le coppie di aminoacidi identici, come DD, la probabilità di osservarle in una posizione sarà
invece solo la probabilità di avere una D in una posizione per quella di avere una D anche nella
seconda posizione, ovvero f(D) x f(D).
Dato un insieme di sequenze generate casualmente usando una certa composizione aminoacidica, è
possibile calcolare la probabilità di osservare ogni possibile coppia di aminoacidi in un allineamento
casuale di queste sequenze.
Esistono 400 (20x20) diverse possibili coppie di aminoacidi, ma considerando uguali le coppie formate
dagli stessi aminoacidi, ad esempio A con C e C con A, le possibili coppie diverse sono solo 210.
Una matrice delle sostituzioni casuali contiene per ognuna delle 210 possibili coppie di aminoacidi, la
probabilità di osservare una di queste coppie in una posizione di un allineamento casuale.
Nella figura è riportata una parte di una matrice di sostituzioni casuali per i soli 4 aminoacidi A, C, D
ed E. Se assumiamo la composizione aminoacidica indicata in figura (fA=0.375 e fD 0.125), la
probabilità di osservare casualmente in un allineamento la coppia AD è indicata nella matrice all'
incrocio tra la riga A e alla colonna D, ed è pari a 2xfAxfD, ovvero circa 0.09.
Sostituzioni osservate
Sostituzioni osservate
AACCADDEED
AACCCDDEEE
A
C
D
E
A C D E
AA= 6
CC = 6
AC =3
DD =2
EE = 2
ED = 1
------Tot = 20
AACCAAACCA
AACCCAACCC
A
C
D
E
6/20
3/20
0/20
0/20
6/20
0/20
0/20
2/20
1/20
2/20
A 6 3 0 0
A
C
D
E
C
D
6 0 0
2 1
E
2
A
C
D
E
0.3
0.15
0
0
0.3
0
0
0.1
0.05
0.1
Sostituzioni osservate
Matrice delle frequenze per le sostituzioni osservate
Sino ad ora abbiamo considerato la frequenza con cui era possibile osservare sostituzioni fra
aminoacidi casuali in allineamenti casuali. La situazione cambia completamente se consideriamo
invece allineamenti reali (calcolati ad esempio usando l'algoritmo di Smith e Waterman) di
sequenze di proteine reali e tra loro omologhe.
In questo caso le frequenze con con cui osserviamo le coppie di aminoacidi che si appaiano
nell'allineamento sono molto lontane dalle frequenze attese per quelle coppie in allineamenti
casuali.
Inanzitutto le coppie di aminoacidi identici, come W con W sono molto più frequenti di coppie di
aminoacidi sostituiti come P con T. Inoltre coppie di aminoacidi simili biochimicamente come S con
T sono trovate in modo più frequente, rispetto a coppie di aminoacidi molto differenti come W con
G.
A partire da questa considerazione possiamo pensare di usare le frequenze con cui le coppie di
aminoacidi appaiati compaiono in un insieme predefinito e grande di allineamenti conosciuti di
sequenze molto simili come punteggi per indicare la similarità di una coppia di aminoacidi e creare
una matrice di sostituzione.
Per costruire una matrice di sostituzione, si sceglie un numero molto alto di proteine e si allineano fra
di loro quelle sicuramente omologhe e molto simili, in modo tale da essere certi che tutte le coppie di
aminoacidi osservate negli allineamenti siano realmente coppie che occupano posizioni corrispondenti
nelle due sequenze. Una volta ottenuti gli allineamenti, si valutano le frequenze delle coppie di
aminoacidi appaiati. Nella figura la coppia AA è trovata 6 volte su un totale di 20 coppie nei due
allineamenti, quindi con una frequenza di 6/20 ovvero 0.3.
Possiamo costruire in questo modo una matrice che contiene le frequenze di tutte le sostituzioni
osservate. In questa matrice i valori più alti dovrebbero essere assegnati alle coppie di aminoacidi più
simili e che di solito vengono quindi trovate più frequentemente negli allineamenti di sequenze
omologhe.
Usando questo semplice metodo però si incorre in un problema: guardando la matrice di sostituzione
che abbiamo appena costruito nell'esempio in figura, si vede che la coppia AC (frequenza 0.15) ha un
valore più alto della coppia DD (0.1) o della coppia EE (0.1).
Come è possibile che una sostituzione fra aminoacidi diversi sia avvantaggiata rispetto al
mantenimento di una coppia di aminoacidi uguali?
Frequenza sostituzioni
Osservate & attese
Rapporto osservati/attesi
Odds = rapporti
fra il numero di coppie osservate e in numero di coppie attese
p(XX) = f(XX) /a(XX)
AACCAAACCA
AACCCAACCC
f(AC) 0.15 > f(DD) 0.1
AACCADDEED
AACCCDDEEE
???
Frequenze osservate
degli aminoacidi:
fA= 0.375
fC= 0.375
fD= 0.125
fE= 0.125
Freq. osservata f(AC)
0.15
P(AC) = ----------------- = ------ = ------ = 0.53 ( < 1 sfavorita )
Freq. attesa
a(AC)
0.28
Freq. osservata f(DD)
0.1
P(DD) = ----------------- = ------ = ------ = 6.4 ( > 1 favorita )
Freq. attesa
a(DD)
0.015
Frequenza osservata e frequenza attesa per caso.
Odds - Rapporto frequenze osservate / frequenze attese
Questo accade perchè la frequenza dei singoli aminoacidi A e C è molto maggiore della frequenza
dei singoli aminoacidi D ed E se si vede la composizione aminoacidica delle sequenze che abbiamo
usato negli allineamenti di partenza (fA= 0.375 e fD = 0.125).
Questo fa si che essendo molte di più le A e le C è molto più facile per queste capitare appaiate
fra di loro per puro caso. In realtà infatti quello che noi vorremmo misurare in una matrice di
sostituzione è quanto spesso osserviamo una coppia di aminoacidi in degli allineamenti ma solamente
rispetto a quanto osserveremmo quella coppia per puro effetto del caso.
Per considerare questi effetti le matrici di sostituzioni sono costruite usando i valori delle frequenze
osservate per ogni coppia di aminoacidi ma normalizzati dividendoli per i valori delle frequenze attese
per caso per quella stessa coppia. Queste quantità si chiamano Odds (rapporti) e sono un indice di
quanto una coppia è avvantaggiata o sfavorita in un allineamento. Se la frequenza con cui una coppia
viene osservata è più alta rispetto a quanto ci si aspetterebbe di trovarla per puro caso, il rapporto
sarà un numero maggiore di 1 e avrà un valore tanto più alto tanto più quell'appaiamento è favorito. Se
al contrario la coppia viene osservata in allineamenti reali meno spesso di quanto ci si aspetterebbe di
trovare quei dua aminoacidi appaiati in allineamenti casuali, il rapporto sarà un numero minore di 1 e
tanto più vicino allo zero quanto più la coppia è svantaggiata.
Nella figura si vede che la coppia AC (frequenza osservata = 0.15) sarebbe attesa per caso (come si
calcola dalla matrice delle sostituzioni casuali) in modo molto maggiore (frequenza attesa 0.28)
rispetto a quante volte viene realmente osservata. Questo fa si che il rapporto frequenza
attesa/frequenza osservata sia minore di 1 (Odd=0.53) e che quindi la coppia risulta sfavorita
dall'evoluzione. Al contrario la coppia DD pur essendo osservata con una frequenza più bassa rispetto
ad a AC (solo 0.1) è attesa per caso con una frequenza ancora inferiore (0.015) risultando di fatto
avvantaggiata. Compre infatti negli allineamenti 6.4 volte di più rispetto a quanto sarebbe attesa per
caso.
Matrice di probabilità
A
C
D
E
A
C
D
E
0.3
0.15
0.0..
0.0..
0.3
0.0..
0.0..
0.1
0.05
A
C
D
Diviso
D
E
0.14
0.28
0.09
0.09
0.14
0.09
0.09
0.015
0.03
=
0.01
Frequenze attese
Frequenze osservate
E
C
E
0.1
A
C
D
A
Probabilità di allineamento
A
C
D
E
2.13
0.53
0
0
2.13
0
0
6.4
1.6
6.4
<1
Sostituzione
sfavorita
>1
Sostituzione
favorita
A
C
D
E
AAADE
|| |
AACEE
A
C
D
E
2.13
0.53
0
0
2.13
0
0
6.4
1.6
6.4
Matrice di probabilità
Gli Odds non possono essere sommati
Per calcolare il puneggio di un allineamento
ma debbono essere moltiplicati
f(AA) x f(AA) x f(AC) x f(DE) x f(EE)
---------------------------------------------a(AA) x a(AA) x a(AC) x a(DE) x a(EE)
= pAA x pAA x pAC x pDE x pEE
= 2.13 x 2.13 x 0.53 x 1.6 x 6.4 = 25
Matrice di probabilità
Scomodo!
Matrice di probabilità e punteggio di un allineamento
Punteggio di un allineamento
La matrice che contiene per ogni coppia di aminoacidi al suo interno gli Odds (ovvero il rapporto
fra frequenza attesa/ frequenza osservata per ogni coppia), si chiama matrice di probabilità e può
essere usata per calcolare il punteggio di un allineamento. Per costruire questa matrice si dividono
i valori contenuti nella matrice delle frequenze osservate per i valori calcolati per le frequenze
attese di ogni coppia. Ad esempio per la coppia AA la probabilità è 2.13 (0.3/0.14).
La probabilità di osservare un allineamento rispetto alla probabilità di osservare lo stesso allineamento
per caso può essere calcolata come il prodotto delle probabilità di osservare ogni coppia di aminoacidi
che lo compone rispetto alle probabilità di osservare le stesse coppie per caso. I valori di probabilità
per ogni possibile coppia di aminoacidi sono quelli contenuti nella matrice di probabilità.
Il fatto di dover eseguire tante moltiplicazioni quante sono le coppie di aminoacidi da allineare rende
molto scomode da usare in pratica questo genere di matrici.
Logaritmo delle frequenze
Matrice di punteggio
Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d)
A
A
Prob = pAA x pAA x pAC x pDE x pEE
C
D
E
log( Prob ) = log( pAA x pAA x pAC x pDE x pEE )
A
C
D
E
pAA
C
D
E
A
C
D
E
log(pAA)
log(pCA)
log(pAD)
log(pAE)
log(pAA)
log(pCD)
log(pCE)
log(pDD)
log(pDE)
pAC
pAD
pAE
pCC
pCD
pCE
pDD
pDE
pEE
A
C
D
E
D
E
0.53
0
0
2.13
0
0
6.4
1.6
Logaritmo
=
6.4
<1
Sostituzione
sfavorita
A
C
D
E
A
C
D
E
0.3
-0.2
0
0
0.3
0
0
0.8
0.2
0.8
Matrice di punteggio
Matrice di probabilità
Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE)
A
2.13
C
>1
Sostituzione
favorita
log(pEE)
Logaritmo delle frequenze
Matrice di punteggio
Per trasformare il puntegio di un allineamento calcolabile come un prodotto, in un punteggio
calcolabile come una somma possiamo usare una proprietà dei logaritmi. Il logaritomo del prodotto
di una serie di numeri è uguale alla somma dei logatimi dei singoli valori.
Il punteggio di un allineamento è il prodotto dei valori contenuti nella matrice di probabilità per
ogni coppia di aminoacidi. Il logaritmo del punetggio è quindi uguale al logaritmo del prodotto dei
singoli valori, e quindi anche, grazie alla proprità di cui sopra, alla somma dei logaritmi dei singoli
valori.
Se quindi in una matrice di probabilità usiamo anzichè gli odds i logaritmi degli odds otterrmo
l'effetto che questi valori potranno essere sommati fra di loro anzichè moltiplicati per ottenere il
logaritmo del punteggio di un allineamento.
Una matrice di punteggio è come una matrice di probabilità ma anziche contenere gli odds contiene il
logaritmo degli odds per ogni coppia di aminoacidi.
Calcolando il logaritmo, i valori che erano maggiori di 1 nella matrice di probabilità (le sostituzioni
favorite) diventeranno adesso numeri maggiori di 0. Mentre i numeri fra uno e zero ( le sostituzioni
sfavorite) diventeranno adesso numeri negativi.
Punteggio di un allineamento
A
C
D
E
A
C
D
E
0.3
-0.2
0
0
0.3
0
0
0.8
0.2
0.8
Una matrice di punteggio
<1
Sostituzione
sfavorita
>1
Sostituzione
favorita
Matrice di punteggio
AAADE
|| |
AACEE
= 0.3 + 0.3 – 0.2 + 0.2 + 0.8 = 1.4
Prob= 10 1.4 = 25
Identità
Sostituzioni avvantaggiate
Sostituzioni avvantaggiate
Sostituzioni svantaggiate
Punteggio di un allineamento
Matrice di punteggio reale
I valori contenuti in una matrice di punteggio possono quindi essere sommati fra di loro per
ottenere un punteggio per un allineamento.
Il punteggio otteunto sarà pari al logaritmo della probabilità di osserare un allineamento rispetto
alla probabilità di osservarlo per caso.
Per conoscere la probabilità bisogna quindi elevare 10 al punetggio ottenuto.
Rappresentata in figura è una matrice di punteggio reale costruita con il metodo che abbiamo appena
descritto a partire da molti allineamenti di sequenze omologhe. In diagonale ci sono i valori di
sostituzione di un aminoacido con se stesso ( in arancione), che sono i più alti di tutti.
Alcuni valori sono positivi (in blu e verde), e sono le sostituzioni avvantaggiate fra coppie di aminoacidi
simili fra di loro. Tutti gli altri (in bianco) sono le sostituzioni svantaggiate.
Le matrici che vengono usate per gli allineamenti si distinguono inanzitutto per il modo in cui sono stati
scelti gli allineamenti di proteine usati per costruirle.
Noi analizzeremo i due tipi di matrici più utilizzati. Le matrici PAM e quelle BLOSUM.
Matrici BLOSUM
Distanza delle matrici
A
C
A
C
D
E
A
C
D
E
10
-10
-12
-15
1.0
-1.0
-0.7
-1.5
11
-9
-10
1.5
-1.1
-0.2
13
-8
0.5
-0.9
D
E
Da allineamenti di
sequenze molto simili
12
A
C
D
E
LT
LT
LT
LT
LT
A
A
I
A
A
G
G
G
G
G
ARI
ARL
LRI
ARI
ARI
D
D
E
D
D
ED--E-E-EDW
E
AR
--DAR
I
I
DEDW
-EDW
DEDA
-EDW
DEDW
LTAGARID
LTAGARLD
0.8
LTAGARID
LTAGARID
Da allineamenti di
sequenze molto divergenti
ED
ED
ED
ED
ED
IS
IS
IS
IS
IS
LHDW
IHEW
LHDG
LHDW
LHDW
RTE
STE
RTRTE
RTE
A-A---E
--AIL
DWL
DWI
DWL
DWL
DWL
HDW
HEW
HDW
HDW
HDW
R
T
R
R
R
T
T
S
T
T
DW
DW
DW
DW
AW
LTIGLRIE
LTAGARID
LTAGARLD
LTIGLRIE
Identità < x %
Distanza di una matrice
Matrici Blosum
Una caratteristica che distingue tutte le matrici (indipendentemente dal modo in cui sono stati
scelti gli allinemaenti) è il valore di similarità delle sequenze usate per costruirle. Se gli
allineamenti usati sono allineamenti di proteine molto vicine filogeneticamente fra di e con un alto
grado di identità ovviamente ci saramnno pochissime sostituzioni osservabili e le matrici che ne
deriveranno avranno i valori sulla diagonale molto più alti che in tutto il resto della matrice, ed ogni
sostituzione (anche le più favorite) saranno molto svantaggiate in un allineamento.
Al contrario se sono stati usati allineamenti di sequenze sempre omologhe ma molto divergenti e
con numerose sostituzioni, si avranno matrici in cui la differenza fra i punteggi sulla diagonale
rispetto al resto della matrice sarà molto ridotta.
Le matrici blosum sono costruite a partire da blocchi di allineamenti multipli locali di famiglie di
proteine derivati dalla banca dati BLOCKS.
In pratica per contare le sostituzioni si analizzanto corti tratti di sequenza senza gaps fra tutte le
possibli coppie di proetine appartenenti alla stessa famiglia. Il numero associato alla parola blosum
indica la percentuale di identità massima esistente all'interno della famiglia di proteine presa in
considerazione.
Ad esempio la matrice BLOSUM 60 contiene i valori di sostituzione derivati da allineamenti locali di
tutte le proteine appartenenti ad una certa famiglia ma con una percentuale di identità massimo nei
loro allineamenti del 60%.
Matrici PAM
Percent Accepted Mutation
Corrispondenza PAM/BLOSUM
Maggiore
divergenza
PAM 250 BLOSUM 45
PAM 200 BLOSUM 52
PAM 2 = PAM 1 * PAM 1
PAM 3 = PAM 2 * PAM 1
PAM 4 = PAM 3 * PAM 1 etc..
Minore
divergenza
PAM 160
BLOSUM 60
PAM 120
BLOSUM 80
PAM 100
BLOSUM 90
Le matrici PAM
Scelta della matrice di sostituzione
Le marici pam sono costruite a partire da allineamenti di famiglie di proteine dove gli allineamenti
sono fatti solamente fra coppie di proteine che sono immediatamente vicine nell'albero
filogenetico della famiglia. La matrice di probabilità ottenuta è poi modificata in modo da far si
che ci sia solamente 1 mutazione accettata ogni 100 aminoacidi (PAM = Percent Accepted
Mutation).
In questo modo viene costruita la matrice PAM 1, che rappresenta le mutazioni osservabili in un
cortissimo lasso di tempo in cui due sequenze divergono fra di loro per appena 1 sostituzione. Le
altre matrici PAM sono ottenute moltiplicando più volte la matrice PAM 1 per se stessa per
ottenere le probabilità di sostituzioni osservabili in tempi evolutivi maggiori. Ad esempio la matrice
PAM 2 si ottiene moltiplicando per se stessa la PAM1, la PAM tre moltiplicando la PAM 2 per la
PAM 1. Il grafico della figura mette in relazione la distanza evolutiva fra due sequenze misurata in
PAM ed il numero di residui non più identici che rimangono fra di loro.
Quando dobbiamo allineare due sequenze bisogna usare una matrice di sostituzione che sia generata a
partire da allineamenti in cui la quantità di residui identici sia paragonabile al numero di residui
identici negli allineamenti usati per costruire la matrice. Quindi per confrontare sequenze molto simili
dovremo usare Matrici PAM con un numero basso o BLOSUM con un numero alto ad esempio PAM 100 o
BLOSUM 90. Per confrontare sequenze molto divergenti useremo invece matrici PAM con un numero
alto o BLOSUM con un numero basso, ad esempio PAM 250 o BLOSUM 45. Nella figura si vede la
relazione fra le matrici PAM e quelle BLOSUM, le matrici che sono sulla stessa riga sono equivalenti.