Una vera matrice di sostituzione A A C D E F G H I K L M N P Q R S T V W Y H I K L M N P Q 2 -2 0 0 -4 1 -1 12 -5 -5 -4 -3 -3 4 3 -6 1 1 4 -5 0 1 8 -5 -2 5 -2 6 C D E F G -1 -2 -2 -2 1 -3 -2 5 -1 -5 0 0 -5 -2 0 -2 5 -2 -6 -4 -3 2 -4 -2 2 -3 6 -1 -5 -3 -2 0 -3 -2 2 0 4 6 0 -4 2 1 -4 0 2 -2 1 -3 -2 2 1 -3 -1 -1 -5 -1 0 -2 -1 -3 -2 -1 6 0 -5 2 2 -5 -1 3 -2 1 -2 -1 1 0 4 R S T V W Y -2 1 1 0 -6 -3 -4 0 -2 -2 -8 0 -1 0 0 -2 -6 -4 -1 0 0 -2 -6 -4 -4 -3 -3 -1 0 6 -3 1 0 -1 -6 -5 2 -1 -1 -2 -3 0 -2 -1 0 4 -5 -1 3 0 0 -2 -3 -4 -3 -3 -2 2 -2 -1 0 -2 -1 2 -4 -2 0 1 0 -2 -4 -2 0 1 0 -1 -6 -5 1 -1 -1 -2 -5 -4 6 0 -1 -2 2 -4 2 1 -1 -2 -3 3 0 -5 -3 4 -6 -2 17 0 10 Probabilità congiunta Probabilità di tirare un 4 = p(4) = 1/6 = 0.16 Probabilità di tirare 4 per due volte di seguito = p(4) * p(4) = 1/6 * 1/6 = 0.16 * 0.16 = 0.025 Per 3 volte = 0.16*0.16*0.16 = 0.0046 Una matrice di sostituzione Probabilità congiunta di due eventi Quando si allineano due sequenze, i valori da assegnare ad ogni coppia di residui possono venire ricavati da una matrice di sostituzione. Una matrice di sostituzione contiene un valore per ogni tipo possibile di sostituzione fra due aminoacidi. I punteggi della matrice sono di tipo positivo o negativo a seconda della similarità della coppia di aminoacidi. Le coppie di aminoacidi identici si trovano sulla diagonale ed hanno generalmente un valore più alto rispetto alle altre sostituzioni dello stesso residuo, visto che ovviamente è più probabile nel corso dell'evoluzione che un aminoacido non venga sostituito piuttosto che il contrario. Il valore assegnato ad ogni coppia di aminoacidi è calcolato a partire dalla frequenza della coppia in allineamenti di sequenze omologhe. Il modo esatto in cui sono costruite è descritto in questo capitolo. Due eventi indipendenti hanno una probabilità di verificarsi contemporaneamente pari al prodotto delle loro probabilità di verificarsi singolarmente. Ad esempio se la probabilità di ottenere un 4 con un dado a 6 facce è di un 1/6, la probabilità di ottenere 2 volte 4 lanciando due dadi (eventi indipendenti) sarà di 1/36 (1/6 x 1/6). Probabilità di una sequenza A-A-C-E-E Frequenze degli aminoacidi AACCAAACCA AACCCAACCC AACCADDEED AACCCDDEEE Numero di aminoacidi: p(A) x p(A) x p(C) x p(E) x p(E) = f(A) x f(A) x f(C) x f(E) x f(E) = 0.05 x 0.05 x 0.05 x 0.05 x 0.05 = 3,125 x 10-7 A= 15 C = 15 D=5 E=5 --Totale = 40 Frequenza degli aminoacidi: = numero/ totale fA= 15/40 fC= 15/40 fD= 5/40 fE= 5/40 = 0.375 = 0.375 = 0.125 = 0.125 Probabilità di osservare una sequenza Frequenze aminoacidiche Se una sequenza di aminoacidi è generata attraverso una serie di eventi casuali e indipendenti, la probabilità di osservarla è analoga a quella di pescare le stesse lettere da cui è composta estraendole nello stesso ordine una dopo l'altra da un sacchetto. Questa probabilità è pari al prodotto delle probabilità di estrazione di ognuna delle lettere. Se il sacchetto contiene un numero infinito di lettere e un numero di lettere uguale per ogni tipo, la probabilità di estrazione di ogni lettera e' di 1/20 e la probabilità per un intera sequenza di lunghezza n è di (1/20)n. La frequenza di un aminoacido X in un insieme di sequenze costituito da N aminoacidi è data dal rapporto tra il numero di volte in cui compare l'aminoacido X e il numero totale di aminoacidi N. Per calcolare quindi la frequenza di un aminoacido si conta quante volte quell'aminoacido è presente e si divide il valore per il numero totale degli aminoacidi. Nelle 4 sequenze della figura la frequenza della A è pari a 15 (il numero delle A) diviso 40 (il numero totale degli aminoacidi nelle 4 sequenze), ovvero 0.375. Composizione aminoacidica Probabilità di una sequenza Frequenze osservate degli aminoacidi: AACEE fA= 0.375 fC= 0.375 fD= 0.125 fE= 0.125 Prodotto delle probabilità di occorrenza di ogni coppia = f(A) x f(A) x f(C) x f(E) x f(E) = 0.375 x 0.375 x 0.375 x 0.125 x 0.125 = 8,2 x 10-4 Composizione aminoacidica Probabilità di sequenze reali La composizione aminoacidica di una sequenza è l'insieme delle frequenze di ogunno dei 20 aminoacidi calcolate per la sequenza stessa. Considerando la composizione di un gran numero di sequenze si osserva che i diversi aminoacidi in natura non sono egualmente rappresentati ma ci sono aminoacidi più frequenti, come ad esempio alanina (0.09) e glicina ed aminoacidi meno frequenti come il triptofano (0.01). Per calcolare la probabilitò di osservare una sequenza in natura non bisogna quindi considerare ogni aminoacido egualmente probabile, poichè maggiore è la frequenza di quell'aminaocido in natura maggiore è la probabilità che questo venga usato (estratto dal sacchetto). La probabilità di osservare una sequenza reale è quindi il prodotto delle frequenze di tutti gli aminoacidi che la compongono. A parità di lunghezza, quindi, una sequenza formata da aminoacidi con un'alta frequenza sarà più probabile rispetto ad un'altra composta da aminoacidi più rari. Allineamenti casuali DEAADCCACE CAEDAACCAC ECACCDAAEA AACCADCACC Affiancare casualmente Sequenze casuali DEAADCCACE | CAEDAACCAC ECACCDAAEA | | AACCADCACC p(AC)= f(A) * f(C) = 2*0.375 * 0.375 = 0.28 p(DD)= f(D) * f(D) = 0.125 * 0.125 = 0.015 Sostituzioni casuali A C D A C D E A C D E fAfA 2fAfC 2fAfD 2fAfE 0.14 0.28 0.09 0.09 fCfC 2fCfD 2fCfE 0.14 0.09 0.09 fDfD 2fDfD 0.015 0.03 E fEfE Frequenze osservate degli aminoacidi: A C D E 0.015 Matrice delle frequenze attese per caso fA= 0.375 fC= 0.375 fD= 0.125 fE= 0.125 Sostituzioni osservate in allineamenti casuali Matrici delle sostituzioni casuali Come si possono generare sequenze casuali, allo stesso modo si possono anche generare allineamenti casuali di sequenze casuali. Allineare casualmente due sequenze significa affiancarle casualmente l'una all'altra in uno dei diversi modi possibili senza considerare la similarità fra gli aminoacidi che stiamo appaiando. Quale è la probabilità di osservare una coppia di aminoacidi, ad esempio la coppia AC, in una data posizione di un allineamento casuale? Questa probabilità dipende solamente dalla frequenza degli aminoacidi che la compongono. Ad esempio la probabilità di osservare la coppia AC in una posizione dell'allineamento è data dal prodotto delle probabilità di osservare una A in quella posizione sulla prima sequenza e una C nella stessa posizione sulla seconda sequenza, o viceversa, ovvero la somma di f(C)xf(A) + f(A)xf(C) o 2xf(A)xf(C). Per le coppie di aminoacidi identici, come DD, la probabilità di osservarle in una posizione sarà invece solo la probabilità di avere una D in una posizione per quella di avere una D anche nella seconda posizione, ovvero f(D) x f(D). Dato un insieme di sequenze generate casualmente usando una certa composizione aminoacidica, è possibile calcolare la probabilità di osservare ogni possibile coppia di aminoacidi in un allineamento casuale di queste sequenze. Esistono 400 (20x20) diverse possibili coppie di aminoacidi, ma considerando uguali le coppie formate dagli stessi aminoacidi, ad esempio A con C e C con A, le possibili coppie diverse sono solo 210. Una matrice delle sostituzioni casuali contiene per ognuna delle 210 possibili coppie di aminoacidi, la probabilità di osservare una di queste coppie in una posizione di un allineamento casuale. Nella figura è riportata una parte di una matrice di sostituzioni casuali per i soli 4 aminoacidi A, C, D ed E. Se assumiamo la composizione aminoacidica indicata in figura (fA=0.375 e fD 0.125), la probabilità di osservare casualmente in un allineamento la coppia AD è indicata nella matrice all' incrocio tra la riga A e alla colonna D, ed è pari a 2xfAxfD, ovvero circa 0.09. Sostituzioni osservate Sostituzioni osservate AACCADDEED AACCCDDEEE A C D E A C D E AA= 6 CC = 6 AC =3 DD =2 EE = 2 ED = 1 ------Tot = 20 AACCAAACCA AACCCAACCC A C D E 6/20 3/20 0/20 0/20 6/20 0/20 0/20 2/20 1/20 2/20 A 6 3 0 0 A C D E C D 6 0 0 2 1 E 2 A C D E 0.3 0.15 0 0 0.3 0 0 0.1 0.05 0.1 Sostituzioni osservate Matrice delle frequenze per le sostituzioni osservate Sino ad ora abbiamo considerato la frequenza con cui era possibile osservare sostituzioni fra aminoacidi casuali in allineamenti casuali. La situazione cambia completamente se consideriamo invece allineamenti reali (calcolati ad esempio usando l'algoritmo di Smith e Waterman) di sequenze di proteine reali e tra loro omologhe. In questo caso le frequenze con con cui osserviamo le coppie di aminoacidi che si appaiano nell'allineamento sono molto lontane dalle frequenze attese per quelle coppie in allineamenti casuali. Inanzitutto le coppie di aminoacidi identici, come W con W sono molto più frequenti di coppie di aminoacidi sostituiti come P con T. Inoltre coppie di aminoacidi simili biochimicamente come S con T sono trovate in modo più frequente, rispetto a coppie di aminoacidi molto differenti come W con G. A partire da questa considerazione possiamo pensare di usare le frequenze con cui le coppie di aminoacidi appaiati compaiono in un insieme predefinito e grande di allineamenti conosciuti di sequenze molto simili come punteggi per indicare la similarità di una coppia di aminoacidi e creare una matrice di sostituzione. Per costruire una matrice di sostituzione, si sceglie un numero molto alto di proteine e si allineano fra di loro quelle sicuramente omologhe e molto simili, in modo tale da essere certi che tutte le coppie di aminoacidi osservate negli allineamenti siano realmente coppie che occupano posizioni corrispondenti nelle due sequenze. Una volta ottenuti gli allineamenti, si valutano le frequenze delle coppie di aminoacidi appaiati. Nella figura la coppia AA è trovata 6 volte su un totale di 20 coppie nei due allineamenti, quindi con una frequenza di 6/20 ovvero 0.3. Possiamo costruire in questo modo una matrice che contiene le frequenze di tutte le sostituzioni osservate. In questa matrice i valori più alti dovrebbero essere assegnati alle coppie di aminoacidi più simili e che di solito vengono quindi trovate più frequentemente negli allineamenti di sequenze omologhe. Usando questo semplice metodo però si incorre in un problema: guardando la matrice di sostituzione che abbiamo appena costruito nell'esempio in figura, si vede che la coppia AC (frequenza 0.15) ha un valore più alto della coppia DD (0.1) o della coppia EE (0.1). Come è possibile che una sostituzione fra aminoacidi diversi sia avvantaggiata rispetto al mantenimento di una coppia di aminoacidi uguali? Frequenza sostituzioni Osservate & attese Rapporto osservati/attesi Odds = rapporti fra il numero di coppie osservate e in numero di coppie attese p(XX) = f(XX) /a(XX) AACCAAACCA AACCCAACCC f(AC) 0.15 > f(DD) 0.1 AACCADDEED AACCCDDEEE ??? Frequenze osservate degli aminoacidi: fA= 0.375 fC= 0.375 fD= 0.125 fE= 0.125 Freq. osservata f(AC) 0.15 P(AC) = ----------------- = ------ = ------ = 0.53 ( < 1 sfavorita ) Freq. attesa a(AC) 0.28 Freq. osservata f(DD) 0.1 P(DD) = ----------------- = ------ = ------ = 6.4 ( > 1 favorita ) Freq. attesa a(DD) 0.015 Frequenza osservata e frequenza attesa per caso. Odds - Rapporto frequenze osservate / frequenze attese Questo accade perchè la frequenza dei singoli aminoacidi A e C è molto maggiore della frequenza dei singoli aminoacidi D ed E se si vede la composizione aminoacidica delle sequenze che abbiamo usato negli allineamenti di partenza (fA= 0.375 e fD = 0.125). Questo fa si che essendo molte di più le A e le C è molto più facile per queste capitare appaiate fra di loro per puro caso. In realtà infatti quello che noi vorremmo misurare in una matrice di sostituzione è quanto spesso osserviamo una coppia di aminoacidi in degli allineamenti ma solamente rispetto a quanto osserveremmo quella coppia per puro effetto del caso. Per considerare questi effetti le matrici di sostituzioni sono costruite usando i valori delle frequenze osservate per ogni coppia di aminoacidi ma normalizzati dividendoli per i valori delle frequenze attese per caso per quella stessa coppia. Queste quantità si chiamano Odds (rapporti) e sono un indice di quanto una coppia è avvantaggiata o sfavorita in un allineamento. Se la frequenza con cui una coppia viene osservata è più alta rispetto a quanto ci si aspetterebbe di trovarla per puro caso, il rapporto sarà un numero maggiore di 1 e avrà un valore tanto più alto tanto più quell'appaiamento è favorito. Se al contrario la coppia viene osservata in allineamenti reali meno spesso di quanto ci si aspetterebbe di trovare quei dua aminoacidi appaiati in allineamenti casuali, il rapporto sarà un numero minore di 1 e tanto più vicino allo zero quanto più la coppia è svantaggiata. Nella figura si vede che la coppia AC (frequenza osservata = 0.15) sarebbe attesa per caso (come si calcola dalla matrice delle sostituzioni casuali) in modo molto maggiore (frequenza attesa 0.28) rispetto a quante volte viene realmente osservata. Questo fa si che il rapporto frequenza attesa/frequenza osservata sia minore di 1 (Odd=0.53) e che quindi la coppia risulta sfavorita dall'evoluzione. Al contrario la coppia DD pur essendo osservata con una frequenza più bassa rispetto ad a AC (solo 0.1) è attesa per caso con una frequenza ancora inferiore (0.015) risultando di fatto avvantaggiata. Compre infatti negli allineamenti 6.4 volte di più rispetto a quanto sarebbe attesa per caso. Matrice di probabilità A C D E A C D E 0.3 0.15 0.0.. 0.0.. 0.3 0.0.. 0.0.. 0.1 0.05 A C D Diviso D E 0.14 0.28 0.09 0.09 0.14 0.09 0.09 0.015 0.03 = 0.01 Frequenze attese Frequenze osservate E C E 0.1 A C D A Probabilità di allineamento A C D E 2.13 0.53 0 0 2.13 0 0 6.4 1.6 6.4 <1 Sostituzione sfavorita >1 Sostituzione favorita A C D E AAADE || | AACEE A C D E 2.13 0.53 0 0 2.13 0 0 6.4 1.6 6.4 Matrice di probabilità Gli Odds non possono essere sommati Per calcolare il puneggio di un allineamento ma debbono essere moltiplicati f(AA) x f(AA) x f(AC) x f(DE) x f(EE) ---------------------------------------------a(AA) x a(AA) x a(AC) x a(DE) x a(EE) = pAA x pAA x pAC x pDE x pEE = 2.13 x 2.13 x 0.53 x 1.6 x 6.4 = 25 Matrice di probabilità Scomodo! Matrice di probabilità e punteggio di un allineamento Punteggio di un allineamento La matrice che contiene per ogni coppia di aminoacidi al suo interno gli Odds (ovvero il rapporto fra frequenza attesa/ frequenza osservata per ogni coppia), si chiama matrice di probabilità e può essere usata per calcolare il punteggio di un allineamento. Per costruire questa matrice si dividono i valori contenuti nella matrice delle frequenze osservate per i valori calcolati per le frequenze attese di ogni coppia. Ad esempio per la coppia AA la probabilità è 2.13 (0.3/0.14). La probabilità di osservare un allineamento rispetto alla probabilità di osservare lo stesso allineamento per caso può essere calcolata come il prodotto delle probabilità di osservare ogni coppia di aminoacidi che lo compone rispetto alle probabilità di osservare le stesse coppie per caso. I valori di probabilità per ogni possibile coppia di aminoacidi sono quelli contenuti nella matrice di probabilità. Il fatto di dover eseguire tante moltiplicazioni quante sono le coppie di aminoacidi da allineare rende molto scomode da usare in pratica questo genere di matrici. Logaritmo delle frequenze Matrice di punteggio Log ( a x b x c x d ) = log(a) + log(b) + log(c) + log(d) A A Prob = pAA x pAA x pAC x pDE x pEE C D E log( Prob ) = log( pAA x pAA x pAC x pDE x pEE ) A C D E pAA C D E A C D E log(pAA) log(pCA) log(pAD) log(pAE) log(pAA) log(pCD) log(pCE) log(pDD) log(pDE) pAC pAD pAE pCC pCD pCE pDD pDE pEE A C D E D E 0.53 0 0 2.13 0 0 6.4 1.6 Logaritmo = 6.4 <1 Sostituzione sfavorita A C D E A C D E 0.3 -0.2 0 0 0.3 0 0 0.8 0.2 0.8 Matrice di punteggio Matrice di probabilità Log (Prob) = log(pAA) +log(pAA) +log(pAC) +log(pDE) +log(pEE) A 2.13 C >1 Sostituzione favorita log(pEE) Logaritmo delle frequenze Matrice di punteggio Per trasformare il puntegio di un allineamento calcolabile come un prodotto, in un punteggio calcolabile come una somma possiamo usare una proprietà dei logaritmi. Il logaritomo del prodotto di una serie di numeri è uguale alla somma dei logatimi dei singoli valori. Il punteggio di un allineamento è il prodotto dei valori contenuti nella matrice di probabilità per ogni coppia di aminoacidi. Il logaritmo del punetggio è quindi uguale al logaritmo del prodotto dei singoli valori, e quindi anche, grazie alla proprità di cui sopra, alla somma dei logaritmi dei singoli valori. Se quindi in una matrice di probabilità usiamo anzichè gli odds i logaritmi degli odds otterrmo l'effetto che questi valori potranno essere sommati fra di loro anzichè moltiplicati per ottenere il logaritmo del punteggio di un allineamento. Una matrice di punteggio è come una matrice di probabilità ma anziche contenere gli odds contiene il logaritmo degli odds per ogni coppia di aminoacidi. Calcolando il logaritmo, i valori che erano maggiori di 1 nella matrice di probabilità (le sostituzioni favorite) diventeranno adesso numeri maggiori di 0. Mentre i numeri fra uno e zero ( le sostituzioni sfavorite) diventeranno adesso numeri negativi. Punteggio di un allineamento A C D E A C D E 0.3 -0.2 0 0 0.3 0 0 0.8 0.2 0.8 Una matrice di punteggio <1 Sostituzione sfavorita >1 Sostituzione favorita Matrice di punteggio AAADE || | AACEE = 0.3 + 0.3 – 0.2 + 0.2 + 0.8 = 1.4 Prob= 10 1.4 = 25 Identità Sostituzioni avvantaggiate Sostituzioni avvantaggiate Sostituzioni svantaggiate Punteggio di un allineamento Matrice di punteggio reale I valori contenuti in una matrice di punteggio possono quindi essere sommati fra di loro per ottenere un punteggio per un allineamento. Il punteggio otteunto sarà pari al logaritmo della probabilità di osserare un allineamento rispetto alla probabilità di osservarlo per caso. Per conoscere la probabilità bisogna quindi elevare 10 al punetggio ottenuto. Rappresentata in figura è una matrice di punteggio reale costruita con il metodo che abbiamo appena descritto a partire da molti allineamenti di sequenze omologhe. In diagonale ci sono i valori di sostituzione di un aminoacido con se stesso ( in arancione), che sono i più alti di tutti. Alcuni valori sono positivi (in blu e verde), e sono le sostituzioni avvantaggiate fra coppie di aminoacidi simili fra di loro. Tutti gli altri (in bianco) sono le sostituzioni svantaggiate. Le matrici che vengono usate per gli allineamenti si distinguono inanzitutto per il modo in cui sono stati scelti gli allineamenti di proteine usati per costruirle. Noi analizzeremo i due tipi di matrici più utilizzati. Le matrici PAM e quelle BLOSUM. Matrici BLOSUM Distanza delle matrici A C A C D E A C D E 10 -10 -12 -15 1.0 -1.0 -0.7 -1.5 11 -9 -10 1.5 -1.1 -0.2 13 -8 0.5 -0.9 D E Da allineamenti di sequenze molto simili 12 A C D E LT LT LT LT LT A A I A A G G G G G ARI ARL LRI ARI ARI D D E D D ED--E-E-EDW E AR --DAR I I DEDW -EDW DEDA -EDW DEDW LTAGARID LTAGARLD 0.8 LTAGARID LTAGARID Da allineamenti di sequenze molto divergenti ED ED ED ED ED IS IS IS IS IS LHDW IHEW LHDG LHDW LHDW RTE STE RTRTE RTE A-A---E --AIL DWL DWI DWL DWL DWL HDW HEW HDW HDW HDW R T R R R T T S T T DW DW DW DW AW LTIGLRIE LTAGARID LTAGARLD LTIGLRIE Identità < x % Distanza di una matrice Matrici Blosum Una caratteristica che distingue tutte le matrici (indipendentemente dal modo in cui sono stati scelti gli allinemaenti) è il valore di similarità delle sequenze usate per costruirle. Se gli allineamenti usati sono allineamenti di proteine molto vicine filogeneticamente fra di e con un alto grado di identità ovviamente ci saramnno pochissime sostituzioni osservabili e le matrici che ne deriveranno avranno i valori sulla diagonale molto più alti che in tutto il resto della matrice, ed ogni sostituzione (anche le più favorite) saranno molto svantaggiate in un allineamento. Al contrario se sono stati usati allineamenti di sequenze sempre omologhe ma molto divergenti e con numerose sostituzioni, si avranno matrici in cui la differenza fra i punteggi sulla diagonale rispetto al resto della matrice sarà molto ridotta. Le matrici blosum sono costruite a partire da blocchi di allineamenti multipli locali di famiglie di proteine derivati dalla banca dati BLOCKS. In pratica per contare le sostituzioni si analizzanto corti tratti di sequenza senza gaps fra tutte le possibli coppie di proetine appartenenti alla stessa famiglia. Il numero associato alla parola blosum indica la percentuale di identità massima esistente all'interno della famiglia di proteine presa in considerazione. Ad esempio la matrice BLOSUM 60 contiene i valori di sostituzione derivati da allineamenti locali di tutte le proteine appartenenti ad una certa famiglia ma con una percentuale di identità massimo nei loro allineamenti del 60%. Matrici PAM Percent Accepted Mutation Corrispondenza PAM/BLOSUM Maggiore divergenza PAM 250 BLOSUM 45 PAM 200 BLOSUM 52 PAM 2 = PAM 1 * PAM 1 PAM 3 = PAM 2 * PAM 1 PAM 4 = PAM 3 * PAM 1 etc.. Minore divergenza PAM 160 BLOSUM 60 PAM 120 BLOSUM 80 PAM 100 BLOSUM 90 Le matrici PAM Scelta della matrice di sostituzione Le marici pam sono costruite a partire da allineamenti di famiglie di proteine dove gli allineamenti sono fatti solamente fra coppie di proteine che sono immediatamente vicine nell'albero filogenetico della famiglia. La matrice di probabilità ottenuta è poi modificata in modo da far si che ci sia solamente 1 mutazione accettata ogni 100 aminoacidi (PAM = Percent Accepted Mutation). In questo modo viene costruita la matrice PAM 1, che rappresenta le mutazioni osservabili in un cortissimo lasso di tempo in cui due sequenze divergono fra di loro per appena 1 sostituzione. Le altre matrici PAM sono ottenute moltiplicando più volte la matrice PAM 1 per se stessa per ottenere le probabilità di sostituzioni osservabili in tempi evolutivi maggiori. Ad esempio la matrice PAM 2 si ottiene moltiplicando per se stessa la PAM1, la PAM tre moltiplicando la PAM 2 per la PAM 1. Il grafico della figura mette in relazione la distanza evolutiva fra due sequenze misurata in PAM ed il numero di residui non più identici che rimangono fra di loro. Quando dobbiamo allineare due sequenze bisogna usare una matrice di sostituzione che sia generata a partire da allineamenti in cui la quantità di residui identici sia paragonabile al numero di residui identici negli allineamenti usati per costruire la matrice. Quindi per confrontare sequenze molto simili dovremo usare Matrici PAM con un numero basso o BLOSUM con un numero alto ad esempio PAM 100 o BLOSUM 90. Per confrontare sequenze molto divergenti useremo invece matrici PAM con un numero alto o BLOSUM con un numero basso, ad esempio PAM 250 o BLOSUM 45. Nella figura si vede la relazione fra le matrici PAM e quelle BLOSUM, le matrici che sono sulla stessa riga sono equivalenti.