Markov Chain

Metodi Numerici per la
bioinformatica
A.A. 2008/09
Francesco Archetti
Site-specific score matrix
Sequenze genomiche per particolari siti : ( splicing tra esone/introne –
introne/esone) definiti da AG e GT
Sequenze di n basi a monte e a valle di un sito di splicing
Matrice 4x 2N , le cui righe corrispondono a A,T,C,G .
Ogni elemento corrisponde alla frequenza con cui la base corrispondente alla riga è
osservata nella posizione corrispondente alla colonna .
Se il numero di sequenze (osservazioni ) è sufficientemente elevato queste
frequenze approssimano le probabilità.
1
2
3
4
5
A
0.30
0.50
0.10
0.45
0.65
C
0.20
0.15
0.05
0.20
0.05
G
0.45
0.20
0.80
0.30
0.25
T
0.05
0.15
0.05
0.05
0.05
Consideriamo la sequenza GGTCACAACGTTAGG : quale è la probabilità che
appartenga alla regione per cui è stata “appresa” la matrice?
A.A. 2008/2009
Francesco Archetti
Site-specific score matrix
1
2
3
4
5
A
0.30
0.50
0.10
0.45
0.65
C
0.20
0.15
0.05
0.20
0.05
G
0.45
0.20
0.80
0.30
0.25
T
0.05
0.15
0.05
0.05
0.05
Se partiamo dalla prima G otteniamo :
0.05 x 0.15 x 0.05 x 0.30 x 0.65 x … = 7.02 x 10-8
Se partiamo dalla seconda otteniamo : 0.05 x 0.15 x 0.80 x
0.45 x 0.25 x ……
= 1.56 x 10-6
La sequenza AACCCACTA ha una probabilità = 1.65 x 10-4
Come facciamo a sapere “ how small is small ?”
A.A. 2008/2009
Francesco Archetti
Site-specific score matrix
Una sequenza a caso dovrebbe avere ogni base equi-distribuita, cioè ogni
elemento della tabella valore 0.25 : 80.2599 =3.81 x 10-6 , quindi solo la
sequenza AACCCACTA avrebbe una probabilità significativa di provenire
dalla matrice associata alla regione .
Questa è una prima istanza di classificazione by machine learning che, a
differenza del clustering, non è supervisionata : possiamo immaginare il
processo in 3 fasi usando il training set costituito dagli “esempli”
sequenze che si sa appartenere alla specifica regione – :
Apprendimento del modello, cioè della matrice, calcolando le frequenze
relative con una parte del training set, detta learning set( tipicamente
80/90% )
Utilizzo della parte rimanente “testing set” per calcolare l’accuratezza con
cui si classificano sequenze note e quindi stimare la validità del
classificatore
produzione in cui la site-specific score matrix , appresa in 1) e validata in
2), viene usata per sequenze nuove
1.
2.
3.
A.A. 2008/2009
Francesco Archetti
Site-specific score matrix
il calcolo di score può diventare molto difficile poiché si
moltiplicano tanti numeri minori di 1;
si usa il metodo “rapporto log-odd” in cui si calcolo il rapporto
tra frequenza osservata e attesa (0.25) e si somma il log. di
questi rapporti
Nella log matrix un valore negativo indica che la base, in quella
posizione compare meno di quanto ci si aspetti in una sequenza
casuale, un valore positivo che compare più spesso.
Le tre sequenze di prima assumono i valori “più umani” :
-5.76,-1.29, 5.44.
A.A. 2008/2009
Francesco Archetti
Site-specific score matrix
Sinora abbiamo considerato le basi isolate dando frequenze
indipendenti dalle basi che precedono.
La probabilità che ci sia G in seconda posizione è
indipendente dal fatto che sia preceduto da una T o A. Ma
un sito di splicing è caratterizzato da GA e quindi la
probabilità che A sia l’inizio di un introne dipende da quale
base la precede.
A.A. 2008/2009
Francesco Archetti
Calcoliamo quindi la frequenza delle coppie nella regione che stiamo studiando (Regione I)
A
T
C
G
A
0.24
0.30
0.14
0.32
T
0.22
0.32
0.10
0.36
C
0.50
0.10
0.38
0.02
G
0.12
0.30
0.33
0.36
Ove la prima riga contiene la probabilità che dopo A ci sia A , T , C o G.
La matrice che caratterizza la regione “normale II “ (ipotesi nulla) ha tutti gli elementi
= 0.25.
Considerando il rapporto di ogni elemento con 0.25 e il suo log. si ottiene una nuova
matrice :
A
T
C
G
A
-0.06
0.26
-0.84
0.36
T
-0.18
0.36
-1.32
0.53
C
1.00
-1.32
0.60
-3.64
G
-1.06
0.26
-0.18
0.53
La matrice contiene valori positivi per le coppie piu frequenti nella regione I e può essere
usata per discriminare tra le 2 regioni.
A.A. 2008/2009
Francesco Archetti
Modelli di Markov
0.24
0.22
0.32
0.25
0.25
0.25
0.25
0.3
AI
TI
AII
TII
CI
GI
CII
GII
0.38
0.36
0.25
0.25
Ogni freccia corrisponde al valore di probabilità desunto da una delle due matrici viste
prima
Da notare: è più probabile trovare una regione ricca di CC e GG nella regione I che
nella regione II
A.A. 2008/2009
Francesco Archetti
Scopo didattico del modulo:
In genomica ed in proteomica l’allineamento delle sequenze, sia di basi
azotate che di residui amminoacidici, racchiude tutta l’informazione sulla
struttura e la funzione di geni e proteine.
I modelli fondamentali per catturare le caratteristiche di queste sequenze
sono particolari modelli probabilistici denominati “catene di Markov”.(Markov
Chain)
In questo modulo sono presentate le definizioni e proprietà fondamentali di
questi modelli, assieme ai principali metodi computazionali per la loro
analisi.
I modelli markoviani possono comunque essere utilizzati ogni volta che il
sistema considerato può essere pensato in un numero finito di stati e la
transizione tra ststi è probabilistica.ad esempio in systems biology
specificatamente nell’analisi della mappa di interazioni proteiche e l’analisi di
reti regolatorie.
A.A. 2008/2009
Francesco Archetti
Andrei Markov
Statistico Russo (1856 – 1922)
Ha studiato modelli probabilistici temporali
Assunzioni di Markov
Xt dipende solo da un numero limitato di X0:t-1
Processi di Markov del primo ordine
P(Xt | X0:t-1) = P(Xt | Xt-1)
Processi di Markov del secondo ordine
P(Xt | X0:t-1) = P(Xt | Xt-2:t-1)
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Principi di modellazione
Cosa posso usare per modellare un mondo che evolve:
Un set Xt di variabili di stato non osservabili al tempo t
Un set Et di variabili osservabili al tempo t
Le dipendenze tra di esse
L’ipotesi che i cambiamenti del mondo siano regolati da
un processo stazionario
Ipotesi di Markov (del primo ordine)
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Weather: A Markov Model
80%
60%
Sunny
Rainy
15%
38%
5%
75% 2%
Snowy
5%
20%
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Ingredienti di un Modello di Markov
Stati:
{S1 , S 2 ,..., S N }
Probabilità di transizione tra stati :
80%
Sunny
aij = P ( X t +1 = Si | X t = S j )
Rainy
15%
38%
75%
A.A. 2008/2009
5%
2%
5%
Snowy
Distribuzione iniziale degli stati:
π i = P[ X 1 = Si ]
60%
20%
Messina
Enza
Francesco
Archetti
Ingredienti del nostro modello
{S sunny , S rainy , S snowy }
Stati:
Matrice di transizione tra stati:
 .8 .15 .05 


A =  .38 .6 .02 
 .75 .05 .2 


Distribuzione iniziale degli stati :
80%
Sunny
Rainy
60%
15%
38%
75%
5%
2%
5%
Snowy
20%
π = (.7 .25 .05)
La matrice di transizione ha nella posizione (i, j) la probabilità di
passare dal risultato i al risultato j eseguendo un singolo
esperimento
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Probabilità di una serie storica
Dati:
Quale è la probabilità di questa serie?
P( S sunny ) ⋅ P( S rainy | S sunny ) ⋅ P( S rainy | S rainy ) ⋅ P( S rainy | S rainy )
⋅ P( S snowy | S rainy ) ⋅ P( S snowy | S snowy )
= 0.7 ⋅ 0.15 ⋅ 0.6 ⋅ 0.6 ⋅ 0.02 ⋅ 0.2 = 0.0001512
A.A. 2008/2009
 .8 .15 .05 


A =  .38 .6 .02 
 .75 .05 .2 


π = (.7 .25 .05)
Messina
Enza
Francesco
Archetti
Modello di Random Walk (RW)
v1
v2
Consideriamo un grafo con 4 nodi
Lancia una moneta: testa o croce
H (head): step in senso orario
T (tail): step in senso antiorario
v4
v3
t=0
v1
RW è in v1
H
t=1
T
v2
H
t=2
v3
v4
T
H
v1
v1
T
v3
Il sistema ha 4 stati: S1 = (1,0,0,0) S2 = (0,1,0,0) e analogamente S3 e S4.
Il sistema si evolve in modo non prevedibile; l’evento che causa il cambiamento di stato è il lancio della
moneta. Consideriamo la variabile casuale discreta xn che assume valori nello spazio degli stati.
Al variare di n, che rappresenta il numero di transizioni(cambiamenti di stato), xn è un processo stocastico.
A.A. 2008/2009
Francesco Archetti
Processo Stocastico
Un processo stocastico è caratterizzato dalla distribuzione di probabilità di xn
P(x0=S1) = 1
P(x1=S2) = P(x1=S4) = ½
Sia µ(n) = (µ(n)1, µ(n)2, µ(n)3, µ(n)4) = (P(xn = S1), P(xn = S2), P(xn = S3), P(xn = S4))
Per calcolare la distribuzione di xn, cioè il vettore µ(n), dobbiamo usare le probabilità condizionate.
P(xn+1 = v1 | xn = v2) = ½
P(xn+1 = v3 | xn = v2) = ½
P(xn+1 = v3 | x0 = i0, x1 = i1, ... , xn-1 = in-1, xn = v2) = ½
P(xn+1 = v3 | x0 = i0, x1 = i1, ... , xn-1 = in-1, xn = v2) = ½
per ogni “storia” i0, i1, ... , in-1
PROPRIETÀ MARKOVIANA (ASSENZA DI MEMORIA)
Nel caso di modelli Markoviani la migliore previsione di “domani” (n+1) si basa solo sul
presente (n), mentre il passato non da informazioni utili.
A.A. 2008/2009
Francesco Archetti
Catena di Markov
La distribuzione condizionata di xn+1 dato xn non dipende da n
(il meccanismo decisionale non dipende da n).
PROPRIETÀ DI OMOGENEITÀ NEL TEMPO:
Sia P una matrice di ordine k (Pij, i,j = 1, ..., k).
Un processo stocastico (x0, x1, ...) con spazio degli stati finito S = (S1, S2, ... , Sk) viene detto
Catena di Markov (omogenea) con matrice di transizione P se
per ogni n i,j Є {1, ... , k}, i0, ... , in-1 Є {1, ... , k}:
P(xn+1 = Sj | x0 = Si0, x1 = Si1, ... , xn-1 = Sin-1, xn = Si) = P(xn+1 = Sj | xn = Si) = Tij
•
indipendente da n
•
P è la matrice delle probabilità di transizione
A.A. 2008/2009
Francesco Archetti
Esempio
1.
ESEMPIO 1: Nel caso random walk (k=4) abbiamo la seguente
matrice di transizione:
 0 1 / 2 0 1 / 2
1 / 2 0 1 / 2 0 


 0 1 / 2 0 1 / 2
P= 

1
/
2
0
1
/
2
0


Pij ≥ 0 i, j Є {1, ... , k}
∑j Pij = 1 per ogni i Є {1, ... , k}
Per caratterizzare una MC dobbiamo dare la distribuzione iniziale.
µ(0) = (µ(0)1, µ(0)2, ... , µ(0)4) = (P(x0 = S1), P(x0 = S2), ... , P(x0 = S4))
k
∑ µ(0)i = 1
in RW µ(0) = (1, 0, 0, 0)
i =1
µ(n) = (µ(n)1, ... , µ(n)4) = (P(xn = S1), ... , P(xn = S4)) per RW
µ(1) = (0, ½, 0, ½)
A.A. 2008/2009
Francesco Archetti
Esempio
Per ogni n la distribuzione µ(n) è tale che:
µ(n+1) = µ(n) P
µ(n) = µ(0) Pn prodotto effettuato righe x colonne
2.
ESEMPIO 2 : Internet
xn
indica la pagina dopo n clicks
x0, x1, ...
è una MC con stati dati dalle web pages
Pij = 1/di
0
A.A. 2008/2009
se la pagina Si è collegata a Sj dove di è il numero di link da Si
altrimenti
Francesco Archetti
Simulazioni di Catene di Markov
S = {s1, ... , sk} spazio degli stati
µ(0) distribuzione iniziale (tipicamente concentrata su uno stato)
P matrice delle probabilità di transizione
Random Number
Initiation Function Ψ (inizializzazione)
Update Function Φ (aggiornamento)
La simulazione di MC si basa su Ψ, Φ e richiede la generazione della sequenza:
x0 = Ψ(U0)
x1 = Φ(x0, U1)
x2 = Φ(x1, U2)
x3 = Φ(x2, U3)
dove Ui sono estratti da una distribuzione uniforme su [0, 1]
A.A. 2008/2009
Francesco Archetti
Inizializzazione
Initiation: Ψ : [0, 1] → S (insieme degli stati)
- Ψ è costante a tratti
- per ogni Si la misura degli intervalli
in cui Ψ(x) = Si è pari a µ(0)Si
0
1
(s4)
0
(s3)
0
0
(s2)
(s1)
0
S1
S2
S3
S4
Con S = {s1, ... , sk} e distribuzione iniziale µ(0), x tratto da una distribuzione
uniforme su [0, 1].
s1
s2
...
Ψ(x) = si
...
sk
A.A. 2008/2009
x Є [0, µ(0)(s1)]
x Є [µ(0)(s1), µ(0)(s1) + µ(0)(s2)]
i −1
i
j =1
j =1
x Є [∑ µ(0)(sj),∑ µ(0)(sj)]
k −1
x Є [∑ µ(0)(sj), 1]
j =1
Francesco Archetti
Aggiornamento
Update : da xn → xn+1 : Φ: S x [0, 1] → S (insieme degli stati)
- Φ(si, x) è costante a tratti in x
- per ogni si, sj la misura degli intervalli nei quali Φ(si, x) = sj
è uguale a Pij
Φ(si, x) =
A.A. 2008/2009
s1
s2
...
sj
...
sk
x Є [0, Pi,1]
x Є [Pi,1, Pi,1 + Pi,2]
i −1
i
Pi,2
x Є [∑
Pi,l,∑
Pi,l]
l =1
l =1
k −1
x Є [∑ Pi,l, 1]
l =1
Pi,k
1
Pi,1
0
S1
S2
S3
S4
Francesco Archetti
 .8 .15 .05 


A =  .38 .6 .02 
 .75 .05 .2 


Esempio
(inizializzazione)
(update)
A.A. 2008/2009
µ(0) = (1, 0,0)
Ψ(x) = s1 per ogni x
Φ(s1, x) = s1
s2
s3
x Є [0, 0.8]
x Є [0.8, 0.95]
x Є [0.95, 1]
Φ(s2, x) = s1
s2
s3
x Є [0, 0.38]
x Є [0.38, 0.98]
x Є [0.98, 1]
Φ(s2, x) = s1
s2
s3
x Є [0, 0.75]
x Є [0.75, 0.80]
x Є [0.80, 1]
80%
Sunny
Rainy
15%
75%
38%
2%
5%
5%
Snowy
20%
Francesco Archetti
60%
Catene di Markov irriducibili
Una catena di Markov con matrice di transizione P si dice irriducibile se, per
ogni coppia di stati (i, j), la probabilità di raggiungere uno stato j da uno stato i
(si → sj) in numero finito di esperimenti è positiva, ossia se:
P(xm+n = sj | xm = si) > 0
(Pn)i,j > 0
se vale anche sj → si allora si e sj sono intercomunicanti (si↔ sj)
La irriducibilità si verifica dal grafo di transizione attraverso
l'esistenza di un cammino tra ogni coppia di stati.
A.A. 2008/2009
Francesco Archetti
Esempio
.5 .5 0 0 
.3 .7 0 0 

P= 
 0 0 .2 .8 


0
0
.
8
.
2


.3
1
.5
.5
2
.7
.8
3
.2
.8
4
.2
Se la catena “parte” in S1 o S2 rimane in {S1, S2}
e se “parte” in S3 o S4 rimane in {S3, S4}, quindi non è irriducibile.
A.A. 2008/2009
Francesco Archetti
Catene di Markov aperiodiche
Il periodo d(Si) di uno stato Si Є S è dato da m.c.d. {n ≥ 1 : (Pn)i,i > 0}
Se d(Si) = 1, allora si è aperiodico.
Una catena di markov si dice aperiodica se tutti i suoi stati lo sono (altrimenti
è periodica).
Consideriamo Random Walk
µ(0) = (1, 0, 0, 0)
(Pn)i,i > 0
per n = 2, 4, 6
mcd (n) = 2
d(S1) = 2
Per una MC aperiodica esiste N < ∞ per cui
(Pn)i,i > 0
per ogni i Є {1, ... , k}, n > N
Se MC è anche irriducibile esiste M < ∞ per cui
(Pn)i,j > 0
per ogni i, j Є {1, ... , k}, n > M
Francesco Archetti
Distribuzioni stazionarie e reversibili
Il valore di xn continuerà a variare in generale; nel caso di MC irriducibile e
aperiodica la distribuzione di xn ha un limite.
La proprietà di aperiodicità è difficile da verificare.
Reversibilità → esistenza di distribuzione stazionaria.
Una distribuzione π ← µ(n) su P sin dice stazionaria se:
∑
I.
πi ≥ 0
i = 1, ... , k
πi = 1
i =1
II. π P = π
Sia MC con S = (S1, ... , Sk) e matrice di probabilità di transizione P.
Una distribuzione π su P si dice reversibile se:
per i, j Є {1, ... , k}
πi Pij = πj Pji
A.A. 2008/2009
Francesco Archetti
Catene di Markov reversibili
Una catena si dice reversibile se esiste per essa una distribuzione reversibile.
πi Pij può essere pensato come la quantità di “massa di probabilità” che passa
nella prima iterazione, da si a sj
πj Pji indica il passaggio da sj a si (può essere interpretato come il numero
di volte che si va da Si ad Sj)
Questo è un risultato di equilibrio. Infatti si può dimostrare che:
se π è una distribuzione reversibile allora è anche stazionaria
A.A. 2008/2009
Francesco Archetti
Esempio
S = (S1, S2, …, Sk) dove in Si = (0,…,1,…0)
l’unica componente non nulla è la i-esima.
La transizione che genera il cambiamento di
stato è un evento tipo Random-Walk
da vi a un vertice adiacente in modo
equiprobabile.
v1
v2
v3
v4
v5
Pij =
1/di
se vi e vj sono adiacenti
v6
0
altrimenti
dove di è il numero di vertici uscenti
Consideriamo la distribuzione π = (d1/d, d2/d, ... , dk/d) , in cui d = ∑ di
v8
v7
È facile verificare che π è reversibile; infatti: πiPij = (di/d)*(1/di) = 1/d = (dj/d)*(1/dj) = πjPji = πi
0 se vi e vj NON sono adiacenti
Da cui π è stazionaria come è facile verificare in base alla condizione πi=πiPij
A.A. 2008/2009
Francesco Archetti
Applicazioni- Allineamenti nucleotidici
Consideriamo un allineamento di nucleotidico con lo scopo di costruire una catena di
markov che interpreti queste sequenze catturandone i dati invarianti nell’ipotesi che agli
invarianti corrispondano caratteristiche strutturali significative del gene e della proteina che
sarà eventualmente codificata.
ATTCCGGATC
TACGCGGAGC
Nel modello più semplice gli stati sono 4 (A,T,G,C), tuttavia le caratteristiche significativa
della sequenza (regioni di binding, folding della proteina derivante), sono legate a
segmenti di sequenza più estesi. Se tale sequenza è lunga 30 nucleotidi (un promotore),
gli stati diventano 430.
Nel caso degli allineamenti proteici, anche se la sequenza significativa può essere
relativamente ridotta (9-10 amminoacidi per una alfa elica), gli stati sono comunque 209-10
Nel caso delle reti regolatorie (sia geniche che proteiche), l’esplosione combinatoria del
numero degli stati è ancora più evidente: in un “piccolo” network di regolazione composto
da 10 geni, ognuno dei quali può essere under expressed, normal expressed e over
expressed, i possibili stati della rete sono 310.
A.A. 2008/2009
Francesco Archetti
Markov Chain Monte Carlo
La matrice delle probabilità di transizione è anche molto sparsa , cioè uno stato è
direttamente connesso a pochi altri, e questo rende necessario e possibile lo sviluppo di
metodi di simulazione specifici.
Introduciamo pertanto un argomento importante e moderno :
MARKOV CHAIN MONTE CARLO
Data una distribuzione di probabilità π sull'insieme degli stati S = {s1, ... , sk}, come
possiamo simulare il comportamento di un “oggetto” in cui l'elemento random è
distribuito secondo π ?
2 APPLICAZIONI
A.A. 2008/2009
Francesco Archetti
Applicazioni:
Reti Regolatorie - definizioni
Come modello generale di rete regolatoria o proteica, consideriamo un grafo
G = (V,E) dove V={v1 ,v2 ,…,vk}
chiamiamo configurazione ξ l’assegnamento del valore 0 o 1 a ciascun vertice:
ξ Є (0, 1)V
chiamiamo configurazione ammissibile una configurazione che non presenta 1 in due
vertici adiacenti.
A.A. 2008/2009
Francesco Archetti
Applicazioni:
Reti Regolatorie (2)
“Qual è il numero medio di 1 in una configurazione ξ ?”
n(ξ)
Nel caso “semplice” di una scacchiera binaria vi sono
264 ≈ 1.8*1019 configurazioni (stati)
Sia ZG il numero di configurazioni ammissibili su G ( difficile da calcolare )
la distribuzione delle configurazioni ammissibili è:
µG(ξ) = 1/ZG se ξ è ammissibile
0
altrimenti
Sia x una configurazione ammissibile qualsiasi, scelta in base alla distribuzione
precedente e n(x) il numero di vertici 1 ; il valore atteso di 1 è:
E[n(x)] = ∑ξ n(ξ) µG(ξ) = 1/ZG ∑ ξ n(ξ) I(ξ ammissibile)
dove I funzione indicatore (assume i valori 0/1)
A.A. 2008/2009
Francesco Archetti
Il modello nasce in fisica statistica 3D e rappresenta il
comportamento di un gas le cui particelle hanno un raggio
non trascurabile e non possono sovrapporsi ad altre . Quale
è il valor medio delle molecole di gas in determinate
situazioni?
Non riuscendo a calcolare in modo esatto le distribuzioni e
quindi il valore atteso bisogna passare alla simulazione
statistica ( Metodo Monte Carlo ) : se costruiamo una
sequenza di configurazioni ammissibili
Il numero medio di 1 delle configurazioni simulate
“converge” al valore atteso per la “legge dei grandi numeri
“. Si riesce a calcolare la accuratezza della approssimazione
.
A.A. 2008/2009
Francesco Archetti
X1,x2,….. Variabili casuali indipendenti e identicamente
distribuite con media m e varianza s2.
Media Mn = 1/n( x1+x2+…Xn) il cui valore atteso è m.
Var (Mn) =s2/n
Il teorema limite centrale dimostra che la distribuzione di
Mn , per n elevato, è “quasi” normale.
(Chebychev : v.c. X con parametri m,s2)
Prob (|X-m|magg-ug a) min-ug s2/ a2.
In questo modo riusciamo a calcolare , i probabilità , la
accuratezza della stima per simulazione del valore E(n(x))
A.A. 2008/2009
Francesco Archetti
Reti Regolatorie
Markov Chain Monte Carlo (MCMC)
Supponiamo di poter costruire una Catena di Markov (MC) la cui distribuzione
stazionaria sia π = µG(ξ) e lo spazio degli stati sia
S = {ξ Є (0, 1)V : ξ ammissibile}
Simulando
MC per un numero abbastanza grande di transizioni la
distribuzione degli stati della catena Xl è “molto vicina” a π
Xl è il vettore di stato con k componenti associate ai nodi che assumono
i valori Xl(v) Є (0, 1)
Il meccanismo di transizione da uno stato al successivo (Pξ'ξ) , entrambi
configurazioni ammissibili, è il seguente:
1.Scegliere a caso un vertice v
2.Tirare una moneta (H, T)
3.a) Se H e i vicini di v hanno valore 0, allora Xl+1(v) = 1;
b) altrimenti Xl+1(v) = 0
4.Per i vertici w ≠ v il valore non è toccato: Xl+1(w) = Xl(w)
Il sistema è passato da uno stato Xl a Xl+1 ( ξ → ξ‘)
A.A. 2008/2009
Francesco Archetti
Reti Regolatorie - MCMC (2)
Per dimostrare che la transizione Pξ'ξ caratterizza una catena con stato stazionario
utilizziamo la condizione sufficiente di reversibilità e dimostriamo quindi che porta
a una distribuzione µG reversibile; consideriamo 2 stati generici ξ ,ξ‘ e verifichiamo
la condizione
µG(ξ) Pξξ' = µG(ξ') Pξ'ξ (*)
Sia d = d(ξ', ξ) il numero di nodi in cui ξ e ξ' differiscono. Se:
d=0
(*) è ovvio perchè ξ = ξ‘
d≥2
il meccanismo di transizione non può cambiare i valori di più di un
vertice alla volta, quindi (Pξ'ξ = 0) ed entrambi i membri sono nulli
d=1
ξ e ξ' differiscono in un vertice v i cui vicini devono essere 0
allora:
µG(ξ) Pξξ' = (1/ZG)*(1/2*1/k) = µG(ξ') Pξ'ξ
NB: Pξξ‘ = 1/2*1/k :
1/k scelta di un vertice da una distribuzione uniforme su 1, ... , k
1/2 probabilità che esca H or T
A.A. 2008/2009
Francesco Archetti
Reti Regolatorie - MCMC (3)
costruiamo una funzione “update
update” che suddivida [0, 1] in 2k equi-intervalli
rappresentanti le scelte del meccanismo di transizione:
(v1, H), (v1, T), (v2, H), (v2, T), ... , (vk, H), (vk, T)
se simuliamo la Catena per un lungo periodo l,
partendo da una configurazione
iniziale arbitraria ammissibile otteniamo
una configurazione casuale la cui distribuzione
è approssimativamente µG. Quindi:
1
(vk, T)
(v1, T)
(v1, H)
0
X1
X2
….
X 2k
Xl ~ µG
In presenza di un numero molto elevato di stati, MCMC riesce a sviluppare un
meccanismo di transizione che corrisponde a un grafo di transizione poco connesso
(matrice di transizione molto sparsa).
A.A. 2008/2009
Francesco Archetti
Catene di Markov a stati nascosti:
Una
catena
di
Markov
è
un
continuo/discreto caratterizzato da:
processo
stocastico
Un insieme di stati Xt
Un insieme di osservazioni Et
Una matrice delle probabilità di transizione
P(X|X0:t-1) = P(X|Xt-1)
Matrice delle probabilità di emissione delle osservazioni
P(Et |X0:t-1, E0:t-1)= P(Et |Xt)
Matrice delle probabilità iniziali degli stati al tempo 0 =>
P(X0)
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Catene di Markov a stati nascosti:
Modello di transizione:
P(X|X0:t-1) = P(X|Xt-1)
Modello sensoriale
P(Et |X0:t-1, E0:t-1)= P(Et |Xt)
Per ogni t finito la distribuzione congiunta risulta :
t
P( X 0 , X1,..., X t , E1,..., Et ) = P( X 0 )∏ P( X i X i −1 ) P( Ei X i )
i =1
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Gene expression analysis :Detecting differential expressions
Too few replicates to obtain an accurate estimate of the
experimental variance
“Analyzing Gene Expression Time-Courses”
A.Schliep, I. G. Costa, C.Steinhoff, and A. Schonhuth
“ Bayesian Inference for Gene Expression and Proteomics”
Cambridge University Press
Levels of gene expressions are modeled with univariate gaussians
with parameters dependent on experimental conditions /state of
the system.
A.A. 2008/2009
Francesco Archetti
Hidden Markov Models
80%
60%
Sunny
60%
5%
NOT OBSERVABLE
Rainy
80%
30%
Sunny
15%
30%
60%
Rainy
15%
10%
75%
38%
2%
5%
38%
5%Snowy 2%
75%
5%
Snowy
5%
65%
20%
0% 50%
50%
20%
A.A. 2008/2009
Messina
Enza
Francesco
Archetti
Hidden Markov Model
Definizione: un Hidden Markov model (HMM)
Alfabeto di simboli Σ ={ s1,s2,…,sm};
Insieme degli stati S = {1, 2, . . . ,k};
Probabilità di transizione tra due stati qualsiasi, per ogni t, l in S
akl = Pr(πi = l | πi-1 = t);
Probabilità iniziali a0k
a01 + … + a0k = 1
Per ogni stato t in S, noi denotiamo con a0t la probabilità che lo stato iniziale sia
t.
Probabilità di emissione con ogni stato
Per ogni b in Σ e per ogni t in S, la probabilità di osservare b quando siamo nello
stato t:
ei(b) = P( xi = b | πi = t)
ei(b1) + … + ei(bM) = 1,
per tutti gli stati i = 1…K
et(b) =Pr(xi =b|πi=t)
Francesco Archetti
Esempio
Francesco Archetti
HMM
Una possibile domanda è
Quale è la sequenza metereologica più
probabile?
Francesco Archetti
HMM – Un esempio semplice
Una sequenza di basi può essere rappresentata da diversi percorsi nel
modello, ciascuno con una certa probabilità che è il prodotto delle
probabilità dei vari passi che formano il percorso.
il percorso con probabilità più alta sarà quello che ci fornirà
l’allineamento della nuova sequenza al modello markoviano e quindi
alla famiglia di sequenze che lo ha generato.
In figura vediamo un modello con sole due lettere (AT), ciascuna con
due stati. Il modello potrebbe essere stato generato da un allineamento
del tipo quello in tabella.
I
II
ATTA
TTAT
AAAT
TAAT
…
TTAA
TATA
ATTA
ATAT
ATTT
…
ATAT
Francesco Archetti
HMM – Un esempio
Se consideriamo la sequenza TTAT qual è la probabilità che
essa appartenga alla regione I, alla regione II o contenga
giunzioni tra le due regioni?
La sequenza TTAT può rappresentare uno dei possibili
percorsi, ciascuno però con una probabilità diversa (per
esempio la probabilità della coppia AT dipende da qual è la
regione di appartenenza di A e di T)
A.A. 2008/2009
TITIAITI
TITIIAITI
TIITIAITI
TIITIIAITI
TITIAITII
TITIIAITII
TIITIAITII
TIITIIAITII
TITIAIITI
TITIIAIITI
TIITIAIITI
TIITIIAIITI
TITIAIITII
TITIIAIITII
TIITIAIITII
TIITIIAIITII
Francesco Archetti
HMM - Esempio
In quale regione sta TTAT ?
Usando il modello definito nella precedente slide
possiamo calcolare la probabilità di tutte le sequenze di
nucleotidi in ogni regione.
TITIAITI=1.1x10-1
TITIIAITI=1.8x10-3
TIITIAITI=6.0x10-3
TIITIIAITI=9.0x10-3
TITIAITII=8.8x10-3
TITIIAITII=1.4x10-4
TIITIAITII=4.8x10-4
TIITIIAITII=7.2x10-4
TITIAIITI=5.5x10-4
TITIIAIITI=1.0x10-3
TIITIAIITI=3.0x10-5
TIITIIAIITI=5.2x10-3
TITIAIITII=1.4x10-4
TITIIAIITII=8.4x10-3
TIITIAIITII=2.4x10-4
TIITIIAIITII=4.2x10-2
Il modello dice che con alta probabilità la sequenza
è nella regione 1
Francesco Archetti
HMM - Esempio
Da notare la differenza tra un modello markoviano e un modello
markoviano “hidden”:
modello markoviano: una base è rappresentata in un solo modo
modello markoviano hidden: ogni base è rappresentata da più possibili stati (per
esempio AI e AII)
In un modello markoviano hidden una sequenza verrà valutata per la sua
probabilità di essere rappresentata dal modello, ma il fatto che ciascuna
base è rappresentata da più stati non ci permette di sapere se A è passata
dallo stato AI o dallo stato AII , e in questo senso il modello è nascosto e
va decodificato calcolando le probabilità di ciascuno dei possibili percorsi.
Un HMM può essere utilizzato per descrivere la struttura di un gene
includendo parametri che descrivono la distribuzione dei codoni, dei
dinucleotidi, degli esanucleotidi negli esoni e negli introni, la presenza
delle varie basi a monte e a valle dei siti di splicing. Ogni base avrà una
probabilità diversa di far parte di uno degli elementi del gene e probabilità
diverse di essere al confine tra un elemento e il successivo.
A.A. 2008/2009
Francesco Archetti
HMM - Esempio
Schema semplificato di un HMM per la ricerca di geni in un genoma eucariotico:
Esone che inizia con
un codone completo
E-0
Introne con un
numero di nucleotidi
multiplo di 3
I-0
A.A. 2008/2009
Esone che inizia con
l’ ultima base di un
codone
E-2
E-1
I-1
Introne con un
numero di nucleotidi
multiplo di 3 + 2
nucleotidi
I-2
E-f
S-E
E-i
Esone che inizia con
un codone completo
Esone che inizia con
le ultime due basi di
un codone
Ultimo esone
Esone singolo
5’
UTR
3’
UTR
Francesco Archetti
Bibliografia Minima(1)
L’introduzione più appropriata allo sviluppo ed all’utilizzo di modelli
markoviani in bioinformatica è contenuta nel testo:
A. Tramontano, “Bioinformatica”, Zanichelli 2003
Una presentazione di carattere più matematico alla quale fanno riferimento
i lucidi è contenuta in :
Haggstrom O., “Finite Markov Chains and Algorithmic
Applications”, Cambridge University Press.
Un riferimento importante e specifico anche per hidden Markov models è il
volume:
P. Baldi S. Brunak “Bioinformatics: The machine learning approach”,
MIT press, 2003
A.A. 2008/2009
Francesco Archetti
Bibliografia Minima(2)
La letteratura sulle applicazioni di Markov Models ed HMM in bioinformatica è
enorme, qui sono riportati solo alcuni suggerimenti:
Shawn M. Gomez and Andrey Rzhetsky “Towards the prediction of
complete protein-protein interaction networks”-Pacific Symposium on
Biocomputing 2002: 413-424
Scott C. Schmidler;Jun S. Liu;Douglas L. Brutlag “Bayesian Protein
Structure Prediction”-Cases studies in Bayesian statistics vol 5 (1999)pages 363-378
Jung-Wook Bang Raphael Chaleil and Jon Williamson -“Two-Stage
Bayesian Networks for Metabolic Network Prediction”
Anirruha Datta, Edward R. Dougherty “External control in markovian
genetic regulatory networks”, Machine learning Journal Vol. 52, no 1-2, pp.
169-191,2003
Edward R. Dougherty, “Genomic signal processing: the salient issues”,
EURASIP Journal on applied signal processing 2004:1, 146-153
A.A. 2008/2009
Francesco Archetti