Introduzione alle catene di Markov finite

Introduzione alle catene di Markov finite
seminario di Jacopo D’Aurizio per il corso di Ricerca Operativa
testo di riferimento: Finite Markov Chains, John G. Kemeny & J. Laurie Snell, Van Nostrand Company, 1960
Giugno 2005
1)
Definizione
Un processo di Markov finito è un processo stocastico finito
dove la probabilità di un evento al passo n-esimo dipende
unicamente dallo stato del sistema al passo (n-1)-esimo
e da una fissata matrice di transizione.
2)
Matrici di adiacenza e di transizione
Come per un grafo era possibile studiare i percorsi in arrivo in un nodo
attraverso le potenze della matrice di adiacenza, per una catena di Markov finita
è possibile definire la matrice di transizione P come
P[i,j] = (probabilità che il sistema passi dallo stato s[i] allo stato s[j])
In particolare, se pi(n) è il vettore riga che rappresenta
lo stato del sistema al passo n-esimo, si ha
pi(n) = pi(n-1) P = pi(0) P^n
3)
Criteri di classificazione
Definiamo preliminarmente una relazione di ordine (parziale)
tra gli stati della nostra catena di Markov.
Se esiste un percorso che conduce dallo stato s[i] allo stato s[j]
con probabilità non-nulla poniamo i@j = 1, altrimenti i@j = 0, ed
in tal caso stabiliamo che C[i] < C[j]. Se due stati s[p] ed s[q]
sono tali che p@q = q@p li consideriamo appartenenti alla stessa
classe di equivalenza. L’ ordinamento parziale delle classi di
equivalenza ammetterà uno o più minimi; ognuna di queste classi
sarà un “set ergodico”, le altre “set transienti”.
Se un set ergodico è costituito da un solo stato (o “nodo”,
in riferimento al grafo pesato associato), quest’ultimo viene
detto “assorbente”.
Se rinumeriamo i nodi secondo un ordinamento progressivo
compatibile con quello che abbiamo sulle classi di equivalenza,
la matrice di transizione P avrà forma
(
(
(
(
[P1] [0] [0] [0]
[R2] [P2] [0] [0]
[
R3 ] [P3] [0]
[
R4
] [P4]
)
)
)
)
Dove la matrice P[i] è la matrice di transizione
per una data classe di equivalenza, mentre la matrice R[i] risulta
identicamente nulla se e solo se la relativa classe di equivalenza
corrisponde ad un set ergodico.
Inoltre, ogni classe di equivalenza può essere partizionata in subset ciclici.
Se c’è una sola sotto-classe ciclica la classe di equivalenza è detta
regolare”, altrimenti è detta “ciclica”.
Se una catena di Markov ha più di un set ergodico questi, necessariamente,
non comunicano, e senza perdita di generalità possiamo studiare “in piccolo”
i singoli set ergodici, ed “in grande” l’intera catena dove i set ergodici
sono stati sostituiti con dei singoli stati assorbenti.
Una catena costituita da un singolo set ergodico è detta “catena ergodica”;
si hanno i seguenti sotto-casi:
I-A. Il set ergodico è regolare.
In questo caso abbiamo una “catena di Markov regolare”.
Partendo da un qualunque stato possiamo giungere in qualunque altro
in un numero finito di passi, il che significa che esiste un k per cui,
per ogni n>k, P^n è una matrice ad elementi strettamente positivi.
I-B. Il set ergodico è ciclico.
In questo caso la catena è chiamata “catena di Markov ciclica”.
Una siffatta catena ha periodo d, ed i suoi stati sono divisi in d set ciclici.
Assegnata una posizione iniziale il processo si evolverà secondo un ordine
predefinito attraverso i subset ciclici e ritornerà nel subset iniziale
dopo d passi.
Sappiamo che dopo sufficiente tempo il processo può essere in uno qualunque
degli stati del subset ciclico appropriato (di indice congruo al tempo modulo d)
In un catena con set transienti il processo muove verso i set ergodici.
La probabilità di trovarsi in uno stato ergodico tende ad 1.
Un set transiente, infatti, non può essere minimo secondo l’ordinamento parziale
definito in inizio paragrafo. Esiste dunque una certa probabilità p di giungere
in un set ergodico dopo n passi. La probabilità di restare nel set transiente
è dunque al più (1-p), ed in k iterazioni (kn passi) al più (1-p)^k ;
che tende a 0 dato che p è strettamente compreso tra 0 e 1.
Da qui è facile congetturare che l’evoluzione di un processo di Markov
sia controllata da una legge di tipo geometrico: dimostreremo la fondatezza
di questa congettura nei prossimi paragrafi.
Una catena con set transienti può appartenere ad una di queste quattro categorie:
II-A tutti i set ergodici sono unitari (stati assorbenti)
Questa è detta “catena assorbente”.
II-B tutti i set ergodici sono regolari, ma hanno cardinalità maggiore di 1
II-C tutti i set ergodici sono ciclici
II-D ci sono sia set ergodici regolari che set ergodici ciclici
4)
Proprietà particolari.
In questo paragrafo dimostreremo alcune proprietà delle catene assorbenti
ed altre delle catene regolari.
4A) La matrice di transizione di una catena assorbente (in forma canonica) è
( I | 0 )
P = ( --+-- )
( R | Q )
cioè diagonale inferiore a blocchi. Poichè, per quanto visto nel paragrafo 3,
il processo muove verso gli stati assorbenti, Q^n tende alla matrice
identicamente nulla. Inoltre è vero che (I-Q) è invertibile.
Prefiggiamoci lo scopo di calcolare il tempo medio impiegato dal sistema
per giungere in uno stato assorbente, a partire da uno stato appartenente
al subset transiente. Dato che la probabilità q[k] di arrivare in uno stato
assorbente in esattamente k passi è espressa dal vettore
pi(0) Q^(k-1) (I-Q)
il tempo medio che cerchiamo sarà espresso dal vettore
pi(0) sum[j=0..+inf] (j+1) Q^j (I-Q)
la serie converge in quanto Q^k tende a 0,
dunque Q ha raggio spettrale minore di 1, e converge a
pi(0) (I-Q)^(-1)
4B) Una catena di Markov è regolare se e solo se esiste un qualche K per cui
P^K è una matrice interamente costituita da elementi strettamente positivi.
Prendiamo Z = P^K e m come il minimo elemento di Z. Siano e[i] ed e[j]
vettori riga della base canonica. Sia sum(v) la somma degli elementi del
vettore v. E’ immediato verificare che
sum(v) = sum(vZ)
dato che le righe di Z sono vettori di probabilità
Ora, posto che |w| sia la norma-1 del vettore w
|(e[i]-e[j]) Z^n| <= (1-m) |(e[i]-e[j]) Z^(n-1)| <= 2 (1-m)^n
Questa disuguaglianza ci dice che, se esiste il limite per n tendente a infinito
di Z^n (cioè se esistono distintamente i limiti e[j] Z^n), questa matrice-limite A
ha tutte le righe uguali (pari ad un vettore di probabilità alpha).
D’altronde, poichè
T[n] = e[j] Z^(n+1) - e[j] Z^(n) = e[j] (Z - I) Z^n
e il vettore v = e[j] (Z - I) ha sum(v)=0, in analogia al caso precedente abbiamo
|T[n]| <= C (1-m)^n
da cui deduciamo che gli H[n] = e[j] Z^n convergono, e dunque anche Z^n converge (ad A).
La matrice A coincide pure con il limite di P^m con m che tende all’infinito,
dato che la norma-1 della matrice P è pari ad 1.
Deduciamo immediatamente che
A P = A
alpha P = alpha
Alpha è dunque autovettore di autovalore 1 per P, ed è unico per unicità
del limite. Ammettiamo che Beta sia autovalore per P di autovalore Lambda
diverso da 1: allora
Beta P = Lambda Beta
sum (Beta) = sum( Beta P ) = Lambda sum( Beta )
Dunque, necessariamente, sum(Beta)=0.
Inoltre Lambda, in modulo, dev’essere strettamente minore di 1
(in caso contrario esisterebbe un elemento di P^n ad evoluzione esponenziale
crescente, in contrasto con il fatto che gli elementi di P^n sono positivi
e hanno somma fissata)
5) Evoluzione in piccolo di una catena di Markov regolare
Supponiamo che P sia la matrice di transizione associata ad una catena
di Markov regolare con n nodi, e di volere ricavare esplicitamente la probabilità
accumulatasi sul nodo s[1] al tempo k, che definiamo come s[1,k].
(s[1,k+1], s[2,k+1] , ... , s[n,k+1]) =
(s[1,k], s[2,k+1] , ... , s[n,k+1]) P
Sia ora C[i,k] la i-esima colonna della matrice P^k. Segue
s[1,k+1] = (s[1,k], s[2,k] , ... , s[n,k]) ° C[1,1]
e, analogamente
s[1,k+1] = (s[1,1], s[2,1], ... , s[n,1]) ° C[1,k]
s[1,k]
= (s[1,1], s[2,1], ... , s[n,1]) ° C[1,k-1]
s[1,w]
= (s[1,1], s[2,1], ... , s[n,1]) ° C[1,w-1]
1<=w<=(k+1)
Ora, preso k=n, tramite una riduzione di Gauss sul sistema appena scritto
possiamo facilmente ricavare la relazione di ricorrenza relativa al nodo s[1]
(poniamo A[i] = s[1,i])
A[n+1] = sum[j=1..n] k[j] A[n+1-j]
dove k[j] sono i coefficienti che abbiamo ricavato tramite eliminazione di Gauss.
Tale relazione di ricorrenza lineare può essere resa esplicita facendo uso della
teoria delle funzioni generatrici: supponiamo che il polinomio caratteristico
p(x) = x^n - sum[j=1..n] k[j] x^(n-j)
abbia radici z[1]...z[m] (eventualmente con molteplicità maggiore di 1)
Allora è vero che
A[n+1] = sum[j=1..m] a[j] z[j]^n + sum[j=1..m] n b[j] z[j]^(n-1) + ...
La congettura che un processo di Markov abbia evoluzione “geometricamente dominata”
risulta dunque provata, ma restano da approfondire le questioni legate
alla ricerca delle radici z[j] e alle loro molteplicità. Nel prossimo paragrafo
dimostraremo che le radici z[j] appartengono all’insieme degli autovalori
della matrice P.
6) Forma di Jordan della matrice di transizione di una catena regolare
Possiamo portare P nella forma J^(-1) R J, dove J è la matrice associata alla
base di Jordan di P ed R è la matrice diagonale a blocchi, dove ogni blocco
ha sulla diagonale un autovalore di P e sulla sotto-diagonale soltanto 1.
Segue Z = P^k = J^(-1) R^k J.
Se volessimo calcolare la probabilità accumulatasi sul nodo s[i], dopo k passi,
a partire dal nodo s[j], non dovremmo far altro che moltiplicare Z a destra e a
sinistra per i vettori della base canonica e[i] ed e[j] (rispettivamente
vettore-colonna e vettore-riga).
A meno di una combinazione lineare predeterminata (quella data dal cambiamento
di base individuato da J) abbiamo dunque che il sistema si evolve con le
potenze della matrice R, facilmente studiabili.
Un’ immediata conseguenza è che le radici dei polinomi caratteristici ottenuti
tramite studio “in piccolo” (Jordanizzazione indiretta) del sistema viaggiano
all’interno degli autovalori di P, e che la loro molteplicità è pari alla
molteplicità algebrica dell’autovalore associato.
Il teorema di stabilizzazione di una catena di Markov regolare può, a questo punto,
essere dimostrato in maniera alternativa. Dato che la matrice P ha un solo autovettore
di autovalore 1, ed altri autovettori di autovalori minori (in modulo) di 1,
la probabilità accumulatasi al nodo s[i] al passo n è nella forma
s[i,n] = C + C[1] (z[1])^n + C[2] (z[2])^n + ... + C[M] n(z[1])^(n-1) + ...
dunque s[i,n] tende a C, ed è facile dimostrare che questa costante non dipende
da quale nodo abbiamo scelto come origine del processo.
7) Esempi ed applicazioni
In questo paragrafo presentiamo due esempi: lo studio di una catena di Markov
regolare (“in grande” ed “in piccolo”) e quello di una catena assorbente
(in relazione con il celebre gioco “gambler’s ruin”)
7A)
D---C
/ \ / \
E---A---B
\ / \ /
F---G
Matrice di transizione P (catena regolare):
A
B
C
D
E
F
G
A
O
1/3
1/3
1/3
1/3
1/3
1/3
B
1/6
0
1/3
0
0
0
1/3
C
1/6
1/3
0
1/3
0
0
0
D
1/6
0
1/3
0
1/3
0
0
E
1/6
0
0
1/3
0
1/3
0
F
1/6
0
0
0
1/3
0
1/3
G
1/6
1/3
0
0
0
1/3
0
Lumping process:
set (1) anello esterno BCDEFG
set (2) centro A
(1)
(2)
(1)
2/3
1
(2)
1/3
0
catena regolare
Evoluzione a partire dal centro:
Tempo
Config
0
(0
1
2
3
4
5
1) -> (1 0) -> (2/3 1/3) -> (7/9 2/9) -> (20/27 7/27) -> (61/81 20/81)
Forma esplicita della ricorrenza vettoriale
(a[n+1] , b[n+1]) = (2/3 a[n] + b[n] , 1/3 a[n])
Studio “in piccolo” (Jordanizzazione indiretta)
a[n+1] = 2/3 a[n] + b[n] = 2/3 a[n] + 1/3 a[n-1]
a[0] = 0
a[1] = 1
Polinomio caratteristico associato alla ricorrenza:
3x^2 - 2x - 1 = (x - 1)(3x + 1)
a[n] = a + b (-1/3)^n
Metto a sistema le condizioni iniziali (tratte dalla configurazione ai tempi 0 e 1)
{ a + b = 0
{3a - b = 3
segue
{ a = +3/4
{ b = -3/4
a[n] = 3/4 (1+(-1/3)^(n+1)) ---> 3/4
b[n] = 1/4 (1-(-1/3)^(n))
---> 1/4
densità sull’anello esterno
densità al centro
Studio “in grande”: ricerco l’autovettore di autovalore 1
(normalizzato a vettore di probabilità)
a + b
3b
= 1
= a
-->
-->
a = 3/4
b = 1/4
componenti che giustamente coincidono con
le densità calcolate “in piccolo”
7B) Gambler’s ruin
Due giocatori A e B dispongono rispettivamente di m ed n monete.
Lanciano una moneta: se esce testa A cede a B una moneta, altrimenti l’opposto.
Il gioco termina quando uno dei due giocatori esaurisce le sue disponibilità.
Vogliamo determinare la probabilità che A esca vittorioso dal gioco
(cioè la probabilità che B esaurisca i suoi fondi).
Possiamo matematizzare il gioco con una catena di Markov assorbente
ad (m+n+1) stati, così fatta
A:0
A:1
A:m+n-1
B:m+n
B:m+n-1
B:1
X
----- O ----- ... ----- O ----(1)
(3)
(m+n-1)
( I | 0 )
P = (---+---)
( R | Q )
I
R
e
Q
e
A:m+n
B:0
X
(2)
possibili stati
O transiente X ergodico
etichette degli stati
è la matrice identità 2x2
è una matrice interamente nulla eccetto per la prima
l’ultima riga, rispettivamente (1/2 0) e (0 1/2)
è una matrice interamente nulla eccetto per la sopraper la sotto-diagonale, costituite interamente da (1/2).
Q^k tende a 0 per quanto visto nel quarto paragrafo.
Poniamo T[k] = sum[j=0..k] Q^k
(poniamo convenzionalmente Q^0 = I )
(
I
|
0 )
P^k = ( ------+------)
( T[k]R | Q^k )
prendendo il limite per k che tende all’infinito
A
(
I
|
0 )
= ( -------------+------)
( (I-Q)^(-1) R |
0 )
L’unica difficoltà di calcolo è ora il calcolo dell’inversa di (I-Q).
Per fortuna, dato che (I-Q) è una matrice tridiagonale, il calcolo
dell’inversa è ricondotto ad una semplice eliminazione di Gauss progressiva.
In particolare abbiamo che, se
( 2 -1 0 0 0 )
( -1 2 -1 0 0 )
A = ( 0 -1 2 -1 0 )
( 0 0 -1 2 -1 )
( 0 0 0 -1 2 )
(
(
====> A^(-1) = (
(
(
5
4
3
2
1
4
8
6
4
2
3
6
9
6
3
2
4
6
8
4
1
2
3
4
5
)
)
)
)
)
/6
in generale, se C è una matrice tridiagonale strutturata come A ma di dimensione n,
la sua inversa B è interamente descritta da
se j<=i B[i,j] =
se j>i B[i,j] =
j - (ij)/(n+1)
B[j,i] (matrice simmetrica)
Da facile algebra segue che la probabilità di vittoria di A è pari a m/(n+m)
e la probabilità di vittoria di B è pari a n/(n+m).
Jacopo D’Aurizio, matricola #270732, 2°anno Matematica, giugno 2005