Appunti di Metodi Numerici per Catene di Markov - Poisson

Appunti di Metodi Numerici per Catene di Markov
Matteo Felici
12 ottobre 2011
2
Indice
1 Nozioni preliminari di probabilità
5
1.1
Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2
Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.3
Vettore invariante di probabilità . . . . . . . . . . . . . . . . . . . . . . . . .
11
2 Matrici non negative
2.1
Il teorema di Perron-Frobenius
15
. . . . . . . . . . . . . . . . . . . . . . . . .
3
15
4
INDICE
Capitolo 1
Nozioni preliminari di probabilità
26/09/2011
1.1 Catene di Markov
Una
catena di Markov
è un processo stocastico il cui futuro dipende solo dallo stato
presente.
Denizione 1.1.1. Sia (Xn )n∈N un processo stocastico, suppongo che lo spazio degli eventi
E
sia numerabile,
E ⊆ N;
tale processo è una
catena di Markov discreta
se
P{Xn+1 = jn+1 Xi = ji ∀ i = 0, . . . , n} = P{Xn+1 = jn+1 Xn = jn } ∀ n ∈ N, ∀ ji ∈ E.
X
è una catena di Markov
omogenea
rispetto al tempo se
P{Xn+1 = j|Xn = i} = P{X1 = j|X0 = i} ∀ n ∈ N, ∀ i, j ∈ E
ossia la probabilità indicata non dipende dall'istante studiato.
Esempio 1.1.2
(Random walk)
.
Si prenda una particella che si muove sui numeri interi,
fa un passo avanti con probabilità
p
e uno indietro con probabilità
Per sapere la sua posizione al tempo
i,
i+1
1 − p (random walk ).
basta sapere la sua posizione attuale al tempo
il suo percorso precedente non serve. Questa è una catena di Markov omogenea rispetto
al tempo.
Figura 1.1: Random walk
Denizione 1.1.3.
•
Una matrice
A
si dice stocastica se
i coecienti sono non negativi (d'ora in avanti questa condizione la scriveremo come
A ≥ 0)
5
6
CAPITOLO 1.
• Ae = e
e = (1, 1, . . . , 1)T
sia 1.
dove
di ogni riga
Denizione 1.1.4.
di transizione
NOZIONI PRELIMINARI DI PROBABILITÀ
L'ultima condizione equivale a chiedere che la somma
Nel caso di una catena omogenea denisco la
la matrice
P
matrice delle probabilità
con elementi
pi,j = P{Xn+1 = j|Xn = i} i, j ∈ E.
La matrice in questione ha le seguenti proprietà:
• P ≥ 0;
•
P
j∈E
pi,j = 1
∀ i ∈ E.
queste due proprietà la rendono una
matrice stocastica.
Proposizione 1.1.5. Se |E| < ∞ allora ρ(P ) = 1
Dimostrazione.
P è stocastica si ha che P e = e, quindi certamente varrà ρ(P ) ≥
1, daltronde si ha che kP k1 = 1, e in generale (per ogni matrice e ogni norma) vale che
ρ(P ) ≤ kP k quindi in particolare troviamo che ρ(P ) ≤ 1, quindi ρ(P ) = 1.
Dato che
|E| < ∞, allora P e = e, quindi si ottiene subito che ρ(P ) ≥ 1.
ρ(P ) = 1: infatti vale ||P ||1 = 1.
Se
In realtà vale proprio
Il problema che si aronterà nel corso sarà il calcolo dell'autovettore sinistro
in particolare
π
π,
si cercherà
tale che
• πT ≥ 0
X
•
πi = 1
i
• πT P = πT
Esempio 1.1.6
(Random walk)
.
In random walk, si mettano dei vincoli nei punti 0 e
N , ovvero si va a destra di 0 con probabilità 1 e si va a sinistra di N con
1, ovvero con le notazioni introdotte equivale a dire p0,1 = 1 , pN,N −1 = 1.
3
avrà E = {0, 1, . . . , N }, e si supponga p = . La matrice di transizione è di
4
(N + 1) × (N + 1), della forma

0
1
4

P =



1
0
0
..
..
.
...
3
4
1
4
.
..
.
0
1
0






3
4
0
probabilità
Pertanto si
dimensione
1.1.
CATENE DI MARKOV
7
Esempio 1.1.7 (Teoria delle code). Data una la di clienti (queue ) serviti da una macchina
server, che serve i clienti secondo una sua particolare legge di probabilità; supponendo che i
clienti non abbandonino la la e che il buer sia innito (ossia spazio innito per i clienti),
voglio costruire una catena tale che
questo caso
E = N;
Xn
sia il numero di clienti da servire al tempo
che i clienti arrivino con una distribuzione uniforme descritta da
]n, n + 1]} = qj
(non dipendente da
Xn+1
n.
In
suppongo che il server soddis un cliente in una unità di tempo, e
n).
P{arrivano j
clienti in
Allora
(
Xn − 1 + j
=
0
se
altrimenti
Xn − 1 + qj ≥ 0
In questo caso la matrice di transizione ha dimensione innita ed è la seguente


q0 q1 q2 . . .

.. 
.
P =
 0 q0 q1

..
.
0 0 q0
Pertanto anche in problemi reali è necessario considerare matrici di transizione con dimensione innita.
Esempio 1.1.8
(Page Rank di Google)
.
In ogni pagina web che un utente visita ci sono
un certo numero di link; quello che può fare è: cliccare su un link presente nella pagina
corrente oppure cambiare sito.
Supporremo che la probabilità sia uniforme su tutti gli
eventi, ovvero la probabilità che l'utente segua un link della pagina corrente sarà
link) mentre
1−q
q (per ogni
sarà quella di cambiare sito (come in random walk ma c'è la possibilità
di teletrasportarsi). Quindi è possibile rappresentare la navigazione dell'utente con una
catena di Markov. La cardinalità delle pagine di internet è nita (circa
E = {1, . . . , N };
si denisca la matrice
G,
detta
9.8 · 109 ),
quindi
connectivity matrix, che rappresenta i link
che sono presenti nelle pagine, ossia
gi,j =
(
1
se nella pagina
0
i
esiste un link per la pagina
j
altrimenti
out-degree
inoltre si denisca l'
di una pagina
i
come
ri =
P
j∈E gi,j .
La matrice di transizione è della forma
pi,j = q
dove
q
gi,j
1
+ (1 − q)
ri
N
rappresenta la probabilità di scegliere una pagina con link esistente (nel caso di
Google vale
q = 0.85).
Si vede subito che
X
pi,j =
j∈E
q X
1
gi,j (1 − q) N = 1.
ri
N
j∈E
A questo punto è possibile eettuare il page rank, è suciente calcolare il vettore
T
che π P
=
πT e
P
i πi
= 1,
ossia è un autovettore sinistro della matrice
P
π
tale
relativo
8
CAPITOLO 1.
NOZIONI PRELIMINARI DI PROBABILITÀ
all'autovalore 1, poi ordinare gli elementi di
π
in ordine crescente: le pagine relative ai
primi elementi saranno quelle più importanti (questo aspetto sarà chiaro più avanti).
E' preferibile che la matrice
G
sia in forma quasi diagonale a blocchi, in cui ognuno dei
blocchi rappresenta un cluster (unipi, governo italiano, amazon, ...), con qualche elemento
non nullo sparso fuori dai blocchi diagonali come link occasionali.
Il senso è che i siti del dominio .unipi.it avranno quasi tutti i link all'interno dello stesso
dominio e in generale tale regola è rispettata.
Ovvero partendo da un sito di scienze e
cliccando su un link a caso è molto probabile che si vada a nire in un altro sito di scienze,
come ad esempio partendo da un sito di cucina è molto probabile che quasi tutti i link
siano ad altri siti di cucina o simili.
Quindi esiste una permutazione (di righe e di colonne) della matrice
G
che la rende quasi
diagonale a blocchi, ovvero togliendo i blocchi diagonali resta una matrice sparsa.
Teorema 1.1.9. Data una catena di markov e la sua matrice di transizione P vale che
P{Xn = j|X0 = i} = (P n )i,j .
Idea della dimostrazione.
Vediamo per
X
P{X2 = j|X0 = i} =
n = 2:
P{X2 = j|X1 = k}P{X1 = k|X0 = i} =
k∈E
X
pi,k pk,j = (P 2 )i,j .
k∈E
Distrubuzione asintotica di una catena di Markov
Denito
(n)
π (n) = (πi ),
con
(n)
πi
= P{Xn = i|X0 }
π (n+1)T = π (n)T P
Inoltre, se esiste
limn→∞ π (n) = π ,
e
n ≥ 1,
allora vale
∀ n ≥ 0.
allora
• πT = πT P
• π≥0
•
P
i πi
=1
Quindi questo è il vettore a cui si faceva riferimento all'inizio. In pratica
π
rappresenta la
situazione asintotica della catena di Markov.
πi > πj
pagina j .
Possiamo ora reinterpretare il caso del Page rank di Google e dire che
che è più probabile che l'utente visiti la pagina
i
piuttosto che la
vuol dire
1.2.
CLASSIFICAZIONE DEGLI STATI
9
1.2 Classicazione degli stati
29/11/2011
j ∈ E,
Fissato un elemento
si denisce la variabile aleatoria
Tj = min{n ≥ 1|Xn = j}
questa rappresenta il tempo della prima visita all'elemento
j,
si denisce anche
fj = P{Tj < ∞|X0 = j}
j
in un tempo nito.
se
E[Tj |X0 = j] < ∞, ricorrente nullo
questa è la probabilità che si torni su
Denizione 1.2.1.
Lo stato
• transiente
se
fj < 1;
• ricorrente
se
fj = 1.
Nell'ultimo caso è
Esempio 1.2.2.
j
si dice
positivo ricorrente
Sia
E = {1, 2, 3}
lo spazio degli eventi, e

stato
1
2
e
3

1
0
0

P =  13
1
3
1
4
1
3
1
2
1
4
in questo caso gli stati
altrimenti.
sono transienti, infatti se si nisce da uno di essi nello
non è più possibile tornare indietro; invece lo stato
1
è banalmente ricorrente, e in
particolare è positivo ricorrente.
Grafo associato ad una catena di Markov
E , ed esiste
> 0, ossia se esiste la possibilità di passare dallo stato i allo stato j .
Ad ogni catena di Markov è possibile associare un grafo: l'insieme dei nodi è
un arco da
iaj
Si dice che
i
se
pi,j
porta a
j
se esiste un cammino da
i
a
j,
ovvero una successione di archi
(i, i1 )(i1 , i2 ) . . . (ik , j)
che brevemente sarà indicata con
i e j
(j → j).
I nodi
comunicano se
i
(i → j).
porta a
j
e viceversa, ovvero esistono i cammini
(i → j)
e
Nell'esempio precedente il grafo associato alla catena di Markov è in gura 1.2
Denizione 1.2.3.
Una catena di Markov si dice
irriducibile
se lo è la matrice stocastica
associata, ossia se tutti gli stati del grafo associato comunicano tra loro.
Si nota subito che, con la convenzione che uno stato
relazione di comunicazione tra stati è di equivalenza.
equivalenza tra stati, chiamate
classi irriducibili
o
i
comunichi con se stesso, la
Posso così creare delle classi di
classi di stati comunicanti.
10
CAPITOLO 1.
NOZIONI PRELIMINARI DI PROBABILITÀ
Figura 1.2: Grafo associato a C.M. dell'esempio 1.2.2
Denizione 1.2.4.
Una classe irriducibile
C
si dice
nale
se
∀i ∈ C @j ∈
/ C: i → j
mentre è
di passaggio
se non è nale.
La proprietà di uno stato di essere transiente, positivo ricorrente o ricorrente nullo viene
condivisa con tutti gli altri stati della classe irriducibile a cui appartiene: gli stati di una
classe di passaggio sono transienti, mentre gli stati di una classe nale possono essere di
qualsiasi tipo.
Nell'esempio 1.2.2 le classi sono
C1 = {1}
C1
è nale mentre
C2
C2 = {2, 3}
è di passaggio.
Proposizione 1.2.5. Se
C è una classe nale e |C| < ∞ allora la classe è positiva
Proposizione 1.2.6. Se
C1 , . . . , Ck sono classi irriducibili allora esiste Π matrice di
ricorrente.
permutazione tale che

P1,1
0
...
...

P2,1 P2,2
Π PΠ = 
 ..
 .
T
Pk,1
...
...
...
0

.. 
. 


0 
Pk,k
in cui Pi,i sono matrici irriducibili quadrate.
Denizione 1.2.7.
Uno stato
i
si dice
periodico
di periodo
δ≥2
δ.
stato a se stesso sono formati da un numero di archi multiplo di
se tutti i cammini dallo
Anche questa proprietà
è condivisa dagli stati nella stessa classe irriducibile.
Esempio 1.2.8.
Si consideri la catena di Markov la cui matrice tranzione è la seguente
P =
0 1
1 0
!
Dove il grafo associato è in gura 1.3
E' evidente che tutti gli stati sono periodici di periodo
2.
1.3.
VETTORE INVARIANTE DI PROBABILITÀ
11
Figura 1.3: Grafo associato a C.M. dell'esempio 1.2.8
Esempio 1.2.9.
Si consideri la catena di Markov la cui matrice di transizione (innita) è
la seguente

0 ∗

∗ 0
P =
 ∗


∗
0
..
.
..
.
..
.





Il grafo associato è in gura 1.4 In questo esempio tutti gli stati sono
3-periodici.
Figura 1.4: Grafo associato a C.M. dell'esempio 1.2.9
1.3 Vettore invariante di probabilità
Denizione 1.3.1.
di probabilità
se
• πi ≥ 0
X
•
πi = 1
i∈E
Sia data una matrice
P
di transizione, un vettore
π
si dice
invariante
12
CAPITOLO 1.
NOZIONI PRELIMINARI DI PROBABILITÀ
• πT P = πT
π (0) = π allora π (n) = π e la legge
(n) è quella fatta nella lezione
successione π
Il nome invariante viene dal fatto che, scelto
della catena non cambia (la costruzione della
precedente).
Teorema 1.3.2. Sia data M catena di Markov irriducibile , allora M è positiva ricorrente
(ovvero tutti i suoi stati lo sono) se e solo se esiste un vettore invariante di probabilità.
Inoltre in questo caso è unico. (se togliamo l'ipotesi π ≥ 0 non è più vero).
Teorema 1.3.3. Se la catena di Markov M è irriducibile, aperiodica (non esistono stati
periodici) e positiva ricorrente, allora il vettore invariante di probabilità si può esprimere
come
πj = lim P{Xn = j|X0 = i}
n→∞
∀ i, j ∈ E.
Se invece la catena è irriducibile e ricorrente nulla (o transiente) allora
lim P{Xn = j|X0 = i} = 0
n→∞
∀ i, j ∈ E.
Quindi nel caso positivo ricorrente il vettore invariante di probabilità rappresenta il
comportamento asintotico della catena: nota bene che il valore
iniziale
i.
πj
non dipende dallo stato
Per quanto visto precedentemente ho che
lim P{Xn = j|X0 = i} = lim P n
n→∞
e quindi la matrice
n→∞
i,j
= πj
P n converge alla matrice di rango 1 con righe tutte uguali a π0 , π1 , . . . , πn
Si può allora cercare di stimare tale limite per trovare i valori del vettore invariante.
Ovvero si avrà

  
π0 π1 π2 . . .
1 π π π . . . 1
n
1
2
P → 0
 =   π0 π1 π2 . . .
.
.
.
.
.
.
.
.
.
.
.
.
Quindi basterà stimare la prima riga di
Pn
.
.
.
per
n
abbastanza grande, ma entreremo nei
dettagli nelle prossime lezioni.
Esempio 1.3.4.
La matrice
P =
0 1
1 0
!
è irriducibile, periodica e positiva ricorrente, e vale
P 2 = I, , P 3 = P, . . . , , P 2n = I, P 2n+1 = P
quindi
1
Pn
non converge, daltronde il vettore invariante di probabilità esiste ed è
1
2 , 2 ; l'ipotesi dell'aperiodicità è quindi fondamentale per avere che
e · πT .
Pn
πT =
che converge ad
.
1.3.
VETTORE INVARIANTE DI PROBABILITÀ
Esempio 1.3.5.
13
La matrice
P =
1
2
1
3
1
2
2
3
!
è irriducibile, aperiodica e positiva ricorrente, e i suoi autovalori sono
quindi scrivere
1 0
0 16
Pn = V
!n
1, 16 .
E' possibile
!
1 0
V −1 = e π T
0 0
V −1 → V
Proposizione 1.3.6. Se |E| < ∞ e M è irriducibile allora M è positiva ricorrente.
Dato che da una catena riducibile possiamo ricondurci al caso irriducibile, per avere
una catena ricorrente nulla o una transiente devo essere in uno spazio innito.
03/10/2011
Si era visto che se
P
irriducibile e nita allora la catena di Markov è
positiva ricorrente, togliendo l'ipotesi di nitezza l'implicazione non è più valida come
mostra il seguente esempio.
Esempio 1.3.7 (Catena di Markov innita irriducibile).

b0
b1
a
 −1 a0

a−1
P =



tale che
Si consideri
E=N
e la matrice

a1
a0
a1
..
..
.
.





.. 
.


b0 , b1 ≥ 0




a , a , a ≥ 0
−1 0 i
b0 + b1 = 1




a + a + a = 1
−1
0
1
questa matrice è (eccetto per la proma riga) una
matrice di Toepliz
(ha le diagonali
costanti) ed è irriducibile (è suciente tracciare il grafo). Come visto in precedenza
P
è
positiva ricorrente se e solo se esiste un vettore invariante di probabilità, in particolare si
avrà
π T (I − P ) = 0,
ovvero
π0 π1 . . .
πi . . .

1 − b0 −b1

 −a−1 1 − a0 −a1
... 

−a−1 1 − a0 −a1

..
.
..
.

..
.
Quindi si ottengono le equazioni



π0 (1 − b0 ) − π1 a−1 = 0
−π0 b1 + π1 (1 − a0 ) − π2 a−1 = 0


−π a + π (1 − a ) − π a = 0
i 1
i+1
0
i+2 −1
i = 1, 2, . . .


=0


14
CAPITOLO 1.
NOZIONI PRELIMINARI DI PROBABILITÀ
Queste sono equazioni alle dierenze lineari a coecienti costanti, per trovare la soluzione
generale si associa il polinomio
p(λ) = −a1 + (1 − a0 )λ − a−1 λ2
i cui zeri sono
λ1 6= λ2
λ1 = 1, λ2 =
a1
a−1 . Per la teoria delle equazioni alle dierenze, nel caso in cui
allora la soluzione dell'equazione è della forma
πi = αλi1 + βλi2 = α + βλi2
se invece
λ1 = λ2
∀ i ∈ N+
allora
πi = α + βi ∀ i ∈ N+ .
Nel primo caso se
α 6= 0
|λ2 | ≥ 1
oppure
allora la somma degli elementi
πi
non può fare
1 e allora non ho una matrice positiva ricorrente; nel secondo caso sicuramente la matrice
non è positiva ricorrente.
Si supponga quindi
e
β
λ1 6= λ2 ,
ossia
a1 6= a−1 .
Dato che si devono determinare i valori
α
dalle condizioni al contorno, dalle sulle prime due equazioni (condizione al contorno):
sommandole si ottiene
π0 (1 − b0 − b1 ) +π1 (1 − a0 − a−1 ) −π2 a−1 = 0 ⇒ (α + βλ2 )a1 − (α + βλ22 )a−1 = 0
|
{z
}
|
{z
}
a1
=0
α(a1 − a−1 ) + β(λ2 a1 − λ22 a−1 ) = 0
e sostituendo
λ2
con
a1
a−1 si ottiene
∞ ⇔ a1 < a−1 ; il coeciente β è
elementi πi faccia esattamente 1:
α = 0.
β
πi = β
a1 i
a−1 , e quindi
P
i πi
<
la costante di normalizzazione anché la somma degli
π0 =
e si ricava
In denitiva
a1 β
π1 a−1
=
1 − b0
1 − b0
da
X a 1 i
a1
β
+
1 − b0
a−1
= 1.
i∈N
a 6= a la matrice è ricorrente nulla ed esiste il vettore invariante
T 1 P−1
1
, ma
i πi = ∞; se invece a1 > a−1 la matrice è transiente, esiste
2 , 1, 1, . . .
Nel caso in cui
π =
vettore invariante ma
che se
a1 < a−1
πi → ∞.
Intuitivamente tale comportamento è suggerito dal fatto
allora ho più probabilità di ritornare indietro.
Per questo capitolo i riferimenti sono
Riferimento 1.
Handbook of Linear Algebra, Hogben editor; chapter: Markov Chains.
Riferimento 2.
Markov chains, autore Snell.
Capitolo 2
Matrici non negative
Tratteremo solo il caso delle matrici a dimensione nita.
2.1 Il teorema di Perron-Frobenius
Il seguente teorema è stato dimostrato indipendentemente da Perron nel 1907 e da Frobenius nel 1912; vedremo una versione con ipotesi meno restrittive.
Teorema 2.1.1
. Sia A ≥ 0 irriducibile, allora
(Perron-Frobenius, forma forte)
1. ρ(A) > 0 ed è un autovalore di A;
2. ∃ v > 0 : Av = ρ(A)v ;
3. se B ≥ A, B 6= A ⇒ ρ(B) > ρ(A);
4. ρ(A) è semplice.
Per la dimostrazione sono utili le seguenti proprietà.
Lemma 2.1.2.
A ∈ Mn (R), A ≥ 0 irriducibile ⇒ (I + A)n−1 > 0.
Dimostrazione.
Si dimostrerà che
x>0
allora
∀ x ≥ 0, x =
6 0 vale (I + A)n−1 x > 0: nel caso in cui
(I + A)n−1 x ≥ x > 0. Se invece x ha qualche componente nulla si denisce
(
xk+1 = (I + A)xk
0≤k ≤n−2
x0 = x
l'obbiettivo è dimostrare che il numero di componenti nulle di
minore di quelle di
Sia
con
P
xk ,
così arrivando al passo
(n − 1)-esimo
matrice di permutazione che porta gli elementi nulli di
α>0
di
m
componenti, allora
P xk+1 = P (I + A)P T P xk
sezionando la matrice
P (I + A)P T =
15
A B
C D
!
xk+1
è strettamente
si avrà un vettore positivo.
xk
in fondo, ossia
P xk =
α
0
!
,
16
CAPITOLO 2.
MATRICI NON NEGATIVE
quindi si avrà che
β
0
!
A B
C D
=
!
Cα non può essere interamente composto da
C = 0 ma la matrice di partenza era irriducibile.
e
Sia
A ∈ Mn (R), A ≥ 0
irriducibile, sia
rx = min
inoltre vale
!
elementi nulli perchè vorrebbe dire che
x ∈ Rn , x ≥ 0, x 6= 0;
!
Pn
j=1 ai,j xj
si denisce
xi
xi 6=0
rx ≥ 0, AX ≥ rx x,
α
0
rx = rαx ∀ α > 0;
r=
si denisce inoltre
sup
rx
x≥0,||x||1 =1
e gli insiemi
P = {x ≥ 0|||x||1 = 1},
Riprendo la diseguaglianza
AX ≥ rx x
Q = {y = (I + A)n−1 x|x ∈ P }.
si ottiene
(I + A)n−1 AX ≥ rx (I + A)n−1 x ⇒ A(I + A)n−1 X ≥ rx (I + A)n−1 x ⇒ Ay ≥ rx y
per cui
ry ≥ rx .
E' quindi possibile ridenire
r = sup ry ; Q
è compatto, quindi
∃w ∈
y∈Q
Q : r = rw .
Denizione 2.1.3.
z ∈ Rn , z ≥ 0, z 6= 0
si dice
estremale
se
Az ≥ rz ;
in questo caso
rz = r.
Lemma 2.1.4.
A ≥ 0 irriducibile ⇒ r > 0 e preso z estremale vale z > 0, Az = rz .
Corollario 2.1.5.
catena
M,
Dimostrazione.
trice
A=
Sia
P
una matrice nita e irriducibile, matrice di transizione della
allora la catena è positiva ricorrente.
ρ(P ) = 1, applico il
v > 0 tale che P T v = v ,
Sappiamo che
P T , allora esiste
Teorema 2.1.6
teorema di Perron-Frobenius alla madunque
2. ∃ v ≥ 0, v 6= 0 : Av = ρ(A)v ;
3. se B ≥ A, B 6= A ⇒ ρ(B) ≥ ρ(A).
06/10/2011
Proposizione 2.1.7. Sia A ≥ 0 irriducibile
v
||v||1 .
. Sia A ≥ 0, allora
(di Perron-Frobenius, forma debole)
1. ρ(A) ≥ 0 ed è un autovalore di A;
π=
2.1.
IL TEOREMA DI PERRON-FROBENIUS
1. se
Pn
j=1 ai,j
17
è costante, allora tale costante è ρ(A);
2. se tale somma non è costante allora vale
min
n
X
i=1,...,n
Dimostrazione.
gorin di
A
1. Innanzitutto
n
X
ai,j < ρ(A) < max
i=1,...,n
j=1
ai,j .
j=1
Ae = σe, quindi ρ(A) ≥ σ ;
σ , quindi ρ(A) ≤ σ .
inoltre i cerchi di Gersch-
si intersecano tutti in
P
mini=1,...,n nj=1 ai,j = α < ρ(A). Trovo B ≤ A, B 6= A tale che Be =
α = ρ(B); allora per il lemma 3 vale ρ(B) ≤ ρ(A). L'altra diseguaglianza
2. Dimostro che
αe,
allora
si ottiene in modo simmetrico.
Presa una matrice
A ≥ 0
autovalori con modulo uguale a
Denizione 2.1.8.
irriducibile, voglio scoprire se esistono propriet??
ρ(A).
Una matrice
A≥0
irriducibile si dice
autovalore di modulo massimo; se non ?? primitiva si dice
k≥2
sugli
primitiva se ρ(A) ?? l'unico
ciclica di indice k se esistono
autovalori di modulo massimo.
A ciclica di indice k , e siano λj = eıθj ρ(A) gli autovalori di modulo massimo
tale che 0 = θ0 < θ1 ≤ · · · ≤ θk−1 < 2π . Voglio dimostrare che questi autovalori sono le
radici k -esime del raggio spettrale: uso il lemma 3 con B = A, allora posso riscrivere
Suppongo
A = eıθj Dj ADj−1 ⇒ A = e−ıθj Dj−1 ADj .
(
(
−1D
eıθj Dj ADj−1 = eıθp Dp ADp−1
A = eı(θp −θj Dj p ADp−1 Dj
⇒
e−ıθj Dj−1 ADj = eıθp Dp ADp−1
A = eı(θp +θj ) Dj Dp ADp−1 Dj−1
ı(θ ±θj ) ρ(A) sono autovalori di A e eıθj j = 0, . . . , k − 1 ?? un gruppo abeliano
quindi e p
ıθ
di ordine k . Inoltre dal teorema di Perron-Frobenius ottengo che e j ?? semplice ∀ j =
0, . . . , k − 1.
Presa una qualsiasi matrice A ciclica di indice k allora posso trovare una matrice di
permutazione P tale che


0
A1,2


0
A2,3




..


T
.
P AP = 
0



.


..
Ak−1,k 

Ak,1
0
quindi se
A
ha elementi non nulli sulla diagonale allora
A
?? primitiva.
Nello studio delle catene di Markov si cercher?? di evitare le matrici cicliche, perch??
presa una matrice
A
ciclica con
sia irriducibile primitiva invece
Denizione 2.1.9.
B≥0
e
ρ(B) ≤ σ .
ρ(A) = 1 allora il limj→∞ Aj non esiste. Nel caso in
j
T
T
vale limj→∞ A = uv tale che Au = u e v A = v .
Una matrice del tipo
A = σI − B ,
con
σ > 0,
si dice
cui
M-matrice
A
se
18
CAPITOLO 2.
MATRICI NON NEGATIVE
Propriet?? delle M-matrici:
• ρ(B) = σ ⇔ A
•
se
•
per ogni
A
?? singolare;
?? invertibile allora
α
autovalore di
Denizione 2.1.10.
Una
A−1 ≥ 0;
A
vale
Z-matrice
Re α ≥ 0.
?? una matrice
A
tale che
ai,j ≤ 0 ∀ i 6= j .
Teorema 2.1.11. Sia A una Z-matrice, allora sono equivalenti:
• A ?? una M-matrice non singolare;
• ∀ λ autovalore di A vale Re λ > 0;
• A ?? invertibile e A−1 ≥ 0;
• ∃ D = diag(di ), di > 0 : ADe > 0;
• ai,i > 0 ∀ i e ∃ D = diag(di ), di > 0 : ADe > 0
Lemma 2.1.12. Sia
A una Z-matrice, allora ?? una M-matrice se e solo se A + I ??
una M-matrice non singolare ∀ > 0.
La teoria sulle M-matrici serve a calcolare i vettori invarianti: posso infatti riscrivere
πT P
= πT
come il sistema lineare
π T (I − P ) = 0,
con matrice singolare;
A = I−P
?? una
M-matrice singolare irriducibile.
Lemma 2.1.13. Presa una M-matrice non singolare, oppure singolare irriducibile, allora
ogni sottomatrice principale non banale ?? una M-matrice non singolare.
Dimostrazione.
trice principale di
P
i≥0
det A 6= 0, A = σI − B, ρ(B) < σ ; sia  una
 = σI − B̂ , con B̂ sottomaconcludere che  ?? una Z-matrice, inoltre la serie
P
B i
?? la serie
e perch?? ρ(B̂) < σ .
i≥0 σ
Studiamo il caso in cui
sottomatrice principale di
B:
A,
allora possiamo riscriverla come
Si pu?? subito
B̂ i
?? convergente perch?? lo
σ
Nel caso in cui
A
sia singolare irriducibile ripeto la stessa dimostrazione, e l'ultimo
punto lo ottengo per il lemma 4:
ρ(B̂) < ρ(B) = σ .
Teorema 2.1.14. Presa una M-matrice A non singolare sezionata in
A1,1 A1,2
A2,1 A2,2
allora il suo
singolare.
complemento di Schur
Dimostrazione.
!
S = A2,2 − A2,1 A−1
1,1 A1,2 ?? una M-matrice non
Per il lemma precedente ho che
det A1,1 6= 0,
e quindi ?? invertibile. Il
complemento di Schur ?? della forma
S = σI − B2,2 − B2,1 σI − B1,1
la matrice
S
−1
B1,2
ha elementi non positivi fuori dalla diagonale, quindi ?? una Z-matrice. Per
concludere dimostro che
det S 6= 0
e
S −1 ≥ 0.
2.1.
IL TEOREMA DI PERRON-FROBENIUS
19
!
!
I
0
A1,1 A1,2
A2,1 A−1
0
S
1,1 I
A=
per cui calcolando il determinante ottengo la non singolarit??. Uso inoltre questa fattorizzazione per calcolare l'inversa di
A−1 =
e quindi
A1,1 A1,2
0
S
!−1
A:
!−1
I
0
=
A2,1 A−1
1,1 I
A−1
∗
1,1
0
S −1
!
I 0
∗ I
!
=
∗
∗
∗ S −1
!
A−1 ≥ 0 ⇒ S −1 ≥ 0.
Teorema 2.1.15. Sia A ∈ Mn (R) M-matrice non singolare, allora esiste la fattorizzazione
A = LU , dove L e U sono M-matrici non singolari.
Dimostrazione.
Dimostro per induzione sulla dimensione:
•
se
•
supponendo che valga per
n=1
allora prendo
A=
dove
L = 1, U = A;
n − 1,
allora riscrivo
A1,1
c
bT an,n
α = an,n − bT A−1
1,1 c > 0
!
=
I
0
bT A−1
1,1 1
!
L1 U1 c
0
α
!
?? il complemento di Schur. Moltiplicando in mezzo
L1 0 L−1 0
per 0 1 1
ottengo
0 1


!
L1
0
−1
bT A−1 L1 1  U1 L1 c
A=
1,1

| {z }
0
α
|
{z
}
U1−1
{z
}
|
U
L
e le due nuove matrici sono M-matrici non singolari.
Teorema 2.1.16. Sia A ∈ Mn (R) M-matrice singolare irriducibile, allora
• rk(A) = n − 1;
• ∃ v > 0 : Av = 0;
• esiste la fattorizzazione A = LU , con L M-matrice non singolare e U M-matrice
singolare.
Dimostrazione.
Le ipotesi sono
A = σI − B
e
ρ(B) = σ ,
perci??
primi due punti si
ottengono con il teorema di Perron-Frobenius: infatti posso trovare un autovettore di
relativo all'autovalore semplice
σ.
Per dimostrare invece il terzo punto seziono
A=
A1,1
c
T
b
an,n
!
A
in
B
20
CAPITOLO 2.
dove
A1,1
??
MATRICI NON NEGATIVE
M-matrice non singolare (per un lemma precedente), allora
A1,1 = L1 U1 .
Posso quindi riscrivere come prima
!
!
U1 L−1
L1
0
1 c
A=
0
α
bT U1−1 1
{z
}|
{z
}
|
L
la prima matrice ?? la matrice
del teorema precedente, M-matrice e non singolare; la
sia singolare,
Vediamo come calcolare il vettore invariante, ossia la soluzione del sistema
π T (I−P ) = 0
allora la matrice
con
L
A
seconda matrice cambia per
P
i πi
= 1:
U
α,
U
che dev'essere per forza nullo anch??
?? singolare.
I − P ?? una M-matrice singolare irriducibile.
I − P = LU : il sistema diventa π T LU = 0
y T U = 0. Per la particolare forma di U una possibile
come precedentemente visto
Un primo metodo usa la fattorizzazione
y T = π T L, ottengo
T
?? y = (0, . . . , 0, 1); basta quindi risolvere
(
P
θi = − nj=i+1 θj li,j ∀ i = 1, . . . , n − 1
θn = 1
e, ponendo
soluzione
e normalizzo ottenendo
πi =
Pθi
j
θj . Si nota che dato che li,j
≤ 0
per
i 6= j
nel calcolo
delle componenti ho una somma di componenti non negative per via del meno davanti alla
sommatoria.
Per questo capitolo i riferimenti sono
Riferimento 3.
Matrix iterative analysis, Varga
Riferimento 4.
Non negative matrices in the mathematical sciences, Berman-Plemmons
Riferimento 5.
Handbook of linear algebra, Hogben editor