Appunti di Metodi Numerici per Catene di Markov Matteo Felici 12 ottobre 2011 2 Indice 1 Nozioni preliminari di probabilità 5 1.1 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Classicazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Vettore invariante di probabilità . . . . . . . . . . . . . . . . . . . . . . . . . 11 2 Matrici non negative 2.1 Il teorema di Perron-Frobenius 15 . . . . . . . . . . . . . . . . . . . . . . . . . 3 15 4 INDICE Capitolo 1 Nozioni preliminari di probabilità 26/09/2011 1.1 Catene di Markov Una catena di Markov è un processo stocastico il cui futuro dipende solo dallo stato presente. Denizione 1.1.1. Sia (Xn )n∈N un processo stocastico, suppongo che lo spazio degli eventi E sia numerabile, E ⊆ N; tale processo è una catena di Markov discreta se P{Xn+1 = jn+1 Xi = ji ∀ i = 0, . . . , n} = P{Xn+1 = jn+1 Xn = jn } ∀ n ∈ N, ∀ ji ∈ E. X è una catena di Markov omogenea rispetto al tempo se P{Xn+1 = j|Xn = i} = P{X1 = j|X0 = i} ∀ n ∈ N, ∀ i, j ∈ E ossia la probabilità indicata non dipende dall'istante studiato. Esempio 1.1.2 (Random walk) . Si prenda una particella che si muove sui numeri interi, fa un passo avanti con probabilità p e uno indietro con probabilità Per sapere la sua posizione al tempo i, i+1 1 − p (random walk ). basta sapere la sua posizione attuale al tempo il suo percorso precedente non serve. Questa è una catena di Markov omogenea rispetto al tempo. Figura 1.1: Random walk Denizione 1.1.3. • Una matrice A si dice stocastica se i coecienti sono non negativi (d'ora in avanti questa condizione la scriveremo come A ≥ 0) 5 6 CAPITOLO 1. • Ae = e e = (1, 1, . . . , 1)T sia 1. dove di ogni riga Denizione 1.1.4. di transizione NOZIONI PRELIMINARI DI PROBABILITÀ L'ultima condizione equivale a chiedere che la somma Nel caso di una catena omogenea denisco la la matrice P matrice delle probabilità con elementi pi,j = P{Xn+1 = j|Xn = i} i, j ∈ E. La matrice in questione ha le seguenti proprietà: • P ≥ 0; • P j∈E pi,j = 1 ∀ i ∈ E. queste due proprietà la rendono una matrice stocastica. Proposizione 1.1.5. Se |E| < ∞ allora ρ(P ) = 1 Dimostrazione. P è stocastica si ha che P e = e, quindi certamente varrà ρ(P ) ≥ 1, daltronde si ha che kP k1 = 1, e in generale (per ogni matrice e ogni norma) vale che ρ(P ) ≤ kP k quindi in particolare troviamo che ρ(P ) ≤ 1, quindi ρ(P ) = 1. Dato che |E| < ∞, allora P e = e, quindi si ottiene subito che ρ(P ) ≥ 1. ρ(P ) = 1: infatti vale ||P ||1 = 1. Se In realtà vale proprio Il problema che si aronterà nel corso sarà il calcolo dell'autovettore sinistro in particolare π π, si cercherà tale che • πT ≥ 0 X • πi = 1 i • πT P = πT Esempio 1.1.6 (Random walk) . In random walk, si mettano dei vincoli nei punti 0 e N , ovvero si va a destra di 0 con probabilità 1 e si va a sinistra di N con 1, ovvero con le notazioni introdotte equivale a dire p0,1 = 1 , pN,N −1 = 1. 3 avrà E = {0, 1, . . . , N }, e si supponga p = . La matrice di transizione è di 4 (N + 1) × (N + 1), della forma 0 1 4 P = 1 0 0 .. .. . ... 3 4 1 4 . .. . 0 1 0 3 4 0 probabilità Pertanto si dimensione 1.1. CATENE DI MARKOV 7 Esempio 1.1.7 (Teoria delle code). Data una la di clienti (queue ) serviti da una macchina server, che serve i clienti secondo una sua particolare legge di probabilità; supponendo che i clienti non abbandonino la la e che il buer sia innito (ossia spazio innito per i clienti), voglio costruire una catena tale che questo caso E = N; Xn sia il numero di clienti da servire al tempo che i clienti arrivino con una distribuzione uniforme descritta da ]n, n + 1]} = qj (non dipendente da Xn+1 n. In suppongo che il server soddis un cliente in una unità di tempo, e n). P{arrivano j clienti in Allora ( Xn − 1 + j = 0 se altrimenti Xn − 1 + qj ≥ 0 In questo caso la matrice di transizione ha dimensione innita ed è la seguente q0 q1 q2 . . . .. . P = 0 q0 q1 .. . 0 0 q0 Pertanto anche in problemi reali è necessario considerare matrici di transizione con dimensione innita. Esempio 1.1.8 (Page Rank di Google) . In ogni pagina web che un utente visita ci sono un certo numero di link; quello che può fare è: cliccare su un link presente nella pagina corrente oppure cambiare sito. Supporremo che la probabilità sia uniforme su tutti gli eventi, ovvero la probabilità che l'utente segua un link della pagina corrente sarà link) mentre 1−q q (per ogni sarà quella di cambiare sito (come in random walk ma c'è la possibilità di teletrasportarsi). Quindi è possibile rappresentare la navigazione dell'utente con una catena di Markov. La cardinalità delle pagine di internet è nita (circa E = {1, . . . , N }; si denisca la matrice G, detta 9.8 · 109 ), quindi connectivity matrix, che rappresenta i link che sono presenti nelle pagine, ossia gi,j = ( 1 se nella pagina 0 i esiste un link per la pagina j altrimenti out-degree inoltre si denisca l' di una pagina i come ri = P j∈E gi,j . La matrice di transizione è della forma pi,j = q dove q gi,j 1 + (1 − q) ri N rappresenta la probabilità di scegliere una pagina con link esistente (nel caso di Google vale q = 0.85). Si vede subito che X pi,j = j∈E q X 1 gi,j (1 − q) N = 1. ri N j∈E A questo punto è possibile eettuare il page rank, è suciente calcolare il vettore T che π P = πT e P i πi = 1, ossia è un autovettore sinistro della matrice P π tale relativo 8 CAPITOLO 1. NOZIONI PRELIMINARI DI PROBABILITÀ all'autovalore 1, poi ordinare gli elementi di π in ordine crescente: le pagine relative ai primi elementi saranno quelle più importanti (questo aspetto sarà chiaro più avanti). E' preferibile che la matrice G sia in forma quasi diagonale a blocchi, in cui ognuno dei blocchi rappresenta un cluster (unipi, governo italiano, amazon, ...), con qualche elemento non nullo sparso fuori dai blocchi diagonali come link occasionali. Il senso è che i siti del dominio .unipi.it avranno quasi tutti i link all'interno dello stesso dominio e in generale tale regola è rispettata. Ovvero partendo da un sito di scienze e cliccando su un link a caso è molto probabile che si vada a nire in un altro sito di scienze, come ad esempio partendo da un sito di cucina è molto probabile che quasi tutti i link siano ad altri siti di cucina o simili. Quindi esiste una permutazione (di righe e di colonne) della matrice G che la rende quasi diagonale a blocchi, ovvero togliendo i blocchi diagonali resta una matrice sparsa. Teorema 1.1.9. Data una catena di markov e la sua matrice di transizione P vale che P{Xn = j|X0 = i} = (P n )i,j . Idea della dimostrazione. Vediamo per X P{X2 = j|X0 = i} = n = 2: P{X2 = j|X1 = k}P{X1 = k|X0 = i} = k∈E X pi,k pk,j = (P 2 )i,j . k∈E Distrubuzione asintotica di una catena di Markov Denito (n) π (n) = (πi ), con (n) πi = P{Xn = i|X0 } π (n+1)T = π (n)T P Inoltre, se esiste limn→∞ π (n) = π , e n ≥ 1, allora vale ∀ n ≥ 0. allora • πT = πT P • π≥0 • P i πi =1 Quindi questo è il vettore a cui si faceva riferimento all'inizio. In pratica π rappresenta la situazione asintotica della catena di Markov. πi > πj pagina j . Possiamo ora reinterpretare il caso del Page rank di Google e dire che che è più probabile che l'utente visiti la pagina i piuttosto che la vuol dire 1.2. CLASSIFICAZIONE DEGLI STATI 9 1.2 Classicazione degli stati 29/11/2011 j ∈ E, Fissato un elemento si denisce la variabile aleatoria Tj = min{n ≥ 1|Xn = j} questa rappresenta il tempo della prima visita all'elemento j, si denisce anche fj = P{Tj < ∞|X0 = j} j in un tempo nito. se E[Tj |X0 = j] < ∞, ricorrente nullo questa è la probabilità che si torni su Denizione 1.2.1. Lo stato • transiente se fj < 1; • ricorrente se fj = 1. Nell'ultimo caso è Esempio 1.2.2. j si dice positivo ricorrente Sia E = {1, 2, 3} lo spazio degli eventi, e stato 1 2 e 3 1 0 0 P = 13 1 3 1 4 1 3 1 2 1 4 in questo caso gli stati altrimenti. sono transienti, infatti se si nisce da uno di essi nello non è più possibile tornare indietro; invece lo stato 1 è banalmente ricorrente, e in particolare è positivo ricorrente. Grafo associato ad una catena di Markov E , ed esiste > 0, ossia se esiste la possibilità di passare dallo stato i allo stato j . Ad ogni catena di Markov è possibile associare un grafo: l'insieme dei nodi è un arco da iaj Si dice che i se pi,j porta a j se esiste un cammino da i a j, ovvero una successione di archi (i, i1 )(i1 , i2 ) . . . (ik , j) che brevemente sarà indicata con i e j (j → j). I nodi comunicano se i (i → j). porta a j e viceversa, ovvero esistono i cammini (i → j) e Nell'esempio precedente il grafo associato alla catena di Markov è in gura 1.2 Denizione 1.2.3. Una catena di Markov si dice irriducibile se lo è la matrice stocastica associata, ossia se tutti gli stati del grafo associato comunicano tra loro. Si nota subito che, con la convenzione che uno stato relazione di comunicazione tra stati è di equivalenza. equivalenza tra stati, chiamate classi irriducibili o i comunichi con se stesso, la Posso così creare delle classi di classi di stati comunicanti. 10 CAPITOLO 1. NOZIONI PRELIMINARI DI PROBABILITÀ Figura 1.2: Grafo associato a C.M. dell'esempio 1.2.2 Denizione 1.2.4. Una classe irriducibile C si dice nale se ∀i ∈ C @j ∈ / C: i → j mentre è di passaggio se non è nale. La proprietà di uno stato di essere transiente, positivo ricorrente o ricorrente nullo viene condivisa con tutti gli altri stati della classe irriducibile a cui appartiene: gli stati di una classe di passaggio sono transienti, mentre gli stati di una classe nale possono essere di qualsiasi tipo. Nell'esempio 1.2.2 le classi sono C1 = {1} C1 è nale mentre C2 C2 = {2, 3} è di passaggio. Proposizione 1.2.5. Se C è una classe nale e |C| < ∞ allora la classe è positiva Proposizione 1.2.6. Se C1 , . . . , Ck sono classi irriducibili allora esiste Π matrice di ricorrente. permutazione tale che P1,1 0 ... ... P2,1 P2,2 Π PΠ = .. . T Pk,1 ... ... ... 0 .. . 0 Pk,k in cui Pi,i sono matrici irriducibili quadrate. Denizione 1.2.7. Uno stato i si dice periodico di periodo δ≥2 δ. stato a se stesso sono formati da un numero di archi multiplo di se tutti i cammini dallo Anche questa proprietà è condivisa dagli stati nella stessa classe irriducibile. Esempio 1.2.8. Si consideri la catena di Markov la cui matrice tranzione è la seguente P = 0 1 1 0 ! Dove il grafo associato è in gura 1.3 E' evidente che tutti gli stati sono periodici di periodo 2. 1.3. VETTORE INVARIANTE DI PROBABILITÀ 11 Figura 1.3: Grafo associato a C.M. dell'esempio 1.2.8 Esempio 1.2.9. Si consideri la catena di Markov la cui matrice di transizione (innita) è la seguente 0 ∗ ∗ 0 P = ∗ ∗ 0 .. . .. . .. . Il grafo associato è in gura 1.4 In questo esempio tutti gli stati sono 3-periodici. Figura 1.4: Grafo associato a C.M. dell'esempio 1.2.9 1.3 Vettore invariante di probabilità Denizione 1.3.1. di probabilità se • πi ≥ 0 X • πi = 1 i∈E Sia data una matrice P di transizione, un vettore π si dice invariante 12 CAPITOLO 1. NOZIONI PRELIMINARI DI PROBABILITÀ • πT P = πT π (0) = π allora π (n) = π e la legge (n) è quella fatta nella lezione successione π Il nome invariante viene dal fatto che, scelto della catena non cambia (la costruzione della precedente). Teorema 1.3.2. Sia data M catena di Markov irriducibile , allora M è positiva ricorrente (ovvero tutti i suoi stati lo sono) se e solo se esiste un vettore invariante di probabilità. Inoltre in questo caso è unico. (se togliamo l'ipotesi π ≥ 0 non è più vero). Teorema 1.3.3. Se la catena di Markov M è irriducibile, aperiodica (non esistono stati periodici) e positiva ricorrente, allora il vettore invariante di probabilità si può esprimere come πj = lim P{Xn = j|X0 = i} n→∞ ∀ i, j ∈ E. Se invece la catena è irriducibile e ricorrente nulla (o transiente) allora lim P{Xn = j|X0 = i} = 0 n→∞ ∀ i, j ∈ E. Quindi nel caso positivo ricorrente il vettore invariante di probabilità rappresenta il comportamento asintotico della catena: nota bene che il valore iniziale i. πj non dipende dallo stato Per quanto visto precedentemente ho che lim P{Xn = j|X0 = i} = lim P n n→∞ e quindi la matrice n→∞ i,j = πj P n converge alla matrice di rango 1 con righe tutte uguali a π0 , π1 , . . . , πn Si può allora cercare di stimare tale limite per trovare i valori del vettore invariante. Ovvero si avrà π0 π1 π2 . . . 1 π π π . . . 1 n 1 2 P → 0 = π0 π1 π2 . . . . . . . . . . . . . . . Quindi basterà stimare la prima riga di Pn . . . per n abbastanza grande, ma entreremo nei dettagli nelle prossime lezioni. Esempio 1.3.4. La matrice P = 0 1 1 0 ! è irriducibile, periodica e positiva ricorrente, e vale P 2 = I, , P 3 = P, . . . , , P 2n = I, P 2n+1 = P quindi 1 Pn non converge, daltronde il vettore invariante di probabilità esiste ed è 1 2 , 2 ; l'ipotesi dell'aperiodicità è quindi fondamentale per avere che e · πT . Pn πT = che converge ad . 1.3. VETTORE INVARIANTE DI PROBABILITÀ Esempio 1.3.5. 13 La matrice P = 1 2 1 3 1 2 2 3 ! è irriducibile, aperiodica e positiva ricorrente, e i suoi autovalori sono quindi scrivere 1 0 0 16 Pn = V !n 1, 16 . E' possibile ! 1 0 V −1 = e π T 0 0 V −1 → V Proposizione 1.3.6. Se |E| < ∞ e M è irriducibile allora M è positiva ricorrente. Dato che da una catena riducibile possiamo ricondurci al caso irriducibile, per avere una catena ricorrente nulla o una transiente devo essere in uno spazio innito. 03/10/2011 Si era visto che se P irriducibile e nita allora la catena di Markov è positiva ricorrente, togliendo l'ipotesi di nitezza l'implicazione non è più valida come mostra il seguente esempio. Esempio 1.3.7 (Catena di Markov innita irriducibile). b0 b1 a −1 a0 a−1 P = tale che Si consideri E=N e la matrice a1 a0 a1 .. .. . . .. . b0 , b1 ≥ 0 a , a , a ≥ 0 −1 0 i b0 + b1 = 1 a + a + a = 1 −1 0 1 questa matrice è (eccetto per la proma riga) una matrice di Toepliz (ha le diagonali costanti) ed è irriducibile (è suciente tracciare il grafo). Come visto in precedenza P è positiva ricorrente se e solo se esiste un vettore invariante di probabilità, in particolare si avrà π T (I − P ) = 0, ovvero π0 π1 . . . πi . . . 1 − b0 −b1 −a−1 1 − a0 −a1 ... −a−1 1 − a0 −a1 .. . .. . .. . Quindi si ottengono le equazioni π0 (1 − b0 ) − π1 a−1 = 0 −π0 b1 + π1 (1 − a0 ) − π2 a−1 = 0 −π a + π (1 − a ) − π a = 0 i 1 i+1 0 i+2 −1 i = 1, 2, . . . =0 14 CAPITOLO 1. NOZIONI PRELIMINARI DI PROBABILITÀ Queste sono equazioni alle dierenze lineari a coecienti costanti, per trovare la soluzione generale si associa il polinomio p(λ) = −a1 + (1 − a0 )λ − a−1 λ2 i cui zeri sono λ1 6= λ2 λ1 = 1, λ2 = a1 a−1 . Per la teoria delle equazioni alle dierenze, nel caso in cui allora la soluzione dell'equazione è della forma πi = αλi1 + βλi2 = α + βλi2 se invece λ1 = λ2 ∀ i ∈ N+ allora πi = α + βi ∀ i ∈ N+ . Nel primo caso se α 6= 0 |λ2 | ≥ 1 oppure allora la somma degli elementi πi non può fare 1 e allora non ho una matrice positiva ricorrente; nel secondo caso sicuramente la matrice non è positiva ricorrente. Si supponga quindi e β λ1 6= λ2 , ossia a1 6= a−1 . Dato che si devono determinare i valori α dalle condizioni al contorno, dalle sulle prime due equazioni (condizione al contorno): sommandole si ottiene π0 (1 − b0 − b1 ) +π1 (1 − a0 − a−1 ) −π2 a−1 = 0 ⇒ (α + βλ2 )a1 − (α + βλ22 )a−1 = 0 | {z } | {z } a1 =0 α(a1 − a−1 ) + β(λ2 a1 − λ22 a−1 ) = 0 e sostituendo λ2 con a1 a−1 si ottiene ∞ ⇔ a1 < a−1 ; il coeciente β è elementi πi faccia esattamente 1: α = 0. β πi = β a1 i a−1 , e quindi P i πi < la costante di normalizzazione anché la somma degli π0 = e si ricava In denitiva a1 β π1 a−1 = 1 − b0 1 − b0 da X a 1 i a1 β + 1 − b0 a−1 = 1. i∈N a 6= a la matrice è ricorrente nulla ed esiste il vettore invariante T 1 P−1 1 , ma i πi = ∞; se invece a1 > a−1 la matrice è transiente, esiste 2 , 1, 1, . . . Nel caso in cui π = vettore invariante ma che se a1 < a−1 πi → ∞. Intuitivamente tale comportamento è suggerito dal fatto allora ho più probabilità di ritornare indietro. Per questo capitolo i riferimenti sono Riferimento 1. Handbook of Linear Algebra, Hogben editor; chapter: Markov Chains. Riferimento 2. Markov chains, autore Snell. Capitolo 2 Matrici non negative Tratteremo solo il caso delle matrici a dimensione nita. 2.1 Il teorema di Perron-Frobenius Il seguente teorema è stato dimostrato indipendentemente da Perron nel 1907 e da Frobenius nel 1912; vedremo una versione con ipotesi meno restrittive. Teorema 2.1.1 . Sia A ≥ 0 irriducibile, allora (Perron-Frobenius, forma forte) 1. ρ(A) > 0 ed è un autovalore di A; 2. ∃ v > 0 : Av = ρ(A)v ; 3. se B ≥ A, B 6= A ⇒ ρ(B) > ρ(A); 4. ρ(A) è semplice. Per la dimostrazione sono utili le seguenti proprietà. Lemma 2.1.2. A ∈ Mn (R), A ≥ 0 irriducibile ⇒ (I + A)n−1 > 0. Dimostrazione. Si dimostrerà che x>0 allora ∀ x ≥ 0, x = 6 0 vale (I + A)n−1 x > 0: nel caso in cui (I + A)n−1 x ≥ x > 0. Se invece x ha qualche componente nulla si denisce ( xk+1 = (I + A)xk 0≤k ≤n−2 x0 = x l'obbiettivo è dimostrare che il numero di componenti nulle di minore di quelle di Sia con P xk , così arrivando al passo (n − 1)-esimo matrice di permutazione che porta gli elementi nulli di α>0 di m componenti, allora P xk+1 = P (I + A)P T P xk sezionando la matrice P (I + A)P T = 15 A B C D ! xk+1 è strettamente si avrà un vettore positivo. xk in fondo, ossia P xk = α 0 ! , 16 CAPITOLO 2. MATRICI NON NEGATIVE quindi si avrà che β 0 ! A B C D = ! Cα non può essere interamente composto da C = 0 ma la matrice di partenza era irriducibile. e Sia A ∈ Mn (R), A ≥ 0 irriducibile, sia rx = min inoltre vale ! elementi nulli perchè vorrebbe dire che x ∈ Rn , x ≥ 0, x 6= 0; ! Pn j=1 ai,j xj si denisce xi xi 6=0 rx ≥ 0, AX ≥ rx x, α 0 rx = rαx ∀ α > 0; r= si denisce inoltre sup rx x≥0,||x||1 =1 e gli insiemi P = {x ≥ 0|||x||1 = 1}, Riprendo la diseguaglianza AX ≥ rx x Q = {y = (I + A)n−1 x|x ∈ P }. si ottiene (I + A)n−1 AX ≥ rx (I + A)n−1 x ⇒ A(I + A)n−1 X ≥ rx (I + A)n−1 x ⇒ Ay ≥ rx y per cui ry ≥ rx . E' quindi possibile ridenire r = sup ry ; Q è compatto, quindi ∃w ∈ y∈Q Q : r = rw . Denizione 2.1.3. z ∈ Rn , z ≥ 0, z 6= 0 si dice estremale se Az ≥ rz ; in questo caso rz = r. Lemma 2.1.4. A ≥ 0 irriducibile ⇒ r > 0 e preso z estremale vale z > 0, Az = rz . Corollario 2.1.5. catena M, Dimostrazione. trice A= Sia P una matrice nita e irriducibile, matrice di transizione della allora la catena è positiva ricorrente. ρ(P ) = 1, applico il v > 0 tale che P T v = v , Sappiamo che P T , allora esiste Teorema 2.1.6 teorema di Perron-Frobenius alla madunque 2. ∃ v ≥ 0, v 6= 0 : Av = ρ(A)v ; 3. se B ≥ A, B 6= A ⇒ ρ(B) ≥ ρ(A). 06/10/2011 Proposizione 2.1.7. Sia A ≥ 0 irriducibile v ||v||1 . . Sia A ≥ 0, allora (di Perron-Frobenius, forma debole) 1. ρ(A) ≥ 0 ed è un autovalore di A; π= 2.1. IL TEOREMA DI PERRON-FROBENIUS 1. se Pn j=1 ai,j 17 è costante, allora tale costante è ρ(A); 2. se tale somma non è costante allora vale min n X i=1,...,n Dimostrazione. gorin di A 1. Innanzitutto n X ai,j < ρ(A) < max i=1,...,n j=1 ai,j . j=1 Ae = σe, quindi ρ(A) ≥ σ ; σ , quindi ρ(A) ≤ σ . inoltre i cerchi di Gersch- si intersecano tutti in P mini=1,...,n nj=1 ai,j = α < ρ(A). Trovo B ≤ A, B 6= A tale che Be = α = ρ(B); allora per il lemma 3 vale ρ(B) ≤ ρ(A). L'altra diseguaglianza 2. Dimostro che αe, allora si ottiene in modo simmetrico. Presa una matrice A ≥ 0 autovalori con modulo uguale a Denizione 2.1.8. irriducibile, voglio scoprire se esistono propriet?? ρ(A). Una matrice A≥0 irriducibile si dice autovalore di modulo massimo; se non ?? primitiva si dice k≥2 sugli primitiva se ρ(A) ?? l'unico ciclica di indice k se esistono autovalori di modulo massimo. A ciclica di indice k , e siano λj = eıθj ρ(A) gli autovalori di modulo massimo tale che 0 = θ0 < θ1 ≤ · · · ≤ θk−1 < 2π . Voglio dimostrare che questi autovalori sono le radici k -esime del raggio spettrale: uso il lemma 3 con B = A, allora posso riscrivere Suppongo A = eıθj Dj ADj−1 ⇒ A = e−ıθj Dj−1 ADj . ( ( −1D eıθj Dj ADj−1 = eıθp Dp ADp−1 A = eı(θp −θj Dj p ADp−1 Dj ⇒ e−ıθj Dj−1 ADj = eıθp Dp ADp−1 A = eı(θp +θj ) Dj Dp ADp−1 Dj−1 ı(θ ±θj ) ρ(A) sono autovalori di A e eıθj j = 0, . . . , k − 1 ?? un gruppo abeliano quindi e p ıθ di ordine k . Inoltre dal teorema di Perron-Frobenius ottengo che e j ?? semplice ∀ j = 0, . . . , k − 1. Presa una qualsiasi matrice A ciclica di indice k allora posso trovare una matrice di permutazione P tale che 0 A1,2 0 A2,3 .. T . P AP = 0 . .. Ak−1,k Ak,1 0 quindi se A ha elementi non nulli sulla diagonale allora A ?? primitiva. Nello studio delle catene di Markov si cercher?? di evitare le matrici cicliche, perch?? presa una matrice A ciclica con sia irriducibile primitiva invece Denizione 2.1.9. B≥0 e ρ(B) ≤ σ . ρ(A) = 1 allora il limj→∞ Aj non esiste. Nel caso in j T T vale limj→∞ A = uv tale che Au = u e v A = v . Una matrice del tipo A = σI − B , con σ > 0, si dice cui M-matrice A se 18 CAPITOLO 2. MATRICI NON NEGATIVE Propriet?? delle M-matrici: • ρ(B) = σ ⇔ A • se • per ogni A ?? singolare; ?? invertibile allora α autovalore di Denizione 2.1.10. Una A−1 ≥ 0; A vale Z-matrice Re α ≥ 0. ?? una matrice A tale che ai,j ≤ 0 ∀ i 6= j . Teorema 2.1.11. Sia A una Z-matrice, allora sono equivalenti: • A ?? una M-matrice non singolare; • ∀ λ autovalore di A vale Re λ > 0; • A ?? invertibile e A−1 ≥ 0; • ∃ D = diag(di ), di > 0 : ADe > 0; • ai,i > 0 ∀ i e ∃ D = diag(di ), di > 0 : ADe > 0 Lemma 2.1.12. Sia A una Z-matrice, allora ?? una M-matrice se e solo se A + I ?? una M-matrice non singolare ∀ > 0. La teoria sulle M-matrici serve a calcolare i vettori invarianti: posso infatti riscrivere πT P = πT come il sistema lineare π T (I − P ) = 0, con matrice singolare; A = I−P ?? una M-matrice singolare irriducibile. Lemma 2.1.13. Presa una M-matrice non singolare, oppure singolare irriducibile, allora ogni sottomatrice principale non banale ?? una M-matrice non singolare. Dimostrazione. trice principale di P i≥0 det A 6= 0, A = σI − B, ρ(B) < σ ; sia  una  = σI − B̂ , con B̂ sottomaconcludere che  ?? una Z-matrice, inoltre la serie P B i ?? la serie e perch?? ρ(B̂) < σ . i≥0 σ Studiamo il caso in cui sottomatrice principale di B: A, allora possiamo riscriverla come Si pu?? subito B̂ i ?? convergente perch?? lo σ Nel caso in cui A sia singolare irriducibile ripeto la stessa dimostrazione, e l'ultimo punto lo ottengo per il lemma 4: ρ(B̂) < ρ(B) = σ . Teorema 2.1.14. Presa una M-matrice A non singolare sezionata in A1,1 A1,2 A2,1 A2,2 allora il suo singolare. complemento di Schur Dimostrazione. ! S = A2,2 − A2,1 A−1 1,1 A1,2 ?? una M-matrice non Per il lemma precedente ho che det A1,1 6= 0, e quindi ?? invertibile. Il complemento di Schur ?? della forma S = σI − B2,2 − B2,1 σI − B1,1 la matrice S −1 B1,2 ha elementi non positivi fuori dalla diagonale, quindi ?? una Z-matrice. Per concludere dimostro che det S 6= 0 e S −1 ≥ 0. 2.1. IL TEOREMA DI PERRON-FROBENIUS 19 ! ! I 0 A1,1 A1,2 A2,1 A−1 0 S 1,1 I A= per cui calcolando il determinante ottengo la non singolarit??. Uso inoltre questa fattorizzazione per calcolare l'inversa di A−1 = e quindi A1,1 A1,2 0 S !−1 A: !−1 I 0 = A2,1 A−1 1,1 I A−1 ∗ 1,1 0 S −1 ! I 0 ∗ I ! = ∗ ∗ ∗ S −1 ! A−1 ≥ 0 ⇒ S −1 ≥ 0. Teorema 2.1.15. Sia A ∈ Mn (R) M-matrice non singolare, allora esiste la fattorizzazione A = LU , dove L e U sono M-matrici non singolari. Dimostrazione. Dimostro per induzione sulla dimensione: • se • supponendo che valga per n=1 allora prendo A= dove L = 1, U = A; n − 1, allora riscrivo A1,1 c bT an,n α = an,n − bT A−1 1,1 c > 0 ! = I 0 bT A−1 1,1 1 ! L1 U1 c 0 α ! ?? il complemento di Schur. Moltiplicando in mezzo L1 0 L−1 0 per 0 1 1 ottengo 0 1 ! L1 0 −1 bT A−1 L1 1 U1 L1 c A= 1,1 | {z } 0 α | {z } U1−1 {z } | U L e le due nuove matrici sono M-matrici non singolari. Teorema 2.1.16. Sia A ∈ Mn (R) M-matrice singolare irriducibile, allora • rk(A) = n − 1; • ∃ v > 0 : Av = 0; • esiste la fattorizzazione A = LU , con L M-matrice non singolare e U M-matrice singolare. Dimostrazione. Le ipotesi sono A = σI − B e ρ(B) = σ , perci?? primi due punti si ottengono con il teorema di Perron-Frobenius: infatti posso trovare un autovettore di relativo all'autovalore semplice σ. Per dimostrare invece il terzo punto seziono A= A1,1 c T b an,n ! A in B 20 CAPITOLO 2. dove A1,1 ?? MATRICI NON NEGATIVE M-matrice non singolare (per un lemma precedente), allora A1,1 = L1 U1 . Posso quindi riscrivere come prima ! ! U1 L−1 L1 0 1 c A= 0 α bT U1−1 1 {z }| {z } | L la prima matrice ?? la matrice del teorema precedente, M-matrice e non singolare; la sia singolare, Vediamo come calcolare il vettore invariante, ossia la soluzione del sistema π T (I−P ) = 0 allora la matrice con L A seconda matrice cambia per P i πi = 1: U α, U che dev'essere per forza nullo anch?? ?? singolare. I − P ?? una M-matrice singolare irriducibile. I − P = LU : il sistema diventa π T LU = 0 y T U = 0. Per la particolare forma di U una possibile come precedentemente visto Un primo metodo usa la fattorizzazione y T = π T L, ottengo T ?? y = (0, . . . , 0, 1); basta quindi risolvere ( P θi = − nj=i+1 θj li,j ∀ i = 1, . . . , n − 1 θn = 1 e, ponendo soluzione e normalizzo ottenendo πi = Pθi j θj . Si nota che dato che li,j ≤ 0 per i 6= j nel calcolo delle componenti ho una somma di componenti non negative per via del meno davanti alla sommatoria. Per questo capitolo i riferimenti sono Riferimento 3. Matrix iterative analysis, Varga Riferimento 4. Non negative matrices in the mathematical sciences, Berman-Plemmons Riferimento 5. Handbook of linear algebra, Hogben editor