Antonio Manno, [email protected], www.statistica.too.it TEORIA DEI PROCESSI STOCASTICI 1. Generalità dei processi stocastici L’utilizzo dei processi stocastici deriva dall’esigenza di descrivere un fenomeno aleatorio in evoluzione nel tempo. Si definisce processo stocastico una famiglia di variabili casuali indicizzate da un parametro t ∈ T e lo si denota con {xt ; t ∈ T }. Se T coincide con l’insieme dei numeri naturali, allora si ha il caso di una successione di variabili casuali. Il processo stocastico è detto a parametro discreto se T è discreto, mentre è detto a parametro continuo qualora T sia continuo. Poiché la singola variabile casuale xt del processo è funzione dello spazio degli eventi Ω , per mettere in risalto questo aspetto spesso si è soliti indicare un processo stocastico con la notazione {xt (ω ) : t ∈ T }. Fissato t ∈ T , xt (ω ) è una variabile casuale, mentre fissato un evento ω ∈ Ω , allora xt (ω ) è una funzione reale della variabile t e viene chiamata traiettoria o realizzazione del processo stocastico. Ogni variabile casuale assume valori in un insieme E detto spazio degli stati. Un processo è detto discreto o continuo a seconda che i valori assunti dalle variabili casuali xt (ω ) siano discreti o continui. Un processo si dice che è noto se si conoscono tutte le distribuzioni congiunte di quante e quali si vogliono variabili della famiglia. Seguendo l’impostazione assiomatica di Kolmogorov, un processo {xt ; t ∈ T } è noto se 1 Antonio Manno, [email protected], www.statistica.too.it si Ft1 ,t 2 , ∀n ∈ ℵ; ∀t1 , t 2 , conosce ,t n { (x1 , x2 , , x n ) = Pr X t1 ≤ x1 , X t 2 ≤ x 2 , La famiglia di funzioni Ft ,t , 1 2 ,t n (x1 , x 2 , , tn ∈T } , X tn ≤ x n . , x n ) è chiamata legge temporale del processo. Le funzioni appartenenti a tale famiglia devono soddisfare le seguenti proprietà: devono essere funzioni simmetriche delle variabili (t i , xi ) ; ∀n ∈ ℵ; ∀t1 , t 2 , lim F x → +∞ t1 , t 2 , , t n , tn ∈T (x1 , x 2 , ∀(x1 , x 2 , e , x ) = Ft1 ,t 2 , , x n −1 )∈ ℜ n −1 (x1 , x 2 , , t n −1 deve verificarsi che , x n −1 ) . Si dice distribuzione o funzione di ripartizione del primo ordine del processo stocastico X t , la funzione di ripartizione della singola variabile casuale X t , per t fissato, ossia: F ( x, t ) = Pr{X t ≤ x}. Dati due istanti temporali t1 e t 2 e le variabili casuali X t , X t , la loro 1 2 distribuzione congiunta si dice distribuzione del secondo ordine del processo e si indica: { } F ( x1 , x 2 , t1 , t 2 ) = Pr X t1 ≤ x1 , X t 2 ≤ x 2 . La funzione di densità, se esiste, sarà: f ( x1 , x 2 , t1 , t 2 ) = ∂ 2 F ( x1 , x 2 , t1 , t 2 ) . ∂x1∂x 2 La funzione caratteristica associata al processo X t sarà: ϕ xt1 , , xt n (u1 , [( , un ) = E e i u1 xt1 + + u n xt n ) ]. Si definisce momento se esiste, la funzione: m r1 , , rn (t1 , { , t n ) = E X tr11 X tr22 } X trnn . 2 Antonio Manno, [email protected], www.statistica.too.it Quindi, la funzione valor medio, indicata con m(t), è definita da m(t ) = E [X t ]; mentre la funzione K (t1 , t 2 ) è la funzione di autocovarianza del processo stocastico e precisamente: ( ) K (t1 , t 2 ) = cov X t1 , X t 2 . Un processo stocastico si definisce ad incrementi non correlati se X t − X t , i +1 i per ogni i, è una successione di variabili non correlate; si dice ad incrementi ortogonali se X t − X t è una successione di variabili aleatorie i +1 i ortogonali, cioè per cui E [X t ⋅ X t ] = 0 , mentre è denominato ad incrementi i +1 i indipendenti se tale successione è una successione di variabili casuali indipendenti. Particolare attenzione meritano i processi gaussiani, ossia processi in cui le distribuzioni congiunte sono di tipo normale, per cui ∀n ≥ 1; ∀t1 , , t n ∈ T , si ha: f t1 , ,t n (x1 , 1 −n 1 , x n ) = Γ 2 ⋅ (2π ) 2 ⋅ exp− ∑∑ Γ pq (x p − m(t p ))(x q − m(t q )) . 2 p q Un processo stocastico è detto stazionario in senso stretto se la funzione di distribuzione Ft ,t , 1 2 ,t n (x1 , x 2 , , x n ) è invariante rispetto ad uno spostamento sull’asse del tempo T, ovvero: { Pr X t1 ≤ x1 , } { , X t n ≤ x n = Pr X t1 +τ ≤ x1 , } , X t n +τ ≤ x n . Un processo stocastico è stazionario in senso debole se i primi due momenti della distribuzione non dipendono dagli indici temporali; ovvero la media E[X t ] e la varianza Var[X t ] sono costanti al variare di t ∈ T e se ( ) E X t1 ⋅ X t 2 è funzione della differenza di indici in valore assoluto e non dei singoli indici t1 , t 2 ∈ T . 3 Antonio Manno, [email protected], www.statistica.too.it Un processo stocastico X t è ad incrementi stazionari se il processo Yt = X t + h − X t è stazionario per ogni h. Si dice che è asintoticamente stazionario se ∃ lim F (x , h→∞ 1 , x n ; t 1 + h, t n + h ) ed è indipendente da h. Un processo stocastico X t , con m(t)=0 e var(t)= σ 2 uguale per ogni t e con cov[X t , X t +k ] = 0 ∀k ≠ 0 , ossia una successione di variabili casuali indipendenti e identicamente distribuite (i.i.d.) è chiamato processo white noise e si indica X t ~ WN (0, σ 2 ). Dato un processo a parametro discreto, considerando la successione delle 1 T medie temporali M T = ∑ X t , si dice ergodica se la sua varianza tende a T t =1 zero al divergere della dimensione tempo. In un processo ergodico la successione delle medie temporali approssima bene il suo valore atteso E (M T ) . Il seguente teorema fornisce una condizione necessaria e sufficiente affinché le medie temporali di un processo stocastico siano ergodiche. Teorema: Sia X n un processo per il quale cov( X t , X s ) = K (t , s) sia limitata, cioè esiste una costante K 0 tale che K(t,t) ≤ K 0 , per t=1,2,…; sia C (t ) = cov( X t , M t ) = 1 t ∑ K ( s, t ) ; t s =1 affinché valga che lim Var ( M T ) = 0 T →∞ è necessario e sufficiente che lim C (t ) = 0 . t →∞ Ossia M T sono ergodiche se e solo se, quando la grandezza campionaria t cresce, vi è man mano minore covarianza fra la media del campione M t e l’ultima osservazione X t , in modo che l’informazione “campionaria” contenuta in X t non sia troppo connessa a quella di M t e quindi sia ridondante. 4 Antonio Manno, [email protected], www.statistica.too.it Il teorema ergodico di Slutsky dimostra che le medie temporali di un processo stazionario in senso debole sono ergodiche se e solo se la funzione R(v), pari a E (X t X t + v ), converge a zero nel senso di Cesàro per 1 t −1 R (v ) = 0 ∑ t →∞ t v =0 v → ∞ , ossia lim Considerando un processo a parametro continuo {X t ;0 ≤ t ≤ T }, si definisce T valor medio M T = ∫0 x t dt . L’ergodicità del valor medio è la “versione nel tempo” della legge dei grandi numeri. In generale, considerando il processo stocastico X t e una funzione momento E (ν (X t )), allora si dice che il processo è ergodico rispetto tale parametro se lo stimatore temporale νˆ n (X t ) converge in media quadratica a E (ν (X t )). 2. Processi stocastici più comuni Se Wt è un processo white noise a media nulla e varianza σ 2 , ossia Wt ~ WN (0, σ 2 ) ed il processo X t è definito come X t = ∑ α j Wt − j , con ∞ j=0 ∞ e ∑α j =0 2 j α0 =1 < ∞ , allora il processo X t è detto lineare. Se un processo è lineare, allora è stazionario in senso debole. Nell’ambito dei processi stocastici lineari rientrano i processi ARMA, molto utilizzati per l’analisi delle serie storiche di tipo lineare. Un processo ARMA di ordine (p,q) è il processo X n soluzione dell’equazione: 5 Antonio Manno, [email protected], www.statistica.too.it p q i =1 j =0 X n + ∑ λ i X n −i = ∑ a j Z n − j dove il processo {Z n ; n ∈ℵ} è un processo white noise. Casi particolari di un processo ARMA(p,q) sono i processi a medie mobili di ordine q, indicati con MA(q), in cui: q X n = ∑ a j Z n− j j =0 e i processi autoregressivi di ordine p, indicati con AR(p), ossia: p X n = ∑ a j X n− j + Z n . j =1 Definendo un modello ARMA(p,q) sulle differenze d-esime del processo Xn si ottiene un processo ARIMA di ordine p,d,q, indicato con ARIMA(p,d,q), dove p indica le componenti autoregressive, d l’ordine di differenziazione e q l’ordine delle componenti di tipo MA. Un processo stocastico è indipendente se la distribuzione congiunta è uguale al prodotto delle distribuzioni marginali, ossia: { Pr X t1 ≤ x1 , } n { } , X t n ≤ x n = ∏ Pr X ti ≤ x i . i =1 Un processo a tempo discreto è detto di rinnovamento se le variabili casuali X1, X 2 , sono indipendenti, identicamente distribuite e a valori non negativi. In altre parole, un processo stocastico di rinnovamento si ripete probabilisticamente, ovvero è possibile identificare una sequenza di punti detti di rigenerazione, a partire dai quali il processo si comporta, in termini probabilistici, sempre nello stesso modo. Il tempo fra due punti di rigenerazione è detto ciclo di rigenerazione. Un processo stocastico a tempo discreto {X n ; n ∈ℵ}è detto di Markov se la probabilità di stato al tempo n+1 dipende soltanto dallo stato al tempo attuale, n, e non dalla storia precedente, ovvero se si ha: 6 Antonio Manno, [email protected], www.statistica.too.it Pr{X n +1 = j | X o = i 0 , X 1 = i1 , , X n = i n } = Pr{X n +1 = j | X n = i n }. Un processo a tempo continuo {xt ; t ∈ T } è detto di Markov se per ogni sequenza di valori t 0 ≤ t1 ≤ { ≤ t n ≤ t si ha: Pr X t = j | X t 0 = i 0 , } { } , X t n = i n = Pr X t = j | X t n = i n . Dal vincolo sulle distribuzioni che definisce i processi markoviani, si deduce che per un processo markoviano a tempo discreto il tempo di permanenza in uno stato segue una distribuzione geometrica, mentre un processo markoviano a tempo continuo è una variabile casuale con distribuzione esponenziale negativa. Ciò si verifica poiché un processo markoviano è un processo “privo di memoria” e le uniche distribuzioni che godono di tale proprietà sono appunto le distribuzioni geometrica ed esponenziale. Un processo molto interessante è quello chiamato “random walk” ossia passeggiata aleatoria, che rappresenta il movimento di una particella nello spazio, identificandone la sua posizione al tempo n. Tale posizione dipende dalla posizione precedente e da una variabile casuale indipendente; formalmente è definito come somma di una sequenza di variabili {Yi }indipendenti e identicamente distribuite, per cui n X n = ∑ Yi . Il processo i =1 X n è discreto o continuo a seconda che siano discrete o continue le variabili {Yi }. Dall’analisi di una passeggiata aleatoria in 2 dimensioni scaturisce il noto processo di Wiener W(t), caratterizzato dal fatto di avere una distribuzione marginale di tipo gaussiano con media nulla e varianza α ⋅ t . Considerando due istanti temporali si ha R (t1 , t 2 ) = α ⋅ min(t1 , t 2 ) . Il processo di Wiener, detto anche moto Browniano, è un particolare processo Markoviano continuo, la cui densità soddisfa “l’equazione del calore”. In 7 Antonio Manno, [email protected], www.statistica.too.it generale un moto Browniano è un processo {W (t ); t ≥ 0}, avente le seguenti caratteristiche: - W(0)=0; - ha incrementi indipendenti e stazionari; - per ogni t>0, W (t ) ~ N (0, α ⋅ t ) ; Nel caso α = 1 si parla di Moto Browniano Standard. Un processo stocastico molto noto in letteratura è quello “di conteggio” Si definisce processo di conteggio una famiglia di variabili casuali {N (t ); t ≥ 0} a valori interi non negativi, ognuno dei quali conta il numero di “successi” o “arrivi” nell’intervallo temporale (0,t]. Per cui N(t) è un processo che gode delle seguenti proprietà: - N (t ) ≥ 0 ; - N(t) è a valori interi; - se s<t allora N ( s) ≤ N (t ) ; - per s<t, N(t)-N(s) è uguale al numero di eventi verificatisi nell’intervallo (s,t). Un processo stocastico di conteggio possiede incrementi indipendenti, se il numero di eventi che si verificano in intervalli di tempo disgiunti sono indipendenti; mentre possiede incrementi stazionari se la distribuzione del numero di eventi che si verificano in un intervallo di tempo dipende soltanto dalla lunghezza dell’intervallo, per cui il numero di eventi nell’intervallo (t1 + s, t 2 + s ) , cioè [N (t 2 + s ) − N (t1 + s )], ha la stessa distribuzione del numero di eventi in (t1 , t 2 ) , cioè [N (t 2 ) − N (t1 )]. Al processo di conteggio N(t) si può associare una successione di variabili casuali positive a valori reali {Tn ; n ∈ℵ} che sia strettamente crescente, ossia 0 < T1 < T2 < < Tn < , che indica il tempo di attesa per l’n-esimo arrivo. 8 Antonio Manno, [email protected], www.statistica.too.it Precisamente se N(t)=n, ossia nell’intervallo (0,t) si sono verificati n arrivi, allora Tn ≤ t ≤ Tn +1 , cioè il tempo di attesa per l’ennesimo arrivo è minore o uguale a t, mentre il tempo di attesa per l’(n+1)-esimo arrivo è maggiore o uguale a t. La successione {Tn ; n ∈ℵ} è detta processo di punto su ℜ + e Tn è l’n-esimo punto aleatorio del processo di punto. Il principale processo di punto è il processo di Poisson; il processo {Tn ; n ∈ℵ} si dice processo di Poisson omogeneo di intensità λ > 0 se e solo se il processo di conteggio associato {N (t ); t ≥ 0} verifica le seguenti condizioni: - ∀s, t ≥ 0 , [N (t + s ) − N (t ) ] è una variabile casuale di Poisson di media (λs ) , cioè Pr{N (t + s) − N (t ) = k } = e −λs ⋅ (λs )k ; k! - N(t) ha incrementi indipendenti; - N(0)=0. Dalle precedenti condizioni si nota che un processo di Poisson ha incrementi stazionari e che E (N (t ) ) = Var [N (t )] = λt . Se N(t) è un processo di Poisson di intensità λ , la distribuzione di Tn si ottiene osservando che {Tn ≤ t} ⇔ {N (t ) ≥ n} e si ricava quindi la distribuzione Erlangiana: f T (t ) = λe − λt n (λt )n −1 . (n − 1)! Per n=1 si ha la distribuzione esponenziale negativa. Il processo di Poisson non omogeneo, invece, è un processo stocastico nel quale λ è una funzione non negativa definita su ℜ + tale che ∫ λ (s )ds < ∞ , t o per t ≥ 0 ; ed N(t) è tale che: - ∀t1 ≤ t 2 N (t 2 ) − N (t1 ) è una variabile casuale di tipo Poisson con valor medio ∫ t2 t1 λ ( s)ds ; 9 Antonio Manno, [email protected], www.statistica.too.it - N(t) è un processo ad incrementi indipendenti. Tale processo è di intensità λ (t ) , per cui si ha: k t λ ( s)ds t ∫0 − ∫0 λ ( s ) ds . Pr{N (t ) = k }= e k! Si parla, invece, di processo di punto generale se dalle condizioni precedenti si toglie il vincolo degli incrementi indipendenti. Una generalizzazione consiste nel supporre che la probabilità che un evento si verifichi ad un dato istante di tempo dipenda dal numero di eventi che si sono già verificati, come nel caso delle “nascite” in una popolazione, poiché si pensa che dipendano dal numero di genitori. Assumendo N(0)=N, e che la popolazione iniziale sia soggetta a soli “arrivi”, il sistema delle equazioni che definisce il processo è: p N ' (t ) = −λ N p N (t ) p' j (t ) = −λ j p j (t ) + λ j −1 p j −1 (t ) per j=N+1,N+2,… con le condizioni iniziali p N (0) = 1 e p j (0) = 0 se j>N. Un processo che soddisfa tali equazioni è detto di pura nascita. Se λ N = Nλ il processo si dice di Yule-Furry e vale: j − 1 − λtN j− N ⋅ e ⋅ (1 − e − λt ) . p j (t ) = j − N Condizione necessaria e sufficiente affinché l’unica soluzione del sistema di equazioni di un processo di pura nascita sia una distribuzione di probabilità propria, ossia che ∑p j (t ) = 1 , è che la serie j tale serie converge allora risulta 1 ∑λ j ∑p j diverga. Se j (t ) < 1 , per cui con probabilità j 1 − ∑ p j (t ) la popolazione può superare in un intervallo finito di tempo j 10 Antonio Manno, [email protected], www.statistica.too.it qualunque livello finito, ossia il processo diverge e si registra il fenomeno “dell’esplosione”. Se invece si assume che nella popolazione si verifichino sia “partenze” che “arrivi”, cioè ingressi e uscite (nascite e morti) il sistema che definisce tale processo, detto di nascite e morti, si ottiene considerando anche un’intensità di uscite o morti, per cui: p' 0 (t ) = −λ 0 p 0 (t ) + µ1 p1 (t ) p' j (t ) = −(λ j + µ j ) p j (t ) + λ j −1 p j −1 (t ) + µ j +1 p j +1 (t ) con p N (0) = 1 e p j (0) = 0 se j ≠ N . 3. I processi di Markov Nell’ambito dei processi stocastici particolare attenzione meritano una classe di processi che prende il nome di processi markoviani. Considerando il caso di processi stocastici a parametro discreto, con T coincidente con l’insieme dei numeri naturali, per cui facendo esplicito riferimento ad una successione di variabili casuali {X n ; n ∈ℵ} indicizzate dal parametro n, un processo di Markov finito è caratterizzato da una particolare relazione di dipendenza: precisamente, qualunque sia l’intero n, qualunque siano i valori x j , xi , xi , , xi 1 n −1 nell’insieme delle loro possibili determinazioni {x1 , x 2 , , x N }, la distribuzione di X n +1 condizionatamente alla sua “storia” precedente, ossia all’insieme (X 1 , X 2 , , X n ) è uguale alla probabilità di X n +1 condizionatamente alla singola variabile X n , ossia vale la seguente relazione: { Pr X n +1 = x j X n = x i , X n −1 = x i1 , } , X 1 = xin −1 = Pr{X n +1 = x j X n = x i }. 11 Antonio Manno, [email protected], www.statistica.too.it La distribuzione di X al tempo 1 è detta distribuzione iniziale del processo; indicando con a1 (i ) = Pr{X 1 = xi }, con i=1,2,…,N, la distribuzione iniziale sarà indicata con il vettore a1 , che è composto da: a1 = (a1 (1), a1 (2 ), , a1 (N )) Le varie probabilità condizionate Pr{X n +1 = x j X n = xi }, ossia la generica probabilità che ha il sistema di passare dallo stato i al tempo n allo stato j al tempo (n+1), sono dette probabilità di transizione del sistema ed in generale dipendono dagli indici (i,j,n); se tale probabilità non dipende dal tempo n allora il processo è detto omogeneo, inteso come omogeneo nel tempo e si parla di catene markoviane omogenee. In questo caso si indicano tali probabilità con il parametro p ij , dove precisamente vale: p ij = Pr{X n +1 = x j X n = x i }. Poiché si stanno considerando processi finiti, con N stati, allora le probabilità {p ij } vengono raccolte in una matrice quadrata P di dimensioni (N × N ) , detta matrice stocastica di transizione: p11 p P = 21 p N1 p12 p 22 pN2 p1N p2N p NN I parametri {p ij }, essendo delle probabilità, devono soddisfare i seguenti vincoli: - p ij ≥ 0 per ogni coppia (i,j); - ∑p N j =1 ij = 1 per ogni i. In virtù della relazione che definisce un processo di Markov, si deduce che basta conoscere la distribuzione iniziale del sistema e la matrice stocastica di transizione, per conoscere la distribuzione dell’intero processo 12 Antonio Manno, [email protected], www.statistica.too.it stocastico. Vediamo, quindi, come ricavare da queste informazioni le varie distribuzioni del processo. Posto a 2 (k ) = Pr{X 2 = x k }, con k=1,2,…,N, tali probabilità sono ricavabili dalla relazione: a 2 (k ) = a1 (1) p1k + a1 (2 )p 2 k + + a1 (N ) p Nk in base al teorema di disintegrazione della probabilità di un evento, per cui considerando a 2 il vettore delle probabilità di X 2 , ossia a 2 = (a 2 (1),..., a 2 (N )) , esso può essere espresso nella seguente notazione matriciale: a 2 = a1 ⋅ P analogamente si può determinare la distribuzione di probabilità della variabile X al tempo 3 a 3 : a3 = a 2 ⋅ P N in cui i singoli termine del vettore sono determinati da: a 3 (k ) = ∑ a 2 (i ) p ik . i =1 Allo stesso modo si possono determinare le altre distribuzioni di probabilità di X ai vari istanti temporali. È però interessante studiare il comportamento delle probabilità di transizione in vari passi. Precisamente, se si indica con p ij( 2) la probabilità di transizione “in due colpi” ossia p ij( 2 ) = Pr{X n +2 = x j X n = x i }, si può verificare che tale valore è dato: N p ij( 2) = ∑ p ik p kj . k =1 Successivamente è possibile calcolare la probabilità di transizione in “tre colpi” ossia: N N k =1 k =1 p ij( 3) = ∑ p ik p kj( 2) = ∑ p ik( 2 ) p kj e indicando con ν un numero intero inferiore ad n, la probabilità di transizione di ordine n: 13 Antonio Manno, [email protected], www.statistica.too.it N p ij( n ) = ∑ p ik(ν ) p kj(n −ν ) . k =1 Queste equazioni sono dette relazioni di Chapman - Kolmogoroff. Se si raccolgono le probabilità di transizione del generico ordine n in una matrice, indicata con P (n ) , le relazioni precedenti possono essere scritte nella seguente forma matriciale: a 2 = a1 ⋅ P a 3 = a 2 ⋅ P = (a1 ⋅ P ) ⋅ P = a1 ⋅ P ( 2 ) ....................... a n = a1 ⋅ P ( n −1) ...................... Le distribuzioni congiunte a coppie, ossia Pr{X h = xi , X k = x j }, per ogni coppia k>h, sono ricavabili in virtù di semplici leggi di calcolo delle probabilità, per cui vale: Pr{X h = xi , X k = x j }= a h (i ) p ij( k − h ) . Le distribuzioni congiunte di tre o più variabili sono ricavabili considerando, iterativamente, la legge delle probabilità composte per eventi qualsiasi e non indipendenti, nella quale si fa un forte uso delle probabilità condizionate. 3.1 Classificazione e ordinamento degli stati Nella sezione precedente si è notato come lo studio di catena markoviana sia ricondotto allo studio della matrice di transizione P ed alle sue potenze, che esprimono le probabilità di transizione di ordine n. Se l’insieme degli N stati possibili è indicato con S, considerando due generici stati i e j, si dice che lo stato i comunica con lo stato j se esiste un 14 Antonio Manno, [email protected], www.statistica.too.it intero n tale che p ij( n ) > 0 , ossia se è possibile che il sistema passi dallo stato i allo stato j, in un numero qualsiasi di “colpi”. Se i comunica con j si scriverà iΓj , dove il simbolo Γ indica la relazione di comunicatività. Per convenzione si pone p ii(0 ) = 1 , in modo che ogni stato i comunichi con se stesso, per cui vale iΓi . L’evento certo può essere partizionato in quattro eventi: - (iΓj ) ( jΓi ) - (iΓj ) ( jΓi ) - (iΓj ) ( jΓi ) - (iΓj ) ( jΓi ) . Dove l’evento (A) rappresenta la negazione dell’evento (A). Considerando il primo evento, in base al quale i comunica con j e j comunica con i, si definisce con T tale relazione di “bi-comunicatività” fra i due stati, ossia: iTj = (iΓj ) ( jΓi ) . Godendo delle proprietà riflessiva, simmetrica e transitiva, la relazione T è una relazione di equivalenza, per cui è possibile classificare i vari stati del sistema in classi di equivalenza; tutti gli stati equivalenti allo stato i apparterranno alla stessa classe di equivalenza, che denotiamo con [i]. In generale l’insieme degli stati S sarà decomposto in varie classi [i1 ], [i2 ],..., [i k ]; considerando due diversi classi di equivalenza [i a ] e [ib ], può accadere che uno stato della prima classe possa comunicare con uno stato della seconda classe, in tal caso tutti gli stati della prima classe comunicheranno con gli elementi della seconda classe, ma ovviamente non è possibile il viceversa, perché altrimenti gli stati delle due classi apparterrebbero ad un' unica classe di equivalenza. Se si verifica una tale situazione, allora si dirà che [ib ] è una classe inferiore alla [i a ] , in tal modo, 15 Antonio Manno, [email protected], www.statistica.too.it pertanto, si stabilisce un ordinamento parziale tra le classi di equivalenza; una classe è detta massima se non è inferiore a nessun altra, mentre è detta minima se nessuna classe è inferiore a questa. Quanto scritto sopra, corrisponde ad affermare che una classe di equivalenza è massima se nessuno dei suoi stati può essere raggiunto da stati di altre classi, mentre è minima se nessuno dei suoi stati può raggiungere stati di altre classi. Considerando catene finite, ossia con un numero di stati N finito, queste avranno sempre una classe minima ed una massima; le classi minime vengono dette ergodiche, se tale classe si riduce ad un solo stato allora questo è detto stato assorbente. Le classi non ergodiche sono dette di passaggio e lo stesso nome viene attribuito agli stati che le compongono. Individuate le classi di equivalenza è conveniente riordinare gli stati, in modo che stati appartenenti a classi di ordine inferiore vengano posizionati prima rispetto a stati delle altre classi; in questa maniera si ottiene una forma particolare della matrice stocastica di transizione, detta canonica. La forma canonica della matrice stocastica di transizione è del tipo: P1 R2 P = R3 R4 R 5 0 P2 R3 R4 R5 0 0 P3 R4 R5 P4 R5 0 0 0 0 P5 Gli elementi appartenenti al triangolo superiore della matrice sono tutti nulli e indicano stati non comunicanti. Le sub-matrici quadrate indicate con il simbolo Pi sono le matrici di transizione corrispondenti alle classi di equivalenza [i], le sub-matrici Ri possono avere valori tutti nulli, se la classe [i] è ergodica, oppure no. Se la matrice Ri è una matrice con tutti valori nulli, allora anche la matrice Ri −1 ha tutti valori nulli. 16 Antonio Manno, [email protected], www.statistica.too.it Le potenze n-esime della matrice P espressa in forma canonica, sono matrici aventi la stessa struttura. 3.2 Problemi di assorbimento Lo studio del comportamento della matrice P (n ) al variare di n, consente di capire il comportamento asintotico del processo. Da un punto di vista intuitivo, si capisce che in un sistema finito si finirà ad un certo punto in una classe ergodica, per cui da quel momento in poi il sistema “salterà” da uno stato all’altro di tale classe, senza più giungere in uno stato di altre classi, si dice in tal caso che il sistema viene assorbito, e risulta interessante studiare la probabilità ed i tempi medi di attesa del sistema in classi ergodiche. In ogni catena finita, quindi, la probabilità che il sistema raggiunga in un numero finito di colpi una classe ergodica è pari ad 1, ossia è certo. Indicando con g k [ j ] la probabilità che il sistema sia assorbito prima o poi nella classe [j] a partire da un qualsiasi stato di passaggio k e con g k(n[ )j ] la probabilità che l’assorbimento avvenga esattamente all’n-esimo colpo, si ha che: ∞ ∑ g [ ] = g [ ] ≤1 n =1 (n) k j k j dove l’uguaglianza si ha qualora esista una sola classe ergodica e questa sia proprio [j]; indicando con τ l’insieme degli stati di passaggio, valgono inoltre le seguenti uguaglianze: g k(1[)j ] = ∑ p kl l∈[ j ] g k( n[ +j ]1) = ∑ p ki g i([nj)] i∈τ 17 Antonio Manno, [email protected], www.statistica.too.it Combinando le due precedenti equazioni, in maniera iterativa, si perviene ad un sistema di equazioni lineari, la cui soluzione fornisce le probabilità di assorbimento nella classe [j], precisamente, considerando un qualsiasi stato di passaggio k: g k [ j ] = ∑ p ki g i [ j ] + i∈τ ∑p l∈[ j ] kl . Trovata la probabilità di assorbimento nella classe [j]del sistema, partendo da un generico stato di passaggio k, è interessante calcolare il tempo medio di attesa affinché tale fenomeno si verifichi. A tal fine, si indichi con Tk la variabile casuale che esprime il tempo di attesa per l’assorbimento del sistema in una classe ergodica a partire dallo stato di passaggio k; considerando una coppia generica (i,k) di stati di passaggio, si ha che il numero medio delle volte in cui il sistema, uscendo da k, passa allo stato i , in un qualsiasi numero di passi, indicato con il simbolo m ki è: ∞ m ki = ∑ p ki( n ) < ∞ n =0 generalizzando tale numero medio all’insieme degli stati di passaggio τ , si trova che, uscendo da k, il tempo medio di permanenza nell’insieme τ , ossia E (Tk ) , è pari a ∑m i∈τ ki . 3.3 Catene ergodiche Nella sezione precedente si è osservato che, non appena il sistema giunge in una classe ergodica, vi rimarrà definitivamente, per cui non potrà più pervenire in stati appartenenti ad altre classi di equivalenza. Considerando una classe ergodica, la sub-matrice di transizione relativa a tale classe, 18 Antonio Manno, [email protected], www.statistica.too.it indicata per convenzione con P, è di tipo stocastico, per cui lo studio di una classe ergodica di stati, corrisponde allo studio di una catena ergodica. Una catena ergodica è detta regolare se esiste un numero intero n 0 tale che per valori di n maggiori di esso, ossia per n ≥ n0 , tutti gli elementi p ij(n ) relativi alla potenza n-esima della sua matrice di transizione P risultino positivi, ossia se si verifica che ogni stato della classe è raggiungibile a partire da tutti gli altri stati, in un numero finito di colpi e, a partire da un valore abbastanza grande n 0 , ciò si verifichi in ogni istante in cui si considera il sistema. Se si considera una catena regolare, un risultato molto importante è fornito dal teorema di Markov, secondo il quale la potenza nesima della matrice di transizione, ossia P (n ) , converge, per n che diverge, ad una matrice stocastica U che ha tutti gli elementi strettamente positivi e le righe tutte uguali; in termini formali, vale: lim p ij( n ) = u j > 0 ∀j = 1,2,..., N . n→∞ La probabilità asintotica di appartenenza al generico strato j è espressa dal valore u j e ciò evidenzia come il sistema ammetta una distribuzione asintotica u indipendente dalla distribuzione iniziale, con u = (u1 , u 2 ,..., u N ) che soddisfa l’equazione: u =u⋅P. La determinazione numerica del vettore u delle probabilità di appartenenza asintotiche è ottenuta risolvendo il sistema di equazioni seguente: N = u j ∑ u i p ij i= N 1 ∑ ui = 1 i =1 j = 1,2,..., N Un’importante proprietà di cui gode la distribuzione limite u è che essa è stazionaria ed è l’unica distribuzione stazionaria del processo. In relazione 19 Antonio Manno, [email protected], www.statistica.too.it ad una catena markoviana, si dice che una distribuzione di probabilità v è stazionaria, se soddisfa la relazione: v = v ⋅ P (n ) . Una catena regolare, inoltre, è un processo stocastico stazionario in senso forte, poiché la distribuzione congiunta di qualsiasi numero di variabili del processo non varia effettuando una traslazione rispetto al tempo, cioè qualunque sia l’intero h e la traslazione temporale t, la distribuzione congiunta di (X n , X n ,..., X n ) e quella di (X n + t , X n + t ,..., X n 1 2 h 1 2 h +t ) è la medesima. Le probabilità asintotiche u hanno un’ulteriore proprietà; infatti il valore 1 rappresenta il tempo medio di ritorno nello stato j. uj S n ( j ) che indica il numero relativo di volte in n Considerando il processo cui il processo {X n } si trova nello stato j, considerandolo in funzione di n, qualunque sia la distribuzione iniziale a1 tale processo converge in probabilità verso u j , in altri termini il valor medio della percentuale di tempo in cui il sistema si trova nello stato j è asintoticamente uguale a u j : tale risultato è noto in letteratura come teorema ergodico. Inoltre, se var[S n ( j )] = c j , con c j costante reale diversa da zero, qualunque sia la n→∞ n lim S ( j ) − nu j distribuzione iniziale del processo, la successione n converge in nc j distribuzione ad una normale standardizzata: tale proprietà è denominata teorema centrale del limite per le catene markoviane regolari. 3.4 Catene ergodiche cicliche 20 Antonio Manno, [email protected], www.statistica.too.it Considerando una catena markoviana, la probabilità p ii(n ) esprime la probabilità che il sistema uscente dallo stato i vi ritorni esattamente dopo n colpi. Si ipotizzi che tale probabilità sia positiva soltanto per valori n multipli di un certo intero d ' i , ossia: p ii( n ) = 0 se n non è multiplo di d ' i , p ii( n ) ≥ 0 se n è multiplo di d ' i . Ciò si verifica ovviamente per d ' i = 1 ; se ciò si dovesse verificare solo per tale valore di d ' i , allora lo stato i è detto aperiodico, viceversa se esistono altri valori di d ' i per cui tale proprietà è soddisfatta allora lo stato i è detto periodico ed il numero intero massimo fra quelli che soddisfano la precedente proprietà, indicato con d i è detto periodo dello stato i. In una classe di equivalenza è stato dimostrato che tutti gli stati hanno lo stesso periodo oppure sono tutti aperiodici, per cui in una classe di equivalenza che contiene gli stati i e j, si avrà che d i = d j = d e si dirà che d è il periodo della classe e che la classe è ciclica di periodo d. Se tutti gli stati della classe sono aperiodici, ossia d=1, allora la classe è detta aperiodica. Prendendo in considerazione classi ergodiche cicliche di periodo d, è stato dimostrato che la classe può essere decomposta in d sottoclassi distinte, indicate con C1 , C 2 ,..., C d , che godono della seguente proprietà: - se il sistema è in uno stato di C h , con h=1,2,…,d, allora passerà in un solo colpo in uno stato di C h +1 ; - se il sistema si trova nella sottoclasse C d , nel colpo successivo passerà nella sottoclasse C1 . In una catena ciclica, le potenze successive di una matrice di transizione non possono presentare mai tutti gli elementi positivi, ma ci saranno alcuni 21 Antonio Manno, [email protected], www.statistica.too.it valori nulli; se si considera un indice l tale che 0 ≤ l < d , allora si può dimostrare che: i ∈ Ch e u > 0 se lim p ij( nd + l ) = j n→∞ altrimenti 0 j ∈ C h +1 nel caso particolare in cui l=0, si ottiene che: u > 0 se i, j ∈ C h lim p ij( nd ) = j n→∞ altrimenti 0 Quanto mostrato implica che la successione delle potenze della matrice di transizione P, ossia {P (n ) }, di una catena ciclica non converge. Se si considera la successione delle medie aritmetiche, ossia 1 ( P + P ( 2) + ... + P ( n ) ), questa risulta convergente e la sua matrice limite ha n tutte le componenti positive e tutte le righe uguali. Se converge la successione delle medie aritmetiche, si dice che la successione converge alla Cesaro. Volendo studiare il comportamento asintotico di una generica catena markoviana, ossia volendone studiare la distribuzione a n = a1 ⋅ P ( n −1) per n che diverge, si può affermare che qualora la catena sia regolare o contiene una sola classe ergodica e questa è aperiodica, allora esiste una distribuzione limite u indipendente dalle condizioni iniziali del sistema. Tale vettore ha tutte le componenti positive nel primo caso, mentre sono positive soltanto le componenti relative a stati ergodici nel secondo caso. In assenza di classi ergodiche cicliche esiste la distribuzione limite, ma qualora siano presenti più classi ergodiche essa dipende dalla distribuzione iniziale ed in particolare risulta: lim p ij( n ) = g i [ j ]u j n→∞ dove lo stato i è di passaggio, mentre lo stato j è ergodico e con g i [ j ] che rappresenta la probabilità che il sistema uscendo dallo stato i venga 22 Antonio Manno, [email protected], www.statistica.too.it assorbito nella classe [j]. In tale situazione occorre considerare le probabilità che il sistema sia inizialmente allo stato i, ossia a1 (i ) . Se la catena è ciclica oppure contiene una sola classe ergodica ciclica, si ha una distribuzione limite indipendente dalla distribuzione iniziale qualora si considera un limite alla Cesaro, ossia la convergenza della successione delle medie aritmetiche. Il ritorno ad uno stato i in una catena markoviana è un evento “ricorrente”, che è certo se i è ergodico, mentre può non esserlo se è invece uno stato di passaggio. Il ritorno nello stato i è un evento ricorrente anche se inizialmente il sistema si trova in uno stato j diverso e i è raggiungibile da j, si parla al riguardo di “evento ricorrente ritardato”. È interessante notare come lo studio delle proprietà di un processo markoviano sia conducibile attraverso l’analisi degli autovalori {λ i }iN=1 della matrice stocastica di transizione P. In generale risulta che essi sono, in modulo, minori o uguali all’unità, qualora esista un unico autovalore pari all’unità allora si può osservare che esiste una distribuzione limite, che non dipende dalle condizioni iniziali del sistema, con componenti che possono essere tutte positive. Se esiste solo un autovalore che in modulo è pari all’unità, allora la catena ammette una sola classe ergodica, se invece esistono r autovalori che in modulo sono pari ad uno, allora la catena presenta r classi ergodiche regolari. 3.5 Catene markoviane con un’infinita numerabile di stati Supponiamo, adesso, che l’insieme S degli stati di una catena markoviana non sia finito, ma che presenti una cardinalità del numerabile. Come per le 23 Antonio Manno, [email protected], www.statistica.too.it catene finite, è possibile considerare le relazioni di comunicatività e “bicomunicatività” fra gli stati del sistema e quindi raggruppare gli stati in classi di equivalenza. Mentre nelle catene finite è sempre presente una classe minima ed una massima, in questo caso ciò non è detto che si verifichi. Ad esempio, potrebbe verificarsi che tutte le classi siano di passaggio e quindi siano di passaggio tutti gli stati; si aggiunga che in una classe minima, ammesso che esista, il ritorno in uno stato può non essere un evento certo e pure qualora sia certo, non è detto che il suo tempo medio sia finito. Per tali ragioni, nel caso di catene con un’infinità numerabile di stati, è conveniente operare una classificazione degli stessi basata sul carattere della ricorrenza o del ritorno. Si diranno, quindi, persistenti quegli stati per i quali il ritorno è certo e, a seconda che il suo tempo medio sia finito o meno, vengono detti ergodici o nulli. Gli stati per i quali, invece, il ritorno non è certo vengono definiti transitori e tali stati vengono abbandonati dal sistema con probabilità pari ad uno, in analogia agli stati di passaggio delle catene finite. Considerando una catena costituente un’unica classe di equivalenza, detta irriducibile, si nota che tutti i suoi stati apparterranno ad uno ed uno solo dei tre tipi sopra definiti. 3.6 Introduzione alle catene markoviane finite a parametro continuo Un processo {X t ; t ∈ T } nel quale le variabili casuali della famiglia sono discrete, ma con l’insieme T continuo, è detto processo markoviano discreto a parametro continuo se per ogni numero intero n, 24 Antonio Manno, [email protected], www.statistica.too.it ∀ t1 < t 2 < < t n < t n +1 in T e per ogni determinazione x j , x i , x i1 ,..., x in −1 delle variabili casuali del processo vale la seguente relazione: { } { } Pr X t n +1 = x j X t n = x i , X t n −1 = x i1 ,..., X t1 = x in −1 = Pr X t n +1 = x j X t n = x i . Ponendo pij (tn , t n +1 ) = Pr{X t = x j X t = xi }, se tale probabilità oltre gli indici n +1 n (i,j) dipende esclusivamente dalla differenza temporale (t n +1 − t n ) , il processo in questione viene detto omogeneo. Si ipotizzi che tale processo sia discreto e finito, per cui esistono solo un numero finito di stati N, si parla dunque di catena markoviana. La distribuzione iniziale del sistema è a(0 ) = (a1 (0 ),..., a N (0 )) , in cui il generico termine i ha il seguente significato: a i (0 ) = Pr{X 0 = x i }; la matrice di transizione al tempo t, detta funzione di transizione, è: p11 (t ) p (t ) P (t ) = 21 p (t ) N1 p1N (t ) p2 N (t ) pNN (t ) dove il generico termine vale p ij (t ) = Pr{X t = x j X 0 = xi } e dove valgono i seguenti vincoli: p ij (t ) ≥ 0 ∀i, j , t N p (t ) = 1 ∀t ij ∑ j =1 Le relazioni di Chapman – Kolmogorov sono adesso: N p ij (t + s ) = ∑ p ik (t ) p kj (s ) k =1 1 se i = j 0 se i ≠ j con p ii (0) = δ ij = Il vettore a(t ) che contiene le probabilità di appartenenza agli N stati al tempo t è quindi determinato da: 25 Antonio Manno, [email protected], www.statistica.too.it a (t ) = a (0 ) ⋅ P(t ) . Come nel caso di catene discrete, se esiste un valore t 0 tale che per ogni t ≥ t 0 e per ogni coppia (i,j) risulti p ij (t ) > 0 , allora la matrice P(t), per t che diverge, converge verso una matrice avente tutte le righe uguali, si verifica cioè che: lim p ij (t ) = u j > 0 . t →∞ La distribuzione asintotica {u j }, anche in questo caso, non dipende dalla distribuzione iniziale del processo ed è una distribuzione stazionaria. 26