UNIVERSITÀ DEGLI STUDI DI ROMA LA SAPIENZA FACOLTÀ DI SCIENZE MATEMATICHE FISICHE E NATURALI TESI DI LAUREA IN FISICA Approcci algebrici ai sistemi di particelle interagenti: il caso del processo di esclusione semplice Relatori: Prof. Giovanni Jona-Lasinio Prof. Marco Isopi Laureando: Luca De Sanctis Anno Accademico 1998-1999 TESINE DISUGUAGLIANZE DI BELL IN MECCANICA QUANTISTICA Prof. Massimo Testa RICONOSCIMENTO DI TESTI SCRITTI IN CRITTOGRAFIA Prof.ssa Lucia Zanello 1 ad Antonella e ai miei genitori 2 Indice Introduzione 6 1 Catene di Markov 1.1 Catene di Markov a tempo discreto . . . . 1.1.1 classificazione e proprietà ergodiche 1.1.2 entropia e teoremi fondamentali . . 1.2 Catene di Markov a tempo continuo . . . . 1.3 Generatore ed equazioni di Kolmogorov . . 1.4 Misure invarianti, processo aggiunto . . . . . . . . . . . . . . . . . . . . . . 11 12 16 19 20 22 24 2 Sistemi di particelle interagenti e processo di esclusione 2.1 I processi . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 misure invarianti . . . . . . . . . . . . . . . . . . . 2.1.2 misure reversibili . . . . . . . . . . . . . . . . . . . 2.1.3 monotonia e coupling . . . . . . . . . . . . . . . . . 2.1.4 dualità . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.5 ergodicità . . . . . . . . . . . . . . . . . . . . . . . 2.2 I sistemi interagenti principali . . . . . . . . . . . . . . . . 2.2.1 particelle libere . . . . . . . . . . . . . . . . . . . . 2.2.2 processi di interazione a contatto (zero range) . . . 2.2.3 modello di Ising stocastico . . . . . . . . . . . . . . 2.2.4 modello elettorale . . . . . . . . . . . . . . . . . . . 2.3 Processi di interazione di sfere dure o di esclusione . . . . . 2.3.1 misure invarianti . . . . . . . . . . . . . . . . . . . 2.3.2 sistema simmetrico . . . . . . . . . . . . . . . . . . 2.3.3 sistema invariante per traslazioni . . . . . . . . . . 2.3.4 il processo asimmetrico e diagramma delle fasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 29 31 32 33 33 34 35 35 36 39 40 41 43 43 45 45 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Il formalismo hamiltoniano quantistico 47 3.1 Formalismo quantistico per l’equazione del moto . . . . . . . . 48 3.1.1 la master equation . . . . . . . . . . . . . . . . . . . . 49 3 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.1.2 valori di attesa . . . . . . . . . . . . . . . . . . . . . 3.1.3 sistemi a molti corpi . . . . . . . . . . . . . . . . . . Simmetrie della catena di Heisenberg . . . . . . . . . . . . . Comportamento asintotico . . . . . . . . . . . . . . . . . . . Equivalenza ed enantiodromia . . . . . . . . . . . . . . . . . 3.4.1 relazione tra sistemi stocastici quantistici e sistemi di particelle interagenti classici . . . . . . . . . . . . . . Processo simmetrico . . . . . . . . . . . . . . . . . . . . . . 3.5.1 simmetria e stati stazionari . . . . . . . . . . . . . . 3.5.2 equivalenze e dinamica fuori dall’equilibrio . . . . . . Processo parzialmente asimmetrico . . . . . . . . . . . . . . 3.6.1 stati stazionari e autodualità . . . . . . . . . . . . . . 3.6.2 sistema periodico . . . . . . . . . . . . . . . . . . . . Fermionizzazione . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 trasformazione di Jordan-Wigner . . . . . . . . . . . Diagonalizzazione parziale . . . . . . . . . . . . . . . . . . . 4 Il formalismo matriciale 4.1 Approccio matriciale e stato stazionario . 4.2 Proprietà delle matrici . . . . . . . . . . 4.3 Le funzioni di correlazione e partizione . 4.4 Corrente e diagramma delle fasi . . . . . 4.5 Misura limite: il profilo di densità . . . . 4.6 Il formalismo tensoriale . . . . . . . . . . 4.7 La dinamica fuori dall’equilibrio . . . . . 4.8 Altre proprietà delle matrici . . . . . . . 4.9 Il caso periodico . . . . . . . . . . . . . . 4.10 Legame con il formalismo hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 54 57 58 61 . . . . . . . . . . 62 64 65 66 68 69 73 75 76 79 . . . . . . . . . . 84 86 90 95 97 98 100 102 107 108 112 Conclusioni 118 Appendici 119 A Elementi di teoria di probabilità A.1 Spazio di probabilità . . . . . . . . A.1.1 spazio finito . . . . . . . . . A.1.2 spazio generico . . . . . . . A.2 Variabili casuali . . . . . . . . . . . A.2.1 nozioni di convergenza . . . A.2.2 probabilità e valori aspettati A.2.3 teoremi limite . . . . . . . . 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . condizionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 . 120 . 120 . 123 . 125 . 126 . 129 . 132 B Elementi di probabilità algebrica 133 B.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 B.2 Sistemi a due livelli . . . . . . . . . . . . . . . . . . . . . . . . 137 C Dimostrazioni omesse nel capitolo 4 C.1 dimostrazione del teorema 4.1.1 . . . C.2 dimostrazione del teorema 4.2.1 . . . C.3 dimostrazione della proposizione 4.3.1 C.4 dimostrazione del lemma 4.3.1 . . . . C.5 dimostrazione del teorema 4.5.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 . 141 . 142 . 144 . 146 . 147 Ringraziamenti 151 Bibliografia 152 5 Introduzione Lo studio dei sistemi di particelle su reticolo, come modello matematico per la meccanica statistica fuori dall’equilibrio, inizia nel 1963 con il lavoro di Glauber ([26]) che introduce, con riferimento al modello di Ising unidimensionale, la dinamica che porta il suo nome. Si tratta di una dinamica di spin-flip che ha come misura stazionaria lo stato di Gibbs. Un esempio diverso è quello della dinamica di Kawasaki ([3]) che è invece una dinamica di scambio del contenuto di due siti (spin exchange). Anche per questa la misura invariante è quella di Gibbs, ma a magnetizzazione fissata; le proprietà di equilibrio sono quindi meglio descritte nel formalismo microcanonico. Se si passa dall’interpretazione ferromagnetica del modello a quella di gas su reticolo, le variabili di sito assumono il significato di un numero di occupazione e il formalismo microcanonico dell’interpretazione come ferromagnete diventa ora un formalismo canonico. Quest’ultima interpretazione è quella che adotteremo nella tesi. Come caso particolare della dinamica di Kawasaki, a temperatura infinita, si ottiene il cosiddetto processo di esclusione semplice (il generatore di Kawasaki a temperatura infinita è una funzione lineare di quello del processo di esclusione, pertanto dà luogo alla stessa dinamica, a parte un fattore di scala della variabile temporale). Le particelle sono libere di muoversi sul reticolo, soggette unicamente al vincolo che un singolo sito non può essere occupato da più di una particella. Buona parte dello studio del comportamento dinamico dei sistemi di particelle consiste nello studio delle proprietà del generatore della dinamica. Proprio con riguardo al processo di esclusione semplice, Thomas ([57]) è stato uno dei primi a notare l’equivalenza del generatore con l’hamiltoniana del modello di Heisenberg. Negli anni seguenti questa equivalenza è stata notata più o meno indipendentemente da altri autori che hanno utilizzato tecniche della meccanica statistica quantistica dell’equilibrio per trattare problemi di meccanica statistica classica fuori dall’equilibrio. Questa connessione non è ristretta al processo di esclusione semplice, ma si può fare anche per la dinamica di Glauber, ([40], [42], [25]) per le 6 passeggiate aleatorie annichilanti e coalescenti ([56]), etc.. L’idea fondamentale è la seguente: il generatore della dinamica viene visto come l’hamiltoniana di un sistema quantistico e il semigruppo di evoluzione temporale per il sistema classico assume il ruolo di misura di Gibbs per il sistema quantistico. Più precisamente pensiamo alla misura di Gibbs per il sistema classico come lo stato fondamentale del sistema quantistico; i sottospazi associati agli autovalori del generatore diventano gli stati eccitati del sistema quantistico e il tempo diventa il parametro di accoppiamento (temperatura inversa). Possiamo quindi pensare al rilassamento verso l’equilibrio per il sistema di particelle come al raffreddamento adiabatico del sistema quantistico (che rimane sempre all’equilibrio). Bisogna comunque fare attenzione a non spingere l’analogia troppo oltre. Ad esempio non è chiaro in cosa si traducano le condizioni iniziali nella nuova interpretazione. Abbiamo deciso di chiamare “formalismo hamiltoniano” questa descrizione dei sistemi di particelle ([48]). Negli ultimi anni questo approccio si è rivelato molto utile per derivare soluzioni esatte, proprietà del rilassamento all’equilibrio, relazioni di dualità, etc.. I lavori pubblicati sinora appaiono quasi tutti indipendenti. Spesso gli autori non sembrano consapevoli che la scoperta dell’equivalenza formale tra il generatore e un’hamiltoniana quantistica è stata fatta anche da altri. La prima trattazione con elementi di sistematicità è probabilmente quella recente di Schütz ([49]). Vogliamo infine ricordare che un’equivalenza simile è stata sfruttata nella direzione opposta da De Angelis et. al. [9], [10]. Più di recente un altro approccio di “aspetto quantistico” è stato introdotto da Derrida per lo studio del processo di esclusione semplice. Nel primo lavoro, che risale al 1993, Derrida introduce una prescrizione per calcolare le probabilità congiunte nel processo di esclusione semplice totalmente asimmetrico unidimensionale allo stato stazionario. Si tratta di una ricetta particolarmente semplice. Considerate due matrici D ed E, per una determinata configurazione in reticolo di N siti, si costruisce un prodotto ordinato con D al k-esimo posto se il sito k è pieno, E se è vuoto. Dopo un’opportuna normalizzazione, il valore che si ottiene dal bracket con vettori di stato associati alle condizioni al bordo fornisce la probabilità di quella configurazione: N Y 1 hW | [τj D + (1 − τj )E]|V i, PN (τ1 , ..., τN ) = ZN j=1 se τi è il numero di occupazione del sito i. 7 La dimostrazione che questi prodotti forniscono le quantità cercate viene fatta verificando che questi soddisfano le relazioni di ricorsione per le probabilità congiunte. Dal punto di vista computazionale questo può ritenersi soddisfacente, tuttavia rimane misterioso il percorso logico che porta a questa formulazione. Inoltre sembra naturale chiedersi quale relazione vi sia tra questa tecnica e il formalismo hamiltoniano, dato che si tratta in entrambi i casi di approcci evidentemente ispirati dalla meccanica quantistica. Uno degli scopi principali della presente tesi è quello di stabilire il legame tra i due formalismi. Per raggiungere tale scopo è intanto necessario richiamare nozioni di base necessarie per avvicinarsi allo studio dei sistemi di particelle interagenti e per seguire questo lavoro. Poi abbiamo descritto il formalismo hamiltoniano, riportando i principali risultati di natura algebrica relativi al processo di esclusione, accennando al legame con il formalismo standard (descritto nel capitolo 2) e gettando le basi per la connessione con il formalismo matriciale. Quest’ultimo è presentato nell’ultimo capitolo assieme ai principali risultati noti relativi alla sua costruzione e al suo utilizzo, cosı̀ da poter finalmente chiarire il legame con l’approccio hamiltoniano. L’altro obiettivo che ci siamo posti è fornire una visione d’insieme dei sistemi di particelle interagenti attraverso i diversi formalismi. Questo è a nostro avviso necessario perché i nuovi approcci di natura algebrica non sono ancora stati esposti sistematicamente. In particolare quello matriciale è nella letteratura presentato ancora in modo “misterioso” e lontano da quello hamiltoniano. In questo senso ci è sembrato utile sforzarci di “mettere ordine” in questa materia cosı̀ recente. Nel tentativo di dare al lettore la possibilità di acquisire un minimo di familiarità con i formalismi, e più in generale con i metodi algebrici (scopo dichiarato nel titolo), abbiamo ritenuto opportuno discutere anche argomenti legati al calcolo delle grandezze fisiche fondamentali, ma non essenziali dal punto di vista formale per definire i vari formalismi e trovarne le analogie. Questo è stato fatto nel cap. 3, mostrando come si trovano gli stati stazionari del processo di esclusione, e come il calcolo delle funzioni di correlazione sia semplificato dalle relazioni di dualità, che si trovano traducendo il concetto di dualità in un linguaggio algebrico da usare assieme al formalismo hamiltoniano. Inoltre, visto che il processo che abbiamo preso in esame è il processo di esclusione, ci è sembrato istruttivo descriverne alcune proprietà di base come gli stati stazionari, le funzioni di correlazione e il diagramma delle fasi (nel cap. 4, attraverso il formalismo matriciale); anche perché è utile mostrare come si possano applicare i formalismi introdotti. Per queste scelte appena elencate, crediamo che parte dell’originalità di questo lavoro consista anche nella sua impostazione generale. Più in dettaglio la tesi è strutturata come segue. Nel capitolo 1 diamo una breve introduzione alle catene di Markov, sia a 8 tempo discreto che a tempo continuo. I sistemi di particelle interagenti sono infatti processi stocastici che ricadono nell’ambito delle catene di Markov, più spesso a tempo continuo. La prima parte del capitolo descrive le catene di Markov a tempo discreto, nella seconda si generalizza a tempi continui. In entrambi i casi è stata riservata particolare attenzione alla dinamica delle catene descritta dalle equazioni di Chapmann-Kolmogorov, che nella veste hamiltoniana sono alla base di quasi tutto il nostro lavoro. Sono anche riportati alcuni teoremi ergodici utili a capire delle proprietà di equilibrio delle catene di Markov. Nel capitolo 2 viene fornita un’introduzione ai sistemi di particelle interagenti, descritti nella loro formulazione usuale. Vengono inoltre definiti alcuni importanti concetti generali, come la dualità, la monotonia, il coupling. Questi concetti vengono poi ripresi nei successivi capitoli in una veste più algebrica che meglio si sposa con gli approcci (algebrici) utilizzati e ne mette in luce la comodità. In particolare la dualità è usata nel cap. 3, la monotonia e il coupling servono nella dimostrazione di un importante teorema del cap. 4. Segue un accenno ai più studiati sistemi interagenti, con uno spazio più ampio per il processo di esclusione. Di quest’ultimo riportiamo alcune proprietà note per poterle confrontare con quelle che saranno ottenute con altri metodi nei successivi capitoli. Nel capitolo 3 si descrive il formalismo hamiltoniano. Dopo una presentazione generale degli strumenti di base, si ricavano in questo contesto i generatori del processo di esclusione simmetrico e parzialmente asimmetrico, in modo da poterli confrontare con quelli scritti nel formalismo usuale del cap. 2 e nel formalismo matriciale del cap. 4. Al fine di mostrare l’utilità di un’impostazione algebrica dello studio dei sistemi interagenti, mostriamo come i gruppi di simmetria dei processi possono essere usati assieme ai concetti di equivalenza ed enantiodromia per ricavare relazioni di dualità utili nel calcolo delle funzioni di correlazione. L’ultimo paragrafo è dedicato all’utilizzo della trasformazione di Jordan-Wigner per trattare il generatore del processo di esclusione semplice simmetrico. Si tratta di lavoro originale ancora in corso di completamento. Il generatore viene scritto in termini di variabili anticommutanti e parzialmente diagonalizzato con la tecnica usata per diagonalizzare forme di Fermi. Alcuni esperimenti numerici preliminari suggeriscono che i termini non diagonali dovrebbero essere controllati dai termini diagonali. Crediamo che questo possa fornire utili diseguaglianze per gli autovalori. Il capitolo 4 è dedicato agli stati prodotto di matrici e alla loro generalizzazione per osservabili dipendenti dal tempo. La trattazione mira a spiegare questo nuovo approccio algebrico e spiegarne il legame con il formalismo hamiltoniano. Inizialmente presentiamo il contributo di Derrida e collabo9 ratori per il processo di esclusione allo stato stazionario, che ha costituito il punto di partenza da cui è stato sviluppato l’approccio. Diamo poi una breve descrizione del calcolo delle funzioni di correlazione e della costruzione del diagramma delle fasi. La derivazione del profilo di densità è diversa da quanto apparso in letteratura. Per preparare poi la connessione tra i due formalismi algebrici, presentiamo una notazione spinoriale anche per l’approccio matriciale, attraverso l’introduzione di uno spazio ausiliario negli spinori del formalismo hamiltoniano. Successivamente discutiamo l’estensione del metodo al calcolo di funzioni di correlazione al di fuori dello stato stazionario e diamo alcuni risultati nuovi sulla rappresentazione dell’algebra che si utilizza in questo caso. Il resto del capitolo è un contributo originale ed è dedicato a una derivazione della costruzione di Derrida con le sue generalizzazioni al caso non stazionario. Dalla scrittura del generatore nel formalismo hamiltoniano si passa innanzitutto alla master equation. Lo spazio ausiliario introdotto per le componenti degli spinori, permette a questo punto di notare con una semplice osservazione che il bracket che fornisce le funzioni di correlazione si riduce a un insieme di prodotti ordinari di matrici. Eguagliando a zero le derivate temporali si ottengono le formule di Derrida. Usando questo approccio diamo anche le formule per il calcolo delle funzioni di correlazione fuori dall’equilibrio con condizioni al contorno periodiche. Nell’appendice A abbiamo richiamato le nozioni più elementari della teoria della probabilità, per consentire la lettura della tesi anche a un lettore totalmente digiuno di tali concetti. L’appendice B riporta una breve discussione del legame tra la teoria della probabilità “letta” nel formalismo hamiltoniano, e quella descritta con i metodi della meccanica quantistica che hanno condotto più in generale al ramo della probabilità algebrica o quantistica. Crediamo infatti che quest’ultima costituisca il contesto più adatto alla descrizione algebrica dei sistemi di particelle interagenti, specialmente se basata su operatori non commutanti. Ancora non esiste tuttavia, almeno nel particolare settore in cui abbiamo concentrato il lavoro, un utilizzo delle tecniche e dei risultati della probabilità non commutativa per lo studio della dinamica dei processi. Per questo l’appendice, nonostante non abbia alcuna pretesa di costituire una introduzione completa e rigorosa alla probabilità quantistica in generale, è in un certo senso originale. E’ infatti la prima rivolta ai sistemi di particelle interagenti tramite il confronto con il formalismo hamiltoniano. L’appendice C infine contiene alcune dimostrazioni che non abbiamo riportato all’interno del capitolo 4 per non appesantirlo. 10 Capitolo 1 Catene di Markov Le catene di Markov sono la base del linguaggio probabilistico usato nello studio dei sistemi di particelle interagenti. Esse sono la più semplice ed immediata generalizzazione degli schemi di Bernoulli, cioè, in riferimento alla descrizione data in appendice, l’esito di un “lancio” non ha sempre la stessa legge di probabilità indipendentemente dagli altri, ma dipende dall’esito del “lancio” precedente. Questa è l’idea di base delle catene di Markov e della proprietà di Markov che introdurremo. Iniziamo il capitolo con le catene di Markov a tempi discreti e soffermandoci sul significato della proprietà di Markov. I processi che prenderemo in esame, infatti, godono per costruzione di questa proprietà e sono pertanto detti processi di Markov. L’analisi delle proprietà asintotiche dei sistemi è tra gli argomenti più trattati nel corso della tesi, anche per questo dopo i paragrafi introduttivi passiamo allo studio delle proprietà ergodiche delle catene di Markov. Tale studio richiede la classificazione degli stati della catena, poiché la natura di questi stati determina ad esempio il numero delle misure invarianti, che per definizione determina il diagramma delle fasi. Al termine della classificazione enunciamo il teorema ergodico per le catene di Markov a tempo discreto, che assicura in condizioni generali l’esistenza e unicità dello stato stazionario. Anche se non essenziale per la comprensione del resto della tesi, per completezza aggiungiamo un breve accenno ai teoremi che stimano la probabilità delle varie possibili evoluzioni temporali asintotiche e quante sono quelle con la maggiore probabilità. Nei sistemi di particelle interagenti è tuttavia più comune ipotizzare che il tempo sia una variabile continua, e del resto anche il processo di esclusione che noi analizzeremo evolve con tempo continuo. Per questo motivo nel resto del capitolo estenderemo la trattazione delle catene di Markov al caso di tempo continuo, riprendendo i concetti basilari esposti nella prima 11 parte. Nel secondo paragrafo definiamo le catene di Markov omogenee (a tempo continuo) e diamo la definizione del generatore della dinamica, in quello successivo introduciamo le equazioni di Kolmogorov. Sono questi infatti strumenti che avranno un ruolo fondamentale nei prossimi capitoli. Successivamente facciamo vedere che anche a tempo continuo vale l’esistenza e unicità dello stato stazionario sotto condizioni abbastanza generali. Parleremo poi della distinzione tra stati stazionari e stati reversibili (che verificano il bilancio dettagliato), che pure sarà importante nei successivi capitoli. Per gli stati stazionari che non verificano il bilancio dettagliato diamo infine la definizione del processo aggiunto osservando che è legato all’operazione di inversione temporale. 1.1 Catene di Markov a tempo discreto Sia A un “alfabeto” di N caratteri: A = {α1 , α2 , ...} dove le {α} sono le lettere dell’alfabeto. Indichiamo con Ωn la collezione di tutte le parole di n lettere: Ωn = {ω = (ω1 , ω2 , ..., ωn ) ; ωi ∈ A}. Definiamo sullo spazio Ωn una distribuzione di probabilità normalizzata; a tale scopo consideriamo delle funzioni: X p0 (α) = 1 p0 (·) : A → R+ ; α∈A pk (·, ·) : A × A → R+ ; X pk (α, β) = 1 , k = 1, ..., n . β∈A Dunque ad ogni stringa di caratteri ω = (ω1 , ..., ωn ) ∈ Ωn è assegnata una probabilità: P (ω) = p0 (ω0 )p1 (ω0 , ω1 ) · · · pn (ωn−1 , ωn ). Si vede subito che tale funzione P (·) è una probabilità ben normalizzata: P ω∈Ωn P (ω) = 1. In questo modo la terna: (Ωn , E, P ) , con E la σ-algebra dei sottoinsiemi di Ωn , è uno spazio di probabilità. Possiamo associare allo spazio di probabilità (Ωn , E, P ) due diverse interpretazioni: 12 1. si possono pensare le stringhe α = (α1 , ..., αn ) come “parole astratte” cui è associata una certa probabilità P (α). Ad esempio si possono considerare le α proprio come lettere di un alfabeto e la P (α) come la frequenza con cui la parola α compare nell’uso della lingua di cui fa parte; 2. oppure si può immaginare l’evento ω = (ω1 , . . . , ωn ) come un’evoluzione temporale, una traiettoria. Possiamo cioè immaginare un sistema che evolve tra le configurazioni ω ∈ A in modo casuale, come la passeggiata casuale su reticolo. In questo caso interpretiamo pk (ωi , ωj ) come la probabilità di transizione, nel k-esimo intervallo di tempo discretizzato, dalla configurazione ωi a ωj . Noi avremo sempre in mente la seconda interpretazione. E’ naturale chiedersi quale sia la configurazione del sistema ad un istante di tempo fissato. Definiamo dunque la successione di variabili casuali: {Xk : Ωn+1 → A ; k = 0, ..., n} tale che: Xk (ω = (ω0 , ..., ωn )) = ωk . La definizione delle probabilità nello spazio Ωn implica che la funzione p0 descrive la distribuzione di probabilità della configurazione del sistema all’istante iniziale: P [X0 = α] = p0 (α), inoltre le funzioni pk descrivono le probabilità di transizione del sistema da una configurazione fissata all’istante k − 1 ad una nuova configurazione all’istante k: P [Xk = β | Xk−1 = α] = pk (α, β). I valori delle funzioni pk possono essere considerati elementi di una matrice pk . Fissare una traiettoria nello spazio delle configurazioni del sistema equivale a fissare un evento elementare, pertanto: P [X0 = ω0 , X1 = ω1 , ..., Xn = ωn ] = p0 (ω0 )p1 (ω0 , ω1 ) · · · pn (ωn−1 , ωn ). La successione di variabili casuali {Xn } è un esempio di catena di Markov. Essa gode della proprietà di Markov, vale a dire: P [Xk+1 = ωk+1 | Xk = ωk , Xk−1 = ωk−1 , ..., X0 = ω0 ] = P [Xk+1 = ωk+1 | Xk = ωk ] 13 Il significato di questa proprietà è che le catene di Markov non hanno memoria. Infatti, se è fissata la configurazione del sistema ad un istante k (“presente”), allora ciò che succede ad un istante successivo k + 1 (nel “futuro”) non dipende da ciò che è successo agli istanti precedenti 0, 1, ..., k − 1 (il “passato”). Da questo punto di vista è senz’altro interessante sottolineare l’analogia con l’equazione di Newton del secondo principio della meccanica classica: essendo questa un’equazione differenziale ordinaria del secondo ordine, il moto che si osserverà da un certo istante è determinato soltanto dal punto dello spazio delle fasi in cui ci si trova, e non da come ci si è arrivati. In molti casi è necessario dare una definizione generale di catena di Markov che consenta alle variabili casuali Xn di assumere valori in uno spazio A ⊂ R generico (ad esempio non numerabile). In questo caso la proprietà di Markov viene formulata tramite le probabilità condizionate da σ-algebre (definite in app. A). Definizione 1.1.1. Sia (Ω, Σ, P ) uno spazio di probabilità e sia {Σn } una successione di σ-algebre tale che Σ1 ⊂ Σ2 ⊂ · · · ⊂ Σ. Una successione {Xn } di variabili casuali Xn : Ω → A è una catena di Markov rispetto alle σ-algebre Σn se Xn è Σn -misurabile per ogni n e vale la proprietà di Markov: P [Xn ∈ A | Σk ] = P [Xn ∈ A | Xk ] (1.1) qualunque sia n ≥ k e A ∈ B(R). Quando non viene specificata la successione di σ-algebre {Σn }, si intende per Σn la σ-algebra generata dalle traiettorie fino all’istante n: Σn = σ ({X0 , X1 , ..., Xn }) ≡ ΣX n. In ogni caso deve valere ΣX n ⊂ Σn . Definizione 1.1.2. Una catena di Markov si dice discreta se le Xn assumono valori in uno spazio numerabile A. La funzione: p0 (α) = P [X0 = α] ; α ∈ A è una misura di probabilità su A e definisce lo stato iniziale. Le funzioni: pk (α, β) = P [Xk = β | Xk−1 = α] ; α, β ∈ A sono, per ogni β fissato, le probabilità di transizione al tempo k. 14 Definizione 1.1.3. Una catena di Markov {Xn } si dice omogenea se le probabilità P [Xn+1 ∈ A | Xn ] sono indipendenti da n qualunque sia A ∈ Σ, cioè se le probabilità di transizione pk (·, ·) sono indipendenti dal tempo: pk (α, β) = p(α, β) ; k = 1, 2, ... Ci riferiremo sempre a catene omogenee. Le proprietà della catena di Markov {Xn } sono determinate completamente da p0 e p (p0 è lo stato iniziale, p la matrice delle probabilità di transizione), è immediato infatti calcolare ogni probabilità del tipo P [(X0 , X1 , ..., Xn ) ∈ Λ], Λ ⊆ Σn . La matrice delle probabilità di transizione è una matrice stocastica, cioè con elementi non negativi e normalizzata per righe. E’ elementare verificare che ogni matrice stocastica P gode delle seguenti proprietà: 1. trasforma vettori ad elementi non negativi in vettori ad elementi non negativi e vettori (colonna) ad elementi positivi in vettori ad elementi positivi: X µi ≥ 0 ∀ i ⇒ Pij µj ≥ 0 j µi > 0 ∀ i ⇒ X Pij µj > 0 j 2. lascia immutato il vettore 11 con tutte le componenti pari 1: (P 11) = 11 3. agendo da sinistra, manda distribuzioni di probabilità in distribuzioni di probabilità: X X µi = 1 ⇒ Pji µj = 1 i i 4. il prodotto di matrici stocastiche è ancora una matrice stocastica; in particolare, se P1 e P2 sono matrici stocastiche e P2 ha elementi non nulli, allora P3 = P1 P2 è una matrice stocastica ed ha elementi non nulli. Se {Xn } è una catena di Markov omogenea con matrice delle probabilità di transizione pij , allora la potenza k-esima della matrice stocastica P dà le probabilità di transizione in k passi: (pk )ij = P [Xn+k = j | Xn = i]. 15 Esiste anche un altro modo per esprimere la proprietà di Markov (1.1), quello fornito dall’equazione di Chapmann-Kolmogorov: X P [Xn+k = ωn+k | Xn = ωn ]P [Xn = ωn | X0 = ω0 ] ωn ∈A = P [Xn+k = ωn+k | X0 = ω0 ] (1.2) che, nel caso delle catene di Markov omogenee, si riduce all’identità matriciale: X (pm )(ij) (pn )(jk) = (pm+n )(ij) . j 1.1.1 classificazione e proprietà ergodiche Consideriamo una catena di Markov con matrice delle probabilità di transizione p e spazio degli stati A = (α1 , . . . , αN ); adotteremo la notazione pij ≡ pαi αj . Definizione 1.1.4. Diremo che gli stati αi ∈ A e αj ∈ A sono connessi se ∃ n > 0 : (pn )ij > 0 , cioè se è possibile da αi raggiungere αj con probabilità non nulla almeno aspettando n passi. Definizione 1.1.5. Un insieme C ⊂ A di stati si dice chiuso se non è possibile alcuna transizione in un solo passo che permetta di raggiungere C da uno stato che non appartiene a C, cioè αi ∈ C, αj ∈ / C ⇒ pij = 0. Definizione 1.1.6. Una catena si dice irriducibile se non ci sono insiemi chiusi all’infuori di C. Non è difficile convincersi che gli insiemi chiusi non sono connessi tra loro con qualunque numero di passi. Definizione 1.1.7. La grandezza definita per ricorsione per ogni i (n) fi n = (p )ii − n−1 X (1) (pn−i )ii f (i) , fi = pii i=1 si chiama probabilità di primo ritorno ad αi in un tempo n. La grandezza fi = ∞ X n=1 16 (n) fi è probabilità di ritorno in αi . La grandezza τi = ∞ X (n) nfi n=1 è il tempo medio di ritorno in αi . Definizione 1.1.8. 1. Lo stato αi è detto ricorrente se fi = 1, transiente se fi < 1. Uno stato con tempo medio di ritorno infinito è detto stato nullo. 2. Lo stato αi si dice periodico di periodo T se un ritorno in αi è impossibile se non ai tempi T, 2T, 3T, ... e T è il più piccolo intero con questa proprietà. Uno stato ricorrente che non sia periodico né nullo è detto ergodico. Usando questa terminologia possiamo riportare (vedi ad esempio [39], [21], [19]) le seguenti importanti Proposizione 1.1.1. Se αi è ergodico, allora (pn )ii → 1 . τi Proposizione 1.1.2. In una catena di Markov irriducibile tutti gli stati sono dello stesso tipo (cioè ricorrenti nulli, ricorrenti non nulli, transienti, ergodici), con lo stesso periodo e connessi tra loro. In ogni catena di Markov lo spazio degli stati è suddivisibile in sottoinsiemi sconnessi (classi indecomponibili) con stati dello stesso tipo. Proposizione 1.1.3. Se αi è uno stato ricorrente nullo o transiente (pn )ji → 0 ∀ j = 1, ..., N. A questo punto possiamo enunciare il fondamentale Teorema 1.1.1 (ergodico per le catene di Markov finite). Sia Pij una matrice stocastica N × N che verifica l’ipotesi di non degenerazione: ∃ n0 : (P n0 )ij > 0 ∀ i, j = 1, ..., N Allora esiste un unica misura di probabilità µ = (µ1 , µ2 , ..., µN ) tale che: 17 1. è definita positiva e ben normalizzata: X µi > 0 ; µi = 1 i 2. è limite delle probabilità di transizione per numero di passi infinito: µi = lim (P n )ji ∀ j = 1, ..., N n→∞ 3. è una misura invariante: X µi Pij = µj i L’ipotesi di non degenerazione serve per garantire che gli stati siano essenziali. Definizione 1.1.9. Uno stato αi è inessenziale se esistono un altro stato αj e un intero n tali che (pn )ij > 0 , (pk )ji = 0 ∀ k ∈ N; tutti gli altri stati si dicono essenziali. La presenza di più classi indecomponibili non è un problema, poiché possono essere considerate come catene di Markov separate (non c’è connessione tra esse). Più classi indecomponibili si hanno ad esempio quando ci sono delle costanti del moto, che come sappiamo dal teorema di Noether sono legate alle simmetrie del sistema (vedremo come, nel processo di esclusione, si ricavano informazioni fondamentali proprio grazie all’esistenza di simmetrie). Ad ogni scelta delle costanti del moto corrisponde una differente classe indecomponibile e quindi un diverso stato stazionario (concentrato in tale classe). All’interno di una classe indecomponibile (con periodo T ) si possono inoltre individuare delle sottoclassi cicliche C0 , C1 , ..., CT −1 tali che in un passo si può passare solo da uno stato di Ck ad uno stato di Ck+1 con k intero modulo T . Dunque la presenza di un periodo non banale (T > 1) introduce una ciclicità nella dinamica del sistema. Tale ciclicità impedisce l’esistenza dei limiti (pn )ij per n → ∞; infatti se i ∈ Cp e j ∈ Cq allora (pn )ij può essere positivo solo se n = q − p mod T . Per avere ergodicità è quindi necessario fare richiesta di aperiodicità: T = 1. Su uno spazio finito, queste richieste, di assenza di stati inessenziali e di presenza di un unica classe indecomponibile ed aperiodica, come già detto corrispondono all’ipotesi di non degenerazione formulata nel teorema ergodico. Nella situazione di spazio degli stati numerabile è necessario, per impedire alla dinamica di “allontanarsi all’infinito”-ma non intendiamo soffermarci su questo, riformulare l’enunciato cosı̀: 18 Teorema 1.1.2 (ergodico per catene di Markov su spazio discreto). Sia {Xn } una catena di Markov su spazio numerabile A con matrice delle probabilità di transizione pij . Supponiamo che lo spazio degli stati sia formato esclusivamente da una classe indecomponibile ed aperiodica di stati comunicanti, ricorrenti e con tempo medio di ritorno finito. Allora la catena di Markov è ergodica, cioè valgono le proprietà 1, 2 e 3 del teorema 1.1.1. 1.1.2 entropia e teoremi fondamentali Riteniamo interessante introdurre, per completezza, alcuni importanti concetti e riportare alcuni risultati, relativi alle catene di Markov, che hanno un ruolo fondamentale in teoria della probabilità e in tutti i campi in cui vengono utilizzate le catene (ad esempio la teoria dell’informazione). Il contenuto di questo paragrafo non è essenziale per la comprensione del resto della tesi. Siano {α1 , ..., αN } gli stati di una catena di Markov con con matrice delle probabilità di transizione pij e per probabilità incondizionale la misura invariante Πk = p0 (αk ) = µk . Quando il sistema si trova nello stato αi , le probabilità di transizione e gli stati costituiscono uno schema di probabilità la cui entropia è per definizione X pik lg pik . Hi = − k Definizione 1.1.10. La media su tutti gli stati X H= Πi H i i è l’entropia della catena di Markov. P (ω) è la probabilità di una generica stringa. Assumiamo che la catena di Markov data soddisfi la legge dei grandi numeri per catene di Markov, cioè che per cammini di n passi la frequenza relativa mi /n di αi sia arbitrariamente vicina a Πi con probabilità arbitrariamente vicina a 1 per n sufficientemente grande. In questo caso la catena è detta ergodica. Teorema 1.1.3. ∀ , δ > 0 ∃ N > 0 tale che ∀ n > N lo spazio Ωn si può decomporre nella forma Ωn = Ξf ∪ Ξr , con Ξf ∩ Ξr = ∅ e: − lg P (ω) − H < δ • ω ∈ Ξf ⇒ n X • P (ω) < ε ω∈Ξr 19 Ordiniamo le N n successioni in ordine di probabilità decrescente, e prendiamone in numero minimo fino a che la probabilità totale di quelle prese supera un preassegnato numero λ ∈ (0, 1). Sia Nn (λ) il numero di successioni cosı̀ selezionate, allora Teorema 1.1.4. lg Nn (λ) = H. n→∞ n lim Questi due teoremi mostrano che “quasi certamente” le n-successioni fanno parte di una frazione “piccola” di tutte le n-successioni (an(H−lg N ) ) e che hanno “quasi tutte” “circa” la stessa probabilità a−nH (a è la base scelta per il logaritmo). 1.2 Catene di Markov a tempo continuo Siamo ora pronti per generalizzare la definizione di catene di Markov omogenee estendendola al caso di tempi continui, necessario per la descrizione che faremo dei sistemi di particelle interagenti. Da qui in avanti, dunque, l’intervallo temporale 4t che intercorre tra due salti Xn → Xn+1 non è più un tempo discretizzato e fissato, ma è una variabile casuale con legge di distribuzione esponenziale con parametro dipendente solo dallo stato precedente al salto. Denotiamo con A = {α1 , α2 , ...} lo spazio numerabile delle configurazioni del sistema. Lo spazio degli eventi elementari è scelto cosı̀: Ω = (A × [0, ∞))N ; dunque ogni atomo è una successione del tipo: ω = {(ω1 , 4t1 ), (ω2 , 4t2 ), ...} ove sono specificati la configurazione ωj dopo j salti, e l’intervallo di tempo 4tj che intercorre tra il j-esimo ed il (j + 1)-esimo salto. Definiamo in Ω una σ-algebra E ed una misura di probabilità P tali che lo spazio (Ω, E, P ) sia uno spazio di probabilità. Per ottenere ciò introduciamo le successioni di variabili casuali {Xn : Ω → A ; n = 1, ...} , {τn : Ω → R+ ; n = 1, ...} 20 tali che: Xn (ω) = ωn e τn (ω) = 4tn . Scegliamo la σ-algebra E generata dalle Xn e τn : E = σ ({(X1 , τ1 ), (X2 , τ2 ), ...}) . Il completamento della definizione di (Ω, E, P ) necessita ora solo di definire la misura di probabilità P , per la quale assumiamo che {Xn } sia una catena di Markov omogenea a tempo discreto con distribuzione iniziale µ(·) e matrice delle probabilità di transizione p(·, ·): P [X0 = α] = µ(α) P [Xk+1 = β | Xk = α] = p(α, β). Inoltre ipotizziamo che, supposte note le configurazioni Xn = ωn per ogni n, le variabili τn siano indipendenti e distribuite secondo una legge esponenziale con parametro definito dalla funzione λ : A → R+ : Z P [τn ∈ I ⊆ R | Xn = ωn ] = dsλ(ωn )e−λ(ωn )s . I Il seguente importante risultato è dimostrato in [32]: Pn−1 τk } Proposizione 1.2.1. La successione di variabili casuali {Xn , Tn = k=0 è una catena di Markov nello spazio di probabilità (Ω, F, P ) (spazio non numerabile); le probabilità di transizione sono P [Xn+1 = ωn+1 , t ≤ Tn+1 ≤ t + dt | Xn = ωn , Tn = s] = = p(ωn , ωn+1 )λ(ωn )e−λ(ωn )(t−s) 11{t≥s} dt (1.3) Ora risulterà abbastanza naturale la seguente Definizione 1.2.1. Una catena di Markov a tempo continuo {X(t) , t ∈ R+ } è il processo stocastico che specifica ad ogni istante di tempo t qual è la configurazione del sistema: X(t, ω) = Xn (ω) se Tn−1 (ω) ≤ t < Tn (ω). In altri termini il processo X(t) coincide con la catena di Markov discreta {Xn }, in ogni intervallo di tempo 4tn , risultando una funzione del tempo a gradini. Il processo {X(t)} è un processo di Markov omogeneo a tempi continui, cioè verifica le seguenti proprietà: 21 1. omogeneità temporale: P [Xs+t = α | Xt ] = P [Xs = α | X0 ] (1.4) 2. proprietà di Markov: P [Xs+t = α | σ({Xr ; r ≤ t})] = P [Xs+t = α | Xt ] (1.5) Questa catena di Markov è definita sullo spazio delle traiettorie D([0, ∞) × A), cioè delle funzioni continue a sinistra di variabile reale positiva ed a valori in A. La continuità non è richiesta perché la dinamica è del tipo a salti. Concludiamo il paragrafo con la seguente Osservazione 1.2.1. La richiesta che il tempo d’attesa (che ora indichiamo con la variabile casuale T ) per effettuare un salto sia distribuito esponenzialmente non è facoltativa, è bensı̀ essenziale per la proprietà di Markov. Infatti la funzione esponenziale è l’unica funzione (misurabile secondo Lebesgue) a godere della proprietà che calcolata su una somma si fattorizza: da questo segue la perdita di memoria, come mostrano i seguenti semplici passaggi. T P [{T > t + s} {T > s}] P [T > t + s | T > s] = = P [T > s] P [T > t + s] e−λ(t+s) = = e−λt . P [T > s] e−λs 1.3 Generatore ed equazioni di Kolmogorov Come per il caso in cui il tempo è una variabile discreta, possiamo scrivere, utilizzando la matrice p delle probabilità di transizione, delle equazioni connesse alla proprietà di Markov: le equazioni di Chapmann-Kolmogorov. Queste sono le equazioni fondamentali della dinamica dei processi di Markov, danno infatti l’equazione del moto per la probabilità. Nel corso di tutta la tesi queste equazioni avranno un ruolo fondamentale. Dal prossimo capitolo saranno in genere chiamate col nome che hanno nell’ambito dei formalismi che presenteremo: master equation. Nel caso di tempi continui, le equazioni vengono scritte in termini del semigruppo delle probabilità di transizione nell’intervallo t {Pt (·, ·) : A × A → R+ ; t ∈ R+ }, definito da Pt (α, β) = P [Xs+t = β | Xs = α]. 22 (1.6) L’equazione di Chapmann-Kolmogorov (1.6), che si ricava facilmente dalla proprietà di Markov, corrisponde alla proprietà di semigruppo: X Pt (α, β)Ps (β, γ) = Ps+t (α, γ), β∈A che può essere scritta in una forma più compatta che ne evidenzia l’aspetto gruppale: Pt ◦ Ps = Pt+s , (1.7) ove ◦ denota il prodotto di convoluzione tra operatori. Il generatore della dinamica L : A × A → R è l’operatore definito da: L = λ(P − I) (1.8) essendo I l’operatore identità. Il generatore soddisfa le proprietà: X Lji = 0 i Lij ≥ 0 Lii < 0 (1.9) Anche se qui non lo faremo, è possibile dimostrare ([36]) che qualunque operatore che soddisfi tali proprietà determina univocamente un processo di Markov {X(t)} ben definito. Il semigruppo {Pt } ed il generatore L possono essere visti sia come operatori che agiscono da sinistra sullo spazio C(A) delle funzioni definite in A: X Pt (ω0 , ς)f (ς) ≡ E[f (X(t)) | X(0) = ω0 ], (Pt f )(ω0 ) = ς∈A (Lf )(η) = X L(η, ζ)f (ζ); ζ∈A sia come operatori che agiscono da destra sullo spazio M1 (A) delle misure di probabilità su A: X (µPt )(η) = µ(ζ)Pt (ζ, η) ζ∈A (µL)(η) = X µ(ζ)L(ζ, η). ζ∈A P Si osservi che Pt trasforma lo spazio M1 (A) in sé: ς (µPt )(ς) = 1. Invece il generatore L trasforma una P distribuzione di probabilità normalizzata in una funzione a media nulla: ς (µL)(ς) = 0. 23 Esiste un legame tra il semigruppo {X(t)} ed il generatore L che è spiegato dalla: Proposizione 1.3.1. Valgono le equazioni di Kolmogorov: (∂t Pt )(η, ζ) = (LPt )(η, ζ) (∂t Pt )(η, ζ) = (Pt L)(η, ζ) (1.10) (1.11) Questo significa che, se P0 è il dato iniziale, il semigruppo {Pt } è formalmente dato dall’espressione: Pt = (eLt )P0 , formalmente analoga all’equazione di Hamilton-Schrödinger con tempo immaginario (in cui al posto di L si trova l’hamiltoniana di Schrödinger H nel ruolo di generatore della dinamica, ossia dell’evoluzione temporale). 1.4 Misure invarianti, processo aggiunto Indicando con µ0 lo stato iniziale del sistema, il semigruppo {Pt } permette di scrivere l’equazione del moto per lo stato del sistema µt in ogni istante: µt = µ0 P t . Dall’equazione appena scritta è chiaro quali siano gli stati stazionari, cioè le misure invarianti: lo stato definito dalla misura ν è stazionario se: νPt = ν ∀ t > 0. Ma dalle equazioni di Kolmogorov (1.10) e (1.11) segue subito che ciò è possibile se e solo se è soddisfatta l’equazione di stazionarietà: (νL) ≡ 0 su A. (1.12) Il seguente teorema permette di estendere il teorema ergodico per le catene di Markov discrete ai processi a tempo continuo, stabilendo la condizione per l’esistenza e unicità della misura invariante. Teorema 1.4.1. La misura ν(·) è invariante per la catena di Markov a tempo continuo {X(t)} se e solo se ν ∗ (·) definita da: ν(η)λ(η) ν ∗ (η) = P ζ ν(ζ)λ(ζ) 24 è una misura invariante per la corrispondente catena di Markov a tempo discreto {Xn } con matrice delle probabilità di transizione p(·, ·). In formule: X (νL) = 0 ⇐⇒ ν ∗ (ζ)p(ζ, η) = ν ∗ (η) ζ Questo teorema garantisce che le stesse ipotesi fatte sulla matrice p assicurano esistenza ed unicità dello stato stazionario anche per le catene di Markov a tempo continuo {X(t)}, indipendentemente dai tassi di decadimento λ. bilancio dettagliato E’ facile dedurre dalla (1.12) e dalla definizione (1.8) che π è uno stato stazionario se verifica: X X π(ζ)λ(ζ)p(ζ, η) = π(η)λ(η)p(η, ζ) ζ∈A ζ∈A Cerchiamo di capire il significato fisico di questa equazione. La quantità λ(η)p(η, ζ) è il tasso della transizione η → ζ, cioè la frequenza media con cui il sistema, inizialmente in configurazione η, passa nella configurazione ζ. Poiché π(η) è la probabilità con cui il sistema si trova in configurazione α, possiamo interpretare: Jπ (η, ζ) = π(η)λ(η)p(η, ζ) − π(ζ)λ(ζ)p(ζ, η) come la corrente algebrica media (nello stato π) del sistema da η verso ζ. La condizione di stazionarietà (1.12) può essere riscritta X Jπ (α, β) = 0 ; ∀ α ∈ A. (1.13) β∈A La (1.13) risulta soddisfatta se ad esempio per ogni coppia di stati η e ζ la corrente Jπ (η, ζ) è identicamente nulla. In questo caso, se il sistema si trova nello stato π, il tasso della transizione η → ζ è uguale a quello della transizione inversa η ← ζ. Ciò conduce alla condizione di bilancio dettagliato: π(η)λ(η)p(η, ζ) = π(ζ)λ(ζ)p(ζ, η) (1.14) Ci riferiremo agli stati che soddisfano la condizione di bilancio dettagliato come a stati di equilibrio dettagliato (o microscopico) oppure come a stati reversibili. Infatti la caratteristica fondamentale legata al bilancio dettagliato è quella di reversibilità della dinamica microscopica. Poiché per ogni coppia di stati η e ζ il flusso medio da η a ζ è nullo, risulta che la dinamica invertita 25 nel tempo resta inalterata. La formulazione matematica di questa idea si ha con la definizione della dinamica aggiunta. Gli stati che soddisfano la condizione di stazionarietà (1.12) ma non quella di bilancio dettagliato (1.14) saranno indicati come stati stazionari non reversibili. Gli stati stazionari non reversibili sono poi a loro volta distinti a seconda se descrivono un sistema di equilibrio o fuori dall’equilibrio. Tale distinzione risulterà naturale quando daremo una modellizzazione probabilistica di sistemi di particelle interagenti. generatore aggiunto Sia π(·) una misura di probabilità su A. Consideriamo lo spazio di Hilbert L2 (π) delle funzioni su A con norma indotta dal prodotto scalare: X < f, g >π = π(α)f (α)g(α), α∈A e limitiamoci alle funzioni con norma finita. Reinterpretando L e Pt come operatori che agiscono da destra su L2 (π), è interessante capire come agiscono gli operatori aggiunti L∗ e Pt∗ , definiti da: < f, Lg >π = < g, L∗ f >π , ∀ f, g ∈ L2 (π) < f, Pt g >π = < g, Pt∗ f >π , ∀ f, g ∈ L2 (π) Delucidazioni al riguardo sono fornite dalla seguente: Proposizione 1.4.1. L’operatore L∗ è un generatore (cioè soddisfa le tre proprietà (1.9)) se e solo se π è uno stato stazionario. In questo caso il ∗ semigruppo associato a L∗ è proprio {Pt∗ }: Pt∗ = eL t ; e il processo di Markov aggiunto (con generatore L∗ ) è caratterizzato da probabilità di transizione: p∗ (α, β) = λ(β)π(β)p(β, α) , λ(α)π(α) e tassi di decadimento: λ∗ (α) = λ(α). In particolare l’operatore L è autoaggiunto, cioè L = L∗ , se e solo se è verificato il bilancio dettagliato. Il processo aggiunto è intimamente connesso al concetto di inversione temporale. Ciò è reso evidente dalla seguente: 26 Proposizione 1.4.2. Se {Pt } è un semigruppo con misura stazionaria π, e {Pt∗ } è il semigruppo aggiunto, allora risulta: Eπ [f1 (X(t1 )) · · · fn (X(tn ))] = · · · fn (X(tn − X π(α)fk (α)Eα [fk+1 (X(tk+1 − tk )) · · · α∈A tk ))]Eα∗ [fk−1 (X(tk − tk−1 )) · · · f1 (X(tk − t1 ))] per ogni scelta delle funzioni f1 , . . . , fn ∈ L2 (µ) e dei tempi t1 < t2 < · · · < tn ; avendo indicato con Eα e Eα∗ il valore aspettato condizionato da X(0) = α rispettivamente per il processo diretto e per il processo aggiunto. 27 Capitolo 2 Sistemi di particelle interagenti e processo di esclusione I sistemi di particelle interagenti sono un campo nato come branca della teoria della probabilità che si è presto sviluppato enormemente e affermato come settore autonomo, anche grazie alle numerose connessioni con altri campi. Infatti i sistemi di particelle interagenti costituiscono uno strumento adatto a modellizzare molti processi legati alla fisica, alla medicina, alla biologia, alle reti neurali, alle scienze sociali e altro ancora. Come ramo della meccanica statistica, l’aspetto principale che rende interessanti i sistemi di particelle interagenti, da studiare come un passo avanti rispetto alle catene di Markov in senso tradizionale, è la presenza di interazioni. Infatti questi sistemi trattano un certo numero di particelle su un reticolo che, in assenza di interazione, si comporterebbero ciascuna come una catena di Markov, indipendentemente dalle altre. L’interazione implica che l’evoluzione temporale di una singola particella non è più markoviana, mentre assegnando le probabilità di transizione tra le configurazioni dell’intero sistema, il processo globalmente è ancora markoviano. I sistemi di particelle interagenti offrono pertanto un naturale accostamento alla fisica, che ha suggerito di utilizzarli per studiare soprattutto la termodinamica di fenomeni le cui misure di equilibrio sono misure di Gibbs, e in modo particolare le transizioni di fase (ad esempio le proprietà magnetiche della materia condensata sono studiate essenzialmente tramite modelli di spin interagenti). Il contenuto del presente capitolo è essenziale per la comprensione del resto della tesi; vengono infatti qui introdotti i sistemi di particelle interagenti, nella loro formulazione usuale, seguendo i testi [36] e [37]. Il primo paragrafo contiene la descrizione matematica dello spazio in cui vivono i sistemi, e la costruzione generale dei modelli. Vengono pure tradotti in questo contesto gli strumenti introdotti nel capitolo precedente, come il generatore 28 e il semigruppo di evoluzione temporale, e riportati i relativi teoremi fondamentali. Una serie di sottoparagrafi è poi dedicata alle definizioni e ai risultati più importanti inerenti le misure invarianti e reversibili, e ad alcuni strumenti generali che verranno utilizzati negli ultimi capitoli, come l’accoppiamento (coupling) e la dualità tra due processi. Inoltre viene enunciato il teorema ergodico anche nel formalismo di questo capitolo. Il contenuto di questo Segue nel secondo paragrafo una panoramica dei sistemi interagenti più importanti, con uno spazio maggiore riservato al processo guida di questa tesi: il processo di esclusione (cui è riservato il terzo paragrafo). Relativi a quest’ultimo vengono riportati nel linguaggio usuale i risultati da confrontare con quelli che otterremo, tramite approcci algebrici, nei prossimi capitoli. 2.1 I processi I processi più studiati, e che costituiscono la famiglia di processi alla quale faremo sempre riferimento trattando il processo di esclusione, sono catene di Markov a tempo continuo ηt con spazio degli stati X = {0, 1}S , dove S è un insieme numerabile di siti. Tipicamente S = Zd e in particolare noi ci limitiamo a d = 1 e sottoinsiemi di N, al posto di Z. Ci sembra utile riportare una definizione generale molto comune di processo di Markov. Sia X uno spazio metrico compatto misurabile con σ-algebra di Borel. Sia C[0, ∞] l’insieme delle funzioni misurabili continue η. su [0, ∞].Per s ∈ [0, ∞] sia πs : C[0, ∞] 7→ X definita da πs (η. ) = ηs . Sia F la più piccola σ-algebra su C[0, ∞] rispetto alla quale tutte le applicazioni πs siano misurabili. Per t ∈ [0, ∞], sia Ft la più piccola σ-algebra su C[0, ∞] rispetto alla quale tutte le applicazioni πs con s < t siano misurabili. Definizione 2.1.1. Un processo di Markov su X è una collezione {P η , η ∈ X} di misure di probabilità su C[0, ∞] indicizzate da X con le seguenti proprietà: • P η [ζ. ∈ C[0, ∞] : ζ0 = η] = 1 ∀ η ∈ X; • l’applicazione η 7→ P η (A) da X in [0, 1] è misurabile per ogni A ∈ F; • P η [ηs+· ∈ A | Fs ] = P ηs (A) q.o. per ogni η ∈ X e A ∈ F. La dinamica del processo è definita specificando una collezione di tassi di transizione. Se il processo è tale che nel sito x il tasso della transizione 0 → 1 è una funzione di x e della configurazione, si parla di sistemi di spin, più precisamente di spin 1/2. Nel processo di esclusione il tasso di transizione 29 dipende da una coppia di siti (quelli di arrivo e di partenza per una particella che effettua un salto). La funzione che fissa i tassi di transizione viene assunta non negativa, uniformemente limitata, e continua nella topologia prodotto di X. Indichiamo con P η la distribuzione del processo con configurazione iniziale η, come nella definizione, e con E η le attese calcolate rispetto alla misura P η . Ipotizzando che il processo in esame goda della proprietà di Feller, possiamo introdurre il semigruppo S(t) del processo sullo spazio C(X) delle funzioni continue su X (dotato della norma ||f || = supη∈X |f (η)|) in questo modo: S(t)f (η) = E η f (ηt ), f ∈ C(X). (La proprietà di Feller è proprio l’asserto f ∈ C(X) ⇒ S(t)f ∈ C(X).) Per ogni x, y ∈ S e η ∈ X, stabiliamo la notazione 1 − η(x) se z = x ηx (z) = (2.1) η(z) se z 6= x e η(y) η(x) ηx,y (z) = η(z) se z = x se z = y se z 6= x, y (2.2) In questo linguaggio, possiamo scrivere P η (ηt = ηx,y ) = c(x, y, η)t + o(t), dove c è la funzione che determina il tassi di transizione. La connessione tra c e ηt può essere espressa tramite il generatore Ω di ηt . Per le funzioni f cilindriche (che dipendono cioè da un numero finito di siti), definiamo X Ωf (η) = c(x, y, η)[f (ηx,y ) − f (η)]. (2.3) x,y Il teorema fondamentale di Hille-Yosida ([36], [37]) descrive l’evoluzione temporale dei sistemi (cf. §1.3 e §3.1) e assicura sotto opportune ipotesi che S(t)f − f d , ΩS(t)f = S(t)Ωf, [S(t)f ] = Ω[S(t)f ], t&0 t dt Ωf = lim con S(0) = I, e I è l’identità. In realtà questa è una versione un po’ forte dell’enunciato, in cui trascuriamo discussioni rigorose sulla chiusura Ω di Ω; vedremo quale ipotesi vada formulata solo nel caso del processo di esclusione semplice. Sotto le stesse ipotesi vale anche il seguente 30 Teorema 2.1.1 (Trotter-Kurtz). Sia data una successione {Ωn f } con f cilindrica. Se Ωf = lim Ωn f n→∞ per ogni f cilindrica, allora i semigruppi soddisfano S(t)f = lim S(t)n f n→∞ per ogni f ∈ C(X) e t ≥ 0; questa convergenza è inoltre uniforme su intervalli di tempo limitati. Questo teorema serve per dare, nel prossimo paragrafo, una proprietà delle misure invarianti che verrà utilizzata nella dimostrazione di una teorema (§4.5) del cap. 4. Nei prossimi sotto-paragrafi esponiamo una serie di concetti fondamentali che sarà utilizzata nel corso della tesi. Questi concetti non sono essenziali per definire i formalismi che useremo né per mostrare la connessione tra essi, servono però per la descrizione delle proprietà di base del processo di esclusione. Tale descrizione sarà l’occasione per mostrare l’applicazione di approcci algebrici ai sistemi interagenti. 2.1.1 misure invarianti Il concetto di misura invariante è di basilare importanza in tutta la meccanica statistica e anche nel corso di questa tesi sarà presente in modo diffuso. Se µ è una misura su X, la distribuzione del processo ηt al tempo t, se lo stato iniziale è µ, è denotata µS(t), ed è ben definita (per il teorema di rappresentazione di Riesz) da Z Z f dµS(t) = S(t)f dµ, f ∈ C(X). X X Definizione 2.1.2. La misura di probabilità µ si dice invariante se µS(t) = µ ∀ t > 0. Il prossimo teorema, oltre a dare informazioni importanti in generale, sarà necessario per dimostrare nel cap. 4 un teorema sulle misure stazionarie del processo di esclusione semplice (§4.5). Sia I l’insieme delle misure invarianti. Vale ([36], [37]) il seguente d Teorema 2.1.2. Sia dato un processo ηt su {0, 1}Z . Allora 1. µ∈I ⇔ Z S(t)f dµ = Z X X 31 f dµ ∀ f ∈ C(X), t > 0 2. µ∈I ⇔ Z Ωf dµ = 0 ∀ f cilindrica. X 3. I è compatto, convesso e non vuoto. 4. I è l’inviluppo chiuso convesso dei suoi punti estremali. 5. Se ν = limt→∞ µS(t) esiste per qualche µ, allora ν ∈ I. 6. Se 1 ν = lim n→∞ Tn Z Tn µS(t)dt 0 esiste per qualche µ e qualche successione Tn % ∞, allora ν ∈ I. 7. Nel contesto del teorema di Trotter-Kurtz, se µn è invariante per il processo con generatore Ωn e µn → µ debolmente, allora µ è invariante per il processo con generatore Ω. L’insieme I è dunque un simplesso, cioè un insieme i cui punti possono essere espressi come combinazioni convesse di alcuni suoi punti (detti estremali), che non possono invece essere espressi nello stesso modo se non come combinazioni convesse banali di sè stessi. L’insieme degli estremali di I sarà indicato con Ie . 2.1.2 misure reversibili Una delle proprietà più utili di cui una misura invariante può godere, è la proprietà detta reversibilità. Abbiamo già discusso il legame tra il concetto di reversibilità dato nel capitolo precedente e il bilancio dettagliato. Nel cap. 4, a proposito del processo di esclusione simmetrico con condizioni al bordo periodiche, vedremo, in un linguaggio diverso, un esempio di reversibilità. Definizione 2.1.3. La misura µ si dice reversibile se Z Z f S(t)gdµ = gS(t)f dµ ∀ f, g ∈ C(X). Se prendiamo g ≡ 1 si vede che ogni misura reversibile è anche invariante. E’ possibile dimostrare ([36]) che µ è reversibile se e solo se Z Z f Ωgdµ = gΩf dµ per tutte le funzioni cilindriche f, g. 32 Il significato della reversibilità è il seguente: se µ è invariante, allora il processo ηt che ha come distribuzione iniziale µ è stazionario nel tempo. Se inoltre µ è reversibile, allora ηt e η−t hanno la stessa distribuzione. La reversibilità e l’invarianza sono chiaramente le stesse già viste nel capitolo dedicato alle catene di Markov, la prima corrisponde al bilancio dettagliato, la seconda corrisponde all’equazione di stazionarietà (1.12). 2.1.3 monotonia e coupling Gli strumenti che stiamo per introdurre sono alla base di molte tecniche di dimostrazione nell’ambito dei sistemi di particelle interagenti; anche noi ne faremo uso in occasione di un risultato sul processo di esclusione (§4.5). Se però non si vogliono seguire i dettagli della dimostrazione di tale risultato, il presente sotto paragrafo può essere saltato. Lo spazio degli stati X ha una struttura di ordinamento parziale definita da η ≤ ζ se η(x) ≤ ζ(x) ∀ x ∈ S. Una funzione f ∈ C(X) si dice crescente se η ≤ ζ =⇒ f (η) ≤ f (ζ). Da questo segue in modo naturale la definizione di monotonia stocastica per misure di probabilità su X: Z Z f dµ2 ∀ f crescente in X. f dµ1 ≤ µ1 ≤ µ2 ⇐= X X Il concetto di monotonia stocastica può essere compreso meglio se affiancato da quello di coupling. Il coupling di processi stocastici è semplicemente la costruzione congiunta dei due processi su uno spazio di probabilità comune. A dispetto della semplice definizione, una scelta sagace delle distribuzioni congiunte può costituire uno strumento molto utile. Il prossimo teorema fornisce la connessione tra monotonia stocastica e coupling. Teorema 2.1.3. Supponiamo che µ1 e µ2 siano misure di probabilità su X. Allora µ1 ≤ µ2 se e solo se esiste un coupling (η, ζ) tale che la distribuzione di η sia µ1 e quella di ζ sia µ2 , e η ≤ ζ q.o. . 2.1.4 dualità Introduciamo ora il concetto di dualità tra due processi di Markov. Non ci soffermeremo molto qui su tale concetto, poiché sarà ripreso in seguito; è essenziale tuttavia dare la definizione per seguire quanto verrà esposto nel cap. 3. 33 Definizione 2.1.4. Due processi di Markov (eventualmente con diversi spazi degli stati X e Y ) si dicono duali rispetto alla funzione H se per ogni t vale E η H(ηt , ζ) = E ζ H(η, ζt ) per tutti gli η nello spazio degli stati X di ηt e tutti gli ζ nello spazio degli stati Y di ζt . La funzione H deve essere misurabile, non negativa e limitata. 2.1.5 ergodicità Definizione 2.1.5. Un processo stocastico ηt si dice stazionario se le distribuzioni congiunte di (ηt1 +t , . . . , ηtn +t ) sono indipendenti da t per ogni n e t1 , ..., tn . Definizione 2.1.6. Inoltre il processo è ergodico se per ogni traiettoria G invariante per traslazioni temporali vale P (η ∈ G) = 0, 1. Enunciamo anche in questo contesto il Teorema 2.1.4 (ergodico). Se ηt è stazionario ergodico, e se f è una funzione limitata misurabile su X, allora Z 1 t f (ηs )ds −→ Ef (η0 ) q.o. t 0 quando t → ∞. Ricordando che Ie è l’insieme delle misure estremali di I, vale allora anche il Teorema 2.1.5. Supponiamo che ηt sia un processo di Markov stazionario la cui distribuzione sia la misura µ ∈ I. Allora le due seguenti condizioni sono equivalenti all’ergodicità: 1. µ ∈ Ie 2. 1 lim t→∞ t Z t EF (η0 )G(ηs )ds = Z 0 per tutte le funzioni limitate continue F, G. 34 F dµ Z Gdµ 2.2 I sistemi interagenti principali Diamo ora alcuni esempi di sistemi di particelle interagenti, specificandone lo spazio delle configurazioni e l’evoluzione dinamica su di esso; ci soffermeremo anche per ognuno di essi sull’esistenza di misure invarianti e di equilibrio. Il presente paragrafo ha carattere generale; riteniamo utile fornire la seguente panoramica per approfondire il formalismo usato in questo capitolo, per poterlo confrontare con quelli dei prossimi capitoli. Tuttavia il contenuto non è essenziale per la comprensione degli argomenti principali che verranno affrontati. Generalmente, dato che l’evoluzione dei sistemi di particelle interagenti non è deterministica, non è molto utile parlare solo di configurazioni, ha più senso parlare di probabilità delle varie configurazioni. Ad esempio ci si può limitare a considerare il numero medio di occupazione di un dato sito, oppure chiedersi soltanto qual è la probabilità che in un certo istante si osservino k particelle nel sito. Dunque consideriamo gli stati del sistema, prendendo tutte le possibili distribuzioni di probabilità su Ω. In questo contesto una configurazione coincide con una distribuzione di probabilità “di tipo δ”, concentrata in un singolo punto di Ω. Dato uno stato µ[·], indichiamo, se non c’è ambiguità, con µ[A] la probabilità del generico evento A e con µ[f ] ≡ E(f ) il valore aspettato della generica osservabile f (·). 2.2.1 particelle libere Come primo e più semplice caso di interazione, esaminiamo quello in cui non c’è interazione. In questo caso le evoluzioni dinamiche delle singole particelle sono cammini aleatori indipendenti. Tanto per acquisire dimestichezza, semplifichiamo la trattazione scegliendo un reticolo finito con condizioni periodiche al contorno. Dunque il nostro reticolo sarà il toro unidimensionale di N punti: TN1 = Z/N Z. Immaginiamo per ora che durante l’evoluzione del sistema tutte le particelle siano distinguibili, soltanto per pensare di sceglierne una e focalizzare le osservazioni su quella. Sarà evidente che cosı̀ facendo non si perde di generalità. Facciamo l’ipotesi che la dinamica sia conservativa, cioè che ammetta la simmetria corrispondente alla conservazione del numero totale K di particelle. L’assenza di interazioni comporta che l’evoluzione di ciascuna particella sia quella di una catena di Markov omogenea sul toro TN1 , invariante per traslazioni e indipendente da quella di ogni altra. Supponiamo di aver assegnato una matrice p(·, ·) : TN1 × TN1 −→ [0, 1] di probabilità di transizione sul toro TN1 . Concentriamoci ora singolarmente sulla particella contrassegnata e seguiamone l’evoluzione indicando con Pt (x, y) la probabilità che la particella 35 si trovi in y all’istante t condizionata al fatto che era in x nell’istante t = 0. Per quanto visto nel capitolo sulle catene di Markov, sappiamo che Pt (·, ·) esiste ed è unica, come soluzione dell’equazione (di Chapmann-Kolmogorov) (2.3): X d Pt (x, y) = p(x, z)[Pt (z, y) − Pt (x, y)] dt 1 z∈TN P0 (x, y) = δx,y Globalmente il sistema in cui convivono tutte le K particelle, è la collezione di K repliche identiche e indipendenti del processo di Markov appena trattato, e può essere connotato semplicemente con {X1 (t), X2 (t), ..., XK (t)}ii . (2.4) Quando ci sono interazioni la dinamica di ogni particella non è più indipendente da quella delle altre e chiaramente non sarà più possibile descrivere la dinamica complessiva tramite espressioni come la (2.4). A questo punto riconduciamo la trattazione al caso di particelle indistinguibili. In questo caso, è evidente che fisicamente l’unica osservabile del sistema che definisce del tutto in ciascun istante ogni configurazione è il numero di particelle presenti in ogni sito. Dunque chiamando ηt il processo che stiamo studiando, ηt (x) sarà il numero di occupazione del sito x, con la simbologia introdotta all’inizio del capitolo. Dalle considerazioni finora svolte si ricava: K X ηt (x) = χ{Xi (t)} (x), i=1 dove χ(·) è la funzione caratteristica o indicatrice. In sostanza, la somma rende indistinguibili le particelle. Riassumendo, una configurazione del sistema è la collezione: η = {η(x) , x ∈ TN1 } e lo spazio delle configurazioni è: 1 Ω = {0, 1, ..., K}TN . 2.2.2 processi di interazione a contatto (zero range) Il processo di contatto è tipicamente pensato come un modello di epidemie o contagi di infezioni. La comunità corrisponde al reticolo Zd , e in ogni istante t ciascun individuo x può essere sano (ηt (x) = 0) o infetto (ηt (x) = 1). 36 L’interazione è la schematizzazione del contagio: può avvenire solo tra primi vicini, e un solo sito alla volta cambia il proprio numero di occupazione. Questo modello di interazione è la generalizzazione immediata delle particelle libere. Alternativamente, si può pensare di descrivere un gas di particelle vincolate su un reticolo cubico d-dimensionale di lato unitario. In questo caso le particelle si muovono saltando da un sito a un altro, cosı̀ che ogni evoluzione modifica contemporaneamente di una unità il numero di occupazione di due siti. Sia 1/N la distanza tra siti primi vicini; per semplicità inoltre, prendiamo condizioni al contorno periodiche. Il processo si svolge quindi sul toro d-dimensionale di N punti: TNd = {1, ..., N }d . Per dare le probabilità di transizione però, partiamo dall’intero spazio Zd . Prendiamo una distribuzione p : Zd × Zd → [0, 1] invariante per traslazione e a range finito: p(x + a, y + a) = p(x, y) , ∀ a ∈ Zd , p(x, y) = 0 se |y − x| > R. Conveniamo che la probabilità della transizione x → x + z sia X pN (z) = p(x, x + z + N y). y∈Zd Si vede subito che l’ipotesi sul range riduce la somma al solo contributo del termine y = 0, a patto che N sia sufficientemente grande: pN (z) = p(x, x+z). Nella descrizione di questo modello è ragionevole immaginare che il tasso della transizione da x a y dipenda dal numero di particelle presenti in x. Prendiamo allora una funzione g : N −→ R+ monotona crescente g(k + 1) ≥ g(k) a variazione limitata: supk∈N [g(k + 1) − g(k)] = M < ∞. Supponiamo inoltre che g(0) = 0. Stabiliamo finalmente che, se k è il numero di particelle in x, indipendentemente dal numero di particelle negli altri siti la particella effettua il salto da x verso y con tasso g(k)p(x, y). Nel caso di particelle non interagenti, la probabilità del salto è chiaramente proporzionale a k, e, per normalizzazione, in questo caso vale g(k) ≡ k. La funzione g(·), dunque, indica il “segno” dell’interazione: se cresce con una pendenza maggiore o minore di uno, l’interazione è repulsiva o attrattiva rispettivamente. Grazie alla (2.3) possiamo ora scrivere il generatore delle traslazioni temporali Ω. Considerando la dinamica in esame, si capisce subito quale nuova notazione conviene introdurre in analogia alla (2.2): η(x) − 1 se z = x η(y) + 1 se z = y η x,y (z) = η(z) se z 6= x, y 37 Secondo la (2.3) il generatore Ω del processo su TNd sarà dato da: X (ΩL f )(η) = p(x, y)g(η(x))[f (η x,y ) − f (η)]. (2.5) d x,y∈TN Prima di riportare il prossimo teorema, ricordiamo che Osservazione 2.2.1. un gas di particelle non interagenti all’equilibrio in una scatola (che nel nostro caso si riottiene con g(k) = k) è distribuito secondo la legge di Poisson ([8]). L’osservazione precedente risulterà più chiaramente pertinente leggendo l’enunciato del seguente teorema, che riguarda la ricerca delle misure invarianti del processo ([36]). Teorema 2.2.1. Definiamo la funzione di partizione: Z(ϕ) = X ϕk g(k)! k∈N (2.6) Q avendo indicato: g(k)! = kj=1 g(j); sia ϕ∗ il raggio di convergenza della serie. Per ogni ϕ < ϕ∗ esiste una misura invariante ν ϕ tale che sotto ν ϕ le variabili {η(x) , x ∈ TNd } sono indipendenti (è una misura prodotto) e per ogni sito x fissato, la distribuzione di η(x) è: ν ϕ [η(x) = k] = ϕk 1 g(k)! Z(ϕ) (2.7) (per g(k) = k si riduce alla distribuzione di Poisson). Il processo aggiunto Ω∗N si ottiene semplicemente sostituendo le probabilità di transizione p(·, ·) con quelle che si ottengono per parità: p∗ (x, x + z) = p(x, x − z). Dunque gli stati ν ϕ verificano il bilancio dettagliato se e solo se la distribuzione di probabilità di transizione è simmetrica: p(z) = p(−z). Le misure ν non dipendono da (x), sono pertanto invarianti per traslazione. Inoltre l’unica P simmetria del sistema è la conservazione del numero di particelle K = x∈T d η(x). Ne segue che esiste una famiglia ad un parametro di N misure stazionarie, parametrizzate dalla densità. Infatti ad ogni valore fissato del parametro ϕ, è associato un valore della densità %(ϕ), costante su tutto il reticolo: %(ϕ) = ν ϕ [η(x)], per ogni x. Sia ϕ(%) la funzione inversa. Affinché le misure stazionarie siano parametrizzate con la densità, è sufficiente porre ν% [η] = ν ϕ(%) [η]. La funzione ϕ(·) è allora data da ϕ(%) = ν% [g(η(0))]. 38 Il parametro ϕ ha un significato interessante che emerge traducendo quanto ottenuto nel linguaggio della meccanica statistica classica, nella quale è più immediata una lettura termodinamica della trattazione. Il sistema ha numero di particelle fissato ma non energia fissata: ci aspettiamo che lo stato di equilibrio sia la distribuzione canonica di Gibbs να [η] ∼ e−H(η) , dove H(η) è l’hamiltoniana. Coerentemente con il fatto che gli stati stazionari να sono Q misure prodotto (να [η] = x∈T d να [η(x)], è il teorema precedente), l’ipotesi N di interazioni locali rende lecito supporre fattorizzata la distribuzione, cioè l’energia totale Pè costituita dalla somma di identici contributi dovuti ai singoli siti: H(η) = x∈T d H0 (η(x)). Per questo, all’equilibrio ogni sito reticolare N può essere considerato come un sistema statistico indipendente, in cui il numero di particelle non è più fissato. Allora ognuno di questi sistemi indipendenti sarà un ensemble grancanonico di Gibbs: ν[η(x) = k] ∼ ϕk e−H0 (k) . Confrontando con la (2.7) possiamo interpretare ϕ come fugacità del gas ϕ = eµ , dove µ è il potenziale chimico, e Z(ϕ) come funzione di granpartizione, dalla quale, come noto, si ricava tutta la termodinamica del sistema. Ad esempio per la densità si ottiene, nota la fugacità: ϕ∂ϕ log Z(ϕ) = α(ϕ) = Eν ϕ [η(0)] Dal teorema precedente è chiaro che condizione necessaria e sufficiente affinché gli stati stazionari soddisfino il bilancio dettagliato è la parità della dinamica: p(z) = p(−z). Dal punto di vista termodinamico tuttavia, l’equilibrio è associato allo spostamento medio definito dalle probabilità di transizione: X z= zp(z). z∈Zd Se lo spostamento medio è nullo, non c’è flusso netto di materia in nessuna direzione all’interno della scatola, e il sistema è in uno stato stazionario di equilibrio. Se invece z 6= 0, c’è un flusso medio di materia nella direzione z, in questo caso il sistema è in uno stato stazionario fuori dall’equilibrio. 2.2.3 modello di Ising stocastico Il modello di Ising stocastico è forse il più famoso tra i sistemi di particelle interagenti, è stato introdotto da Glauber (1963) per descrivere la dinamica stocastica di sistemi ferromagnetici. Data l’interpretazione abituale, la variabile di sito è definita in modo tale d da assumere i valori ±1; pertanto lo spazio delle configurazioni è {−1, 1}Z . 39 Un sito x ∈ Zd rappresenta la posizione di un atomo in un ferromagnete e η(x) = ±1 rappresenta il valore della proiezione dello spin dell’atomo stesso lungo una prefissata direzione (ad esempio quella di un campo magnetico esterno). Una generalizzazione consiste nel prendere variabili di sito che possano assumere valori su tutta la sfera tridimensionale ∂S 2 invece che solo sui due poli: questo è il modello di Heisenberg, che presenta profonde connessioni con il processo di esclusione, come vedremo. Dalla fisica generale sappiamo che in un ferromagnete gli stati di minima energia sono quelli in cui gli spin sono allineati e concordi (per un diamagnete è il contrario, per cui il modello di Ising descrive anche i diamagneti, a patto di cambiare il segno all’interazione). La dinamica viene specificata stabilendo che in un sito avviene uno “spinflip” (cioè la transizione 1 −1) con tasso X exp {−βJ η(x)η(y)}. y:|x−y|=1 Da qui si vede che giustamente come la transizione in x sia spronata dalla presenza di spin opposti nei siti primi vicini a x, e 1/β è interpretata come la temperatura. La costante J misura l’entità dell’accoppiamento tra spin e il suo segno definisce il tipo di magnete. Uno dei problemi più studiati del modello di Ising è quello dell’esistenza di più fasi e delle transizioni tra esse. A seconda dei valori dei parametri (βJ) e d il sistema è fortemente ergodico (ha cioè un’unica misura invariante) o ha più misure invarianti (indice dell’esistenza di transizioni di fase). E’ noto ([36]) che è che per d = 1 il sistema è sempre ergodico, mentre per d ≥ 2 esistono delle temperature critiche in cui nascono nuove fasi (cioè nuovi stati stazionari). 2.2.4 modello elettorale Il modello elettorale, a dispetto del nome, non è stato introdotto per studiare modelli politici, bensı̀ perché i modelli elettorali sono esattamente la classe di sistemi di spin nei quali la dualità può essere applicata nella maniera più fruttuosa. Il modello fu introdotto da Holley e Liggett nel 1975 ([36]). d Lo spazio delle configurazioni è {0, 1}Z e la dinamica evolve secondo i tassi di transizione 1 X 11{η(x)6=η(y)} . 2d y:|y−x|=1 Nell’interpretazione di Holley e Liggett i siti x ∈ Zd rappresentano elettori che possono votare per due diverse fazioni politiche (0 o 1) e nella decisione 40 tendono ad adottare la posizione politica delle persone a loro “vicine” (in realtà questo modello si può prestare a molteplici interpretazioni più o meno fantasiose). Si capisce immediatamente che il sistema ammette due misure invarianti banali: quella concentrata in η ≡ 0 (cioè η(x) = 0 , ∀x) e quella concentrata in η ≡ 1 (cioè η(x) = 1 , ∀x). Chiaramente ci si chiede se possibili altri stati stazionari (che descrivono situazioni più realistiche in cui non tutti votano per lo stesso candidato). Si trova che ciò è possibile solo per d ≥ 3, ed in tal caso esiste una famiglia ad un parametro di stati stazionari µρ , tali che µρ [η(x) = 1] = ρ (cioè ρ rappresenta la percentuale di votanti che appoggiano il candidato 1). 2.3 Processi di interazione di sfere dure o di esclusione Il processo di esclusione si presta per la modellizzazione di molti sistemi di vario interesse: il moto di particelle, il flusso di traffico, la produzione di proteine nelle celle di ribosomi, la lettura di messaggi genetici nelle informazioni trasportate dall’RNA, etc. ([37]). Il processo di esclusione è il processo che sarà preso in esame per tutto il lavoro, per questo verrà qui discusso con il formalismo di questo capitolo in uno spazio maggiore rispetto agli altri modelli. I risultati sulle misure invarianti che riporteremo di seguito potranno essere confrontati con quelli dei prossimi capitoli. Tali risultati sono importanti per conoscere il processo di esclusione e per mostrare come possono essere generalizzati applicando tecniche algebriche. Non sono invece essenziali per la definizione e il confronto di puri formalismi. Nel processo di esclusione ogni sito x può essere solo occupato (η(x)=1) o vuoto (η(x)=0). La dinamica è una dinamica di salto: la particella salta da un sito pieno a uno vuoto, perciò la configurazione cambia in due siti contemporaneamente. Inoltre la principale differenza rispetto ai processi zero range è proprio che il numero di occupazione di ogni sito può essere solo 0 o 1, cioè è implementato un principio di esclusione, sono possibili solo i salti verso siti vuoti e non possono coesistere due particelle in un singolo sito. In questo modello, le particelle tendono a muoversi su S = Zd (noi prenderemo sempre d = 1) come catene di Markov a tempo continuo indipendenti con tempi d’attesa esponenziali e probabilità di transizione da x a y pari a p(x, y), ma l’occupazione multipla è proibita. Generalmente il numero delle misure invarianti non banali, il numero delle fasi e il numero delle costanti del moto sono in qualche modo legati, un po’ 41 come accade nella distinzione tra catene di Markov riducibili e irriducibili. Nel processo di esclusione, a seconda delle simmetrie e delle condizioni al bordo ci possono essere varie grandezze conservate e perciò diversi diagrammi delle fasi. La definizione più conveniente per scrivere il generatore è la (2.2). In questo modo il generatore del processo è dato da: X (Ωf )(η) = c(x, y ; η)[f (η x,y ) − f (η)]. (2.8) x,y La somma è effettuata su {0, 1}Λ , dove Λ è il reticolo dove si svolge il processo, che a seconda delle condizioni al bordo può imporre la conservazione del numero di particelle o meno. Sulla funzione c si fanno ipotesi diverse in base al particolare processo che si vuole usare. Tipicamente si fa l’ipotesi di non degenerazione della dinamica: c(x, y ; η) 6= 0 se |x − y| = 1 e η(x) 6= η(y). (2.9) La condizione è stata posta per |x − y| = 1, cosı̀ c’è interazione per lo meno tra primi vicini, ma potrebbe esserci interazione anche tra siti non adiacenti. Più in generale la richiesta intende permettere alla dinamica di connettere tutte le configurazioni tra loro, in modo da poter usufruire dei teoremi di esistenza e unicità per la misura dello stato stazionario; dunque anche condizioni diverse possono essere utilizzate. Un’altra ipotesi frequente è che il range dell’interazione sia finito (c(x, y ; η) = 0 se |x − y| ≥ R). A volte poi i tassi di transizione vengono scelti invarianti per traslazione, o addirittura scelti in modo che lo stato stazionario sia quello della distribuzione canonica con una data hamiltoniana. Per c(x, y ; η) = p(x, y)η(x)(1 − η(y)) + p(y, x)η(y)(1 − η(x)), si ottiene il processo di esclusione semplice. In questo caso il generatore (da confrontare con la scrittura che ne daremo nel prossimo capitolo) è definito da X (Ωf )(η) = η(x)(1 − η(y))p(x, y)[f (η x,y ) − f (η)], (2.10) x,y cosı̀ le probabilità di transizione dipendono solo dai siti di partenza e di arrivo, con l’ipotesi che sia rispettata l’esclusione, garantita dal fattore η(x)(1−η(y)) (nullo se η(x) = 0 o η(y) = 1), e che X sup p(x, y) < ∞. (2.11) y∈S x∈S Quest’ultima ipotesi è la versione adattata al nostro caso delle ipotesi (che non abbiamo fornito) necessarie per la validità del teorema fondamentale di 42 Hille-Yosida-Liggett (cf. §2.1). Il significato di questa ipotesi è spiegato a pag. 210 di ([37]). La (2.11) è automaticamente soddisfatta se p è simmetrica o invariante per traslazioni. Nei prossimi capitoli prenderemo le probabilità di transizione nella forma p(x, y) = dL δ(x + 1, y) + dR p(x − 1, y). 2.3.1 misure invarianti Il problema di trovare le misure invarianti del processo di esclusione è ancora aperto, anche se molte informazioni sono state ormai ottenute. Quando le condizioni al bordo impongono che il numero di particelle sia una costante del moto, le δ-misure che corrispondono alla configurazione con tutti i siti pieni o a quella con tutti i siti vuoti sono senz’altro invarianti. In realtà un’intera famiglia a un parametro di misure stazionarie può essere facilmente trovata se il sistema è conservativo. Il parametro è la densità α ∈ [0, 1] di particelle. Se ad esempio S = TNd vale infatti la seguente: Proposizione 2.3.1. Gli stati stazionari del processo sono tutte e sole le misure prodotto invarianti per traslazione di Bernoulli να su {0, 1}S : Y να [η] = να [η(x)] x∈S con marginali α: να [η(x) = 1] = α ; να [η(x) = 0] = 1 − α. Come per il processo zero range, il generatore aggiunto Ω∗N rispetto ogni misura να si ottiene sostituendo le probabilità di transizione con quelle trasformate sotto parità: p∗ (x, x + z) = p(x, x − z). Dunque gli stati να verificano il bilancio dettagliato se e solo se la dinamica è simmetrica: p̃(z) = p̃(−z), dove p̃(·) è la restrizione di p(·, ·) al secondo argomento centrato in x = 0. Ciò è conseguenza del fatto che (cf. teorema 2.1 cap. VIII di [36]) ogni misura di Bernoulli è invariante sotto l’azione di una qualsiasi matrice doppiamente stocastica, e che se π(·) è una misura che soddisfa il bilancio π(x) . dettagliato allora la misura prodotto να (·) è invariante, con α(x) = 1+π(x) 2.3.2 sistema simmetrico Il sistema è simmetrico se p(x, y) = p(y, x). 43 In questo caso il sistema è, come vedremo anche in seguito, autoduale (cf. §2.1). Ciò è spiegato dal prossimo teorema. Sia Y la collezione di tutti i sottoinsiemi finiti di S, e definiamo A = {x ∈ S : η(x) = 1}. Dall’identificazione ηt ↔ At risulta automaticamente definito il processo At . Teorema 2.3.1. Se A ∈ Y e η ∈ X, allora P η [ηt (x) = 1 ∀ x ∈ A] = P A [η(x) = 1 ∀ x ∈ At ] per ogni t ≥ 0. Il teorema appena enunciato ([37]) è di fondamentale importanza per capire come, tradotto in un linguaggio algebrico, fornirà nel cap. 3 il modo di semplificare il calcolo di importanti grandezze fisiche dei processi come le funzioni di correlazione. Inoltre, in un contesto algebrico sarà possibile utilizzare, per gli stessi scopi, strumenti simili adattati per il processo asimmetrico, che non è autoduale e nel formalismo di questo capitolo non può essere trattato con tecniche di dualità. La simmetria del processo e la sua conservatività fanno sı̀ che le funzioni di correlazione a k punti al tempo t dipendano dalle condizioni iniziali solo tramite le correlazioni a k punti (la cardinalità di A non cambia nel tempo). Dunque la dipendenza dalle condizioni iniziali è relativamente semplice, come si evince dall’enunciato del prossimo teorema ([37]). Sia X p(x, y)α(y) = α(x), x ∈ S}. H = {α : S → [0, 1] | y Teorema 2.3.2. Supponiamo che la catena di Markov con matrice delle probabilità di transizione p(·, ·) sia irriducibile. Allora 1. per ogni α ∈ H esiste: µα = lim να S(t) ∈ I; t→∞ 2. µα {η : η(x) = 1} = α(x) ∀ x ∈ S; 3. µα = να se e solo se α è costante su S; 4. I = {µα : α ∈ H}. Osservazione 2.3.1. Il punto 4 stabilisce una corrispondenza biunivoca tra le misure invarianti estremali e tutte le funzioni in H (armoniche). Se H consiste di sole funzioni costanti, allora il teorema ci dice che le sole misure invarianti estremali sono le misure prodotto omogenee. 44 2.3.3 sistema invariante per traslazioni Noi ci limiteremo sempre al processo invariante per traslazione. Assumiamo ora che p(x, y) = p(0, y − x), e che p sia doppiamente stocastica. Chiamiamo S l’insieme delle misure su X = {0, 1}S invarianti per traslazione. E’ possibile dimostrare il seguente Teorema 2.3.3. Con la notazione introdotta: 1. (I ∩ S)e = {νρ : ρ ∈ [0, 1]}; P P 2. se d = 1, x |x|p(0, x) < ∞ e x xp(0, x) = 0, allora Ie = {νρ : ρ ∈ [0, 1]}. Anche se non sono state individuate ancora tutte le misure invarianti per il processo di esclusione asimmetrico invariante per traslazioni, è comunque possibile dimostrare che le misure prodotto νρ sono estremali. Teorema 2.3.4. Per ogni costante ρ ∈ [0, 1], νρ ∈ Ie . Le dimostrazioni di questi due teoremi si trovano in [37]. L’enunciato dei precedenti teoremi sarà valorizzato dal confronto con i risultati analoghi che otterremo con gli approcci dei prossimi capitoli. 2.3.4 il processo asimmetrico e diagramma delle fasi In questo paragrafo S = Z, e dL p(x, y) = dR 0 se y = x + 1, se y = x − 1, se y 6= x ± 1; (2.12) con dL , dR ∈ [0, 1], dL + dR = 1. Sia inoltre σk lo shift di k unità sul reticolo. Immaginiamo di preparare inizialmente il sistema con una distribuzione ( λ se x < 0, νλ,ρ {η : η(x) = 1} = (2.13) ρ se x ≥ 0. Lo studio di questo sistema mette in luce un comportamento molto interessante della dinamica, che dà vita a profili di shock, e che può euristicamente essere predetto utilizzando l’equazione di Burgers che governa il comportamento su larga scala del processo ([37]). L’andamento asintotico della distribuzione, con il dato iniziale supposto, è comunque interessante non solo per lo studio degli shock. Infatti nonostante 45 la particolarità dello stato iniziale, nel limite si ottiene lo stesso diagramma delle fasi che si ottiene sotto condizioni molto più generali, come vedremo; ciò perché la dipendenza dallo stato iniziale è relativamente debole. Citiamo soltanto i risultati ([37]) analoghi a quelli che ricaveremo in seguito tramite un formalismo più algebrico. Teorema 2.3.5. Per ogni a, νλ,ρ S(t)σvt+a√t −→ ανλ + (1 − α)νρ , dove α = P (W ≥ a), e W è una variabile casuale normalmente distribuita di media zero e varianza ∆. Corollario 2.3.1. ν1/2 ν ρ lim νλ,ρ S(t) = t→∞ νλ 1 ν + 12 νλ 2 ρ se se se se λ ≥ 1/2 e ρ ≤ 1/2, ρ ≥ 1/2 e λ + ρ > 1, λ ≤ 1/2 e λ + ρ < 1, 0 < λ < ρ e λ + ρ = 1. (2.14) Per definizione diciamo che ogni misura invariante caratterizza una fase del sistema. In questo caso perciò il diagramma delle fasi è suddiviso in tre regioni con misure invarianti ν1/2 , νρ , νλ . Esiste poi una linea di coesistenza tra due fasi determinata da λ+ρ = 1. Il precedente corollario sarà confrontato con quello del §4.5. 46 Capitolo 3 Il formalismo hamiltoniano quantistico In questo capitolo si presenta il primo e più consolidato dei due approcci di natura algebrica ai sistemi di particelle interagenti. Più precisamente questo capitolo è dedicato al formalismo detto hamiltoniano e al suo utilizzo nello studio del processo di esclusione semplice. Questo formalismo ha portato molti vantaggi e si presta in modo naturale ad una estensione verso la probabilità algebrica. Nel formalismo hamiltoniano, inizialmente le variabili scalari di sito sono rimpiazzate da operatori diagonali (operatori numero o di spin). Successivamente vengono scritti i generatori della dinamica come funzioni di operatori di flip su un singolo sito e di operatori di creazione e distruzione (sempre presenti in coppia per rappresentare un salto). In questo modo l’azione del generatore su una data configurazione è di facile lettura e interpretazione. D’altra parte la dinamica e la statica sono ora entrambe descritte tramite operatori in un modo che risulta formalmente riconducibile a quello della meccanica statistica quantistica dell’equilibrio (qualche dettaglio in più su questa connessione è fornito in appendice B). Lo scopo del capitolo è, oltre a descrivere il formalismo hamiltoniano, presentare in modo organico, seguendo il caso del processo di esclusione, i principali risultati ottenuti con esso, finora sparsi in letteratura. In questo modo metteremo in luce l’efficacia della natura algebrica dell’approccio, che consente di ottenere importanti risultati se si traducono in un linguaggio algebrico anche concetti come la dualità, l’enantiodromia o l’integrabilità. Il conseguimento di questi risultati poggia in modo determinante sulla descrizione algebrica delle simmetrie del sistema. Il lettore che volesse soltanto studiare le connessioni tra il formalismo hamiltoniano e quello matriciale può passare dal paragrafo 3.1 direttamente al prossimo capitolo, dopo avere letto 47 l’inizio dei paragrafi 3.5 e 3.6. Il paragrafi 2, 3, 4 sono infatti dedicati ad applicazioni basilari del linguaggio algebrico. I paragrafi 5 e 6 contengono le proprietà principali del processo di esclusione dedotte con il formalismo hamiltoniano e quanto spiegato nei paragrafi 2, 3 e 4. Più in dettaglio il capitolo è strutturato come segue. Il primo paragrafo introduce l’equazione del moto della misura di probabilità nel linguaggio spinoriale, e descrive il modo di studiare le proprietà probabilistiche del sistema in questo contesto, facendo vedere come si calcolano le attese. Successivamente si illustrano i vantaggi di scrivere gli spinori che rappresentano la misura di probabilità come prodotti tensoriali. Questo ci guiderà pure nel punto concettualmente più importante del prossimo capitolo, in cui si discute la connessione col formalismo ivi spiegato. Segue nel secondo paragrafo un breve accenno, fatto tramite un linguaggio algebrico, alla definizione e alla descrizione delle simmetrie della catena di Heisenberg, utilizzate nel seguito. Il terzo paragrafo riprende i concetti di natura ergodica dei processi stocastici, descritti nel capitolo precedente, nel formalismo hamiltoniano; gli stati stazionari qui definiti saranno poi oggetto di indagine nei paragrafi successivi. Nel paragrafo 4 viene discussa la nozione di mapping esatto tra processi stocastici, ampiamente utilizzata nei due paragrafi successivi, dedicati al processo di esclusione simmetrico prima, parzialmente asimmetrico poi. Questa nozione di mapping esatto è il concetto chiave nell’utilizzo del linguaggio algebrico fatto nei paragrafi 5 e 6, infatti grazie ad essa sarà possibile ricavare importanti informazioni sul processo di esclusione. Nel paragrafo 7 viene rivisitato il linguaggio hamiltoniano in un contesto più naturale per le particelle del processo di esclusione, quello cioè anticommutativo ottenuto tramite la trasformazione di Jordan-Wigner. Questa traduzione mette in luce la possibilità di utilizzare le proprietà dello spazio di Fock antisimmetrizzato per integrare le forme di Fermi libere, e permette di creare le migliori condizioni per stimare gli autovalori di forme di Fermi non libere. Questo lavoro, che non è stato ancora completato, è illustrato nell’ottavo e ultimo paragrafo, il cui contenuto è originale. 3.1 Formalismo quantistico per l’equazione del moto Il contenuto di questo paragrafo è essenziale per le comprensione del lavoro svolto nel prossimo capitolo. A differenza di quanto accade in meccanica classica, nei sistemi di particelle interagenti le particelle sono per semplicità vincolate su un reticolo e 48 la configurazione del sistema è completamente determinata dalla conoscenza del valore di una variabile in ogni sito; non si devono specificare posizione e momento coniugato di ogni particella. Poiché la dinamica è stocastica diciamo che lo stato del sistema al tempo t è noto quando è nota la probabilità Pη (t) che il sistema si trovi nella configurazione η, per ogni η nello spazio delle configurazioni X. 3.1.1 la master equation La descrizione dell’evoluzione temporale del sistema è descritta da un’equazione del moto per la probabilità P. (·): l’equazione di Kolmogorov vista nel capitolo precedente. Nell’ambito dei sistemi interagenti trattati attraverso il formalismo che stiamo per descrivere, l’equazione di Kolmogorov prende generalmente il nome di master equation. La ricerca di un legame tra il formalismo hamiltoniano e quello matriciale del prossimo capitolo sarà basata essenzialmente sull’analisi della master equation. Immaginando per ora che il sistema evolva a tempo discreto, e denotando con pη→ζ le probabilità di transizione, si dovrà avere X Pη (t + 4t) = pζ→η Pζ (t). (3.1) ζ∈X Le probabilità di soggiorno ps (η) ≡ pη→η non sono quantità indipendenti: sono P determinate dalla conservazione delle probabilità ps (η) = 1 − ζ6=η pη→ζ . Il passaggio al tempo continuo si effettua in modo naturale. Definiamo ωη→ζ = pη→ζ /4t. Attraverso uno sviluppo di Taylor la (3.1) si trasforma in X d Pη (t) = [ωζ→η Pζ (t) − ωη→ζ Pη (t)]. dt ζ6=η (3.2) Il tempo medio di soggiorno τη ≡ ps (η)/(1−ps (η)), è l’inverso del parametro λ della legge di distribuzione esponenziale del tempo di attesa tra due evoluzioni −1 della P dinamica, già introdotto nel capitolo sulle catene di Markov: λ = τη ≡ ζ6=η ωζ→η . Una presentazione vantaggiosa di quanto appena esposto, è quella basata sulla notazione di Dirac per gli spazi di Hilbert in meccanica quantistica. Infatti la (3.2) è formalmente analoga all’equazione di Schrödinger. In questo modo la distribuzione di probabilità è rappresentata da un vettore (ket) di probabilità dipendente dal tempo |P (t)i in uno spazio opportuno. Per acquisire familiarità con il formalismo, consideriamo per ora uno spazio 49 delle configurazioni con due soli elementi: ad esempio un sistema su un reticolo costituito da un solo sito in cui si trova una particella di spin 1/2, X = {↓, ↑} ↔ {−1, 1}. Imponiamo la corrispondenza X 3 η ←→ |ηi ∈ E(C2 ), dove E(V ) è la base canonica dello spazio vettoriale V . Con i vettori trasposti hη| si forma la base dello spazio duale e si definisce il prodotto scalare hζ|ηi = δζ,η . Il vettore di probabilità è definito da X |P (t)i = Pη (t)|ηi (3.3) η e la (3.1) viene scritta |P (t + 4t)i = T |P (t)i, (3.4) dove T è la matrice delle probabilità di transizione definita da hζ|T |ηi = Tζη = pη→ζ . Identificando |−i = 0 1 , |+i = 1 0 possiamo scrivere |P (t)i = P↓ (t)|−i + P↑ (t)|+i = P↑ (t) P↓ (t) . (3.5) Se assumiamo che i tassi di spin-flip siano p per |+i e q per |−i, la (3.4) diviene |P↑ (t + 4t)i = (1 − p)P (t)↑ + qP↓ (t) |P↓ (t + 4t)i = pP (t)↑ + (1 − q)P↓ (t) (3.6) (3.7) A questo punto possiamo esplicitare la matrice T . Stabiliamo una notazione per la base di GL(2, R): 0 1 0 0 1 0 0 0 + − a = , a = , n= , m= . (3.8) 0 0 1 0 0 0 0 1 Ne segue − + T = pa + (1 − p)n + qa + (1 − q)m = 50 1−p q p 1−q . (3.9) In questo modo, se le probabilità di transizione sono indipendenti dal tempo, ponendo t = k4t la soluzione di (3.4) può essere facilmente esibita: |P (t)i = T k |P (0)i. L’azione della matrice di trasferimento ha una interpretazione semplice. Il sistema parte da uno stato η0 e al tempo k4t arriva ad uno stato ηk passando attraverso gli stati η1 , η2 , ..., ηk−1 . Questa traiettoria avviene con probabilità pη0 →η1 pη1 →η2 · · · pηk−2 →ηk−1 pηk−1 →ηk . L’elemento di matrice hη0 |T k |ηk i è proprio la somma su tutti i possibili stati intermedi tra η0 e ηk di queste probabilità: X pη0 →η1 pη1 →η2 · · · pηk−2 →ηk−1 pηk−1 →ηk . hη0 |T k |ηk i = η1 ,...ηk−1 ∈X Per tornare al tempo continuo, scriviamo T = I − H4t. I termini fuori diagonale di H sono dati da Hη,ζ = −ωζ→η , e sono negativi; i termini diagonali sono positivi e pari a Hη,η = τ −1 (η), cioè la somma di tutti i “tassi in uscita” ωη→ζ . Possiamo finalmente dare l’espressione definitiva della master equation quantistica (3.2): d |P (t)i = −H|P (t)i, dt (3.10) |P (t)i = e−Ht |P (0)i. (3.11) la cui soluzione formale è La (3.10) coincide esattamente con la (3.2) se si moltiplica la (3.10) da sinistra per hη|. L’hamiltoniana H è come si vede il generatore delle traslazioni temporali, cioè il generatore del processo di Markov che costituisce l’evoluzione del sistema fisico. In altre parole, H è un generatore esattamente nello stesso senso dei capitoli precedenti sulle catene di Markov in generale e sui processi di particelle interagenti (cf. §1.3, th. Hille-Yosida). La (3.10) è formalmente analoga all’equazione di Schrödinger con tempo immaginario. L’analogia però non deve essere spinta troppo avanti. Infatti gli autovalori di H non hanno un legame evidente con i livelli energetici (non abbiamo mai parlato di energia) del sistema di particelle, corrispondono piuttosto a costanti di decadimento temporale. Inoltre H non è in generale hermitiana e non può essere pertanto considerata una osservabile nel senso della meccanica quantistica. Infine i valori di attesa si calcolano in modo diverso rispetto alla meccanica quantistica, dove si usano ampiezze di probabilità a valori complessi. Esiste tuttavia una estensione del formalismo 51 hamiltoniano basata sulla probabilità algebrica che permette di spingere un po’ più avanti l’analogia con la meccanica quantistica (un breve accenno è presente nell’appendice B). Osservazione 3.1.1. L’operatore a+ manda |−i in |+i e annulla |+i, è perciò detto di creazione. L’operatore a− si comporta nella maniera opposta ed è perciò detto di distruzione o annichilazione. L’operatore n manda |+i in sé e annulla |−i, cioè “seleziona” gli stati con sito pieno ed è di conseguenza chiamato operatore numero o di conservazione. L’operatore m infine agisce nel modo opposto a n, potremmo cioè dire che seleziona gli stati nei quali il sito su cui agisce è vuoto. 3.1.2 valori di attesa Introduciamo il vettore riga (bra) h11| = X hη| η con tutte le componenti uguali a uno. La conservazione della probabilità si scrive X Pη (t) = 1 ∀ t. h11|P (t)i = η Ciò implica, come è facile verificare, che per tempi discreti valga h11|T = h11|, (3.12) che per tempi continui equivale a h11|e−Ht = h11| ∀ t, (3.13) h11|H = 0. (3.14) che a sua volta implica Una matrice reale che soddisfa la (3.12) con tutti gli elementi in [0, 1] è detta matrice di trasferimento stocastica. Come si deduce banalmente dalla (3.14), in una hamiltoniana stocastica H la somma degli elementi su una qualunque colonna è zero. Le quantità più comuni da calcolare in un esperimento sono le attese X hF i = F (η)P (η) η 52 delle osservabili (F ). Questa media è effettuata su una serie di prove ripetute nelle stesse condizioni, in particolare si deve preparare il sistema sempre con lo stesso stato iniziale e fare le misure sempre dopo lo stesso tempo trascorso. Fisicamente però è più frequente che lo stato iniziale non possa essere sempre la stessa configurazione, ma una miscela di varie configurazioni con la stessa distribuzione. In questo caso la media va effettuata anche su tutte le configurazioni iniziali con il loro peso, la notazione per questa doppia media sarà hF (t)iP0 , se P0 = Pη (0) è la distribuzione iniziale. Nel formalismo hamiltoniano quantistico le osservabili sono associate a delle matrici diagonali X F = F (η)|ηihη|, η cosı̀ che hF i = X F (η)P (η) = h11|F |P (t)i. η In questa descrizione la master equation fa evolvere le probabilità e non le osservabili proprio come nel formalismo di Schrödinger, ma come in meccanica quantistica esiste una descrizione alternativa analoga a quella di Heisenberg. Usando infatti la (3.13) si ricava hF (t)iP0 = h11|F |P (t)i = h11|F e−Ht |P (0)i = h11|eHt F e−Ht |P (0)i = h11|F (t)|P (0)i, (3.15) avendo definito F (t) = eHt F e−Ht , F = F (0). (3.16) E’ facile dedurre l’equazione del moto d hF (t)i = h[H, F ]i = −hF Hi, dt (3.17) dal teorema di esistenza e unicità dell’equazione differenziale precedente (prima uguaglianza) con soluzione (3.16), e (seconda uguaglianza) dalla (3.14). Attese importanti da calcolare sono le probabilità condizionali P (ζ; t | η; 0) di trovare al tempo t il sistema nello stato ζ, posto che si trovasse nello stato η al tempo zero. Ebbene P (ζ; t | η; 0) = hζ|e−Ht |ηi. 53 3.1.3 sistemi a molti corpi la base tensoriale La descrizione precedente si adatta in modo molto naturale a trattare i sistemi su singolo sito, ma chiaramente si possono analizzare anche i sistemi a molti corpi, a patto di prendere lo spazio delle configurazioni {η} = X abbastanza grande, per esempio con cardinalità 2N , per un sistema a due livelli su N siti. In questo caso però è più agevole inserire la descrizione in uno spazio diverso, che meglio si presti a trattare i sistemi a molti corpi. Anche in questa occasione si possono prendere in prestito le idee della meccanica quantistica. La notazione tensoriale che stiamo per introdurre avrà un ruolo determinante anche nel prossimo capitolo. Su un reticolo di N siti ogni configurazione può essere associata a una N -upla di numeri di occupazione {η(1), ..., η(N )}. L’estensione naturale del formalismo introdotto nel paragrafo precedente si basa, come suggerito dalla meccanica quantistica, su una struttura tensoriale dello spazio degli stati. La generica configurazione sarà allora rappresentata da un ket del tipo {η(1), ..., η(N )} ←→ |η(1)i1 ⊗ · · · ⊗ |η(N )iN . La ripetizione dell’indice di sito serve a evitare problemi di ordinamento dei fattori del prodotto tensoriale, che è un prodotto ordinato; cosı̀ è chiaro che il fattore con indice j si riferisce al sito j indipendentemente dal suo numero ordinale definito dall’ordine lessico-grafico con cui compare nel prodotto. Il numero η(j) sarà cosı̀ slegato dal sito omonimo, anche se spesso si riferirà proprio a esso. Ci riserviamo di omettere gli indici che appesantiscono la notazione quando sarà sufficientemente ovvio il significato delle espressioni. I prodotti del tipo appena scritto formano una base dello spazio C⊗N . Conveniamo di denotare con |k1 ...kl i le configurazioni con i siti k1 , ..., kl pieni e gli altri vuoti. Il vettore |∅i indica lo stato con tutti i siti completamente vuoti, chiaramente non è il vettore nullo. Continueremo inoltre a indicare con h11| il vettore con tutte le componenti di tutti i fattori pari a uno: h11| = N O h11|j = h11|⊗N , . j=1 dove il pedice indica che ci si riferisce ad un singolo fattore o sito (eventualmente specificato). Questo ket è dunque sempre uguale al ket |1, ..., 1i con N argomenti. Vediamo come si imposta in questo formalismo il calcolo delle attese delle densità di occupazione locali ρj = hnj i. In questo linguaggio un operatore con pedice sottintende il prodotto tensoriale con l’identità su 54 tutti gli altri siti, e un’osservabile sarà un prodotto tensoriale di osservabili (matrici) locali. Operatori locali che agiscono su siti diversi commutano. Il P numero totale medio di particelle è dunque l’attesa hN i dell’operatore N = j nj . Le attese delle osservabili sono definite dal bracket dell’operatore associato con il bra h11| e il ket |P (t)i, che è la combinazione convessa di prodotti tensoriali che definisce la misura associata allo stato del sistema (riprenderemo più in là il perché della combinazione). In analogia con il linguaggio non tensoriale, si può alternativamente far evolvere le osservabili (che saranno in generale somme di prodotti tensoriali di operatori) e limitarsi a un singolo prodotto tensoriale che definisce lo stato iniziale. + Definendo PN +l’operatore di creazione (o innalzamento dello spin) globale A come j=1 a si vede subito che − h11| = (h−|. + h+|. )⊗N = h∅|eA , (3.18) P − + dove naturalmente A− = N j=1 a è l’aggiunto di A . E’ abbastanza facile capire il dualismo spin-particella che emerge nelle due trattazioni, perfettad mente analoghe, dei sistemi che vivono su {0, 1, ..., K}Z o su {−K/2, −K/2+ d 1, ..., K/2−1, K/2}Z . Nell’equazione precedente, infatti, avremmo comunque potuto sostituire h−| e h+| con h0| e h1| (con la convenzione che un bra hδ|j rappresenta una configurazione con δ particelle nel sito j). Non ci soffermeremo qui sull’argomento. Torniamo al problema delle misure |P (t)i. Dalle proprietà del prodotto tensoriale si deduce facilmente che una misura rappresentata dal ket |P i = |P1 i ⊗ · · · ⊗ |PN i è una misura prodotto; cioè tutti i singoli prodotti tensoriali sono misure prodotto. Infatti ad esempio hni nj i = h11|ni nj |P i = h11.|P1 i · · · h11.|ni |Pi i · · · h11.|nj |Pj i · · · h11.|PN i = h11.|ni |P ih11.|nj |P i, visto che h11i |Pi i = 1 ∀ i. Per un sistema a due livelli la generica misura prodotto ha la forma |ρi = N O [ρ(i)|1ii + (1 − ρ(i))|0ii ], (3.19) i=1 che se omogenea diventa [ρ|1i. + (1 − ρ)|0i. ] ⊗N 55 = ρ 1−ρ ⊗N . (3.20) La convenzione per i ket è la stessa definita per i bra, per cui |0i. ≡ |∅i. , naturalmente. Con questa scrittura ogni sito è occupato con probabilità ρ e vuoto con la probabilità complementare. Tutte le configurazioni con un fissato numero di particelle hanno la stessa probabilità. Le misure non prodotto devono essere espresse in termini di combinazioni convesse di prodotti tensoriali (ogni misura è miscela opportuna di misure prodotto). Tra le grandezze più importanti da considerare sono le funzioni di correlazione, quelle a m punti sono del tipo hnk1 (t1 ) · · · nkm (tm )i = h11|nk1 e−H(t1 −t2 ) nk2 · · · nkm e−Htm |P (0)i, (3.21) dove gli operatori nkl (tl ) sono definiti secondo la (3.16). Noi tratteremo più spesso correlazioni a tempi uguali, riferiamo tuttavia che le funzioni di correlazione a più tempi sono interessanti anche fisicamente, ad esempio nella risonanza magnetica nucleare multidimensionale. costruzione dell’hamiltoniana quantistica Abbiamo visto che l’hamiltoniana (o generatore) è la derivata temporale della matrice delle probabilità di transizione, ossia la matrice dei tassi di transizione. Questo fornisce una ricetta per costruire esplicitamente H a partire dalla dinamica del sistema. Cerchiamo di capire come si fa con l’esempio che più ci interessa: quello del processo di esclusione. Si ricordi che l’elemento di matrice hζ|H|ηi deve essere l’opposto del tasso della transizione |ηi → |ζi. In questo modello, ad ogni passo le particelle rimangono tutte dove sono (con un certo tasso), oppure una salta dal sito che occupava ad un altro raggiungibile vuoto (con tasso opposto). Concentriamoci dapprima su una coppia fissata di siti. Ad esempio se si vuole l’elemento di H che corrisponde al salto di una − particella dal sito i al sito j, sarà coinvolto l’operatore a+ j ai , che connette solo gli stati |1ii |∅ij e |∅ii |1ij , cioè l’unico suo elemento diverso da zero (e − pari a uno) è h∅i |h1j |a+ j ai |1i i|∅j i; infatti questo operatore crea una particella in j dopo averla distrutta in i. Dunque se il salto in questione avviene con tasso $, basta scrivere H come somma di operatori tra i quali deve com− parire a+ j ai con coefficiente $ come unico operatore che connetta gli stati |1ii |∅ij e |∅ii |1ij . Poiché inoltre, come è immediato verificare, l’operatore ni mj è l’unico che connette (con peso 1) lo stato di partenza |1ii |∅ij con sé stesso (cioè la transizione complementare), esso dovrà figurare tra gli addendi con peso −$. Torneremo chiaramente sull’hamiltoniana del processo di esclusione, scrivendola per intero. E’ utile notare le seguenti uguaglianze: h11|a− 1|nk , h11|a+ 1|mk k = h1 k = h1 56 (3.22) Il lettore interessato può trovare un modo alternativo di ragionare per costruire il generatore in [48]. Osservazione 3.1.2. La definizione di matrice stocastica dipende dalla base, per cui può capitare che una hamiltoniana non stocastica diventi tale dopo un cambio opportuno di base: H stoc = B −1 H non−stoc B. Esistono casi in cui dopo il cambio di base il processo manifesti in modo palese utili proprietà (come l’integrabilità) altrimenti nascoste (vedremo un esempio). I prossimi tre paragrafi introducono dei concetti che saranno utilizzati in seguito per trovare importanti proprietà del processo di esclusione. Cosı̀ facendo metteremo in luce le potenzialità di metodi algebrici accostati al formalismo hamiltoniano. Il contenuto di questi paragrafi è essenziale solo per lettura dei due successivi, non per il capitolo 4. 3.2 Simmetrie della catena di Heisenberg Il modello che stiamo per definire è legato al processo di esclusione, come vedremo, per questo ne discutiamo qui le simmetrie che ci serviranno in seguito. L’hamiltoniana della catena di Heisenberg in caso di isotropia è X X σkz , (3.23) (~σk · ~σl − Ik · Il ) − h H = −J <k,l> k espressa in funzione delle matrici di Pauli (iσ 0 , σ 1 , σ 2 , σ 3 ), con σ 0 = σ t = I, σ 1 = σ x = a+ + a− , σ 2 = σ y = i(a− − a+ ), σ 3 = σ z = n − m. Una delle proprietà fondamentali della catena di spin quantistica di Heisenberg è quella di essere, in assenza di campo magnetico esterno (h = 0), simmetrica rispetto al gruppo delle rotazioni SU (2). E’ infatti facile verificare che ogni matrice di interazione ~σk · ~σl commuta con X X X a ± , e Az = σkz /2 = (nk − Ik /2). (3.24) A± = k k k Queste matrici formano una rappresentazione tensoriale di spin 1/2 dell’algebra di Lie SU (2), definita dal seguente prodotto di Lie [A+ , A− ] = 2Az , [A± , Az ] = ±A± . 57 (3.25) Pertanto H è effettivamente simmetrica sotto l’azione di SU (2): [H, A±,z ] = 0. (3.26) Dalla teoria della rappresentazione del gruppo di Lie SU (2) nota dalla meccanica quantistica, sappiamo che lo stato fondamentale di H è 2N+1 volte degenere; il significato fisico di questa degenerazione è che alla temperatura zero gli spin sono nello stato fondamentale ogni volta che sono paralleli, puntando in una qualunque direzione. In presenza di un campo magnetico esterno la simmetria si riduce al gruppo U (1), generato da Az . Questa simmetria corrisponde all’invarianza per rotazioni attorno all’asse ẑ del campo esterno. Una generalizzazione importante del ferromagnete di Heisenberg isotropo è l’hamiltoniana di Heisenberg anisotropa, in cui l’accoppiamento nella direzione del campo esterno è diverso: X X σkz . (3.27) H XXZ (h) = −J [σkx · σlx + σky · σly + 4(σkz · σlz − I)] − h k <k,l> Come è facile intuire questo modello ha la stessa simmetria U (1) del ferromagnete isotropo in presenza di campo esterno non nullo (in entrambi i casi solo la componente z è diversa dal caso isotropo con campo nullo). Vedremo, nel caso del processo di esclusione, come vengano evidenziate e utilizzate le simmetrie del sistema per integrarlo. 3.3 Comportamento asintotico In questo paragrafo si riprendono in chiave hamiltoniana alcuni concetti già visti nei due precedenti capitoli. Tali concetti sono importanti per lo studio che faremo del processo di esclusione, ed è utile presentarli in una forma adatta al formalismo di questo capitolo, come vedremo ad esempio nel paragrafo. Il lettore interessato solo alla connessione tra i formalismi, almeno in una prima lettura può saltare questo paragrafo. stati stazionari L’analisi degli stati stazionari è diffusamente presente in questa tesi; tali stati verranno qui presentati in forma operatoriale. Fissiamo un sistema con hamiltoniana H. Abbiamo già detto che un vettore di probabilità stazionario |P ∗ i è tale che H|P ∗ i = 0. Una rappresentazione utile di questo ket è quella che si ottiene tramite il seguente operatore 58 diagonale P∗ = X P ∗ (η)|ηihη| η in questo modo |P ∗ i = P ∗ |11i. Chiaramente i numeri P ∗ (η) sono le probabilità stazionarieQdelle configurazioni η. Ad esempio lo stato (3.20) è associato a P ∗ = j (1 − ρ)mj + ρnj ). E’ noto che in un sistema con spazio degli stati finito esiste sempre una misura invariante, e che zero è l’autovalore del generatore con parte reale più piccola (inoltre non ci sono altri autovalori immaginari puri). E’ altresı̀ noto che ogni misura stazionaria P ∗ è una misura limite per un opportuno dato iniziale P0 : |P ∗ i = limt→∞ exp(−Ht)|P0 i. Se H non è hermitiana P ∗ non è il trasposto di |11i, ma qualcosa di più complicato. ergodicità Non è altrettanto facile sapere in generale quanti sono i diversi stati stazionari (nel nostro linguaggio: la moltepicità geometrica del nucleo di H, cioè la dimensione dell’autospazio associato all’autovalore 0, dunque quanti vettori linearmente indipendenti possono essere presi in questo autospazio). L’unicità della misura invariante è una caratteristica importante, se non c’è il sistema ha memoria dello stato iniziale per molto tempo; inoltre la media temporale non è univocamente definita e non si può dire che sia uguale alla media sull’ensemble, cioè il sistema non è ergodico. Nei capitoli precedenti abbiamo già visto come questo argomento viene affrontato nell’ambito della dinamica microscopica. L’ergodicità aiuta a studiare il comportamento del sistema per tempi lunghi. La matrice T ∗ = lim e−Ht t→∞ ∗ 2 ∗ è un proiettore: (T ) = T . Per costruzione T ∗ manda ogni stato iniziale nello stato stazionario. Tutte le colonne di T ∗ sono allora uguali (se il sistema è ergodico e con spazio degli stati finito). E’ possibile di conseguenza scrivere T ∗ = |P ∗ ih11|. Se un sistema è decomponibile in classi sconnesse singolarmente ergodiche, ad esempio ciascuna caratterizzata da un fissato numero totale di particelle presenti sul reticolo, si può definire un operatore T ∗ che sarà la somma sui vari settori di operatori di questo tipo (vedremo per il processo di esclusione 59 come prendere, al posto di h11|, le sue proiezioni hK| ristrette al settore con K particelle e ivi uniformi). bilancio dettagliato A volte è importante costruire un sistema che abbia come unica misura invariante una data distribuzione. In questo caso, se la distribuzione è una misura si Gibbs P ∗ (·) proporzionale a exp(−βΦ(·)), un modo è imporre alla dinamica il bilancio dettagliato, cioè, con la nostra simbologia, ω(ζ, η) = exp(−β∆Φ) = exp{−β[Φ(ζ) − Φ(η)]}, da cui P (η)ω(ζ, η) = P (ζ)ω(η, ζ), ζ 6= η. Se è soddisfatto il bilancio dettagliato il sistema si dice in equilibrio. I sistemi all’equilibrio godono di importanti proprietà: 1. il processo generato da H soddisfa il bilancio dettagliato rispetto a P ∗ ; 2. si può scrivere H nella forma H = S(P ∗ )−1 , con una opportuna matrice stocastica simmetrica S; 3. si ha H T = (P ∗ )−1 HP ∗ , dove H T è la trasposta di H. Si osservi che se ne deduce la possibilità di simmetrizzare H: basta notare la trasformazione di similitudine H 7→ (P ∗ )−1/2 H(P ∗ )1/2 = (P ∗ )−1/2 S(P ∗ )1/2 . Poiché questa hamiltoniana è reale, è allora pure hermitiana. Quindi il bilancio dettagliato implica che il generatore simmetrizzato può essere interpretato come hamiltoniana di un sistema quantistico. Quantità importanti che caratterizzano il comportamento all’equilibrio sono pure le correlazioni ritardate lim hF1 (t + τ )F2 (τ )i = hF1 (t)F2 (0)iP ∗ . τ →∞ Con queste grandezze si studiano tipicamente le fluttuazioni dipendenti dal tempo in un sistema che avuto tempo sufficiente per raggiungere l’equilibrio. Dalla proprietà 3 deriva la simmetria per inversione temporale (o reversibilità) delle funzioni di correlazione dipendenti dal tempo all’equilibrio: hF1 (t)F2 (0)iP ∗ = hF2 (t)F1 (0)iP ∗ . In assenza di bilancio dettagliato rimane una corrente netta non nulla J(η, ζ) = P (η)ω(ζ, η) − P (ζ)ω(η, ζ) 60 tra gli stati η e ζ anche in condizioni di stazionarietà. Soltanto la somma di tutte le correnti verso una configurazione e da quella configurazione è nulla nello stato stazionario di non equilibrio. LaPforma stazionaria della master equation (3.10) può essere infatti scritta ζ J(η, ζ) = 0. Queste ultime considerazioni hanno ispirato alcune idee chiave della seconda parte del prossimo capitolo e, come si vedrà del paragrafo 6.2. 3.4 Equivalenza ed enantiodromia Il presente paragrafo è la base delle principali applicazioni che faremo in questo capitolo di metodi algebrici al processo di esclusione. I concetti qui esposti troveranno applicazione nei paragrafi 5 e 6. Abbiamo già incontrato il concetto di dualità, che mette in relazione due processi (cf. §2.1). Ci sono anche altri due modi di mettere in evidenza alcune connessioni tra due diversi processi, e che assieme alla dualità saranno usati per dedurre un’importante proprietà del processo di esclusione: la nozione di equivalenza e quella di enantiodromia. Quest’ultima è una espressione presa in prestito dalla chimica, dove ha un significato più limpidamente legato all’etimologia greca della parola. Definizione 3.4.1. Due processi rappresentati dalle hamiltoniane H e H̃ si dicono equivalenti se esiste una matrice invertibile C tale che H̃ = CHC −1 . (3.28) Due sistemi equivalenti godono di un’importante proprietà. L’attesa di una funzione F̃ per il processo H̃ con misura iniziale P̃0 può essere espressa in termini dell’attesa di una funzione trasformata F (che dipende da F̃ tramite C) per il processo H con dato iniziale trasformato P0 (che dipende da P̃0 tramite C). Infatti hnk1 (t1 ) · · · nkm (tm )iP0 = hñk1 (t1 ) · · · ñkm (tm )iP̃0 , (3.29) per le correlazioni. La relazione tra i dati iniziali è |P̃0 i = C|P0 i, tra le osservabili ñ. = Cn. C −1 (in generale le osservabili trasformate non saranno diagonali neanche al tempo zero). Definizione 3.4.2. Due processi rappresentati dalle hamiltoniane H e H̃ si dicono enantiodromici se esiste una matrice invertibile B tale che H̃ = CH T C −1 , dove H T è la trasposta di H. 61 (3.30) Se H̃ = H il processo si dice auto-enantiodromico. Osservazione 3.4.1. Tutti i sistemi che soddisfano il bilancio dettagliato rispetto a una misura |Ps i ≡ {Ps (η)} sono auto-enantiodromici rispetto alla trasformazione Ps associata alla misura invariante tramite (cf. §3.3) X Ps = Ps (η)|ηihη|. (3.31) η La dimostrazione è banale. L’operatore associato alla misura invariante è costruito nello stesso modo visto all’inizio del paragrafo precedente per gli stati stazionari. Anche in caso di enantiodromia sussistono delle relazioni che legano le attese di un sistema a quelle dell’altro, ma sono meno immediate di quelle che si trovano in caso di equivalenza. 3.4.1 relazione tra sistemi stocastici quantistici e sistemi di particelle interagenti classici Il processo di esclusione è uno degli esempi più fecondi di come un sistema stocastico quantistico possa essere equivalente a un sistema di particelle interagenti classico, tanto da essere talvolta definito un sistema quantistico mascherato. Esponiamo dunque, più che un caso banale di equivalenza, un caso in cui una stessa hamiltoniana può essere scritta in due modi diversi che utilizzano diversi operatori, dando luogo alla stessa matrice. E’ facile verificare che 1 − − + ~σk · ~σl − I ≡ hk ≡ a+ k al − nk ml + ak al − mk nl , 2 da cui segue immediatamente che l’hamiltoniana di Heisenberg con campo esterno nullo (3.23): X H = −J (~σk · ~σl − I) (3.32) <k,l> si può anche scrivere H = −2J X − − + (a+ k al − nk ml + ak al − mk nl ), (3.33) <k,l> che, come vedremo, è l’hamiltoniana del processo di esclusione semplice simmetrico. In questo caso la scrittura in due modi diversi dello stesso operatore 62 consente di notare utili proprietà che non sono palesi in una delle due scritture, infatti ad esempio per le (3.23) e (3.32) conosciamo delle simmetrie (3.26) che non sono evidenti scrivendo H nella forma (3.33). Nella teoria dei sistemi di particelle interagenti, i cambi di base fattorizzati C = C1 C2 · · · CN (3.34) hanno un ruolo molto importante ([35]), e in particolare sono utili per la loro semplicità le trasformazioni del tipo C = C ⊗N . (3.35) Prendiamo in considerazione l’hamiltoniana di Heisenberg (3.27) in assenza di campo esterno (cioè calcolata in zero) e quella del processo di esclusione parzialmente asimmetrico (verrà discussa nel §3.6) H ASEP = L−1 X hj = − j Definendo q = L−1 X + + − [dR (a− j aj+1 − nj mj+1 ) + dL (aj aj+1 − mj nj+1 )]. j=1 p dR /dL e ψ = (ln q)/2, si verifica che H XXZ (0) = BH ASEP B −1 , B = eψ purché Come si vede P k kσkz , (3.36) √ q + q −1 dR dL ∆= , J= . 2 2 k/2 O q 0 B= Bk , Bk = . 0 q −k/2 k Si può verificare (accenneremo come in seguito) che H XXZ commuta con i seguenti operatori z A = (q σ z /2 ⊗L ) ± , A = L X (q σ z /2 )⊗k−1 ⊗ a± ⊗ (q σ z /2 )⊗L−k . k=1 Il significato di questa proprietà (sarà più chiaro in seguito) è che per un sistema con K particelle la commutazione con Az corrisponde alla conservazione di K, mentre gli operatori A± fanno passare a sistemi con una particella in più o in meno. L’operatore diagonale Az è proporzionale a q −K , pesando ogni settore con un numero di particelle fissato come in un ensemble grancanonico, q recita il ruolo di fugacità (cf. §3.2.2). 63 Le suddette proprietà di commutazione sono strettamente connesse all’integrabilità del sistema ([28]). I due prossimi paragrafi sono dedicati allo studio di alcune proprietà del processo di esclusione con tecniche algebriche basate sui concetti illustrati nei paragrafi precedenti. Per la lettura del prossimo capitolo è necessario leggere soltanto la parte introduttiva dei due paragrafi e il §6.3.2. 3.5 Processo simmetrico Sulla base dei precedenti paragrafi possiamo ora studiare le proprietà principali del processo di esclusione, iniziando dal caso simmetrico. Cercheremo stati stazionari e informazioni sulle funzioni di correlazione usando gli strumenti del paragrafo precedente. Nel prossimo capitolo utilizzeremo di questo paragrafo solo la scrittura dell’hamiltoniana. Il processo si svolge su un reticolo di L siti {1, 2, ..., L}; la dinamica permette salti solo su siti adiacenti e con tassi uguali verso destra o sinistra. Prendiamo per ora condizioni al bordo chiuse. L’hamiltoniana del sistema è H SEP = L−1 X hj = − j=1 L−1 X + + − (a− j aj+1 − nj mj+1 + aj aj+1 − mj nj+1 ), (3.37) j=1 che come sappiamo coincide con H SEP L−1 X L−1 1X (~σj · ~σj+1 − Ij ). = hj = 2 j=1 j=1 (3.38) Cerchiamo di capire perché l’hamiltoniana scritta è quella giusta. Per ogni coppia di siti (j, j + 1), gli unici tassi di transizione non nulli sono quelli uguali (e pari a uno) relativi alle transizioni |+i|−i −→ |−i|+i, |−i|+i −→ |+i|−i e i rispettivi complementari pari a −1 relativi alle transizioni |+i|−i −→ |+i|−i, |−i|+i −→ |−i|+i. Gli unici operatori che hanno come elementi di matrice i tassi definiti da queste transizioni sono proprio, nell’ordine + + − a− j aj+1 , aj aj+1 , −nj mj+1 , −mj nj+1 . 64 Si noti che per il processo simmetrico (con hamiltoniana hermitiana) autoequivalenza e auto-enantiodromia coincidono. Nel corso del paragrafo lasceremo cadere la precisazione “SEP”. 3.5.1 simmetria e stati stazionari P Se indichiamo con N l’operatore N = k nk , si vede che la commutazione di H con Az ha il significato fisico di conservazione del numero totale di particelle, visto che Az = (L/2)I − N . Cerchiamo gli stati stazionari. E’ facile verificare con un calcolo diretto che la misura prodotto omogenea 1 |11i = L 2 1 1 ⊗L (3.39) è stazionaria. La dinamica del processo è conservativa, per cui lo spazio degli stati si decompone in settori indipendenti con un numero fissato di particelle. Il vettore-misura |11i non fissa il numero di particelle, è una sovrapposizione di soluzioni appartenenti ai diversi settori, cioè rappresenta un intero ensemble di stati stazionari. Le misure stazionarie fisicamente significative si ottengono proiettando queste misure di ensemble sul sottospazio corrispondente al numero di particelle presenti. Dunque ogni misura uniforme |K ∗ i sul settore a K particelle è stazionaria. E’ interessante capire come queste conclusioni derivino dalla simmetria SU (2) che abbiamo verificato nel §3.2. Il vettore |∅i è stazionario, H commuta con A+ , ne segue che ogni stato non normalizzato per K particelle |Ki = (A+ )K |∅i K! (3.40) è autovettore di H con autovalore 0, e perciò definisce uno stato stazionario normalizzato |K ∗ i/ZL,K , con ZL,K = h11|Ki = L!/(L − K)!, che dà il numero di possibilità di distribuire in posti diversi K oggetti tra L posti totali. Dal punto di vista algebrico, l’analogia con la teoria del momento angolare in meccanica quantistica suggerisce di pensare questi stati come quelli più probabili tra quelli con momento angolare totale L/2 e componente z pari a (L − K)/2. La distribuzione |K ∗ i è, per quanto detto, una distribuzione canonica. La distribuzione grancanonica si ottiene allora con una mistura convessa di stati canonici con un numero diverso di particelle; non è difficile mostrare che la 65 particolare combinazione: |ρi = L X L K=0 K (1 − ρ)L−K ρK |Ki (3.41) che coincide con la (3.19), è stazionaria per ogni ρ. Si osservi che |11i ∝ |ρ = 1/2i, dunque la misura che avevamo intuito all’inizio del paragrafo rientra tra quelle trovate ora più in generale. La misura |ρi è una distribuzione di Bernoulli per il numero totale di particelle K, fattorizzata: h11|nk1 · · · nkm |ρi = ρm . Inoltre ∗ m h11|nk1 · · · nkm |K i = ρ m−1 Y l=1 1 − l/K . 1 − l/L Da questo segue che lim K,L → ∞ K cost. L |K ∗ i = |ρi, nel senso che ogni correlazione di ordine finito m converge a ρm . Ogni sottoinsieme sufficientemente grande dell’ensemble canonico si comporta come un ensemble grancanonico descritto dalla misura prodotto |ρi, naturalmente questo avviene perché sul sottoinsieme non è conservato il numero di particelle. E’ stato dimostrato che le correzioni alle correlazioni sono di ordine 1/L ([47]). 3.5.2 equivalenze e dinamica fuori dall’equilibrio L’identità tra le due versioni di H che abbiamo fornito e la simmetria SU (2) celano più di quanto non abbiamo messo in luce finora. Un aspetto fondamentale della simmetria è che il processo è auto-enantiodromico rispetto a qualunque trasformazione di similitudine fattorizzata omogenea: H = H T = CHC −1 , C = C ⊗N . La dimostrazione è una semplice conseguenza della simmetria SU (2) di H; ogni trasformazione fattorizzata omogenea può essere scritta nella forma C = exp(αA+ ) exp(βA− ) exp(γAz ) e H è simmetrica. Questa proprietà ha molte importanti conseguenze, una di queste sono le relazioni di dualità che si possono trovare anche usando l’auto-dualità del processo. Le relazioni di dualità che stiamo per esporre sono molto utili perché permettono di scrivere ogni correlazione a m punti a tempi uguali in termini delle correlazioni di un sistema con la stessa dinamica ma con sole m particelle. Riteniamo 66 istruttivo accennare a entrambi i metodi: quello basato sull’auto-dualità e quello basato sull’auto-enantiodromia (ossia sulla simmetria SU (2)). Cominciamo col primo. Osserviamo che il nostro modello può essere descritto sia definendo ogni configurazione in termini di numeri di occupazione come abbiamo fatto sempre, sia definendo ciascuna configurazione attraverso il sottoinsieme C dei punti del reticolo occupati. Nella definizione 2.1.4 sia dunque X = {0, 1}S , S = {1, ..., L} e Y l’insieme dei sottoinsiemi di S. Come funzione da X in Y rispetto a cui il processo è auto-duale ([56]) prendiamo ( 1 se η(k) = 1 ∀ k ∈ C, F (η, C) = 0 altrimenti, con questa F la dualità è detta di coalescenza. Con queste ipotesi, proviamo a calcolare la probabilità hnk1 (t) · · · nkm (t)iAK di trovare m qualunque particelle nei siti Bm = {k1 , ..., km }, posto che inizialmente K > m particelle si trovassero nei siti AK = {l1 , ..., lK }. Sappiamo dall’auto-dualità, che la probabilità che η(k) = 1 al tempo t su tutti i siti di Bm , con dato iniziale AK , è uguale alla probabilità che al tempo t la configurazione di un sistema di m particelle che sia partito dalla configurazione Bm abbia supporto contenuto in AK , cioè che le particelle siano distribuite solo su siti in AK . Il calcolo delle correlazioni a m punti è dunque ridotto a calcolare correlazioni per un sistema di m particelle (si pensi all’utilità di ciò per m = 1). Cerchiamo ora di ottenere lo stesso risultato nel secondo modo, basato sull’auto-enantiodromia. Per fare ciò riformuliamo la definizione di dualità (2.1.4) nel linguaggio hamiltoniano: h11|Fζ e−Ht |ηi = h11|Fη e−H̃t |ζi; (3.42) la funzione F utilizzata si traduce F (η, C) = nk1 · · · nkm . Dunque quello che vogliamo dimostrare è X (3.43) hnk1 (t) · · · nkm (t)iAK = hnl1 (t) · · · nlm (t)iBm , 0 ⊂A Bm K 0 dove Bm = {l1 , ..., lm } e hnl1 (t) · · · nlm (t)iBm = hl1 ...lm | exp(−Ht)|k1 ...km i, che è la probabilità che al tempo t il sistema di m particelle partito dalla configurazione |k1 ...km i venga trovato nella configurazione |l1 ...lm i con {l1 , ..., lm } ⊂ AK . Si noti che hnl1 (t) · · · nlm (t)iBm qui non indica la media dell’operatore nl1 (t) · · · nlm (t), cioè la probabilità di trovare i siti l1 , ..., lm occupati e qualunque cosa negli altri, bensı̀ come la probabilità di trovare il sistema esattamente nella configurazione in cui l1 , ..., lm siano tutti e soli i siti occupati, che si calcola appunto con una proiezione dello stato del sistema 67 sulla configurazione che si attende. In realtà nel nostro caso le due cose coincidono perché la dinamica è conservativa, e perciò se chiediamo che m siti siano pieni, sappiamo già che gli altri sono vuoti anche se non ci interessiamo del loro contenuto. Poiché − h11|nl1 · · · nlm = hl1 ...lm |eA , la (3.43) diviene − X hk1 ...km |eA e−Ht |AK i = hl1 ...lm |e−Ht |k1 ...km i. 0 ⊂A Bm K Nel primo membro possiamo scambiare l’ordine dei due operatori grazie alla simmetria SU (2) di H, e inserire tra gli esponenziali l’identità nella forma ristretta al settore con m particelle X I= |l1 ...lm ihl1 ...lm |, (3.44) 0 ⊂S Bm sfruttando la conservazione del numero di particelle: X − hk1 ...km |e−Ht |l1 ...lm ihl1 ...lm |eA |AK i = 0 ⊂S Bm X hk1 ...km |e−Ht |l1 ...lm ih11|nl1 · · · nlm |AK i = 0 ⊂S Bm X hk1 ...km |e−Ht |l1 ...lm i. 0 ⊂A Bm K Ciò conclude la dimostrazione, visto che H è autoaggiunta. 3.6 Processo parzialmente asimmetrico Il processo parzialmente asimmetrico è caratterizzato dal fatto che i salti delle particelle non avvengono con gli stessi tassi nei due versi. Fisicamente questo può essere il risultato di un campo di forze esterno al sistema. Nei casi più semplici si assume che in assenza di forze esterne la dinamica soddisfi globalmente il bilancio dettagliato, mentre in presenza del campo il bilancio dettagliato rimane comunque valido localmente: se un salto nel verso del campo comporta una perdita di energia δE, il tasso del salto all’equilibrio guadagna un fattore q = exp(δE/(KT )), mentre il tasso del salto nel verso opposto si riduce di un fattore q −1 . In presenza di un campo esterno il 68 comportamento del sistema diviene notevolmente più articolato, ad esempio negli stati stazionari di non equilibrio può essere mantenuta una corrente diversa da zero e di conseguenza le condizioni al bordo giocano un ruolo fondamentale. Poiché siamo interessati principalmente allo studio algebrico dell’applicazione delle simmetrie, prenderemo condizioni al bordo chiuse, per semplicità. L’hamiltoniana del sistema è H ASEP = L−1 X j hj = − L−1 X + + − [dR (a− j aj+1 − nj mj+1 ) + dL (aj aj+1 − mj nj+1 )], j=1 (3.45) con gli operatori hj rappresentati da 0 0 0 0 dR −dL h= 0 −dR dL 0 0 0 0 0 . 0 0 (3.46) Nel corso del paragrafo, quando non c’è ambiguità, lasceremo cadere la precisazione “ASEP”. 3.6.1 stati stazionari e autodualità p Possiamo interpretare il parametro di asimmetria q = dR /dL = exp(βδE) come Pla conseguenza di un potenziale esterno decrescente linearmente Φ(η) = δE k kη(k). Con questa interpretazione δE determina l’asimmetria alla temperatura T = 1/(Kβ). I bordi riflettenti impediscono una corrente stazionaria e dopo un tempo sufficiente il sistema raggiunge l’equilibrio che soddisfa il bilancio dettagliato. Definendo infatti la trasformazione di similitudine diagonale V =q PL k knk (3.47) si verifica il bilancio dettagliato H T = V −2 HV 2 . (3.48) Inoltre con le condizioni al bordo chiuse, il numero totale di particelle si conserva, per cui una famiglia a un parametro di misure prodotto stazionarie è data da Pη∗ ∝ q 2 PL k (k+µ)nk 69 , (3.49) dove il potenziale chimico µ fissa la densità di particelle (cf. §2.2.2). La rappresentazione tensoriale di Pη∗ è L 2(k+µ) L 2(k+µ) O O q 0 q ∗ P ∝ ↔ |P i ∝ . 0 1 1 ∗ k=1 k=1 Il profilo di densità stazionario si scrive ([48]): 1 ρk h11|nk |P ∗ i = (1 + tanh[β(k − α)δE]), (3.50) 2 dove la costante α è determinata da µ. Il profilo è un kink di larghezza definita da 1/δE. In questo stato grancanonico non ci sono correlazioni ([48]). E’ istruttivo investigare la distribuzione canonica di equilibrio con un numero fissato di K di particelle. A meno di una normalizzazione, lo stato stazionario a K particelle è dato dal vettore V 2 |Ki, con |Ki il vettore uniforme che rappresenta la distribuzione stazionaria banale del processo simmetrico. Le difficoltà nell’analizzare le proprietà di questa distribuzione giacciono essenzialmente nella necessità di calcolare la funzione di partizione ZL,K = h11|V 2 |Ki, e nel fatto che le correlazioni nello stato |Ki non sono nulle. Nel caso simmetrico abbiamo visto che lo stato di equilibrio a K particelle poteva essere costruito usando la simmetria SU (2). L’hamiltoniana asimmetrica non ha questa simmetria, purtuttavia è simmetrica sotto l’azione della deformazione quantistica Uq [SU (2)] del gruppo SU (2), definita dalle regole di commutazione dei suoi generatori ([22],[23]): [A+ (q), A− (q)] = [2Az (q)]q , [Az (q), A± (q)] = ±A± (q) , (3.51) dove il simbolo [x]q è definito tramite [x]q = q x − q −x . q − q −1 (3.52) Come si vede per q → 1 si ha [x]q → x e Uq [SU (2)] si riduce a SU (2). In termini delle matrici già introdotte per SU (2) una rappresentazione dei generatori di Uq [SU (2)] può essere data da ([22],[23]): + A (q) = L X k=1 a+ k (q) − , A (q) = L X a− k (q) k=1 z , A = L X (nk − Ik /2) , (3.53) k=1 dove Pk−1 PL a− (q) = q j=1 mj a− q − j=k+1 mj , Pk−1 PL a+ (q) = q − j=1 nj a+ q j=k+1 nj . 70 Per dimostrare che questa è una rappresentazione di Uq [SU (2)] dobbiamo far vedere ([48]) che le (3.53) soddisfano le (3.51). Allo scopo si possono usare + + nk nk − le relazioni elementari q nk a+ = qa+ k (q) = ak (q), ak (q)q k (q), q ak (q) = + − − ± nk qak (q), ak (q)q = ak (q), che seguono dalle relazioni note [ak (q), a± l (q)] = 0 per k 6= l. Per k = l si può osservare che σ z = [σ z ]q = [2az ]q . Da qui si arriva subito alle (3.51). E’ importante notare che in questo contesto gli operatori su siti diversi in generale non commutano: ± ± ∓2 ± a± k (q)al (q) = q al (q)ak (q) per l > k. (3.54) Ogni addendo hj nell’hamiltoniana commuta con A±,z (q) ([45]). Ne segue [H ASEP , A±,z (q)] = 0, (3.55) come avevamo anticipato nel §3.4.1. Dato l’isomorfismo ([23]) tra le rappresentazioni di SU (2) e Uq [SU (2)] per costruire le distribuzioni stazionarie a K particelle possiamo usare la stessa tecnica utilizzata per il caso simmetrico. Il risultato è formalmente analogo, ma bisogna sostituire ai numeri interi che appaiono nel fattoriale i q-numeri interi del tipo (3.52): |K̃i = 1 1 (A+ )K (q)|∅i e hK| = h∅|(A− )K (q) [K]q [K]q (3.56) sono gli autostati non normalizzati di energia zero con cui si effettuano le attese per i sistemi con K (fissato) particelle. Il q-fattoriale è per definizione [m]q ! = [1]q [2]q · · · [m]q . I bra hK| assegnano pesi uguali a tutte le configurazioni con K particelle, e sono normalizzati in modo tale che hK| = X hη| , hK|ηi = 1 ∀ η : {K} L X nl = K, l=1 dove la prima somma è effettuata su tutte le configurazioni η con K particelle. Ne segue che le attese in uno stato con K particelle si fanno sostituendo nella formula generaleP h11| con P hK|, ossia facendo il bracket con hK|. Abbiamo già visto che h11| = hη| = Lk=0 hK|, e inoltre hK|H = 0 per la conservazione del numero di particelle (con condizioni al bordo, lo ricordiamo, chiuse). La funzione di partizione è data dal coefficiente q-binomiale: [L]q ! [L] ≡ . (3.57) ZL,K = [L − K]q ![K]q ! [K] q Riportiamo il risultato che si ottiene ([45]) per la densità usando lo stato stazionario normalizzato per il sistema con K particelle |K ∗ i = 1 ZL,K |K̃i = 1 ZL,K q −N (L+1) q 2 71 PL k=1 knk |Ki. Ponendo r = L + 1 − N + k si ha ρr = ∞ X (−1)l q −l(l+1)+2r(l+1) . (3.58) l=0 Questo è un profilo a gradino con larghezza del gradino proporzionale a 1/δE. Come si vede la differenza tra la distribuzione canonica e la distribuzione grancanonica non è poi cosı̀ marcata a giudicare dai relativi profili (3.58) e (3.50), è però più evidente confrontando le correlazioni. E’ possibile derivare (ma non lo faremo) espressioni per tutte le funzioni di correlazione nello stato stazionario in termini della densità usando le (3.22) e le (3.54). Per le correlazioni a due punti si ottiene q 2k hnk iK − q 2l hnl iK hnk nl iK = . q 2k − q 2l (3.59) Si verifica che, a differenza della distribuzione stazionaria grancanonica, il sistema presenta correlazioni non nulle nella zona del gradino anche nel limite termodinamico. Questo dipende dal fatto che in un sistema infinito la coordinata del gradino è arbitraria, quindi ogni sovrapposizione normalizzata di distribuzioni canoniche traslate tra loro con profilo di densità (3.58) è stazionaria; la distribuzione grancanonica con il profilo (3.50) è un caso particolare di tali sovrapposizioni. Avendo discusso alcune proprietà degli stati stazionari, possiamo ora ricavare le relazioni di auto-enantiodromia usando la simmetria Uq SU (2), analogamente a quanto fatto per il processo simmetrico. Nel caso asimmetrico però ci sono delle difficoltà maggiori, e si è costretti a introdurre l’insieme completo di osservabili costruito tramite prodotti degli operatori Qk = q 2Nk (3.60) oppure le loro derivate discrete normalizzate Q̃k = Qk − Qk−1 = q 2Nk−1 nk q2 − 1 (3.61) P dove Nk = kj=1 nj . Si deve anche tenere conto del fatto che il ket h11| non è più fattorizzato rispetto agli operatori a− k (q) e dunque la trasformazione B = exp(A− ) non è più utile. Comunque, usando la (3.56), calcoliamo il commutatore − K (A ) (q) (A− )K−1 (q) , Qj = q K−1 (q 2 − 1)Qj A− (q) , (3.62) j [K]q ! [K − 1]q ! 72 dove A− j (q) = segue Pk i=1 a− i (q). Da questa espressione, da h∅|Q̃j = 0 e dalla (3.56) (A− )K (q) (A− )K−1 (q) hK|Q̃j = h∅| , Q̃j = q K−1 hj| [K]q ! [K − 1]q ! (3.63) che iterata porge l’espressione generale hK|Q̃k1 · · · Q̃km = q m(K−1) hk1 . . . km | (A− )K−m (q) . [K − m]q ! (3.64) Ora proseguire è abbastanza facile. Moltiplicando la (3.64) per exp(−Ht)|P P 0 i, usando la simmetria Uq SU (2) (3.55) e inserendo l’operatore identità l |lihl| nella forma (3.44) si deducono le relazioni di auto-enantiodromia per il processo di esclusione semplice parzialmente asimmetrico ([45]): hQ̃k1 · · · Q̃km i = hK|Q̃k1 · · · Q̃km e−Ht |P0 i X (A− )K−m (q) = hk1 . . . km |e−Ht |lihl|q −m(K−1) |P0 i [K − m] q! l X 0 |P0 i × = hK|Q̃k10 · · · Q̃km 0 ≤L 1≤k10 <···<km 0 hk1 . . . km |e−Ht |k10 . . . km i = X q2 Pm 0 i=1 (ki −ki ) 0 |P0 i × hK|Q̃k10 · · · Q̃km 0 ≤L 1≤k10 <···<km 0 hk10 . . . km |e−Ht |k1 . . . km i. Nell’ultimo passaggio abbiamo usato il bilancio dettagliato (3.48). La potenza di q che ne deriva può essere eliminata ridefinendo Q̃k 7→ q −2k Q̃k . Con la stessa procedura è possibile scrivere le correlazioni a tempi diversi. Da queste relazioni è stato ricavato il rilassamento esponenziale del sistema ([45]). 3.6.2 sistema periodico Il processo periodico avrà un ruolo importante nel prossimo capitolo, specialmente le considerazioni alla fine di questo sottoparagrafo hanno uno stretto legame con quanto verrà lı̀ esposto. Abbiamo già detto che le condizioni al contorno condizionano pesantemente il volto degli stati stazionari. Ci si aspetta che il processo sul cerchio abbia misure stazionarie invarianti per traslazioni (o rotazioni), per cui il limite termodinamico del processo periodico si presume molto diverso dal caso delle pareti riflettenti affrontato finora. 73 Poiché nel caso periodico non è soddisfatto il bilancio dettagliato né alcuna simmetria continua non abeliana, è plausibile incontrare difficoltà maggiori che con bordi riflettenti nel calcolo degli stati stazionari. In ogni caso però, la misura prodotto invariante per traslazione (3.19) è invariante anche in presenza di asimmetria (cioè per H ASEP ) se le condizioni al bordo sono periodiche. Infatti siccome le matrici hj agiscono in modo non banale solo sui siti j e j + 1, si verifica immediatamente che hj |ρi = (dR − dL )(nj − nj+1 )|ρi, (3.65) infatti, osservando che per ogni coppia di operatori b e c si ha b1 c2 = b1 ⊗ c2 (mentre per i vettori |ui1 |vi2 = |ui1 ⊗ |vi2 è una definizione della notazione), la matrice h si scrive dR (n ⊗ m − a− ⊗ a+ ) + dL (m ⊗ n − a+ ⊗ a− ), e la sua azione su |ρi ⊗ |ρi si calcola banalmente. Dalla (3.65) si vede che la sua somma su j (vale a dire H|ρi) è telescopica e pertanto identicamente nulla in caso di periodicità; in questo caso H= L X hj mod L, j=1 che è ben definita data la proprietà di commutazione su siti diversi di cui godono gli operatori in questo formalismo. La misura |ρi è una misura stazionaria di non equilibrio, infatti non soddisfa il bilancio dettagliato, e lo si può capire verificando che esiste una corrente stazionaria non nulla di particelle. Si ha ρi (t) = hni (t)i, d ρi = Ji−1 − Ji , Ji = dR hni (1 − ni+1 )i − dL h(1 − ni )ni+1 i. dt La prima equazione è una definizione, la seconda e la terza relazione derivano direttamente dall’equazione del moto (3.10) con un semplice calcolo diretto. Come ci si poteva aspettare J è la differenza tra una corrente sinistra e una corrente destra. Dall’assenza di correlazioni si deduce J(ρ) = (dR − dL )ρ(1 − ρ), che ha un massimo pari a Jmax = (dR − dL )/4 in ρ∗ = 1/2. Le considerazioni sulla corrente appena svolte hanno contribuito all’estensione dinamica del formalismo del prossimo capitolo, come sarà più chiaro in seguito (§4.7, §4.9). Per questo tali considerazioni sono intimamente connesse allo studio del legame tra il formalismo hamiltoniano e quello matriciale che verrà introdotto (§4.9, §4.10). Inoltre si consideri il caso totalmente asimmetrico, in 74 cui dL = 0 e dR = 1; si ottiene J = ρ(1 − ρ) e Jmax = 1/4 in ρ∗ = 1/2. Questi risultati andrebbero confrontati con quelli del §4.5. I prossimi paragrafi sono mirati a preparare il terreno per una stima degli autovalori del generatore del processo di esclusione semplice periodico. Tale lavoro è ancora in corso di completamento. Il contenuto non è essenziale per la lettura del prossimo capitolo. 3.7 Fermionizzazione In questo paragrafo si introduce la trasformazione di Jordan-Wigner, che sarà utilizzata nel prossimo per una diagonalizzazione parziale del generatore del processo di esclusione. Questo argomento ha una sua utilità autonoma, non sarà ripreso nel prossimo capitolo. Tutto il formalismo che abbiamo usato in questo capitolo poggia sull’idea di trattare il sistema su reticolo in esame tramite una descrizione “sito per sito”, tale da rendere immediata nella lettura l’informazione relativa a un particolare sito. Il formalismo utilizzato è stato ispirato dalla meccanica quantistica, dove però la tensorizzazione si effettua sulle particelle e non sui siti reticolari. In questo modo in meccanica quantistica si riescono a descrivere molto bene i sistemi di particelle indistinguibili, che in natura obbediscono alle statistiche di Bose-Einstein o Fermi-Dirac, e quelli di particelle distinguibili, che obbediscono alla statistica di Maxwell-Boltzmann (non sono mai state osservate in natura particelle distinguibili che sottostanno a un principio di esclusione). Infatti le peculiarità delle varie statistiche si rispecchiano nella parità delle funzioni d’onda, sono cioè implementate dal particolare modo di formare i giusti prodotti tensoriali di ket (si pensi ad esempio al determinante di Slater). Se però la fattorizzazione tensoriale riflette la geometria dello spazio e non la distinzione tra le varie particelle (che sono poi rese indistinguibili dalla costruzione opportuna della funzione d’onda), non è più immediato tradurre la statistica in uno spazio di Fock simmetrico o antisimmetrico. Noi infatti non abbiamo mai utilizzato uno spazio di Fock e abbiamo definito e utilizzato solo operatori locali che commutano su siti diversi. Ciononostante le particelle del nostro sistema sono indistinguibili e obbediscono a un principio di esclusione di Pauli, come i fermioni in meccanica quantistica. Esiste la possibilità ([1], [2], [6], [7], [18], [41], [44]) di utilizzare spazi di Fock in un formalismo tensoriale più fedele a quello della 75 teoria dei campi statistici quantistici, ma per molti scopi non è necessario o più conveniente di un formalismo che invece può essere pensato a metà strada tra quello che abbiamo usato finora e l’uso di spazi di Fock. La caratteristica principale di questo metodo che stiamo per descrivere è che, pur lasciando la comoda tensorizzazione sui siti, fa uso di operatori che su siti diversi non commutano, bensı̀ anticommutano, come per i fermioni in meccanica quantistica. Una introduzione allo studio dei metodi che esponiamo nei prossimi paragrafi si trova ad esempio in [51]. 3.7.1 trasformazione di Jordan-Wigner Definizione 3.7.1. Un operatore A si dice fermionico se {A, A} = 0 , {A∗ , A} = I, dove l’asterisco denota l’operatore aggiunto e il bracket è l’anticommutatore: {A, B} = AB + BA. Proposizione 3.7.1. Se A è un operatore fermionico sullo spazio di Hilbert H, allora H è la somma diretta ortogonale di ker(A∗ ) e ker(A). A è un’isometria da ker(A∗ ) a ker(A), A∗ è un’isometria da ker(A∗ ) a ker(A), con A∗ Aφ = φ AA∗ φ = φ se φ ∈ ker(A∗ ), se φ ∈ ker(A). Dalla proposizione segue che H ha dimensione pari e che esiste un’unica rappresentazione bidimensionale di A data da 0 0 0 1 ∗ A= , A = . 1 0 0 0 Definizione 3.7.2. Un insieme {A1 , . . . , AL } forma un sistema di L operatori fermionici se {Ai , Aj } = 0 , {A∗i , Aj } = δij I. Proposizione 3.7.2. Se si ha un sistema di L operatori fermionici su H, allora H ha dimensione multipla di 2L e la rappresentazione è una somma L diretta di copie della seguente rappresentazione su C2 : c’è un solo vettore |∅i (il vuoto fermionico) tale che Ai |∅i = 0 i = 1, ..., L 76 L e C2 ammette come base di vettori 1,L {|∅i, {|1ii }Li=0 , {|1ii1 |1ii2 }1,L i1 <i2 , ..., {|1ii1 · · · |1iiL }i1 <···<iL }, con |i1 ...ik i ≡ |1ii1 · · · |1iik = A∗i1 · · · A∗ik |∅i. e con ( 0 A∗j |1ii1 · · · |1iik = (−)m+1 |1ij1 · · · |1ijk+1 se j ∈ {i1 , ..., ik }, altrimenti , dove j1 , ..., jk+1 è il riarrangiamento ordinato crescente di j, i1 , ..., jk e m è definito da j = jm ; inoltre ( 0 se j ∈ / {i1 , ..., ik }, Aj |1ii1 · · · |1iik = m+1 c (−) |1ij1 · · · |1iim · · · |1ijk+1 se j = im , dove nell’ultimo ket il fattore im -esimo non c’è. Definizione 3.7.3. La trasformazione di Jordan-Wigner associa all’operatore a− . l’operatore " !# j−1 X − Aj ≡ exp iπ a+ a− (3.66) j . k ak k=1 Si vede facilmente che Aj = j−1 Y (I − − − 2a+ k ak )aj k=1 = j−1 Y σkz a− j . k=1 Dalla definizione segue A∗j ≡ A†j = j−1 Y σkz a+ j . k=1 E’ immediata la verifica di {Aj , Ak } = {A†j , A†k } = 0 {A†j , Ak } = δjk I (3.67) (3.68) per cui gli {A1 , ..., AL } sono un sistema di operatori fermionici, se j = 1, ..., L. Le (3.67)-(3.68) sono le regole di anticommutazione canoniche (CAR). Per 77 + contro gli operatori {a− . } e {a. } soddisfano le regole di commutazione canoniche (CCR): − + + [a− j , ak ] = [aj , ak ] = 0 − [a+ j , ak ] = δjk I. La trasformazione di Jordan-Wigner, dunque, “fermionizza” il sistema, permette cioè di descrivere le particelle tramite operatori che obbediscono alle regole di (anti)commutazione “più coerenti” col principio di esclusione. Sappiamo infatti che le CAR implicano (in meccanica quantistica) l’ antisimmetria della funzione d’onda, che a sua volta implica il principio di esclusione. Il prezzo di questa trasformazione però è la rinuncia alla comoda proprietà di commutazione su siti diversi e che gli operatori non agiscono più in modo non banale solo su un singolo sito. Cerchiamo di capire come “funziona” la trasformazione, perché cioè la presenza delle σ z imponga le regole di anticommutazione o antisimmetria. Proviamo ad esempio a creare una particella prima in un sito i, e poi in un sito j (con i < j), applicando cioè A†j Ai . Evitiamo il caso banale in cui uno dei due siti è già occupato, infatti dalla proposizione 3.7.2 si capisce che la trasformazione di Jordan-Wigner non intacca il principio di esclusione già contenuto nel formalismo hamiltoniano commutativo usato in precedenza: A∗ , A e a± sono nilpotenti di grado 2. Sappiamo che σ z , come tutte le matrici di Pauli, è tale che (σ z )2 = I. Se al ket di partenza applichiamo A†i , aumenta di uno il numero di particelle presenti nel reticolo a sinistra di j. Osserviamo che σ z |∅i = −|∅i, mentre σ z |1i = |1i, quindi applicando Ak o A†k a un vettore, questo rimane inalterato, sui siti diversi da k, a meno di un segno, dato dal prodotto di tanti “meno” quanti sono i siti vuoti “prima” di k. Se allora dopo avere applicato A†i , aumentando di uno il numero di particelle prima di j, applichiamo A†j , il ket risultante sarà lo stesso che avevamo all’inizio fuori dai siti i e j, tutte le σ z fino a i − 1 non contribuiscono perché figurano al quadrato, quelle da i + 1 a j − 1 daranno un segno meno elevato al numero di + particelle tra i + 1 e j − 1 (diciamo m); inoltre σ z a+ i = ai . Se invece creiamo prima la particella in j e poi in i (vale sempre i < j) applicando A†j A†i , prima del sito i non cambia nulla, come prima, da i + 1 a j − 1 abbiamo ancora + z un fattore (−)m , ma stavolta nel sito i dobbiamo calcolare a+ i σ = −ai . In entrambi i casi dopo j non viene modificato nulla. Otteniamo pertanto un segno di differenza nei due casi, come prescritto dall’antisimmetria delle CAR. 78 Riportiamo ora alcune utili identità che ci serviranno nel seguito. A∗j Aj A∗j+1 Aj −Aj+1 A∗j Aj+1 Aj −A∗j+1 A∗j Aj A∗j 3.8 − a+ j aj = n j + a− j aj+1 − a+ j aj+1 − a− j aj+1 + a+ j aj+1 + a− j aj = m j . = = = = = = Diagonalizzazione parziale In questo paragrafo si applicano le nozioni di quello precedente al processo di esclusione. Consideriamo un sistema descritto da una forma di Fermi libera, che abbia cioè una hamiltoniana del tipo H= 1,L X Sij A∗i Aj , (3.69) i,j dove S è una matrice simmetrica L × L, e le {A} formano un sistema di fermioni. L’operatore H agisce in uno spazio di dimensione 2L , esiste però un modo per studiare il sistema trattando solo matrici L × L come S. Possiamo immaginare le {A} come le n componenti di un vettore |Ai e le {A∗ } come le componenti del vettore hermitiano coniugato hA|. Cosı̀ H = hA|S|Ai. Naturalmente questa notazione non ha nulla a che vedere con quella usata per i vettori di probabilità e di media dei precedenti paragrafi. Sia U la trasformazione unitaria che diagonalizza S, in modo tale che U −1 SU = dS , con (dS )ij = δij ςj . Si ha allora H = hA|U −1 U SU −1 U |Ai = hA|U † U SU −1 U |Ai = hB|dS |Bi, dove U |Ai = |Bi. Ne segue H= X ςi Bi∗ Bi . i A questo punto non è difficile verificare che {Bi , Bj } = 0 , {Bi∗ , Bj } = δij I, 79 cioè le {B} formano un sistema di fermioni. Inoltre [Bi∗ Bi , Bj∗ Bj ] = 0. Possiamo allora usare la proposizione 3.7.2 col vuoto delle {B} e stabilire ! k X H|i1 ...ik i = ςij |i1 ...ik i. j=1 Consideriamo ora il generatore del processo di esclusione simmetrico, con condizioni al bordo periodiche: H=− L X j=1 hj = − L X + + − (a− j aj+1 − nj mj+1 + aj aj+1 − mj nj+1 ) mod L j=1 (3.70) Sostituendo nella (3.70) le relazioni tra le A e le a scritte alla fine del paragrafo precedente, possiamo riscrivere facilmente H in questo modo: H= L X A†j+1 Aj + A†j Aj+1 + A†j Aj Aj+1 A†j+1 + Aj A†j A†j+1 Aj+1 mod L. j=1 (3.71) Tralasciando per ora i termini quartici, definiamo H0 = L X A†j+1 Aj + A†j Aj+1 mod L. j=1 Si vede facilmente che questa equazione può essere scritta nella forma: H0 = 1,L X Sij A†i Aj , i,j dove S è la una matrice reale 0 1 0 S= . .. 0 1 simmetrica 0 ··· 0 1 0 ··· .. .. . . 1 .. .. . . 1 ··· 0 1 0 0 ··· 0 1 1 0 1 0 .. . . 0 1 0 Per diagonalizzare questa matrice (trovandone autovalori e autovettori) si possono usare tecniche di equazioni alle differenze ([43]) e utilizzare le proprietà dei polinomi di Čebišev di prima e seconda specie. Riportiamo i risultati 80 senza conti dettagliati. Gli autovalori sono: λk = 2 cos 2kπ , k = 1, ..., L. L L’autovettore yk corrispondente all’autovalore λk ha componenti (k) yk (j) = c1 cos (k) con c1 = 2πkj L , se k = , L L 2 √1 , L (k) yk (j) = c1 cos 2πkj L 2πkj (k) + c2 sin , se k = 1, ..., L − 1, k 6= L L 2 q (k) (k) con c1 = L2 = c2 , oppure si può prendere uno dei coefficienti c uguale a zero lasciando immutato l’altro. Se L è dispari le condizioni su L/2 non servono. La soluzione è stata ottenuta risolvendo il problema alle differenze y(j − 1) − λy(j) + y(j + 1) = 0 mod L. La scelta dei coefficienti c1 e c2 deve essere tale che gli autovettori formino una base ortonormale completa di RL . L’ortonormalizzazione impone r 1 2πkj yk (j) = cos , k = L, L/2 L L r 2 2πkj yk (j) = cos , 0 < k < L/2 L L r 2 2πkj yk (j) = sin , L/2 < k < L. L L La matrice S è dunque diagonalizzata dalla trasformazione unitaria U definita da (U )jk = yk (j). In questo modo H0 = X 2 cos j 2πj ∗ B Bj L j dove le {B} sono definite da Bj = X yk (j)Ak . k 81 Cosı̀ abbiamo moralmente risolto il sistema fisico definito da H0 , che coincide con l’hamiltoniana xy di Heisenberg X H XY = σix σjx + σiy σjy . <ij> Torniamo all’intera hamiltoniana H con i termini quartici. Definiamo Nj = A†j Aj = Nj† e Mj = Aj A†j = Mj† , da cui [Ni , Mj ] = 0. Ne segue H1 ≡ H − H0 = X Nj Mj+1 + Nj+1 Mj , ij che implica H = hA|S|Ai + hN |S|M i = hA|S|Ai + hN |S|Ii − hN |S|N i, che diagonalizzando S diviene H = hB|dS |Bi + 2hB|Bi − hN |U † dS U |N i, visto che hN |S|Ii = X (Ni + Ni+1 ) = 2 i X Ni = hA|Ai = hB|Bi i (chiaramente |Ii è il vettore con tutte le componenti pari alla matrice identità). Sia ora |N 0 i = U |N i e hB|Bi = NB . Possiamo allora scrivere X H= λi (Bi† Bi − (Ni0 )2 ) + 2NB . i P Si vede che Ni0 è della forma Ni0 = j,k,l Uij Ukj Ulj Bk† Bl , per cui (Ni0 )2 contiene il prodotto di quattro operatori B, e corrisponde in generale al salto di due particelle nella dinamica delle B. Si osservi che il vuoto delle B è lo stesso delle A. Nella base costruita con i B † , l’unico termine non diagonale che compare in H è quello che coinvolge gli N 0 . Poiché questi termini sono relativi a un doppio salto nella dinamica, è lecito attendersi che siano in qualche misura piccoli. Calcoli diretti mostrano che per volume finito i termini non diagonali non sono trascurabili. Come si vede l’espressione di Ni0 (che compare al quadrato in H) contiene il prodotto di tre matrici U . Se 82 invece sostituiamo direttamente nell’equazione (3.70) alle matrici A la loro espressione in funzione delle B, il termine quartico conterrebbe il prodotto di quattro matrici U ; e anche se non si deve poi fare il quadrato, il calcolo sarebbe più lungo. Per questo negli esperimenti numerici effettuati al calcolatore con l’ausilio del software “Mathcad 8” abbiamo utilizzato l’espressione con le tre U . Queste simulazioni fanno sperare che i prodotti con k = l che figurano in Ni0 siano più grandi degli altri, in modo da incoraggiare la ricerca di maggiorazioni da usare per una stima degli autovalori di H. 83 Capitolo 4 Il formalismo matriciale Questo capitolo è dedicato a un secondo approccio algebrico ai sistemi di particelle interagenti: il “formalismo matriciale”. A differenza del formalismo hamiltoniano, il metodo che stiamo per presentare non si applica a tutti i sistemi interagenti: per ora è stato utilizzato solo per il processo di esclusione. In realtà in una forma piuttosto diversa da quella che mostreremo è stato introdotto anche per altri processi ([34], [55]). L’idea fondamentale di questo approccio basato su prodotti di matrici, si deve a Derrida et al. ([13], [14]) ed è stata poi generalizzata dagli stessi e altri autori per trattare ad esempio dinamiche con update parallelo, profili di shock etc. ([15], [29], [30]). L’uso di prodotti ordinari di matrici per trovare lo stato stazionario di sistemi interagenti non è per la verità del tutto inedito, infatti già nel 1991 era stata esibita da Klümper l’idea e una sua applicazione ([34]); la natura delle matrici era però totalmente diversa cosı̀ come il formalismo, i concetti di base e il metodo ([55]). Due sono gli scopi principali di questo capitolo. Il primo è quello di evidenziare le potenzialità e l’eleganza dell’impostazione algebrica del formalismo matriciale. Questo viene illustrato da due punti di vista. Da un lato si mostra come si possono calcolare risultati nuovi o già noti con altre tecniche relativi alle grandezze di maggiore interesse fisico. Dall’altro si evidenzia che i calcoli necessari sono facilitati dalla possibilità effettuarli tramite la sola conoscenza delle relazioni di un’algebra di operatori che viene introdotta, e non delle rappresentazioni esplicite. Il secondo scopo è quello di trovare un legame finora misterioso con gli altri formalismi, in particolare con quello hamiltoniano. Infatti anche se dal punto di vista computazionale il metodo che verrà illustrato può ritenersi soddisfacente, rimane oscura l’origine concettuale del formalismo matriciale. La prima parte del capitolo è dedicata al caso stazionario; si vedrà che è necessario partire da qui per descrivere il formalismo. La seconda parte è in84 vece dedicata all’estensione dell’approccio all’intera dinamica; tale estensione è necessaria per fare un confronto con il formalismo hamiltoniano. Nei paragrafi 2, 5 e 6 ci sono risultati presentati in modo originale basato su idee già esposte in letteratura. Procediamo con ordine alla presentazione del contenuto del capitolo. Nel primo paragrafo si introduce il formalismo e si ricavano le relazioni dell’algebra di operatori che come vedremo equivale alla condizione di stazionarietà. Nel secondo si esibiscono rappresentazioni esplicite e proprietà degli operatori che soddisfano le relazioni dell’algebra, per dimostrare che esistono, ma si fa anche vedere come nei calcoli delle grandezze di interesse fisico queste rappresentazioni non servono. Questo è essenzialmente il contenuto dei lavori [13], [14], [12], dove il punto di partenza è una prescrizione per calcolare le probabilità congiunte nel processo di esclusione semplice allo stato stazionario tramite un prodotto di matrici associato a una determinata configurazione. La dimostrazione che questi prodotti forniscono le quantità cercate viene fatta verificando che questi soddisfano le relazioni di ricorsione per le probabilità congiunte. Nei paragrafi 3, 4 e 5 vengono calcolate grandezze fondamentali nel limite di volume infinito, come la funzione di partizione, la corrente e la misura limite, da cui si evincono il diagramma delle fasi e il profilo di densità. Questi paragrafi dunque sottolineano l’efficacia della natura algebrica dell’approccio applicandolo allo studio delle proprietà del processo di esclusione. Nel paragrafo 6 viene introdotta anche per l’approccio matriciale una notazione tensoriale, sulla quale poggia il confronto col linguaggio hamiltoniano. Dal paragrafo 7 si estende il formalismo all’intera dinamica fuori dall’equilibrio, seguendo in parte i lavori [53] e [54], e preparando il terreno per il legame col formalismo hamiltoniano. Dal paragrafo successivo il contenuto è originale. L’estensione data nel paragrafo 7 consente di trovare altre proprietà delle matrici, presentate nel paragrafo 8. Nel paragrafo 9 è data una semplice applicazione dell’estensione alla dinamica verificando la stazionarietà della misura nota per il processo periodico. La notazione tensoriale introdotta nel paragrafo 6 consente, una volta estesa l’idea alla dinamica fuori dall’equilibrio, di stabilire un legame col formalismo hamiltoniano (paragrafo 10). In altre parole nella seconda parte del capitolo si mostra come il passaggio da un prodotto ordinario di matrici a un prodotto tensore tramite l’introduzione di uno spazio ausiliario permetta un’identificazione completa tra il formalismo matriciale e la descrizione del cap. 3. Quando questa costruzione viene estesa alla dinamica, lo stato stazionario si ritrova come limite a tempo infinito. In questo modo arriviamo quindi a derivare la costruzione di Derrida partendo dalla scrittura hamiltoniana del generatore. Infine dimostriamo l’equivalenza formale tra il formalismo hamiltoniano e quello matriciale, prima 85 in forma tensoriale e poi in quella di prodotto ordinario. 4.1 Approccio matriciale e stato stazionario L’approccio matriciale generalizza il concetto di misura prodotto sostituendolo con quello di misura prodotto di matrici, in cui le probabilità a valori reali sono rimpiazzate da operatori non commutativi. Può in effetti capitare che un sistema abbia una misura stazionaria che non sia fattorizzata, ma che possa ugualmente essere in qualche modo rappresentata da un prodotto di matrici. Vediamo in concreto come questa idea viene applicata al processo di esclusione semplice. Introduciamo su ciascun sito j una variabile τj che vale 0 se il sito è vuoto e 1 se il sito è occupato. Ridefiniamo la dinamica del processo, iniziando con il processo totalmente asimmetrico nel caso stazionario e condizioni al bordo aperte. L’arena geometrica è il reticolo unidimensionale con N siti indicizzati da una variabile intera j = 1, ..., N . Il processo è un processo di Markov a tempo continuo, per cui la dinamica evolve aspettando a ogni passo un lasso di tempo distribuito esponenzialmente. Più precisamente a ogni passo viene scelta a caso una coppia di siti (j, j + 1), se 1 ≤ j ≤ N − 1 la particella in j (se c’è) salta con probabilità proporzionale al tempo dt nel sito j + 1, se questo è vuoto; cioè, supponendo che dopo un lasso di tempo 4t la dinamica abbia fatto evolvere la configurazione agendo sui siti in esame: τj (t + 4t) = τj+1 (t)τj (t) τj+1 (t + 4t) = τj+1 (t)τj (t) + (1 − τj+1 (t))τj (t) , se il sito di destinazione è occupato la particella rimane dove già si trovava, cosa che in ogni caso avviene con la probabilità complementare 1 − dt. Se la coppia di siti scelti è (“sorgente esterna sinistra”, 1), allora se il sito 1 è vuoto viene occupato con probabilità α tramite l’immissione di una nuova particella, se è occupato rimane tale. Analogamente quando viene scelta la coppia (N, “sorgente esterna destra”), il sito N si svuota con probabilità β se pieno, rimane vuoto altrimenti. Indichiamo con η = (τ1 , ..., τN ) la generica configurazione del sistema. L’idea chiave ([13]) è scrivere i pesi P (η) = P (τ1 , τ2 , ..., τN ) delle configurazioni in questo modo N Y 1 hW | [τj D + (1 − τj )E]|V i , PN (τ1 , ..., τN ) = ZN j=1 86 (4.1) dove D ed E sono matrici, hW |, |V i sono vettori, e il fattore di normalizzazione Z è dato chiaramente da ZN = X {τj =0,1} N Y hW | [τj D + (1 − τj )E]|V i . (4.2) j=1 Dunque nella produttoria si usa E per i siti vuoti e D per i siti occupati. Le due matrici in generale non commutano e non hanno dimensione finita. Bisogna naturalmente dimostrare che esistono delle matrici D , E e dei vettori hW | , |V i e una struttura algebrica da questi soddisfatta tali che la P (η) data dalla (4.1) sia proprio la distribuzione di equilibrio. Definiamo i pesi non normalizzati fN (η) in questo modo: X fN (τ1 , ..., τN ) = PN (τ1 , ..., τN ) fN (τ1 , ..., τN ) , {τj =0,1} cosı̀ che fN (τ1 , ..., τN ) = hW | N Y [τj D + (1 − τj )E]|V i . (4.3) j=1 Lo stato stazionario può essere scritto ([11]) nella seguente forma di ricorsione che fornisce appunto lo stato stazionario per un reticolo di N siti in termini di quello per un reticolo di N − 1 siti: fN (τ1 , ..., τN −1 , 1) = fN −1 (τ1 , ..., τN −1 )/β, se τN = 1; fN (τ1 , . . . , τj−1 , 1, 0, . . . , 0) = fN −1 (τ1 , . . . , τj−1 , 1, 0, . . . , 0) +fN −1 (τ1 , . . . , τj−1 , 0, 0, . . . , 0), se τj+1 = τj+2 = · · · = τN = 0 e τj = 1; fN (0, . . . , 0) = fN −1 (0, . . . , 0)/α, se τ1 = τ2 = · · · = τN = 0. La ricorsione insieme alle condizioni iniziali f1 (1) = 1 β e f1 (0) = 1 , α determina lo stato stazionario per ogni cardinalità dell’insieme dei siti e per ogni scelta di α e β. Vediamo quali possano essere delle condizioni sufficienti su D,E,hW |,|V i affinché le formule di ricorrenza siano soddisfatte. 87 Sostituendo l’espressione matriciale di f nelle formule di ricorrenza si trova 1 hW |XD|V i = hW |X|V i β hW |Y DEE N −k−1 |V i = hW |Y DE N −k−1 |V i + hW |Y EE N −k−1 |V i 1 hW |EE N −1 |V i = hW |E N −1 |V i , α dove X è un matrice formata da un qualunque prodotto di N − 1 matrici D o E, e Y è una matrice formata da un qualunque prodotto di k − 1 matrici D o E ; k e N sono interi maggiori di uno. Si vede subito che le seguenti condizioni implicano la ricorsione richiesta: 1 D|V i = |V i (4.4) β DE = D + E (4.5) 1 hW | . (4.6) hW |E = α Chiaramente si richiede hW |V i = 6 0 . Questa è dunque l’algebra che cercavamo per il processo totalmente asimmetrico. Vale la pena di accennare ad una dimostrazione alternativa della stazionarietà, per capire l’origine dell’algebra ottenuta anche da un altro punto di vista. Introduciamo i generatori h1 , hN , h delle transizioni tra la sorgente esterna e il sito 1, tra la sorgente esterna e il sito N , e tra coppie di siti adiacenti (non sul bordo) rispettivamente: 0 0 0 0 0 0 1 0 −α 0 0 β h1 = , hN = , h= 0 0 −1 0 . α 0 0 −β 0 0 0 0 Con questa scelta il vettore (1 0) corrisponde al sito vuoto; inoltre, se u e v sono i vettori della base canonica di R2 , l’elemento di matrice uT h1,N v è il tasso della transizione v → u. E’ facile ricavare anche la convenzione per associare le configurazioni di una coppia di siti ai vettori della base canonica di R4 . L’equazione del moto per P può essere scritta (cf. §3.6) nella forma 1 X d PN (τ1 , . . . , τN ) = (h1 )τ1 ,s PN (s, τ2 , . . . , τN ) dt s=0 + 0,1 N −1 X X τj ,τj+1 (h)r,s PN (τ1 , . . . , τj−1 , r, s, τj+2 , . . . , τN ) j=1 r,s + 1 X (hN )τN ,s PN (τ1 , . . . , τN −1 , s) , s=0 88 (4.7) τ ,τ j j+1 dove con (h)r,s intendiamo l’elemento di matrice che corrisponde alla transizione (r, s) −→ (τj , τj+1 ) ; cioè gli unici due elementi di matrice diversi da 1,0 zero sono (h)0,1 1,0 = 1 e (h)1,0 = −1. Gli indici di riga e di colonna per h1 e hN vanno da zero a uno. Supponiamo che esistano due coefficienti x0 e x1 tali che per ogni η le seguenti condizioni siano soddisfatte: 1 X (h1 )τ1 ,s PN (s, τ2 , . . . , τN ) = xτ1 PN −1 (τ2 , . . . , τN ) s=0 0,1 X j ,τj+1 (h)τr,s PN (τ1 , . . . , r, s, . . . , τN ) = r,s − xτj PN −1 (τ1 , . . . , τj−1 , τj+1 , . . . , τN ) + xτj+1 PN −1 (τ1 , . . . , τj , τj+2 , . . . , τN ) (4.8) 1 X (hN )τN ,s PN (τ1 , . . . , τN −1 , s) = −xτN PN −1 (τ1 , . . . , τN −1 ) . s=0 Se i due coefficienti x0 e x1 esistono, allora PN è lo stato stazionario poiché sostituendo le (4.8) nella (4.7) si vede subito che la somma a secondo membro fa zero grazie alle cancellazioni provocate dalle x. Dunque il problema è stato ricondotto a trovare D,E, |V i,hW | che permettano di soddisfare il sistema (4.8). Sostituendo la (4.1) nelle (4.8) si ottengono le seguenti condizioni: αhW |E = x1 hW | = −x0 hW | DE = −x0 D + x1 E βD|V i = x1 |V i = −x0 |V i , (4.9) (4.10) (4.11) che sono proprio le (4.4)-(4.5)-(4.6) se si pone x0 = −x1 = 1 . Questa scelta non è restrittiva, ma deve comunque essere x0 = −x1 e il valore di x1 può essere cambiato a piacere moltiplicando D ed E per una costante. Affrontiamo il caso generale parzialmente asimmetrico. Le particelle possono saltare verso sinistra con tasso q e verso destra con tasso p (prendiamo p + q = 1). Le condizioni al bordo sono aperte: 0 −→ 1 1 −→ 0 0 −→ 1 1 −→ 0 nel sito 1 con tasso λp nel sito 1 con tasso (1 − λ)q nel sito N con tasso ρq nel sito N con tasso (1 − ρ)p 89 Vale allora il seguente Teorema 4.1.1. Supponiamo che le matrici D , E e i vettori |V i, hW | soddisfino [(1 − ρ)pD − ρqE]|V i = |V i pDE − qED = D + E hW |[λpE − (1 − λ)qD] = hW | . (4.12) (4.13) (4.14) Sia N Y fN (η) ≡ fN (τ1 , ..., τN ) = hW | [τj D + (1 − τj )E]|V i . j=1 Se la fN è ben definita (cioè se la produttoria converge) e soddisfa 0 , e ηt è irriducibile, allora P ζ fN (ζ) 6= fN (η) PN (η) = P ζ fN (ζ) è la distribuzione stazionaria per ηt . La dimostrazione è riportata in appendice C. Osservazione 4.1.1. Le (4.12)-(4.13)-(4.14) con p = 1 coincidono con le (4.4)-(4.5)-(4.6) identificando β con (1−ρ); pertanto useremo i vari parametri con una certa libertà. 4.2 Proprietà delle matrici Abbiamo dunque visto che l’equilibrio può essere ricondotto ad una struttura algebrica. Affinché questo nuovo formalismo non sia però vuoto, si deve anche verificare che esistono delle matrici e dei vettori che soddisfano l’algebra. Vogliamo intanto far vedere che è sufficiente dimostrare l’esistenza di tali oggetti ed esibirne una rappresentazione esplicita non è necessario per calcolare le grandezze di interesse fisico. Infatti si può verificare che per calcolare gli elementi di matrice che danno i pesi delle varie configurazioni nello stato stazionario, basta conoscere le relazioni algebriche. Per convincerci di ciò, torniamo per semplicità al caso totalmente asimmetrico. Per prima cosa si vede subito che elementi di matrice del tipo hW |E m Dn |V i sono facili da calcolare usando le (4.4) e (4.6): hW |E m Dn |V i = 90 1 αm β n ; poi usando la (4.5) è facile ridurre il calcolo di elementi di matrice qualsiasi come hW | · · · E ml Dnl E ml+1 Dnl+1 · · · |V i al calcolo di elementi come quelli appena affrontati. Come esempio possiamo riportare l’espressione esplicita del fattore di normalizzazione per ogni N : N hW |(D + E)N |V i X k(2N − 1 − k)!(β −k−1 − α−k−1 ) = . hW |V i N !(N − k)!(β −1 − α−1 ) k=1 Vogliamo ora esibire alcune rappresentazioni esplicite delle matrici e dei vettori introdotti per dimostrare che effettivamente esistono e per vedere come potrebbero essere fatti. Per prima cosa è bene cercare di capire che dimensione dovrebbero avere queste matrici. Per semplicità esaminiamo dapprima il caso totalmente asimmetrico. Supponiamo che D ed E commutino, allora dalle (4.4)-(4.5)-(4.6) segue immediatamente ( 1 1 1 + )hW |V i = hW |(D + E)|V i = hW |DE|V i = hW |V i ; α β αβ pertanto, poiché hW |V i 6= 0, deve essere α + β = 1. Questo è il noto caso ([28], [14]) in cui la distribuzione di probabilità è fattorizzata e non ci sono correlazioni. In questo caso la distribuzione di probabilità è invariante per traslazioni sul reticolo e la probabilità di ogni configurazione dipende soltanto dal numero di particelle presenti. Dunque è sufficiente scegliere D ed E unidimensionali e pari a 1/β e 1/α rispettivamente. Si noti anche che se α + β 6= 1, allora |V i non può essere autovettore di E, e perciò la dimensione delle matrici deve essere maggiore di 1. Supponiamo allora che le due matrici abbiano dimensione finita, e che |U i sia tale che E|U i = |U i . Applicando entrambi i membri di DE = D + E a |U i si ottiene D|U i = D|U i + |U i, da cui |U i = 0. Ne segue che E − I è invertibile (I è l’identità). Allora possiamo risolvere per D ricavando D = E(E − I)−1 , ma questo implica che D ed E commutano. Riassumendo, per il processo totalmente asimmetrico commutazione, dimensione finita, dimensione 1 e α + β = 1 sono equivalenti, l’unica alternativa è la non commutazione di matrici infinito-dimensionali. Tornando al caso generale parzialmente asimmetrico (con i parametri p, q, λ, ρ già introdotti), vale la seguente Proposizione 4.2.1. Supponiamo che E, D, |V i, hW | soddisfino le (4.12)(4.13)-(4.14) e che la fN risultante sia strettamente positiva. Allora • se D ed E commutano, si verifica una delle seguenti alternative 1. λ = ρ 91 2. p = 1 e λ = 0 o ρ = 1 3. p = 0 e λ = 1 o ρ = 0 • se p = 1 e D ed E non commutano, sono infinito-dimensionali. Dim. Il secondo punto è stato appena dimostrato. Per il primo punto, supponiamo che D ed E commutino, e definiamo le matrici A = λpE − (1 − λ)qD , B = (1 − ρ)pD − ρqE . (4.15) Ne segue [A, B] = 0 , hW |A = hW | , B|V i = |V i . Dalle (4.15) si ottiene ρqA + λpB = [λ(1 − ρ)p2 − ρ(1 − λ)q 2 ]D (1 − ρ)pA + (1 − λ)qB = [λ(1 − ρ)p2 − ρ(1 − λ)q 2 ]E . Adesso moltiplichiamo pDE − qED = D + E per [λ(1 − ρ)p2 − ρ(1 − λ)q 2 ]2 e usiamo le due equazioni qui sopra per sostituire A e B a D ed E. Questo porge (p − q)[ρqA + λpB][(1 − ρ)pA + (1 − λ)qB] = [λ(1 − ρ)p2 − ρ(1 − λ)q 2 ][ρqA + λpB + (1 − ρ)pA + (1 − λ)qB]. Facendo il bracket con hW | e |V i, otteniamo (p − q)[ρq + λp][(1 − ρ)p + (1 − λ)q]hW |V i = [λ(1 − ρ)p2 − ρ(1 − λ)q 2 ][ρq + λp + (1 − ρ)p + (1 − λ)q]hW |V i. Portando tutto a sinistra: (p − q)(ρ − λ)[λp + (1 − λ)q][ρq + (1 + ρ)p] = 0 , visto che hW |V i = 6 0. Eguagliando separatamente a zero i fattori si ottiene la tesi. Osservazione 4.2.1. Nel caso 1 dell’enunciato la misura stazionaria è la distribuzione fattorizzata νλ (cf. cap. 2), infatti le matrici unidimensionali D=d= 1 1 , E=e= (1 − ρ)(p − q) λ(p − q) soddisfano l’algebra e la corrispondente fN dà proprio νλ . Nei casi 2 e 3 le misure stazionarie sono, come ci si aspetta, di tipo δ concentrate sulle configurazioni ...000111... e ...111000... rispettivamente. 92 Come preannunciato, diamo finalmente alcuni esempi di rappresentazioni esplicite degli elementi dell’algebra introdotta dando cosı̀ prova della loro esistenza. Per il caso totalmente asimmetrico si può prendere 1 1 0 0 ··· 1 0 0 0 ··· 0 1 1 0 ··· 1 1 0 0 ··· 0 0 1 1 ··· 0 1 1 0 ··· D= , E= , 0 0 0 1 0 0 1 1 .. .. .. .. .. .. ... ... . . . . . . 1 (1−β) ! 2 β (1 − α) (1 − α) , . . . , |V i = (1−β) 2 . hW | = 1, α α β .. . Un’altra scelta possibile è 1/β a 0 0 1 1 D= 0 0 1 0 0 0 .. .. .. . . . 0 ··· 1/α a 0 ··· 1 ··· , E= 0 0 1 .. ... . hW | = (1, 0, 0, . . . ) , |V i = dove 0 1 1 0 .. . 1 0 0 .. . 0 0 1 1 .. . 0 ··· 0 ··· 0 ··· , 1 .. . α+β−1 . αβ Questa seconda scelta evita di sommare serie geometriche che potrebbero divergere e si riduce alla prima per α = β = 1, mentre per α + β = 1 si ha a = 1 e le due matrici divengono a blocchi con il primo blocco 1 × 1 disaccoppiato dal resto. Vediamo anche una rappresentazione per il caso parzialmente asimmetrico. In realtà mostreremo molto di più, come risulterà evidente. Se p = 1, q = 0, e le condizioni al bordo sono aperte, sappiamo già che le matrici D ed E sono necessariamente infinito-dimensionali a meno che non sia α + β = 1 (proposizione 4.2.1). In presenza di tassi parzialmente asimmetrici, sappiamo dalla proposizione (4.2.1) che se D ed E commutano allora a2 = 93 deve essere α + β = 1. Non sappiamo ancora nulla però sulla dimensione delle due matrici, per esempio è utile sapere se ogni volta che non commutano devono essere infinito-dimensionali, oppure se in alcuni casi è possibile sceglierle di dimensione finita maggiore di uno. Nella questione, ci si aspetta che il parametro di drift x giochi un ruolo rilevante (con i parametri che abbiamo usato finora x è legato a p/q). Riscriviamo allora l’algebra delle matrici in questi termini: (βD − δE)|V i = |V i DE − xED = (1 − x)(D + E) , x ∈ (0, 1) hW |(αE − γD) = hW |. (4.16) (4.17) (4.18) I parametri di bordo α, β, γ, δ sono moltiplicati, con questa scelta, da (1−x). Il seguente teorema fornisce informazioni importanti sulle rappresentazioni finito-dimensionali di D ed E per il processo parzialmente asimmetrico e condizioni al bordo aperte (che si chiudono nel limite di simmetria totale). Supponiamo x strettamente positivo. Teorema 4.2.1. La rappresentazione irriducibile n-dimensionale dell’algebra (4.17), in una base opportuna, può essere data da 1+u 0 0 ··· 0 0 1 + ux 0 ··· 0 . 2 . 0 1 + ux . (4.19) D= 0 . . . .. .. .. n−1 0 0 ··· 0 1 + ux 1 + 1/u 0 0 ··· 0 1 1 + 1/ux 0 ··· 0 .. 0 1 1 + 1/ux2 . E= . . . .. .. .. 0 0 ··· 1 1 + 1/uxn−1 (4.20) nel sottoinsieme del diagramma delle fasi dato da x1−n = κ+ (β, δ)κ+ (α, γ), (4.21) dove κ± (y, z) = −y + z + 1 ± 94 p (y − z − 1)2 + 4yz . 2y (4.22) Sulla base della dimostrazione di questo teorema, data nell’appendice C, si possono ottenere le espressioni esplicite dei due vettori di bordo riportate in [38]. Nei prossimi tre paragrafi mostreremo l’utilità dell’approccio algebrico matriciale ricavando alcune proprietà di base del processo di esclusione. Finora è stato possibile raggiungere tali risultati, al livello di generalità con cui li presenteremo, solo con questo metodo. Questi paragrafi non sono necessari per la comprensione del resto del capitolo, ma forniscono gli importanti risultati sulle proprietà stazionarie del processo di esclusione nel limite di volume infinito: il profilo di densità e il diagramma delle fasi. Inoltre possono già fornire un primo termine di paragone col formalismo hamiltoniano, confrontando i risultati con quelli del capitolo precedente, ad esempio in §3.6.2. Le dimostrazioni dei risultati sono piuttosto laboriose e non servono a capire meglio il contenuto dei paragrafi successivi, pertanto sono riportate in appendice C. 4.3 Le funzioni di correlazione e partizione In questa sezione si scrive l’espressione formale delle funzioni di correlazione in funzione delle matrici D ed E. Per ricavare poi il valore numerico in funzione dei parametri di bordo di quella a un punto, che è calcolato nel paragrafo 4.5, serve sapere il comportamento asintotico della funzione di partizione. Di conseguenza nel resto della presente sezione si cerca l’espressione esatta per ogni N (numero di punti del reticolo) di ZN . Questo servirà intanto nel prossimo paragrafo a calcolare il valore asintotico della corrente, che per definizione fornisce il diagramma delle fasi. Vediamo ora come si scrivono in questo formalismo le funzioni di correlazione. Per definizione si ha hτj iN = X τ1 =0,1 ··· X τj fN (τ1 , . . . , τN )/Z = τN =0,1 X fN (τ1 , . . . , τj−1 , 1, τj+1 , . . . , τN )/Z {τk = 0,1} k 6= j 95 ed è facile vedere che hτj iN = hW |C j−1 DC N −j |V i , hW |C N |V i dove C = D + E, e dunque ZN = hW |C N |V i. In modo simile si scrivono le correlazioni di ordine superiore, ad esempio la funzione di correlazione a due punti sarà, per i < j , hτi τj iN = hW |C i−1 DC j−i−1 DC N −j |V i . hW |C N |V i Abbiamo già scritto l’espressione esplicita della funzione di partizione ZN , vogliamo ora ricavarla e studiarne il comportamento asintotico. Definiamo i polinomi RN cosı̀ RN (x) = N X k=0 k 2N − k k+1 x , N ≥ 1. 2N − k N Proposizione 4.3.1. Se p = 1 la funzione di partizione può essere scritta come RN (β −1 ) − RN (α−1 ) hW |V i . ZN = hW |C N |V i = β −1 − α−1 La dimostrazione è riportata in appendice. Questa proposizione dunque fornisce l’espressione esatta per ogni N di ZN , tale espressione non è però facile da visualizzare concretamente. Tuttavia nel limite di volume infinito si riduce a espressioni particolarmente semplici. Naturalmente dobbiamo avere informazioni asintotiche sui polinomi RN . Per studiare l’andamento asintotico di ZN è allora utile avvalersi del seguente Lemma 4.3.1. Quando N → ∞, si ha N √4 3/2 π(2x−1)2 N 2·4N −1 √ RN (x ) ∼ πN N +1 1 (1 − 2x) x(1−x) se 1/2 < x ≤ 1 se x = 1/2 se 0 < x < 1/2 Ora il comportamento asintotico di hW |C N |V i segue facilmente dal lemma e dalla proposizione appena riportati, ed è riassunto nel seguente 96 Corollario 4.3.1. Supponiamo p = 1. Allora esiste una costante K(λ, ρ) > 0 tale che N −3/2 4 N se ρ < 1/2 < λ, se ρ = 1/2 o ρ < 1/2 = λ, 4N N −1/2 N −N hW |C |V i ∼ K(λ, ρ) × (λ(1 − λ)) se λ < 1/2 e λ + ρ < 1, −N (ρ(1 − ρ)) se ρ > 1/2 e λ + ρ > 1, (λ(1 − λ))−N se λ < 1/2 e λ + ρ = 1. Vediamo subito nel prossimo paragrafo l’utilità di conoscere il comportamento della funzione di partizione. 4.4 Corrente e diagramma delle fasi Il corollario precedente permette di ottenere facilmente il diagramma delle fasi. Per definizione diciamo che a ogni espressione asintotica della corrente, che stiamo per definire, corrisponde una fase del sistema. Limitiamoci al caso totalmente asimmetrico p = 1. Definiamo corrente attraverso il sito i la quantità JN = hτi (1 − τi+1 )i , infatti la probabilità che una particella salti da i a i + 1 è proporzionale al tempo e a τi (1 − τi+1 ). Dunque JN è dato da hW |C i−1 DEC N −i−1 |V i hW |C N −1 |V i = . hW |C N |V i hW |C N |V i Si noti che questa espressione è indipendente da i, come ci si aspetta in condizioni stazionarie. Dall’andamento asintotico della funzione di partizione riassunto nel corollario 4.3.1 si evince immediatamente il seguente Teorema 4.4.1. Se p = 1 allora 1/4 λ(1 − λ) lim JN = N →∞ ρ(1 − ρ) se ρ ≤ 1/2 ≤ λ se λ ≤ 1/2 e λ + ρ ≤ 1 se ρ ≥ 1/2 e λ + ρ ≥ 1 Nel processo totalmente asimmetrico (p = 1, q = 0), l’algebra di matrici che implica la stazionarietà è stata presentata con due insiemi differenti di simboli, ma come abbiamo già osservato le (4.4)-(4.5)-(4.6) e le (4.12)-(4.13)(4.14) coincidono identificando α≡λ β ≡1−ρ . 97 In termini di α e β pertanto, il diagramma delle fasi può essere descritto in modo equivalente da se β, α ≥ 1/2 1/4 α(1 − α) se α ≤ 1/2 e β > α lim JN = N →∞ β(1 − β) se β < 1/2 e α > β Come si vede il diagramma delle fasi è costituito da tre regioni tra le quali i valori della corrente si raccordano con continuità. La regione in cui α, β > 1/2 è chiaramente quella con la massima corrente, come era lecito attendersi dal ruolo dei parametri. Inoltre se uno dei tassi in ingresso (α) o in uscita (β) è grande mentre l’altro è piccolo, la corrente dipende solo da quello piccolo ed è piccola (la funzione x(1 − x) è monotona crescente per 0 < x < 1/2). Questo è facilmente spiegabile, infatti in questo caso il reticolo tende a “spopolarsi” o viceversa le particelle tendono ad accumularsi: in entrambi i casi la corrente non può che essere piccola. Ci si aspetta pertanto una connessione con la densità di particelle sul reticolo; questa sarà più chiara nel prossimo paragrafo. I risultati appena esibiti andrebbero confrontati con quelli del paragrafo 3.6.2. 4.5 Misura limite: il profilo di densità Nel seguito, quando p = 1, continueremo a usare indifferentemente la coppia di parametri (λ, ρ) oppure (α, β ≡ 1 − ρ). La conoscenza del comportamento asintotico della corrente permette di studiare anche il profilo di densità. Siamo infatti in grado ora di enunciare il seguente Teorema 4.5.1. Se p = 1, {kN }∞ N =0 % ∞ e N − KN → ∞, allora ν1/2 se ρ ≤ 1/2 ≤ λ νλ se λ ≤ 1/2 e λ + ρ < 1 lim µN = N →∞ νρ se ρ ≥ 1/2 e λ + ρ > 1 Se λ < 1/2, ρ > 1/2 e λ + ρ = 1, ossia α = β < 1/2, allora hτkN i → (1 − ϑ)λ + ϑρ ≡ α + ϑ(1 − 2α), qualora kN →ϑ . N La dimostrazione è data in appendice C. 98 Naturalmente dall’enunciato del teorema segue in particolare se β, α ≥ 1/2 1/2 α se α ≤ 1/2 e β > α lim hτkN i = N →∞ 1 − β se β < 1/2 e α > β Se α = β < 1/2 , allora hτkN i → (1 − ϑ)α + ϑ(1 − β) ≡ α + ϑ(1 − 2α), qualora kN →ϑ . N Il risultato appena riportato andrebbe confrontato con il corollario (2.3.1). Come si vede il diagramma delle fasi che si ottiene è lo stesso, come deve essere, che è stato ottenuto per la corrente. Cerchiamo di interpretarlo. Ci si aspetta che una forte corrente impedisca ovunque l’accumulo di particelle o il formarsi di lacune, perlomeno non in prossimità dei bordi, e infatti nella regione di massima corrente la densità media è uniforme (non dipende da ϑ). Ci si aspetta inoltre che se il tasso in uscita è piccolo e quello in entrata è grande, cioè ad esempio β < 1/4 < α lontano dalla bisettrice α = β, la densità sia alta indipendentemente dalla posizione, e infatti il suo valore è 1 − β > 1/2. Se invece, sempre lontano dalla bisettrice, il tasso in entrata è piccolo a differenza di quello in uscita, ci aspettiamo, indipendentemente da ϑ, una densità bassa, che infatti vale ovunque α << 1/2. L’unico caso in cui si può prevedere una dipendenza dalla posizione è quando i due tassi sono uguali e piccoli: α = β < 1/2. Infatti la corrente è troppo piccola per rendere uniforme la densità e la simmetria dei tassi, che sono piccoli, non permette di prevedere una densità alta o bassa ovunque. Quello che si può prevedere, per quanto detto, è che l’influenza della posizione diminuisca al crescere dei tassi (e della corrente), e infatti il coefficiente di ϑ va a zero quando α = β tende a 1. Il risultato è che, fissato il valore di α = β, questo fornisce anche il valore della densità vicino all’estremo da cui le particelle entrano, e la densità si avvicina linearmente al valore complementare 1 − α = 1 − β se ci si avvicina all’estremo da cui le particelle escono. In altre parole, se la corrente è piccola (o equivalentemente se i tassi α e β sono piccoli) la densità è bassa vicino al bordo di ingresso e alta vicino al bordo di uscita (le particelle sono poche ma la corrente, benché piccola, le sposta verso l’uscita). Se invece la corrente è forte (ossia tassi grandi), aiuta le particelle a uscire, e queste si accumulano soltanto vicino all’entrata. Potremmo dunque riassumere il comportamento sulla bisettrice per tassi non grandi (minori di 1/2) dicendo che la corrente influisce sulla densità più dei tassi (del resto sul segmento in 99 questione α = β < J = α(1 − α) = β(1 − β)), e una corrente piccola sposta comunque le particelle verso l’uscita dando luogo a una densità crescente, mentre una corrente grande tende a creare una densità uniforme. Figura 4.1: Diagramma delle fasi del processo di esclusione semplice asimmetrico con condizioni al bordo aperte: la fase I corrisponde alla fase di bassa densità; la fase II corrisponde alla fase di alta densità; la fase III corrisponde alla fase di massima corrente. Il prossimo paragrafo presenta il formalismo matriciale in una veste tensoriale che servirà a legare l’approccio matriciale con quello hamiltoniano. Malgrado si tratti soltanto di un cambio di notazione, si rivelerà fondamentale. 4.6 Il formalismo tensoriale Abbiamo apprezzato nel cap. 3 l’uso di prodotti tensoriali e basato su questi il formalismo hamiltoniano. L’introduzione anche nel formalismo matriciale di una notazione tensoriale è pertanto un primo passo per avvicinare i due approcci e cercare la connessione tra le due teorie. Vedremo meglio in seguito che gli stati prodotto di matrici sono una generalizzazione degli stati prodotto, i quali possono essere rappresentati da un prodotto tensoriale, mentre stati generici devono essere scritti come somme di prodotti tensoriali. L’idea è di indicare la generica configurazione, cioè il generico prodotto di matrici D e E, tramite un prodotto tensoriale omogeneo di spinori a due componenti: D la prima, E la seconda (N ) Y {η} = {τ1 , ..., τN }{τ. =0,1} ↔ (τk D + (1 − τk )E) k=1 l N O D K=1 E k ⊗N D = . E 100 {τ. =0,1} Infatti il prodotto tensoriale qui sopra coincide nella base standard con un unico spinore a 2N elementi con tutti i possibili prodotti di N matrici D o E, che corrispondono all’intero spazio delle configurazioni {η} = {0, 1}N . Cominciamo trattando il processo parzialmente asimmetrico, con parametri di asimmetria p e q, e con condizioni al bordo aperte. Nella base standard il generatore del processo è H= h01 + N −1 X hi + h0N , (4.23) i=1 dove le (h) sono le stesse del paragrafo (4.9), in cui per semplicità prendiamo γ = δ = 0. Vogliamo intanto far vedere che se α + β = p − q (che con asimmetria totale si riduce al caso già esaminato α + β = 1), lo stato stazionario può essere scritto come ⊗N 1 d d d |Ps i = ⊗ ··· ⊗ = , (4.24) e e e Z dove d = 1/α, e = 1/β. Questo stato, che generalizza a condizioni al bordo aperte quello trovato nel capitolo precedente, è come sappiamo una misura prodotto, cioè tutte le correlazioni sono nulle. La costante di normalizzazione vale Z = (e + d)N . Il fatto che la misura (4.24) sia stazionaria, cioè che H|Ps i = 0, si può capire verificando che d d 1 d d 1 hi ⊗ = ⊗ − ⊗ . (4.25) e e −1 e e −1 Infatti cosı̀ la somma che definisce H è telescopica, e poiché d 1 d 1 h1 =− , hN = , e −1 e −1 la cancellazione del primo termine con l’ultimo è assicurata dai termini di bordo. Quando però α + β 6= p − q, si vede che il ragionamento appena fatto non vale più, e infatti sappiamo che lo stato stazionario non è più uno stato prodotto. In questo caso, tuttavia, lo stato può essere espresso come uno stato prodotto di matrici. Per vedere ciò, sostituiamo e e d con due matrici non commutanti E e D. Gli operatori D ed E agiscono in uno spazio ausiliario che non è lo spazio vettoriale delle configurazioni del modello su reticolo. Lo stato prodotto di matrici, introducendo con una nuova notazione i soliti vettori di bordo |V ii e hhW |, può essere scritto come ⊗N 1 D |V ii . (4.26) |Ps i = hhW | E Z 101 Ricordiamo che non c’è ambiguità nell’identificare le configurazioni e le misure di probabilità di tipo delta concentrate su tali configurazioni. Si noti che mentre |V ii e hhW | sono vettori nello spazio ausiliario, |Ps i è un vettore di probabilità nello spazio delle configurazioni. Come possiamo intuire ora Z = hhW |C N |V ii, con C = D + E. Limitiamoci al caso periodico, cosı̀ da non preoccuparci delle matrici h1 e hN . Il generatore è H= N X hi mod N. i=1 Il meccanismo di cancellazione è sempre lo stesso, la somma è telescopica e il primo termine si elide con l’ultimo grazie alla periodicità: D D 1 D D 1 hi ⊗ = ⊗ − ⊗ . (4.27) E E −1 E E −1 Stavolta però, la condizione che si deve imporre perché il meccanismo funzioni, non è p − q = 1/d + 1/e, bensı̀, come ci si aspetta pDE − qED = D + E. Naturalmente con condizioni al bordo aperte si sarebbe potuto trovare anche hhW |E = 1 1 hhW | , D|V ii = |V ii. α β Siamo ora pronti ad abbandonare l’ipotesi di stazionarietà. Nei prossimi paragrafi scriveremo la master equation nel formalismo matriciale, spiegando come si ottiene solo nell’ultimo paragrafo. Poi presenteremo l’algebra di matrici valevole per l’intera dinamica, che si riduce a quella vista finora uguagliando a zero le derivate temporali. Dall’algebra deriveremo la soluzione formale della master equation, che mostreremo soddisfatta all’equilibrio nel caso periodico dalla misura stazionaria nota. Infine utilizzeremo il formalismo tensoriale per ricavare la master equation e il legame col formalismo hamiltoniano. 4.7 La dinamica fuori dall’equilibrio Studiamo come sia possibile estendere il formalismo matriciale all’intera evoluzione temporale e non al solo stato stazionario. Abbiamo visto che ogni 102 configurazione stazionaria del sistema è associata ad un opportuno prodotto di matrici D ed E, e queste matrici devono soddisfare un’algebra dedotta imponendo la stazionarietà a partire dall’equazione del moto. Dunque l’algebra sembra legata in maniera indissolubile alla particolare dinamica del processo, visto che deriva dall’equazione del moto, e alla condizione di stazionarietà − dato che segue dall’aver posto uguale a zero la derivata temporale della misura di probabilità del processo. Si consideri ad esempio la deduzione dell’algebra data nel paragrafo 4.1 basata sull’equazione (4.8). Per questo sembrerebbe che il formalismo non possa essere adattato alla dinamica fuori dall’equilibrio. Se però nell’algebra si introduce una ulteriore matrice, oltre a D ed E, è invece possibile estendere il formalismo. Denotiamo con P (τ1 , . . . , τN , t) la probabilità di trovare, al tempo t, il sistema nella configurazione η descritta dai numeri di occupazione di sito {τ1 , . . . , τN }. Definiamo la variabile di sito ϑk = τk D+(1−τk )E, e prendiamo C = E + D indipendente dal tempo (cioè la funzione di partizione Z non dipende dal tempo). Sia inoltre ul = 2τl − 1. In questo modo la misura di probabilità P (·) può essere scritta cosı̀: N 1 Y P (η) = h ϑk i, Z k=1 dove h·i denota l’attesa, che si calcola tramite un bracket con dei vettori hW | e |V i, se le condizioni al bordo sono aperte, prendendo la traccia (vedremo il perché) se le condizioni al bordo sono periodiche. L’equazione del moto Ṗ = −H(P ) per il processo simmetrico con condizioni al bordo aperte (definite dai parametri α, β, γ, δ già incontrati), può essere allora scritta nel modo seguente (in seguito sarà più chiaro il motivo): hϑ̇1 ( N Y N −1 Y ϑk )i + h( k=2 ϑk )ϑ̇N i + k=1 l=1 − h{u1 (γD − αE) − J1 }( N Y k=2 N −1 X N −1 X N Y 1 ϑk ) (ϑ̇l ϑl+1 + ϑl ϑ̇l+1 )( ϑk ) = 2 k=1 k=l+2 h( l−1 Y N −1 Y ϑk )i − h( ϑk ){uN (βD − δE) + JN } k=1 l−1 Y N Y 1 (ul+1 − ul ) − h( ϑk ) { [E, D] + Jl ϑl+1 − ϑl Jl+1 }( ϑk ), 2 2 l=1 k=1 k=l+2 (4.28) dove il punto denota la derivata temporale. Nel caso periodico, i termini di bordo scompaiono e la sommatoria va estesa a l = N ed effettuata modulo N . Le matrici Jl sono legate alla corrente e sono della forma Jl = ul S. I termini nei due membri della (4.28) che coinvolgono ciascuna coppia (l, l + 1) 103 di siti, possono essere eguagliati separatamente per ogni configurazione, se: SC + ḊC = [C, D], CS − C Ḋ = [C, D], ḊD + DḊ = [D, S], (4.29) (4.30) (4.31) hW |{(α + γ)D − αC − S + Ḋ} = 0 {(β + δ)D − δC + S + Ḋ}|V i = 0, (4.32) (4.33) e che, come è facile verificare, implicano ĖE + E Ė = [S, E], dato che, per ipotesi Ċ = 0 ⇒ Ė = −Ḋ. Tutte queste equazioni costituiscono l’algebra del problema. L’approccio può facilmente essere generalizzato, come per l’equilibrio, al processo parzialmente asimmetrico sostituendo nelle (4.29)-(4.30) pDE − qED al commutatore [D, C]. E’ importante notare subito che, ponendo Ḋ = 0 e prendendo S uguale a un qualunque c-numero, dalle (4.29)÷(4.33) si recupera l’algebra trovata nel caso stazionario. Vediamo ora perché le (4.29)÷(4.33) soddisfano la (4.28). Per il bulk verifichiamo che −(ϑ̇l ϑl+1 + ϑl ϑ̇l+1 ) = 1 (ul+1 − ul ) [E, D] + Jl ϑl+1 − ϑl Jl+1 . 2 2 A Jl sostituiamo ul S, e, osservando che ϑ̇l = ul Ḋ, otteniamo che dobbiamo verificare −ul (Ḋϑl+1 + ul+1 ϑl Ḋ) = 1 (ul+1 − ul ) [E, D] + ul Sϑl+1 + ϑl ul+1 S. 2 2 Segue poi banalmente dalle definizioni che ul+1 θl = 2nl+1 nl D + E − nl C e ul θl+1 = 2nl+1 nl D + E − nl+1 C. Sostituendo queste espressioni e le (4.29)÷ (4.33) nell’equazione da verificare, si ottiene un’ identità. Per quanto riguarda i bordi, basta notare che la (4.33) e la (4.32) implicano rispettivamente che hγD − αE − S + Ḋi = 0 e che hβD − δE + S + Ḋi = 0. 104 E’ utile osservare che l’equazione del moto (4.28) può essere riscritta nel modo seguente hϑ̇1 ( N Y N −1 Y ϑk )i + h( k=2 ϑk )ϑ̇N i + k=1 N −1 X N Y 1 ϑk ) (ϑ̇l ϑl+1 + ϑl ϑ̇l+1 )( ϑk ) = 2 k=1 k=l+2 h( l=1 l−1 Y N −1 Y 1 1 − h{u1 (γD − αE − S)}( ϑk )i − h( ϑk ){uN (βD − δE + S)} 2 2 k=2 k=1 N Y N −1 X N Y 1 (ul+1 − ul ) − h( ϑk ) [E, D]( ϑk ). 2 2 l=1 k=1 k=l+2 l−1 Y (4.34) Dalla (4.34) si capisce che i termini in S sono essenziali soltanto al bordo, e in particolare scompaiono con condizioni al bordo periodiche, come approfondiremo nel prossimo paragrafo. L’estensione del formalismo matriciale all’intera dinamica deve essere coerente con il formalismo hamiltoniano, cioè l’equazione del moto deve dare la stessa descrizione data dall’hamiltoniana della catena di Heisenberg di spin 1/2. Questo è discusso in [54]. Nello stesso articolo è mostrata anche una soluzione per la densità che generalizza quella ottenuta con le tecniche precedenti ([14]). E’ anche interessante notare che nel caso stazionario si ricava che le correlazioni di corrente sono invarianti per traslazione per distanze maggiori di 2, mentre per gli stati prodotto usuali ciò avviene per distanze maggiori di 1 ([53]). Rimanendo al caso simmetrico, le equazioni (4.29)-(4.30)-(4.31) possono essere riscritte, scegliendo C invertibile, in questo modo 2Ḋ = [[E, D], C −1 ] 2D2 = CDC −1 D + DC −1 DC 2S = CDC −1 − C −1 DC (4.35) (4.36) (4.37) Introduciamo gli operatori Dn = C n−1 DC −n , e le loro trasformate di Fourier Dq = X Dn exp(iqn). n Cerchiamo la dipendenza temporale di Dq , per arrivare a dare, nel prossimo paragrafo, la soluzione esatta (implicita) dell’equazione del moto del processo (nel caso simmetrico periodico). Si vede subito che la (4.35) si riscrive 2Ḋ = CDC −1 − 2D + C −1 DC. 105 (4.38) Ne segue 2Ḋn = 2C n−1 ḊC −n = C n−1 (CDC −1 − 2D + C −1 DC)C −n = CDn C −1 − 2Dn + C −1 Dn C, da cui 2Ḋq = 2 X eiqn Ḋn n X = C eiqn Dn C −1 − 2 n = CDq C X eiqn Dn + C −1 n −1 − 2Dq + C −1 X eiqn Dn C n Dq C. Ma CDq C −1 = e−iq Dq , infatti C X eiqn Dn C −1 = n X X eiqn CDn C −1 = n eiqn Dn+1 = n X eiqk e−iq Dk = e−iq Dq ; k e analogamente C −1 Dq C = eiq Dq . Pertanto 2Ḋq = e−iq Dq − 2Dq + eiq Dq = −2Dq + 2 cos qDq, che risolta fornisce finalmente Dq (t) = e−εq t Dq (0) , εq = 1 − cos q. (4.39) Questo fornisce moralmente la soluzione esatta del processo di esclusione, almeno a livello formale. Infatti ora “conosciamo” Dq (t) in ogni istante, per cui invertendo la trasformata di Fourier otteniamo D(t) per ogni t, e da qui si scrive esplicitamente ogni funzione di correlazione. L’applicazione pratica di questa ricetta è tuttavia sovente proibitiva, cionondimeno rimane l’importanza teorica e concettuale di questa estensione del formalismo matriciale alla dinamica fuori dall’equilibrio. 106 4.8 Altre proprietà delle matrici Dal teorema 4.2.1 segue che, nel caso stazionario, una delle due matrici D ed E è diagonalizzabile nei punti dello spazio delle fasi dove esiste una rappresentazione finito-dimensionale (di qualunque dimensione). Sappiamo poi dallo stesso paragrafo che le due matrici, a prescindere dalla dimensione, non possono essere simultaneamente diagonalizzabili, se non nei casi banali che abbiamo discusso. E’ allora abbastanza naturale chiedersi se anche nel caso non stazionario è possibile scegliere D o E diagonali, magari anche solo in pochi punti dello spazio delle fasi, ed eventualmente rinunciando a rappresentazioni finito-dimensionali. Prendiamo in considerazione l’equazione ḊD + DḊ = [D, S], e supponiamo che D sia diagonale. Calcoliamo in generale il commutatore tra una matrice diagonale Dij = di δij e una qualunque S: [D, S]ij = X (Dik Skj − Sik Dkj ) = X (dk δik Skj − Sik dk δkj ) k k = di Sij − dj Sij = Sij (di − dj ). Si vede da qui che il commutatore è antidiagonale, pertanto nel nostro caso, poiché anche Ḋ2 è diagonale, otterremmo che la matrice D è costante (e per cui anche E lo è). Ma questo vuol dire che siamo forzatamente tornati al caso stazionario. Chiaramente lo stesso discorso vale scambiando i ruoli di D ed E, visto che ĖE + E Ė = [S, E]. Come fatto per il caso stazionario, diamo un esempio di rappresentazione esplicita dell’algebra. Tratteremo, senza scendere troppo nei dettagli, un caso particolare delle condizioni al bordo aperte. Inoltre considereremo solo il processo simmetrico, dato che la generalizzazione al caso parzialmente asimmetrico è tutt’altro che banale e ancora molto poco è noto. Ulteriori dettagli possono essere trovati in [54]. Poiché C non dipende dal tempo, può essere dedotto dalla soluzione stazionaria, in cui S è proporzionale all’identità: [C, D(∞)] = λC, S = λI. Questo determina D(∞) e i vettori hW | e |V i, che pure non dipendono dal tempo. Una scelta semplice per C è una matrice diagonale: (C)ij = cij = ci δij . In questo caso si vede che la (4.38) è facile da integrare, e ponendo εij = (2−ci /cj −cj /ci )/2, vij = (ci /cj −cj /ci )/2, si trova Dij (t) = dij exp[−εij t] e Sij (t) = vij dij exp[−εij t]. La (4.36) porge allora una 107 relazione quadratica tra gli elementi di matrice dij e ci . Con una C diagonale, la condizione di stazionarietà [C, D(∞)] = λC impone S(∞) = λ = 0. Pertanto almeno a tempo infinito anche D può essere presa diagonale senza perdere di generalità. Del resto ce lo potevamo attendere per quanto visto nel §4.2, dove si mostra che D può essere presa diagonale in ogni rappresentazione finito-dimensionale. Inoltre, poiché εii = 0, gli elementi diagonali di D(t) sono indipendenti dal tempo, e dato che vii = 0, si ha Sii (t) = 0. Anche senza usare direttamente la (4.36) si possono già ottenere altre informazioni. I vettori hW | e |V i soddisfano le condizioni di bordo dell’algebra con Ḋ = S = 0. Questo è coerente con [C, D(∞)] = 0 solo se i parametri di bordo soddisfano αβ = γδ. Sii (t) = 0 implica che la corrente J. soddisfi J. = 0. Ne segue che la scelta di prendere C diagonale è compatibile solo con la descrizione dell’evoluzione temporale di uno stato iniziale con corrente nulla e parametri di bordo tali che αβ = γδ. Per casi più generali dunque non si può scegliere C diagonale. 4.9 Il caso periodico Il caso periodico è già stato affrontato nel §3.6.2, dove abbiamo trovato la corrente stazionaria. Proprio in relazione a questo capire il ruolo della matrice S in questo contesto risulterà importante. Finora abbiamo utilizzato il formalismo matriciale solo con condizioni al bordo aperte, del resto il processo con condizioni al bordo chiuse è meno interessante e si sapeva già molto di esso senza l’ausilio del nuovo formalismo. Fra l’altro, come è facile intuire ponendo α e β uguali a zero nelle (4.4)-(4.5)-(4.6), si vede che le equazioni che definiscono l’algebra perdono di utilità. Ci sono però delle condizioni al bordo che rendono il sistema sufficientemente ricco e interessante da trattare con il formalismo, e che, richiedendo una impostazione ad hoc dell’algebra, vale sicuramente la pena di affrontare: le condizioni al contorno periodiche. Inoltre questo è proprio il caso a cui faremo riferimento nel cercare l’analogia tra l’approccio matriciale e quello hamiltoniano. Nel caso periodico, il calcolo dell’attesa effettuato attraverso il bracket con i vettori hW | e |V i, va sostituito dalla traccia della matrice data dalla produttoria. La proprietà di ciclicità della traccia di un prodotto di matrici suggerisce in effetti già a priori che questo potrebbe essere proprio il modo giusto di fare l’attesa. Per asserirlo con maggior rigore basti considerare che, poiché la traccia è un funzionale lineare come il bracket, la (4.8) e il ragionamento attorno a essa rimangono utilizzabili senza alcuna modifica; inoltre non è necessario ricorrere alle condizioni al bordo per ottenere la cancellazione di tutti i termini della sommatoria: ciò è assicura108 to dalla periodicità. Riteniamo però utile discutere con maggiore dettaglio quanto appena detto, per far vedere come il ragionamento sfruttato per la (4.8) continui a essere fruttuoso anche nel caso parzialmente asimmetrico (o simmetrico), fornendo dunque una semplificazione della dimostrazione del teorema 4.1.1. Le condizioni al bordo non sono rilevanti nel ragionamento, a patto di ottenere tutte le cancellazioni necessarie. L’aspetto interessante è che la proprietà telescopica della serie che si deve trattare sommando la (4.8) su tutti i siti, rimane anche nel caso parzialmente asimmetrico. Prendiamo al posto del generatore (h) valido nella (4.8), la matrice adatta al caso parzialmente asimmetrico: 0 0 0 0 0 −q p 0 h= 0 q −p 0 . 0 0 0 0 In questo modo è facile capire che la (4.10) diviene pDE − qED = −x0 D + x1 E, che è esattamente la (4.13), di nuovo con la scelta x1 = −x0 = 1 già effettuata nel caso totalmente asimmetrico con condizioni al bordo aperte (in un solo verso). Inoltre il metodo è efficace anche se le condizioni al bordo sono aperte generiche: basta sostituire anche i generatori (h1 ) e (hN ) con le matrici −α γ −δ β 0 0 h1 = , hN = . α −γ δ −β Cosı̀ si ottengono esattamente le (4.12)-(4.13)-(4.14), con β = p(1 − ρ), δ = qρ, α = pλ, γ = q(1 − λ). Le matrici D ed E, e i vettori |V i e hW |, sono definiti a meno di una costante moltiplicativa che scompare dividendo la grandezze di interesse fisico per il fattore di normalizzazione Z; ciò spiega perché ad esempio qui abbiamo posto α = pλ invece di α = λ come fatto in precedenza. Abbiamo chiarito che le matrici D ed E non dipendono dalle condizioni al bordo, ma solo dalla dinamica nel bulk, è soltanto la scelta dell’elemento della matrice prodotto che viene determinata dalle condizioni al bordo. Pertanto, fissata l’asimmetria del processo, le rappresentazioni esplicite che si trovano per le condizioni al contorno aperte sono valide anche nel caso periodico. Il processo periodico è sufficientemente semplice affinché se ne possano trovare la misura di equilibrio e le funzioni di correlazione senza ricorrere a 109 particolari formalismi. Infatti non è difficile mostrare che la distribuzione di equilibrio Ps è proprio quella che ci si aspetta: quella uniforme, a prescindere dal grado di asimmetria (p/q, in termini dei soliti parametri) della dinamica. Cioè, per un sistema con K particelle e N siti Ps (η) = K!(N − K)! ∀ η ∈ {0, 1}NmodN , N mod N ≡ N/N N . N! Infatti se ν(η) è il numero di cluster nella configurazione η, la probabilità di lasciare questa configurazione in un intervallo di tempo dt è pν(η)Ps (η)dt + qν(η)Ps (η)dt = ν(η)Ps (η)dt; tramite il salto della particella più a “destra” di ogni cluster con tasso p, o quello con tasso q della particella più a “sinistra”. La probabilità di raggiungere durante l’intervallo dt la configurazione P P η, è invece p ζ Ps (ζ)dt + q ς Ps (ς)dt, dove la prima somma è su tutte le configurazioni ζ ottenute spostando a “sinistra” la particella più a sinistra di ciascun cluster, la seconda somma è su tutte le configurazioni ς ottenute spostando a “destra” la particella più a destra di ogni cluster. Ma il numero di configurazioni ζ è uguale al numero di configurazioni ς che è uguale a ν(η); dunque la probabilità di raggiungere la configurazione η è (p + q)ν(η)Ps (η)dt = ν(η)Ps (η). Risulta allora soddisfatta la condizione di stazionarietà: X X H(ζ, η)Ps (ζ) = H(η, ζ)Ps (η). ζ ζ Notiamo però che appena il processo non è simmetrico, non risulta invece soddisfatto il bilancio dettagliato: H(η, ζ)Ps (ζ) = p K!(N − K)! K!(N − K)! 6= H(ζ, η)Ps (η) = q . N! N! La semplicità della distribuzione stazionaria permette di calcolare con facilità le funzioni di correlazione a tempi uguali: hτi i = K K(K − 1) K(K − 1)(K − 2) , hτi τj i = , hτi τj τk i = , ... N N (N − 1) N (N − 1)(N − 2) Il fatto che le correlazioni a tempi uguali siano cosı̀ semplici da calcolare, non deve far credere che siano facili anche le altre proprietà: le correlazioni a due punti e due tempi diversi non sono infatti note neanche nello stato stazionario. Vediamo ora come sia possibile dimostrare che la distribuzione uniforme (sullo spazio delle configurazioni con un fissato numero di particelle) soddisfa la condizione di stazionarietà H(Ps ) = 0 anche nel formalismo matriciale. 110 Nel caso periodico, i termini in J nella (4.28) si cancellano poiché la serie è telescopica e la periodicità semplifica il primo termine con l’ultimo; dunque questi termini non contribuiscono con nessuna misura. Per i termini proporzionali a [E, D], si osservi che (ul+1 − ul ) [E, D] = [ϑl , ϑl+1 ]. 2 Cioè nella (4.28), fissata una coppia di siti adiacenti, al peso di ogni configurazione si sottrae il peso della configurazione che si ottiene scambiando il “contenuto” dei due siti. Ma questo chiaramente non cambia il numero di particelle, e le due configurazioni hanno allora la stessa probabilità, per ipotesi. Dunque ciascun termine della sommatoria ha peso complessivo nullo, come volevasi dimostrare. A questo punto proviamo a trovare implicitamente la soluzione esatta del processo di esclusione semplice (il risultato si estende facilmente al caso parzialmente asimmetrico con condizioni al bordo aperte). La funzione di correlazione a K particelle nei siti (j1 , . . . , jK ), è data, come è facile constatare, da PN (τj1 (t1 ), . . . , τjK (tK ) = 1) = 1 tr[Dj1 (t1 )Dj2 (t2 ) · · · DjK (tK )C N ]; ZN (4.40) si capisce cosı̀ anche la particolare scelta nella definizione di Dn data nel paragrafo precedente. Poiché Z 2π 1 e−iqn Dq (t)dq, Dn (t) = 2π 0 sostituendo la (4.39) nella (4.40) si ottiene PN (τj1 (t1 ), . . . , τjK (tK ) = 1) = ! K Z 1 Y 2π dqk iqk jk −εq tk k e tr[Dq1 (0) · · · DqK (0)C N ]. ZN k=1 0 2π Questa è l’espressione implicita della generica funzione di correlazione. Poiché, come si evince dal calcolo diretto, vale Dq1 Dq2 = S(q1 , q2 )Dq2 Dq1 , S(q1 , q2 ) = 1 + eiq1 +iq2 − 2eiq2 , 1 + eiq1 +iq2 − 2eiq1 le matrici Dq devono soddisfare queste relazioni, l’algebra (4.29)÷(4.33), e le condizioni iniziali che definiscono PN (τj1 (0), . . . , τjK (0) = 1). 111 4.10 Legame con il formalismo hamiltoniano Dalla (4.28) deduciamo l’azione del generatore del processo simmetrico su un anello di L siti sulla generica configurazione (vale a dire sulle δ-misure, ma per Q linearità questo è sufficiente per conoscere l’azione su ogni misura) Θ ≡ k ϑk : L−1 l−1 L Y 1 1X Y ( ϑk ){ (ul+1 − ul )[E, D] + Jl ϑl+1 − ϑl Jl+1 }( ϑk ) H(Θ) = 2 l=1 k=1 2 l+2 L−1 Y +( 1 1 ϑk ) { (u1 − uL )[E, D] + JL ϑ1 − ϑL J1 } 2 2 k=2 (4.41) in cui, poiché ci limitiamo al caso periodico, l’ordine dei fattori è definito a meno di permutazioni cicliche (l’unico termine scritto in un ordine “poco naturale” è quello di bordo). Siccome 1 (ui − uj )[E, D] = [ϑj , ϑi ], 2 (4.42) possiamo riscrivere la (4.41) in questo modo: H(Θ) = L−1 l−1 L Y 1X Y ( ϑk ){[ϑl , ϑl+1 ] + Jl ϑl+1 − ϑl Jl+1 }( ϑk ) 2 l=1 k=1 l+2 L−1 Y + ( ≡ 1 ϑk ) {[ϑL , ϑ1 ] + JL ϑ1 − ϑL J1 } 2 k=2 L l−1 L Y 1X Y ( ϑk ){[ϑl , ϑl+1 ]}( ϑk ) 2 l=1 k=1 l+2 (4.43) mod L. Come si vede, dunque, il generatore 2H agisce su ogni configurazione come L volte l’identità meno la somma di tutte le L permutazioni di due siti adiacenti (compreso l’ultimo col primo). Da ciò si capisce anche che il modo più naturale di scrivere il termine di bordo a secondo membro è L−1 Y ϑ1 ( k=2 L−1 Y ϑk )ϑL − ϑL ( L−1 Y ϑk )ϑ1 + ϑ1 ( k=2 k=2 L−1 Y ϑk )JL − J1 ( ϑk )ϑL . k=2 Per fare un paragone, calcoliamo anche la stessa azione dello stesso generatore nel formalismo hamiltoniano quantistico. Sia O ni + − σi (ni ) = ni σi + (1 − ni )σi = e Σ= σk . 1 − ni i k 112 Dalla (3.71) ricaviamo L O l−1 X H(Σ) = ( σk ) ⊗ {(−Al A†l+1 + Nl† Ml+1 (4.44) l=1 k=1 − A†l Al+1 + Ml Nl+1 )σl ⊗ σl+1 } ⊗ ( L O σk ) mod L k=l+2 = L O l−1 X ( σk ) ⊗ [(nl+1 − + nl )(σl− σl+1 − − σl+ σl+1 )] ⊗( l=1 k=1 L O σk ) mod L k=l+2 L O l−1 L X O = ( σk )⊗[σl (nl )σl+1 (nl+1 )− σl (nl+1 )σl+1 (nl )] ⊗( σk ) mod L l=1 k=1 k=l+2 L’ultima uguaglianza deriva da un semplice calcolo diretto, perfettamente analogo a quello valido nel formalismo matriciale riportato nella (4.42). Omettendo l’indice di fattore nel prodotto tensoriale, e dunque rendendolo un prodotto ordinato, l’ultimo membro si potrebbe scrivere usando un “commutatore tensoriale” di ovvia definizione: H(Σ) = L O l−1 L X O ( σk ) ⊗ [σ(nl ), σ(nl+1 )]⊗ ⊗ ( σk ) l=1 k=1 mod L (4.45) k=l+2 A questo punto è evidente l’analogia tra le due espressioni (4.43) e (4.45) del generatore applicato alla generica configurazione. Anche nel formalismo hamiltoniano infatti il generatore agisce come L volte l’identità meno gli L operatori di scambio tra coppie di siti adiacenti. Dunque, essendo il generatore e le configurazioni gli stessi nei due casi, possiamo estendere l’analogia dall’azione del generatore agli oggetti con cui si scrivono le configurazioni. In altre parole, possiamo identificare le ϑ del formalismo matriciale con gli spinori σ del formalismo tensoriale, non dunque limitarci all’osservazione fatta all’inizio del capitolo che faceva semplicemente notare come la matrice D venisse usata per i siti pieni e la matrice E per quelli vuoti. Pertanto il formalismo matriciale non è indipendente da quello hamiltoniano: non si tratta soltanto di osservare che “miracolosamente” nel caso stazionario si possono inventare delle matrici per i siti vuoti e per i siti pieni, moltiplicarle e trovare i pesi delle varie configurazioni, notando poi che il “miracolo” può essere esteso alla dinamica fuori dall’equilibrio. Si deve piuttosto capire che tramite il formalismo tensoriale introdotto nei paragrafi precedenti si effettua una vera e propria identificazione 1 0 D↔ , E↔ 0 1 113 che si estende poi a tutto il reticolo tramite tensorizzazione, come abbiamo visto. A questo punto è utile riassumere i concetti fondamentali su cui si basa il formalismo matriciale. A livello concettuale, il primo passo è stabilire il modo di descrivere gli oggetti costitutivi del sistema da studiare, cioè le configurazioni, prescindendo da come si studieranno poi gli aspetti probabilistici del processo. In questo primo punto l’idea di base è semplice: stringhe ordinate di oggetti (locali) che commutano tra loro sono in corrispondenza biunivoca con prodotti di oggetti (non locali) non commutanti; gli oggetti matematici non commutanti più naturali sono le matrici (di numeri reali). Per ora il formalismo che si sta definendo è solo una traduzione banale dell’altro: si tratta di individuare la posizione dell’elemento numerico in uno spinore (diciamo a 2L componenti) distinguendo i vettori della base canonica L (di R2 ) tramite prodotti non commutativi invece che tensoriali (l’equivalenza è data dalla convenzione standard per i prodotti tensoriali usata per la corrispondenza spiegata all’inizio del §4.6). Il passo concettualmente immediatamente successivo è l’analisi del modo in cui il formalismo permette di descrivere le informazioni probabilistiche sul sistema. Da questo punto di vista la proprietà essenziale è che singoli prodotti di oggetti non commutanti descrivono anche misure non fattorizzate, a differenza dei prodotti tensoriali tra spinori con elementi numerici. Più precisamente, l’introduzione di uno spazio ausiliario di dimensione maggiore di uno, fatta sostituendo delle matrici alle componenti numeriche degli spinori, arricchisce enormemente il contenuto probabilistico degli spinori; infatti se le matrici non commutano, è possibile rappresentare anche misure non fattorizzate con un singolo prodotto, invece che con una somma. L’ultimo passo è quello applicativo, inerente le possibilità di calcolare in modo più semplice grandezze altrimenti difficili. E’ a questo livello che l’impostazione inedita descritta nei primi due punti mostra finalmente la sua vera utilità: per calcolare le proprietà probabilistiche del modello è sufficiente conoscere l’algebra di operatori e non servono rappresentazioni esplicite. Si potrebbe pensare che queste considerazioni valgano solo nel caso periodico, visto che l’analogia formale tra l’hamiltoniana quantistica e quella matriciale è palese solo accorgendosi che i termini in J hanno somma zero. In realtà si vede che le argomentazioni appena fornite valgono anche con condizioni al bordo aperte, se si scrive la master equation nella forma (4.34). Dovremmo allora capire, però, quale sia l’utilità delle J, cogliendo l’opportunità per estendere alla dinamica fuori dall’equilibrio la formulazione tensoriale dell’approccio matriciale, in modo tale da chiarire ulteriormente il legame tra i due formalismi a confronto. Nel caso delle condizioni al bordo aperte, il bracket riduce uno spinore di 114 2L matrici a uno di 2L numeri, che sono i pesi delle configurazioni individuate dalla posizione nello spinore. Dunque la matrice che figura in una certa riga dello spinore ha per elementi i pesi della relativa configurazione con le diverse condizioni al bordo, scelte tramite i vettori del bracket. L’interpretazione degli elementi della matrice prodotto sono pertanto ovvie; questo però non consente di estrarre l’interpretazione dei singoli elementi di D ed E, i quali infatti concorrono a formare gli elementi della matrice prodotto attraverso numerose e complicate somme di prodotti. Comunque non è necessario, come sappiamo, conoscere i singoli elementi di D ed E, né tantomeno interpretarli, quindi. Per il seguito è conveniente riprendere la notazione che usa simboli diversi per i vettori nello spazio ausiliario, hhW | e |V ii, e per i ket spinoriali del formalismo hamiltoniano quantistico, come |P i. Ad esempio ( L ) Y 1 |P (t)i = hhW | [E(t)|−i + D(t)|+i] |V ii ZL k=1 ( L ) Y 1 + = hhW | [E(t) + D(t)a ]|∅i |V ii ZL k=1 ⊗L 1 D(t) = hhW | |V ii. ZL E(t) L’estensione che cerchiamo poggia in modo essenziale sull’equivalenza tra le due descrizioni (matriciale e hamiltoniana), si ottiene infatti sostituendo l’espressione appena data del vettore di probabilità per mezzo delle matrici D ed E nella master equation (3.10) introdotta nel capitolo precedente. L’importanza delle J viene dalla possibilità di impostare ogni master equation locale individualmente, cioè d D D T D D T +h ⊗ = ⊗ − ⊗ . (4.46) dt E E S E E S In questa equazione S è la matrice che come abbiamo già visto definisce J, T è una matrice che introduciamo per ottenere la cancellazione del secondo membro, una volta sommato su tutti i siti (abbiamo omesso l’indice di sito, ma chiaramente h agisce su una coppia generica di siti adiacenti, e abbiamo pure omesso gli altri fattori del prodotto tensoriale sui quali h agisce come l’identità). In realtà ci aspettiamo che T = −S, sulla base del meccanismo di cancellazione usato per il caso stazionario nel §4.6, ma per ora teniamo per maggiore generalità una matrice T , a priori indipendente da S. Si vede 115 subito che se imponiamo D T d =0 hhW | ( + h1 ) + S dt E d D T − |V ii = 0 ( + hL ) dt E S la somma su tutti i siti è nulla. Da queste relazioni e dalla (4.46), con un calcolo diretto nella base standard (definita con prodotti ordinati) si ricava d 2 (D ) = ḊD + DḊ = [T, D] dt d (DE) + DE − ED = ḊE + DĖ + [D, E] = T E − DS dt d (ED) − DE + ED = ĖD + E Ḋ + [E, D] = SD − ET dt d 2 (E ) = [S, E] dt e hhW |(Ė − αE + γD + S) = 0 hhW |(Ḋ + αE − γD + T ) = 0 (Ė − δE + βD − S)|V ii = 0 (Ḋ + δE − βD − T )|V ii = 0 Supponendo, come abbiamo sempre fatto per la conservazione della probabilità, che C = D + E sia costante, sommando tutte le equazioni in ciascuno dei sistemi precedenti si ottiene [C, S + T ] = 0 e hhW |(S + T ) = 0 = (S + T )|V ii. Di conseguenza possiamo porre senza perdere di generalità, come avevamo già intuito, T = −S. In questo modo si riottiene esattamente l’algebra (4.29)÷(4.33). E’ importante riepilogare i passi fondamentali effettuati negli ultimi paragrafi. Abbiamo visto (§4.6) che per certi valori dei parametri di bordo lo stato stazionario è fattorizzato e può pertanto essere rappresentato da un prodotto tensoriale di spinori con elementi numerici. In questo caso lo stato è annullato dall’hamiltoniana che localmente agisce su coppie di siti dando coppie di spinori di cui uno ha elementi ±1 (4.24). Poi abbiamo mostrato come anche gli stati stazionari non fattorizzati possano essere rappresentati da un unico prodotto tensoriale, se gli elementi numerici sono rimpiazzati da matrici. Anche in questo secondo caso l’hamiltoniana annulla lo stato agendo localmente in modo tale da ottenere coppie di spinori di cui uno con 116 elementi (numerici) ±1 (4.27). Infine l’idea di sostituire numeri con matrici può essere applicata ancora per una ulteriore generalizzazione: se anche al posto del numero uno negli spinori numerici (con elementi ±1, usati nei due casi precedenti) si prende di nuovo una matrice, S, allora si può descrivere l’intera dinamica. 117 Conclusioni Riepiloghiamo brevemente il lavoro presentato. Nel primo capitolo ci sono le nozioni di base sulle catene di Markov, alla base dei sistemi di particelle interagenti. Questi vengono presentati nei capitoli successivi, sotto la guida del processo di esclusione, in tre diversi formalismi, di cui due molto recenti di natura algebrica. L’originalità del lavoro risiede essenzialmente in tre aspetti. Il primo è che per la prima volta vengono presentati insieme in modo organico e sistematico i tre formalismi. Il secondo è l’aver messo in luce (§4.10) il legame tra i due approcci di natura algebrica. Il terzo è l’aver evidenziato (come suggerito dal titolo) l’efficacia dei metodi algebrici in generale, da accostare al formalismo di per sé, come fatto nel cap. 3 per le relazioni di dualità e per l’uso delle simmetrie, o per le proprietà asintotiche del processo di esclusione, nel cap. 4. Questi ultimi argomenti, mirati a raggiungere il terzo obiettivo, non sono direttamente coinvolti nella connessione che si cercava tra i due approcci algebrici, e che costituisce il punto concettualmente più rilevante della tesi. Gli argomenti in questione, inoltre, sono stati a volte presentati con estensioni inedite o rivisti in modo più compatto rispetto a quanto esposto in letteratura (§4.2, §4.5, §4.6). Un quarto obiettivo è stato inseguito ma non ancora raggiunto: trovare stime degli autovalori del generatore del processo di esclusione con i metodi del paragrafo 3.8. Il presente lavoro pone inoltre le basi per poter proseguire affrontando i seguenti problemi aperti. E’ concettualmente importante chiarire il legame tra l’approccio matriciale qui presentato e il primo ansatz di Klümper del 1991 ([34]), a prima vista ben diverso da quello di Derrida. Sarà inoltre probabilmente fruttuoso fare un uso esteso della probabilità algebrica, basata sull’uso soltanto di operatori e non spinori, di cui alcune idee di base sono elaborate in modo personale nell’appendice B. Infine potrà rivelarsi utile proseguire il lavoro del paragrafo 3.8, per ottenere stime degli autovalori di processi con hamiltoniana simmetrica. C’è ancora molto lavoro da svolgere infine sul ramo che qui non ha trovato spazio: quello dei profili di shock e del comportamento su larga scala dei processi descrivibili tramite un approccio matriciale. 118 Appendice A Elementi di teoria di probabilità In questa appendice vogliamo fornire le nozioni basilari della teoria della probabilità, per acquisire un po’ di familiarità con il linguaggio usato nella descrizione dei modelli di particelle interagenti. La corposa letteratura disponibile sull’argomento permette a qualunque lettore interessato uno studio ben più dettagliato di quello consentito da queste brevissime note (vedi ad esempio [50], [21], [19]). Nel linguaggio comune, ogni volta che si presenta una molteplicità di alternative e non si dispone di elementi per stabilire quali di queste si verifica, si parla di probabilità delle varie alternative. Il problema di un’impostazione logica rigorosa della probabilità è molto profondo, e il tentativo di precisare il concetto di probabilità di un evento ha portato ad una dicotomia: da un lato si intende una proprietà fisica dell’evento stesso e delle condizioni in cui si verifica (punto di vista ontologico o obiettivo), dall’altro si definisce come il grado di fiducia che un individuo nutre nel verificarsi dell’evento in questione - e perciò riguardante lo stato delle nostre conoscenze (punto di vista epistemico o soggettivo). Noi non ci occuperemo di questi argomenti ([33], [39]), limitandoci a spiegare come viene utilizzata la probabilità nelle scienze naturali. Lo schema è il seguente: 1. si considera un insieme I di sistemi fisici per i quali ha senso parlare del verificarsi dell’evento A; 2. si suppone che ciascun sistema dell’insieme I soddisfi un complesso C di condizioni, che rappresenta le condizioni di preparazione dell’esperimento in cui si verifica l’occorrenza dell’evento A. Spesso il complesso di condizioni C è esplicitamente definito imponendo che, su ciascuno dei sistemi dell’insieme I, certe osservabili assumano valori prefissati; 119 3. si suppone che tutte le altre condizioni che, in aggiunta al complesso di condizioni C, possono influenzare il verificarsi dell’evento A si presentino in modo casuale all’interno dell’insieme I ( in questo modo si attribuisce alla nozione di casualità uno status logico precedente rispetto a quello di probabilità); 4. si verifica sperimentalmente il numero N (A | C) di occorrenze dell’evento A su un grande numero N di sistemi scelti a caso nella famiglia I; 5. al crescere di N le quantità N (A | C)/N , dette frequenze relative all’evento A, tendono a stabilizzarsi intorno a un numero fisso P (A | C), indipendente da N e dal collettivo I. Tale numero è detto la probabilità condizionata di A dato C. A.1 A.1.1 Spazio di probabilità spazio finito Consideriamo un esperimento con un insieme finito di possibili esiti. Indichiamo tale insieme con ω1 , ..., ωN ; i possibili risultati ωj si chiamano eventi elementari o atomi. L’insieme Ω = {ω1 , ...ω2 } è definito lo spazio degli eventi elementari. La scelta dello spazio Ω è il primo passo nel formulare un modello probabilistico. Esempio. Un esempio classico di esperimento è quello dei lanci di una moneta; se la moneta viene lanciata N volte gli eventi elementari sono successioni di testa (T ) o croce (C) e lo spazio degli eventi elementari è Ω = {ω = ($1 , ..., $N ) ; $i = T, C}. Lo spazio Ω ha cardinalità finita pari a 2n . Generalmente l’informazione che si desidera travalica l’apprendere semplicemente cosa si è verificato durante le prove ripetute. Per poter dunque rispondere a più domande di natura probabilistica sui risultati ottenuti (ad esempio l’appartenenza ad un dato sottoinsieme dello spazio degli eventi elementari), è necessario arricchire la struttura dello spazio Ω. Allora chiamiamo evento ogni sottoinsieme A ⊂ Ω per cui possiamo dire se il generico risultato ω ∈ Ω appartiene o meno ad A. Dati due eventi A e B, è naturale voler essere in grado di stabilire se un risultato ω è “capitato” in A vel in B (cioè all’unione A ∪ B), oppure se è capitato sia in A che in B (cioè all’intersezione A ∩ B), in A aut B (cioè alla differenza simmetrica A4B). Se interpretiamo Ω e ∅ rispettivamente come l’evento certo e l’evento impossibile, è ragionevole 120 richiedere che la collezione degli eventi A formi un algebra, cioè soddisfi le seguenti condizioni: • Ω, ∅ ∈ A • A, B ∈ A ⇒ A ∪ B, A ∩ B, A4B ∈ A. Definizione A.1.1. Una collezione di eventi E = {E1 , ..., En } è una decomposizione dello spazio Ω se i suoi atomi Ei sono disgiunti Ei ∩ Ej = ∅ ; ∀ i 6= j e la loro unione è tutto lo spazio E1 ∪ E2 ∪ ... ∪ En = Ω. Algebre e decomposizioni di uno spazio finito Ω sono intimamente legate tra loro. • Data una decomposizione E, tutte le possibili unioni di elementi di E, insieme con ∅, formano un’algebra, detta algebra indotta dalla decomposizione E, indicata con α(E). • Se viceversa A è un’algebra, esiste ed è unica la decomposizione E i cui atomi sono elementi di A e tale che α(E) = A. Pertanto c’è una corrispondenza biunivoca tra algebre e decomposizioni di uno spazio finito. Esempi. Le algebre più semplici a cui pensare sono: 1. l’algebra banale A0 = {Ω, ∅}, a cui è associata la decomposizione D0 = {Ω}. 2. dato A ⊂ Ω è definita l’algebra AA = {A, A, ∅, Ω}, associata alla decomposizione DA = {A, A} 3. l’algebra più grande è la collezione di tutti i sottoinsiemi di Ω: A = {A : A ⊂ Ω}; la decomposizione associata è D = {{$1 }, {$2 }, ..., {$n }} Per completare la descrizione di un modello probabilistico si deve assegnare un peso (o probabilità) p(ω) ad ogni evento elementare ω ∈ Ω. I pesi p(ω) vengono scelti non negativi: p(ω) ≥ 0 121 e normalizzati: X p(ω) = 1. ω∈Ω Cosı̀ è possibile definire la probabilità P [A] di ogni evento A ∈ A per additività X P [A] = p(ω) ∈ [0, 1]. ω∈A Indicheremo con P la funzione che associa ad ogni evento A ∈ A la sua probabilità P [A]. Riassumendo tutte queste considerazioni possiamo finalmente dare la seguente Definizione A.1.2. Uno spazio di probabilità è una tripla (Ω, A, P ) formata dallo spazio degli eventi elementari Ω, l’algebra degli eventi A e la misura di probabilità P . Esempio. Rimaniamo all’esempio del lancio della moneta, con spazio degli eventi elementari Ω = {ω = ($1 , ..., $N ) ; $i = 0, 1}. Una decomposizione EB di questo spazio è data dagli eventi Ak = {ω = ($1 , ..., $N ) : $1 + · · · + $N = k} ; k = 0, 1, ..., N. Ak corrisponde all’evento in cui si hanno k successi nel lancio della moneta. Sia AB = α(EB ). Per definire la probabilità PB , associamo al singolo evento il peso P P p(ω) = q i $i (1 − q)N − i $i essendo q un numero fissato tra 0 e 1 che corrisponde alla probabilità di successo in un singolo lancio di moneta (per esempio testa). Lo spazio di probabilità (ΩB , AB , PB ) è detto schema di Bernoulli, la collezione delle probabilità degli atomi Ak P (k, n) =: PB [Ak ] = n! q k (1 − q)n−k k!(n − k)! è di conseguenza detta distribuzione di Bernoulli o binomiale, e fornisce la probabilità di avere k successi lanciando n volte una moneta. 122 A.1.2 spazio generico La struttura che abbiamo dato allo spazio di probabilità, è sufficientemente ricca da poter essere facilmente estesa a spazi generici, non necessariamente finiti. Nel caso degli spazi finiti è possibile prendere sempre come algebra degli eventi la collezione A di tutti i sottoinsiemi di Ω. Ciò non si può fare su spazio generico (ad esempio non numerabile), dove è necessario specificare qual è la collezione di eventi che si vuole considerare. Esempio. Per fare luce sul problema, consideriamo il solito esperimento del lancio della moneta, stavolta consistente in un numero infinito di lanci, tali che ad ogni lancio la probabilità di successo è q e la probabilità di insuccesso è (1 − q). Prendiamo per semplicità q = 1/2. La scelta naturale per lo spazio degli eventi elementari è Ω = {ω = ($1 , $2 , ...) : $k = 0 o 1 per k = 1, 2, ...}. Tale spazio è infinito, ed ha la cardinalità del continuo; ogni successione ω può infatti essere vista come rappresentazione binaria di un numero reale in [0, 1). Per ragioni di simmetria ci aspettiamo che tutti i risultati ω debbano essere equiprobabili con probabilità di conseguenza nulla p(ω) = 0. Dunque conoscere la probabilità dei singoli eventi elementari non è più sufficiente a conoscere le probabilità degli eventi statisticamente interessanti. La definizione di un modello probabilistico su spazio generico Ω, quindi, richiede di assegnare la probabilità non ai singoli atomi, ma direttamente agli eventi A ⊂ Ω. L’estensione da spazi finiti a spazi generici, dovrà mantenere la struttura algebrica della collezione degli eventi e l’additività della probabilità. Stavolta però, vanno fatte delle richieste più forti, ossia la chiusura rispetto unioni (e intersezioni) numerabili per la collezione degli eventi e di additività numerabile per la probabilità P . Chiarito tutto questo diamo la Definizione A.1.3. Uno spazio di probabilità è una tripla (Ω, E, P ), dove: Ω, lo spazio degli eventi elementari ω, è uno spazio generico; E, la collezione degli eventi, è una σ-algebra di Ω; P è una misura di probabilità su (Ω, E). La precedente definizione poggia sulla seguente Definizione A.1.4. Una σ-algebra è una classe di sottoinsiemi di Ω tale che 123 • ∅ , Ω sono elementi di E, • se En ∈ E per n = 1, 2, ..., allora l’unione e l’intersezione numerabile sono nella σ-algebra: ∪n En , ∩n En ∈ E, • se E ∈ E allora E ∈ E; ovviamente ogni σ-algebra è anche un’algebra. Una misura di probabilità definita sulla coppia (Ω, E) (detta spazio di misura), è una funzione positiva P [·] : E → [0, 1] normalizzata: P [Ω] = 1, e σ-additiva, cioè tale che se E1 , E2 , ... sono una collezione numerabile di eventi disgiunti allora X P [∪n En ] = P [En ]. n La definizione di probabilità su uno spazio di misura (Ω, E) non necessita di specificare la probabilità di ogni evento E ∈ E. Ciò è chiarito dai seguenti Proposizione A.1.1. Data una qualsiasi classe G di sottoinsiemi di Ω esiste ed è unica la σ-algebra minimale contenente G, che viene indicata con σ(G). Teorema A.1.1 (Caratheodory). Sia Ω uno spazio, A un’algebra in Ω ed E = σ(A) la σ-algebra minimale contenente A. Se P0 è una probabilità su (Ω, A), c’è un’unica probabilità P su (Ω, E) che è un estensione di P0 , cioè tale che P [E] = P0 [E] ∀ A ∈ A. Esempio. L’esempio più importante di spazio di misura è (R, B), dove R = (−∞, +∞) è la retta reale e B è la σ-algebra dei boreliani, cioè la σ-algebra minimale costruita a partire dagli intervalli (−∞, x]. E’ facile verificare che tale σ-algebra contiene ogni tipo di intervallo, compresi i singoli punti, ed ogni unione numerabile di insiemi di questo tipo. Potremmo dire che B comprende “praticamente tutti” gli insiemi, poiché gli insiemi in R non appartenenti a B sono cosı̀ complicati e innaturali che di fatto non servono mai da un punto di vista applicativo, inoltre per trovarli bisogna ricorrere all’assioma della scelta. Per definire una probabilità P sui boreliani è sufficiente stabilire la probabilità di tutti gli insiemi del tipo (−∞, x] ; x ∈ R, cioè basta conoscere la funzione di distribuzione F (x) = P [(−∞, x]]. La misura di Lebesgue su [0, 1] è definita da F (x) = x ∀ x ∈ [0, 1] e viene generalmente indicata con λ[·]. 124 A.2 Variabili casuali La nozione di variabile casuale (o variabile aleatoria) serve a definire le quantità che possono essere misurate in un esperimento probabilistico (potremmo dire che corrispondono alle domande di natura probabilistica che si possono porre sugli eventi che si realizzano nello spazio di probabilità). Assegnato uno spazio di probabilità (Ω, E, P ), una variabile casuale X è una generica funzione X(·) : Ω → R E-misurabile, cioè tale che la preimmagine di ogni boreliano è un evento di E: B∈B X −1 (B) ∈ E =⇒ Esempio. Il più semplice esempio di variabile casuale è la funzione caratteristica di un evento A: 1 se ω ∈ A 11A (ω) = 0 se ω ∈ /A Una variabile casuale del tipo X(ω) = X xn 11A (ω) n dove {An } è una decomposizione di Ω, è detta semplice se la somma è finita, discreta se la somma è numerabile. Dato lo spazio di probabilità (Ω, E, P ), è ben definito il nuovo spazio di probabilità (R, B, PX ), dove Definizione A.2.1. PX è la distribuzione di probabilità di X: PX [B] = P [X −1 (B)] , ∀B ∈ B. Definizione A.2.2. Chiamiamo funzione di distribuzione di X la funzione FX (x) = PX [(−∞, x]], e legge di distribuzione fX (x) la derivata di FX (x) fatta rispetto a x. La richiesta di misurabilità su X si riconduce, in termini di σ-algebre, a X −1 (B) ⊂ E. Sappiamo che la preimmagine di una σ-algebra è sempre una σ-algebra; dunque definiamo σX = X −1 (B) la σ-algebra generata da X. Più in generale una collezione {Xα } di variabili casuali genera la σ-algebra σ(∪α σXα ). 125 Un teorema fondamentale ci assicura che una qualunque variabile casuale X positiva su (Ω, F) si può sempre ottenere come limite puntuale crescente di una successione di variabili casuali semplici Xn : Xn (ω) % X(ω) se n → ∞ , ∀ ω ∈ Ω. Ciò consente di costruire la teoria, basandosi sulle sole variabili casuali semplici e poi generalizzando con passaggi al limite. Introduciamo ora, tenendo a mente quanto detto, la nozione di valore aspettato. P Definizione A.2.3. Data la variabile casuale semplice X(ω) = ni=1 xi 11Ai (ω) definiamo il suo valore aspettato tramite: E[X] = n X xi P [Ai ]. i=1 L’attesa di una variabile casuale generica X positiva, si ottiene tramite una successione {Xn } di variabili semplici che tende ad X e si definisce: E[X] = lim E[Xn ] n→∞ (a patto di dimostrare che il limite è ben definito e non dipende dalla particolare scelta della successione {Xn }). Se X non ha segno definito si scompone in parte positiva e parte negativa X = X + − X − e si prende E[X] = E[X + ] − E[X − ] è di uso Rfrequente indicare il valore aspettato di una variabile casuale X con E[X] = Ω XdP . A.2.1 nozioni di convergenza Riportiamo le definizioni dei vari tipi di convergenza di successioni di variabili casuali. Consideriamo una successione di variabili casuali X1 , X2 , ... sullo spazio di probabilità (Ω, E, P ). Definizione A.2.4. La successione {Xn } converge in probabilità alla varip abile casuale X, e si indica con Xn → X, se risulta ∀ > 0 lim P [|Xn − X| > ] = 0 n→∞ 126 Definizione A.2.5. La successione {Xn } converge con probabilità uno (o quasi ovunque) alla variabile casuale X se: P [ lim Xn (ω) = X(ω)] = 1 n→∞ Ciò si indica con Xn → X q.o. Definizione A.2.6. La successione {Xn } converge in media di ordine p alla Lp variabile casuale X, e si indica con Xn → X, se: lim E[|Xn − X|p ] = 0 n→∞ Con Lp si indica lo spazio di tutte le variabili casuali X tali che E[|X p |] < ∞. Un caso particolarmente interessante è quello con p = 2: lo spazio di 1 Hilbert L2 associato al prodotto scalare < X, Y >= E[XY ] 2 . Definizione A.2.7. La successione {Xn } converge in distribuzione alla varid abile casuale X, e si indica con Xn → X, se: lim E[f (Xn − X)] = E[f (X)] n→∞ per ogni funzione continua e limitata f (·). E’ possibile dimostrare ([21]) che tra queste nozioni di convergenza sussiste la seguente gerarchia q.o. p Lp p p d Xn → X ⇒ Xn → X Xn → X ⇒ Xn → X Xn → X ⇒ Xn → X Riportiamo alcuni classici esempi. Esempi. Consideriamo lo spazio di probabilità ([0, 1], B, λ). Scegliamo la successione di variabili casuali cosı̀ , ni 1 se x ∈ i−1 n Xn,i (x) = 0 altrimenti con i = 1, ..., n ; n = 1, 2, ... Se ordiniamo la successione cosı̀: X1,1 , X2,1 , X2,2 , X3,1 , ... otteniamo una successione che converge in probabilità a zero, ma che non converge puntualmente in nessun punto. E’ semplice verificarlo: l’intervallo 127 in cui Xn,i vale 1 ha misura che tende a zero, ma non è fissata, si estende su tutto l’intervallo [0, 1]. E’ facile verificare che c’è pure convergenza in n media di ordine i−1 pi per ogni p > 0. Basta però definire Xn,i pari ad e nell’intervallo n , n per perdere la convergenza in media (qualunque sia p). Invece per avere la convergenza quasi ovunque basta fissare i e considerare la sottosuccessione {Xn,i , n = 1, 2, ...}. Sappiamo già che ogni variabile casuale X definisce sullo spazio (R, B) una misura di probabilità PX ed una funzione di distribuzione FX . Dunque ha senso definire la convergenza di misure di probabilità e funzioni di distribuzione definite sui boreliani (o in generale in spazi metrici). Definizione A.2.8. Sia P1 , P2 , ... una successione di misure di probabilità sullo spazio di misura (I, B) con I ⊂ Rd e B la σ-algebra dei boreliani. w Diremo che converge debolmente alla probabilità P , e lo indichiamo con Pn → P , se Z Z f (x)Pn [dx] → f (x)P [dx] I I per ogni funzione f continua e limitata su I. In tal caso diciamo anche che la corrispondente successione di funzioni di distribuzione (d-dimensionale) converge debolmente. Definizione A.2.9. La successione P1 , P2 , ... converge in generale alla probabilità P (notazione Pn ⇒ P ) se n→∞ Pn [A] −→ P [A] per ogni evento A tale che P [∂A] = 0. Definizione A.2.10. Per successioni di funzioni di distribuzione F1 , F2 , ... si parla di convergenza in generale ad F se c’è convergenza in ogni punto di continuità della funzione F . Dall’analisi sappiamo che tali nozioni di convergenza sono tutte equivalenti e corrispondono alla convergenza in distribuzione di variabili casuali; d cioè se Xn → X allora le corrispondenti funzioni di distribuzione convergono debolmente, ovvero in generale. 128 A.2.2 probabilità e valori aspettati condizionali Prendiamo in esame inizialmente due eventi A e B, con l’ipotesi che P [A] > 0. Definiamo la probabilità di B condizionata da A come P [B | A] = P [AB] . P [A] La probabilità condizionata ha un significato evidente: descrive la probabilità che si realizzi l’evento B una volta che si sia verificato l’evento A. Definizione A.2.11. A e B sono indipendenti se P [B | A] = P [B]. In altre parole la probabilità che B si realizzi non è influenzata dal verificarsi di A. La definizione di eventi indipendenti si scrive generalmente: P [AB] = P [A]P [B], che evidenzia come i ruoli di A e B siano interscambiabili e non necessita di imporre P [A] > 0. Più in generale due σ-algebre σ1 e σ2 ⊂ E sono indipendenti se, per ogni scelta di due eventi A1 ∈ σ1 e A2 ∈ σ2 , questi risultano indipendenti. Definizione A.2.12. Due variabili casuali X e Y sono indipendenti se le σ-algebre σX e σY da esse generate sono indipendenti. Introduciamo il concetto di probabilità condizionate da σ-algebre. Prendiamo inizialmente uno spazio di probabilità finito (Ω, E, P ) e supponiamo che D = (D1 , ..., Dn ) sia la decomposizione associata all’algebra A ⊂ E. Definiamo la probabilità dell’evento A condizionata dall’algebra A come la variabile casuale che in ogni atomo Di assume il valore P [A | Di ]: P [A | A](ω) = n X P [A | Di ]11Di (ω). i=1 Data la variabile casuale X = condizionale tramite Pm i=1 E[X | A] = xi 11Ai definiamo il suo valore aspettato m X xi P [Ai | A]. i=1 Osservando la definizione di probabilità condizionata, ci si può chiedere quale sia la probabilità condizionata da eventi a probabilità nulla. L’esigenza di introdurre, per uno spazio generico, la nozione di probabilità condizionate da 129 σ-algebre può essere giustificata da un esempio. Esempio. Consideriamo lo spazio di probabilità ([0, 1]2 , B(R2 ), λ). Fissiamo gli eventi A = {(x, y) : x = 0, 5} e B = {(x, y) : y ≥ x}. Nonostante λ[A] = 0, ha senso chiedersi qual è la probabilità P [B | A], cioè la probabilità che y sia maggiore di x supposto che x = 0, 5. L’introduzione delle probabilità condizionate da σ-algebre è necessaria per rispondere a tale domanda. A questo punto generalizziamo la trattazione ad uno spazio di probabilità (Ω, E, P ) generico. Siano µ e ν due misure finite σ-additive su (Ω, E). Diciamo che ν è assolutamente continua rispetto a µ se: ⇒ µ[A] = 0 ν[A] = 0 , A ∈ E Vale il seguente Teorema A.2.1 (Radon-Nikodim). La misura ν è assolutamente continua rispetto a µ se e solo se esiste una variabile casuale f tale che Z µ[A] = f (ω)ν[dω] , ∀ A ∈ E A La funzione f (·) è unica a meno di un’arbitrarietà su insiemi di misura nulla ed è detta derivata di Radon-Nikodim rispetto alla σ-algebra E: dµ f= dν E Più in generale, date due misure µ e ν, possiamo scrivere in modo unico ν = νµ + ν⊥ , dove νµ è assolutamente continua rispetto a µ e ν⊥ è singolare rispetto a µ, cioè è concentrata in un insieme di misura µ nulla. A questo punto possiamo dare la definizione di valore aspettato condizionale. Definizione A.2.13. Data una variabile casuale X in (Ω, E, P ) ed una σalgebra σ ⊂ E definiamo il valore aspettato di X condizionato da σ, indicato con E[X | σ], una variabile casuale tale che: • E[X | σ] è σ-misurabile • ∀ A ∈ σ risulta Z XdP = Z A A 130 E[X | σ]dP Grazie al teorema di Radon-Nikodim possiamo scrivere dν E[X | σ] = dP σ essendo ν la misura definita da ν[A] = Z XdP , A ∈ σ A Definizione A.2.14. Dato A ∈ E definiamo la probabilità di A condizionata dalla σ-algebra σ tramite P [A | σ] = E[11A | σ] Definizione A.2.15. Definiamo infine il valore aspettato di X condizionato da Y come E[X | Y ] = E[X | σY ] essendo σY la σ-algebra generata dalla variabile casuale Y . Oppure, più in generale: E[X | {Yα }] = E[X | σ{Yα } ] Non è difficile dimostrare che su spazio finito tali definizioni si riducono a quelle viste prima. Riportiamo alcune proprietà dei valori aspettati e delle probabilità condizionali. 1. linearità: E[αX1 + βX2 | σ] = αE[X1 | σ] + βE[X2 | σ] 2. poiché P [A | σ] e E[X | σ] sono variabili casuali, possiamo chiederci qual è il loro valore aspettato: E[P [A | σ]] = P [A] ; E[E[X | σ]] = E[X] 3. se la variabile casuale X è σ-misurabile (cioè X −1 (B) ⊂ σ) allora E[X | σ] = X e, più in generale E[XY | σ] = XE[Y | σ] 4. se la σ-algebra σ2 è un raffinamento di σ1 , cioè σ1 ⊂ σ2 , allora E[E[X | σ2 ] | σ1 ] = E[X | σ1 ] ; E[E[X | σ1 ] | σ2 ] = E[X | σ1 ] 131 A.2.3 teoremi limite Riportiamo per completezza, senza dimostrazione, i due teoremi limite più importanti della probabilità. Abbiamo in un certo senso fondato la teoria sull’ipotesi che la probabilità è legata allo stabilizzarsi della frequenza nelle prove ripetute. Indichiamo con P {·} la probabilità di {·}. Sia X una variabile aleatoria che durante ripetute prove indipendenti ha esibito i valori {X1 , X2 , ...}. I valori {X1 , X2 , ...} sono a loro volta variabili casuali indipendenti. Sia x Pn il valore aspettato di X. Definiamo la variabile Sn = i=1 Xn /n. Dalla disuguaglianza di Čebišev, segue facilmente il Teorema A.2.2 (legge debole dei grandi numeri). ∀ ε, δ > 0 ∃ N > 0 | n > N ⇒ P {|Sn − x| ≥ ε} < δ . Siano x1 , x2 , ..., xN N variabili casuali indipendenti identicamente distribuite, con µ = hxi < ∞ e σ = h(x − µ)2 i < ∞, (h·i denota l’attesa), vale allora il seguente Teorema A.2.3 (del limite centrale). La variabile N 1 X WN = √ (xi − µ) N i=1 ha una legge di distribuzione fN (w) che, quando N → ∞, tende a una legge gaussiana, cioè −w2 1 2 2σ lim fN (w) = √ e . N →∞ 2πσ 2 132 Appendice B Elementi di probabilità algebrica B.1 Introduzione Scopo di questa appendice è fornire una semplice introduzione alla probabilità non commutativa. Riprenderemo la costruzione delle basi della teoria della probabilità vista nella precedente appendice in un contesto algebrico non commutativo che costituisce il linguaggio prevalentemente usato nel corso di questa tesi. Non abbiamo intenzione di presentare una introduzione standard di carattere generale alla probabilità algebrica, vogliamo bensı̀ descrivere soltanto alcune semplici idee, dal punto di vista specifico del nostro lavoro. Una esposizione più generale e sistematica della teoria e delle sue origini si può trovare in [1], [2], [6], [41], [44], [18], [7], [20]. Partiamo da una semplice osservazione: l’attesa di una generica osservabile F può essere espressa in diversi modi: X hF i = F (η)P (η) (B.1) η = hF |P i = hP |F i = h11|F |P i = h11|P |F i = tr(P F ) = tr(F P ) = hψP |F |ψP i = tr(F |ψP ihψP |) = tr(F ρψP ), dove l’insieme degli eventi elementari Ω = {η} costituisce, assieme alla misura P (·), lo spazio di probabilità; P ed F sono vettori con componenti {P (η)} e {F (η)} oppure matrici diagonali con gli stessi elementi, ψP è un vettore 133 che ha per componenti le radici quadrate delle componenti di P moltiplicate per delle fasi complesse arbitrarie, ρψ è il proiettore sul vettore ψ. In questo primo paragrafo consideriamo solo P ed F , in forma di vettori o matrici. Dunque possiamo rappresentare le misure come dei vettori in uno spazio vettoriale e le osservabili come vettori dello spazio duale. In questo contesto si capisce come possiamo immaginare che, se lo spazio di probabilità descrive un sistema fisico in evoluzione temporale, le probabilità evolvano nel tempo secondo un’equazione del moto del tipo (3.10), con soluzione formale (3.11), oppure in modo assolutamente equivalente siano le osservabili a evolvere nel tempo secondo la stessa legge: hF (t)| = hF (0)|e−Ht . (B.2) Si osservi che se H non è hermitiana l’operatore che definisce l’evoluzione dei bra non è l’aggiunto di quello che definisce l’evoluzione dei ket. In altri termini si deve distinguere tra misure e osservabili decidendo una volta per tutte quali sono ket e quali bra, quali evolvono e quali no. In questo linguaggio è dunque fondamentale distinguere tra configurazioni (gli atomi η) intese come δ-misure e configurazioni intese come osservabili caratteristiche (cioè le funzioni caratteristiche di un dato atomo): le une sono definite nello spazio duale di quello in cui sono definite le altre. Riepilogando gli eventi elementari sono le configurazioni {η} alle quali sono associate una base di vettori {|ηi} (che rappresentano misure di tipo δ) dello spazio vettoriale delle misure e una base di vettori {hη|} (che rappresentano le osservabili caratteristiche) dello spazio duale delle funzioni su Ω. Ogni misura P si scrive X P (η)|ηi, |P i = η mentre ogni variabile casuale F si scrive X hF | = hη|F (η). η E’ possibile utilizzare una struttura più ricca se, invece di utilizzare vettori, alle osservabili associamo matrici diagonali: X F = F (η)|ηihη|. η In questo caso è immediato verificare che dobbiamo definire le attese in questo modo: hF i = h11|F |P i, 134 dove il h11| è il vettore che ha tutte le componenti identicamente uguali a uno. Si può di nuovo scegliere se far evolvere le misure (esattamente come prima), oppure le osservabili in questo modo: F (t) = eHt F (0)e−Ht ⇐⇒ dF (t) = [H, F ]. dt Poiché i ruoli delle misure e delle ossevabili sono interscambiabili, come si vede dalla (B.1), nulla ci impedirebbe di associare invece matrici diagonali alle misure: X P = P (η)|ηihη| =⇒ hF i = hF |P |11i. η Naturalmente la scelta si riflette sull’evoluzione temporale: o evolvono le osservabili come nella (B.2) oppure evolvono le misure nel modo seguente P (t) = e−Ht P (0)eHt ⇐⇒ dP (t) = [P, H]. dt A questo punto è chiaro quale potrebbe essere il passo successivo: vengono associate delle matrici sia alle misure che alle osservabili. Con questo formalismo non c’è più bisogno di distinguere lo spazio delle misure dallo spazio duale delle osservabili ed è più naturale anche il ruolo delle configurazioni. Queste ultime infatti potrebbero sembrare i veri elementi costitutivi del sistema e che evolvono. In realtà nel formalismo che usa solo vettori, le configurazioni sono ben definite solo se pensate come ket o come bra: cioè come misure di tipo delta o come osservabili caratteristiche. Ne segue che, osservando l’evoluzione temporale, le confugurazioni-ket sono le trasposte delle configurazioni-bra, come si vorrebbe, solo all’istante iniziale, a meno che H non sia hermitiana. Si osservi inoltre che se evolvono i ket i bra rimangono costanti e viceversa. Pertanto l’operazione di trasposizione non ha senso, si deve scegliere all’inizio una volta per tutte il ruolo dei ket e quello dei bra, e quali evolvono. In questo senso l’operazione di trasposizione fa passare da una scelta all’altra (duale) per il ruolo dei vettori, ma non è ammessa una volta effettuata la scelta. Per questo abbiamo detto che se usiamo solo matrici il ruolo delle configurazioni è più naturale e non è definito in modo ambiguo. In questo formalismo le attese si definiscono in nel modo seguente: hF i = tr(F P ) = tr(P F ). La ciclicità della traccia mette in luce in modo inequivocabile l’equivalenza tra l’evoluzione delle osservabili e quella alternativa delle misure: hF (t)i = tr(eHt F (0)e−Ht P ) = tr(F e−Ht P (0)eHt ). 135 E’ bene notare che se si devono calcolare funzioni di correlazione a tempi diversi, devono essere le osservabili a evolvere. Si osservi pure che benché l’associazione più naturale è tra osservabili o misure e matrici diagonali, l’evoluzione temporale porterà in generale le matrici a non essere più diagonali, ma il formalismo non perde significato e l’identificazione con le matrici rimane, anche se forse meno comoda. Ovviamente in questo caso in cui si utilizzano solo matrici, le configurazioni formano una base sia per le osservabili che per le misure: sono i proiettori che differiscono dalla matrice nulla per un solo elemento sulla diagonale pari a uno. In altre parole, questo caso si ottiene dai precedenti effettuando la sostituzione η → |ηihη| per gli elementi della base, che prima erano |ηi o hη|. Questo non significa però che in generale si passa dal formalismo vettoriale a quello operatoriale sostituendo ogni vettore |P i o hF | con |F ihF | o |P ihP |, che in generale non è una somma di proiettori. La sostituzione va effettuata solo per gli elementi della base, perché somme di δ-misure od osservabili caratteristiche devono essere sostituite da somme proiettori. Del resto questo è esattamente quello che abbiamo fatto finora. Può essere interessante dare per completezza la ricetta per scrivere le distribuzioni di probabilità in questo formalismo. La probabilità PF (I ⊆ R) ≡ P(F ∈ I ⊆ R) che F assuma valori nell’intervallo I è X P (η) = P{η : F (η) ∈ I}. P(F −1 (I)) = η∈F −1 (I) Non è a questo punto difficile convincersi che, assumendo che a evolvere siano le osservabili, la distribuzione di probabilità PF (·) di F può definirsi tramite PF (I) = tr(P χF (I)), dove χF (I) ≡ χ(F −1 (I)) è la matrice che differisce dalla matrice nulla per gli elementi, pari a uno, sulla diagonale corrispondenti alle configurazioni η tali che F (η) ∈ I. Da qui possiamo verificare la forma usuale dei valori d’attesa delle ossevabili: X X xPF (x) = xtr(P χF (x)) = hF i = x∈R x∈R X tr(P xχF (x)) = tr(P x∈R X xχF (x)) = tr(P F ), x∈R dove l’ultimo passaggio è ovvia conseguenza dell’osservazione X F = xχF (x), x∈R che segue banalmente dalla definizione di χF (·). 136 B.2 Sistemi a due livelli In questa sezione applichiamo le idee appena esposte al caso che ci interessa per il processo di esclusione: lo spazio delle configurazioni ha cardinalità due, possiamo cioè descrivere gli operatori locali almeno nel caso di reticolo zerodimensionale. Assumeremo che le osservabili siano operatori, riducendo la trattazione ai soli due casi in cui anche le misure sono operatori, oppure sono vettori ket. Immaginiamo che i due eventi elementari siano “spin su” e “spin giù”, oppure sito pieno e sito vuoto: in ogni caso per ora associamo ai due atomi gli spinori 1 0 , , 0 1 che rappresentano le due δ-misure che costituiscono una base per tutte le misure di probabilità su questo spazio. Lo spazio delle misure di probabilità è in questo caso il simplesso unidimensionale dei vettori di R2 con norma L1 pari a uno e componenti positive. Lo spazio delle osservabili reali è R2 , ogni osservabile è infatti definita da due numeri. Una base è costituita dalle sue osservabili caratteristiche. Un’altra base è invece costituita dalle osservabili “costante” e “identità” (o “configurazione”): la prima vale identicamente uno, la seconda assume i valori ±1 nell’interpretazione spin-1/2, 1 e 0 nell’interpretazione sito pieno o vuoto. Cerchiamo delle matrici diagonali associate alle osservabili di base indicate. E’ sufficiente calcolare le attese sulle due misure estremali, imponendo le condizioni ovvie: l’attesa della costante è 1 su entrambe le misure, l’attesa della configurazione è 1 su una misura, −1 o 0 sull’altra. Il risultato è naturalmente 1 0 0 0 n= , m= , 0 0 0 1 per le due osservabili caratteristiche, 1 0 1 0 1 0 z I= , σ = o n= , 0 1 0 −1 0 0 per la seconda scelta suindicata. Dunque la generica misura è una combinazione convessa delle due misure estremali, mentre la generica osservabile è una combinazione lineare di due matrici di base. Se vogliamo utilizzare matrici anche per le misure, gli spinori della base canonica di R2 vanno sostituiti dai proiettori da loro formati: gli operatori ρ+ ≡ n e ρ− ≡ m. La generica misura è allora una combinazione convessa di 137 queste due matrici e ha traccia unitaria. L’attesa della generica osservabile F = αI + βσ sulla misura (o stato) ρ = pρ+ + qρ− è della forma hF i = h11|F |ρi = tr(F ρ) = α + β(p − q). L’attesa di un’osservabile caratteristica coincide con la probabilità dell’atomo corrispondente. Cerchiamo ora la rappresentazione dell’operatore di spin-flip. Esso deve invertire p e q agendo sulle misure ρ(p, q) = pρ+ + qρ− , mentre deve mandare σ in −σ e I in I agendo sulle osservabili. Si vede facilmente che la matrice associata è 0 1 x σ = , 1 0 infatti σ x σ z (σ x )† = −σ z e σ x ρ(p, q)(σ x )† = ρ(q, p). Analogamente gli operatori già usati nel formalismo hamiltoniano hanno qui lo stesso ruolo, purché agiscano sia da destra che da sinistra: a† ρ− a = ρ+ , nρ+ n† = nρ+ n = ρ+ , etc. Finora abbiamo considerato solo misure P associate a vettori a componenti reali positive con somma unitaria. Abbiamo però visto nell’osservazione all’inizio del precedente paragrafo che possiamo scrivere le attese anche in termini di un vettore complesso ψP che ha norma L2 (C2 ) unitaria, o del proiettore sulla retta definita da questo vettore. La presenza delle fasi lascia presumere che questa seconda forma sia più ricca, anche se nelle attese delle delle osservabili le fasi si elidono. Come sappiamo questo formalismo è nato con la meccanica quantistica. Un vettore ψ di norma L2 unitaria e la misura associata si dicono stato puro, combinazioni convesse di diadi formate con stati puri sono dette matrici densità. Osserviamo che gli stati estremali sono gli unici con norma L1 e L2 unitaria. Cerchiamo di capire in cosa consiste la maggiore ricchezza della trattazione in L2 (C2 ) rispetto a quella in L1 (R2 ). Il sistema che studiamo è l’orientazione dello spin di una particella (di spin-1/2) ferma in un punto di R3 . Sappiamo dalla meccanica quantistica che le tre matrici di Pauli sono le osservabili “proiezione dello spin su tre assi ortogonali arbitrari fissati”. Consideriamo lo stato puro 1 1 0 ←→ . 0 0 0 Utilizzando uno qualunque dei modi descritti nella (B.1) si verifica facilmente 138 che hσ z i = 1 , ∆σ z = 0, hσ y i = 0 , ∆σ y = 1, hσ x i = 0 , ∆σ x = 1, dove con ∆ denotiamo la varianza. Lo stato considerato pertanto rappresenta uno spin orientato con certezza in direzione ẑ (verso positivo), come ci si aspetta da una misura estremale. Consideriamo ora invece la miscela ρ(p, q) definita nel paragrafo precedente, con p + q = 1. Possiamo porre p = cos2 (ϑ/2) e q = sin2 (ϑ/2). Il vettore di probabilità associato è p p 0 ←→ ρ = . q 0 q Il vettore ha norma L1 unitaria, ma norma L2 minore di uno; la matrice ρ invece non è un proiettore unidimensionale, come tutte le matrici diagonali con più di un elemento diverso da zero. In questo stato il calcolo effettuato in uno qualunque dei modi (che non coinvolgano ψ, che non è definito) indicati dalla (B.1) fornisce hσ z i = cos(ϑ) = p − q , ∆σ z = sin2 (ϑ), hσ y i = 0 , ∆σ y = 1, x hσ i = 0 , ∆σ x = 1. Il sistema in questo stato è dunque orientato ancora in direzione ẑ con certezza, ma con probabilità p nel verso positivo, con probabilità q nel verso negativo. Invece di fare combinazioni convesse di stati puri, prendiamo uno stato puro che non abbia norma L1 unitaria. Prendiamo cioè 1 0 −iϕ/2 iϕ/2 |ψi = cos(ϑ/2)e + sin(ϑ/2)e . 0 1 Non abbiamo preso due fasi indipendenti perché una fase globale non è influente. La matrice densità associata è il proiettore cos2 (ϑ/2) 12 sin(ϑ)e−iϕ ρ = |ψihψ| = 1 sin(ϑ)eiϕ sin2 (ϑ/2). 2 Il solito calcolo porge hσ z i = cos(ϑ) , ∆σ z = sin2 (ϑ), hσ y i = sin(ϑ) sin(ϕ) , ∆σ y = 1 − sin2 (ϑ) sin2 (ϕ), hσ x i = sin(ϑ) cos(ϕ) , ∆σ x = 1 − sin2 (ϑ) cos2 (ϕ). 139 Questo stato puro quindi descrive lo spin orientato lungo la direzione definita dalle coordinate polari (ϑ, ϕ), con certezza; infatti se si effettuasse il calcolo dopo aver ruotato il sistema portando l’asse ẑ a coincidere con questa direzione si otterrebbe esattamente il primo risultato calcolato. Abbiamo dunque mostrato che l’introduzione delle fasi nella trattazione in L2 (C2 ) permette di descrivere completamente uno spin (tridimensionale), mentre la trattazione in L1 consente di descrivere soltanto una componente dello spin (unidimensionale). Nel caso in cui lo spin è usato per descrivere soltanto l’occupazione di un sito, è sufficiente il formalismo in L1 , cioè quello hamiltoniano, che abbiamo usato per questo motivo nel corso della tesi (cap. 3). Inoltre, le attese su uno stato qualunque in L1 (Rn ) possono essere sempre espresse come attese su uno stato puro di L2 (Cn ). In altre parole anche se hψ|F |ψi = tr(F |ψihψ|) solo sugli stati puri di L2 (Cn ), per le miscele in L1 (Rn ) si può comunque scegliere uno stato puro in L2 (Cn ) tale che l’attesa di F sia tr(F |ψihψ|). Il legame tra questi commenti e la distinzione tra stati coerenti e stati incoerenti in meccanica quantistica si può trovare ad esempio in [20]. Le potenzialità della probabilità algebrica, però, vengono sfruttate pienamente solo considerando interi reticoli di dimensione maggiore di zero (non lo faremo). In questo caso infatti si possono imporre e utilizzare proprietà di commutazione o anticommutazione su siti diversi, costruendo uno spazio di Fock simmetrizzato o antisimmetrizzato. Abbiamo già accennato a questo alla fine del capitolo 3. A differenza della meccanica quantistica, dove gli spazi di Hilbert (somme dirette di prodotti tensoriali dei quali costituiscono lo spazio di Fock) sono associati allo spazio delle configurazioni di singola particella, nei sistemi di particelle interagenti è più comodo avere prodotti tensoriali di spazi di Hilbert associati alle configurazioni dei singoli siti. Questo però impedisce di costruire uno spazio di Fock che rifletta la natura (bosonica o fermionica) delle particelle. Esiste una notazione che in qualche modo mantiene la comodità di leggere facilmente lo stato di occupazione di un sito pur lasciando la tensorizzazione sulle particelle, ma stiamo ancora lavorando ad un suo utilizzo “maneggevole” nei sistemi di particelle interagenti. 140 Appendice C Dimostrazioni omesse nel capitolo 4 C.1 dimostrazione del teorema 4.1.1 Sia Q(η, ζ) il tasso di transizione da η a ζ. Come già convenuto, indichiamo con ξi,j la configurazione ottenuta da ξ scambiando il contenuto dei siti i e j, e indichiamo invece con ζk la configurazione ottenuta da ζ cambiando il contenuto del sito k (effettuando cioè lo scambio 0 ↔ 1 nel numero di occupazione di k). Una catena di Markov irriducibile con un numero finito di stati possiede un’unica misura invariante segnata non nulla di fissata massa totale. Pertanto è sufficiente mostrare che X X fN (η)Q(η, ζ) = fN (ζ) Q(ζ, η) (C.1) η η per ogni ζ. Per verificare la (C.1), consideriamo le relazioni seguenti: fN (ζ1 )Q(ζ1 , ζ) − fN (ζ)Q(ζ, ζ1 ) = −[1 − 2ζ(1)]fN −1 (ζ(2), . . . , ζ(N )) (C.2) fN (ζi,i+1 )Q(ζi,i+1 , ζ) − fN (ζ)Q(ζ, ζi,i+1 ) = [1 − 2ζ(i)]fN −1 (ζ(1), . . . , ζ(i − 1), ζ(i + 1), . . . , ζ(N )) − [1 − 2ζ(i + 1)]fN −1 (ζ(1), . . . , ζ(i), ζ(i + 2), . . . , ζ(N )], per 1 ≤ i < N (C.3) fN (ζN )Q(N , ζ) − fN (ζ)Q(ζ, ζN ) = [1 − 2ζ(N )]fN −1 (ζ(1), . . . , ζ(N − 1)) (C.4) I primi membri delle (C.2)-(C.3)-(C.4) sono differenze tra singoli addendi presi dai due membri della (C.1), e sommati sono il cosiddetto difetto dalla 141 reversibilità; la somma dei secondi membri è nulla, poiché è una somma telescopica. Pertanto se valgono le (C.2)-(C.3)-(C.4) rimane soddisfatta anche la (C.1). Dobbiamo dunque verificare le (C.2)-(C.3)-(C.4). Consideriamo la (C.2). Scambiando ζ con ζ1 entrambi i lati vengono moltiplicati per −1, per cui possiamo assumere ζ(1) = 0. Il primo membro della (C.2) è allora (1−λ)qfN (ζ1 )−λpfN (ζ) = hW |[(1−λ)qD−λpE] N Y [ζ(i)D + (1− ζ(i))E]|V i i=2 Y = −hW | [ζ(i)D + (1 − ζ(i))E]|V i i=2 = −fN −1 (ζ(2), . . . , ζ(N )) (C.5) come richiesto. La dimostrazione di (C.4) è assolutamente analoga, basta di nuovo usare le (4.12)-(4.13)-(4.14). Per la (C.3), possiamo assumere ζ(i) = 1, ζ(i + 1) = 0; infatti entrambi i lati della (C.3) cambiano segno se sostituiamo ζ con ζi,i+1 , mentre si annullano ambedue se ζ(i) = ζ(i + 1). Con questa assunzione si ha qfN (ζi,i+1 ) − pfN (ζ) i−1 N Y Y = hW | [ζ(j)D+ (1− ζ(j))E][qED− pDE] [ζ(j)D+ (1− ζ(j))E]|V i j=1 = −hW | j=i+2 i−1 N Y Y [ζ(j)D + (1 − ζ(j))E][D + E] [ζ(j)D + (1 − ζ(j)E]|V i j=1 j=i+2 = −fN −1 (ζ(1), . . . , ζ(i − 1), ζ(i + 1), . . . , ζ(N )) − fN −1 (ζ(1), . . . , ζ(i), ζ(i + 2), . . . , ζ(N )) , q.e.d. . C.2 dimostrazione del teorema 4.2.1 Definiamo due operatori A e B in questo modo A = D − I , B = E − I. Dalla (4.17) segue allora AB − xBA = (1 − x)I. Da questa equazione otteniamo che se λ è autovalore di AB, allora 1 + λ−1 x è tra gli autovalori di BA (si ricordi per ipotesi X 6= 0. Si noti poi che se 142 λ−1 1 + λ−1 è autovalore di AB allora 1 + è autovalore di BA per ogni k k+1 x x k. Con semplice ragionamento iterativo si capisce allora che sia lo spettro di AB che quello di BA contengono numeri del tipo λ−1 1+ xk per infiniti valori di k. Ma se la dimensione delle matrici D ed E è finita, allora si capisce che o x è una radice dell’unità, o λ = 1. Nel nostro caso si deve scartare la prima possibilità, visto che per ipotesi x ∈ (0, 1). Ne segue che gli autovalori di AB e di BA sono tutti uguali a uno. Di conseguenza AB e BA sono invertibili, e perciò anche A e B lo sono. Possiamo allora scrivere A(B − A−1 ) = x(B − A−1 ). Abbiamo in questo modo ricondotto il nostro problema alla ricerca di rappresentazioni dell’algebra AB = xBA , det A 6= 0 , x ∈ (0, 1). Se |U i è autovettore di A con autovalore u (diverso da zero), allora B|U i è autovettore di A con autovalore xu 6= 0 oppure è il vettore nullo. Non è difficile a questo punto convincersi che l’inviluppo lineare dei vettori {B k |U i}k∈N è invariante sia per A che per B. I vettori {B k |U i}k∈N sono un insieme di vettori linearmente indipendenti perché sono autovettori di A associati a diversi autovalori, e pertanto un qualunque elemento dell’insieme non appartiene mai all’inviluppo di un numero arbitrario di altri elementi. Per ottenere una rappresentazione finito-dimensionale, deve quindi esistere un intero n tale che B n |U i = 0. L’intero n è pure la dimensione della rappresentazione, visto che questa è irriducibile. Il fatto che la rappresentazione irriducibile n-dimensionale sia proprio quella dell’enunciato si capisce scrivendo le matrici degli operatori D = I + A ed E = I + B + A−1 nella base (|U i, B|U i, B 2 |U ii, ..., B n−1 |U i). Consideriamo ora i vettori di bordo hW | e |V i associati a questa rappresentazione, sapendo che sono autovettori con autovalore zero degli operatori Γ e Λ definiti da Γ = βD − δE − I , Λ = αE − γD − I. Chiamiamo |ki il vettore B k |U i. Nella base (|0i, ..., |n − 1i) le matrici Γ e Λ sono bidiagonali e si vede facilmente che possono avere autovalore zero solo 143 se esistono due interi k e l tra 0 e n − 1 tali che le equazioni β(1 + uxk ) − δ(1 + α(1 + 1 )−1=0 uxk 1 ) − γ(1 + uxl ) − 1 = 0 uxl siano simultaneamente soddisfatte. Affinché non sia ammissibile una rappresentazione di dimensione minore di n, deve necessariamente essere |k − l| = n − 1. Due soli casi sono allora possibili. Se K = n − 1 e l = 0 si ha |V i = |n − 1i e hW | = h1|. In questo modo si otterrebbe hW |DL |V i = 0 ∀ L, che escludiamo poiché dal teorema di Perron-Frobenius ([24]) si ricava ([38]) che sarebbero nulli tutti i pesi fN (τ1 , ..., τN ) di un sistema con N siti. Se invece k = 0 e l = n − 1 si ricava che le equazioni βu2 + (β − δ − 1)u − δ = 0 2 1 1 α 1 + n−1 + (α − γ − 1) 1 + n−1 − γ = 0 ux ux devono avere una radice comune u. Ma entrambe queste equazioni hanno la stessa struttura, le loro soluzioni possono essere scritte u = κ± (β, δ) e 1/uxn−1 = κ± (α, γ). Ciò conclude la dimostrazione. C.3 dimostrazione della proposizione 4.3.1 Verifichiamo per induzione su N che C N = N X k=0 k k 2N − k X j k−j E D . 2N − k N j=0 (C.6) Il caso N = 1 è semplicemente la definizione di C = D + E. Assumendo che la formula sia vera per N , deduciamone la validità per N +1. Moltiplichiamo entrambi i membri per C da destra: C N +1 = N X k=0 k k 2N − k X j k−j E D (D + E). 2N − k N j=0 Osserviamo ora che Dn E = Dn−1 (D + E) = Dn + Dn−1 E, 144 (C.7) che iterando diventa Dn E = Dn + Dn−1 + · · · + D + E. Usando questo nella (C.7) otteniamo C N +1 = N X k=0 k 2N − k X j k−j+1 k E [D + Dk−j + · · · + D + E] 2N − k N j=0 X N X k 2N − k = E i Dj . 2N − k N k=0 1≤ i+j ≤ k+1 i, j ≥ 0 Poniamo ora l = i + j − 1, rimane da dimostrare N X k=l k 2N − k l+1 2N − l + 1 = . 2N − k N 2N − l + 1 N +1 (C.8) Questa relazione è senz’altro valida per l = N , visto che ambo i lati sono uguali a uno. Inoltre la (C.8) è equivalente all’uguaglianza delle differenze successive dei due lati della (C.8) stessa: l 2N − l l+1 2N − l + 1 l + 2 2N − l = − . (C.9) 2N − l N 2N − l + 1 N +1 2N − l N + 1 Ora questo è facile da verificare direttamente. Sviluppando infatti i coefficienti binomiali e cancellando i fattori comuni la (C.9) si riduce a l(N + 1) = (l + 1)(2N − l) − (l + 2)(N − l), che è banalmente vera. Questo conclude la dimostrazione di (C.6). Facendo il bracket della (C.6) e usando le (4.4)-(4.5)-(4.6) si arriva a k k 2N − k X −j j−k C = α β hW |V i 2N − k N j=0 k=0 N X k 2N − k β −k−1 − α−k−1 = hW |V i, 2N − k N β −1 − α−1 k=0 N N X dove l’ultimo passaggio deriva dalla somma parziale della serie geometrica. Con ciò la dimostrazione è completa ricordando la definizione di RN . 145 C.4 dimostrazione del lemma 4.3.1 Moltiplicando la (C.9) per xl+1 e sommando su l = 1, . . . , N , si ottiene, dopo aver semplificato i termini che si cancellano, 1 2N + 1 x−1 . RN = RN +1 + x2 2N + 1 N + 1 Ciò equivale a −1 N N +1 [x(1−x)] RN (x )−[x(1−x)] 2N + 1 1 Rn+1 (x ) = [x(1−x)] . 2N + 1 N + 1 −1 N Prendendo k al posto di N e sommando la serie telescopica che ne deriva per k = 0, . . . , N − 1, si deduce la seguente espressione alternativa per RN : N −1 X 1 2k + 1 −1 N k −1 x − [x(1 − x)] RN (x ) = [x(1 − x)] . (C.10) 2k + 1 k + 1 k=0 In questa nuova rappresentazione i termini della serie dipendono da k ma non da N . A questo punto introduciamo lo sviluppo di Taylor della radice nella seguente forma: ∞ X p 1 2k + 1 k 1 1 − 1 − 4y = 2y y , |y| ≤ . (C.11) 2k + 1 k + 1 4 k=0 Possiamo scegliere y = x(1 − x), visto che x(1 − x) ≤ 1/4 se x ∈ [0, 1]. Passando al limite nella (C.10) si evince: x−1 − lim [x(1 − x)]N RN (x−1 ) = N →∞ 1 − |1 − 2x| = 2x(1 − x) x−1 (1 − x)−1 se 1/2 ≤ x < 1 . se 0 < x < 1/2 Ciò dimostra il lemma per 0 < x < 1/2. Per 1/2 ≤ x < 1 invece, questo argomento porta soltanto a lim [x(1 − x)]N RN (x−1 ) = 0. N →∞ Ma in questo caso la (C.10) può essere riscritta come: ∞ X 1 2k + 1 , [x(1 − x)] RN (x ) = [x(1 − x)] 2k + 1 k + 1 k=N N −1 k e notando che dalla formula di Stirling segue che 1 2k + 1 4k √ ∼ , 2k + 1 k + 1 πk 3 si ottiene l’enunciato del lemma. 146 C.5 dimostrazione del teorema 4.5.1 La dimostrazione richiede di costruire l’espressione del profilo di densità fornita dalla seguente Proposizione C.5.1. Se p = 1, allora NX −k−1 1 2j + 1 hW |C N −j−1 |V i µN {τi = 1} = hτi iN = 2j + 1 j hW |C N |V i j=0 N −k hW |C k−1 |V i X j 2N − 2k − j −j−1 β + hW |C N |V i j=1 2N − 2k − j N −k per 1 ≤ k ≤ N . Dim. Tenendo conto della seguente espressione di hτk iN , che già conosciamo, hτk iN = hW |C k−1 DC N −k |V i hW |C N |V i si capisce che abbiamo bisogno di calcolare quantità del tipo DC n al variare di n ≥ 1. Questo è il risultato del seguente Lemma C.5.1. n DC = n−1 X j=0 n X 1 2j + 1 j 2n − j n−j C + Dj+1 2j + 1 j 2n − j n j=1 (C.12) Dim. La dimostrazione può essere effettuata per induzione su n. Per n = 1 la (C.12) diviene semplicemente DC = C + D2 , che segue immediatamente da (4.5). Supponendo allora la (C.12) vera per un dato n, moltiplichiamo ambo i lati per C da destra, ottenendo DC n+1 n−1 X 1 2j + 1 C n−j+1 = 2j + 1 j j=0 n X j 2n − j + Dj+1 (D + E). 2n − j n j=1 Sappiamo già che Dj+1 E = Dj+1 + Dj + · · · + D2 + C. 147 (C.13) Sostituendo in (C.13) si ha n−1 n X X 1 2j + 1 j 2n − j n+1 n−j+1 DC = C +C 2j + 1 j 2n − j n j=0 j=1 n X j 2n − j + [Dj+2 + · · · + D2 ]. 2n − j n j=1 Usando ora la (C.8) con l = 0, si vede che il termine in C qui sopra si può scrivere come come il termine con j = n nella prima somma. Cosı̀ facendo, e scambiando l’ordine di sommatoria nell’ultima somma, si ricava n−1 n+1 n X X X 1 2j + 1 j 2n − j n+1 n−j+1 i+1 DC = C + D . 2j + 1 j 2n − j n j=0 i=1 j=i−1 Applicando ancora (C.8) , stavolta con l = i − 1, si arriva alla (C.12) con n + 1 al posto di n. Questo dimostra il lemma. L’enunciato della proposizione segue sostituendo la (C.12) nell’espressione di hτk i con n = N − k, e ricordando che Dj+1 |V i = β −j−1 |V i, come ovvio guardando la (4.4). Procediamo ora alla dimostrazione dell’enunciato del teorema. Dimostrazione del teorema 4.5.1. A volte espliciteremo la dipendenza di µN da λ e ρ. Se consideriamo il coupling di due processi ηt1 e ηt2 con diversi parametri di bordo (λ1 , ρ1 ) e (λ2 , ρ2 ), si ha ηt1 ≤ ηt2 in ogni istante, nel senso del §2.1.3. Dunque µN (λ1 , ρ1 ) ≤ µN (λ2 , ρ2 ) per ogni N . Poiché, come sappiamo dall’oss. 4.2.1, vale µN (λ, λ) = νλ , si ha νλ∧ρ ≤ µN (λρ) ≤ νλ∨ρ (C.14) per ogni (λ, ρ), dove ∧ e ∨ denotano il minimo e il massimo rispettivamente. Ricordando che σ è lo shift sul reticolo, consideriamo una sequenza N 0 lungo la quale esista il limite µ = lim σk(N 0 ) µN 0 . 0 N →∞ Allora µ è invariante per il processo di esclusione su Z grazie all’ultimo punto del teorema 2.1.2. Pertanto µ è una combinazione di να , α ∈ [0, 1] e νn , n ∈ Z. Dal teorema 4.4.1 sappiamo che se ρ ≤ 1/2 ≤ λ 1/4 λ(1 − λ) se λ ≤ 1/2 e λ + ρ ≤ 1 µ(λ, ρ){τ· = 1, τ· +1 = 0} = ρ(1 − ρ) se ρ ≥ 1/2 e λ + ρ ≥ 1 148 Passando al limite in (C.14) otteniamo νλ∧ρ ≤ µ(λρ) ≤ νλ∨ρ . (C.15) Se λ ∧ ρ > 0 o λ ∨ ρ < 1, la (C.15) implica che µ deve essere una media delle sole να , α ∈ [0, 1]. Poiché stiamo assumendo λ > 0 e ρ < 1, l’unico caso in cui non possiamo essere sicuri di quanto appena detto è λ = 1,ρ = 0. Ma in questo caso la (C.15) assicura che µ(1, 0){τ· = 1, τ· +1 = 0} = 1/4, per cui anche in questo caso non è coinvolta nessuna νn nella rappresentazione di µ come mistura di misure invarianti estremali. Per chiarire questo punto notiamo che ogni combinazione µ di να , α ∈ [0, 1], si ha µ{τ· = 1, τ· +1 = 0} ≤ 1/4, mentre per ogni combinazione µ di νn si ha µ{τ· = 1, τ· +1 = 0} = 0. Ne segue in generale che Z 1 µ(λ, ρ) = να γ(dα) 0 per una qualche misura di probabilità γ su [0, 1]. Dalla (C.15) segue che γ è concentrata su [λ ∧ ρ, λ ∨ ρ]. Per convincerci di ciò scriviamo Z 1 µ(λ, ρ){τ1 = · · · = τn = 1} = αn γ(dα) ≤ (λ ∨ ρ)n 0 e passiamo al limite per n → ∞ per dimostrare che γ(λ ∨ ρ] = 0, infine usiamo lo stesso ragionamento con 0 al posto di 1 concludendo che γ[0, λ∧ρ). Mettendo insieme tutte queste osservazioni abbiamo Z λ∨ρ να γ(dα). µ(λ, ρ) = λ∧ρ Ma allora Z λ∨ρ λ∧ρ 1/4 λ(1 − λ) α(1 − α)γ(dα) = ρ(1 − ρ) se ρ ≤ 1/2 ≤ λ, se λ ≤ 1/2 e λ + ρ ≤ 1, se ρ ≥ 1/2 e λ + ρ ≥ 1. (C.16) Notiamo che in ogni caso il secondo membro della (C.16) è il massimo o il minimo della funzione α(1 − α) per α ∈ [λ ∧ ρ, λ ∨ ρ], e perciò γ dà tutto il peso ai punti in cui questo estremo è raggiunto. Il punto è sempre unico tranne nel caso in cui 0 < λ < 1/2, λ + ρ = 1. In questo caso il minimo è raggiunto sia in λ che in ρ. Ciò conclude la dimostrazione della prima parte del teorema. Per completare la dimostrazione bisogna mostrare, usando la proposizione C.5.1, che per λ + ρ = 1 il valore di α è proprio ϑ. Dobbiamo dimostrare che lim σk(N ) µN = (1 − ϑ)νλ + ϑνρ . N →∞ 149 Sappiamo dal cor. 4.3.1 che esiste una costante K tale che hW |C N |V i ∼ KN [λ(1 − λ)]−N , per N sufficientemente grande. Passando dunque al limite nell’enunciato della proposizione C.5.1 si ottiene lim µN {τk(N ) = 1} = N →∞ ∞ X j=0 + lim 1 2j + 1 [λ(1 − λ)]j+1 2j + 1 j N →∞ (C.17) k(N ) [λ(1 − λ)]N −k(N )+1 RN −k(N ) (λ−1 ). (C.18) N Applicando al primo addendo del secondo membro della (C.17) lo sviluppo di Taylor come nella (C.11) e il lemma 4.3.1 al secondo addendo, si ottiene lim σk(N ) µN = λ + ϑ(1 − 2λ), N →∞ cioè la tesi. 150 Ringraziamenti Ringrazio Giovanni Jona-Lasinio per avermi avvicinato alla meccanica statistica; Massimo Testa per la disponibilità e le chiare spiegazioni degli ultimi anni; Alberto De Sole per l’aiuto e le discussioni fondamentali che mi ha sempre concesso. 151 Bibliografia [1] L. Accardi et. al. ed., Quantum Probability and Applications to the Quantum Theory of Irreversible Processes, Springer (1984) [2] L. Accardi et. al. ed., Quantum Probability and Applications V, Springer (1990) [3] C. Albanese, A Goldstone Mode in the Kawasaki-Ising Model, J. Stat. Phys. 77 (1994) 77-87 [4] C. Albanese, M. Isopi, Series Expansions for the Autocorrelation Time of Infinite Particle Systems in the Large Noise Limit, manoscritto [5] R.J. Baxter, Exactly solved models in statistical mechanics, Academic Press, New York (1982) [6] P. Biane, R. Durrett, Lectures on Probability Theory, Springer (1995) [7] O. Bratteli, D. W. Robinson, Operator Algebras and Quantum Statistical Mechanics I e II, Springer-Verlag (1991) [8] I. P. Cornfeld, S.V. Fomin, Y.G. Sinai, Ergodic Theory, Springer-Verlag (1982) [9] G. F. De Angelis,G. Jona-Lasinio, V. Sidoravicius, Berezin integrals and Poisson processes, J. Phys. A 31 1 (1998), 289–308. [10] G. F. De Angelis, G. Jona-Lasinio, M. Sirugue, Probabilistic solution of Pauli type equations, J. Phys. A 16 11 (1983) 2433–2444 [11] B. Derrida, An Exact Solution of a One-Dimensional Asymmetric Exclusion Model with Open Boundaries, J. Stat. Phys. 69 3/4 (1992) 667-687 [12] B. Derrida, An exactly soluble non-equilibrium system: The asymmetric simple exclusion process, Phys. Rep. 301 (1998) 65-83 152 [13] B. Derrida, M. R. Evans, V. Hakim, V. Pasquier, A matrix method of solving an asymmetric exclusion model with open boundaries, in Cellular Automata and Cooperative Systems, N. Boccara, E. Goles, S. Martinez, P. Picco ed. (1993) [14] B. Derrida, M. R. Evans, V. Hakim, V. Pasquier, Exact solution of a 1D asymmetric exclusion model using a matrix formulation, J. Phys. A: Math. Gen. 26 (1993) 1493-1517 [15] B. Derrida, J.L. Lebowitz, E.R. Speer, Shock Profiles for the Asymmetric Simple Exclusion Process in One Dimension, J. Stat. Phys. 89 1/2 (1997) 135-167 [16] P. Diaconis, Group Representation in Probability and Statistics, IMS vol. 11 (1988) [17] S. Doplicher, Appunti del Corso di Analisi Funzionale I e II, dispense per il corso di Meccanica Quantistica [18] T. M. W. Eyre, Quantum Stochastic Calculus and Rapresentation of Lie Superalgebras, Springer (1998) [19] W. Feller, An Introduction to Probability Theory and its Applications I e II, J. Wiley and Sons (1966) [20] R. P. Feynman, Statistical Mechanics, Addison-Wesley (1972) [21] B. Fristedt, L. Gray, A Modern Approach to Probability Theory, Birkäuser (1997) [22] J. Fuchs, Affine Lie Algebras and Quantum Groups, Cambridge University Press (1992) [23] J. Fuchs, C. Schweigert, Symmetries, Lie Algebras and Representations, Cambridge University Press (1997) [24] F. R. Gantmacher, The Theory of Matrices I e II, Chelsea Publishing Company New York (1990) [25] M. Gianfelice, M. Isopi, Quantum methods for interacting particle systems II, Glauber dynamics for Ising spin systems, Markov Process. Related Fields 4 3 (1998) 411-428 [26] R. Glauber, Time dependent statistics of the Ising model, J. Math. Phys. II (1963) 294-307 153 [27] G. R. Grimmett, D. R. Stirzaker, Probability and Random Processes, Clarendon, Oxford (1992) [28] H. Hinrichsen, Critical Phenomena in Nonequilibrium Systems, Habilitationsschrift (2000) [29] H. Hinrichsen, Matrix product ground states for exclusion process with parallel dynamics, J. Phys. A 29 (1996) 3659 [30] A. Honecker, I. Peschel, Matrix-Product States for a One-Dimensional Lattice Gas with Parallel Dynamics, J. Stat. Phys. 88 (1997) 319 [31] N. M. Hugenholtz, How the C*-algebraic formulation of statistical mechanics helps understanding the approach to equilibrium, Cont. Math. 62 (1987) 167-174 [32] C. Kipnis, C. Landim, Scaling limit of interacting particle systems, Springer (1999) [33] A. N. Kolmogorov, Teoria delle probabilità, Teknos (1995) [34] A. Klümper, A. Schadschneider, J. Zittartz, Equivalence and solution of anisotropic spin-1 models and generalized t − J fermion models in one dimension, J. Phys. A: Math. gen. 24 (1991) L955-L959 [35] J. Krug, Phys. Rev. Lett. 67 (1991) [36] T. M. Liggett, Interacting Particle Systems, Springer-Verlag NY (1985) [37] T. M. Liggett, Stochastic Interacting Systems: Contact, Voter and Exclusion Processes, Springer (1999) [38] K. Mallick, S. Sandow, Finite dimensional representation of the quadratic algebra: applications to the exclusion process, J. Phys. A 30 (1997) 4513 [39] E. Marinari, G. Parisi, Trattatello di Probabilità, dispense [40] T. Matsui, Gibbs Measure as Quantum Ground States, Commun. Math. Phys. 135 (1990) 79-89 [41] P. A. Meyer, Quantum Probability for Probabilitists, seconda edizione, Springer (1995) 154 [42] R. A. Minlos, A. G. Trishch, The complete spectral decomposition of Glauber dynamics for the one-dimensional Ising model, Commun. of the Moscow Math. Soc. 49 (1994) 210-211 [43] E. S. Nikolaev, A. A. Samarskij, Metodi di soluzione delle equazioni di reticolo, MIR (1985) [44] K. R. Parthasarathy, An Introduction to Quantum Stochastic Calculus, Birkäuser (1992) [45] G. M. Schütz, Duality Relations for Asymmetric Exclusion Processes, Journ. of Stat. Phys. 86 (1997) 1265-1287 [46] G. M. Schütz, Exact Solution of the Master Equation for the Asymmetric Exclusion Processes, Journ. of Stat. Phys. 88 1/2 (1997) 427-445 [47] G. M. Schütz, Integrable stochastic many-body systems, Habilitationsschrift (1998) [48] G. M. Schütz, Stochastic many-body systems and quantum spin chains, Resenhas IME-USP 4 (1999) 17-43 [49] G. M. Schütz, Exactly Solvable Models for Many-Body Systems Far From Equilibrium, da pubblicare in Phase Transitions and Critical Phenomena, C. Domb e J. Lebowitz ed., Academic Press, London, (2000) [50] A. N. Shiryaev, Probability, Springer NY (1980) [51] B. Simon, The Statistical Mechanics of Lattice Gases, Princeton University Press (1993) [52] H. Spohn, Large Scale Dynamics of Interacting Particles, SpringerVerlag (1991) [53] R. B. Stinchcombe, G. M. Schütz, Application of Operator Algebras to Stochastic Dynamics and the Heisenberg Chain, Phys. Rev. Lett. 75 (1995) 140-143 [54] R. B. Stinchcombe, G. M. Schütz, Operator Algebras for Stochastic Dynamics and the Heisenberg Chain, Europhys. Lett. 29 (9) (1995) 663-667 [55] G. Su, Exact Ground States of One-Dimensional Quantum Systems: Matrix Product Approach, Phys. Lett. A 213 1/2 (1996) 93-101 155 [56] A. Sudbury, P. Lloyd, Quantum operators in classical probability theory: II. the concept of duality in interacting particle systems, Ann. Prob. 23 (4) (1995) 1816-1830 [57] L. E. Thomas, Quantum Heisenberg ferromagnets and stochastic exclusion processes, J. Math. Phys. 21 (7) (1980) 1921-1924 156