Università degli studi di Firenze Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea Magistrale in Scienze Fisiche ed Astrofisiche Identificazione di muoni nell’esperimento LHCb mediante ricostruzione di tracce con reti neurali ricorsive Muon identification in the LHCb experiment through track reconstruction with recurrent neural netwoks Anno Accademico 2011/2012 Candidato: Tommaso Mazzoni Relatore: Dott. Giovanni Passaleva Correlatore: Prof. Gregorio Landi Indice Introduzione 1 1 LHC e l’esperimento LHCb 1.1 LHC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 L’esperimento LHCb . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 VErtex LOcator . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Il magnete . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Il sistema di tracciamento . . . . . . . . . . . . . . . . 1.2.4 I rivelatori Cherenkov . . . . . . . . . . . . . . . . . . 1.2.5 I calorimetri . . . . . . . . . . . . . . . . . . . . . . . . 1.2.6 Il rivelatore di muoni . . . . . . . . . . . . . . . . . . . 1.2.7 Il sistema di trigger . . . . . . . . . . . . . . . . . . . . 1.2.8 Il software di LHCb . . . . . . . . . . . . . . . . . . . . 1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni 1.4 Procedura di identificazione dei muoni . . . . . . . . . . . . . 3 3 6 6 8 8 8 9 10 15 16 18 20 2 Le Reti Neurali ricorsive 2.1 Dal neurone di McCulloch e Pitts al Perceptron . . . . . . . 2.2 Il modello di Hopfield . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Vetri di spin . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Approssimazione di campo medio . . . . . . . . . . . 2.3 Reti Neurali continue . . . . . . . . . . . . . . . . . . . . . . 2.4 Ottimizzazione combinatoriale . . . . . . . . . . . . . . . . . 2.4.1 Albero Ricoprente Minimo . . . . . . . . . . . . . . . 2.4.2 Il problema del Commesso Viaggiatore . . . . . . . . 2.5 Risoluzione di problemi di ottimizzazione con metodi neurali 2.5.1 Simulated-Annealing . . . . . . . . . . . . . . . . . . 2.5.2 Mean-Field Annealing . . . . . . . . . . . . . . . . . 2.6 La ricostruzione di tracce . . . . . . . . . . . . . . . . . . . . 2.7 Il metodo di Denby . . . . . . . . . . . . . . . . . . . . . . . 2.7.1 L’algoritmo per la dinamica . . . . . . . . . . . . . . 23 24 26 27 29 30 32 32 34 34 34 35 36 38 39 i . . . . . . . . . . . . . . 2.7.2 2.7.3 La scelta dei pesi . . . . . . . . . . . . . . . . . . . . . 41 La funzione di costo . . . . . . . . . . . . . . . . . . . 43 3 Ricostruzione di tracce nel rivelatore di muoni 3.1 La costruzione dei neuroni . . . . . . . . . . . . 3.2 La selezione dei neuroni . . . . . . . . . . . . . 3.2.1 La determinazione dei pesi . . . . . . . . 3.3 L’implementazione del Mean-Field Annealing . 3.4 La parallelizzazione del Mean-Field Annealing . 3.5 La costruzione delle tracce . . . . . . . . . . . . 3.6 Ottimizzazione dei parametri della rete . . . . . 3.7 Prestazioni della rete . . . . . . . . . . . . . . . di LHCb . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.1 La definizione di “muone” . . . . . . . . . . . . . . . . . 4.2 Studio dell’efficienza di identificazione con il Monte Carlo 4.3 Studio dell’efficienza col metodo di tag and probe . . . . 4.3.1 Eventi Monte Carlo . . . . . . . . . . . . . . . . . 4.3.2 Dati . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Confronto con il metodo IsMuon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 46 46 49 52 53 54 55 55 . . . . . . . . . . . . 63 63 64 67 71 72 75 Conclusioni 79 A Meccanica Statistica dei vetri di spin A1 Bibliografia I ii Introduzione Negli esperimenti di fisica delle alte energie è di fondamentale importanza poter misurare le traiettorie delle particelle che hanno interagito con i rivelatori. Grazie alle tracce è infatti possibile misurare l’impulso e la carica delle particelle con l’ausilio di un campo magnetico e determinarne la natura. La ricostruzione delle tracce avviene grazie a particolari rivelatori sensibili alla posizione e grazie ad algoritmi che, partendo dai dati dei rivelatori, sono in grado di determinare la traiettoria delle particelle. In particolare questo lavoro di Tesi affronterà il problema della ricostruzione di tracce nel rivelatore di muoni dell’esperimento LHCb con una rete neurale ricorsiva. Vedremo come sia possibile utilizzare una rete di Hopfield per risolvere un problema di ottimizzazione combinatoriale e di come la ricostruzione delle tracce sia riconducibile a uno di questi problemi. Le tracce ricostruite serviranno ad identificare i muoni che attraversano il rivelatore di muoni di LHCb; vedremo infatti che identificare queste particelle è di fondamentale importanza per lo studio dei mesoni B di cui si occupa l’esperimento in questione. All’esperimento LHCb e alla fisica che si vuole studiare con esso è dedicato il Capitolo 1, dove sarà data anche una descrizione dell’acceleratore LHC e sarà spiegato il problema dell’identificazione dei muoni. Nel Capitolo 2 verranno introdotte le reti neurali ricorsive in relazione ai problemi di ottimizzazione con particolare riferimento alla ricostruzione di tracce. Il Capitolo 3 è dedicato al metodo utilizzato in questo lavoro di Tesi per la ricostruzione delle tracce nel rivelatore di muoni dell’esperimento LHCb. Verrà descritta nel dettaglio la rete neurale sotto i vari aspetti: la creazione dei neuroni, l’evoluzione della rete e la costruzione delle tracce. Il problema dell’identificazione dei muoni utilizzando le tracce ricostruite sarà descritto nel Capitolo 4. L’analisi si basa sulla misura dell’efficienza di identificazione sulla probabilità di misidentificazione, ovvero sullo studio di quanti muoni vengono identificati correttamente e di quante volte si sbaglia nella ricostruzione. 1 Introduzione La ricostruzione delle tracce e l’analisi delle stesse sono state eseguite su un campione di eventi simulati con il Monte Carlo e su un campione di dati selezionati. 2 Capitolo 1 LHC e l’esperimento LHCb LHCb è uno degli esperimenti installati al Large Hadron Collider (LHC), l’anello di accumulazione protone-protone del CERN di Ginevra, ed è dedicato allo studio della fisica dei mesoni B. Lo scopo principale dell’esperimento è la ricerca di evidenze indirette di nuova fisica che si possono manifestare in decadimenti rari dei mesoni B e D e in processi che violano la simmetria CP. 1.1 LHC LHC [1] è l’acceleratore di particelle più grande mai costruito, si trova in un tunnel sotterraneo circolare con una circonferenza di circa 27 km. Il tunnel contiene i due tubi1 all’interno dei quali scorrono i due fasci di protoni accelerati in direzioni opposte, i magneti superconduttori, i sistemi di accelerazione, gli esperimenti e il sistema criogenico a elio liquido (Figura 1.1). I magneti superconduttori che servono per curvare e focalizzare i fasci all’interno dei tubi, sono realizzati in NbTi e raffreddati in bagno termico di elio liquido a circa 1.9 ◦ K. A questa temperatura la lega metallica si comporta da superconduttore rendendo possibile la generazione di campi magnetici elevati (fino a 8 T ) necessari a mantenere i protoni nelle loro orbite. Il sistema di accelerazione delle particelle (vedi Figura 1.2) è composto da una serie di acceleratori che portano all’iniezione di fasci di protoni con energia pari a 450 GeV2 in LHC per la successiva accelerazione fino all’energia nominale. L’acceleratore √è progettato per raggiungere energie di collisione34nel centro di massa pari a s = 14T eV e una luminosità istantanea L = 10 cm−2 s−1 . A LHC sono installati quattro grandi esperimenti: 1 2 detti beam pipes 1eV = 1.60217653 × 10−19 J 3 1 LHC e l’esperimento LHCb 1.1 LHC Figura 1.1: L’acceleratore LHC ed i principali esperimenti • CMS, Compact Muon Solenoid • ATLAS, A Toroidal LHC ApparatuS • LHCb, Large Hadron Collider beauty experiment • ALICE, A Large Ion Collider Experiment. I primi due esperimenti sono simili come concetto ma diversi nella realizzazione e puntano a fare misure per lo studio del Modello Standard (MS) e le sue eventuali estensioni, in particolare attraverso l’individuazione del bosone di Higgs. Di LHCb sarà data in seguito una descrizione più approfondita. ALICE a differenza dei primi tre è progettato per osservare eventi generati dalla collisione di ioni pesanti per lo studio di stati di aggregazione della materia ad elevata densità3 . Oltre a questi esperimenti ve ne sono due minori: • LHCf, Large Hadron Collider foward 3 il cosiddetto plasma di quark e gluoni 4 1 LHC e l’esperimento LHCb 1.1 LHC Figura 1.2: Sistema di accelerazione di LHC ed i principali esperimenti • TOTEM, TOTal Elastic and diffractive cross section Measurement LHCf è posto a 140 m da ATLAS e serve per effettuare misure di sezione d’urto di produzione di π 0 utili per la fisica dei raggi cosmici. Infatti l’energia nel centro di massa di 14 T eV corrisponde ad una collisione su bersaglio fisso ad un’energia pari a circa 1017 eV , interessante per lo studio dei raggi cosmici di altissima energia. TOTEM infine è dedicato allo studio della sezione d’urto totale pp. Attualmente LHC sta funzionando ad un’energia nel centro di massa pari a 8 T eV dopo due anni di operazioni a 7 T eV . Durante il 2013-2014 l’acceleratore sarà fermo per la realizzazione di una serie di migliorie che lo porteranno, nella seconda metà del 2014 a funzionare all’energia nominale di 14 T eV . 5 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb 1.2 L’esperimento LHCb LHCb ha come obbiettivo lo studio dei mesoni B [2] [3], con particolare riferimento ai decadimenti rari e a effetti di violazione della simmetria CP che possono dare importanti indicazioni sull’esistenza di nuova fisica. Alle energie di LHC la produzione di adroni formati dai quark beauty (o bottom) e i corrispettivi antiquark, che indicheremo con b e b̄, avviene prevalentemente all’interno di un cono a piccolo angolo polare. Di conseguenza LHCb è uno spettrometro a braccio singolo che copre un angolo di 300 mrad nel piano zx e 250 mrad nel piano zy 4 . Alle energie e luminosità √ nominali di LHC la sezione d’urto√di produzione di coppie bb̄ è elevata: a s = 14 T eV si ha σbb̄ ≈ 500 µb; a s = 7 T eV si ha σbb̄ ≈ (288 ± 4 ± 44) µb come misurato direttamente da LHCb [4]. Inoltre l’energia nel centro di massa permette la produzione di tutti i tipi di mesoni e barioni B, al contario di quanto avviene alle b-factories elettrone-positrone dove si possono produrre solo i mesoni B 0 . L’esperimento LHCb [5] (vedi Fig. 1.3) e’ costituito da un rivelatore di vertice (Vertex Locator o VELO), da un sistema di tracciamento costituito da due stazioni di rivelatori al silicio (Trigger Tracker o TT), dal magnete dipolare e da tre stazioni equipaggiate con straw tubes e rivelatori al silicio, da due rivelatori Ring Imaging Cherenkov (RICH1 e RICH2) per l’identificazione delle particelle cariche, dai calorimetri elettromagnetico ed adronico (ECAL e HCAL) e dal rivelatore di muoni. Nei prossimi paragrafi verranno descritti i vari elementi di LHCb. 1.2.1 VErtex LOcator Il rivelatore di vertice [6] (VELO) ha come obiettivo la ricostruzione dei vertici di interazione primari e secondari, fondamentale per lo studio dei mesoni B. Il sistema è composto da 25 stazioni circolari, costituite da due dischi (in realtà quattro semi-dischi), posizionate perpendicolarmente al fascio. I rivelatori sono a miscrostrisce di silicio disposte in direzione radiale e azimutale, in grado di coprire un angolo di 182◦ per un totale di circa 200000 strisce. La risoluzione misurata per la ricostruzione di un vertice primario è 42 µm lungo l’asse z e 10 µm sul piano perpendicolare. La precisione nella ricostruzione del tempo proprio delle particelle è di ∼ 40 f s. Il VELO dispone anche di un sottosistema detto PILE UP VETO costituito da due dischi di rivelatori posizionati a monte del vertice di interazione primario. Il suo scopo è 4 Il sistema di riferimento è scelto in modo da avere z che parta dal punto di interazione primario verso il rivelatore di muoni, l’asse y è posto lungo la direzione campo magnetico e diretto verso l’alto e l’asse x scelto in modo la completare una terna destrorsa. 6 1 LHC e l’esperimento LHCb Figura 1.3: Rappresentazione di LHCb nel piano zy 1.2 L’esperimento LHCb 7 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb quello di contare il numero di vertici primari in un singolo incrocio dei fasci e viene usato dal primo livello del trigger per identificare gli eventi in cui si ha più di un vertice di interazione protone-protone. 1.2.2 Il magnete Il magnete [7] utilizzato in LHCb è un magnete dipolare in grado di generare un campo orientato verticalmente (asse y) con un valore massimo di 1.1 T . La polarità del campo viene periodicamente invertita per ridurre gli errori sistematici introdotti nelle misure da un’eventuale asimmetria del rivelatore nella direzione x. Le particelle che attraversano il magnete sono soggette ad un campo medio integrato pari a 4 T m. 1.2.3 Il sistema di tracciamento Il sistema di tracciamento è suddiviso in due parti. La prima è costituita da una sola stazione detta Trigger Tracker (TT) che è posta tra il RICH1 e il magnete e la seconda è composta da tre stazione (T1-T3) poste tra il magnete e il RICH2. Il Trigger Tracker è formato da quattro piani di rivelatori a microstrisce di silicio e ha principalmente due scopi. Il primo, intuibile anche dal suo nome, è quello di fornire al trigger di alto livello una prima rapida informazione sull’impulso trasverso delle tracce con grande parametro di impatto; il secondo è quello di ricostruire le tracce di particelle con basso impulso che non arrivano a T1. Le tre stazioni successive sono a loro volta suddivise in due regioni distinte, l’inner tracker [8] e l’outer tracker [9]. L’inner tracker copre la superficie più vicina al tubo del fascio ed formata anch’essa da rivelatori a microstrisce di silicio, l’outer tracker invece è realizzato con straw tubes con risoluzione spaziale di 200 µm e ricopre la regione più esterna. Ciascuna stazione è formata da quattro piani di rivelatori: i due piani più esterni sono letti lungo la direzione x mentre il secondo e il terzo sono letti lungo la direzione ruotata rispettivamente di +5◦ e −5◦ rispetto all’asse y (geometria xuvx). Questa particolare geometria permette di misurare la coordinata y e contemporaneamente di risolvere le ambiguità nella determinazione dei punti in cui la particella ha attraversato la stazione. 1.2.4 I rivelatori Cherenkov Sono presenti nell’esperimento due Ring Imaging CHerenkov (RICH1, RICH2) [10], le cui misure servono per l’identificazione di particelle cariche. Il 8 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb RICH1 è posto tra il VELO e il magnete e ha un accettanza tale da coprire per intero quella di LHCb; grazie alla scelta dei materiali di cui sono costituiti i radiatori (aerogel di silicio e gas C4 F10 ) questo rivelatore si presta alla misura di paricelle con basso impulso: infatti è in grado di distinguere5 π e K con impulsi compresi tra 10 GeV /c e 60 GeV /c. Il secondo rivelatore, il RICH2, ha un’accettanza minore e non copre per intero quella dell’esperimento. Il gas radiatore (CF4 ) permette però di separare π da K per impulsi fino a 100 GeV /c. Per entrambi i rivelatori la luce prodotta per effetto Cherenkov viene focalizzata tramite un sistema di specchi su due piani di rivelatori posti al di fuori dell’angolo di accettanza. La tecnologia scelta per la rivelazione dei fotoni è quella dei Pixel Hybrid Photon Detector (HPD): in questi particolari fotomoltiplicatori l’anodo è rappresentato da un sensore a pixel di silicio sul quale, con opportuni campi elettrici, vengono focalizzati i fotoelettroni prodotti nel fotocatodo. 1.2.5 I calorimetri I calorimetri hanno la funzione di misurare l’energia di elettroni, fotoni e adroni; queste informazioni sono usate anche per il sistema di trigger. Il sistema è costituito principalmente da due calorimetri, uno elettromagnetico (ECAL) e uno adronico (HCAL) [11]. A monte di essi sono presenti due strati di scintillatori: il PreShower (PS) e lo Scintillator Pad Detector (SPD), che hanno il compito di separare le particelle cariche da quelle neutre (che non vi interagiscono) e di innescare la formazione degli sciami elettromagnetici subito prima del calorimetro, rendendo cosı̀ più facile l’identificazione di elettroni e fotoni. L’ECAL è un calorimetro a campionamento costituito da piani di scintillatori spessi 4 mm e strati di piombo spessi 2 mm e copre circa 25 lunghezze di radiazione. Il suo scopo è quello di identificare elettroni e fotoni e di misurarne l’energia; la risoluzione energetica del calorimetro è σ(E) 10% = √ ⊕ 1.5% E E dove l’energia misurata E è in GeV . I dati forniti da ECAL e PS sono utilizzati per separare elettroni e fotoni dagli adroni che interagiscono in modo predominante nel calorimetro adronico. HCAL è anch’esso un calorimetro a campionamento, con strati di scintillatore alternati a strati di assorbitore in ferro, spessi rispettivamente 4 mm e 5 Noto l’impulso di una particella, la misura della sua velocità tramite un RICH permette di identificarla o perlomeno di poter calcolare la sua massa. 9 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb 16 mm; lungo la direzione z copre circa 5.6 lunghezze di interazione e la sua risoluzione energetica è 80% σ(E) = √ ⊕ 10% E E dove l’energia misurata E è sempre in GeV . 1.2.6 Il rivelatore di muoni Molti decadimenti dei mesoni B di fondamentale importanza per il programma di fisica di LHCb contengono muoni negli stati finali. Si pensi ad esempio al decadimento raro Bs → µ+ µ− o ai decadimenti Bd0 → J/ψ(µµ)KS Bs0 → J/ψ(µµ)φ molto importanti per lo studio della violazione di CP. Inoltre un muone con alto impulso trasverso con buona probabilità proviene dal decadimento di un adrone contenente il quark b ed è perciò importante avere un trigger che possa selezionare eventi basandosi su questa particolare caratteristica. Il rivelatore di muoni di LHCb [12] è costituito da cinque stazioni: M1, a monte dei calorimetri, e M2-M5 a valle degli stessi; ogni stazione è divisa in quattro regioni: la più centrale è detta R1, la più esterna R4. I rivelatori utilizzati sono quasi tutti camere proporzionali multifilo (Multi Wire Proportional Chambers o MWPC), tranne nella regione più interna della prima stazione dove si utilizzano rivelatori Gas Electron Multiplier (GEM) [13]. Infatti, essendo questa regione molto vicina alla linea del fascio e a monte dei calorimetri, è soggetta ad un flusso di particelle estremamente elevato e deve perciò essere equipaggiata con rivelatori capaci di sostenere alti rate di particelle come, appunto, i rivelatori GEM. La struttura Le cinque stazioni del rivelatore sono poste lungo l’asse del fascio e coprono un’accettanza di 306 mrad su xz e 258 mrad su yz. Questo significa che a quasi 20 m di distanza dal punto di interazione l’ultima stazione copre una superficie di 11.9×9.9 m2 : questi rivelatori coprono una grande area e la scelta del tipo di strumentazione dipende soprattutto da questo fattore. I muoni alle energie a cui siamo interessati interagiscono poco con la materia e riescono ad attraversare grandi quantità di materia a differenza delle altre particelle. Questa caratteristica dei muoni ne permette un’identificazione relativamente semplice in quanto saranno le uniche particelle a superare i calorimetri e 10 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb a lasciare tracce nel rivelatore per muoni. Per accentuare questo effetto di “filtro” le stazioni da M2 a M5 sono separate tra loro da strati di 80 cm di ferro. Attraversando i calorimetri e gli strati di ferro i muoni rilasceranno Figura 1.4: Il grafico rappresenta la risoluzione della misura dell’impulso trasverso in funzione dell’impulso. Sono riportati i principali contributi. comunque energia e per l’effetto dello scattering multiplo saranno deviati dalla loro traiettoria rettilinea: la scelta dei rivelatori e della loro risoluzione spaziale è stata ottimizzata tenendo conto di questo effetto importante, come riportato nel grafico di Figura 1.4. Ogni stazione del rivelatore è divisa in quattro regioni, numerate da R1 a R4 a partire dalla più interna, le cui dimensioni scalano allontanandosi dal centro verso l’esterno con proporzionalità 1 : 2 : 4 : 8. Questo fa si che il flusso di particelle in ogni regione sia circa costante. Le stazioni sono anche divise in quadranti numerati da Q1 a Q4 in senso antiorario a partire da quello nell’angolo superiore sinistro guardando in direzione dell’asse z. In Figura 1.5 è riportato il quadrante Q4 della stazione M1. La lettura dell’informazione Nel rivelatore di muoni tutte le camere sono segmentate in pad fisiche, ovvero elettrodi di raccolta della carica connessi ad un canale dell’elettronica. Nelle MWPC la lettura può essere fatta sia sull’anodo che sul catodo, pertanto le pad fisiche possono essere costituite sia da gruppi di fili che da pad catodiche. Nei rivelatori GEM invece la lettura può essere fatta solo sull’anodo, quindi le pad fisiche sono soltanto di tipo anodico. Ogni pad fisica è letta da un canale 11 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb Figura 1.5: Quadrante Q4 di una stazione con dettaglio della segmentazione in pad dei rivelatori. di elettronica di Front-End (FE) basato su circuiti integrati particolarmente resistenti alle radiazioni. L’elettronica di FE è costituita da una catena amplificatore/formatore/discriminatore: la risposta è pertanto binaria e non si ha informazione sulla carica rilasciata nei rivelatori. Lo stadio di ingresso può ricevere segnali di entrambe le polarità, positivi per le pad catodiche e negativi per le pad anodiche. L’elettronica include anche alcune unità logiche in grado di mettere in OR tra loro un numero variabile di schede di FE, secondo le esigenze di lettura. La lettura dell’informazione binaria relativa al passaggio della particella viene fatta suddividendo ciascuna stazione in unità logiche, dette pad logiche, ottenute da opportune combinazioni delle pad fisiche. Le loro dimensioni, che determinano la risoluzione del rivelatore nelle due direzioni x e y, scalano di un fattore 2 procedendo dalla regione R1 alla regione R4 e sono proiettive in y rispetto al punto di interazione. Se confrontiamo le dimensioni delle 12 1 LHC e l’esperimento LHCb z (cm) ∆x (cm) ∆y (cm) R1 Pad logiche Dim. pad (cm2 ) R2 Pad logiche Dim. pad (cm2 ) R3 Pad logiche Dim. pad (cm2 ) R4 Pad logiche Dim. pad (cm2 ) 1.2 L’esperimento LHCb M1 M2 M3 M4 M5 1210 1527 1647 1767 1887 384 480 518 556 594 320 400 432 464 495 24 * 8 48 * 8 48 * 8 12 * 8 12 * 8 1 × 2.5 0.5 × 2.5 0.5 × 2.5 2 × 2.5 2 × 2.5 24 * 4 48 * 4 48 * 4 12 * 4 12 * 4 2×5 1×5 1×5 4×5 4×5 24 * 2 48 * 2 48 * 2 12 * 2 12 * 2 4 × 10 2 × 10 2 × 10 8 × 10 8 × 10 12 * 1 24 * 1 24 * 1 6*1 6*1 8 × 20 4 × 20 4 × 20 16 × 20 16 × 20 Tabella 1.1: Informazioni sulle stazioni M1-M5. Nella tabella si riporta la distanza z di ciascuna stazione dal punto di interazione, le dimensioni ∆x (cm) e ∆y (cm) di un quadrante in ciascuna stazione, il numero e le dimensioni delle pad logiche per camera. Le pad sono proiettate su M1: per ottenere le vere dimensioni occorre moltiplicarle per la quantità zM i /zM 1 . pad fisiche con la risoluzione spaziale richiesta si possono determinare due situazioni. Per limitare il flusso, e di conseguenza il rumore e il tempo morto, la superficie delle pad fisiche deve essere piccola: per questo motivo in molte camere, le dimensioni delle pad sono inferiori alla risoluzione spaziale richiesta. In questi casi vengono collegate in OR sulle schede di FE fino a quattro pad fisiche adiacenti, per costruire un’unica pad logica. Quando invece la risoluzione è inferiore alle dimensioni delle pad fisiche si adotta una lettura mista di catodo e fili: una striscia di fili e una pad catodica costituiscono i canali logici letti dal trigger. Mettendo in AND il gruppo di fili e le pad catodiche si risale alle pad logiche. Questo è ciò che avviene nelle regioni più interne (R1, R2) delle stazioni M2 e M3, dove la risoluzione necessaria richiederebbe pad molto piccole e, di conseguenza, un numero eccessivo di canali di lettura. Per ridurre ulteriormente il numero di cavi che raccolgono il segnale dall’ elettronica di FE, diverse pad logiche adiacenti sono messe in OR tra loro per formare i canali logici, che si presentano come strisce orizzontali e verticali. Successivamente le pad logiche sono ricostruite incrociando i canali logici nel processore del trigger di primo livello o sulle schede di acquisizione, dette TELL1 [14], oppure nel software di ricostruzione. I quadranti Q1-Q4 sono ulteriormente segmentati in settori, contenenti un determinato numero di pad 13 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb logiche: i settori sono gli elementi processati in parallelo dal primo livello di trigger. Il rivelatore di muoni comprende in totale 122112 canali fisici messi in OR per formare 25920 canali logici dai quali vengono trasmessi i segnali al primo livello del trigger e all’elettronica del sistema di acquisizione. Dalle combinazioni tra i canali logici nel primo livello del trigger e nel HLT si ottengono 55296 pad logiche che possono essere usate per ricostruire le tracce dei muoni. La segmentazione in settori, pad logiche e canali logici è illustrata in Figura 1.5. In Tabella 1.1 invece sono riportati alcuni dei principali parametri delle cinque stazioni, come l’area delle regioni R1-R4 e le dimensioni delle pad logiche proiettate sulla stazione M1. Multi Wire Proportional Chambers Il rivelatore di muoni di LHCb comprende 1386 camere a fili proporzionali. Le camere delle stazioni M2-M5 sono composte di quattro piani di fili posti a uguale distanza l’uno dall’altro, collegati in OR due a due e collegati alla stessa elettronica di FE, come mostrato in Figura 1.6: in questo modo ogni camera è costituita da quattro piani di rivelazione. Le camere della stazione M1 invece sono composte da due soli piani di fili, per minimizzare la quantità di materiale davanti al calorimetro elettromagnetico. Per raggiungere la risoluzione temporale necessaria è stata scelta una miscela di gas formata da Ar/CO2 /CF4 in rapporto 40:55:5. Con questa geometria e alla tensione di lavoro di 2600 − 2700 V si raggiunge un’efficienza superiore al 95% e tale efficienza non varia molto all’aumentare del flusso di particelle interagenti. Durante la costruzione e l’assemblaggio, le varie parti delle camere sono state sottoposte a numerosi test di qualità. Inoltre, una volta ultimata la costruzione, si è verificato che le prestazioni delle camere (in particolare il guadagno) non si deteriorassero in presenza di una alta dose di radiazione, come quella attesa durante la presa dati di LHCb. Gas Electron Multiplier Come già accennato questo tipo di rivelatori è stato scelto per la regione più interna (R1) della stazione M1, la quale si trova sottoposta a flussi di radiazione molto intensi: in questa zona sono necessari rivelatori capaci di sopportare fino a 80 − 100 kHz/cm2 di flusso di particelle cariche. Le camere che sono montate in questa regione del rivelatore di muoni sono costituite da due piani di rivelatori a tripla GEM messi in OR tra loro. Ogni rivelatore è costituito da tre fogli forati di Kapton dello spessore di 50 µm posti tra un piano anodico e uno catodico: i fori sono equidistanti l’uno dall’altro e di forma biconica, dove il diametro esterno misura 70 µm e quello interno 14 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb Figura 1.6: Sezione di una camera a fili di LHCb. I quattro piani di fili sono messi in OR a coppie e collegati alla stessa elettronica di lettura. misura 50 µm. La miscela di gas usata è composta da Ar/CO2 /CF4 in proporzione 45:15:40, la quale permette di raggiungere una risoluzione temporale inferiore a 3 ns. Gli elettroni di ionizzazione prodotti nella zona di drift vengono accelerati e moltiplicati dal campo elettrico attraverso i fori. Una volta oltrepassato l’ultimo foglio gli elettroni si muovono verso l’anodo, dove inducono un segnale. In questo tipo di camere solo il piano anodico è segmentato in pad e collegato all’elettronica di lettura. 1.2.7 Il sistema di trigger La luminosità attuale di LHC e il rate di collisioni permettono la produzione di eventi con una frequenza di 40 M Hz. Il sistema di trigger [15] deve selezionare solo quelli interessanti per lo studio desiderato. Infatti la frequenza di produzione di coppie bb̄ è di circa 100 kHz di cui solo il 15% rientra in accettanza. Il trigger è suddiviso in due livelli: il primo livello, o Level 0 (L0), e il trigger di alto livello, o High Level Trigger (HLT). Il primo livello riduce la frequenza di acquisizione da 40 M Hz a 1 M Hz a cui è possibile utilizzare il secondo livello. Il sistema seleziona gli eventi che contengono leptoni, adroni o fotoni con alto impulso trasverso in quanto possibili canali di decadimento di adroni b. L0 sfrutta le informazioni dei calorimetri e del rivelatore di muoni. 15 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb Figura 1.7: Sezione di rivelatore a tripla GEM. Il trigger L0 è basato interamente su processori veloci dedicati che elaborano le informazioni provenienti direttamente dai calorimetri e dal rivelatore di muoni. Il trigger di livello più alto, o High Level Trigger (HLT) ha accesso ai dati di tutti i sottorivelatori e ha lo scopo di scartare gli eventi che non contengono un decadimento b di interesse, fino a ridurre la frequenza a circa 2 kHz. L’algoritmo ricostruisce per intero gli eventi partendo dalle tracce nel VELO e successivamente in tutte le stazioni del tracciatore (T1-T3) e li classifica in varie categorie. Il trigger HLT è un trigger software, basato su programmi di ricostruzione e selezione che girano su una farm di calcolatori dedicata allo scopo. 1.2.8 Il software di LHCb Tutte le applicazioni software di LHCb che sono utilizzate nel trattamento dei dati sono basate su una struttura generale scritta in linguaggio C++ che si chiama GAUDI [16]. GAUDI è stato progettato per essere utilizzato a tutti gli stadi dell’analisi: al suo interno sono implementati diversi pacchetti, che 16 1 LHC e l’esperimento LHCb 1.2 L’esperimento LHCb gestiscono ognuno uno stadio dell’elaborazione, dalla generazione di eventi Monte Carlo all’analisi fisica. Le principali applicazioni di GAUDI sono qui di seguito brevemente descritte: • GAUSS [17] è l’applicazione che gestisce le fasi di generazione e simulazione in LHCb: la prima consiste nella generazione delle collisioni pp e dei decadimenti dei prodotti di esse, mentre la seconda simula le traiettorie delle particelle prodotte tenendo conto delle interazioni con i materiali che costituiscono i sottorivelatori, della geometria del rivelatore e in generale di tutti i processi fisici. GAUSS è interfacciato con diverse applicazioni: per la parte di generazione delle interazioni pp utilizza PYTHIA [18], per la simulazione dei decadimenti dei mesoni B EVTGEN [19], mentre per la simulazione del rivelatore utilizza GEANT4 [20]. • BOOLE [21] è la fase finale della simulazione degli eventi: genera la risposta dei rivelatori agli hit generati da GEANT4 producendo i segnali digitalizzati che simulano la reale risposta dei rivelatori. In più vengono aggiunti eventi a bassa energia, dovuti al fondo, oppure hit prodotti da precedenti collisioni. In questa fase si simulano anche gli effetti strumentali del rivelatore, come ad esempio il cross talk, o il rumore elettronico. • MOORE [22] è l’applicazione che implementa l’HLT, viene utilizzato anche sulle simulazione di eventi proprio per simulare l’effetto del trigger. • BRUNEL [23] è il programma di ricostruzione: utilizza le informazioni che provengono dalle varie parti del rivelatore per ricostruire le traiettorie delle particelle che compongono l’evento. Vengono inizialmente ricostruite le cosiddette protoparticelle, particelle generiche a cui viene assegnata la massa del pione, che possiedono le variabili cinematiche delle tracce ricostruite. Alle protoparticelle vengono poi applicati gli algoritmi di identificazione. BRUNEL può processare sia dati reali che dati simulati provenienti da BOOLE. • DAVINCI [24] è il pacchetto che effettua l’analisi cercando tra tutti gli eventi ricostruiti i decadimenti che interessano. DAVINCI applica algoritmi di selezione sulle protoparticelle ricostruite per identificare le particelle. Queste vengono combinate insieme per ottenere i canali di decadimento di interesse. 17 1 LHC e l’esperimento LHCb 1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni L’ambiente grafico e di programmazione all’interno del quale si effettua l’ultima parte dell’analisi è ROOT [25]: ROOT permette di effettuare selezioni sugli eventi, implementare procedure di fit, produrre grafici e istogrammi per la presentazione dei risultati dell’analisi. 1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni Come già accennato nel paragrafo 1.2, l’esperimento LHCb è principalmente dedicato allo studio dei mesoni B. La strategia generale che si segue in questo tipo di studi è quella di individuare in modo indiretto segnali di fenomeni fisici non previsti dal Modello Standard [26] [27] [28] studiando i decadimenti dei mesoni B. Infatti, nuove particelle previste in modelli che superano il Modello Standard, possono contribuire ai diagrammi di ordine superiore (loop) che descrivono il decadimento. In questo tipo di approccio si possono seguire essenzialmente due strade complementari. Nella prima si studiano decadimenti molto rari e se ne misurano il branching ratio o altre caratteristiche come le distribuzioni angolari delle particelle negli stati finali, e si confrontano con le previsioni del Modello Standard. Ogni deviazione significativa dalle previsioni del Modello Standard è una chiara indicazione della presenza di nuovi fenomeni e/o di nuove particelle. Questo metodo è, in linea di principio, sensibile alla presenza di nuove particelle con masse anche molto maggiori di quelle accessibili per produzione diretta nelle collisioni dei fasci ed è quindi complementare alle ricerche dirette effettuate ad esperimenti come ATLAS o CMS. Un tipico esempio di questo tipo di studi è la misura del branching ratio del decadimento Bs,d → µ+ µ− descritto dai diagrammi mostrati in Figura 1.8. Nel Modello Standard, i rapporti di decadimento sono (3.2±0.2)×10−9 e (0.10±0.01)×10−9 per Bs e Bd rispettivamente [29] [30]. Come si vede in Figura 1.8, tuttavia, ai diagrammi previsti nel Modello Standard possono aggiungersi contributi dovuti a nuove particelle come Higgs carichi, chargini e squarks (partner supersimmetrici dei bosoni W e dei quark), che possono modificare in modo sensibile, fino ad un ordine di grandezza o più, il branching ratio di questi decadimenti. La seconda strada che si può percorrere è quella di studiare in modo dettagliato gli effetti di violazione di CP nei decadimenti dei mesoni B. Tramite lo studio di questi effetti, si ha infatti accesso ai parametri della matrice di Cabibbo-Kobayashi-Maskawa (matrice CKM) [31] [32] che descrive il mescolamento tra i quark nelle interazioni deboli. Si possono allora misurare con grande precisione tali parametri e confrontarli con le previsioni teoriche del 18 1 LHC e l’esperimento LHCb 1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni (a) (b) Figura 1.8: Principali diagrammi che descrivono i decadimenti dei mesoni Bs,d in due muoni In rosso e verde sono evidenziati i canali previsti oltre il Modello Standard. Modello Standard. Oppure si possono misurare i parametri della matrice CKM utilizzando decadimenti a cui possono o meno contribuire nuove particelle, verificando se si osservano discrepanze tra tali misure alternative delle medesime grandezze. Un tipico esempio di questo approccio è lo studio dei decadimenti Bs → J/ψ(µ+ µ− )φ dove i contributi dovuti a nuove particelle possono modificare in modo sensibile gli effetti di violazione di CP che sono noti in modo molto preciso nel Modello Standard. Si sarà notato che in entrambi gli esempi riportati, che sono considerati “casi aurei” per il tipo di fisica che si studia ad LHCb, gli stati finali dei decadimenti contengono muoni. Ciò è vero per un gran numero di decadimenti interessanti nella cosiddetta fisica dei sapori pesanti (cioè lo studio di mesoni e barioni che contengono quark b e c). Perciò, dal punto di vista sperimentale, il problema dell’identificazione dei muoni, in questo tipo di fisica, è di grande importanza. Per identificazione dei muoni intendiamo una procedura per cui partendo dalla ricostruzione di una traccia nei rivelatori traccianti e combinando questa informazione coi segnali prodotti nel rivelatore di muoni si arriva a determinare se la traccia in esame sia prodotta effettivamente da un muone o meno. I muoni sono particelle particolarmente penetranti e quindi una traccia che produca hit allineati nel rivelatore di muoni, che negli esperimenti di fisica delle particelle è tipicamente il più lontano dal vertice primario di interazione ed è ben schermato da numerosi strati di materiale, è facilmente associabile ad un muone. Tuttavia, soprattutto per muoni di impulso e impulso trasverso relativamente bassi come quelli che si vogliono identificare in LHCb, la procedura di identificazione non è sempre banale. In questo capitolo descriveremo per sommi capi il metodo di identificazione dei muoni utilizzato attualmente in LHCb. Questo ci permetterà di introdurre alcuni concetti che ci saranno utili nel seguito del lavoro di Tesi. Lo scopo del no19 1 LHC e l’esperimento LHCb 1.4 Procedura di identificazione dei muoni Impulso p (GeV /c) Stazioni richieste n 3<p<6 M2 + M3 6 < p < 10 M2 + M3 + (M4 oppure M5) p > 10 M2 + M3 + M4 + M5 Tabella 1.2: Stazioni richieste nella procedura di identificazione al variare dell’impulso. stro lavoro sarà quello di proporre un metodo alternativo di identificazione dei muoni in LHCb basato sull’utilizzo di una rete neurale ricorsiva. Come vedremo meglio nel Capitolo 3, l’idea è quella di ricostruire tracce nel rivelatore di muoni e di raccordarle in modo diretto alle tracce ricostruite nel tracciatore mediante la rete neurale. Questo metodo permette di sfruttare meglio le potenzialità di tracciamento del rivelatore di muoni che non sono attualmente utilizzate. Infatti, come vedremo tra un attimo, l’algoritmo attuale si “accontenta” di verificare se, nelle vicinanze delle estrapolazioni delle tracce alle stazioni del rivelatore di muoni ci siano o meno degli hit. 1.4 Procedura di identificazione dei muoni La procedura di identificazione dei muoni si basa sui dati raccolti e in parte elaborati provenienti dal rivelatore di muoni e dalla ricostruzione delle tracce. Nota una traccia infatti è possibile calcolare l’impulso e l’impulso trasverso della particella che l’ha prodotta ed è inoltre possibile calcolare le estrapolazioni di tale traccia sulle stazione del rivelatore di muoni. Se nelle vicinanze di questi punti estrapolati è stato rivelato il passaggio di una particella allora la traccia è considerata appartenente ad un muone. Il numero delle stazioni del rivelatore di muoni richieste per definire un muone dipende dall’impulso come riportato in Tabella 1.2. Anche le aree sulle stazioni del rivelatore, dette Field Of Interest o FOI, dove vengono ricercati i segnali dipendono dall’impulso della particella: infatti un muone di alto impulso subirà meno deflessioni a causa dello scattering multiplo e ne sarà ricercato il passaggio in un’area più piccola. Il perché di questa differenza di richieste a seconda dell’impulso è da ricercarsi nel grafico di Figura 1.9 che rappresenta la probabilità di un muone di rilasciare segnale nelle diverse stazioni al variare dell’impulso. Un muone infatti per quanto interagisca poco con la materia è comunque frenato dagli strati di ferro del rivelatore di muoni e, come possiamo vedere dal grafico di Figura 1.9, necessita in media di almeno 8 GeV /c di impulso per arrivare fino a M5. 20 1 LHC e l’esperimento LHCb 1.4 Procedura di identificazione dei muoni Figura 1.9: Probabilità per un muone di raggiungere ogni stazione in funzione dell’impulso. ǫID MID 3 < p < 6 GeV /c 6 < p < 10 GeV /c 0.836 ± 0.009 0.958 ± 0.004 0.066 ± 0.008 0.055 ± 0.006 p > 10 GeV /c p > 3 GeV /c 0.983 ± 0.001 0.966 ± 0.002 0.020 ± 0.001 0.043 ± 0.001 Tabella 1.3: Efficienza di identificazione ǫID e probabilità di misidentificazione MID per la definizione IsMuon [34]. Riportiamo infine in Tabella 1.3 la misura dell’efficienza di identificazione ǫID e della probabilità di misidentificazione MID per questa procedura (chiamata IsMuon) [33]. Questo sistema è sufficientemente performante e ha una probabilità di misidentificazione limitata. Tuttavia per come è costruita la definizione IsMuon, l’efficienza di questo metodo di identificazione rischia di essere sensibile all’aumento del flusso di particelle previsto ad esempio nell’evoluzione di LHCb ad alte luminosità. Infatti con un flusso di particelle più elevato le aree di interesse (o FOI) potrebbero contenere troppi hit, peggiorando cosı̀ la capacità discriminatoria di questo sistema. 21 1 LHC e l’esperimento LHCb 1.4 Procedura di identificazione dei muoni 22 Capitolo 2 Le Reti Neurali ricorsive Il metodo di calcolo delle Reti Neurali si ispira alla struttura delle reti neurali biologiche e al loro modo di impostare e risolvere un problema [35]. Possiamo schematizzare le caratteristiche di una rete biologica nel modo seguente: • parallelismo: i singoli componenti della rete (i neuroni) agiscono in parallelo; • alta complessità delle connessioni: i neuroni hanno un elevato numero di connessioni, il che porta ad un elevato numero di variabili e stati che evolvono in parallelo; • apprendimento: le connessioni tra neuroni e i loro stati cambiano nel tempo accumulando cosı̀ esperienze; • stati binari e variabili collettive: nella maggior parte dei casi lo stato di un singolo neurone è binario (acceso/spento) ma la loro organizzazione permette di avere stati collettivi descritti da variabili continue; • organizzazione strutturale: i neuroni sono raggruppati in sottoreti, che sono le basi dei processi celebrali, e in gruppi di sottoreti, che formano aree responsabili di una specifica funzione. Se proviamo a rapportare queste proprietà con quelle di un calcolatore sequenziale (architettura di Von Neumann1 ) ci accorgiamo di quanto siano differenti: si passa infatti da architettura sequenziale a parallela, da programmazione ad apprendimento, da attività sincrone ad asincrone. 1 L’architettura di Von Neumann è l’architettura hardware utilizzata nei comuni calcolatori basati su un processori seriali programmabili 23 2 Le Reti Neurali ricorsive 2.1 Dal neurone di McCulloch e Pitts al Perceptron Assone da un altro neurone Ramificazione assonale Sinapsi Dendrite Assone Soma Nucleo Sinapsi Figura 2.1: Neurone biologico Vedremo in seguito come le caratteristiche di un rete biologica siano di grande utilità nell’ambito della soluzione dei problemi di ottimizzazione di cui vogliamo occuparci. Dobbiamo però prima soffermarci sul funzionamento del neurone per capire come schematizzarlo mediante un algoritmo di calcolo. Il singolo neurone è formato dal soma, da cui esce l’assone e si dirama verso le sinapsi. Al soma convergono le dendriti che trasportano i segnali dei neuroni presinaptici. Se la somma di tutti i segnali di ingresso ricevuti dal soma supera una certa soglia allora viene trasferito un impulso dall’assone. 2.1 Dal neurone di McCulloch e Pitts al Perceptron Il primo approccio alla schematizzazione del funzionamento del neurone in forma computazionale si deve a McCulloch e Pitts che nel 1943 svillupparono il seguente modello [36]. • lo stato del neurone è binario; • per eccitare un neurone ad un certo istante devono attivarsi un determinato numero di sinapsi, indipendentemente dalla posizione del neurone e dal suo stato precedente; • il ritardo dell’evoluzione è il solo ritardo sinaptico; 24 2 Le Reti Neurali ricorsive σ1 σ2 σ3 2.1 Dal neurone di McCulloch e Pitts al Perceptron W1 W2 W3 N X i=1 σN Wi σi − L Θ(x) σ out WN Figura 2.2: Neurone di Rosenblatt • la struttura della rete non cambia nel tempo. Si possono costruire circuiti logici elementari a partire dallo schema proposto cosicché un sistema di neuroni può implementare un macchina di Turing universale. Questo non basta però per poter costruire algoritmi adatti a risolvere problemi di pattern recognition. Il primo strumento capace di fare ciò nasce infatti nel 1958 quando Rosenblatt introduce il Perceptron [37]. Questo modello ripropone l’uscita binaria ma con più libertà su gli ingressi: una volta che i segnali d’ingresso, pesati per intensità della connessione sinaptica, superano una certa soglia, il neurone si attiva, ovvero: ! N X Wi σiinp − L (2.1) σ out = Θ i=1 dove Wi è la costante di accoppiamento tra l’i-esimo neurone d’ingresso σiinp e il neurone d’uscita σ out , L è una soglia, Θ è la funzione di Heaviside definita nell’equazione 2.2 e la sommatoria si estende sugli N ingressi (vedi Figura 2.2). 1 se x ≥ 0 Θ(x) = (2.2) 0 se x < 0 Questo sistema, per quanto affascinante, è comunque limitato e fu per questo motivo oggetto di molte critiche in passato. Il passo decisivo nello studio delle reti neurali avvenne per merito di Hopfield che evidenziò un’analogia tra una rete di neuroni e un sistema magnetico di spin. 25 2 Le Reti Neurali ricorsive 2.2 Il modello di Hopfield S1 S2 S3 S4 S5 Jij Figura 2.3: Rete di Hopfield Questo permise di iniziare ad eseguire con queste reti neurali dei veri e proprio calcoli. 2.2 Il modello di Hopfield L’architettura del modello di Hopfield [38] è quella di una rete ricorsiva di Perceptron completamente connessa, dove con ricorsiva e completamente connessa si intende una rete di cui l’uscita di ogni neurone è riportata all’ingresso di tutti gli altri, ma non a se stesso (Wii = 0); i pesi sono simmetrici (Wij = Wji ) e il singolo neurone si comporta come quello di McCulloch e Pitts (2.1), per cui è possibile scrivere in analogia con i vetri di spin l’energia del sistema come: X 1X Wij σi σj + Li σi ; Wii = 0; (2.3) E=− 2 ij i dove si è usata la simbologia utilizzata nella formula 2.1. Scegliendo opportunamente i pesi Wij è possibile far coincidere gli stati di equilibrio dell’energia potenziale con configurazioni predefinite che possono essere “riconosciute”. In particolare si possono definire i pesi p 1 X ν Wij = (2ξ − 1)(2ξjν − 1) N ν=1 i 26 (2.4) 2 Le Reti Neurali ricorsive 2.2 Il modello di Hopfield ν dove ciascuno degli stati2 ξ ν = (ξ1ν , ξ2ν , ..., ξN ), con ν = 1, ..., p, è un attrattore del sistema e la rete evolverà per raggiungerlo, se vi si trova sufficientemente vicina, manifestando cosı̀ un comportamento da memoria associativa [38]. In questo lavoro di tesi studieremo un algoritmo di ottimizzazione in cui, come vedremo, i pesi sono definiti in base alle caratteristiche del problema da risolvere (la ricostruzione di tracce nel nostro caso) piuttosto che in base a particolari configurazioni (pattern) da riconoscere. 2.2.1 Vetri di spin Con il termine vetri di spin si intendono sistemi amorfi con impurezze magnetiche. Lo spin è una variabile quantistica delle particelle elementari a cui è associato un momento di dipolo magnetico. Essendo trascurabile il contributo dei momenti magnetici dei nuclei degli atomi lo spin complessivo di un’impurezza sarà dato dalla somma degli spin elettronici. Si può infine definire lo spin dell’impurezza, o meglio la sua proiezione in direzione z, come: 1 +2~ Sz = 1 −2~ Se riassorbiamo le constanti, quello che otteniamo è un sistema di variabili S ≡ (+1; −1) da cui possiamo passare a σ ≡ (1; 0) attraverso le seguenti trasformazioni: 1 (2.5) Si = (2σi − 1) σi = (Si + 1) 2 Da qui in avanti ci riferiremo all’i-esimo stato di spin con Si , alla sua media con Vi , all’accoppiamento con il j-esimo elemento con Jij e al campo esterno agente su di esso con hi . Dove la media è definita come: Vi ≡ hSi i = +1 · P (Si = +1) + −1 · P (Si = −1) P (Si = +1) + P (Si = −1) con P (Si = Sei ) la probabilità dell’i-esimo spin di essere nello stato Sei . L’i-esimo neurone avrà invece stato σi , media vi , peso con il j-esimo neurone Wij e la soglia Li . Le relazioni tra i due pesi sono facilmente ricavabili dalla definizione delle trasformazioni 2.5. Ridefinite le variabili è possibile riscrivere la (2.3) in funzione dei singoli elementi ottenendo cosı̀ una funzione tipica di un sistema magnetico di spin 2 Sotto le dovute ipotesi di pseudo-ortogonalità dei vettori ξ e sul loro numero. 27 2 Le Reti Neurali ricorsive 2.2 Il modello di Hopfield (Modello di Ising). E=− X 1X Jij Si Sj + hi Si 2 ij i (2.6) Hopfield [39] ha dimostrato che la legge di aggiornamento locale dei singoli spin ! X Jij Sj (t) − hi (2.7) Si (t + ∆t) = Θ j porta il sistema in uno dei minimi locali dell’energia E (2.6). Grazie all’analogia tra reti neurali (di Hopfield) e vetri di spin anche la dinamica neurale porterà alla minimizzazione dell’energia 2.3. Un sistema magnetico reale si evolverebbe con la legge 2.7 se la temperatura fosse zero. In un sistema statistico reale infatti la temperatura gioca un ruolo fondamentale nell’evoluzione per cui introdurremo anche per la nostra rete neurali il parametro “temperatura” T . Data l’analogia tra i vetri di spin e le reti neurali è possibile studiare le ultime utilizzando gli strumenti della meccanica statistica, ideati per risolvere i problemi relativi ai primi. In questo ambito di studio è di fondamentale importanza la funzione di partizione Z che rappresenta la somma dei possibili stati pesati con la temperatura e definita come X Z= e−βE({Si }) (2.8) ∀{Si } con β = 1/T , {Si } indica un qualunque insieme di valori degli spin e E({Si }) l’energia corrispondente. Tramite la 2.8 è possibile introdurre la funzione energia libera F , definita come 1 (2.9) F = − ln Z = hEi − T S β dove con S si indica l’entropia del sistema e con h i si indicano i valori all’equilibrio termico. Questa funzione tende a diminuire e gli stati di equilibrio corrispondono ai suoi minimi. Essendo il numero di spin (o neuroni) fissato è possibile definire anche l’energia libera per elemento come f (β) = − 1 ln Z βN dove N è il numero di elementi del sistema. 28 (2.10) 2 Le Reti Neurali ricorsive 2.2 Il modello di Hopfield Per capire come l’introduzione della temperatura sia fondamentale per l’evoluzione del sistema dobbiamo introdurre il seguente concetto: se cercassimo di rappresentare la funzione energia libera questa si presenterebbe come un paesaggio a “valli”, delle quali dobbiamo ricercare la più profonda. Una dinamica neurale come quella proposta in 2.7 non permette il passaggio da una “valle” a un’altra in quanto cerca sempre di ridurre l’energia. Per questo abbiamo bisogno delle fluttuazioni statistiche date dalla temperatura, infatti per T 6= 0 è possibile una volta trovato un minimo locale passare in una “valle” adiacente dando la possibilità di raggiungere il minimo globale. Questo è il principio su cui si basano le dinamiche neurali di Annealing, ovvero si ricerca un minimo e lentamente si diminuisce la temperatura fino a che il sistema di non converge, con buone possibilità, al minimo globale dell’energia. Affronteremo meglio quest’argomento nella sezione 2.5 quando ci occuperemo delle strategie per l’ottimizzazione. Per studiare l’evoluzione del sistema statistico serve quindi introdurre una formulazione che tenga conto della temperatura, al contrario del metodo introdotto con la 2.7, ma che mantenga una legge di aggiornamento degli elementi relativamente semplice e sia implementabile in un algoritmo. Nell’appendice A verrà affrontato invece il problema della stabilità delle reti introducendo un metodo rigoroso basato sullo studio della statistica dei vetri di spin. 2.2.2 Approssimazione di campo medio Il calcolo del campo medio si basa su un’approssimazione: viene trascurato l’effetto del singolo spin rispetto al campo medio prodotto da tutto il sistema, cosicché si possono trascurare anche le correlazioni tra gli spin. L’energia all’equilibrio termico sarà quindi: X X 1X 1X hEi = − Jij hSi Sj i + hi hSi i ∼ Jij hSi ihSj i + hi hSi i =− 2 ij 2 ij i i All’equilibrio la probabilità che un sistema di spin si trovi in una determinata configurazione sarà data da P {Si } = 1 −βE({Si }) e Z dove Z è la funzione di partizione. Il valor medio di Si sarà perciò: Vi ≡ hSi i = X Si e−βE({Si }) Z ∀{Si } 29 2 Le Reti Neurali ricorsive 2.3 Reti Neurali continue da cui otteniamo hSi i = htanh(β X Jij Sj + hi )i (2.11) j con cui riscriveremo la 2.3 all’equilibrio termico in questa approssimazione come: X 1X hEi = − Jij Vi Vj + hi Vi (2.12) 2 ij i con (equazione di campo medio) ∂hEi Vi = tanh −β ∂Vi i = 1, ... , N (2.13) che per un sistema di neuroni (σ ≡ (1; 0) invece di S ≡ (+1; −1)) porta a hσi i = vi = 1 + exp −β 1 P j Wij σj + Li (2.14) Questo metodo permette quindi di poter calcolare lo stato medio del singolo spin, e quindi del neurone, attraverso un calcolo semplice e veloce. 2.3 Reti Neurali continue Un approccio semplice che porta alla scrittura di un’equazione simile a quella della formula 2.13 e che dimostra la convergenza del metodo è quello di prendere come modello una rete costituita da neuroni a risposta modulata [40] invece che da quelli di binari. Il vantaggio di questo tipo di reti è che è possibile costruirne un’implementazione con componenti elettronici come illustrato in Figura 2.4 [41]. Un neurone è realizzato mediante due amplificatori con funzione di trasferimento vi = ±γ(ui ) (2.15) con ui e vi rispettivamente ingresso e uscita i-esimi, e γ una funzione sigmoidale. Se ora andiamo a risolvere il circuito ci accorgiamo che è possibile scrivere, riassorbendo alcune costanti, e considerando i nodi resistivi come i pesi tra i neuroni: X dui = −ui + Wij vj (2.16) dt j 30 2 Le Reti Neurali ricorsive 2.3 Reti Neurali continue Figura 2.4: Rete di Hopfield continua realizzata mediante amplificatori operazionali dove i pesi Wij sono realizzati mediante i nodi resistivi rij del circuito e u0i è la configurazione iniziale. La 2.16 assieme alla 2.15 porta alla scrittura di un’equazione simile alla 2.3 X 1 Z vi 1X E=− γ −1 (x)dx (2.17) Wij vi vj + 2 ij R i 0 i dove Ri è la resistenza di ingresso del singolo stadio di amplificazione. Derivando rispetto al tempo si può dimostrare che questa funzione diminuisce con continuità (dE/dt ≤ 0) e tende al suo stato stabile, in cui dE/dt = 0 se dui /dt = 0. Consideriamo adesso la 2.12 e poniamo il campo esterno a zero (hi = 0); confrontandola con la 2.17 ci rendiamo subito conto che le due differiscono per il solo termine P legato alla R V resistenza di ingresso, che nel caso sia elevata rende trascurabile i 1/Ri 0 i γ −1 (x)dx. Prendendo poi γ(ui ) = 1 1 + e−βui ci riconduciamo alle equazioni di campo medio [42]. 31 2 Le Reti Neurali ricorsive 2.4 Ottimizzazione combinatoriale 2.4 Ottimizzazione combinatoriale In questo lavoro di tesi si vuole utilizzare un rete neurale per risolvere un problema di ottimizzazione. Infatti, come vedremo successivamente, il problema della ricostruzione delle tracce delle particelle in un rivelatore, è un tipico problema di ottimizzazione per la risoluzione del quale le reti di Hopfield sono strumenti particolarmente adatti. Prima di descrivere come funzioni l’algoritmo è necessario descrivere la natura del problema. Un problema di ottimizzazione combinatoriale [43] è descritto da un insieme X di configurazioni e da una funzione detta di “costo” (nel nostro caso la 2.3). La configurazione ottimale C̄ appartenente a X , per cui E(C̄) è un minimo è la soluzione del nostro problema. Possiamo dire che un algoritmo è risolutivo se, per ogni configurazione del sistema, giunge alla soluzione ottimale del problema calcolandone il costo. Solitamente valutare l’energia di una determinata configurazione è relativamente facile; il problema nasce dalla grandezza dell’insieme X che sarà legato al numero N di variabili che definiscono una configurazione C. Generalmente esistono due tipi di approccio per la risoluzione di problemi di ottimizzazione: la suddivisione in “sottoproblemi” disgiunti e l’approssimazione iterativa. Il primo permette l’applicazione di metodi potenti e talvolta deterministici se il problema è stato suddiviso in parti sufficientemente piccole; permette quindi di trovare, almeno nel “sottoproblema”, una soluzione ottimale. L’approssimazione iterativa, utilizzata in questo lavoro di tesi, consiste nell’applicare un’operazione standard di riarrangiamento microscopico delle variabili ad una qualsiasi configurazione del sistema. La configurazione cosı̀ ottenuta è la nuova configurazione iniziale che viene riaggiornata con la stessa procedura. Il processo continua fino a che nessun miglioramento, o diminuzione del costo, viene raggiunto. Nella sezione 2.5 verranno descritte due procedure iterative basate sulle reti di Hopfield. Prima di introdurre tali metodi consideriamo alcuni esempi noti in letteratura di problemi di ottimizzazione. 2.4.1 Albero Ricoprente Minimo L’albero ricoprente di un grafo3 , noto come Spanning Tree (ST), è l’insieme che contiene tutti gli archi necessari a connettere tra di loro i vertici con un solo cammino. Il percorso minimo è detto Albero Ricoprente Minimo, noto come Minimum Spanning Tree (MST). 3 Un grafo è un insieme di vertici connessi tra loro mediante archi, ovvero un grafo G = (V, E) dove V è l’insieme dei vertici e E l’insieme degli archi. 32 2 Le Reti Neurali ricorsive 2.4 Ottimizzazione combinatoriale Il problema ha diverse applicazioni, anche comuni. Supponiamo ad esempio di voler collegare una serie di calcolatori utilizzando meno cavo possibile. Possiamo considerare questo un problema di grafi, schematizzando i calcolatori come vertici e i collegamenti via cavo come archi. Dati N archi il numero di ST è N N −2 , che definisce anche la dimensione dello spazio delle configurazioni X . Si capisce subito che una tecnica esaustiva di ricerca non è fattibile, serve quindi una schematizzazione del problema e la ricerca di un algoritmo efficace. La funzione di “costo” in questo caso sarà la somma della lunghezza degli archi che collegano i vertici. h 1 a 2 1 g 5 14 2 4 10 5 c 5 i 3 13 b f 9 j e 17 6 16 1 a 13 12 h 2 1 5 14 g 9 2 i 3 10 5 d c 5 4 13 b f j e 17 13 12 6 16 d Figura 2.5: Esempio di grafo e il suo MST corrispondente Nell’esempio proposto in Figura 2.5 vi sono dieci vertici e diciotto archi, ognuno con il suo valore (o peso), con riportato accanto il MST corrispondente. Possiamo calcolare facilmente il valore della funzione costo che in questo caso sarà, per la soluzione ottimale, E = 32. Un algoritmo per il MST Dato un grafo G = (V, E), dove V è l’insieme dei vertici, U ⊂ V è un suo sottoinsieme, E è l’insieme di tutti gli archi, F ⊂ E un suo sottoinsieme, w : E → R+ è la funzione costo per cui, dato un certo arco e ∈ E, restituisce il suo peso, E è il costo totale e T è un l’albero ricoprente che sarà anch’esso un sottoinsieme di E. Un algoritmo capace di costruire l’albero ricoprente minimo è il seguente: 1. Sia U := {1}, T := ∅ e E = 0; 2. fino a che V\U = 6 {∅}: (a) F := {e = (i, j) ∈ E tale che i ∈ U, j ∈ V}; (b) trovo e∗ = (i∗ , j∗ ) := arg mine∈F {w(e)}; 33 2 Le Reti Neurali ricorsive 2.5 Risoluzione di problemi di ottimizzazione con metodi neurali (c) impongo U := U ∪ j∗ , T := T ∪ e∗ , E := E + w(e∗ ); 3. T è l’albero minimo ed E è il suo costo. Questo algoritmo è particolarmente efficiente e in N − 1 iterazioni porta alla soluzione, dove N = dim(E). 2.4.2 Il problema del Commesso Viaggiatore Dati N punti, con una distanza dij tra ogni coppia (1 ≤ i < j ≤ N ), il problema del Commesso Viaggiatore (noto anche come Travelling Salesman Problem o TSP) è quello di trovare il ciclo Hamiltoniano della lunghezza minore. Un ciclo Hamiltoniano in teoria dei grafi è un cammino che passa per tutti i vertici una e una sola volta. La complessità di questo problema è elevata in quanto il numero di possibili percorsi è (N − 1)!/2, che rende poco fattibile una soluzione esaustiva. Come nell’esempio precedente la funzione di “costo” sarà data dalla somma delle distanze tra i vertici. 2.5 Risoluzione di problemi di ottimizzazione con metodi neurali Come già anticipato nella sezione 2.2.1, è possibile utilizzare una rete di Hopfield per risolvere un problema di ottimizzazione. 2.5.1 Simulated-Annealing Questo metodo, introdotto da Kirkpatrick et al. nel 1983 [44], si basa sulla ricerca stocastica del minimo assoluto della funzione di costo in esame, scartando il più possibile quelli locali. L’approccio che si segue è quello descritto nella sezione 2.2.1: si ricerca il minimo locale attraverso l’algoritmo di Metropolis [45], di cui verrà data a breve una descrizione. Partendo da un certa temperatura (T 6= 0); una volta che si è trovato un minimo si abbassa la temperatura e si riparte con la ricerca del minimo di Metropolis. Questo processo si ripete fino a che non si giunge a T = 0 o ad una soluzione che si reputa accettabile. La temperatura è un parametro che viene inserito artificialmente e non ha alcun significato fisico. Si chiama temperatura in quanto questa procedura si ispira alla realizzazione in laboratorio di cristalli, dove si tende a raffreddare il più lentamente possibile il campione in modo da permettere una migliore cristallizzazione. 34 2 Le Reti Neurali ricorsive 2.5 Risoluzione di problemi di ottimizzazione con metodi neurali Algoritmo di Metropolis Quello che comunemente viene chiamato oggi algoritmo di Metropolis è in realtà una generalizzazione fatta da Hastings [46] dell’algoritmo originale. Supponiamo di aver inizializzato il sistema nello stato α a cui corrisponde un’energia Eα e di voler esplorare la transizione α → β che porta ad uno stato β selezionato a caso tra le configurazioni “vicine”. La transizione che viene eseguita si riferisce a spostamenti elementari, dove ad esempio cambia lo stato di un singolo neurone della rete, sono dette perciò configurazioni “vicine”. • Se Eα ≥ Eβ , la transizione α → β è accettata • Se Eα < Eβ , si estrae a caso un numero z ∈ [0, 1] – Se z ≤ e− Eβ −Eα T E −Eα − βT – Se z > e , la transizione α → β è accettata , la transizione α → β non è accettata. Possiamo notare semplicemente che se T = 0 vengono eseguiti solo gli spostamenti che portano verso il minimo più vicino. Matematicamente parlando se si considera la procedura di annealing, ovvero una variazione della temperatura nel tempo, l’algoritmo non è altro che una catena di Markov4 dipendente dal tempo. Se ogni configurazione ϕ del sistema è accessibile, ovvero è un sistema ergodico, si può dimostrare [46] grazie alle proprietà matematiche delle catene di Markov che un configurazione ϕ, a cui corrisponde un’energia Eϕ , può essere raggiunta con probabilità P (Eϕ ) = Ce− Eϕ T L’algoritmo ha una probabilità finita di convergere verso la soluzione migliore, il che rende il metodo affidabile. Questo implica però un grande impiego di tempo di calcolo, che porta (a seconda delle esigenze) a scegliere altri tipi di algoritmi. 2.5.2 Mean-Field Annealing Quando le esigenze per la risoluzione di un problema di ottimizzazione sono più rivolte alla tempistica che alla qualità delle soluzioni vengono utilizzati i cosiddetti algoritmi euristici. Questa classe di metodi si basano spesso su 4 Un processo stocastico si definisce di Markov se la probabilità di transizione da uno stato ad un altro dipende solo dalla configurazione di partenza e non dall’intera storia che ha portato a quello stato. Una catena di Markov è un processo markoviano con spazio degli stati discreti. 35 2 Le Reti Neurali ricorsive 2.6 La ricostruzione di tracce un’approssimazione che rende il calcolo degli stati, o la decisione del successivo stato da analizzare molto più semplice. Spesso si è costretti a ricorrere a questo tipo di procedure per problemi particolarmente complessi, appartenenti alla classe NP-completi 5 in termini di complessità dei problemi computazionali, come quello del commesso viaggiatore. Il Mean-Field Annealing [47] [48] è un metodo euristico: invece di simulare stocasticamente la distribuzione di Gibbs per un insieme statistico, si approssimano analiticamente (come descritto in 2.2.2) le grandezze termodinamiche che essa genera all’equilibrio. Le soluzioni ottenute saranno valide nel limite dell’approssimazione di campo medio, ma si otterranno con tempi estremamente più brevi rispetto all’algoritmo precedente. Il Mean-Field Annealing consiste nel ricercare la configurazione di minimo costo, partendo da un qualsiasi stato di non equilibrio, calcolando le soluzioni di campo medio del sistema, supponendo l’approssimazione valida. Le considerazione fatte per la temperatura nel caso del Simulated Annealing valgono anche per il Mean-Field Annealing , cioè per T 6= 0 sarà possibile per l’algoritmo uscire da un minimo locale. La dinamica con T = 0 si basa sulla 2.7 e convergerà al primo minimo che incontra. Questa procedura prende il nome di dinamica di Glauber a temperatura zero. Un’ultima considerazione sulla temperatura: questa grandezza non cerca di tenere conto di una qualche forma di rumore, il suo significato è semplicemente quello di un parametro di controllo in grado di guidare il sistema verso la configurazione finale. La descrizione accurata dell’algoritmo è descritta all’interno della sezione 2.7 in cui viene spiegata la dinamica con cui si può risolvere il problema di cui ci siamo occupati nella tesi. L’implementazione della dinamica è riportata nel capitolo 3. 2.6 La ricostruzione di tracce Negli esperimenti di fisica delle alte energie, la ricostruzione delle tracce, ovvero delle traiettorie delle particelle cariche all’interno degli apparati sperimentali, è di fondamentale importanza. Tali traiettorie infatti forniscono un’enorme quantità di informazioni sui processi fisici che si stanno studiando permettendo di risalire all’impulso delle particelle (utilizzando un campo magnetico), alla loro eventuale provenienza da un vertice primario o secondario e, spesso, alla loro identità. I rivelatori deputati alla ricostruzione delle tracce 5 I problemi di ottimizzazioni sono divisi in classi a seconda della loro determinazione in tempi polinomiali o meno. La classe NP-completi si riferisce ai problemi non deterministici in tempi polinomiali. 36 2 Le Reti Neurali ricorsive 2.6 La ricostruzione di tracce sono generalmente sistemi di sottorivelatori che comprendono un rivelatore di vertice e una serie di rivelatori traccianti. Questi rivelatori intercettano le particelle in vari strati, che possono essere superfici cilindriche (questa è la tipica struttura degli esperimenti ai collisori) o piani (struttura tipica degli esperimenti a bersaglio fisso) come nel caso di LHCb (vedi Capitolo 1), che forniscono una misura delle coordinate delle particelle lungo la loro traiettoria. L’informazione che perciò otteniamo da un sistema di tracciamento sarà un insieme di coordinate spaziali. Oltre ai segnali lasciati dalle particelle provenienti dall’interazione primaria, nei tracciatori ci saranno anche hit prodotti da particelle secondarie (ad esempio provenienti da interazioni delle particelle primarie con il materiale) o dal rumore elettronico. Il problema della ricostruzione delle tracce consiste quindi nel riuscire ad individuare gli hits prodotti dalle particelle di interesse nell’evento, e da questi ricostruire le traiettorie che esse hanno percorso nel rivelatore. L’ultimo passo del processo di ricostruzione delle tracce consiste nel descrivere ciascun insieme di punti con un modello geometrico, che può essere di volta in volta una retta, una circonferenza o un’elica o una curva più complessa, ottenuto in base all’equazione di moto della particella. Questa operazione viene fatta generalmente con un fit da cui si ricavano parametri fisici come ad esempio l’impulso. Un esempio di questo modo di procedere è mostrato in Figura 2.6. Le crocette nere rappresentano tutti gli hit registrati nel rivelatore di muoni di LHCb in un dato evento mentre le rette gialle rappresentano la possibile soluzione del problema di ricostruzione per questo evento, con le tracce di due muoni ricostruite e fittate con due rette. Benché la progettazione e la realizzazione di un metodo di ricostruzione siano estremamente dipendenti dal rivelatore per cui il sistema è ideato, il problema del riconoscimento delle tracce presenta molte caratteristiche generali che possono essere ritrovate in tutti i metodi. Infatti, in estrema sintesi, dato un insieme di misure in un rivelatore, il compito della ricostruzione delle tracce consiste nel suddividere tale insieme in classi tali che: • Ciascuna classe contenga le misure che potrebbero essere causate dalla stessa particella. • Una classe (possibilmente vuota) contenga tutte le misure che non possono essere associate ad una particella con sufficiente certezza (rumore, punti ambigui). Date queste caratteristiche generali, si può osservare che il problema della ricostruzione delle tracce è un tipico problema di ottimizzazione. Come si è detto, il riconoscimento di tracce consiste nel ricostruire una curva presumibilmente smussata a partire da un insieme di punti: una traccia costituita 37 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby da n punti può essere vista come un insieme di n − 1 segmenti consecutivi con angoli non troppo acuti e senza biforcazioni. In base a questa schematizzazione delle tracce, il problema può essere riformulato in termini di reti di Hopfield: ad ogni segmento orientato (ad esempio nel caso di LHCb si può scegliere il verso dell’asse z) che connette due elementi dell’insieme di punti su cui si effettua il riconoscimento si associa un neurone del tipo definito nel paragrafo 2.1. Se il neurone si trova nello stato 1, i due punti del segmento appartengono alla stessa traccia, mentre non appartengono alla stessa traccia se si trova nello stato 0. Ogni configurazione della rete dà quindi luogo ad una soluzione del problema del riconoscimento: le catene di neuroni consecutivi attivi sono le tracce riconosciute, i punti isolati sono il rumore. La soluzione ottimale viene raggiunta quando tutti i neuroni associati a segmenti di traccia “veri” sono accesi (stato 1), mentre tutti gli altri sono spenti (stato 0). In questo modo si è stabilita una corrispondenza fra il problema della ricostruzione di tracce e una rete neurale secondo quanto spiegato nel paragrafo 2.2. Per risolvere correttamente il problema del riconoscimento è, quindi, necessario definire i pesi di connessione dei neuroni in maniera tale che il minimo dell’energia della rete corrisponda alla soluzione ottimale, e, successivamente, mettere a punto una strategia di evoluzione dello stato della rete che assicuri il raggiungimento del minimo globale dell’energia. 2.7 Il metodo di Denby Il metodo utilizzato per la ricostruzione delle tracce, in particolare per la schematizzazione del problema, si basa sul metodo di Denby [49]. Prima di poter utilizzare i metodi neurali per risolvere il problema di ottimizzazione occorre schematizzarlo: una traccia, formata da n punti, nei quali il rivelatore ha registrato il passaggio della particella, può essere considerata una spezzata di n − 1 segmenti con alcune caratteristiche: • i segmenti consecutivi non variano molto come inclinazione, • i punti consecutivi di una traccia non sono distanti, • il numero delle biforcazioni è trascurabile o, meglio, nullo. Nel rivelatore di muoni perciò costruiremo i neuroni come segmenti orientati che collegano due hit appartenenti a due stazioni consecutive del rivelatore. Un neurone potrà essere nello stato “1”, se i due punti consecutivi a cui è associato appartengono alla stessa traccia, e “0” se invece non lo sono. Questa schematizzazione non è molto diversa da quella con cui abbiamo costruito la funzione di costo nei casi di problemi di ottimizzazione presi in 38 y (mm) 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby 4000 3000 2000 1000 0 -1000 -2000 -3000 12000 13000 14000 15000 16000 17000 18000 19000 z (mm) Figura 2.6: Esempio di problema di partenza: vista yz del rivelatore per muoni di LHCb e in giallo una sua possibile soluzione. esame nell’ambito della teoria dei grafi. Infatti se consideriamo gli hit come vertici i nostri neuroni sono gli archi che li uniscono tra di loro. Quindi come nel caso del problema del commesso viaggiatore dobbiamo assegnare un peso all’accoppiamento tra i neuroni (o grafi) in modo che la funzione energia associata sia minima quando soddisfa le condizioni elencate in precedenza. 2.7.1 L’algoritmo per la dinamica L’algoritmo utilizzato per implementare la dinamica della rete è il MeanField Annealing , già descritto nel paragrafo 2.5.2 di cui possiamo descrivere qui la strategia. Dato un sistema formato da N neuroni, il cui stato è rappresentato dalle variabili vi ∈ [0, 1] con i = 1, ..., N , l’algoritmo si sviluppa nel modo seguente: 1. Si inizializzano i neuroni vi con un valore casuale in un piccolo intorno 0 di 0.5 per ottenere il vettore di stato iniziale v 0 = (v10 , ..., vN ). 39 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby 2. Si calcola lo stato del sistema all’iterazione n con il campo medio (2.14), cioè 1 vin+1 = n 1 + e−βφi con β = 1/T inverso della temperatura e X φni = Wij vjn + Ti j essendo Wij i pesi e Ti il campo esterno, o soglie. 3. Se X i |vin+1 − vin | < δ allora si è raggiunto il minimo ricercato entro un certo δ fissato che funge da parametro di convergenza. Altrimenti si ripete dal punto 2. 4. Si abbassa la temperatura e si ripete dal punto 2 fino alla temperatura minima desiderata. Questa è la procedura di Mean-Field Annealing detta sincrona, in quanto tutti i neuroni sono aggiornati insieme, rispetto alla situazione precedente. Una dinamica più efficace nella convergenza è quella asincrona dove i neuroni non sono aggiornati tutti allo stesso tempo. È possibile schematizzarla come segue: 1. Si inizializzano i neuroni vi con un valore casuale in un piccolo intorno di 0.5 per ottenere il vettore di stato iniziale v = (v1 , ..., vN ). 2. Per i = 1, ..., N si calcola lo stato del singolo neurone vi con il campo medio (2.14), cioè 1 (2.18) vinew = 1 + e−βφi con X φi = Wij vj + Ti j dove per il calcolo di φi si utilizzano i valori vj più recenti. 3. Se X i |vinew − vi | < δ (2.19) allora si è raggiunto il minimo ricercato entro un certo δ fissato che funge da parametro di convergenza. Altrimenti si ripete dal punto 2. 40 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby 4. Si abbassa la temperatura e si ripete dal punto 2 fino alla temperatura minima desiderata. La dinamica asincrona permette di evitare problemi di convergenza, come ad esempio oscillazioni tra configurazioni alternative [38], che invece si manifestano nella procedura sincrona. In questo lavoro di tesi è stato utilizzato il Mean-Field Annealing asincrono. Nelle dinamiche prese in esame non sarà considerato il termine di campo esterno (Ti ) in quanto non necessario o comunque riconducibile al comportamento di un ulteriore neurone connesso a tutti gli altri con un peso costante. Inoltre il campo esterno non è necessario, in quanto stiamo considerando lo stato dei neuroni come σ ≡ (1; 0); diverso è il caso in cui si utilizzino stati tipo spin cioè S ≡ (+1; −1)): in questo caso data la natura simmetrica degli accoppiamenti e degli stati la rete (o il sistema) potrebbe convergere a due soluzioni esatte ma completamente opposte. 2.7.2 La scelta dei pesi Ricordando la definizione dell’energia 2.3, quello che dobbiamo fare, dopo aver posto nullo il campo esterno T , è definire la matrice W : • Facendo riferimento alla Figura 2.7 se prendiamo due neuroni, costruiti con i punti (A, B) e (C, D), diremo che sono consecutivi quando vale B ≡ C o D ≡ A. A due neuroni i e j consecutivi è associato un peso Mij : (1 − sin(θij ))λ M (i, j) = (2.20) li + lj dove θij è l’angolo tra i neuroni i e j come riportato in Figura, li e lj sono le lunghezze dei neuroni. L’esponente λ è un numero intero, solitamente grande, il cui valore è determinato da una sorta di addestramento6 . La componente del peso dovuta all’angolo formato dai neuroni assume valori nell’insieme [0, 1], a seconda che siano perfettamente allineati (1) o perpendicolari (0). Consideriamo adesso la seguente matrice che si riferisce ai neuroni iesimo e j-esimo, i quali sono formati dai punti AB e CD rispettivamente (come in Figura 2.7): Pij = P ABCD = δ BC (1 − δ AC ) + δ AD (1 − δ BD ) 6 In realtà non si può parlare di addestramento in quanto vengono utilizzate le reti neurali per risolvere un problema di ottimizzazione e non come memorie associative. 41 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby Dove δ XY è la delta di Kronecker tra gli hit X e Y . Se i due neuroni sono consecutivi, considerando sempre le code dei neuroni come A e C e le teste B e D, l’elemento di matrice vale 1, vale 0 altrimenti. Questa matrice se moltiplicata per la funzione peso M (i, j) assicura che solo due neuroni consecutivi possiedano un peso diverso da zero. Accoppiamento “testa-testa” θij j i A B≡C j C A C j Accoppiamento “coda-coda” B θij A≡C i B B≡D i D i j D≡A D Figura 2.7: Possibili connessioni tra i neuroni. • Se prendiamo due neuroni, costruiti con i punti (A, B) e (C, D), diremo che non sono consecutivi ma comunque collegati quando vale B ≡ D o A ≡ C. In questo caso abbiamo una biforcazione che deve essere inibita. Verrà quindi attribuito un accoppiamento negativo tra i neuroni i e j in esame. Questo è il termine detto vincolo e la matrice Cij associata è data da: Cij ≡ C ABCD = δ AC (1 − δ BD ) + δ BD (1 − δ AC ) 42 (2.21) 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby L’elemento di matrice ij associato a due neuroni consecutivi sarà quindi zero, come quello tra due che non hanno punti in comune; tra due neuroni non consecutivi ma collegati tramite un hit avremo un accoppiamento negativo dato da una costante e questo tenderà ad inibire la biforcazione. • L’ultimo termine da aggiungere alla funzione energia non è un peso tra due neuroni ma un termine vincolare, della forma !2 X (2.22) vj − Na D= j dove Na è il numero di neuroni attivi attesi alla fine dell’evoluzione della rete. Questo termine ha sia funzione inibitoria che eccitatoria, poiché il contributo all’energia del sistema che da esso si ottiene cambia di segno se in una certa configurazione finale il numero di neuroni ottenuti supera o è al di sotto del valore atteso. Nell’applicazione qui descritta il termine D serve ad evitare che entrambi i neuroni di una biforcazione si spengano. Per questo motivo il parametro Na non sarà esattamente il numero di neuroni attesi (che peraltro non è noto) ma dovrà essere scelto empiricamente. Ad esempio Hopfield nell’applicazione della dinamica neurale al problema del commesso viaggiatore sceglie Na maggiore del 50% rispetto al numero desiderato di neuroni attivati. 2.7.3 La funzione di costo Costruiamo adesso la funzione di costo da minimizzare: ( ) 1 X hEi = − [KM Pij M (i, j) − KC Cij ]vi vj − KD D 2 ij (2.23) dove KX rappresenta la costante relativa al peso X. Queste costanti saranno scelte empiricamente, basandosi solo su considerazioni specifiche relative alla particolare applicazione. Per i motivi che sono già stati spiegati la dinamica scelta per risoluzione del problema è il Mean Field Annealing, per cui il campo medio prodotto dal sistema in una determinata configurazione sarà dato da ! X X X vj − Na φi = KM Pij M (i, j)vj − KC Cij vj − KD j j j con cui aggiorneremo lo stato del neurone i-esimo mediante la 2.18. 43 2 Le Reti Neurali ricorsive 2.7 Il metodo di Denby 44 Capitolo 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb Il metodo di Denby descritto nel Capitolo precedente è stato applicato alla ricostruzione di tracce dell’esperimento Aleph [50], dell’esperimento L3 [35] ed esistono anche studi sul loro utilizzo per CMS [42]. Alcuni studi più recenti sono stati fatti per l’esperimento ALICE [51] e l’esperimento LHCb [52]. Tuttavia questo metodo ha riscontrato più di un problema e rispetto ai primi studi è passato in secondo piano. Buona parte di questi esperimenti sono costruiti in simmetria cilindrica attorno al punto di interazione e la regione contenente il sistema di tracciamento è immersa in un campo magnetico: di conseguenza le tracce che devono essere ricostruite sono eliche. Il metodo di Denby si basa su un accoppiamento locale dei neuroni e non tiene quindi conto dell’informazione globale della traccia, come ad esempio la curvatura. In questo ambito si inserisce il lavoro di descritto in [53] che introduce un metodo per la costruzione di neuroni formati da tre punti (con cui è possibile costruire nello spazio un’elica) e calcola gli accoppiamenti tra di essi confrontando i parametri caratteristici dell’elica corrispondente. Nel caso dell’esperimento LHCb, ed in particolare per il rivelatore di muoni, questo problema non si pone in quanto le tracce sono rettilinee, tralasciando per il momento gli effetti dovuti allo scattering multiplo. In questo Capitolo descriveremo in dettaglio l’applicazione di una rete di Hopfield alla ricostruzione di tracce nel rivelatore di muoni di LHCb. Le tracce ricostruite, opportunamente raccordate con le tracce ricostruite nel tracciatore, saranno utilizzate per l’identificazione dei muoni come descritto successivamente nel Capitolo 4. Verrà in particolare utilizzata una variante del metodo di Denby, adattata alle caratteristiche del rivelatore di muoni di LHCb. 45 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.1 La costruzione dei neuroni 3.1 La costruzione dei neuroni Come descritto nel paragrafo 2.7, possiamo costruire i neuroni della rete unendo tra loro coppie di hit registrati dal rivelatore di Muoni. Gli hit saranno necessariamente su stazioni diverse. Gli hit della stazione M1 tuttavia necessitano di un trattamento particolare. La stazione M1 si trova a monte dei calorimetri ed è perciò investita da un flusso di particelle estremamente più elevato di quello a cui sono sottoposte le stazioni M2-M5. L’occupazione media (=numero medio di hit per evento) di M1 è inoltre accresciuta da tutte le particelle che ritornano indietro dopo aver interagito nel calorimetro (backsplash). È perciò molto difficile abbinare con sicurezza ad una traccia proveniente dal vertice di interazione un hit in M1 ed è per questo motivo che l’algoritmo standard di identificazione dei muoni utilizzato in LHCb non utilizza questa stazione (vedi paragrafo 1.4). In questo lavoro di Tesi vogliamo perciò tentare un approccio alternativo che permetta di utilizzare proficuamente anche la stazione M1 per tentare di abbinare con maggiore sicurezza le tracce ricostruite nel tracciatore agli hit rilasciati dai muoni nel rivelatore per muoni e tentare di migliorare l’efficienza di identificazione ai bassi impulsi (vedi Tabella 1.3). Nella ricostruzione qui descritta, utilizziamo le tracce ricostruite nel tracciatore (con un algoritmo di Kalman Filtering [54]) raccordandole con gli hit nel rivelatore di muoni. Le tracce utilizzate sono tracce che attraversano tutto il tracciatore (tracce long nella definizione di LHCb) fino alla stazione T3. Per raccordarle al rivelatore di muoni si estrapolano tali tracce fino alla stazione M1 assumendo una traiettoria rettilinea. Si cercano poi hit in M1 in un intorno del punto di estrapolazione di dimensioni pari a 1.5(∆x × ∆y), dove ∆x e ∆y sono le dimensioni delle pad di lettura di M1 (vedi Tabella 1.1). In questo modo si tiene conto del piccolo contributo di scattering multiplo dovuto al materiale del RICH2 e dell’incertezza nell’estrapolazione. Una volta identificato l’ hit in M1 possiamo costruire il neurone corrispondente collegando l’hit in T3 a quello in M1. Questo metodo é illustrato schematicamente in Figura 3.2. Lo stato di partenza sará quindi composto da tutti i neuroni che collegano le tracce ricostruite nel tracciatore ad M1 col metodo appena descritto e da tutti i neuroni ottenuti collegando hit di stazioni successive nel rivelatore di muoni. 3.2 La selezione dei neuroni Il metodo appena descritto, tuttavia, presenta un problema non trascurabile, rappresentato dall’enorme numero di neuroni che si costruiscono. Infatti la nostra analisi parte da un numero di punti N relativi agli hit misurati nel 46 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.2 La selezione dei neuroni rivelatore, se ad ogni coppia di questi associassimo un neurone otterremmo N N 2 ∼ N 3 connessioni ∼ N neuroni ⇒ 3 2 Questi numeri diventano velocemente molto grandi: considerando ad esempio che in un evento di LHCb si possono avere oltre 103 hit, servirebbero 106 neuroni e 109 connessioni. Se torniamo sulla dinamica del sistema ci accorgiamo che dovremmo appunto calcolare un milione di stati ed ogni calcolo sarebbe su un miliardo di variabili. Questo è possibile ma oltre ad essere poco pratico è anche inutile. Possiamo infatti fare uso di alcune considerazioni geometriche e fisiche per limitare il numero dei neuroni da generare ad un numero che cresce circa linearmente con il numero N di punti. Il primo vincolo è dato dalla forma del rivelatore: un neurone sarà creato solo con due punti che appartengono a due stazioni diverse del rivelatore, come abbiamo detto nel paragrafo precedente. Un secondo vincolo proviene dal fatto che le tracce dei muoni provengono dal vertice primario di inversione e devono essere contenute nell’accettanza del rivelatore. In particolare, le estrapolazioni delle tracce da T3 (x1 , y1 ) su M1 devono superare queste condizioni1 : • x1 < 3800 mm • y1 < 3200 mm • x1 > 100 mm • x1 > 240 mm oppure y1 > 200 mm Questi valori sono dati dalla configurazione geometrica del rivelatore e possono essere determinati anche con una semplice analisi: se infatti utilizziamo le estrapolazioni (x1 , y1 ) su M1 e verifichiamo che in un intorno sufficientemente grande non vi siano hit, possiamo usare questo conteggio per riempire un istogramma come quello di Figura 3.1 e scartare le zone con più eventi. Un altro vincolo di tipo geometrico è il seguente: con gli hit delle stazioni successive a M1 saranno costruiti solo i neuroni che formano un angolo sufficientemente piccolo con il neurone precedente. Se guardiamo ancora le configurazioni di neuroni consecutivi riportati in Figura 2.7, partendo da un 1 I valori sulle stazioni successive sono scalati in base al rapporto zM i /zM 1 , con zM i la coordinata z della stazione i-esima. 47 y (mm) 4000 3000 120 2000 100 1000 80 Eventi / (24 mm x 24 mm) 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.2 La selezione dei neuroni 0 60 -1000 40 -2000 20 -3000 -4000 -6000 -4000 -2000 0 2000 4000 0 6000 x (mm) Figura 3.1: Distribuzione sul piano xy di M1 delle estrapolazioni (x1 , y1 ) da T3 nei quali intorni non siano presenti hit. neurone formato dagli hit A e B, il neurone che arriva in D sarà creato solo se l’angolo θij è minore di un fissato parametro che dipende dalla stazione. Per ridurre ulteriormente il numero dei neuroni vengono imposte delle condizioni aggiuntive sulle tracce ricostruite nel tracciatore, verranno considerate solo quelle il cui fit lineare abbia un χ2 ridotto2 minore di 4. Inoltre le tracce che arrivano al rivelatore di muoni devono appartenere a particelle con le seguenti caratteristiche fisiche: • p > 3 GeV /c • pT > 0.8 GeV /c L’oggetto informatico neurone conterrà oltre alle informazioni geometriche dei due punti che lo compongono anche i dati relativi alle sue altre caratteristiche come: la lista dei neuroni collegati a se stesso, la stazione e la regione del rivelatore di muoni, lo stato in cui trova e, nel caso del primo neurone, il numero di traccia a cui è collegato. 2 il χ2 ridotto è definito come χ2 /nDoF dove nDoF sono i gradi di libertà del fit o Number of Degrees of Freedom. 48 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.2 La selezione dei neuroni hit buono hit non buono Fascio hit buono RICH2 ECAL T3 M1 Figura 3.2: Esempio di neuroni tra T3 e M1 con esclusione degli hit non interessanti. 3.2.1 La determinazione dei pesi La scelta dei pesi è cruciale per una rete neurale, in essi infatti risiede la schematizzazione del problema fisico. Per ricostruire le tracce dei muoni nel rivelatore è necessario comprendere che tipo di traiettoria percorreranno in esso. Data la mancanza del campo magnetico nel rivelatore le particelle non subiranno una deflessione, l’unico effetto che modificherà le traiettorie sarà lo scattering multiplo. Questo è molto influente, infatti tra le stazioni del rivelatore sono presenti 80 cm di ferro. Questi strati massicci servono a bloccare tutte le particelle tranne i muoni a cui siamo interessati. La traiettoria che ricostruiremo sarà quindi una spezzata di segmenti. La deflessione media causata dallo scattering multiplo è comunque nulla quindi supporremo un accoppiamento perfetto tra due neuroni come quello ad angolo zero. Se riprendiamo ora la formula per i pesi 2.20 è possibile eseguire alcuni accorgimenti per migliorarla. Definiamo perciò la nostra funzione peso 49 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.2 La selezione dei neuroni xz λ λyz M1 M2 M3 M4 190 96 49 25 220 112 54 27 Tabella 3.1: Stima dei coefficienti λ. I valori sono espressi in funzione della stazione del rivelatore, ad esempio M2 si riferisce alle λ degli accoppiamenti tra i neuroni costruiti tra M1 e M2 e quelli costruiti tra M2 e M3. come: xz yz yz λ xz λ M (i, j) = (1 − sin(θij )) · (1 − sin(θij )) (3.1) yz xz dove θij e θij sono definiti come in Figura 2.7. La dipendenza dalla lunghezza dei segmenti è stata eliminata perché si sono creati i soli neuroni che uniscono due stazione consecutive e queste sono tutte equidistanti. Anche se le stazioni T3 M1 e M2 non sono equidistanti i neuroni avranno comunque una lunghezza prefissata e quindi si preferisce eliminare questa dipendenza. Le costanti λxz e λyz possono essere stimate mediante un’analisi a priori. Il metodo che si usa è quello di analizzare dati provenienti da una simulazione Monte Carlo di eventi contenenti muoni. In particolare, utilizziamo eventi simulati nei quali si abbia almeno una J/ψ che decade in due muoni per ogni collisione protone-protone, con entrambi i muoni nell’accettanza di LHCb. Note le tracce rilasciate da muoni provenienti da decadimenti delle J/ψ è possibile dividerle in neuroni, dello stesso tipo e con lo stesso procedimento descritto in precedenza. Una volta che si hanno solo i neuroni che vorremmo yz xz trovare con la nostra analisi, si calcolano gli angoli θij e θij tra i neuroni connessi e si riporta tutto in un istogramma. Se ora eseguiamo un fit ai minimi quadrati tra il grafico e la funzione peso 3.1 è possibile determinare λxz e λyz come parametri del fit. Questa procedura è stata eseguita per ogni stazione della camera per muoni; per quanto riguarda l’accoppiamento dei neuroni tra il tracciatore e la stazione M1 i coefficienti sono stati stimati in modo empirico in modo da tenere conto della maggiore risoluzione spaziale dei rivelatori in M1 ma anche dello scattering multiplo tra M1 e M2. Analizzando 2000 eventi simulati sono stati ottenuti i valori riportati nella Tabella 3.1. Per quanto riguarda l’accoppiamento tra neuroni connessi ma non consecutivi parleremo di accoppiamenti “testa-testa” o “coda-coda”. In questo caso è stato scelto un valore costante KC per determinare il peso di entrambi i tipi di connessioni da inibire. La matrice C definita in 2.21 assieme alla 50 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.2 La selezione dei neuroni yz Distribuzione θxz e θ su M2 yz Distribuzione θxz e θ su M2 Eventi/(0.0043 rad x 0.014 rad) Entries Mean x Mean y RMS x RMS y χ2 / ndf λxz yz λ γ 2000 1800 1600 1400 1200 1000 800 600 400 200 0 0 8842 0.01144 0.019 0.01234 0.02735 1560 / 199 96.23 ± 1.518 119.6 ± 2.603 5939 ± 155.9 0 0.02 0.02 0.04 0.06 0.08 0.04 0.1 θ yz (r ad) 0.12 0.14 0.16 0.18 0.2 0.12 0.06 0.08 d) xz (ra 0.1 θ Figura 3.3: Distribuzione degli angoli θxz e θyz tra neuroni di muoni da J/ψ sulla stazione M2. costante KC identifica i pesi degli accoppiamenti tra neuroni connessi ma non consecutivi. e definita come: Tramite la matrice C è possibile definire anche la matrice C eij = Cij + δij C (3.2) che serve per riscrivere il termine vincolare D D= X X i j eij vj − Na C !2 Come già accennato nel Capitolo precedente questo termine può fungere sia da inibitore che da stimolatore, infatti è stato introdotto affinché possa contrastare solo quando necessario il termine vincolare C. Un termine vincolare è necessario perché abbiamo bisogno di un metodo per scartare le soluzioni in grado di minimizzare l’energia ma che risultano non idonee: la traccia di una particella non si dovrebbe biforcare, né due tracce dovrebbero 51 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.3 L’implementazione del Mean-Field Annealing unirsi in una. Il problema di questo termine è che tende a spegnere troppi neuroni. Il termine di vincolo D serve proprio ad evitare che un gruppo di neuroni in una biforcazione sia tutto spento, mentre vogliamo che uno solo di questi rimanga attivo. Se calcoliamo la derivata del termine D per valutare il campo medio otteniamo ∂D X e ∝ Cij vj − Na ∂vi j Se Na = 1 la derivata cambia di segno a seconda alcuni neuroni accesi siano o meno collegati al neuroni i-esimo realizzando cosı̀ l’effetto desiderato. In realtà Na non è stato scelto 1 ma è stato determinato empiricamente, come vedremo in seguito. Possiamo infine scrivere la funzione di costo che la dinamica della rete deve minimizzare: ( ) X 1 hEi = − [KM Pij M (i, j) − KC Cij ]vi vj − KD D (3.3) 2 ij 3.3 L’implementazione del Mean-Field Annealing Creati i neuroni come descritto nella sezione precedente si procede all’inizializzazione: lo stato di ogni neurone (vi ∈ [0, 1] con i = 1, ..., N e N è numero totale dei neuroni) viene scelto casualmente in un intorno piccolo di 0.5. L’implementazione dell’algoritmo è relativamente semplice. Il codice è sostanzialmente formato da un ciclo che scorre tutti i neuroni memorizzati in un vettore, per ogni neurone viene quindi calcolato il campo medio mediante la seguente formulazione X ∂hEi X = KM Pij M (i, j)vj − (KC +KD )Cij vj −KD (vi −Na ) (3.4) φi = ∂vi j j P e P dove si è usato il fatto che j C ij vj = vi + j Cij vj . Ogni neurone contiene una lista dove sono memorizzati i neuroni ad esso collegati e il relativo peso, cosicché è immediato calcolare il campo medio. Utilizzando la formula 2.18 vengono aggiornati gli stati dei neuroni fino a che non viene verificato il criterio di convergenza 2.19. Una volta raggiunta la convergenza il ciclo viene ripetuto ad una temperatura più bassa partendo dagli stati calcolati fino a quel momento; raggiunta la temperatura minima prestabilita, la configurazione ottenuta dalla convergenza è quella definitiva. 52 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb Processor Number Numbers of Cores Numbers of Threads Clock Speed 3.4 La parallelizzazione del Mean-Field Annealing Intel Xeon Processor Intel Core i7 E5345 870 4 4 4 8 2.33 GHz 2.93 GHz Tabella 3.2: Caratteristiche tecniche del Intel Xeon Processor e del Intel Core i7. 3.4 La parallelizzazione del Mean-Field Annealing Riprendiamo adesso le definizioni date nel Capitolo 2 dove si sono enunciate le proprietà delle reti neurali biologiche. Uno degli aspetti più affascinanti del comportamento del cervello animale è il suo funzionamento parallelo. Tutti i neuroni si evolvono assieme al fine di fornire i giusti stimoli per eseguire la mansione desiderata. Questo è profondamente diverso come principio da quello a cui siamo abituati in processore seriale, dove ogni operazione viene eseguita singolarmente. Se ora ragioniamo a proposito della legge di aggiornamento di un sistema magnetico di spin ci possiamo rendere conto di come un processamento seriale non sia la miglior schematizzazione del problema ma sarebbe preferibile infatti che gli spin evolvano tutti insieme al fine di ricercare la condizione di equilibrio. Parallelizzare la nostra dinamica neurale porterà quindi ad avere dei vantaggi. Infatti oltre a rendere la dinamica artificiale più simile a quella naturale, la parallelizzazione porta anche a una riduzione dei tempi di esecuzione dell’evoluzione della rete neurale. La parallelizzazione è stata possibile grazie all’utilizzo della tecnologia multi-core di cui sono dotati i processori moderni, in particolare il calcolatore che è stato utilizzato per l’analisi è dotato di due Intel Xeon Processor con le caratteristiche elencate in Tabella 3.23 . Utilizzando questo calcolatore è possibile lanciare fino a otto threads, quattro per processore. La dinamica viene parallelizzata al momento del calcolo dello stato dei neuroni. A questo punto, infatti, per ogni neurone viene calcolato il campo medio che agisce su di esso attraverso la legge di aggiornamento già descritta. Ogni neurone viene analizzato sfruttando un thread diverso del processore 3 La Tabella riporta anche le caratteristiche di un secondo processore, un Intel Core i7 che è stato utilizzato per l’analisi a singolo processo: il confronto tra le due dinamiche sarà riportato in seguito. 53 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.5 La costruzione delle tracce fino a che è possibile creare nuovi processi. Ogni volta che uno di essi si conclude ne viene lanciato uno nuovo relativo ad un altro neurone. Vengono cosı̀ analizzati fino a otto neuroni in parallelo. Inoltre non tutti i processi impiegano lo stesso tempo ad esaurirsi cosicché i neuroni sono analizzati in modo asincrono; questo implica lo sviluppo di una dinamica parallela e caotica (all’apparenza) che dovrebbe essere in grado di evitare minimi locali in modo migliore di una dinamica ordinata e seriale. Il motivo è quello già spiegato: ispirarsi ai processi naturali anche nello sviluppo della dinamica e non solo nella schematizzazione del problema. La parallelizzazione offre inoltre un altro vantaggio: se si utilizzano tutti i core di un processore è possibile ridurre la tempistica di un calcolo iterativo come questo fino ad un fattore dato idealmente dal numero dei core stessi. Nel nostro caso il fattore può arrivare a otto, anche se in realtà la creazione e la gestione dei thread occupano parte delle risorse del processore. Nella sezione dedicata all’analisi dei risultati verrà discusso anche quest’aspetto. L’implementazione della parallelizzazione è stata possibile grazie all’utilizzo dell’interfaccia di programmazione OpenMP [55]. Sono state prese in considerazione anche applicazioni alternative all’OpenMP come ad esempio la libreria pthread dello standard POSIX e la classe TThread del pacchetto ROOT. Tuttavia questi software, pur offrendo una maggiore flessibilità nella costruzione dei thread rendono eccessivamente laboriosa la sincronizzazione dei processi. 3.5 La costruzione delle tracce Una volta che si è conclusa la dinamica neurale il programma prosegue con la costruzione delle tracce, utilizzando i neuroni che sono rimasti attivati, ovvero quei neuroni il cui stato v è maggiore di 0.5. Gli hit dei neuroni attivi collegati tra di loro formano le tracce. Nonostante le accortezze usate nella definizione dei pesi, alla fine dell’evoluzione della rete, capita che siano presenti biforcazioni residue. Ciò avviene principalmente quando una particella produce più hit contigui (o, come si usa dire, un cluster di hit ) a causa del cross-talk tra pad di lettura vicine. In tal caso le coordinate degli hit connessi alle tracce biforcate vengono mediate tra di loro. Nel seguito considereremo solo le tracce che partono dal tracciatore centrale (T3) e arrivano almeno a M2. Queste tracce da ora in poi saranno considerate tracce di muoni (o Muon Tracks MT). Sulle proiezioni sui piani xz e yz di questi gruppi di segmenti vengono eseguiti fit lineari con due ret54 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.6 Ottimizzazione dei parametri della rete te, che rappresentano la miglior stima della traccia delle particelle che hanno attraversato (almeno in parte) il rivelatore di muoni. Per le tracce (MT) ricostruite vengono memorizzate le coordinate degli hit che le compongo, il risultato del fit e il numero di traccia nel tracciatore centrale a cui sono collegate. 3.6 Ottimizzazione dei parametri della rete Come abbiamo visto nei paragrafi precedenti il funzionamento della rete neurale dipende da alcuni parametri, ognuno inserito per favorire o meno le diverse configurazioni geometriche. Riprendiamo ora la formula utilizzata per il calcolo del campo medio, l’equazione 3.4. I parametri empirici che devono essere stimati sono i seguenti: • KM , moltiplicato per il fattore geometrico fornisce il peso del collegamento; • KC , inibitore dei collegamenti non consecutivi; • Na , la sua differenza con lo stato del neurone, moltiplicata per KD fornisce uno stimolatore o un inibitore del collegamento; La scelta di questi parametri si ottiene con un processo di ottimizzazione. Infatti scegliendo ad esempio KM troppo elevato si rischia di creare troppe MT che non corrispondono effettivamente a muoni mentre aumentare KC creerebbe invece il problema opposto. Abbiamo bisogno quindi di un sistema per misurare la qualità delle tracce MT che vengono create. Il metodo adottato si basa sulla simulazione Monte Carlo. La prima analisi con queste Reti Neurali infatti è stata eseguita non su dati veri ma su dati provenienti da una simulazione; questo ci permette di sfruttare la cosiddetta “verità Monte Carlo”. Di ogni hit infatti sono noti il numero identificativo (Particle IDentification number o PID) che contraddistingue il tipo di particella che lo ha prodotto e della “madre”, cioè la particella che l’ha generata. Definiremo quindi nel successivo Capitolo due variabili, l’efficienza di identificazione e la probabilità di misidentificazione, che ci permetteranno di stimare in modo quantitativo i valori ottimali dei parametri della rete. 3.7 Prestazioni della rete In questa sezione verranno descritte le prestazioni della rete neurale dal punto di vista computazionale. 55 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.7 Prestazioni della rete In Figura 3.4(a) è riportata la distribuzione del numero di hit per evento. Non tutti questi punti vengono in realtà utilizzati per creare neuroni, a causa della selezione descritta nel paragrafo 3.2. In Figura 3.4(b) è riportata invece la distribuzione del numero di neuroni. Se ora esprimiamo il numero di neuroni rispetto al numero di hit nel rivelatore di muoni e in T3 otteniamo il grafico riportato in Figura 3.6. Grazie alla selezione applicata nella loro costruzione il numero di neuroni cresce molto più lentamente in funzione del numero di hit rispetto all’andamento quadratico atteso applicando in modo acritico il metodo di Denby. Parlando di dinamica neurale sono importanti due grandezze di cui adesso andremo a discutere: il numero di iterazioni in cui converge la rete e il tempo di CPU4 impiegato a compiere tali iterazioni. Il numero di iterazioni dipende sostanzialmente dal numero di neuroni creati e dal numero di collegamenti tra di essi. In Figura 3.4(c) è riportata la distribuzione del numero di iterazioni, mentre in 3.4(d) è mostrata la dipendenza del numero di iterazioni dal numero totale di collegamenti neurali. Possiamo notare come il numero delle iterazioni inizialmente cresca con la quantità di collegamenti per poi stabilizzarsi e diventare sostanzialmente indipendente da esso. Le distribuzioni dei tempi necessari a completare la dinamica MFA5 sono riportati nelle Figure 3.4(e) e 3.4(f) per il processore su cui sono state effettuate le analisi, sfruttando in un caso la parallelizzazione e nell’altro no. Come potevamo aspettarci lavorando su processi paralleli il tempo necessario per raggiungere la convergenza della rete diminuisce: si passa infatti dai 44.59 ms ai 12.85 ms di media, guadagnando quindi un di un fattore 4. Questo è stato possibile lavorando su 7 threads invece che su uno sulla stessa macchina. Abbiamo effettuato anche un test con singolo processore su una macchina più performante, il processore Intel Core i7 dove otteniamo un tempo medio di convergenza di circa 29.55 ms. I risultati sono riassunti nella Tabella 3.3. È interessante notare come la dispersione dei valori (RMS o Root Mean Square) sia notevolmente minore nel caso di dinamica parallela, ovvero, l’evoluzione impiega meno tempo a convergere e i tempi di processamento tendono ad essere più simili tra di loro. L’utilizzo di questo sistema di ricostruzione all’interno del trigger dell’esperimento (vedi 1.2.7) richiederebbe proprio le caratteristiche sui tempi di processamento relative alla dinamica parallela: tempi minori possibili e distribuiti con poca dispersione. Sono riportati in grafico anche gli andamenti dei tempi di esecuzione 4 Con tempo di CPU si intende qui il tempo che processore dedica al solo processo lanciato dell’utente, escludendo eventuali tempi morti dovuti al mantenimento del sistema. 5 Mean Field Annealing 56 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.7 Prestazioni della rete Tempo di convergenza dinamica MFA (ms) RMS (ms) Intel Xeon Processor single-thread Intel Xeon Processor multi-thread Intel Core i7 single-thread 44.59 209.6 12.85 72.3 29.55 152.4 Tabella 3.3: Tempi di convergenza della dinamica MFA. in funzione del numero di neuroni (Figura 3.7) e del numero di collegamenti tra di essi (Figura 3.8). Nel primo caso il grafico è stato sovrapposto con la distribuzione dei neuroni (fucsia), nel secondo sul grafico è stato eseguito un fit lineare con una retta di equazione y = mx + q, con m = 1.62 µs/(# collegamenti). Questo andamento lineare è molto interessante, di nuovo, dal punto di vista dell’applicazione del nostro metodo ad un eventuale trigger di muoni. Infatti ci permette di prevedere con buona precisione il tempo di ricostruzione di un evento in base al numero di collegamenti tra i neuroni ed eventualmente di interrompere a priori l’analisi se il tempo previsto supera la latenza massima permessa per il trigger. Conclusa la dinamica neurale è possibile analizzare le tracce ottenute. Nelle figure 3.9 e 3.10 è riportata la ricostruzione di un evento, gli hit, i neuroni, attivi e quelli spenti e le tracce costruite con essi. In Figura 3.5(a) è riportata invece la distribuzione del numero di tracce per evento. Come si può vedere nella maggior parte delle ricostruzioni sono presenti meno di sette tracce. Nel prossimo Capitolo sarà spiegata la composizione di tali tracce, riportando quante di queste siano effettivamente muoni e quante no. Dal grafico di Figura 3.5(b) è possibile notare che le tracce formate da tre hit sono più numerose di quelle formate da quattro o cinque hit. Questo perché le tracce composte da tre hit arrivano solo alla stazione M2 del rivelatore ed è ancora sufficientemente probabile che siano tracce rilasciate da particelle diverse da muoni. Le tracce costituite da quattro o cinque hit hanno invece una buona probabilità di appartenere a muoni. Tuttavia esse sono presenti in numero minore rispetto a quelle costituire da sei hit per due motivi. Il primo è dovuto al fatto che è il diminuire del numero di neuroni consecutivi (composti dagli hit della traccia) sfavorisce l’attivazione degli stessi rendendo la ricostruzione più difficoltosa. Inoltre meno hit compongono una traccia 57 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.7 Prestazioni della rete e minore è il suo impulso, ovvero l’effetto di deflessione dovuto allo scatting multiplo aumenta con conseguente peggioramento dei pesi. Il secondo motivo è dato dalla distribuzione sull’intervallo di impulsi delle particelle: infatti solo un numero limitato di muoni hanno un impulso tale da superare M3 senza raggiungere M5 (come già descritto nel paragrafo 1.4). Nel prossimo Capitolo sarà riproposta questa distribuzione discriminando però tra i casi in cui la traccia sia o meno di un muone. 58 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb Eventi / 10 Hits Eventi / 5 Neuroni 3.7 Prestazioni della rete 104 103 103 102 102 10 10 1 0 500 1000 1 0 1500 Hits 2000 4000 6000 8000 10000 Neuroni (a) Distribuzione del numero di hit per (b) Distribuzione del numero di neuroni evento. per evento. Eventi / 5 Iterazioni Iterazioni 104 103 60 50 40 102 30 10 20 100 200 300 Eventi / 10 ms (c) Distribuzione del numero di iterazioni per evento. h101 Entries 45000 Mean 44.59 209.6 RMS 4 10 10 0 400 500 Iterazioni 103 2000 3000 4000 5000 Collegamenti tra neuroni (d) Numero di iterazioni in funzione del numero di collegamenti. h101 Entries 45000 Mean 12.85 72.32 RMS 104 103 102 102 10 10 1 0 1000 Eventi / 10 ms 1 0 1000 1 0 2000 3000 4000 Tempo esecuzione MFA (ms) (e) Distribuzione del tempo CPU di convergenza della dinamica MFA. Intel Xeon Processor, dinamica a singolo processo. 1000 2000 3000 4000 Tempo esecuzione MFA (ms) (f) Distribuzione del tempo CPU di convergenza della dinamica MFA. Intel Xeon Processor, dinamica a 7 thread. Figura 3.4: 59 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.7 Prestazioni della rete 50000 104 40000 103 30000 2 10 20000 10 10000 10 2 4 6 8 00 10 Tracce 1 2 3 4 5 6 7 Hit per traccia (a) Distribuzione del numero di tracce (b) Distribuzione del numero di hit per per evento. ogni traccia. Neuroni Figura 3.5: 6000 5000 4000 3000 2000 1000 0 0 200 400 600 800 1000 1200 1400 Hits Figura 3.6: Numero di neuroni creati in funzione del numero di hit . 60 3.7 Prestazioni della rete 104 103 103 102 Eventi / 5 Neuroni Tempo esecuzione MFA (ms) 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 102 10 10 1 1 0 500 1000 1500 2000 2500 3000 3500 4000 Neuroni Tempo esecuzione MFA (µs) Figura 3.7: Tempo CPU di convergenza della dinamica neurale Mean Field Anneling a singolo processo in funzione del numero di neuroni (blu) e distribuzione del numero di neuroni (fucsia). 50000 40000 30000 20000 10000 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Collegamenti tra neuroni Figura 3.8: Tempo CPU di convergenza della dinamica neurale Mean Field Anneling a singolo processo in funzione del numero di collegamenti tra neuroni. 61 3 Ricostruzione di tracce nel rivelatore di muoni di LHCb 3.7 Prestazioni della rete x (mm) Piano xz 4000 2000 0 -2000 -4000 10000 12000 14000 16000 18000 16000 18000 z (mm) y (mm) Piano yz 4000 2000 0 -2000 -4000 10000 12000 14000 z (mm) Figura 3.9: Analisi di un evento: hit, neuroni spenti (rosso) e neuroni attivi (blu). x (mm) Piano xz 4000 2000 0 -2000 -4000 10000 12000 14000 16000 18000 16000 18000 z (mm) y (mm) Piano yz 4000 2000 0 -2000 -4000 10000 12000 14000 z (mm) Figura 3.10: Analisi di un evento: tracce costruite con i neuroni (rosso) e fit lineare (blu). 62 Capitolo 4 Applicazione della rete neurale al problema dell’identificazione dei muoni Nel capitolo precedente abbiamo visto come avviene la ricostruzione delle tracce mediante una rete neurale e quali risultati porta. Resta quindi da affrontare il problema dell’identificazione dei muoni che è l’obbiettivo di questo lavoro di tesi. In questo capitolo verrà quindi descritto come sono state analizzate le tracce generate dall’algoritmo e di come sia possibile con esse ricondurci all’identificazione dei muoni. Come passo preliminare definiremo quali sono i criteri in base ai quali definiamo “muone” una particella ricostruita in LHCb. 4.1 La definizione di “muone” Riprendiamo ora il concetto di traccia di muone introdotto nel capitolo precedente per definire i criteri con cui, nella ricostruzione software degli eventi, identificheremo queste particelle. Una MuonTrack o MT (vedi paragrafo 3.5) è una traccia ricostruita dalla rete neurale nel rivelatore di muoni. Come si è visto, queste tracce partono da un hit nell’ultima parte del tracciatore (T3) e per essere considerate nel seguito dell’analisi, devono avere almeno un hit nella stazione M2. Una MT per essere costruita deve superare anche tagli geometrici e fisici, come già introdotto nella sezione dedicata alla creazione dei neuroni (paragrafo 3.1). Definiremo allora come “muone” una combinazione di oggetti costituita da: 1. una traccia nel tracciatore che arrivi fino a T3, ottenuta da un fit degli 63 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.2 Studio dell’efficienza di identificazione con il Monte Carlo hit del tracciatore con χ2 /nDoF1 minore di 4 e che abbia impulso e impulso trasverso maggiori di limiti prefissati (i tagli in p e pT sono dettagliati nel seguito); la traccia deve essere inoltre nell’accettanza del rivelatore di muoni come definito nel paragrafo 3.1. 2. una MT associata. Indicheremo le tracce che soddisfano il punto 1 come Tµ e quelle identificate come “muoni”, che cioè soddisfano i punti 1 e 2, con TµID . Come si vede, la procedura di identificazione non richiede ulteriori fasi di ricostruzione oltre a quanto descritto nel Capitolo 3. Data la precedente definizione, perciò, possiamo direttamente studiare le prestazioni della rete neurale riguardo all’identificazione dei muoni, studio che sarà oggetto del presente capitolo. 4.2 Studio dell’efficienza di identificazione con il Monte Carlo L’efficienza di identificazione può essere studiata in dettaglio utilizzando eventi simulati. Nella simulazione Monte Carlo infatti sono disponibili tutti i dettagli dell’evento ed è quindi possibile sapere se una certa traccia è stata creata o meno da un muone. Questo tipo di informazione viene denominata, per semplicità, con l’espressione “verità Monte Carlo”, come già introdotto nel paragrafo 3.6. In questo paragrafo viene studiata l’efficienza di identificazione della rete neurale utilizzando eventi simulati che contengono il processo pp → J/ψ(µ+ µ− )X. L’efficienza di identificazione viene definita considerando tracce Tµ che sono effettivamente muoni in base alla verità Monte Carlo ID (NµM C ) e contando quante di esse è associata una MT (NµM C ). L’efficienza di identificazione è definita perciò come: s ID NµM ǫID (1 − ǫID ) C σǫID = (4.1) ǫID = NµM C NµM C dove ǫID è l’efficienza di identificazione e σǫID il suo errore. La misidentificazione rappresenta la percentuale di errore di identificazione, cioè quante volte la rete neurale ricostruisce una traccia e questa non è un muone; si può dunque definire contando i “muoni” e controllando quali di questi effettivamente non lo siano, ricorrendo ancora una volta alla “verità Monte Carlo”. s MC N!µ MID(1 − MID) MID = ID σMID = (4.2) Nµ NµID 1 nDoF: Number of Degrees of Freedom, ovvero numero di gradi di libertà. 64 4 Applicazione della rete neurale al problema dell’identificazione dei muoni I II KM KC KD 50 30 1 3000 1000 10 4.2 Studio dell’efficienza di identificazione con il Monte Carlo Na 0.5 1 ǫID ± σǫID MID ± σMID 0.9576 ± 0.0008 0.211 ± 0.002 0.9809 ± 0.0005 0.434 ± 0.002 Tabella 4.1: Parametri della rete neurale (definiti nella sezione 2.7.2) nelle configurazioni I e II. ID Dove MID è sta per MisIDentificazione, σMID è il suo errore, N!µ è il numero 2 ID ID di Tµ che in realtà non sono muoni e Nµ è il numero totale di “muoni”. L’andamento di questi due valori in funzione dei parametri della rete neurale è stato usato per ottimizzare i parametri stessi. In tabella 4.1 sono riportati i valori dei parametri e delle efficienze per due configurazioni: la prima è quella considerata ottimale e rappresenta il miglior compromesso, la seconda invece è più orientata verso una maggiore efficienza di identificazione e ovviamente ha una percentuale di misidentificazione più alta. L’efficienza di identificazione e la probabilità di misidentificazione sono, a questo livello, completamente determinate dai parametri della rete neurale. Tuttavia, poiché la rete ricostruisce delle tracce (tracce MT), è possibile agire ulteriormente sulla qualità di queste ultime per ridurre il fondo di muoni identificati erroneamente. Poiché le tracce MT sono ottenute con un fit lineare, possiamo ad esempio sfruttare il χ2 per selezionare tracce di migliore qualità. In questo modo si può ridurre il fondo di muoni male identificati dovuto ad esempio a particelle che fuoriescono dal calorimetro (punch through [56]) la cui traiettoria non è ben allineata con la traccia nel tracciatore e col segmento che unisce T3 a M1. Un altro tipo di fondo che può essere leggermente ridotto in questo modo è quello dovuto ai decadimenti in volo di π e K. In questo caso infatti si ha una traccia di alto impulso ricostruita nel tracciatore dovuta a un π o a un K che poi decade con un muone nello stato finale. Il µ secondario può avere un impuso più basso e quindi, per effetto dello scattering multiplo, seguire una traiettoria meno rettilinea dando luogo ad un fit con un χ2 più alto. In Figura 4.1 sono riportati i χ2 dei fit sui piani xz e yz delle tracce MT create effettivamente da muoni e per tracce create invece da altre particelle primarie (Figure 4.1(a),4.1(b),4.1(c) 4.1(d) rispettivamente). È bene sottolineare che questa ulteriore selezione, discussa qui a titolo di esempio, è possibile solo in quanto nel nostro metodo l’identificazione dei muoni avviene mediante la ricostruzione diretta delle loro traiettorie, al contrario di quanto avviene nell’attuale algoritmo usato in LHCb (vedi paragrafo 1.4) in cui non si fa una vera e propria ricostruzione 2 come in diversi linguaggi di programmazione il simbolo “!” rappresenta l’operatore logico NOT 65 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.2 Studio dell’efficienza di identificazione con il Monte Carlo di tracce. I valori dell’efficienza di identificazione ottenuti con questo studio basato direttamente sul Monte Carlo sono mostrati in Tabella 4.2. Come si vede, si possono scegliere opportunamente i tagli sul χ2 in modo da ridurre sensibilmente la misidentificazione, al costo di una leggera riduzione dell’efficienza. Eventi / 10 χ2 yz !µ Eventi / 10 χ2 yz µ 104 103 103 102 2 10 10 10 1 0 500 1000 1500 1 0 2000 χ2 500 (a) 1000 1500 2000 χ2 15000 20000 χ2 (b) χ2 xz µ χ2 xz !µ Eventi / 100 Eventi / 100 103 104 102 103 102 10 10 1 0 1 5000 10000 15000 0 20000 χ2 (c) 5000 10000 (d) Figura 4.1: Distribuzioni dei χ2 sui piani xz e yx per muoni (µ) e altre particelle (!µ). Per mettere in risalto gli effetti del punch through e dei decadimenti in volo possiamo riprendere la distribuzione del numero di hit per traccia di Figura 3.5(b), costruendola però in modo da discriminare i contributi delle tracce di muoni dalle tracce misidentificate grazie alla verità Monte Carlo. In Figura 4.2 è riportata la doppia distribuzione del numero di hit per traccia nel caso di muoni (blu) e non (rosso), da cui si nota che il contributo maggiore alla misidentificazione è dovuto alle tracce composte da soli tre hit (T3, M1 e M2). Infine è importante studiare come l’efficienza e la misidentificazione cambino al variare di grandezze fisiche come l’impulso e l’impulso trasverso delle 66 4 Applicazione della rete neurale al problema dell’identificazione dei muoni ∀ χ2yz χ2yz < χ2yz < χ2yz < ∪ 400 ∪ 150 ∪ 50 ∪ ∀ χ2xz χ2xz < χ2xz < χ2xz < 4.3 Studio dell’efficienza col metodo di tag and probe ǫID ± σǫID MID ± σMID 0.9687 ± 0.0008 0.086 ± 0.001 2000 0.947 ± 0.001 0.0248 ± 0.0008 1000 0.944 ± 0.001 0.0222 ± 0.0007 200 0.923 ± 0.001 0.0170 ± 0.0007 Tabella 4.2: Efficienza e misidentificazione in funzione dei tagli sul χ2 . particelle. Infatti se un muone possiede alto impulso lascia una traccia nel rivelatore di muoni più rettilinea, essendo meno influenzata dallo scattering multiplo, e che attraversa tutte le stazioni. Sarà quindi più facile identificarlo come muone. Come è possibile vedere dai grafici riportati nelle figure 4.3 e 4.4 si ha un miglioramento delle prestazioni al crescere dell’impulso: l’efficienza cresce e la misidentificazione diminuisce. Un effetto analogo si ha anche in funzione dell’impulso trasverso. 4.3 Studio dell’efficienza col metodo di tag and probe Il metodo di misura dell’efficienza di identificazione utilizzato fino ad ora si basa sullo studio della verità Monte Carlo, cioè sull’analisi di informazioni che si ottengono solo grazie alla simulazione dell’evento. Serve quindi un sistema per misurare l’efficienza di identificazione utilizzando direttamente i dati. È importante avere a disposizione un metodo di questo tipo poiché ogni errore che si commette nella simulazione, si riflette poi in un errore sistematico sulla stima dell’efficienza di identificazione e, in ultima analisi, su qualunque misura in cui entri in gioco tale grandezza. Il sistema utilizzato in questo lavoro di tesi è il metodo cosiddetto di tag and probe (Figura 4.5). Questo metodo consiste nel selezionare un campione molto puro di decadimenti J/ψ → µ+ µ− . Le J/ψ vengono ricostruite utilizzando un muone ben identificato (tag, in rosso) e una traccia (probe) per la quale non viene richiesta alcuna identificazione, che abbia carica opposta al muone tag, un vertice in comune con esso e che dia la massa invariante della J/ψ. Poiché la traccia probe proviene per costruzione dal decadimento della J/ψ, possiamo essere ragionevolmente sicuri che sia la traccia di un muone. Possiamo perciò utilizzarla per testare la nostra procedura di identificazione e per misurarne l’efficienza. Questo metodo è stato verificato innanzitutto su un campione di 67 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.3 Studio dell’efficienza col metodo di tag and probe 105 µ MC !µ MC 104 103 2 3 4 5 6 7 Hit per traccia Figura 4.2: Distribuzione del numero di hit per traccia nel caso di muoni (blu) e non (rosso). eventi simulati e poi applicato ad un campione di dati raccolti da LHCb nel 2010. I dati della simulazione Monte Carlo sono tutti eventi in cui è presente una particella J/ψ che decade in due muoni, si tratta quindi di un campione molto puro. Possiamo ora descrivere in dettaglio l’applicazione del metodo di tag and probe al nostro algoritmo di identificazione. Per farlo si prendono tracce TµID con tagli di selezione più stringenti. I tagli imposti sono i seguenti: • p > 6 GeV /c • pT > 1.5 GeV /c Questi tagli assicurano che il muone tag attraversi tutte le cinque stazioni del rivelatore di muoni e che quindi l’identificazione sia ottimale. Noto il muone tag, si procede all’abbinamento con la traccia probe. Questa traccia, oltre a soddisfare il criterio 1) del paragrafo 4.1, deve avere carica opposta al muone tag, formare con esso un vertice comune e dare (nell’ipotesi di massa) una massa invariante MT P nell’intervallo |MJ/ψ − MT P | < 50M eV /c2 . Una 68 ∈corr TP 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.3 Studio dell’efficienza col metodo di tag and probe 1 0.98 0.96 0.94 0.92 0.9 0.88 0.86 p > 0.8 GeV/c 0.84 p > 1.5 GeV/c T T 0.82 0.8 0 5000 10000 15000 20000 25000 30000 35000 40000 p (MeV/c) Figura 4.3: Efficienza di identificazione in funzione dell’impulso e dell’impulso trasverso. volta selezionata la traccia probe si applica la procedura di identificazione ovvero si verifica se ad essa è connessa una traccia MT (traccia blu di Figura 4.5) come richiesto nella definizione di muone data nel paragrafo 4.1. Detti NP1 e NP0 rispettivamente il numero di tracce probe identificate e il numero di tracce probe non identificate, l’efficienza di identificazione è definita come s 1 N ǫT P (1 − ǫT P ) ǫT P = 1 P 0 σǫT P = (4.3) NP + NP NP1 + NP0 dove σǫT P è l’errore statistico sull’efficienza di identificazione. Questo sistema dovrebbe fornire una misura dell’efficienza di identificazione senza la necessità di utilizzare il Monte Carlo. Tuttavia, nel selezionare le tracce tag e probe utilizzando la finestra di massa invariante intorno al picco della J/ψ, includiamo anche un contributo dovuto al fondo combinatorio. Il fondo può essere rappresentato con sufficiente accuratezza da una distribuzione lineare, come si può vedere dal fit alla distribuzione di massa 69 4 Applicazione della rete neurale al problema dell’identificazione dei muoni ∈corr TP 4.3 Studio dell’efficienza col metodo di tag and probe 0.5 0.45 p > 0.8 GeV/c 0.4 p > 1.5 GeV/c T T 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5000 10000 15000 20000 25000 30000 35000 40000 p (MeV/c) Figura 4.4: Misidentificazione in funzione dell’impulso e dell’impulso trasverso. invariante mostrato in Figura 4.6 eseguito con la somma di una gaussiana3 e una distribuzione lineare. Assumendo quindi che il fondo combinatorio, anche sotto il picco della J/ψ segua la stessa distribuzione di massa invariante lineare, possiamo stimare il numero di eventi di fondo inclusi nella finestra di massa utilizzata per definire le tracce probe tramite gli eventi che si trovano ai lati del picco di massa invariante della J/ψ . Definiamo allora due regioni di massa invariante con 2900M eV /c2 < M < 2950M eV /c2 e 3250M eV /c2 < M < 3300M eV /c2 : poiché abbiamo assunto che il fondo abbia una distribuzione lineare, il numero di eventi compresi in queste regioni sarà uguale, entro le fluttuazioni statistiche, al numero di eventi di fondo nella finestra di massa considerata per le tracce probe. Possiamo allora 3 Come è possibile vedere dal grafico tuttavia, il picco non è una gaussiana. La funzione che meglio approssima la distruzione di massa invariante è la Crystal Ball [57], una funzione gaussiana con una coda esponenziale. Questa coda rappresenta gli eventi in cui nel decadimento della J/ψ sono stati emessi uno o più fotoni e i muoni sono stati generati come meno energia. Abbiamo eseguito un fit semplificato solo per verificare l’ipotesi della linearità del fondo. 70 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.3 Studio dell’efficienza col metodo di tag and probe utilizzare questi eventi per stimare il contributo del fondo all’efficienza di identificazione, applicando direttamente ad essi il metodo di tag and probe. Detti rispettivamente BP1 e BP0 il numero di tracce probe selezionate nelle regioni laterali identificate e non identificate, possiamo definire l’efficienza di identificazione corretta per il fondo come: NP1 − BP1 N 1 − BP1 + NP0 − BP0 sP (NP1 − BP1 )2 (NP0 + BP0 ) + (NP0 − BP0 )2 (NP1 + BP1 ) = (NP1 − BP1 + NP0 − BP0 )4 ǫcorr = TP σǫcorr TP (4.4) (4.5) tag Fascio probe T3 M1 M2 M3 M4 M5 Figura 4.5: Schematizzazione del metodo di tag and probe. 4.3.1 Eventi Monte Carlo L’analisi eseguita su un campione di 45000 eventi simulati contenenti particelle J/ψ che decadono in due muoni ha fornito i risultati di tabella 4.3. Da notare come passando da un impulso trasverso minimo di 0.8 GeV /c ad uno di 1.5 GeV /c per la particella della traccia probe l’efficienza aumenti, come già era stato notato nello studio dell’efficienza di identificazione con il Monte Carlo. I motivi sono ovviamente gli stessi. Dell’efficienza misurata per 71 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.3 Studio dell’efficienza col metodo di tag and probe Eventi / 4 MeV/c2 α β γ x0 σ 103 χ2 / ndf = 574.2 / 90 -0.04249 ± 0.00229 140.6 ± 7.3 2141 ± 22.7 3097 ± 0.1 12.18 ± 0.09 102 10 1 2900 2950 3000 3050 3100 3150 3200 3250 3300 Mµ+µ- (MeV/c2) Figura 4.6: Distribuzione della massa invariante relativa alle tracce probe identificate come muoni. i valori più bassi di impulso viene riportato nel grafico il valore non corretto per il fondo (ǫT P ) a causa della poca statistica a disposizione che ha reso la correzione statisticamente non consistente. Tra gli sviluppi futuri del metodo sarà importante studiare nel dettaglio gli eventi a basso impulso sui quali si potrebbe avere un margine di miglioramento notevole rispetto all’algoritmo di identificazione attuale. 4.3.2 Dati Il metodo di tag and probe è utilizzato per stimare l’efficienza del metodo di identificazione dei muoni usando direttamente i dati in modo da svincolarsi da tutte le inesattezze che ci possono essere nel modo in cui il Monte Carlo simula gli eventi. Per utilizzare il metodo con i dati raccolti da LHCb dobbiamo prima selezionare un campione di J/ψ che decadono in due muoni, avendo cura di non polarizzare il campione, ossia apportare deformazioni alle distribuzioni statistiche. I dati utilizzati in questa analisi sono stati raccolti 72 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.3 Studio dell’efficienza col metodo di tag and probe Eventi / 4 MeV/c2 χ2 / ndf 145.6 / 95 α -0.006657 ± 0.004785 β 50.65 ± 14.87 γ 105 ± 6.9 x0 3096 ± 0.6 σ 10.63 ± 0.71 102 10 2900 2950 3000 3050 3100 3150 3200 3250 3300 Mµ µ- (MeV/c2) + Figura 4.7: Distribuzione della massa invariante relativa alle tracce probe non identificate come muoni. nel 2010 4 . La selezione dei muoni tag e probe e la selezione dei candidati J/ψ segue esattamente quella descritta per il Monte Carlo. Per ridurre la maggiore componente del fondo combinatorio ci si affida al trigger. Per selezionare un campione in cui solo un muone sia identificato con certezza (il muone tag), si richiede che il trigger che ha selezionato l’evento sia un trigger di singolo muone, sia per il trigger L0 che per l’HLT. Si impone inoltre che il muone che si usa come tag sia proprio quello che ha fatto scattare il trigger 5 . Le condizioni di trigger richiedono almeno un muone con pT > 1.4 GeV /c. I dati vengono inoltre preselezionati scegliendo solo gli eventi dove con il muone di tag ed un’altra traccia si possa ricostruire una massa invariante di almeno 2700 M eV /c2 . Un confronto tra le efficienze corrette per il fondo calcolate sugli eventi Monte Carlo e sui dati è riportato nella Tabella 4.4 da cui è possibile concludere che le analisi sui due campioni sono sostanzialmente equivalenti e quindi 4 nel 2011 il trigger è stato configurato in modo da selezionare solo il 10% delle J/ψ Alternativamente, si potrebbe richiedere che il muone usato come probe non sia la particella che ha fatto scattare il trigger. 5 73 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.3 Studio dell’efficienza col metodo di tag and probe p > 3 GeV /c pT > 0.8 GeV /c p > 3 GeV /c pT > 1.5 GeV /c ǫT P ± σǫT P ǫcorr T P ± σǫcorr TP 0.917 ± 0.002 0.960 ± 0.001 0.958 ± 0.002 0.974 ± 0.002 Tabella 4.3: Efficienze di identificazione con il metodo di tag and probe al variare dell’impulso trasverso delle tracce probe. ǫcorr T P tiene conto della correzione dovuta al fondo combinatoriale come definito nell’equazione 4.4. che il metodo di tag and probe è utilizzabile anche nell’analisi dei dati. La Tabella riporta anche i valori della misura di efficienza di identificazione con il Monte Carlo e mostra come i due metodi siano equivalenti al fine di stimare la capacità dell’algoritmo di identificare i muoni. ǫ ± σǫ Metodo Monte Carlo 0.9687 ± 0.0008 Metodo tag and probe eventi Monte Carlo 0.974 ± 0.002 Metodo tag and probe dati 0.966 ± 0.003 Tabella 4.4: Efficienze di identificazione con i due metodi per dati simulati e non. Le misure sono state eseguite richiedendo p > 3 GeV /c pT > 1.5 GeV /c. In Figura 4.9 è riportato l’andamento dell’efficienza di identificazione per il campione di dati, ottenuta col metodo di tag and probe corretta per il fondo, al variare dell’impulso e dell’impulso trasverso delle particelle utilizzate come probe. Anche qui per i valori più bassi di impulso è riportata l’efficienza non corretta per il fondo sempre a causa della statistica limitata. Come è stato possibile misurare l’efficienza di identificazione utilizzando dei dati veri, è possibile anche misurare la probabilità di misidentificazione. Infatti possiamo ripetere la procedura di tag and probe utilizzando un campione di dati formato ad esempio da decadimenti Λ → pπ. Questo campione ci assicura che nessuna delle tracce selezionate sia effettivamente un muone e ci permette pertanto di stimare la misidentificazione direttamente dai dati. In futuro, il metodo sviluppato in questo lavoro di Tesi potrebbe essere esteso anche a questo campione di controllo in modo da avere una stima diretta della misidentificazione. 74 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.4 Confronto con il metodo IsMuon ∈corr TP 1 0.98 0.96 0.94 0.92 0.9 0.88 0.86 p > 0.8 GeV/c 0.84 p > 1.5 GeV/c T T 0.82 0.8 0 5000 10000 15000 20000 25000 30000 35000 40000 p (MeV/c) Figura 4.8: Efficienza di identificazione in funzione dell’impulso e dell’impulso trasverso calcolata con il metodo del tag and probe per il campione di dati simulati. 4.4 Confronto con il metodo IsMuon Riportiamo ora il confronto delle prestazione di identificazione e misidentificazione tra il metodo IsMuon introdotto nel paragrafo 1.4 e la definizione “muone” data nel paragrafo 4.1. I dati del confronto sono riportati nella Tabella 4.5. Possiamo notare come la definizione di “muone” introdotta in questo lavoro di Tesi abbia efficienze confrontabili con la IsMuon utilizzata al momento a LHCb, tranne che per bassi impulsi dove la ricostruzione di tracce con due soli hit permette un’efficienza di identificazione superiore. Utilizzando però tracce cosı̀ corte, a differenza di IsMuon che richede segnali in più stazioni all’aumentare dell’impulso, la probabilità di misidetificazione risulta peggiore di quella ottenuta con IsMuon. Come già accennato in precedenza, l’utilizzo di tracce MT corte, con hit solo in T3, M1 e M2, consentirebbe di selezionare muoni con impulso più basso rispetto a quanto possibile attualmente con il metodo IsMuon. Tuttavia per ridurre il tasso di misidentificazione è probabilmente 75 4 Applicazione della rete neurale al problema dell’identificazione dei muoni ∈corr TP 4.4 Confronto con il metodo IsMuon 1 0.98 0.96 0.94 0.92 0.9 0.88 0.86 p > 0.8 GeV/c 0.84 p > 1.5 GeV/c T T 0.82 0.8 0 5000 10000 15000 20000 25000 30000 35000 40000 p (MeV/c) Figura 4.9: Efficienza di identificazione in funzione dell’impulso e dell’impulso trasverso calcolata con il metodo del tag and probe per il campione di dati. necessario studiare un’opportuna ottimizzazione della rete neurale. Questo studio rappresenta sicuramente una possibile evoluzione di questo lavoro di Tesi. 76 4 Applicazione della rete neurale al problema dell’identificazione dei muoni ǫID IsMuon “muone” MID IsMuon “muone” 4.4 Confronto con il metodo IsMuon 3 < p < 6 GeV /c 6 < p < 10 GeV /c 0.836 ± 0.009 0.90 ± 0.02 0.958 ± 0.004 0.942 ± 0.004 0.066 ± 0.008 0.13 ± 0.02 0.055 ± 0.006 0.119 ± 0.006 p > 10 GeV /c p > 3 GeV /c 0.983 ± 0.001 0.966 ± 0.002 0.9716 ± 0.0009 0.9687 ± 0.0008 0.020 ± 0.001 0.082 ± 0.001 0.043 ± 0.001 0.086 ± 0.001 Tabella 4.5: Efficienza di identificazione e probabilità di misidentificazione per le definizioni IsMuon e “muone”. 77 4 Applicazione della rete neurale al problema dell’identificazione dei muoni 4.4 Confronto con il metodo IsMuon 78 Conclusioni In questo lavoro di tesi è stato studiato un algoritmo per la ricostruzione di tracce nel rivelatore di muoni dell’esperimento LHCb mediante l’utilizzo di una rete neurale ricorsiva. La parte principale del progetto è stata l’implementazione dell’algoritmo di ricostruzione basato sul modello di Hopfield. L’algoritmo è stato implementato in linguaggio C++ in vista di una possibile integrazione nel codice ufficiale di LHCb. Il codice è formato da tra parti principali: la creazione dei neuroni, l’evoluzione della rete e la costruzione delle tracce. Di particolare importanza è l’algoritmo che calcola l’evoluzione della rete e ne determina la convergenza. Questo è stato realizzato mediante la dinamica detta Mean Field Annealing che si ispira all’approssimazione del campo medio, metodo introdotto nella meccanica statistica. È possibile un suo utilizzo perché il tipo di reti preso in esame ha una forte analogia con un sistema magnetico di spin. L’algoritmo utilizzato è una variante del metodo di Denby adattata e ottimizzata in base alle caratteristiche del rivelatore di muoni di LHCb. I parametri della rete neurale sono stati infine ottimizzati per il problema dell’identificazione dei muoni. Nella parte finale di questo lavoro si sono infatti utilizzate le tracce ricostruite mediante la rete neurale per identificare i muoni in LHCb, quantificando l’efficienza di identificazione e la percentuale di misidentificazione del metodo. I risultati ottenuti sono risultati confrontabili con quelli dell’algoritmo attualmente in uso in LHCb. Riteniamo tuttavia che il metodo elaborato in questo lavoro possa risultare più robusto in condizioni di alta densità di particelle come quelle previste in una possibile evoluzione di LHCb ad altissima luminosità. Lo studio sulle tempistiche di calcolo ha evidenziato inoltre come il metodo introdotto in questo lavoro di tesi sia relativamente veloce il che lo renderebbe un candidato per l’utilizzo nel sistema di trigger dell’esperimento. 79 Conclusioni Prospettive future e possibili sviluppi Prospettive future e possibili sviluppi Il metodo per l’identificazione dei muoni introdotto in questo lavoro di tesi si è dimostrato efficiente sia dal punto di vista computazionale che identificativo, anche se rappresenta un primo sviluppo ed è in più punti modificabile: • per gli aspetti relativi al calcolo, una scrittura ottimizzata del codice porterebbe a miglioramenti sui tempi di esecuzione; • una diversa scelta della dinamica di ricerca del minimo della funzione costo invece potrebbe condurre a risultati più efficienti, ad esempio utilizzando il Simulated Annealing o procedure più specifiche come quella introdotta in [53]; • infine uno studio più approfondito dell’efficienza e della misidentificazione in funzione dell’impulso aiuterebbe l’ottimizzazione dei parametri della rete, magari introducendo anche una dipendenza della lunghezza delle tracce dall’impulso come per il metodo IsMuon di LHCb descritto nel paragrafo 1.4. Anche sotto il profilo dell’hardware sono possibili dei miglioramenti: esistono infatti dei processori nati per l’elaborazione grafica che si presterebbero bene ad un impiego in questo settore. I processori grafici [58], o GPU, infatti sono realizzati mediante una griglia di piccoli processori con prestazioni limitate che, elaborando i dati in parallelo, sono in grado di eseguire computazioni complesse, come ad esempio lo studio di una dinamica neurale. Facendo riferimento a quanto visto nel paragrafo 3.4 sarebbe possibile su un processore grafico comune eseguire fino a 64 thread e fino a un migliaio su un processore professionale. Lo sviluppo della dinamica neurale ed i suoi tempi di esecuzione trarrebbero sicuramente dei benefici dall’utilizzo di questi processori. 80 Appendice A Meccanica Statistica dei vetri di spin In questa appendice verrà presentata un’introduzione della meccanica statistica dei vetri di spin, spiegando i concetti di base per cui si può dimostrare la stabilità del sistema magnetico. Si tratta di un metodo rigoroso e in questa sede ne sarà data solo una breve introduzione. Ci riferiremo in questa formulazione ai pesi come variabili aleatorie facendo riferimento alle reti neurali di Hopfield, utilizzabili quindi per eseguire pattern-recongnition, per cui avremo i pesi definiti come in 2.4 ma per le variabili S. Il primo concetto da introdurre per questa trattazione è quello di transizione di fase, ovvero il passaggio da uno stato ad uno differente di un determinato sistema statistico ad una certa temperatura. Nel nostro caso, scesi sotto la temperatura critica, l’energia libera del sistema presenterà il caretteristico paesaggio a “valli”, di cui discuteremo in seguito, tipico della fase detta di spin-glass partendo da un stato paramegnetico come si può vedere dal grafico in Figura A.1. La transizione di fase garantisce, mediante l’energia libera, che il sistema magnetico, e quindi anche la rete neurale, abbia delle proprietà di stabilità e ogni “valle” garantisce la presenza di un attrattore dove il sistema convergerà dato un certo vettore di ingresso. Sarà quindi possibile riconoscere un determinato pattern con cui è stata addestrata la rete. Per dimostrare la presenza di questa transizione di fase dobbiamo studiare il comportamento della funzione di partizione definita in 2.8, anche se in realtà, essendo il calcolo di difficile risoluzione, viene analizzata l’energia libera per il singolo spin ricavata dalla 2.9 mediata sulla distribuzione dei A1 A Meccanica Statistica dei vetri di spin pesi1 1 ≪ ln Z(β, J) ≫ N →∞ βN f (β, J) = − lim dove con ≪ ≫ si intende ¯ = f (β) Z (A.1) P (J)f (β, J)dJ Ω Per risolvere questo problema Sherrington e Kirkpatrick (SK) [59] hanno sviluppato un artificio detto Simmetria di Replica: sfruttando la forma esponenziale della funzione di partizione possiamo scrivere Zn − 1 n→0 n ln Z = lim Z n = en ln Z = n Y Zα α dove n indica il numero totale delle repliche e α la replica. In pratica si suppone di osservare un sistema composto da n repliche identiche e non interagenti. Per fare il limite l’indice n dovrebbe essere una variabile continua ma in questa trattazione viene usata come discreta (supponendo che non ci siano particolarità per n = 0 il metodo funziona). Per studiare efficacemente sistemi disordinati di questo tipo conviene introdurre dei parametri d’ordine: la magnetizzazione media V =≪ hSi i ≫ e il paramentro di Edwards-Anderson [60] (EA) q =≪ hSi i2 ≫. Le loro relazioni evidenzieranno le transizioni di fase. Come dimostrato in [59] è possibile determinare la natura della fase del sistema partendo dai parametri della distribuzione dei pesi e calcolare le relazioni tra i paramentri d’ordine: J0 ≫ J ⇒ q ≃ ±V 2 fase ferromagnetica J0 ≪ J ⇒ q ≃ 0, V ≃ 0 fase di spin glass In pratica nella fase di spin glass il sistema manifesta una magnetizzazione media nulla rispetto alla distribuzione di pesi, ovvero non sarà presente una correlazione spaziale. Il modello di SK funziona bene fino a che il sistema non si avvicina a temperature molto basse: per T → 0 sono necessarie alcune correzioni. Analizzando lo spazio delle fasi di un vetro di spin ci si accorge subito che si 1 Supponiamo ora che i pesi siano distribuiti gaussianamente 1 (Jij − J0 )2 P (Jij ) = √ exp − 2J 2 2πJ A2 A Meccanica Statistica dei vetri di spin J0 /J Figura A.1: Diagramma di fase del modello di SK con campo magnetico esterno nullo. Sono riconoscibili le quattro diverse fasi: paramagnetica (P), ferromagnetica (F), spin glass (SG) e mista ferromagnetica-spin glass (F-SG). presenta come un paesaggio a “valli”, condizione neccessaria per il funzionamento di una rete neurale ma implica anche un altro fenomeno: il sistema non è ergodico. Un sistema si dice ergodico se tutte le configurazioni dello spazio delle fasi sono accessibili; in questo caso invece, al di sotto della temperatura critica per cui abbiamo la transizione di fase, il sistema rimane intrappolato in una certa regione dello spazio delle fasi e per spostarsi verso un’altra con energia comparabile impiegherebbe un tempo infinito perché l’altezza delle barriere diverge. Proprio la rottura dell’erogodicità portò Parisi [61] [62] a formulare una variante al modello di SK che prevedeva la rottura della Simmetria di Replica. Se questa simmetria non è più valida significa che le repliche non sono identiche, il che può sembrare assurdo visto che sono state introdotte artiA3 A Meccanica Statistica dei vetri di spin ficialmente. Quello che succede è che ogni stato di equilibrio (detto puro) della fase di spin glass può essere rappresentato come appartenente ad una diversa replica, di indice α, del sistema. Quindi per ogni stato lo spin sarà definito come Siα e la sua media Viα = α hSi i, la sovrapposizione di due stati detta overlap è data da q αβ = 1 X α β V V N j j j con cui possiamo definire il parametro d’ordine q̃ = q̃(x) della transizione come Z q̃ Z q̃ X x(q̃) = P (q̃)dq̃ = Pα Pβ δ(q̃ − q αβ )dq̃ −∞ −∞ αβ con Pα la probabilità che il sistema si trovi nello stato puro α. Se quindi q̃ è costante avremo solo stati puri che non differiscono macroscopicamente (fase ferromagnetica), se invece q̃ non è costante gli stati puri saranno distinti ed osserveremo la fase di spin glass. In [61] Parisi dimostra anche che q̃ = q se la simmetrica di replica è rotta, ovvero che coincide con il parametro d’ordine di EA. Questa trattazione permette anche di introdurre le correzioni necessarie per lo studio a basse temperature. Tutte le considerazioni fatte per la statistica dei vetri di spin possono essere fatte anche per le reti di Hopfield come evidenziato in [63] [64] dove i possibili vettori di addestramento della rete vanno a coincidere con gli stati puri α del sistema. A4 Bibliografia [1] L. Evans and P. Bryant (editors). LHC Machine. Jinst, 3(S08001), August 2008. [2] Maddalena Frosini. Studio delle prestazioni del rivelatore di muoni dell’esperimento LHCb mediante la rivelazione di muoni cosmici. Master’s thesis, Università degli studi di Firenze, 2008. [3] Andrea Bruschi. Studio dei decadimenti J/ψ → µ+ µ− all’esperimento LHCb e misura delle sezioni d’urto σ(pp → J/ψX) e σ(pp → bb̄ → J/ψX) con i primi dati di LHC . Master’s thesis, Università degli studi di Firenze, 2011. √ [4] R. Aaij et al. Measurement of J/ψ production in pp collisions at s = 7 T eV . Eur.Phys.J., C71:1645, 2011. [5] The LHCb Collaboration. The LHCb Detector at the LHC. Journal of Instrumentation, 3(08):S08005, 2008. [6] The LHCb Collaboration. LHCb VELO TDR, 2001. [7] The LHCb Collaboration. LHCb Magnet TDR, 2000. [8] The LHCb Collaboration. LHCb Inner Tracker TDR, 2002. [9] The LHCb Collaboration. LHCb Outer Tracker TDR, 2001. [10] The LHCb Collaboration. LHCb RICH TDR, 2000. [11] The LHCb Collaboration. LHCb Calorimeter TDR, 2000. [12] The LHCb Collaboration. LHCb Muon System TDR, 2001. [13] F. Sauli. GEM: A new concept for electron amplification in gas detectors. Nuclear Instruments and Methods A, 386(2-3):531–534, February 1997. I [14] G. Haefeli, A. Bay, A. Gong, H. Gong, M. Muecke, N. Neufeld, and O. Schneider. The LHCb DAQ interface board TELL1. Nuclear Instruments & Methods in Physics Research Section A-accelerators Spectrometers Detectors and Associated Equipment, 560:494–502, 2006. [15] The LHCb Collaboration. LHCb Trigger TDR, 2003. [16] G. Barrand, Belyaev, P. Binko, M. Cattaneo, R. Chytracek, G. Corti, M. Frank, G. Gracia, J. Harvey, Eric Van Herwijnen, B. Jost, Last, P. Maley, P. Mato, S. Probst, F. Ranjard, and Yu A. Tsaregorodtsev. GAUDI : The software architecture and framework for building LHCb data processing applications. In International Conference on Computing in High Energy and Nuclear Physics, CHEP 2000, pages 92–95, February 2000. [17] M. Clemencic, G. Corti, S. Easo, C. R. Jones, S. Miglioranzi, M. Pappagallo, P. Robbe, and the LHCb Collaboration. The LHCb Simulation Application, Gauss: Design, Evolution and Experience. Journal of Physics: Conference Series, 331(3):032023, 2011. [18] Torbjorn Sjostrand, Patrik Eden, Christer Friberg, Leif Lonnblad, Gabriela Miu, et al. High-energy physics event generation with PYTHIA 6.1. Comput.Phys.Commun., 135:238–259, 2001. [19] D.J. Lange. The EvtGen particle decay simulation package. Nucl.Instrum.Meth., A462:152–155, 2001. [20] Geant4 home page. http://geant4.web.cern.ch/geant4/. [21] The LHCb Collaboration. BOOLE - The LHCb Digitization Program. http://lhcb-release-area.web.cern.ch/LHCbrelease-area/DOC/boole/. [22] The LHCb Collaboration. MOORE - the High Level Trigger application. http://lhcb-release-area.web.cern.ch/LHCb-release-area/DOC/moore/. [23] The LHCb Collaboration. BRUNEL The LHCb Reconstruction Program. http://lhcb-release-area.web.cern.ch/LHCb-release-area/DOC/brunel/. [24] The LHCb Collaboration. DAVINCI - The Analysis Program. http://lhcb-release-area.web.cern.ch/LHCb-release-area/DOC/davinci/. [25] ROOT home page. http://root.cern.ch/. II [26] S.L. Glashow. Partial Symmetries of Weak Interactions. Nucl.Phys., 22:579–588, 1961. [27] Abdus Salam. Weak and Electromagnetic Interactions. Conf.Proc., C680519:367–377, 1968. [28] Steven Weinberg. A Model of Leptons. Phys.Rev.Lett., 19:1264–1266, 1967. [29] Andrzej J. Buras, Maria Valentina Carlucci, Stefania Gori, and Gino Isidori. Higgs-mediated FCNCs: Natural Flavour Conservation vs. Minimal Flavour Violation. JHEP, 1010:009, 2010. [30] Andrzej J. Buras. Minimal flavour violation and beyond: Towards a flavour code for short distance dynamics. Acta Phys.Polon., B41:2487– 2561, 2010. [31] N. Cabibbo. Unitary symmetry and leptonic decays. Phys. Rev. Lett., 10:531–532, 1963. [32] M. Kobayashi and T. Maskawa. CP violation in the renormalizable theory of weak interaction. Prog. Theor. Phys., 49:652–657, 1973. [33] Flavio Archilli, Xabier Cid Vidal, Jose Angel Hernando Morata, Gaia Lanfranchi, Jose Helder Lopes, Matteo Palutan, Erica Polycarpo, Alessio Sarti, and Barbara Sciascia. Muon identification performance at lhcb with the 2010 data. Technical Report LHCb-INT-2011-048. CERN-LHCb-INT-2011-048, CERN, Geneva, Oct 2011. [34] G. Lanfranchi, X. Cid Vidal, S. Furcas, M. Gandelman, J. A. Hernando, J. H. Lopez, E. Polycarpo, and A. Sarti. The muon identification procedure of the lhcb experiment for the first data. Technical Report LHCb-PUB-2009-013. CERN-LHCb-PUB-2009-013, CERN, Geneva, Aug 2009. [35] Leonardo Bellucci. Applicazione delle reti di hopfield alla ricostruzione di tracce nell’esperimento L3. Master’s thesis, Università degli studi di Firenze, 1998. [36] Warren McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology, 5:115– 133, 1943. 10.1007/BF02478259. III [37] F. Rosenblatt. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65:386–408, 1958. [38] J. J. Hopfield. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America, 79(8):2554–2558, 1982. [39] J.J. Hopfield and D.W. Tank. “Neural” Computation of Decisions in Optimization Problems. biocyb, 52:141–152, 1985. [40] J.J. Hopfield. Neurons with graded responses have collective computational properties like those of two-state neurons. PNAS, 81, 1984. inAR. [41] R. Rojas. Neural networks: a systematic introduction. Springer-Verlag, 1996. [42] Angelo Salvatore Salamone. Applicazione di un modello a spin-glass per l’ottimizzazione al riconoscimento delle tracce nell’esperimento CMS. Master’s thesis, Università degli studi di Firenze, 1999. [43] M. Mézard and A. Montanari. Information, physics, and computation. Oxford graduate texts. Oxford University Press, 2009. [44] S. Kirkpatrick, C. D. Gelatt, and M. P. Vecchi. simulated annealing. Science, 220:671–680, 1983. Optimization by [45] Nicholas Metropolis, Arianna W. Rosenbluth, Marshall N. Rosenbluth, Augusta H. Teller, and Edward Teller. Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21:1087–1092, 1953. [46] W.K. Hastings. Monte Carlo samping methods using Markov chains and their applications. Biometrika, pages 97–109, 1970. [47] G.L. Bilbro, W.E. Snyder, S.J. Garnier, and J.W. Gault. Mean Field Annealing: A Formalism for Constructing GNC-Like Algorithms. TNN, 3(1):xx, January 1992. [48] Griff Bilbro, Reinhold Mann, Thomas K. Miller, Wesley E. Snyder, David E. Van den Bout, and Mark White. Optimization by mean field annealing. In Advances in neural information processing systems 1, pages 91–98. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 1989. IV [49] B. and Denby. Neural networks and cellular automata in experimental high energy physics. Computer Physics Communications, 49(3):429 – 448, 1988. [50] Georg Stimpfl-Abele and Lluı́s Garrido. Fast track finding with neural networks. Computer Physics Communications, 64(1):46 – 56, 1991. [51] A. Badalà, R. Barbera, G. Lo Re, A. Palmeri, G. S. Pappalardo, A. Pulvirenti, and F. Riggi. Neural tracking in alice. Nucl. Instrum. Methods Phys. Res., A, 502:503–506, 2003. [52] Giovanni Passaleva. A Recurrent Neural Network for Track Reconstruction in the LHCb Muon System. IEEE Nuclear Science Symposium Conference. Proceedings, 2008. [53] Dario Elyasy. Nuovi metodi neurali per la ricostruzione di tracce nel rivelatore tracciante centrale dell’esperimento CMS. Master’s thesis, Università degli studi di Firenze, 1999. [54] Andreas Jaeger, Paul Seyfert, Michel De Cian, Jeroen van Tilburg, and Stephanie Hansmann-Menzemer. Measurement of the track finding efficiency. Technical Report LHCb-PUB-2011-025. CERN-LHCb-PUB-2011-025, CERN, Geneva, Apr 2012. [55] OpenMP home page. http://openmp.org/wp/. [56] E. Polycarpo and J. R. T. De Mello-Neto. Muon identification in LHCb. Technical Report LHCb-2001-009, CERN, Geneva, Mar 2001. revised version number 1 submitted on 2001-08-03 10:41:14. [57] J. Gaiser. Charmonium spectroscopy from radiative decays of the J/ψ and ψ ′ . 1982. Ph.D. Thesis. [58] Stefano Brilli. Implementazione efficiente del Metodo dei Gradienti Coniugati in ambiente CUDA (Compute Unified Device Architecture). Master’s thesis, Università degli studi di Firenze, 2008. [59] Scott Kirkpatrick and David Sherrington. Infinite-ranged models of spinglasses. Phys. Rev. B, 17:4384–4403, Jun 1978. [60] S. Edwards and P. W. Anderson. Theory of spin glasses. J. Phys. F, 5:965–974, 1975. [61] Giorgio Parisi. Infinite number of order parameters for spin-glasses. Phys. Rev. Lett., 43:1754–1756, Dec 1979. V [62] Giorgio Parisi. Order parameter for spin-glasses. Phys. Rev. Lett., 50:1946–1948, Jun 1983. [63] D.J. Amit, H. Gutfreund, and H. Sompolinsky. Spin glass models of neural networks. Phys. Rev. A, 32:1007, 1987. [64] D.J. Amit, H. Gutfrend, and H. Sompolinsky. Statistical mechanics of neural networks near saturation. Ann. Phys. (New York), 173:30, 1987. VI