Identificazione di muoni nell`esperimento LHCb mediante

annuncio pubblicitario

Università degli studi di Firenze
Facoltà di Scienze Matematiche Fisiche e Naturali
Corso di Laurea Magistrale in Scienze Fisiche ed Astrofisiche
Identificazione di muoni nell’esperimento
LHCb mediante ricostruzione di tracce con reti
neurali ricorsive
Muon identification in the LHCb experiment through track
reconstruction with recurrent neural netwoks
Anno Accademico 2011/2012
Candidato:
Tommaso Mazzoni
Relatore:
Dott. Giovanni Passaleva
Correlatore: Prof. Gregorio Landi
Indice
Introduzione
1
1 LHC e l’esperimento LHCb
1.1 LHC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 L’esperimento LHCb . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 VErtex LOcator . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Il magnete . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Il sistema di tracciamento . . . . . . . . . . . . . . . .
1.2.4 I rivelatori Cherenkov . . . . . . . . . . . . . . . . . .
1.2.5 I calorimetri . . . . . . . . . . . . . . . . . . . . . . . .
1.2.6 Il rivelatore di muoni . . . . . . . . . . . . . . . . . . .
1.2.7 Il sistema di trigger . . . . . . . . . . . . . . . . . . . .
1.2.8 Il software di LHCb . . . . . . . . . . . . . . . . . . . .
1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni
1.4 Procedura di identificazione dei muoni . . . . . . . . . . . . .
3
3
6
6
8
8
8
9
10
15
16
18
20
2 Le Reti Neurali ricorsive
2.1 Dal neurone di McCulloch e Pitts al Perceptron . . . . . . .
2.2 Il modello di Hopfield . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Vetri di spin . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Approssimazione di campo medio . . . . . . . . . . .
2.3 Reti Neurali continue . . . . . . . . . . . . . . . . . . . . . .
2.4 Ottimizzazione combinatoriale . . . . . . . . . . . . . . . . .
2.4.1 Albero Ricoprente Minimo . . . . . . . . . . . . . . .
2.4.2 Il problema del Commesso Viaggiatore . . . . . . . .
2.5 Risoluzione di problemi di ottimizzazione con metodi neurali
2.5.1 Simulated-Annealing . . . . . . . . . . . . . . . . . .
2.5.2 Mean-Field Annealing . . . . . . . . . . . . . . . . .
2.6 La ricostruzione di tracce . . . . . . . . . . . . . . . . . . . .
2.7 Il metodo di Denby . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 L’algoritmo per la dinamica . . . . . . . . . . . . . .
23
24
26
27
29
30
32
32
34
34
34
35
36
38
39
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.7.2
2.7.3
La scelta dei pesi . . . . . . . . . . . . . . . . . . . . . 41
La funzione di costo . . . . . . . . . . . . . . . . . . . 43
3 Ricostruzione di tracce nel rivelatore di muoni
3.1 La costruzione dei neuroni . . . . . . . . . . . .
3.2 La selezione dei neuroni . . . . . . . . . . . . .
3.2.1 La determinazione dei pesi . . . . . . . .
3.3 L’implementazione del Mean-Field Annealing .
3.4 La parallelizzazione del Mean-Field Annealing .
3.5 La costruzione delle tracce . . . . . . . . . . . .
3.6 Ottimizzazione dei parametri della rete . . . . .
3.7 Prestazioni della rete . . . . . . . . . . . . . . .
di LHCb
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.1 La definizione di “muone” . . . . . . . . . . . . . . . . .
4.2 Studio dell’efficienza di identificazione con il Monte Carlo
4.3 Studio dell’efficienza col metodo di tag and probe . . . .
4.3.1 Eventi Monte Carlo . . . . . . . . . . . . . . . . .
4.3.2 Dati . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Confronto con il metodo IsMuon . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
46
46
49
52
53
54
55
55
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
67
71
72
75
Conclusioni
79
A Meccanica Statistica dei vetri di spin
A1
Bibliografia
I
ii
Introduzione
Negli esperimenti di fisica delle alte energie è di fondamentale importanza
poter misurare le traiettorie delle particelle che hanno interagito con i rivelatori. Grazie alle tracce è infatti possibile misurare l’impulso e la carica delle
particelle con l’ausilio di un campo magnetico e determinarne la natura. La
ricostruzione delle tracce avviene grazie a particolari rivelatori sensibili alla
posizione e grazie ad algoritmi che, partendo dai dati dei rivelatori, sono in
grado di determinare la traiettoria delle particelle.
In particolare questo lavoro di Tesi affronterà il problema della ricostruzione di tracce nel rivelatore di muoni dell’esperimento LHCb con una rete
neurale ricorsiva. Vedremo come sia possibile utilizzare una rete di Hopfield per risolvere un problema di ottimizzazione combinatoriale e di come la
ricostruzione delle tracce sia riconducibile a uno di questi problemi.
Le tracce ricostruite serviranno ad identificare i muoni che attraversano il
rivelatore di muoni di LHCb; vedremo infatti che identificare queste particelle
è di fondamentale importanza per lo studio dei mesoni B di cui si occupa
l’esperimento in questione.
All’esperimento LHCb e alla fisica che si vuole studiare con esso è dedicato
il Capitolo 1, dove sarà data anche una descrizione dell’acceleratore LHC e
sarà spiegato il problema dell’identificazione dei muoni.
Nel Capitolo 2 verranno introdotte le reti neurali ricorsive in relazione ai
problemi di ottimizzazione con particolare riferimento alla ricostruzione di
tracce.
Il Capitolo 3 è dedicato al metodo utilizzato in questo lavoro di Tesi per
la ricostruzione delle tracce nel rivelatore di muoni dell’esperimento LHCb.
Verrà descritta nel dettaglio la rete neurale sotto i vari aspetti: la creazione
dei neuroni, l’evoluzione della rete e la costruzione delle tracce.
Il problema dell’identificazione dei muoni utilizzando le tracce ricostruite
sarà descritto nel Capitolo 4. L’analisi si basa sulla misura dell’efficienza di
identificazione sulla probabilità di misidentificazione, ovvero sullo studio di
quanti muoni vengono identificati correttamente e di quante volte si sbaglia
nella ricostruzione.
1
Introduzione
La ricostruzione delle tracce e l’analisi delle stesse sono state eseguite su
un campione di eventi simulati con il Monte Carlo e su un campione di dati
selezionati.
2
Capitolo 1
LHC e l’esperimento LHCb
LHCb è uno degli esperimenti installati al Large Hadron Collider (LHC), l’anello di accumulazione protone-protone del CERN di Ginevra, ed è dedicato
allo studio della fisica dei mesoni B. Lo scopo principale dell’esperimento è
la ricerca di evidenze indirette di nuova fisica che si possono manifestare in
decadimenti rari dei mesoni B e D e in processi che violano la simmetria CP.
1.1
LHC
LHC [1] è l’acceleratore di particelle più grande mai costruito, si trova in un
tunnel sotterraneo circolare con una circonferenza di circa 27 km. Il tunnel
contiene i due tubi1 all’interno dei quali scorrono i due fasci di protoni accelerati in direzioni opposte, i magneti superconduttori, i sistemi di accelerazione,
gli esperimenti e il sistema criogenico a elio liquido (Figura 1.1).
I magneti superconduttori che servono per curvare e focalizzare i fasci
all’interno dei tubi, sono realizzati in NbTi e raffreddati in bagno termico di
elio liquido a circa 1.9 ◦ K. A questa temperatura la lega metallica si comporta
da superconduttore rendendo possibile la generazione di campi magnetici
elevati (fino a 8 T ) necessari a mantenere i protoni nelle loro orbite.
Il sistema di accelerazione delle particelle (vedi Figura 1.2) è composto
da una serie di acceleratori che portano all’iniezione di fasci di protoni con
energia pari a 450 GeV2 in LHC per la successiva accelerazione fino all’energia
nominale.
L’acceleratore
√è progettato per raggiungere energie di collisione34nel centro
di massa pari a s = 14T eV e una luminosità istantanea L = 10 cm−2 s−1 .
A LHC sono installati quattro grandi esperimenti:
1
2
detti beam pipes
1eV = 1.60217653 × 10−19 J
3
1 LHC e l’esperimento LHCb
1.1 LHC
Figura 1.1: L’acceleratore LHC ed i principali esperimenti
• CMS, Compact Muon Solenoid
• ATLAS, A Toroidal LHC ApparatuS
• LHCb, Large Hadron Collider beauty experiment
• ALICE, A Large Ion Collider Experiment.
I primi due esperimenti sono simili come concetto ma diversi nella realizzazione e puntano a fare misure per lo studio del Modello Standard (MS) e le
sue eventuali estensioni, in particolare attraverso l’individuazione del bosone
di Higgs. Di LHCb sarà data in seguito una descrizione più approfondita.
ALICE a differenza dei primi tre è progettato per osservare eventi generati
dalla collisione di ioni pesanti per lo studio di stati di aggregazione della
materia ad elevata densità3 .
Oltre a questi esperimenti ve ne sono due minori:
• LHCf, Large Hadron Collider foward
3
il cosiddetto plasma di quark e gluoni
4
1 LHC e l’esperimento LHCb
1.1 LHC
Figura 1.2: Sistema di accelerazione di LHC ed i principali esperimenti
• TOTEM, TOTal Elastic and diffractive cross section Measurement
LHCf è posto a 140 m da ATLAS e serve per effettuare misure di sezione
d’urto di produzione di π 0 utili per la fisica dei raggi cosmici. Infatti l’energia
nel centro di massa di 14 T eV corrisponde ad una collisione su bersaglio fisso
ad un’energia pari a circa 1017 eV , interessante per lo studio dei raggi cosmici
di altissima energia.
TOTEM infine è dedicato allo studio della sezione d’urto totale pp.
Attualmente LHC sta funzionando ad un’energia nel centro di massa pari
a 8 T eV dopo due anni di operazioni a 7 T eV . Durante il 2013-2014 l’acceleratore sarà fermo per la realizzazione di una serie di migliorie che lo
porteranno, nella seconda metà del 2014 a funzionare all’energia nominale di
14 T eV .
5
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
1.2
L’esperimento LHCb
LHCb ha come obbiettivo lo studio dei mesoni B [2] [3], con particolare
riferimento ai decadimenti rari e a effetti di violazione della simmetria CP
che possono dare importanti indicazioni sull’esistenza di nuova fisica. Alle
energie di LHC la produzione di adroni formati dai quark beauty (o bottom) e
i corrispettivi antiquark, che indicheremo con b e b̄, avviene prevalentemente
all’interno di un cono a piccolo angolo polare. Di conseguenza LHCb è uno
spettrometro a braccio singolo che copre un angolo di 300 mrad nel piano zx
e 250 mrad nel piano zy 4 .
Alle energie e luminosità
√ nominali di LHC la sezione d’urto√di produzione
di coppie bb̄ è elevata: a s = 14 T eV si ha σbb̄ ≈ 500 µb; a s = 7 T eV si
ha σbb̄ ≈ (288 ± 4 ± 44) µb come misurato direttamente da LHCb [4]. Inoltre
l’energia nel centro di massa permette la produzione di tutti i tipi di mesoni
e barioni B, al contario di quanto avviene alle b-factories elettrone-positrone
dove si possono produrre solo i mesoni B 0 .
L’esperimento LHCb [5] (vedi Fig. 1.3) e’ costituito da un rivelatore di
vertice (Vertex Locator o VELO), da un sistema di tracciamento costituito
da due stazioni di rivelatori al silicio (Trigger Tracker o TT), dal magnete
dipolare e da tre stazioni equipaggiate con straw tubes e rivelatori al silicio,
da due rivelatori Ring Imaging Cherenkov (RICH1 e RICH2) per l’identificazione delle particelle cariche, dai calorimetri elettromagnetico ed adronico
(ECAL e HCAL) e dal rivelatore di muoni. Nei prossimi paragrafi verranno
descritti i vari elementi di LHCb.
1.2.1
VErtex LOcator
Il rivelatore di vertice [6] (VELO) ha come obiettivo la ricostruzione dei vertici di interazione primari e secondari, fondamentale per lo studio dei mesoni
B. Il sistema è composto da 25 stazioni circolari, costituite da due dischi (in
realtà quattro semi-dischi), posizionate perpendicolarmente al fascio. I rivelatori sono a miscrostrisce di silicio disposte in direzione radiale e azimutale,
in grado di coprire un angolo di 182◦ per un totale di circa 200000 strisce.
La risoluzione misurata per la ricostruzione di un vertice primario è 42 µm
lungo l’asse z e 10 µm sul piano perpendicolare. La precisione nella ricostruzione del tempo proprio delle particelle è di ∼ 40 f s. Il VELO dispone anche
di un sottosistema detto PILE UP VETO costituito da due dischi di rivelatori posizionati a monte del vertice di interazione primario. Il suo scopo è
4
Il sistema di riferimento è scelto in modo da avere z che parta dal punto di interazione
primario verso il rivelatore di muoni, l’asse y è posto lungo la direzione campo magnetico
e diretto verso l’alto e l’asse x scelto in modo la completare una terna destrorsa.
6
1 LHC e l’esperimento LHCb
Figura 1.3: Rappresentazione di LHCb nel piano zy
1.2 L’esperimento LHCb
7
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
quello di contare il numero di vertici primari in un singolo incrocio dei fasci
e viene usato dal primo livello del trigger per identificare gli eventi in cui si
ha più di un vertice di interazione protone-protone.
1.2.2
Il magnete
Il magnete [7] utilizzato in LHCb è un magnete dipolare in grado di generare
un campo orientato verticalmente (asse y) con un valore massimo di 1.1 T .
La polarità del campo viene periodicamente invertita per ridurre gli errori
sistematici introdotti nelle misure da un’eventuale asimmetria del rivelatore
nella direzione x. Le particelle che attraversano il magnete sono soggette ad
un campo medio integrato pari a 4 T m.
1.2.3
Il sistema di tracciamento
Il sistema di tracciamento è suddiviso in due parti. La prima è costituita
da una sola stazione detta Trigger Tracker (TT) che è posta tra il RICH1
e il magnete e la seconda è composta da tre stazione (T1-T3) poste tra il
magnete e il RICH2.
Il Trigger Tracker è formato da quattro piani di rivelatori a microstrisce
di silicio e ha principalmente due scopi. Il primo, intuibile anche dal suo
nome, è quello di fornire al trigger di alto livello una prima rapida informazione sull’impulso trasverso delle tracce con grande parametro di impatto; il
secondo è quello di ricostruire le tracce di particelle con basso impulso che
non arrivano a T1.
Le tre stazioni successive sono a loro volta suddivise in due regioni distinte, l’inner tracker [8] e l’outer tracker [9]. L’inner tracker copre la superficie
più vicina al tubo del fascio ed formata anch’essa da rivelatori a microstrisce
di silicio, l’outer tracker invece è realizzato con straw tubes con risoluzione
spaziale di 200 µm e ricopre la regione più esterna. Ciascuna stazione è formata da quattro piani di rivelatori: i due piani più esterni sono letti lungo la
direzione x mentre il secondo e il terzo sono letti lungo la direzione ruotata
rispettivamente di +5◦ e −5◦ rispetto all’asse y (geometria xuvx). Questa
particolare geometria permette di misurare la coordinata y e contemporaneamente di risolvere le ambiguità nella determinazione dei punti in cui la
particella ha attraversato la stazione.
1.2.4
I rivelatori Cherenkov
Sono presenti nell’esperimento due Ring Imaging CHerenkov (RICH1, RICH2) [10], le cui misure servono per l’identificazione di particelle cariche. Il
8
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
RICH1 è posto tra il VELO e il magnete e ha un accettanza tale da coprire
per intero quella di LHCb; grazie alla scelta dei materiali di cui sono costituiti i radiatori (aerogel di silicio e gas C4 F10 ) questo rivelatore si presta alla
misura di paricelle con basso impulso: infatti è in grado di distinguere5 π e
K con impulsi compresi tra 10 GeV /c e 60 GeV /c.
Il secondo rivelatore, il RICH2, ha un’accettanza minore e non copre
per intero quella dell’esperimento. Il gas radiatore (CF4 ) permette però di
separare π da K per impulsi fino a 100 GeV /c. Per entrambi i rivelatori la
luce prodotta per effetto Cherenkov viene focalizzata tramite un sistema di
specchi su due piani di rivelatori posti al di fuori dell’angolo di accettanza.
La tecnologia scelta per la rivelazione dei fotoni è quella dei Pixel Hybrid
Photon Detector (HPD): in questi particolari fotomoltiplicatori l’anodo è
rappresentato da un sensore a pixel di silicio sul quale, con opportuni campi
elettrici, vengono focalizzati i fotoelettroni prodotti nel fotocatodo.
1.2.5
I calorimetri
I calorimetri hanno la funzione di misurare l’energia di elettroni, fotoni e
adroni; queste informazioni sono usate anche per il sistema di trigger.
Il sistema è costituito principalmente da due calorimetri, uno elettromagnetico (ECAL) e uno adronico (HCAL) [11]. A monte di essi sono presenti
due strati di scintillatori: il PreShower (PS) e lo Scintillator Pad Detector
(SPD), che hanno il compito di separare le particelle cariche da quelle neutre
(che non vi interagiscono) e di innescare la formazione degli sciami elettromagnetici subito prima del calorimetro, rendendo cosı̀ più facile l’identificazione
di elettroni e fotoni.
L’ECAL è un calorimetro a campionamento costituito da piani di scintillatori spessi 4 mm e strati di piombo spessi 2 mm e copre circa 25 lunghezze
di radiazione. Il suo scopo è quello di identificare elettroni e fotoni e di
misurarne l’energia; la risoluzione energetica del calorimetro è
σ(E)
10%
= √ ⊕ 1.5%
E
E
dove l’energia misurata E è in GeV . I dati forniti da ECAL e PS sono
utilizzati per separare elettroni e fotoni dagli adroni che interagiscono in
modo predominante nel calorimetro adronico.
HCAL è anch’esso un calorimetro a campionamento, con strati di scintillatore alternati a strati di assorbitore in ferro, spessi rispettivamente 4 mm e
5
Noto l’impulso di una particella, la misura della sua velocità tramite un RICH
permette di identificarla o perlomeno di poter calcolare la sua massa.
9
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
16 mm; lungo la direzione z copre circa 5.6 lunghezze di interazione e la sua
risoluzione energetica è
80%
σ(E)
= √ ⊕ 10%
E
E
dove l’energia misurata E è sempre in GeV .
1.2.6
Il rivelatore di muoni
Molti decadimenti dei mesoni B di fondamentale importanza per il programma di fisica di LHCb contengono muoni negli stati finali. Si pensi ad esempio
al decadimento raro Bs → µ+ µ− o ai decadimenti
Bd0 → J/ψ(µµ)KS
Bs0 → J/ψ(µµ)φ
molto importanti per lo studio della violazione di CP.
Inoltre un muone con alto impulso trasverso con buona probabilità proviene dal decadimento di un adrone contenente il quark b ed è perciò importante
avere un trigger che possa selezionare eventi basandosi su questa particolare
caratteristica.
Il rivelatore di muoni di LHCb [12] è costituito da cinque stazioni: M1, a
monte dei calorimetri, e M2-M5 a valle degli stessi; ogni stazione è divisa in
quattro regioni: la più centrale è detta R1, la più esterna R4.
I rivelatori utilizzati sono quasi tutti camere proporzionali multifilo (Multi Wire Proportional Chambers o MWPC), tranne nella regione più interna della prima stazione dove si utilizzano rivelatori Gas Electron Multiplier
(GEM) [13]. Infatti, essendo questa regione molto vicina alla linea del fascio
e a monte dei calorimetri, è soggetta ad un flusso di particelle estremamente
elevato e deve perciò essere equipaggiata con rivelatori capaci di sostenere
alti rate di particelle come, appunto, i rivelatori GEM.
La struttura
Le cinque stazioni del rivelatore sono poste lungo l’asse del fascio e coprono
un’accettanza di 306 mrad su xz e 258 mrad su yz. Questo significa che a
quasi 20 m di distanza dal punto di interazione l’ultima stazione copre una
superficie di 11.9×9.9 m2 : questi rivelatori coprono una grande area e la scelta
del tipo di strumentazione dipende soprattutto da questo fattore. I muoni alle
energie a cui siamo interessati interagiscono poco con la materia e riescono
ad attraversare grandi quantità di materia a differenza delle altre particelle.
Questa caratteristica dei muoni ne permette un’identificazione relativamente
semplice in quanto saranno le uniche particelle a superare i calorimetri e
10
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
a lasciare tracce nel rivelatore per muoni. Per accentuare questo effetto di
“filtro” le stazioni da M2 a M5 sono separate tra loro da strati di 80 cm di
ferro. Attraversando i calorimetri e gli strati di ferro i muoni rilasceranno
Figura 1.4: Il grafico rappresenta la risoluzione della misura dell’impulso
trasverso in funzione dell’impulso. Sono riportati i principali
contributi.
comunque energia e per l’effetto dello scattering multiplo saranno deviati
dalla loro traiettoria rettilinea: la scelta dei rivelatori e della loro risoluzione
spaziale è stata ottimizzata tenendo conto di questo effetto importante, come
riportato nel grafico di Figura 1.4.
Ogni stazione del rivelatore è divisa in quattro regioni, numerate da R1
a R4 a partire dalla più interna, le cui dimensioni scalano allontanandosi dal
centro verso l’esterno con proporzionalità 1 : 2 : 4 : 8. Questo fa si che il
flusso di particelle in ogni regione sia circa costante. Le stazioni sono anche
divise in quadranti numerati da Q1 a Q4 in senso antiorario a partire da
quello nell’angolo superiore sinistro guardando in direzione dell’asse z. In
Figura 1.5 è riportato il quadrante Q4 della stazione M1.
La lettura dell’informazione
Nel rivelatore di muoni tutte le camere sono segmentate in pad fisiche, ovvero
elettrodi di raccolta della carica connessi ad un canale dell’elettronica. Nelle
MWPC la lettura può essere fatta sia sull’anodo che sul catodo, pertanto le
pad fisiche possono essere costituite sia da gruppi di fili che da pad catodiche.
Nei rivelatori GEM invece la lettura può essere fatta solo sull’anodo, quindi le
pad fisiche sono soltanto di tipo anodico. Ogni pad fisica è letta da un canale
11
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
Figura 1.5: Quadrante Q4 di una stazione con dettaglio della segmentazione in pad dei rivelatori.
di elettronica di Front-End (FE) basato su circuiti integrati particolarmente resistenti alle radiazioni. L’elettronica di FE è costituita da una catena
amplificatore/formatore/discriminatore: la risposta è pertanto binaria e non
si ha informazione sulla carica rilasciata nei rivelatori. Lo stadio di ingresso
può ricevere segnali di entrambe le polarità, positivi per le pad catodiche e
negativi per le pad anodiche. L’elettronica include anche alcune unità logiche in grado di mettere in OR tra loro un numero variabile di schede di FE,
secondo le esigenze di lettura.
La lettura dell’informazione binaria relativa al passaggio della particella
viene fatta suddividendo ciascuna stazione in unità logiche, dette pad logiche,
ottenute da opportune combinazioni delle pad fisiche. Le loro dimensioni, che
determinano la risoluzione del rivelatore nelle due direzioni x e y, scalano di
un fattore 2 procedendo dalla regione R1 alla regione R4 e sono proiettive
in y rispetto al punto di interazione. Se confrontiamo le dimensioni delle
12
1 LHC e l’esperimento LHCb
z (cm)
∆x (cm)
∆y (cm)
R1 Pad logiche
Dim. pad (cm2 )
R2 Pad logiche
Dim. pad (cm2 )
R3 Pad logiche
Dim. pad (cm2 )
R4 Pad logiche
Dim. pad (cm2 )
1.2 L’esperimento LHCb
M1
M2
M3
M4
M5
1210
1527
1647
1767
1887
384
480
518
556
594
320
400
432
464
495
24 * 8
48 * 8
48 * 8
12 * 8
12 * 8
1 × 2.5 0.5 × 2.5 0.5 × 2.5 2 × 2.5 2 × 2.5
24 * 4
48 * 4
48 * 4
12 * 4
12 * 4
2×5
1×5
1×5
4×5
4×5
24 * 2
48 * 2
48 * 2
12 * 2
12 * 2
4 × 10
2 × 10
2 × 10
8 × 10 8 × 10
12 * 1
24 * 1
24 * 1
6*1
6*1
8 × 20
4 × 20
4 × 20
16 × 20 16 × 20
Tabella 1.1: Informazioni sulle stazioni M1-M5. Nella tabella si riporta
la distanza z di ciascuna stazione dal punto di interazione,
le dimensioni ∆x (cm) e ∆y (cm) di un quadrante in ciascuna stazione, il numero e le dimensioni delle pad logiche per
camera. Le pad sono proiettate su M1: per ottenere le vere
dimensioni occorre moltiplicarle per la quantità zM i /zM 1 .
pad fisiche con la risoluzione spaziale richiesta si possono determinare due
situazioni. Per limitare il flusso, e di conseguenza il rumore e il tempo morto,
la superficie delle pad fisiche deve essere piccola: per questo motivo in molte
camere, le dimensioni delle pad sono inferiori alla risoluzione spaziale richiesta. In questi casi vengono collegate in OR sulle schede di FE fino a quattro
pad fisiche adiacenti, per costruire un’unica pad logica. Quando invece la
risoluzione è inferiore alle dimensioni delle pad fisiche si adotta una lettura
mista di catodo e fili: una striscia di fili e una pad catodica costituiscono
i canali logici letti dal trigger. Mettendo in AND il gruppo di fili e le pad
catodiche si risale alle pad logiche. Questo è ciò che avviene nelle regioni
più interne (R1, R2) delle stazioni M2 e M3, dove la risoluzione necessaria
richiederebbe pad molto piccole e, di conseguenza, un numero eccessivo di
canali di lettura. Per ridurre ulteriormente il numero di cavi che raccolgono
il segnale dall’ elettronica di FE, diverse pad logiche adiacenti sono messe
in OR tra loro per formare i canali logici, che si presentano come strisce
orizzontali e verticali.
Successivamente le pad logiche sono ricostruite incrociando i canali logici
nel processore del trigger di primo livello o sulle schede di acquisizione, dette
TELL1 [14], oppure nel software di ricostruzione. I quadranti Q1-Q4 sono
ulteriormente segmentati in settori, contenenti un determinato numero di pad
13
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
logiche: i settori sono gli elementi processati in parallelo dal primo livello
di trigger. Il rivelatore di muoni comprende in totale 122112 canali fisici
messi in OR per formare 25920 canali logici dai quali vengono trasmessi i
segnali al primo livello del trigger e all’elettronica del sistema di acquisizione.
Dalle combinazioni tra i canali logici nel primo livello del trigger e nel HLT
si ottengono 55296 pad logiche che possono essere usate per ricostruire le
tracce dei muoni. La segmentazione in settori, pad logiche e canali logici
è illustrata in Figura 1.5. In Tabella 1.1 invece sono riportati alcuni dei
principali parametri delle cinque stazioni, come l’area delle regioni R1-R4 e
le dimensioni delle pad logiche proiettate sulla stazione M1.
Multi Wire Proportional Chambers
Il rivelatore di muoni di LHCb comprende 1386 camere a fili proporzionali.
Le camere delle stazioni M2-M5 sono composte di quattro piani di fili posti
a uguale distanza l’uno dall’altro, collegati in OR due a due e collegati alla
stessa elettronica di FE, come mostrato in Figura 1.6: in questo modo ogni
camera è costituita da quattro piani di rivelazione. Le camere della stazione
M1 invece sono composte da due soli piani di fili, per minimizzare la quantità di materiale davanti al calorimetro elettromagnetico. Per raggiungere
la risoluzione temporale necessaria è stata scelta una miscela di gas formata
da Ar/CO2 /CF4 in rapporto 40:55:5. Con questa geometria e alla tensione di lavoro di 2600 − 2700 V si raggiunge un’efficienza superiore al 95% e
tale efficienza non varia molto all’aumentare del flusso di particelle interagenti. Durante la costruzione e l’assemblaggio, le varie parti delle camere
sono state sottoposte a numerosi test di qualità. Inoltre, una volta ultimata
la costruzione, si è verificato che le prestazioni delle camere (in particolare il
guadagno) non si deteriorassero in presenza di una alta dose di radiazione,
come quella attesa durante la presa dati di LHCb.
Gas Electron Multiplier
Come già accennato questo tipo di rivelatori è stato scelto per la regione
più interna (R1) della stazione M1, la quale si trova sottoposta a flussi di
radiazione molto intensi: in questa zona sono necessari rivelatori capaci di
sopportare fino a 80 − 100 kHz/cm2 di flusso di particelle cariche. Le camere
che sono montate in questa regione del rivelatore di muoni sono costituite da
due piani di rivelatori a tripla GEM messi in OR tra loro. Ogni rivelatore
è costituito da tre fogli forati di Kapton dello spessore di 50 µm posti tra
un piano anodico e uno catodico: i fori sono equidistanti l’uno dall’altro e
di forma biconica, dove il diametro esterno misura 70 µm e quello interno
14
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
Figura 1.6: Sezione di una camera a fili di LHCb. I quattro piani di fili
sono messi in OR a coppie e collegati alla stessa elettronica di
lettura.
misura 50 µm. La miscela di gas usata è composta da Ar/CO2 /CF4 in
proporzione 45:15:40, la quale permette di raggiungere una risoluzione temporale inferiore a 3 ns. Gli elettroni di ionizzazione prodotti nella zona di
drift vengono accelerati e moltiplicati dal campo elettrico attraverso i fori.
Una volta oltrepassato l’ultimo foglio gli elettroni si muovono verso l’anodo,
dove inducono un segnale. In questo tipo di camere solo il piano anodico è
segmentato in pad e collegato all’elettronica di lettura.
1.2.7
Il sistema di trigger
La luminosità attuale di LHC e il rate di collisioni permettono la produzione
di eventi con una frequenza di 40 M Hz. Il sistema di trigger [15] deve selezionare solo quelli interessanti per lo studio desiderato. Infatti la frequenza
di produzione di coppie bb̄ è di circa 100 kHz di cui solo il 15% rientra in
accettanza.
Il trigger è suddiviso in due livelli: il primo livello, o Level 0 (L0), e il
trigger di alto livello, o High Level Trigger (HLT). Il primo livello riduce la
frequenza di acquisizione da 40 M Hz a 1 M Hz a cui è possibile utilizzare il
secondo livello. Il sistema seleziona gli eventi che contengono leptoni, adroni
o fotoni con alto impulso trasverso in quanto possibili canali di decadimento
di adroni b. L0 sfrutta le informazioni dei calorimetri e del rivelatore di
muoni.
15
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
Figura 1.7: Sezione di rivelatore a tripla GEM.
Il trigger L0 è basato interamente su processori veloci dedicati che elaborano le informazioni provenienti direttamente dai calorimetri e dal rivelatore
di muoni.
Il trigger di livello più alto, o High Level Trigger (HLT) ha accesso ai
dati di tutti i sottorivelatori e ha lo scopo di scartare gli eventi che non
contengono un decadimento b di interesse, fino a ridurre la frequenza a circa
2 kHz. L’algoritmo ricostruisce per intero gli eventi partendo dalle tracce
nel VELO e successivamente in tutte le stazioni del tracciatore (T1-T3) e li
classifica in varie categorie.
Il trigger HLT è un trigger software, basato su programmi di ricostruzione
e selezione che girano su una farm di calcolatori dedicata allo scopo.
1.2.8
Il software di LHCb
Tutte le applicazioni software di LHCb che sono utilizzate nel trattamento
dei dati sono basate su una struttura generale scritta in linguaggio C++ che
si chiama GAUDI [16]. GAUDI è stato progettato per essere utilizzato a tutti
gli stadi dell’analisi: al suo interno sono implementati diversi pacchetti, che
16
1 LHC e l’esperimento LHCb
1.2 L’esperimento LHCb
gestiscono ognuno uno stadio dell’elaborazione, dalla generazione di eventi
Monte Carlo all’analisi fisica. Le principali applicazioni di GAUDI sono qui
di seguito brevemente descritte:
• GAUSS [17] è l’applicazione che gestisce le fasi di generazione e simulazione in LHCb: la prima consiste nella generazione delle collisioni
pp e dei decadimenti dei prodotti di esse, mentre la seconda simula
le traiettorie delle particelle prodotte tenendo conto delle interazioni
con i materiali che costituiscono i sottorivelatori, della geometria del
rivelatore e in generale di tutti i processi fisici. GAUSS è interfacciato
con diverse applicazioni: per la parte di generazione delle interazioni
pp utilizza PYTHIA [18], per la simulazione dei decadimenti dei mesoni B EVTGEN [19], mentre per la simulazione del rivelatore utilizza
GEANT4 [20].
• BOOLE [21] è la fase finale della simulazione degli eventi: genera la
risposta dei rivelatori agli hit generati da GEANT4 producendo i segnali digitalizzati che simulano la reale risposta dei rivelatori. In più
vengono aggiunti eventi a bassa energia, dovuti al fondo, oppure hit
prodotti da precedenti collisioni. In questa fase si simulano anche gli
effetti strumentali del rivelatore, come ad esempio il cross talk, o il
rumore elettronico.
• MOORE [22] è l’applicazione che implementa l’HLT, viene utilizzato anche sulle simulazione di eventi proprio per simulare l’effetto del
trigger.
• BRUNEL [23] è il programma di ricostruzione: utilizza le informazioni
che provengono dalle varie parti del rivelatore per ricostruire le traiettorie delle particelle che compongono l’evento. Vengono inizialmente
ricostruite le cosiddette protoparticelle, particelle generiche a cui viene
assegnata la massa del pione, che possiedono le variabili cinematiche
delle tracce ricostruite. Alle protoparticelle vengono poi applicati gli
algoritmi di identificazione. BRUNEL può processare sia dati reali che
dati simulati provenienti da BOOLE.
• DAVINCI [24] è il pacchetto che effettua l’analisi cercando tra tutti
gli eventi ricostruiti i decadimenti che interessano. DAVINCI applica
algoritmi di selezione sulle protoparticelle ricostruite per identificare le
particelle. Queste vengono combinate insieme per ottenere i canali di
decadimento di interesse.
17
1 LHC e l’esperimento LHCb
1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni
L’ambiente grafico e di programmazione all’interno del quale si effettua l’ultima parte dell’analisi è ROOT [25]: ROOT permette di effettuare selezioni
sugli eventi, implementare procedure di fit, produrre grafici e istogrammi per
la presentazione dei risultati dell’analisi.
1.3
La fisica ad LHCb e il problema dell’identificazione dei muoni
Come già accennato nel paragrafo 1.2, l’esperimento LHCb è principalmente
dedicato allo studio dei mesoni B. La strategia generale che si segue in questo
tipo di studi è quella di individuare in modo indiretto segnali di fenomeni
fisici non previsti dal Modello Standard [26] [27] [28] studiando i decadimenti
dei mesoni B. Infatti, nuove particelle previste in modelli che superano
il Modello Standard, possono contribuire ai diagrammi di ordine superiore
(loop) che descrivono il decadimento.
In questo tipo di approccio si possono seguire essenzialmente due strade
complementari. Nella prima si studiano decadimenti molto rari e se ne misurano il branching ratio o altre caratteristiche come le distribuzioni angolari
delle particelle negli stati finali, e si confrontano con le previsioni del Modello
Standard. Ogni deviazione significativa dalle previsioni del Modello Standard
è una chiara indicazione della presenza di nuovi fenomeni e/o di nuove particelle. Questo metodo è, in linea di principio, sensibile alla presenza di nuove
particelle con masse anche molto maggiori di quelle accessibili per produzione
diretta nelle collisioni dei fasci ed è quindi complementare alle ricerche dirette
effettuate ad esperimenti come ATLAS o CMS. Un tipico esempio di questo
tipo di studi è la misura del branching ratio del decadimento Bs,d → µ+ µ−
descritto dai diagrammi mostrati in Figura 1.8. Nel Modello Standard, i rapporti di decadimento sono (3.2±0.2)×10−9 e (0.10±0.01)×10−9 per Bs e Bd
rispettivamente [29] [30]. Come si vede in Figura 1.8, tuttavia, ai diagrammi
previsti nel Modello Standard possono aggiungersi contributi dovuti a nuove
particelle come Higgs carichi, chargini e squarks (partner supersimmetrici dei
bosoni W e dei quark), che possono modificare in modo sensibile, fino ad un
ordine di grandezza o più, il branching ratio di questi decadimenti.
La seconda strada che si può percorrere è quella di studiare in modo dettagliato gli effetti di violazione di CP nei decadimenti dei mesoni B. Tramite
lo studio di questi effetti, si ha infatti accesso ai parametri della matrice di
Cabibbo-Kobayashi-Maskawa (matrice CKM) [31] [32] che descrive il mescolamento tra i quark nelle interazioni deboli. Si possono allora misurare con
grande precisione tali parametri e confrontarli con le previsioni teoriche del
18
1 LHC e l’esperimento LHCb
1.3 La fisica ad LHCb e il problema dell’identificazione dei muoni
(a)
(b)
Figura 1.8: Principali diagrammi che descrivono i decadimenti dei mesoni
Bs,d in due muoni In rosso e verde sono evidenziati i canali
previsti oltre il Modello Standard.
Modello Standard. Oppure si possono misurare i parametri della matrice
CKM utilizzando decadimenti a cui possono o meno contribuire nuove particelle, verificando se si osservano discrepanze tra tali misure alternative delle
medesime grandezze. Un tipico esempio di questo approccio è lo studio dei
decadimenti Bs → J/ψ(µ+ µ− )φ dove i contributi dovuti a nuove particelle
possono modificare in modo sensibile gli effetti di violazione di CP che sono
noti in modo molto preciso nel Modello Standard.
Si sarà notato che in entrambi gli esempi riportati, che sono considerati
“casi aurei” per il tipo di fisica che si studia ad LHCb, gli stati finali dei decadimenti contengono muoni. Ciò è vero per un gran numero di decadimenti
interessanti nella cosiddetta fisica dei sapori pesanti (cioè lo studio di mesoni
e barioni che contengono quark b e c). Perciò, dal punto di vista sperimentale, il problema dell’identificazione dei muoni, in questo tipo di fisica, è di
grande importanza.
Per identificazione dei muoni intendiamo una procedura per cui partendo dalla ricostruzione di una traccia nei rivelatori traccianti e combinando
questa informazione coi segnali prodotti nel rivelatore di muoni si arriva a
determinare se la traccia in esame sia prodotta effettivamente da un muone o meno. I muoni sono particelle particolarmente penetranti e quindi una
traccia che produca hit allineati nel rivelatore di muoni, che negli esperimenti
di fisica delle particelle è tipicamente il più lontano dal vertice primario di
interazione ed è ben schermato da numerosi strati di materiale, è facilmente associabile ad un muone. Tuttavia, soprattutto per muoni di impulso e
impulso trasverso relativamente bassi come quelli che si vogliono identificare
in LHCb, la procedura di identificazione non è sempre banale. In questo
capitolo descriveremo per sommi capi il metodo di identificazione dei muoni
utilizzato attualmente in LHCb. Questo ci permetterà di introdurre alcuni
concetti che ci saranno utili nel seguito del lavoro di Tesi. Lo scopo del no19
1 LHC e l’esperimento LHCb
1.4 Procedura di identificazione dei muoni
Impulso p (GeV /c)
Stazioni richieste n
3<p<6
M2 + M3
6 < p < 10
M2 + M3 + (M4 oppure M5)
p > 10
M2 + M3 + M4 + M5
Tabella 1.2: Stazioni richieste nella procedura di identificazione al variare
dell’impulso.
stro lavoro sarà quello di proporre un metodo alternativo di identificazione
dei muoni in LHCb basato sull’utilizzo di una rete neurale ricorsiva. Come
vedremo meglio nel Capitolo 3, l’idea è quella di ricostruire tracce nel rivelatore di muoni e di raccordarle in modo diretto alle tracce ricostruite nel
tracciatore mediante la rete neurale. Questo metodo permette di sfruttare
meglio le potenzialità di tracciamento del rivelatore di muoni che non sono
attualmente utilizzate. Infatti, come vedremo tra un attimo, l’algoritmo attuale si “accontenta” di verificare se, nelle vicinanze delle estrapolazioni delle
tracce alle stazioni del rivelatore di muoni ci siano o meno degli hit.
1.4
Procedura di identificazione dei muoni
La procedura di identificazione dei muoni si basa sui dati raccolti e in parte
elaborati provenienti dal rivelatore di muoni e dalla ricostruzione delle tracce.
Nota una traccia infatti è possibile calcolare l’impulso e l’impulso trasverso della particella che l’ha prodotta ed è inoltre possibile calcolare le
estrapolazioni di tale traccia sulle stazione del rivelatore di muoni. Se nelle
vicinanze di questi punti estrapolati è stato rivelato il passaggio di una particella allora la traccia è considerata appartenente ad un muone. Il numero
delle stazioni del rivelatore di muoni richieste per definire un muone dipende
dall’impulso come riportato in Tabella 1.2. Anche le aree sulle stazioni del
rivelatore, dette Field Of Interest o FOI, dove vengono ricercati i segnali
dipendono dall’impulso della particella: infatti un muone di alto impulso subirà meno deflessioni a causa dello scattering multiplo e ne sarà ricercato il
passaggio in un’area più piccola.
Il perché di questa differenza di richieste a seconda dell’impulso è da
ricercarsi nel grafico di Figura 1.9 che rappresenta la probabilità di un muone
di rilasciare segnale nelle diverse stazioni al variare dell’impulso. Un muone
infatti per quanto interagisca poco con la materia è comunque frenato dagli
strati di ferro del rivelatore di muoni e, come possiamo vedere dal grafico di
Figura 1.9, necessita in media di almeno 8 GeV /c di impulso per arrivare fino
a M5.
20
1 LHC e l’esperimento LHCb
1.4 Procedura di identificazione dei muoni
Figura 1.9: Probabilità per un muone di raggiungere ogni stazione in
funzione dell’impulso.
ǫID
MID
3 < p < 6 GeV /c 6 < p < 10 GeV /c
0.836 ± 0.009
0.958 ± 0.004
0.066 ± 0.008
0.055 ± 0.006
p > 10 GeV /c p > 3 GeV /c
0.983 ± 0.001 0.966 ± 0.002
0.020 ± 0.001 0.043 ± 0.001
Tabella 1.3: Efficienza di identificazione ǫID e probabilità di misidentificazione MID per la definizione IsMuon [34].
Riportiamo infine in Tabella 1.3 la misura dell’efficienza di identificazione ǫID e della probabilità di misidentificazione MID per questa procedura
(chiamata IsMuon) [33].
Questo sistema è sufficientemente performante e ha una probabilità di misidentificazione limitata. Tuttavia per come è costruita la definizione IsMuon,
l’efficienza di questo metodo di identificazione rischia di essere sensibile all’aumento del flusso di particelle previsto ad esempio nell’evoluzione di LHCb
ad alte luminosità. Infatti con un flusso di particelle più elevato le aree di interesse (o FOI) potrebbero contenere troppi hit, peggiorando cosı̀ la capacità
discriminatoria di questo sistema.
21
1 LHC e l’esperimento LHCb
1.4 Procedura di identificazione dei muoni
22
Capitolo 2
Le Reti Neurali ricorsive
Il metodo di calcolo delle Reti Neurali si ispira alla struttura delle reti neurali
biologiche e al loro modo di impostare e risolvere un problema [35].
Possiamo schematizzare le caratteristiche di una rete biologica nel modo
seguente:
• parallelismo: i singoli componenti della rete (i neuroni) agiscono in
parallelo;
• alta complessità delle connessioni: i neuroni hanno un elevato numero
di connessioni, il che porta ad un elevato numero di variabili e stati che
evolvono in parallelo;
• apprendimento: le connessioni tra neuroni e i loro stati cambiano nel
tempo accumulando cosı̀ esperienze;
• stati binari e variabili collettive: nella maggior parte dei casi lo stato di
un singolo neurone è binario (acceso/spento) ma la loro organizzazione
permette di avere stati collettivi descritti da variabili continue;
• organizzazione strutturale: i neuroni sono raggruppati in sottoreti, che
sono le basi dei processi celebrali, e in gruppi di sottoreti, che formano
aree responsabili di una specifica funzione.
Se proviamo a rapportare queste proprietà con quelle di un calcolatore sequenziale (architettura di Von Neumann1 ) ci accorgiamo di quanto
siano differenti: si passa infatti da architettura sequenziale a parallela, da
programmazione ad apprendimento, da attività sincrone ad asincrone.
1
L’architettura di Von Neumann è l’architettura hardware utilizzata nei comuni
calcolatori basati su un processori seriali programmabili
23
2 Le Reti Neurali ricorsive
2.1 Dal neurone di McCulloch e Pitts al Perceptron
Assone da un
altro neurone
Ramificazione
assonale
Sinapsi
Dendrite
Assone
Soma
Nucleo
Sinapsi
Figura 2.1: Neurone biologico
Vedremo in seguito come le caratteristiche di un rete biologica siano di
grande utilità nell’ambito della soluzione dei problemi di ottimizzazione di
cui vogliamo occuparci. Dobbiamo però prima soffermarci sul funzionamento
del neurone per capire come schematizzarlo mediante un algoritmo di calcolo.
Il singolo neurone è formato dal soma, da cui esce l’assone e si dirama
verso le sinapsi. Al soma convergono le dendriti che trasportano i segnali dei
neuroni presinaptici. Se la somma di tutti i segnali di ingresso ricevuti dal
soma supera una certa soglia allora viene trasferito un impulso dall’assone.
2.1
Dal neurone di McCulloch e Pitts al Perceptron
Il primo approccio alla schematizzazione del funzionamento del neurone in
forma computazionale si deve a McCulloch e Pitts che nel 1943 svillupparono
il seguente modello [36].
• lo stato del neurone è binario;
• per eccitare un neurone ad un certo istante devono attivarsi un determinato numero di sinapsi, indipendentemente dalla posizione del neurone
e dal suo stato precedente;
• il ritardo dell’evoluzione è il solo ritardo sinaptico;
24
2 Le Reti Neurali ricorsive
σ1
σ2
σ3
2.1 Dal neurone di McCulloch e Pitts al Perceptron
W1
W2
W3
N
X
i=1
σN
Wi σi − L
Θ(x)
σ out
WN
Figura 2.2: Neurone di Rosenblatt
• la struttura della rete non cambia nel tempo.
Si possono costruire circuiti logici elementari a partire dallo schema proposto cosicché un sistema di neuroni può implementare un macchina di Turing universale. Questo non basta però per poter costruire algoritmi adatti a
risolvere problemi di pattern recognition. Il primo strumento capace di fare
ciò nasce infatti nel 1958 quando Rosenblatt introduce il Perceptron [37].
Questo modello ripropone l’uscita binaria ma con più libertà su gli ingressi: una volta che i segnali d’ingresso, pesati per intensità della connessione
sinaptica, superano una certa soglia, il neurone si attiva, ovvero:
!
N
X
Wi σiinp − L
(2.1)
σ out = Θ
i=1
dove Wi è la costante di accoppiamento tra l’i-esimo neurone d’ingresso σiinp
e il neurone d’uscita σ out , L è una soglia, Θ è la funzione di Heaviside definita
nell’equazione 2.2 e la sommatoria si estende sugli N ingressi (vedi Figura
2.2).
1 se x ≥ 0
Θ(x) =
(2.2)
0 se x < 0
Questo sistema, per quanto affascinante, è comunque limitato e fu per
questo motivo oggetto di molte critiche in passato. Il passo decisivo nello studio delle reti neurali avvenne per merito di Hopfield che evidenziò un’analogia
tra una rete di neuroni e un sistema magnetico di spin.
25
2 Le Reti Neurali ricorsive
2.2 Il modello di Hopfield
S1
S2
S3
S4
S5
Jij
Figura 2.3: Rete di Hopfield
Questo permise di iniziare ad eseguire con queste reti neurali dei veri e
proprio calcoli.
2.2
Il modello di Hopfield
L’architettura del modello di Hopfield [38] è quella di una rete ricorsiva di
Perceptron completamente connessa, dove con ricorsiva e completamente connessa si intende una rete di cui l’uscita di ogni neurone è riportata all’ingresso di tutti gli altri, ma non a se stesso (Wii = 0); i pesi sono simmetrici
(Wij = Wji ) e il singolo neurone si comporta come quello di McCulloch e
Pitts (2.1), per cui è possibile scrivere in analogia con i vetri di spin l’energia
del sistema come:
X
1X
Wij σi σj +
Li σi ;
Wii = 0;
(2.3)
E=−
2 ij
i
dove si è usata la simbologia utilizzata nella formula 2.1. Scegliendo opportunamente i pesi Wij è possibile far coincidere gli stati di equilibrio dell’energia
potenziale con configurazioni predefinite che possono essere “riconosciute”.
In particolare si possono definire i pesi
p
1 X ν
Wij =
(2ξ − 1)(2ξjν − 1)
N ν=1 i
26
(2.4)
2 Le Reti Neurali ricorsive
2.2 Il modello di Hopfield
ν
dove ciascuno degli stati2 ξ ν = (ξ1ν , ξ2ν , ..., ξN
), con ν = 1, ..., p, è un attrattore
del sistema e la rete evolverà per raggiungerlo, se vi si trova sufficientemente
vicina, manifestando cosı̀ un comportamento da memoria associativa [38].
In questo lavoro di tesi studieremo un algoritmo di ottimizzazione in cui,
come vedremo, i pesi sono definiti in base alle caratteristiche del problema
da risolvere (la ricostruzione di tracce nel nostro caso) piuttosto che in base
a particolari configurazioni (pattern) da riconoscere.
2.2.1
Vetri di spin
Con il termine vetri di spin si intendono sistemi amorfi con impurezze magnetiche. Lo spin è una variabile quantistica delle particelle elementari a cui
è associato un momento di dipolo magnetico. Essendo trascurabile il contributo dei momenti magnetici dei nuclei degli atomi lo spin complessivo di
un’impurezza sarà dato dalla somma degli spin elettronici.
Si può infine definire lo spin dell’impurezza, o meglio la sua proiezione in
direzione z, come:
 1
 +2~
Sz =
 1
−2~
Se riassorbiamo le constanti, quello che otteniamo è un sistema di variabili
S ≡ (+1; −1) da cui possiamo passare a σ ≡ (1; 0) attraverso le seguenti
trasformazioni:
1
(2.5)
Si = (2σi − 1)
σi = (Si + 1)
2
Da qui in avanti ci riferiremo all’i-esimo stato di spin con Si , alla sua
media con Vi , all’accoppiamento con il j-esimo elemento con Jij e al campo
esterno agente su di esso con hi . Dove la media è definita come:
Vi ≡ hSi i =
+1 · P (Si = +1) + −1 · P (Si = −1)
P (Si = +1) + P (Si = −1)
con P (Si = Sei ) la probabilità dell’i-esimo spin di essere nello stato Sei .
L’i-esimo neurone avrà invece stato σi , media vi , peso con il j-esimo
neurone Wij e la soglia Li .
Le relazioni tra i due pesi sono facilmente ricavabili dalla definizione delle
trasformazioni 2.5.
Ridefinite le variabili è possibile riscrivere la (2.3) in funzione dei singoli
elementi ottenendo cosı̀ una funzione tipica di un sistema magnetico di spin
2
Sotto le dovute ipotesi di pseudo-ortogonalità dei vettori ξ e sul loro numero.
27
2 Le Reti Neurali ricorsive
2.2 Il modello di Hopfield
(Modello di Ising).
E=−
X
1X
Jij Si Sj +
hi Si
2 ij
i
(2.6)
Hopfield [39] ha dimostrato che la legge di aggiornamento locale dei singoli
spin
!
X
Jij Sj (t) − hi
(2.7)
Si (t + ∆t) = Θ
j
porta il sistema in uno dei minimi locali dell’energia E (2.6). Grazie all’analogia tra reti neurali (di Hopfield) e vetri di spin anche la dinamica neurale
porterà alla minimizzazione dell’energia 2.3.
Un sistema magnetico reale si evolverebbe con la legge 2.7 se la temperatura fosse zero. In un sistema statistico reale infatti la temperatura gioca un
ruolo fondamentale nell’evoluzione per cui introdurremo anche per la nostra
rete neurali il parametro “temperatura” T .
Data l’analogia tra i vetri di spin e le reti neurali è possibile studiare le
ultime utilizzando gli strumenti della meccanica statistica, ideati per risolvere
i problemi relativi ai primi.
In questo ambito di studio è di fondamentale importanza la funzione
di partizione Z che rappresenta la somma dei possibili stati pesati con la
temperatura e definita come
X
Z=
e−βE({Si })
(2.8)
∀{Si }
con β = 1/T , {Si } indica un qualunque insieme di valori degli spin e E({Si })
l’energia corrispondente.
Tramite la 2.8 è possibile introdurre la funzione energia libera F , definita
come
1
(2.9)
F = − ln Z = hEi − T S
β
dove con S si indica l’entropia del sistema e con h i si indicano i valori all’equilibrio termico. Questa funzione tende a diminuire e gli stati di equilibrio
corrispondono ai suoi minimi. Essendo il numero di spin (o neuroni) fissato
è possibile definire anche l’energia libera per elemento come
f (β) = −
1
ln Z
βN
dove N è il numero di elementi del sistema.
28
(2.10)
2 Le Reti Neurali ricorsive
2.2 Il modello di Hopfield
Per capire come l’introduzione della temperatura sia fondamentale per
l’evoluzione del sistema dobbiamo introdurre il seguente concetto: se cercassimo di rappresentare la funzione energia libera questa si presenterebbe
come un paesaggio a “valli”, delle quali dobbiamo ricercare la più profonda.
Una dinamica neurale come quella proposta in 2.7 non permette il passaggio
da una “valle” a un’altra in quanto cerca sempre di ridurre l’energia. Per
questo abbiamo bisogno delle fluttuazioni statistiche date dalla temperatura,
infatti per T 6= 0 è possibile una volta trovato un minimo locale passare in
una “valle” adiacente dando la possibilità di raggiungere il minimo globale.
Questo è il principio su cui si basano le dinamiche neurali di Annealing,
ovvero si ricerca un minimo e lentamente si diminuisce la temperatura fino
a che il sistema di non converge, con buone possibilità, al minimo globale
dell’energia. Affronteremo meglio quest’argomento nella sezione 2.5 quando
ci occuperemo delle strategie per l’ottimizzazione.
Per studiare l’evoluzione del sistema statistico serve quindi introdurre
una formulazione che tenga conto della temperatura, al contrario del metodo introdotto con la 2.7, ma che mantenga una legge di aggiornamento
degli elementi relativamente semplice e sia implementabile in un algoritmo.
Nell’appendice A verrà affrontato invece il problema della stabilità delle reti
introducendo un metodo rigoroso basato sullo studio della statistica dei vetri
di spin.
2.2.2
Approssimazione di campo medio
Il calcolo del campo medio si basa su un’approssimazione: viene trascurato
l’effetto del singolo spin rispetto al campo medio prodotto da tutto il sistema,
cosicché si possono trascurare anche le correlazioni tra gli spin.
L’energia all’equilibrio termico sarà quindi:
X
X
1X
1X
hEi = −
Jij hSi Sj i +
hi hSi i ∼
Jij hSi ihSj i +
hi hSi i
=−
2 ij
2 ij
i
i
All’equilibrio la probabilità che un sistema di spin si trovi in una determinata
configurazione sarà data da
P {Si } =
1 −βE({Si })
e
Z
dove Z è la funzione di partizione.
Il valor medio di Si sarà perciò:
Vi ≡ hSi i =
X Si e−βE({Si })
Z
∀{Si }
29
2 Le Reti Neurali ricorsive
2.3 Reti Neurali continue
da cui otteniamo
hSi i = htanh(β
X
Jij Sj + hi )i
(2.11)
j
con cui riscriveremo la 2.3 all’equilibrio termico in questa approssimazione
come:
X
1X
hEi = −
Jij Vi Vj +
hi Vi
(2.12)
2 ij
i
con (equazione di campo medio)
∂hEi
Vi = tanh −β
∂Vi
i = 1, ... , N
(2.13)
che per un sistema di neuroni (σ ≡ (1; 0) invece di S ≡ (+1; −1)) porta a
hσi i = vi =
1 + exp −β
1
P
j Wij σj + Li
(2.14)
Questo metodo permette quindi di poter calcolare lo stato medio del
singolo spin, e quindi del neurone, attraverso un calcolo semplice e veloce.
2.3
Reti Neurali continue
Un approccio semplice che porta alla scrittura di un’equazione simile a quella
della formula 2.13 e che dimostra la convergenza del metodo è quello di
prendere come modello una rete costituita da neuroni a risposta modulata
[40] invece che da quelli di binari.
Il vantaggio di questo tipo di reti è che è possibile costruirne un’implementazione con componenti elettronici come illustrato in Figura 2.4 [41]. Un
neurone è realizzato mediante due amplificatori con funzione di trasferimento
vi = ±γ(ui )
(2.15)
con ui e vi rispettivamente ingresso e uscita i-esimi, e γ una funzione sigmoidale. Se ora andiamo a risolvere il circuito ci accorgiamo che è possibile
scrivere, riassorbendo alcune costanti, e considerando i nodi resistivi come i
pesi tra i neuroni:
X
dui
= −ui +
Wij vj
(2.16)
dt
j
30
2 Le Reti Neurali ricorsive
2.3 Reti Neurali continue
Figura 2.4: Rete di Hopfield continua realizzata mediante amplificatori
operazionali
dove i pesi Wij sono realizzati mediante i nodi resistivi rij del circuito e u0i
è la configurazione iniziale. La 2.16 assieme alla 2.15 porta alla scrittura di
un’equazione simile alla 2.3
X 1 Z vi
1X
E=−
γ −1 (x)dx
(2.17)
Wij vi vj +
2 ij
R
i
0
i
dove Ri è la resistenza di ingresso del singolo stadio di amplificazione.
Derivando rispetto al tempo si può dimostrare che questa funzione diminuisce con continuità (dE/dt ≤ 0) e tende al suo stato stabile, in cui
dE/dt = 0 se dui /dt = 0.
Consideriamo adesso la 2.12 e poniamo il campo esterno a zero (hi = 0);
confrontandola con la 2.17 ci rendiamo subito conto che le due differiscono
per il solo termine P
legato alla
R V resistenza di ingresso, che nel caso sia elevata
rende trascurabile i 1/Ri 0 i γ −1 (x)dx. Prendendo poi
γ(ui ) =
1
1 + e−βui
ci riconduciamo alle equazioni di campo medio [42].
31
2 Le Reti Neurali ricorsive
2.4 Ottimizzazione combinatoriale
2.4
Ottimizzazione combinatoriale
In questo lavoro di tesi si vuole utilizzare un rete neurale per risolvere un problema di ottimizzazione. Infatti, come vedremo successivamente, il problema
della ricostruzione delle tracce delle particelle in un rivelatore, è un tipico
problema di ottimizzazione per la risoluzione del quale le reti di Hopfield
sono strumenti particolarmente adatti. Prima di descrivere come funzioni
l’algoritmo è necessario descrivere la natura del problema.
Un problema di ottimizzazione combinatoriale [43] è descritto da un insieme X di configurazioni e da una funzione detta di “costo” (nel nostro caso
la 2.3). La configurazione ottimale C̄ appartenente a X , per cui E(C̄) è un
minimo è la soluzione del nostro problema. Possiamo dire che un algoritmo è risolutivo se, per ogni configurazione del sistema, giunge alla soluzione
ottimale del problema calcolandone il costo.
Solitamente valutare l’energia di una determinata configurazione è relativamente facile; il problema nasce dalla grandezza dell’insieme X che sarà
legato al numero N di variabili che definiscono una configurazione C.
Generalmente esistono due tipi di approccio per la risoluzione di problemi
di ottimizzazione: la suddivisione in “sottoproblemi” disgiunti e l’approssimazione iterativa.
Il primo permette l’applicazione di metodi potenti e talvolta deterministici se il problema è stato suddiviso in parti sufficientemente piccole; permette
quindi di trovare, almeno nel “sottoproblema”, una soluzione ottimale.
L’approssimazione iterativa, utilizzata in questo lavoro di tesi, consiste
nell’applicare un’operazione standard di riarrangiamento microscopico delle variabili ad una qualsiasi configurazione del sistema. La configurazione
cosı̀ ottenuta è la nuova configurazione iniziale che viene riaggiornata con la
stessa procedura. Il processo continua fino a che nessun miglioramento, o
diminuzione del costo, viene raggiunto. Nella sezione 2.5 verranno descritte
due procedure iterative basate sulle reti di Hopfield.
Prima di introdurre tali metodi consideriamo alcuni esempi noti in letteratura di problemi di ottimizzazione.
2.4.1
Albero Ricoprente Minimo
L’albero ricoprente di un grafo3 , noto come Spanning Tree (ST), è l’insieme
che contiene tutti gli archi necessari a connettere tra di loro i vertici con un
solo cammino. Il percorso minimo è detto Albero Ricoprente Minimo, noto
come Minimum Spanning Tree (MST).
3
Un grafo è un insieme di vertici connessi tra loro mediante archi, ovvero un grafo
G = (V, E) dove V è l’insieme dei vertici e E l’insieme degli archi.
32
2 Le Reti Neurali ricorsive
2.4 Ottimizzazione combinatoriale
Il problema ha diverse applicazioni, anche comuni. Supponiamo ad esempio di voler collegare una serie di calcolatori utilizzando meno cavo possibile.
Possiamo considerare questo un problema di grafi, schematizzando i calcolatori come vertici e i collegamenti via cavo come archi. Dati N archi il
numero di ST è N N −2 , che definisce anche la dimensione dello spazio delle
configurazioni X .
Si capisce subito che una tecnica esaustiva di ricerca non è fattibile, serve
quindi una schematizzazione del problema e la ricerca di un algoritmo efficace.
La funzione di “costo” in questo caso sarà la somma della lunghezza degli
archi che collegano i vertici.
h
1
a
2
1
g
5
14
2
4
10
5
c
5
i 3
13
b
f
9
j
e
17
6
16
1
a
13
12
h
2
1
5
14
g
9
2
i 3
10
5
d
c
5
4
13
b
f
j
e
17
13
12
6
16
d
Figura 2.5: Esempio di grafo e il suo MST corrispondente
Nell’esempio proposto in Figura 2.5 vi sono dieci vertici e diciotto archi,
ognuno con il suo valore (o peso), con riportato accanto il MST corrispondente. Possiamo calcolare facilmente il valore della funzione costo che in questo
caso sarà, per la soluzione ottimale, E = 32.
Un algoritmo per il MST
Dato un grafo G = (V, E), dove V è l’insieme dei vertici, U ⊂ V è un suo
sottoinsieme, E è l’insieme di tutti gli archi, F ⊂ E un suo sottoinsieme,
w : E → R+ è la funzione costo per cui, dato un certo arco e ∈ E, restituisce
il suo peso, E è il costo totale e T è un l’albero ricoprente che sarà anch’esso
un sottoinsieme di E. Un algoritmo capace di costruire l’albero ricoprente
minimo è il seguente:
1. Sia U := {1}, T := ∅ e E = 0;
2. fino a che V\U =
6 {∅}:
(a) F := {e = (i, j) ∈ E tale che i ∈ U, j ∈ V};
(b) trovo e∗ = (i∗ , j∗ ) := arg mine∈F {w(e)};
33
2 Le Reti Neurali ricorsive
2.5 Risoluzione di problemi di ottimizzazione con metodi neurali
(c) impongo U := U ∪ j∗ , T := T ∪ e∗ , E := E + w(e∗ );
3. T è l’albero minimo ed E è il suo costo.
Questo algoritmo è particolarmente efficiente e in N − 1 iterazioni porta
alla soluzione, dove N = dim(E).
2.4.2
Il problema del Commesso Viaggiatore
Dati N punti, con una distanza dij tra ogni coppia (1 ≤ i < j ≤ N ), il
problema del Commesso Viaggiatore (noto anche come Travelling Salesman
Problem o TSP) è quello di trovare il ciclo Hamiltoniano della lunghezza
minore. Un ciclo Hamiltoniano in teoria dei grafi è un cammino che passa
per tutti i vertici una e una sola volta.
La complessità di questo problema è elevata in quanto il numero di possibili percorsi è (N − 1)!/2, che rende poco fattibile una soluzione esaustiva.
Come nell’esempio precedente la funzione di “costo” sarà data dalla somma delle distanze tra i vertici.
2.5
Risoluzione di problemi di ottimizzazione
con metodi neurali
Come già anticipato nella sezione 2.2.1, è possibile utilizzare una rete di
Hopfield per risolvere un problema di ottimizzazione.
2.5.1
Simulated-Annealing
Questo metodo, introdotto da Kirkpatrick et al. nel 1983 [44], si basa sulla ricerca stocastica del minimo assoluto della funzione di costo in esame,
scartando il più possibile quelli locali.
L’approccio che si segue è quello descritto nella sezione 2.2.1: si ricerca
il minimo locale attraverso l’algoritmo di Metropolis [45], di cui verrà data
a breve una descrizione. Partendo da un certa temperatura (T 6= 0); una
volta che si è trovato un minimo si abbassa la temperatura e si riparte con
la ricerca del minimo di Metropolis. Questo processo si ripete fino a che
non si giunge a T = 0 o ad una soluzione che si reputa accettabile. La
temperatura è un parametro che viene inserito artificialmente e non ha alcun
significato fisico. Si chiama temperatura in quanto questa procedura si ispira
alla realizzazione in laboratorio di cristalli, dove si tende a raffreddare il
più lentamente possibile il campione in modo da permettere una migliore
cristallizzazione.
34
2 Le Reti Neurali ricorsive
2.5 Risoluzione di problemi di ottimizzazione con metodi neurali
Algoritmo di Metropolis
Quello che comunemente viene chiamato oggi algoritmo di Metropolis è in
realtà una generalizzazione fatta da Hastings [46] dell’algoritmo originale.
Supponiamo di aver inizializzato il sistema nello stato α a cui corrisponde
un’energia Eα e di voler esplorare la transizione α → β che porta ad uno stato
β selezionato a caso tra le configurazioni “vicine”. La transizione che viene
eseguita si riferisce a spostamenti elementari, dove ad esempio cambia lo stato
di un singolo neurone della rete, sono dette perciò configurazioni “vicine”.
• Se Eα ≥ Eβ , la transizione α → β è accettata
• Se Eα < Eβ , si estrae a caso un numero z ∈ [0, 1]
– Se z ≤ e−
Eβ −Eα
T
E −Eα
− βT
– Se z > e
, la transizione α → β è accettata
, la transizione α → β non è accettata.
Possiamo notare semplicemente che se T = 0 vengono eseguiti solo gli
spostamenti che portano verso il minimo più vicino.
Matematicamente parlando se si considera la procedura di annealing, ovvero una variazione della temperatura nel tempo, l’algoritmo non è altro che
una catena di Markov4 dipendente dal tempo. Se ogni configurazione ϕ del
sistema è accessibile, ovvero è un sistema ergodico, si può dimostrare [46] grazie alle proprietà matematiche delle catene di Markov che un configurazione
ϕ, a cui corrisponde un’energia Eϕ , può essere raggiunta con probabilità
P (Eϕ ) = Ce−
Eϕ
T
L’algoritmo ha una probabilità finita di convergere verso la soluzione migliore,
il che rende il metodo affidabile. Questo implica però un grande impiego di
tempo di calcolo, che porta (a seconda delle esigenze) a scegliere altri tipi di
algoritmi.
2.5.2
Mean-Field Annealing
Quando le esigenze per la risoluzione di un problema di ottimizzazione sono
più rivolte alla tempistica che alla qualità delle soluzioni vengono utilizzati
i cosiddetti algoritmi euristici. Questa classe di metodi si basano spesso su
4
Un processo stocastico si definisce di Markov se la probabilità di transizione da uno
stato ad un altro dipende solo dalla configurazione di partenza e non dall’intera storia che
ha portato a quello stato. Una catena di Markov è un processo markoviano con spazio
degli stati discreti.
35
2 Le Reti Neurali ricorsive
2.6 La ricostruzione di tracce
un’approssimazione che rende il calcolo degli stati, o la decisione del successivo stato da analizzare molto più semplice. Spesso si è costretti a ricorrere a questo tipo di procedure per problemi particolarmente complessi,
appartenenti alla classe NP-completi 5 in termini di complessità dei problemi
computazionali, come quello del commesso viaggiatore.
Il Mean-Field Annealing [47] [48] è un metodo euristico: invece di simulare stocasticamente la distribuzione di Gibbs per un insieme statistico, si
approssimano analiticamente (come descritto in 2.2.2) le grandezze termodinamiche che essa genera all’equilibrio. Le soluzioni ottenute saranno valide
nel limite dell’approssimazione di campo medio, ma si otterranno con tempi
estremamente più brevi rispetto all’algoritmo precedente.
Il Mean-Field Annealing consiste nel ricercare la configurazione di minimo
costo, partendo da un qualsiasi stato di non equilibrio, calcolando le soluzioni
di campo medio del sistema, supponendo l’approssimazione valida.
Le considerazione fatte per la temperatura nel caso del Simulated Annealing valgono anche per il Mean-Field Annealing , cioè per T 6= 0 sarà possibile
per l’algoritmo uscire da un minimo locale. La dinamica con T = 0 si basa sulla 2.7 e convergerà al primo minimo che incontra. Questa procedura
prende il nome di dinamica di Glauber a temperatura zero.
Un’ultima considerazione sulla temperatura: questa grandezza non cerca
di tenere conto di una qualche forma di rumore, il suo significato è semplicemente quello di un parametro di controllo in grado di guidare il sistema
verso la configurazione finale.
La descrizione accurata dell’algoritmo è descritta all’interno della sezione
2.7 in cui viene spiegata la dinamica con cui si può risolvere il problema di cui
ci siamo occupati nella tesi. L’implementazione della dinamica è riportata
nel capitolo 3.
2.6
La ricostruzione di tracce
Negli esperimenti di fisica delle alte energie, la ricostruzione delle tracce,
ovvero delle traiettorie delle particelle cariche all’interno degli apparati sperimentali, è di fondamentale importanza. Tali traiettorie infatti forniscono
un’enorme quantità di informazioni sui processi fisici che si stanno studiando
permettendo di risalire all’impulso delle particelle (utilizzando un campo magnetico), alla loro eventuale provenienza da un vertice primario o secondario
e, spesso, alla loro identità. I rivelatori deputati alla ricostruzione delle tracce
5
I problemi di ottimizzazioni sono divisi in classi a seconda della loro determinazione in
tempi polinomiali o meno. La classe NP-completi si riferisce ai problemi non deterministici
in tempi polinomiali.
36
2 Le Reti Neurali ricorsive
2.6 La ricostruzione di tracce
sono generalmente sistemi di sottorivelatori che comprendono un rivelatore
di vertice e una serie di rivelatori traccianti. Questi rivelatori intercettano le
particelle in vari strati, che possono essere superfici cilindriche (questa è la
tipica struttura degli esperimenti ai collisori) o piani (struttura tipica degli
esperimenti a bersaglio fisso) come nel caso di LHCb (vedi Capitolo 1), che
forniscono una misura delle coordinate delle particelle lungo la loro traiettoria. L’informazione che perciò otteniamo da un sistema di tracciamento
sarà un insieme di coordinate spaziali. Oltre ai segnali lasciati dalle particelle provenienti dall’interazione primaria, nei tracciatori ci saranno anche hit
prodotti da particelle secondarie (ad esempio provenienti da interazioni delle
particelle primarie con il materiale) o dal rumore elettronico. Il problema
della ricostruzione delle tracce consiste quindi nel riuscire ad individuare gli
hits prodotti dalle particelle di interesse nell’evento, e da questi ricostruire le traiettorie che esse hanno percorso nel rivelatore. L’ultimo passo del
processo di ricostruzione delle tracce consiste nel descrivere ciascun insieme
di punti con un modello geometrico, che può essere di volta in volta una
retta, una circonferenza o un’elica o una curva più complessa, ottenuto in
base all’equazione di moto della particella. Questa operazione viene fatta
generalmente con un fit da cui si ricavano parametri fisici come ad esempio
l’impulso. Un esempio di questo modo di procedere è mostrato in Figura 2.6.
Le crocette nere rappresentano tutti gli hit registrati nel rivelatore di muoni
di LHCb in un dato evento mentre le rette gialle rappresentano la possibile
soluzione del problema di ricostruzione per questo evento, con le tracce di
due muoni ricostruite e fittate con due rette. Benché la progettazione e la
realizzazione di un metodo di ricostruzione siano estremamente dipendenti
dal rivelatore per cui il sistema è ideato, il problema del riconoscimento delle
tracce presenta molte caratteristiche generali che possono essere ritrovate in
tutti i metodi. Infatti, in estrema sintesi, dato un insieme di misure in un
rivelatore, il compito della ricostruzione delle tracce consiste nel suddividere
tale insieme in classi tali che:
• Ciascuna classe contenga le misure che potrebbero essere causate dalla
stessa particella.
• Una classe (possibilmente vuota) contenga tutte le misure che non possono essere associate ad una particella con sufficiente certezza (rumore,
punti ambigui).
Date queste caratteristiche generali, si può osservare che il problema della
ricostruzione delle tracce è un tipico problema di ottimizzazione. Come si è
detto, il riconoscimento di tracce consiste nel ricostruire una curva presumibilmente smussata a partire da un insieme di punti: una traccia costituita
37
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
da n punti può essere vista come un insieme di n − 1 segmenti consecutivi
con angoli non troppo acuti e senza biforcazioni. In base a questa schematizzazione delle tracce, il problema può essere riformulato in termini di reti di
Hopfield: ad ogni segmento orientato (ad esempio nel caso di LHCb si può
scegliere il verso dell’asse z) che connette due elementi dell’insieme di punti
su cui si effettua il riconoscimento si associa un neurone del tipo definito nel
paragrafo 2.1. Se il neurone si trova nello stato 1, i due punti del segmento
appartengono alla stessa traccia, mentre non appartengono alla stessa traccia
se si trova nello stato 0. Ogni configurazione della rete dà quindi luogo ad
una soluzione del problema del riconoscimento: le catene di neuroni consecutivi attivi sono le tracce riconosciute, i punti isolati sono il rumore. La
soluzione ottimale viene raggiunta quando tutti i neuroni associati a segmenti di traccia “veri” sono accesi (stato 1), mentre tutti gli altri sono spenti
(stato 0). In questo modo si è stabilita una corrispondenza fra il problema
della ricostruzione di tracce e una rete neurale secondo quanto spiegato nel
paragrafo 2.2. Per risolvere correttamente il problema del riconoscimento è,
quindi, necessario definire i pesi di connessione dei neuroni in maniera tale
che il minimo dell’energia della rete corrisponda alla soluzione ottimale, e,
successivamente, mettere a punto una strategia di evoluzione dello stato della
rete che assicuri il raggiungimento del minimo globale dell’energia.
2.7
Il metodo di Denby
Il metodo utilizzato per la ricostruzione delle tracce, in particolare per la
schematizzazione del problema, si basa sul metodo di Denby [49].
Prima di poter utilizzare i metodi neurali per risolvere il problema di ottimizzazione occorre schematizzarlo: una traccia, formata da n punti, nei quali
il rivelatore ha registrato il passaggio della particella, può essere considerata
una spezzata di n − 1 segmenti con alcune caratteristiche:
• i segmenti consecutivi non variano molto come inclinazione,
• i punti consecutivi di una traccia non sono distanti,
• il numero delle biforcazioni è trascurabile o, meglio, nullo.
Nel rivelatore di muoni perciò costruiremo i neuroni come segmenti orientati che collegano due hit appartenenti a due stazioni consecutive del rivelatore. Un neurone potrà essere nello stato “1”, se i due punti consecutivi a
cui è associato appartengono alla stessa traccia, e “0” se invece non lo sono.
Questa schematizzazione non è molto diversa da quella con cui abbiamo
costruito la funzione di costo nei casi di problemi di ottimizzazione presi in
38
y (mm)
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
4000
3000
2000
1000
0
-1000
-2000
-3000
12000
13000
14000
15000
16000
17000
18000
19000
z (mm)
Figura 2.6: Esempio di problema di partenza: vista yz del rivelatore per
muoni di LHCb e in giallo una sua possibile soluzione.
esame nell’ambito della teoria dei grafi. Infatti se consideriamo gli hit come
vertici i nostri neuroni sono gli archi che li uniscono tra di loro.
Quindi come nel caso del problema del commesso viaggiatore dobbiamo
assegnare un peso all’accoppiamento tra i neuroni (o grafi) in modo che la
funzione energia associata sia minima quando soddisfa le condizioni elencate
in precedenza.
2.7.1
L’algoritmo per la dinamica
L’algoritmo utilizzato per implementare la dinamica della rete è il MeanField Annealing , già descritto nel paragrafo 2.5.2 di cui possiamo descrivere
qui la strategia.
Dato un sistema formato da N neuroni, il cui stato è rappresentato dalle
variabili vi ∈ [0, 1] con i = 1, ..., N , l’algoritmo si sviluppa nel modo seguente:
1. Si inizializzano i neuroni vi con un valore casuale in un piccolo intorno
0
di 0.5 per ottenere il vettore di stato iniziale v 0 = (v10 , ..., vN
).
39
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
2. Si calcola lo stato del sistema all’iterazione n con il campo medio (2.14),
cioè
1
vin+1 =
n
1 + e−βφi
con β = 1/T inverso della temperatura e
X
φni =
Wij vjn + Ti
j
essendo Wij i pesi e Ti il campo esterno, o soglie.
3. Se
X
i
|vin+1 − vin | < δ
allora si è raggiunto il minimo ricercato entro un certo δ fissato che
funge da parametro di convergenza.
Altrimenti si ripete dal punto 2.
4. Si abbassa la temperatura e si ripete dal punto 2 fino alla temperatura
minima desiderata.
Questa è la procedura di Mean-Field Annealing detta sincrona, in quanto
tutti i neuroni sono aggiornati insieme, rispetto alla situazione precedente.
Una dinamica più efficace nella convergenza è quella asincrona dove i neuroni
non sono aggiornati tutti allo stesso tempo. È possibile schematizzarla come
segue:
1. Si inizializzano i neuroni vi con un valore casuale in un piccolo intorno
di 0.5 per ottenere il vettore di stato iniziale v = (v1 , ..., vN ).
2. Per i = 1, ..., N si calcola lo stato del singolo neurone vi con il campo
medio (2.14), cioè
1
(2.18)
vinew =
1 + e−βφi
con
X
φi =
Wij vj + Ti
j
dove per il calcolo di φi si utilizzano i valori vj più recenti.
3. Se
X
i
|vinew − vi | < δ
(2.19)
allora si è raggiunto il minimo ricercato entro un certo δ fissato che
funge da parametro di convergenza.
Altrimenti si ripete dal punto 2.
40
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
4. Si abbassa la temperatura e si ripete dal punto 2 fino alla temperatura
minima desiderata.
La dinamica asincrona permette di evitare problemi di convergenza, come
ad esempio oscillazioni tra configurazioni alternative [38], che invece si manifestano nella procedura sincrona. In questo lavoro di tesi è stato utilizzato
il Mean-Field Annealing asincrono.
Nelle dinamiche prese in esame non sarà considerato il termine di campo
esterno (Ti ) in quanto non necessario o comunque riconducibile al comportamento di un ulteriore neurone connesso a tutti gli altri con un peso costante.
Inoltre il campo esterno non è necessario, in quanto stiamo considerando lo
stato dei neuroni come σ ≡ (1; 0); diverso è il caso in cui si utilizzino stati
tipo spin cioè S ≡ (+1; −1)): in questo caso data la natura simmetrica degli
accoppiamenti e degli stati la rete (o il sistema) potrebbe convergere a due
soluzioni esatte ma completamente opposte.
2.7.2
La scelta dei pesi
Ricordando la definizione dell’energia 2.3, quello che dobbiamo fare, dopo
aver posto nullo il campo esterno T , è definire la matrice W :
• Facendo riferimento alla Figura 2.7 se prendiamo due neuroni, costruiti
con i punti (A, B) e (C, D), diremo che sono consecutivi quando vale
B ≡ C o D ≡ A. A due neuroni i e j consecutivi è associato un peso
Mij :
(1 − sin(θij ))λ
M (i, j) =
(2.20)
li + lj
dove θij è l’angolo tra i neuroni i e j come riportato in Figura, li e lj sono
le lunghezze dei neuroni. L’esponente λ è un numero intero, solitamente
grande, il cui valore è determinato da una sorta di addestramento6 . La
componente del peso dovuta all’angolo formato dai neuroni assume
valori nell’insieme [0, 1], a seconda che siano perfettamente allineati (1)
o perpendicolari (0).
Consideriamo adesso la seguente matrice che si riferisce ai neuroni iesimo e j-esimo, i quali sono formati dai punti AB e CD rispettivamente (come in Figura 2.7):
Pij = P ABCD = δ BC (1 − δ AC ) + δ AD (1 − δ BD )
6
In realtà non si può parlare di addestramento in quanto vengono utilizzate le reti
neurali per risolvere un problema di ottimizzazione e non come memorie associative.
41
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
Dove δ XY è la delta di Kronecker tra gli hit X e Y .
Se i due neuroni sono consecutivi, considerando sempre le code dei
neuroni come A e C e le teste B e D, l’elemento di matrice vale 1,
vale 0 altrimenti. Questa matrice se moltiplicata per la funzione peso
M (i, j) assicura che solo due neuroni consecutivi possiedano un peso
diverso da zero.
Accoppiamento “testa-testa”
θij
j
i
A
B≡C
j
C
A
C
j
Accoppiamento “coda-coda”
B
θij
A≡C
i
B
B≡D
i
D
i
j
D≡A
D
Figura 2.7: Possibili connessioni tra i neuroni.
• Se prendiamo due neuroni, costruiti con i punti (A, B) e (C, D), diremo
che non sono consecutivi ma comunque collegati quando vale B ≡ D o
A ≡ C. In questo caso abbiamo una biforcazione che deve essere inibita.
Verrà quindi attribuito un accoppiamento negativo tra i neuroni i e j
in esame. Questo è il termine detto vincolo e la matrice Cij associata
è data da:
Cij ≡ C ABCD = δ AC (1 − δ BD ) + δ BD (1 − δ AC )
42
(2.21)
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
L’elemento di matrice ij associato a due neuroni consecutivi sarà quindi zero, come quello tra due che non hanno punti in comune; tra due
neuroni non consecutivi ma collegati tramite un hit avremo un accoppiamento negativo dato da una costante e questo tenderà ad inibire la
biforcazione.
• L’ultimo termine da aggiungere alla funzione energia non è un peso tra
due neuroni ma un termine vincolare, della forma
!2
X
(2.22)
vj − Na
D=
j
dove Na è il numero di neuroni attivi attesi alla fine dell’evoluzione
della rete. Questo termine ha sia funzione inibitoria che eccitatoria,
poiché il contributo all’energia del sistema che da esso si ottiene cambia di segno se in una certa configurazione finale il numero di neuroni
ottenuti supera o è al di sotto del valore atteso. Nell’applicazione qui
descritta il termine D serve ad evitare che entrambi i neuroni di una
biforcazione si spengano. Per questo motivo il parametro Na non sarà
esattamente il numero di neuroni attesi (che peraltro non è noto) ma dovrà essere scelto empiricamente. Ad esempio Hopfield nell’applicazione
della dinamica neurale al problema del commesso viaggiatore sceglie
Na maggiore del 50% rispetto al numero desiderato di neuroni attivati.
2.7.3
La funzione di costo
Costruiamo adesso la funzione di costo da minimizzare:
(
)
1 X
hEi = −
[KM Pij M (i, j) − KC Cij ]vi vj − KD D
2
ij
(2.23)
dove KX rappresenta la costante relativa al peso X. Queste costanti saranno
scelte empiricamente, basandosi solo su considerazioni specifiche relative alla
particolare applicazione.
Per i motivi che sono già stati spiegati la dinamica scelta per risoluzione
del problema è il Mean Field Annealing, per cui il campo medio prodotto dal
sistema in una determinata configurazione sarà dato da
!
X
X
X
vj − Na
φi =
KM Pij M (i, j)vj −
KC Cij vj − KD
j
j
j
con cui aggiorneremo lo stato del neurone i-esimo mediante la 2.18.
43
2 Le Reti Neurali ricorsive
2.7 Il metodo di Denby
44
Capitolo 3
Ricostruzione di tracce nel
rivelatore di muoni di LHCb
Il metodo di Denby descritto nel Capitolo precedente è stato applicato alla
ricostruzione di tracce dell’esperimento Aleph [50], dell’esperimento L3 [35]
ed esistono anche studi sul loro utilizzo per CMS [42]. Alcuni studi più recenti
sono stati fatti per l’esperimento ALICE [51] e l’esperimento LHCb [52].
Tuttavia questo metodo ha riscontrato più di un problema e rispetto ai primi
studi è passato in secondo piano.
Buona parte di questi esperimenti sono costruiti in simmetria cilindrica
attorno al punto di interazione e la regione contenente il sistema di tracciamento è immersa in un campo magnetico: di conseguenza le tracce che
devono essere ricostruite sono eliche. Il metodo di Denby si basa su un accoppiamento locale dei neuroni e non tiene quindi conto dell’informazione globale
della traccia, come ad esempio la curvatura. In questo ambito si inserisce il
lavoro di descritto in [53] che introduce un metodo per la costruzione di neuroni formati da tre punti (con cui è possibile costruire nello spazio un’elica)
e calcola gli accoppiamenti tra di essi confrontando i parametri caratteristici
dell’elica corrispondente.
Nel caso dell’esperimento LHCb, ed in particolare per il rivelatore di
muoni, questo problema non si pone in quanto le tracce sono rettilinee,
tralasciando per il momento gli effetti dovuti allo scattering multiplo.
In questo Capitolo descriveremo in dettaglio l’applicazione di una rete
di Hopfield alla ricostruzione di tracce nel rivelatore di muoni di LHCb. Le
tracce ricostruite, opportunamente raccordate con le tracce ricostruite nel
tracciatore, saranno utilizzate per l’identificazione dei muoni come descritto
successivamente nel Capitolo 4. Verrà in particolare utilizzata una variante
del metodo di Denby, adattata alle caratteristiche del rivelatore di muoni di
LHCb.
45
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.1 La costruzione dei neuroni
3.1
La costruzione dei neuroni
Come descritto nel paragrafo 2.7, possiamo costruire i neuroni della rete
unendo tra loro coppie di hit registrati dal rivelatore di Muoni. Gli hit saranno necessariamente su stazioni diverse. Gli hit della stazione M1 tuttavia
necessitano di un trattamento particolare. La stazione M1 si trova a monte
dei calorimetri ed è perciò investita da un flusso di particelle estremamente
più elevato di quello a cui sono sottoposte le stazioni M2-M5. L’occupazione media (=numero medio di hit per evento) di M1 è inoltre accresciuta da
tutte le particelle che ritornano indietro dopo aver interagito nel calorimetro
(backsplash). È perciò molto difficile abbinare con sicurezza ad una traccia
proveniente dal vertice di interazione un hit in M1 ed è per questo motivo che
l’algoritmo standard di identificazione dei muoni utilizzato in LHCb non utilizza questa stazione (vedi paragrafo 1.4). In questo lavoro di Tesi vogliamo
perciò tentare un approccio alternativo che permetta di utilizzare proficuamente anche la stazione M1 per tentare di abbinare con maggiore sicurezza
le tracce ricostruite nel tracciatore agli hit rilasciati dai muoni nel rivelatore
per muoni e tentare di migliorare l’efficienza di identificazione ai bassi impulsi (vedi Tabella 1.3). Nella ricostruzione qui descritta, utilizziamo le tracce
ricostruite nel tracciatore (con un algoritmo di Kalman Filtering [54]) raccordandole con gli hit nel rivelatore di muoni. Le tracce utilizzate sono tracce
che attraversano tutto il tracciatore (tracce long nella definizione di LHCb)
fino alla stazione T3. Per raccordarle al rivelatore di muoni si estrapolano
tali tracce fino alla stazione M1 assumendo una traiettoria rettilinea. Si cercano poi hit in M1 in un intorno del punto di estrapolazione di dimensioni
pari a 1.5(∆x × ∆y), dove ∆x e ∆y sono le dimensioni delle pad di lettura
di M1 (vedi Tabella 1.1). In questo modo si tiene conto del piccolo contributo di scattering multiplo dovuto al materiale del RICH2 e dell’incertezza
nell’estrapolazione. Una volta identificato l’ hit in M1 possiamo costruire il
neurone corrispondente collegando l’hit in T3 a quello in M1. Questo metodo
é illustrato schematicamente in Figura 3.2. Lo stato di partenza sará quindi
composto da tutti i neuroni che collegano le tracce ricostruite nel tracciatore
ad M1 col metodo appena descritto e da tutti i neuroni ottenuti collegando
hit di stazioni successive nel rivelatore di muoni.
3.2
La selezione dei neuroni
Il metodo appena descritto, tuttavia, presenta un problema non trascurabile,
rappresentato dall’enorme numero di neuroni che si costruiscono. Infatti la
nostra analisi parte da un numero di punti N relativi agli hit misurati nel
46
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.2 La selezione dei neuroni
rivelatore, se ad ogni coppia di questi associassimo un neurone otterremmo
N
N
2
∼ N 3 connessioni
∼ N neuroni ⇒
3
2
Questi numeri diventano velocemente molto grandi: considerando ad
esempio che in un evento di LHCb si possono avere oltre 103 hit, servirebbero 106 neuroni e 109 connessioni. Se torniamo sulla dinamica del sistema
ci accorgiamo che dovremmo appunto calcolare un milione di stati ed ogni
calcolo sarebbe su un miliardo di variabili. Questo è possibile ma oltre ad
essere poco pratico è anche inutile.
Possiamo infatti fare uso di alcune considerazioni geometriche e fisiche
per limitare il numero dei neuroni da generare ad un numero che cresce circa
linearmente con il numero N di punti.
Il primo vincolo è dato dalla forma del rivelatore: un neurone sarà creato
solo con due punti che appartengono a due stazioni diverse del rivelatore,
come abbiamo detto nel paragrafo precedente.
Un secondo vincolo proviene dal fatto che le tracce dei muoni provengono
dal vertice primario di inversione e devono essere contenute nell’accettanza
del rivelatore. In particolare, le estrapolazioni delle tracce da T3 (x1 , y1 ) su
M1 devono superare queste condizioni1 :
• x1 < 3800 mm
• y1 < 3200 mm
• x1 > 100 mm
• x1 > 240 mm
oppure
y1 > 200 mm
Questi valori sono dati dalla configurazione geometrica del rivelatore e
possono essere determinati anche con una semplice analisi: se infatti utilizziamo le estrapolazioni (x1 , y1 ) su M1 e verifichiamo che in un intorno
sufficientemente grande non vi siano hit, possiamo usare questo conteggio
per riempire un istogramma come quello di Figura 3.1 e scartare le zone con
più eventi.
Un altro vincolo di tipo geometrico è il seguente: con gli hit delle stazioni successive a M1 saranno costruiti solo i neuroni che formano un angolo
sufficientemente piccolo con il neurone precedente. Se guardiamo ancora le
configurazioni di neuroni consecutivi riportati in Figura 2.7, partendo da un
1
I valori sulle stazioni successive sono scalati in base al rapporto zM i /zM 1 , con zM i la
coordinata z della stazione i-esima.
47
y (mm)
4000
3000
120
2000
100
1000
80
Eventi / (24 mm x 24 mm)
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.2 La selezione dei neuroni
0
60
-1000
40
-2000
20
-3000
-4000
-6000
-4000
-2000
0
2000
4000
0
6000
x (mm)
Figura 3.1: Distribuzione sul piano xy di M1 delle estrapolazioni (x1 , y1 )
da T3 nei quali intorni non siano presenti hit.
neurone formato dagli hit A e B, il neurone che arriva in D sarà creato solo
se l’angolo θij è minore di un fissato parametro che dipende dalla stazione.
Per ridurre ulteriormente il numero dei neuroni vengono imposte delle
condizioni aggiuntive sulle tracce ricostruite nel tracciatore, verranno considerate solo quelle il cui fit lineare abbia un χ2 ridotto2 minore di 4. Inoltre
le tracce che arrivano al rivelatore di muoni devono appartenere a particelle
con le seguenti caratteristiche fisiche:
• p > 3 GeV /c
• pT > 0.8 GeV /c
L’oggetto informatico neurone conterrà oltre alle informazioni geometriche dei due punti che lo compongono anche i dati relativi alle sue altre caratteristiche come: la lista dei neuroni collegati a se stesso, la stazione e la
regione del rivelatore di muoni, lo stato in cui trova e, nel caso del primo
neurone, il numero di traccia a cui è collegato.
2
il χ2 ridotto è definito come χ2 /nDoF dove nDoF sono i gradi di libertà del fit o
Number of Degrees of Freedom.
48
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.2 La selezione dei neuroni
hit buono
hit non buono
Fascio
hit buono
RICH2
ECAL
T3
M1
Figura 3.2: Esempio di neuroni tra T3 e M1 con esclusione degli hit non
interessanti.
3.2.1
La determinazione dei pesi
La scelta dei pesi è cruciale per una rete neurale, in essi infatti risiede la
schematizzazione del problema fisico. Per ricostruire le tracce dei muoni nel
rivelatore è necessario comprendere che tipo di traiettoria percorreranno in
esso.
Data la mancanza del campo magnetico nel rivelatore le particelle non
subiranno una deflessione, l’unico effetto che modificherà le traiettorie sarà
lo scattering multiplo. Questo è molto influente, infatti tra le stazioni del
rivelatore sono presenti 80 cm di ferro. Questi strati massicci servono a bloccare tutte le particelle tranne i muoni a cui siamo interessati. La traiettoria
che ricostruiremo sarà quindi una spezzata di segmenti.
La deflessione media causata dallo scattering multiplo è comunque nulla
quindi supporremo un accoppiamento perfetto tra due neuroni come quello ad
angolo zero. Se riprendiamo ora la formula per i pesi 2.20 è possibile eseguire
alcuni accorgimenti per migliorarla. Definiamo perciò la nostra funzione peso
49
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.2 La selezione dei neuroni
xz
λ
λyz
M1 M2 M3 M4
190 96 49 25
220 112 54 27
Tabella 3.1: Stima dei coefficienti λ. I valori sono espressi in funzione
della stazione del rivelatore, ad esempio M2 si riferisce alle
λ degli accoppiamenti tra i neuroni costruiti tra M1 e M2 e
quelli costruiti tra M2 e M3.
come:
xz
yz
yz λ
xz λ
M (i, j) = (1 − sin(θij
)) · (1 − sin(θij
))
(3.1)
yz
xz
dove θij
e θij
sono definiti come in Figura 2.7. La dipendenza dalla lunghezza
dei segmenti è stata eliminata perché si sono creati i soli neuroni che uniscono
due stazione consecutive e queste sono tutte equidistanti. Anche se le stazioni
T3 M1 e M2 non sono equidistanti i neuroni avranno comunque una lunghezza
prefissata e quindi si preferisce eliminare questa dipendenza.
Le costanti λxz e λyz possono essere stimate mediante un’analisi a priori.
Il metodo che si usa è quello di analizzare dati provenienti da una simulazione Monte Carlo di eventi contenenti muoni. In particolare, utilizziamo
eventi simulati nei quali si abbia almeno una J/ψ che decade in due muoni
per ogni collisione protone-protone, con entrambi i muoni nell’accettanza di
LHCb.
Note le tracce rilasciate da muoni provenienti da decadimenti delle J/ψ è
possibile dividerle in neuroni, dello stesso tipo e con lo stesso procedimento
descritto in precedenza. Una volta che si hanno solo i neuroni che vorremmo
yz
xz
trovare con la nostra analisi, si calcolano gli angoli θij
e θij
tra i neuroni
connessi e si riporta tutto in un istogramma. Se ora eseguiamo un fit ai
minimi quadrati tra il grafico e la funzione peso 3.1 è possibile determinare
λxz e λyz come parametri del fit. Questa procedura è stata eseguita per ogni
stazione della camera per muoni; per quanto riguarda l’accoppiamento dei
neuroni tra il tracciatore e la stazione M1 i coefficienti sono stati stimati in
modo empirico in modo da tenere conto della maggiore risoluzione spaziale
dei rivelatori in M1 ma anche dello scattering multiplo tra M1 e M2.
Analizzando 2000 eventi simulati sono stati ottenuti i valori riportati nella
Tabella 3.1.
Per quanto riguarda l’accoppiamento tra neuroni connessi ma non consecutivi parleremo di accoppiamenti “testa-testa” o “coda-coda”. In questo
caso è stato scelto un valore costante KC per determinare il peso di entrambi
i tipi di connessioni da inibire. La matrice C definita in 2.21 assieme alla
50
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.2 La selezione dei neuroni
yz
Distribuzione θxz e θ su M2
yz
Distribuzione θxz e θ su M2
Eventi/(0.0043 rad x 0.014 rad)
Entries
Mean x
Mean y
RMS x
RMS y
χ2 / ndf
λxz
yz
λ
γ
2000
1800
1600
1400
1200
1000
800
600
400
200
0
0
8842
0.01144
0.019
0.01234
0.02735
1560 / 199
96.23 ± 1.518
119.6 ± 2.603
5939 ± 155.9
0
0.02
0.02
0.04
0.06
0.08
0.04
0.1
θ yz (r
ad)
0.12
0.14
0.16
0.18
0.2
0.12
0.06
0.08
d)
xz (ra
0.1
θ
Figura 3.3: Distribuzione degli angoli θxz e θyz tra neuroni di muoni da
J/ψ sulla stazione M2.
costante KC identifica i pesi degli accoppiamenti tra neuroni connessi ma
non consecutivi.
e definita come:
Tramite la matrice C è possibile definire anche la matrice C
eij = Cij + δij
C
(3.2)
che serve per riscrivere il termine vincolare D
D=
X X
i
j
eij vj − Na
C
!2
Come già accennato nel Capitolo precedente questo termine può fungere
sia da inibitore che da stimolatore, infatti è stato introdotto affinché possa contrastare solo quando necessario il termine vincolare C. Un termine
vincolare è necessario perché abbiamo bisogno di un metodo per scartare le
soluzioni in grado di minimizzare l’energia ma che risultano non idonee: la
traccia di una particella non si dovrebbe biforcare, né due tracce dovrebbero
51
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.3 L’implementazione del Mean-Field Annealing
unirsi in una. Il problema di questo termine è che tende a spegnere troppi
neuroni.
Il termine di vincolo D serve proprio ad evitare che un gruppo di neuroni
in una biforcazione sia tutto spento, mentre vogliamo che uno solo di questi
rimanga attivo. Se calcoliamo la derivata del termine D per valutare il campo
medio otteniamo
∂D X e
∝
Cij vj − Na
∂vi
j
Se Na = 1 la derivata cambia di segno a seconda alcuni neuroni accesi siano
o meno collegati al neuroni i-esimo realizzando cosı̀ l’effetto desiderato. In
realtà Na non è stato scelto 1 ma è stato determinato empiricamente, come
vedremo in seguito.
Possiamo infine scrivere la funzione di costo che la dinamica della rete
deve minimizzare:
(
)
X
1
hEi = −
[KM Pij M (i, j) − KC Cij ]vi vj − KD D
(3.3)
2
ij
3.3
L’implementazione del Mean-Field Annealing
Creati i neuroni come descritto nella sezione precedente si procede all’inizializzazione: lo stato di ogni neurone (vi ∈ [0, 1] con i = 1, ..., N e N è numero
totale dei neuroni) viene scelto casualmente in un intorno piccolo di 0.5.
L’implementazione dell’algoritmo è relativamente semplice. Il codice è
sostanzialmente formato da un ciclo che scorre tutti i neuroni memorizzati in
un vettore, per ogni neurone viene quindi calcolato il campo medio mediante
la seguente formulazione
X
∂hEi X
=
KM Pij M (i, j)vj −
(KC +KD )Cij vj −KD (vi −Na ) (3.4)
φi =
∂vi
j
j
P e
P
dove si è usato il fatto che j C
ij vj = vi +
j Cij vj .
Ogni neurone contiene una lista dove sono memorizzati i neuroni ad esso
collegati e il relativo peso, cosicché è immediato calcolare il campo medio.
Utilizzando la formula 2.18 vengono aggiornati gli stati dei neuroni fino
a che non viene verificato il criterio di convergenza 2.19.
Una volta raggiunta la convergenza il ciclo viene ripetuto ad una temperatura più bassa partendo dagli stati calcolati fino a quel momento; raggiunta la temperatura minima prestabilita, la configurazione ottenuta dalla
convergenza è quella definitiva.
52
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
Processor Number
Numbers of Cores
Numbers of Threads
Clock Speed
3.4 La parallelizzazione del Mean-Field Annealing
Intel Xeon Processor Intel Core i7
E5345
870
4
4
4
8
2.33 GHz
2.93 GHz
Tabella 3.2: Caratteristiche tecniche del Intel Xeon Processor e del
Intel Core i7.
3.4
La parallelizzazione del Mean-Field Annealing
Riprendiamo adesso le definizioni date nel Capitolo 2 dove si sono enunciate
le proprietà delle reti neurali biologiche. Uno degli aspetti più affascinanti del
comportamento del cervello animale è il suo funzionamento parallelo. Tutti
i neuroni si evolvono assieme al fine di fornire i giusti stimoli per eseguire
la mansione desiderata. Questo è profondamente diverso come principio da
quello a cui siamo abituati in processore seriale, dove ogni operazione viene
eseguita singolarmente. Se ora ragioniamo a proposito della legge di aggiornamento di un sistema magnetico di spin ci possiamo rendere conto di come
un processamento seriale non sia la miglior schematizzazione del problema
ma sarebbe preferibile infatti che gli spin evolvano tutti insieme al fine di
ricercare la condizione di equilibrio.
Parallelizzare la nostra dinamica neurale porterà quindi ad avere dei vantaggi. Infatti oltre a rendere la dinamica artificiale più simile a quella naturale, la parallelizzazione porta anche a una riduzione dei tempi di esecuzione
dell’evoluzione della rete neurale.
La parallelizzazione è stata possibile grazie all’utilizzo della tecnologia
multi-core di cui sono dotati i processori moderni, in particolare il calcolatore
che è stato utilizzato per l’analisi è dotato di due Intel Xeon Processor con
le caratteristiche elencate in Tabella 3.23 .
Utilizzando questo calcolatore è possibile lanciare fino a otto threads,
quattro per processore.
La dinamica viene parallelizzata al momento del calcolo dello stato dei
neuroni. A questo punto, infatti, per ogni neurone viene calcolato il campo
medio che agisce su di esso attraverso la legge di aggiornamento già descritta.
Ogni neurone viene analizzato sfruttando un thread diverso del processore
3
La Tabella riporta anche le caratteristiche di un secondo processore, un Intel Core
i7 che è stato utilizzato per l’analisi a singolo processo: il confronto tra le due dinamiche
sarà riportato in seguito.
53
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.5 La costruzione delle tracce
fino a che è possibile creare nuovi processi. Ogni volta che uno di essi si
conclude ne viene lanciato uno nuovo relativo ad un altro neurone. Vengono
cosı̀ analizzati fino a otto neuroni in parallelo. Inoltre non tutti i processi
impiegano lo stesso tempo ad esaurirsi cosicché i neuroni sono analizzati
in modo asincrono; questo implica lo sviluppo di una dinamica parallela e
caotica (all’apparenza) che dovrebbe essere in grado di evitare minimi locali
in modo migliore di una dinamica ordinata e seriale. Il motivo è quello già
spiegato: ispirarsi ai processi naturali anche nello sviluppo della dinamica e
non solo nella schematizzazione del problema.
La parallelizzazione offre inoltre un altro vantaggio: se si utilizzano tutti
i core di un processore è possibile ridurre la tempistica di un calcolo iterativo
come questo fino ad un fattore dato idealmente dal numero dei core stessi.
Nel nostro caso il fattore può arrivare a otto, anche se in realtà la creazione
e la gestione dei thread occupano parte delle risorse del processore. Nella
sezione dedicata all’analisi dei risultati verrà discusso anche quest’aspetto.
L’implementazione della parallelizzazione è stata possibile grazie all’utilizzo
dell’interfaccia di programmazione OpenMP [55].
Sono state prese in considerazione anche applicazioni alternative all’OpenMP
come ad esempio la libreria pthread dello standard POSIX e la classe TThread
del pacchetto ROOT. Tuttavia questi software, pur offrendo una maggiore
flessibilità nella costruzione dei thread rendono eccessivamente laboriosa la
sincronizzazione dei processi.
3.5
La costruzione delle tracce
Una volta che si è conclusa la dinamica neurale il programma prosegue con
la costruzione delle tracce, utilizzando i neuroni che sono rimasti attivati,
ovvero quei neuroni il cui stato v è maggiore di 0.5.
Gli hit dei neuroni attivi collegati tra di loro formano le tracce. Nonostante le accortezze usate nella definizione dei pesi, alla fine dell’evoluzione
della rete, capita che siano presenti biforcazioni residue. Ciò avviene principalmente quando una particella produce più hit contigui (o, come si usa dire,
un cluster di hit ) a causa del cross-talk tra pad di lettura vicine. In tal caso
le coordinate degli hit connessi alle tracce biforcate vengono mediate tra di
loro.
Nel seguito considereremo solo le tracce che partono dal tracciatore centrale (T3) e arrivano almeno a M2. Queste tracce da ora in poi saranno
considerate tracce di muoni (o Muon Tracks MT). Sulle proiezioni sui piani
xz e yz di questi gruppi di segmenti vengono eseguiti fit lineari con due ret54
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.6 Ottimizzazione dei parametri della rete
te, che rappresentano la miglior stima della traccia delle particelle che hanno
attraversato (almeno in parte) il rivelatore di muoni.
Per le tracce (MT) ricostruite vengono memorizzate le coordinate degli
hit che le compongo, il risultato del fit e il numero di traccia nel tracciatore
centrale a cui sono collegate.
3.6
Ottimizzazione dei parametri della rete
Come abbiamo visto nei paragrafi precedenti il funzionamento della rete neurale dipende da alcuni parametri, ognuno inserito per favorire o meno le
diverse configurazioni geometriche.
Riprendiamo ora la formula utilizzata per il calcolo del campo medio, l’equazione 3.4. I parametri empirici che devono essere stimati sono i seguenti:
• KM , moltiplicato per il fattore geometrico fornisce il peso del collegamento;
• KC , inibitore dei collegamenti non consecutivi;
• Na , la sua differenza con lo stato del neurone, moltiplicata per KD
fornisce uno stimolatore o un inibitore del collegamento;
La scelta di questi parametri si ottiene con un processo di ottimizzazione.
Infatti scegliendo ad esempio KM troppo elevato si rischia di creare troppe
MT che non corrispondono effettivamente a muoni mentre aumentare KC
creerebbe invece il problema opposto.
Abbiamo bisogno quindi di un sistema per misurare la qualità delle tracce
MT che vengono create. Il metodo adottato si basa sulla simulazione Monte
Carlo. La prima analisi con queste Reti Neurali infatti è stata eseguita non
su dati veri ma su dati provenienti da una simulazione; questo ci permette
di sfruttare la cosiddetta “verità Monte Carlo”. Di ogni hit infatti sono noti
il numero identificativo (Particle IDentification number o PID) che contraddistingue il tipo di particella che lo ha prodotto e della “madre”, cioè la
particella che l’ha generata. Definiremo quindi nel successivo Capitolo due
variabili, l’efficienza di identificazione e la probabilità di misidentificazione,
che ci permetteranno di stimare in modo quantitativo i valori ottimali dei
parametri della rete.
3.7
Prestazioni della rete
In questa sezione verranno descritte le prestazioni della rete neurale dal punto
di vista computazionale.
55
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.7 Prestazioni della rete
In Figura 3.4(a) è riportata la distribuzione del numero di hit per evento.
Non tutti questi punti vengono in realtà utilizzati per creare neuroni, a causa
della selezione descritta nel paragrafo 3.2. In Figura 3.4(b) è riportata invece
la distribuzione del numero di neuroni. Se ora esprimiamo il numero di
neuroni rispetto al numero di hit nel rivelatore di muoni e in T3 otteniamo
il grafico riportato in Figura 3.6. Grazie alla selezione applicata nella loro
costruzione il numero di neuroni cresce molto più lentamente in funzione del
numero di hit rispetto all’andamento quadratico atteso applicando in modo
acritico il metodo di Denby.
Parlando di dinamica neurale sono importanti due grandezze di cui adesso
andremo a discutere: il numero di iterazioni in cui converge la rete e il tempo
di CPU4 impiegato a compiere tali iterazioni.
Il numero di iterazioni dipende sostanzialmente dal numero di neuroni
creati e dal numero di collegamenti tra di essi. In Figura 3.4(c) è riportata la distribuzione del numero di iterazioni, mentre in 3.4(d) è mostrata la
dipendenza del numero di iterazioni dal numero totale di collegamenti neurali. Possiamo notare come il numero delle iterazioni inizialmente cresca con
la quantità di collegamenti per poi stabilizzarsi e diventare sostanzialmente
indipendente da esso.
Le distribuzioni dei tempi necessari a completare la dinamica MFA5 sono
riportati nelle Figure 3.4(e) e 3.4(f) per il processore su cui sono state effettuate le analisi, sfruttando in un caso la parallelizzazione e nell’altro no.
Come potevamo aspettarci lavorando su processi paralleli il tempo necessario per raggiungere la convergenza della rete diminuisce: si passa infatti
dai 44.59 ms ai 12.85 ms di media, guadagnando quindi un di un fattore 4.
Questo è stato possibile lavorando su 7 threads invece che su uno sulla stessa
macchina. Abbiamo effettuato anche un test con singolo processore su una
macchina più performante, il processore Intel Core i7 dove otteniamo un
tempo medio di convergenza di circa 29.55 ms. I risultati sono riassunti nella
Tabella 3.3. È interessante notare come la dispersione dei valori (RMS o Root
Mean Square) sia notevolmente minore nel caso di dinamica parallela, ovvero, l’evoluzione impiega meno tempo a convergere e i tempi di processamento
tendono ad essere più simili tra di loro. L’utilizzo di questo sistema di ricostruzione all’interno del trigger dell’esperimento (vedi 1.2.7) richiederebbe
proprio le caratteristiche sui tempi di processamento relative alla dinamica
parallela: tempi minori possibili e distribuiti con poca dispersione.
Sono riportati in grafico anche gli andamenti dei tempi di esecuzione
4
Con tempo di CPU si intende qui il tempo che processore dedica al solo processo
lanciato dell’utente, escludendo eventuali tempi morti dovuti al mantenimento del sistema.
5
Mean Field Annealing
56
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.7 Prestazioni della rete
Tempo di convergenza dinamica MFA (ms) RMS (ms)
Intel Xeon
Processor
single-thread
Intel Xeon
Processor
multi-thread
Intel Core
i7
single-thread
44.59
209.6
12.85
72.3
29.55
152.4
Tabella 3.3: Tempi di convergenza della dinamica MFA.
in funzione del numero di neuroni (Figura 3.7) e del numero di collegamenti tra di essi (Figura 3.8). Nel primo caso il grafico è stato sovrapposto con la distribuzione dei neuroni (fucsia), nel secondo sul grafico è
stato eseguito un fit lineare con una retta di equazione y = mx + q, con
m = 1.62 µs/(# collegamenti). Questo andamento lineare è molto interessante, di nuovo, dal punto di vista dell’applicazione del nostro metodo ad un
eventuale trigger di muoni. Infatti ci permette di prevedere con buona precisione il tempo di ricostruzione di un evento in base al numero di collegamenti
tra i neuroni ed eventualmente di interrompere a priori l’analisi se il tempo
previsto supera la latenza massima permessa per il trigger.
Conclusa la dinamica neurale è possibile analizzare le tracce ottenute.
Nelle figure 3.9 e 3.10 è riportata la ricostruzione di un evento, gli hit, i
neuroni, attivi e quelli spenti e le tracce costruite con essi. In Figura 3.5(a)
è riportata invece la distribuzione del numero di tracce per evento. Come si
può vedere nella maggior parte delle ricostruzioni sono presenti meno di sette
tracce. Nel prossimo Capitolo sarà spiegata la composizione di tali tracce,
riportando quante di queste siano effettivamente muoni e quante no. Dal
grafico di Figura 3.5(b) è possibile notare che le tracce formate da tre hit
sono più numerose di quelle formate da quattro o cinque hit. Questo perché
le tracce composte da tre hit arrivano solo alla stazione M2 del rivelatore ed
è ancora sufficientemente probabile che siano tracce rilasciate da particelle
diverse da muoni. Le tracce costituite da quattro o cinque hit hanno invece
una buona probabilità di appartenere a muoni. Tuttavia esse sono presenti
in numero minore rispetto a quelle costituire da sei hit per due motivi. Il
primo è dovuto al fatto che è il diminuire del numero di neuroni consecutivi
(composti dagli hit della traccia) sfavorisce l’attivazione degli stessi rendendo
la ricostruzione più difficoltosa. Inoltre meno hit compongono una traccia
57
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.7 Prestazioni della rete
e minore è il suo impulso, ovvero l’effetto di deflessione dovuto allo scatting
multiplo aumenta con conseguente peggioramento dei pesi. Il secondo motivo
è dato dalla distribuzione sull’intervallo di impulsi delle particelle: infatti solo
un numero limitato di muoni hanno un impulso tale da superare M3 senza
raggiungere M5 (come già descritto nel paragrafo 1.4). Nel prossimo Capitolo
sarà riproposta questa distribuzione discriminando però tra i casi in cui la
traccia sia o meno di un muone.
58
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
Eventi / 10 Hits
Eventi / 5 Neuroni
3.7 Prestazioni della rete
104
103
103
102
102
10
10
1
0
500
1000
1
0
1500
Hits
2000
4000
6000
8000 10000
Neuroni
(a) Distribuzione del numero di hit per (b) Distribuzione del numero di neuroni
evento.
per evento.
Eventi / 5 Iterazioni
Iterazioni
104
103
60
50
40
102
30
10
20
100
200
300
Eventi / 10 ms
(c) Distribuzione del numero di
iterazioni per evento.
h101
Entries
45000
Mean
44.59
209.6
RMS
4
10
10
0
400
500
Iterazioni
103
2000
3000
4000
5000
Collegamenti tra neuroni
(d) Numero di iterazioni in funzione del
numero di collegamenti.
h101
Entries
45000
Mean
12.85
72.32
RMS
104
103
102
102
10
10
1
0
1000
Eventi / 10 ms
1
0
1000
1
0
2000
3000
4000
Tempo esecuzione MFA (ms)
(e) Distribuzione del tempo CPU di
convergenza della dinamica MFA.
Intel Xeon Processor, dinamica a
singolo processo.
1000
2000
3000
4000
Tempo esecuzione MFA (ms)
(f) Distribuzione del tempo CPU di
convergenza della dinamica MFA. Intel
Xeon Processor, dinamica a 7 thread.
Figura 3.4:
59
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.7 Prestazioni della rete
50000
104
40000
103
30000
2
10
20000
10
10000
10
2
4
6
8
00
10
Tracce
1
2
3
4
5
6
7
Hit per traccia
(a) Distribuzione del numero di tracce (b) Distribuzione del numero di hit per
per evento.
ogni traccia.
Neuroni
Figura 3.5:
6000
5000
4000
3000
2000
1000
0
0
200
400
600
800
1000
1200
1400
Hits
Figura 3.6: Numero di neuroni creati in funzione del numero di hit .
60
3.7 Prestazioni della rete
104
103
103
102
Eventi / 5 Neuroni
Tempo esecuzione MFA (ms)
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
102
10
10
1
1
0
500
1000
1500
2000
2500
3000
3500
4000
Neuroni
Tempo esecuzione MFA (µs)
Figura 3.7: Tempo CPU di convergenza della dinamica neurale Mean Field
Anneling a singolo processo in funzione del numero di neuroni
(blu) e distribuzione del numero di neuroni (fucsia).
50000
40000
30000
20000
10000
0
0
500
1000
1500
2000
2500
3000
3500 4000 4500 5000
Collegamenti tra neuroni
Figura 3.8: Tempo CPU di convergenza della dinamica neurale Mean
Field Anneling a singolo processo in funzione del numero di
collegamenti tra neuroni.
61
3 Ricostruzione di tracce nel rivelatore di muoni di LHCb
3.7 Prestazioni della rete
x (mm)
Piano xz
4000
2000
0
-2000
-4000
10000
12000
14000
16000
18000
16000
18000
z (mm)
y (mm)
Piano yz
4000
2000
0
-2000
-4000
10000
12000
14000
z (mm)
Figura 3.9: Analisi di un evento: hit, neuroni spenti (rosso) e neuroni attivi
(blu).
x (mm)
Piano xz
4000
2000
0
-2000
-4000
10000
12000
14000
16000
18000
16000
18000
z (mm)
y (mm)
Piano yz
4000
2000
0
-2000
-4000
10000
12000
14000
z (mm)
Figura 3.10: Analisi di un evento: tracce costruite con i neuroni (rosso) e
fit lineare (blu).
62
Capitolo 4
Applicazione della rete neurale
al problema dell’identificazione
dei muoni
Nel capitolo precedente abbiamo visto come avviene la ricostruzione delle
tracce mediante una rete neurale e quali risultati porta. Resta quindi da affrontare il problema dell’identificazione dei muoni che è l’obbiettivo di questo
lavoro di tesi.
In questo capitolo verrà quindi descritto come sono state analizzate le
tracce generate dall’algoritmo e di come sia possibile con esse ricondurci
all’identificazione dei muoni. Come passo preliminare definiremo quali sono i
criteri in base ai quali definiamo “muone” una particella ricostruita in LHCb.
4.1
La definizione di “muone”
Riprendiamo ora il concetto di traccia di muone introdotto nel capitolo precedente per definire i criteri con cui, nella ricostruzione software degli eventi,
identificheremo queste particelle.
Una MuonTrack o MT (vedi paragrafo 3.5) è una traccia ricostruita dalla
rete neurale nel rivelatore di muoni. Come si è visto, queste tracce partono
da un hit nell’ultima parte del tracciatore (T3) e per essere considerate nel
seguito dell’analisi, devono avere almeno un hit nella stazione M2. Una MT
per essere costruita deve superare anche tagli geometrici e fisici, come già
introdotto nella sezione dedicata alla creazione dei neuroni (paragrafo 3.1).
Definiremo allora come “muone” una combinazione di oggetti costituita
da:
1. una traccia nel tracciatore che arrivi fino a T3, ottenuta da un fit degli
63
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.2 Studio dell’efficienza di identificazione con il Monte Carlo
hit del tracciatore con χ2 /nDoF1 minore di 4 e che abbia impulso e
impulso trasverso maggiori di limiti prefissati (i tagli in p e pT sono
dettagliati nel seguito); la traccia deve essere inoltre nell’accettanza
del rivelatore di muoni come definito nel paragrafo 3.1.
2. una MT associata.
Indicheremo le tracce che soddisfano il punto 1 come Tµ e quelle identificate come “muoni”, che cioè soddisfano i punti 1 e 2, con TµID . Come si
vede, la procedura di identificazione non richiede ulteriori fasi di ricostruzione
oltre a quanto descritto nel Capitolo 3. Data la precedente definizione, perciò, possiamo direttamente studiare le prestazioni della rete neurale riguardo
all’identificazione dei muoni, studio che sarà oggetto del presente capitolo.
4.2
Studio dell’efficienza di identificazione con
il Monte Carlo
L’efficienza di identificazione può essere studiata in dettaglio utilizzando
eventi simulati. Nella simulazione Monte Carlo infatti sono disponibili tutti
i dettagli dell’evento ed è quindi possibile sapere se una certa traccia è stata
creata o meno da un muone. Questo tipo di informazione viene denominata,
per semplicità, con l’espressione “verità Monte Carlo”, come già introdotto
nel paragrafo 3.6. In questo paragrafo viene studiata l’efficienza di identificazione della rete neurale utilizzando eventi simulati che contengono il processo
pp → J/ψ(µ+ µ− )X. L’efficienza di identificazione viene definita considerando tracce Tµ che sono effettivamente muoni in base alla verità Monte Carlo
ID
(NµM C ) e contando quante di esse è associata una MT (NµM
C ). L’efficienza
di identificazione è definita perciò come:
s
ID
NµM
ǫID (1 − ǫID )
C
σǫID =
(4.1)
ǫID =
NµM C
NµM C
dove ǫID è l’efficienza di identificazione e σǫID il suo errore.
La misidentificazione rappresenta la percentuale di errore di identificazione, cioè quante volte la rete neurale ricostruisce una traccia e questa non è
un muone; si può dunque definire contando i “muoni” e controllando quali di
questi effettivamente non lo siano, ricorrendo ancora una volta alla “verità
Monte Carlo”.
s
MC
N!µ
MID(1 − MID)
MID = ID
σMID =
(4.2)
Nµ
NµID
1
nDoF: Number of Degrees of Freedom, ovvero numero di gradi di libertà.
64
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
I
II
KM
KC KD
50
30
1
3000 1000 10
4.2 Studio dell’efficienza di identificazione con il Monte Carlo
Na
0.5
1
ǫID ± σǫID
MID ± σMID
0.9576 ± 0.0008 0.211 ± 0.002
0.9809 ± 0.0005 0.434 ± 0.002
Tabella 4.1: Parametri della rete neurale (definiti nella sezione 2.7.2) nelle
configurazioni I e II.
ID
Dove MID è sta per MisIDentificazione, σMID è il suo errore, N!µ
è il numero
2
ID
ID
di Tµ che in realtà non sono muoni e Nµ è il numero totale di “muoni”.
L’andamento di questi due valori in funzione dei parametri della rete
neurale è stato usato per ottimizzare i parametri stessi. In tabella 4.1 sono
riportati i valori dei parametri e delle efficienze per due configurazioni: la
prima è quella considerata ottimale e rappresenta il miglior compromesso, la
seconda invece è più orientata verso una maggiore efficienza di identificazione
e ovviamente ha una percentuale di misidentificazione più alta.
L’efficienza di identificazione e la probabilità di misidentificazione sono, a
questo livello, completamente determinate dai parametri della rete neurale.
Tuttavia, poiché la rete ricostruisce delle tracce (tracce MT), è possibile agire ulteriormente sulla qualità di queste ultime per ridurre il fondo di muoni
identificati erroneamente. Poiché le tracce MT sono ottenute con un fit lineare, possiamo ad esempio sfruttare il χ2 per selezionare tracce di migliore
qualità. In questo modo si può ridurre il fondo di muoni male identificati
dovuto ad esempio a particelle che fuoriescono dal calorimetro (punch through [56]) la cui traiettoria non è ben allineata con la traccia nel tracciatore
e col segmento che unisce T3 a M1. Un altro tipo di fondo che può essere
leggermente ridotto in questo modo è quello dovuto ai decadimenti in volo
di π e K. In questo caso infatti si ha una traccia di alto impulso ricostruita
nel tracciatore dovuta a un π o a un K che poi decade con un muone nello
stato finale. Il µ secondario può avere un impuso più basso e quindi, per
effetto dello scattering multiplo, seguire una traiettoria meno rettilinea dando luogo ad un fit con un χ2 più alto. In Figura 4.1 sono riportati i χ2 dei
fit sui piani xz e yz delle tracce MT create effettivamente da muoni e per
tracce create invece da altre particelle primarie (Figure 4.1(a),4.1(b),4.1(c)
4.1(d) rispettivamente). È bene sottolineare che questa ulteriore selezione,
discussa qui a titolo di esempio, è possibile solo in quanto nel nostro metodo
l’identificazione dei muoni avviene mediante la ricostruzione diretta delle loro traiettorie, al contrario di quanto avviene nell’attuale algoritmo usato in
LHCb (vedi paragrafo 1.4) in cui non si fa una vera e propria ricostruzione
2
come in diversi linguaggi di programmazione il simbolo “!” rappresenta l’operatore
logico NOT
65
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.2 Studio dell’efficienza di identificazione con il Monte Carlo
di tracce. I valori dell’efficienza di identificazione ottenuti con questo studio
basato direttamente sul Monte Carlo sono mostrati in Tabella 4.2. Come
si vede, si possono scegliere opportunamente i tagli sul χ2 in modo da ridurre sensibilmente la misidentificazione, al costo di una leggera riduzione
dell’efficienza.
Eventi / 10
χ2 yz !µ
Eventi / 10
χ2 yz µ
104
103
103
102
2
10
10
10
1
0
500
1000
1500
1
0
2000
χ2
500
(a)
1000
1500
2000
χ2
15000
20000
χ2
(b)
χ2 xz µ
χ2 xz !µ
Eventi / 100
Eventi / 100
103
104
102
103
102
10
10
1
0
1
5000
10000
15000
0
20000
χ2
(c)
5000
10000
(d)
Figura 4.1: Distribuzioni dei χ2 sui piani xz e yx per muoni (µ) e altre
particelle (!µ).
Per mettere in risalto gli effetti del punch through e dei decadimenti in
volo possiamo riprendere la distribuzione del numero di hit per traccia di
Figura 3.5(b), costruendola però in modo da discriminare i contributi delle
tracce di muoni dalle tracce misidentificate grazie alla verità Monte Carlo. In
Figura 4.2 è riportata la doppia distribuzione del numero di hit per traccia
nel caso di muoni (blu) e non (rosso), da cui si nota che il contributo maggiore
alla misidentificazione è dovuto alle tracce composte da soli tre hit (T3, M1
e M2).
Infine è importante studiare come l’efficienza e la misidentificazione cambino al variare di grandezze fisiche come l’impulso e l’impulso trasverso delle
66
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
∀ χ2yz
χ2yz <
χ2yz <
χ2yz <
∪
400 ∪
150 ∪
50 ∪
∀ χ2xz
χ2xz <
χ2xz <
χ2xz <
4.3 Studio dell’efficienza col metodo di tag and probe
ǫID ± σǫID
MID ± σMID
0.9687 ± 0.0008 0.086 ± 0.001
2000 0.947 ± 0.001 0.0248 ± 0.0008
1000 0.944 ± 0.001 0.0222 ± 0.0007
200
0.923 ± 0.001 0.0170 ± 0.0007
Tabella 4.2: Efficienza e misidentificazione in funzione dei tagli sul χ2 .
particelle. Infatti se un muone possiede alto impulso lascia una traccia nel
rivelatore di muoni più rettilinea, essendo meno influenzata dallo scattering
multiplo, e che attraversa tutte le stazioni. Sarà quindi più facile identificarlo
come muone.
Come è possibile vedere dai grafici riportati nelle figure 4.3 e 4.4 si ha un
miglioramento delle prestazioni al crescere dell’impulso: l’efficienza cresce e
la misidentificazione diminuisce. Un effetto analogo si ha anche in funzione
dell’impulso trasverso.
4.3
Studio dell’efficienza col metodo di tag
and probe
Il metodo di misura dell’efficienza di identificazione utilizzato fino ad ora si
basa sullo studio della verità Monte Carlo, cioè sull’analisi di informazioni
che si ottengono solo grazie alla simulazione dell’evento. Serve quindi un
sistema per misurare l’efficienza di identificazione utilizzando direttamente i
dati.
È importante avere a disposizione un metodo di questo tipo poiché ogni
errore che si commette nella simulazione, si riflette poi in un errore sistematico sulla stima dell’efficienza di identificazione e, in ultima analisi, su
qualunque misura in cui entri in gioco tale grandezza. Il sistema utilizzato in questo lavoro di tesi è il metodo cosiddetto di tag and probe (Figura
4.5). Questo metodo consiste nel selezionare un campione molto puro di decadimenti J/ψ → µ+ µ− . Le J/ψ vengono ricostruite utilizzando un muone
ben identificato (tag, in rosso) e una traccia (probe) per la quale non viene
richiesta alcuna identificazione, che abbia carica opposta al muone tag, un
vertice in comune con esso e che dia la massa invariante della J/ψ. Poiché la
traccia probe proviene per costruzione dal decadimento della J/ψ, possiamo
essere ragionevolmente sicuri che sia la traccia di un muone. Possiamo perciò
utilizzarla per testare la nostra procedura di identificazione e per misurarne
l’efficienza. Questo metodo è stato verificato innanzitutto su un campione di
67
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.3 Studio dell’efficienza col metodo di tag and probe
105
µ
MC
!µ
MC
104
103
2
3
4
5
6
7
Hit per traccia
Figura 4.2: Distribuzione del numero di hit per traccia nel caso di muoni
(blu) e non (rosso).
eventi simulati e poi applicato ad un campione di dati raccolti da LHCb nel
2010. I dati della simulazione Monte Carlo sono tutti eventi in cui è presente
una particella J/ψ che decade in due muoni, si tratta quindi di un campione
molto puro.
Possiamo ora descrivere in dettaglio l’applicazione del metodo di tag and
probe al nostro algoritmo di identificazione. Per farlo si prendono tracce TµID
con tagli di selezione più stringenti. I tagli imposti sono i seguenti:
• p > 6 GeV /c
• pT > 1.5 GeV /c
Questi tagli assicurano che il muone tag attraversi tutte le cinque stazioni
del rivelatore di muoni e che quindi l’identificazione sia ottimale. Noto il
muone tag, si procede all’abbinamento con la traccia probe. Questa traccia,
oltre a soddisfare il criterio 1) del paragrafo 4.1, deve avere carica opposta al
muone tag, formare con esso un vertice comune e dare (nell’ipotesi di massa)
una massa invariante MT P nell’intervallo |MJ/ψ − MT P | < 50M eV /c2 . Una
68
∈corr
TP
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.3 Studio dell’efficienza col metodo di tag and probe
1
0.98
0.96
0.94
0.92
0.9
0.88
0.86
p > 0.8 GeV/c
0.84
p > 1.5 GeV/c
T
T
0.82
0.8
0
5000
10000
15000
20000
25000
30000
35000
40000
p (MeV/c)
Figura 4.3: Efficienza di identificazione in funzione dell’impulso e
dell’impulso trasverso.
volta selezionata la traccia probe si applica la procedura di identificazione
ovvero si verifica se ad essa è connessa una traccia MT (traccia blu di Figura
4.5) come richiesto nella definizione di muone data nel paragrafo 4.1.
Detti NP1 e NP0 rispettivamente il numero di tracce probe identificate e il
numero di tracce probe non identificate, l’efficienza di identificazione è definita
come
s
1
N
ǫT P (1 − ǫT P )
ǫT P = 1 P 0
σǫT P =
(4.3)
NP + NP
NP1 + NP0
dove σǫT P è l’errore statistico sull’efficienza di identificazione.
Questo sistema dovrebbe fornire una misura dell’efficienza di identificazione senza la necessità di utilizzare il Monte Carlo. Tuttavia, nel selezionare
le tracce tag e probe utilizzando la finestra di massa invariante intorno al
picco della J/ψ, includiamo anche un contributo dovuto al fondo combinatorio. Il fondo può essere rappresentato con sufficiente accuratezza da una
distribuzione lineare, come si può vedere dal fit alla distribuzione di massa
69
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
∈corr
TP
4.3 Studio dell’efficienza col metodo di tag and probe
0.5
0.45
p > 0.8 GeV/c
0.4
p > 1.5 GeV/c
T
T
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
5000
10000
15000
20000
25000
30000
35000
40000
p (MeV/c)
Figura 4.4: Misidentificazione in funzione dell’impulso e dell’impulso
trasverso.
invariante mostrato in Figura 4.6 eseguito con la somma di una gaussiana3
e una distribuzione lineare. Assumendo quindi che il fondo combinatorio,
anche sotto il picco della J/ψ segua la stessa distribuzione di massa invariante lineare, possiamo stimare il numero di eventi di fondo inclusi nella
finestra di massa utilizzata per definire le tracce probe tramite gli eventi che
si trovano ai lati del picco di massa invariante della J/ψ . Definiamo allora due regioni di massa invariante con 2900M eV /c2 < M < 2950M eV /c2
e 3250M eV /c2 < M < 3300M eV /c2 : poiché abbiamo assunto che il fondo abbia una distribuzione lineare, il numero di eventi compresi in queste
regioni sarà uguale, entro le fluttuazioni statistiche, al numero di eventi di
fondo nella finestra di massa considerata per le tracce probe. Possiamo allora
3
Come è possibile vedere dal grafico tuttavia, il picco non è una gaussiana. La funzione che meglio approssima la distruzione di massa invariante è la Crystal Ball [57], una
funzione gaussiana con una coda esponenziale. Questa coda rappresenta gli eventi in cui
nel decadimento della J/ψ sono stati emessi uno o più fotoni e i muoni sono stati generati
come meno energia. Abbiamo eseguito un fit semplificato solo per verificare l’ipotesi della
linearità del fondo.
70
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.3 Studio dell’efficienza col metodo di tag and probe
utilizzare questi eventi per stimare il contributo del fondo all’efficienza di
identificazione, applicando direttamente ad essi il metodo di tag and probe.
Detti rispettivamente BP1 e BP0 il numero di tracce probe selezionate nelle
regioni laterali identificate e non identificate, possiamo definire l’efficienza di
identificazione corretta per il fondo come:
NP1 − BP1
N 1 − BP1 + NP0 − BP0
sP
(NP1 − BP1 )2 (NP0 + BP0 ) + (NP0 − BP0 )2 (NP1 + BP1 )
=
(NP1 − BP1 + NP0 − BP0 )4
ǫcorr
=
TP
σǫcorr
TP
(4.4)
(4.5)
tag
Fascio
probe
T3
M1
M2 M3 M4 M5
Figura 4.5: Schematizzazione del metodo di tag and probe.
4.3.1
Eventi Monte Carlo
L’analisi eseguita su un campione di 45000 eventi simulati contenenti particelle J/ψ che decadono in due muoni ha fornito i risultati di tabella 4.3.
Da notare come passando da un impulso trasverso minimo di 0.8 GeV /c
ad uno di 1.5 GeV /c per la particella della traccia probe l’efficienza aumenti,
come già era stato notato nello studio dell’efficienza di identificazione con il
Monte Carlo. I motivi sono ovviamente gli stessi. Dell’efficienza misurata per
71
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.3 Studio dell’efficienza col metodo di tag and probe
Eventi / 4 MeV/c2
α
β
γ
x0
σ
103
χ2 / ndf = 574.2 / 90
-0.04249 ± 0.00229
140.6 ± 7.3
2141 ± 22.7
3097 ± 0.1
12.18 ± 0.09
102
10
1
2900
2950
3000
3050
3100
3150
3200
3250
3300
Mµ+µ- (MeV/c2)
Figura 4.6: Distribuzione della massa invariante relativa alle tracce probe
identificate come muoni.
i valori più bassi di impulso viene riportato nel grafico il valore non corretto
per il fondo (ǫT P ) a causa della poca statistica a disposizione che ha reso la
correzione statisticamente non consistente. Tra gli sviluppi futuri del metodo
sarà importante studiare nel dettaglio gli eventi a basso impulso sui quali si
potrebbe avere un margine di miglioramento notevole rispetto all’algoritmo
di identificazione attuale.
4.3.2
Dati
Il metodo di tag and probe è utilizzato per stimare l’efficienza del metodo
di identificazione dei muoni usando direttamente i dati in modo da svincolarsi da tutte le inesattezze che ci possono essere nel modo in cui il Monte
Carlo simula gli eventi. Per utilizzare il metodo con i dati raccolti da LHCb
dobbiamo prima selezionare un campione di J/ψ che decadono in due muoni,
avendo cura di non polarizzare il campione, ossia apportare deformazioni alle
distribuzioni statistiche. I dati utilizzati in questa analisi sono stati raccolti
72
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.3 Studio dell’efficienza col metodo di tag and probe
Eventi / 4 MeV/c2
χ2 / ndf
145.6 / 95
α
-0.006657 ± 0.004785
β
50.65 ± 14.87
γ
105 ± 6.9
x0
3096 ± 0.6
σ
10.63 ± 0.71
102
10
2900
2950
3000
3050
3100
3150
3200
3250
3300
Mµ µ- (MeV/c2)
+
Figura 4.7: Distribuzione della massa invariante relativa alle tracce probe
non identificate come muoni.
nel 2010 4 . La selezione dei muoni tag e probe e la selezione dei candidati
J/ψ segue esattamente quella descritta per il Monte Carlo. Per ridurre la
maggiore componente del fondo combinatorio ci si affida al trigger. Per selezionare un campione in cui solo un muone sia identificato con certezza (il
muone tag), si richiede che il trigger che ha selezionato l’evento sia un trigger
di singolo muone, sia per il trigger L0 che per l’HLT. Si impone inoltre che il
muone che si usa come tag sia proprio quello che ha fatto scattare il trigger 5 .
Le condizioni di trigger richiedono almeno un muone con pT > 1.4 GeV /c.
I dati vengono inoltre preselezionati scegliendo solo gli eventi dove con il
muone di tag ed un’altra traccia si possa ricostruire una massa invariante di
almeno 2700 M eV /c2 .
Un confronto tra le efficienze corrette per il fondo calcolate sugli eventi
Monte Carlo e sui dati è riportato nella Tabella 4.4 da cui è possibile concludere che le analisi sui due campioni sono sostanzialmente equivalenti e quindi
4
nel 2011 il trigger è stato configurato in modo da selezionare solo il 10% delle J/ψ
Alternativamente, si potrebbe richiedere che il muone usato come probe non sia la
particella che ha fatto scattare il trigger.
5
73
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.3 Studio dell’efficienza col metodo di tag and probe
p > 3 GeV /c pT > 0.8 GeV /c
p > 3 GeV /c pT > 1.5 GeV /c
ǫT P ± σǫT P
ǫcorr
T P ± σǫcorr
TP
0.917 ± 0.002 0.960 ± 0.001
0.958 ± 0.002 0.974 ± 0.002
Tabella 4.3: Efficienze di identificazione con il metodo di tag and probe al
variare dell’impulso trasverso delle tracce probe. ǫcorr
T P tiene
conto della correzione dovuta al fondo combinatoriale come
definito nell’equazione 4.4.
che il metodo di tag and probe è utilizzabile anche nell’analisi dei dati. La
Tabella riporta anche i valori della misura di efficienza di identificazione con
il Monte Carlo e mostra come i due metodi siano equivalenti al fine di stimare
la capacità dell’algoritmo di identificare i muoni.
ǫ ± σǫ
Metodo Monte Carlo
0.9687 ± 0.0008
Metodo tag and probe eventi Monte Carlo 0.974 ± 0.002
Metodo tag and probe dati
0.966 ± 0.003
Tabella 4.4: Efficienze di identificazione con i due metodi per dati simulati e non. Le misure sono state eseguite richiedendo
p > 3 GeV /c pT > 1.5 GeV /c.
In Figura 4.9 è riportato l’andamento dell’efficienza di identificazione per
il campione di dati, ottenuta col metodo di tag and probe corretta per il fondo,
al variare dell’impulso e dell’impulso trasverso delle particelle utilizzate come
probe. Anche qui per i valori più bassi di impulso è riportata l’efficienza non
corretta per il fondo sempre a causa della statistica limitata.
Come è stato possibile misurare l’efficienza di identificazione utilizzando
dei dati veri, è possibile anche misurare la probabilità di misidentificazione.
Infatti possiamo ripetere la procedura di tag and probe utilizzando un campione di dati formato ad esempio da decadimenti Λ → pπ. Questo campione
ci assicura che nessuna delle tracce selezionate sia effettivamente un muone
e ci permette pertanto di stimare la misidentificazione direttamente dai dati.
In futuro, il metodo sviluppato in questo lavoro di Tesi potrebbe essere esteso anche a questo campione di controllo in modo da avere una stima diretta
della misidentificazione.
74
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.4 Confronto con il metodo IsMuon
∈corr
TP
1
0.98
0.96
0.94
0.92
0.9
0.88
0.86
p > 0.8 GeV/c
0.84
p > 1.5 GeV/c
T
T
0.82
0.8
0
5000
10000
15000
20000
25000
30000
35000
40000
p (MeV/c)
Figura 4.8: Efficienza di identificazione in funzione dell’impulso e dell’impulso trasverso calcolata con il metodo del tag and probe per
il campione di dati simulati.
4.4
Confronto con il metodo IsMuon
Riportiamo ora il confronto delle prestazione di identificazione e misidentificazione tra il metodo IsMuon introdotto nel paragrafo 1.4 e la definizione
“muone” data nel paragrafo 4.1.
I dati del confronto sono riportati nella Tabella 4.5. Possiamo notare
come la definizione di “muone” introdotta in questo lavoro di Tesi abbia efficienze confrontabili con la IsMuon utilizzata al momento a LHCb, tranne
che per bassi impulsi dove la ricostruzione di tracce con due soli hit permette
un’efficienza di identificazione superiore. Utilizzando però tracce cosı̀ corte, a differenza di IsMuon che richede segnali in più stazioni all’aumentare
dell’impulso, la probabilità di misidetificazione risulta peggiore di quella ottenuta con IsMuon. Come già accennato in precedenza, l’utilizzo di tracce
MT corte, con hit solo in T3, M1 e M2, consentirebbe di selezionare muoni
con impulso più basso rispetto a quanto possibile attualmente con il metodo
IsMuon. Tuttavia per ridurre il tasso di misidentificazione è probabilmente
75
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
∈corr
TP
4.4 Confronto con il metodo IsMuon
1
0.98
0.96
0.94
0.92
0.9
0.88
0.86
p > 0.8 GeV/c
0.84
p > 1.5 GeV/c
T
T
0.82
0.8
0
5000
10000
15000
20000
25000
30000
35000
40000
p (MeV/c)
Figura 4.9: Efficienza di identificazione in funzione dell’impulso e dell’impulso trasverso calcolata con il metodo del tag and probe per
il campione di dati.
necessario studiare un’opportuna ottimizzazione della rete neurale. Questo
studio rappresenta sicuramente una possibile evoluzione di questo lavoro di
Tesi.
76
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
ǫID
IsMuon
“muone”
MID
IsMuon
“muone”
4.4 Confronto con il metodo IsMuon
3 < p < 6 GeV /c
6 < p < 10 GeV /c
0.836 ± 0.009
0.90 ± 0.02
0.958 ± 0.004
0.942 ± 0.004
0.066 ± 0.008
0.13 ± 0.02
0.055 ± 0.006
0.119 ± 0.006
p > 10 GeV /c
p > 3 GeV /c
0.983 ± 0.001
0.966 ± 0.002
0.9716 ± 0.0009 0.9687 ± 0.0008
0.020 ± 0.001
0.082 ± 0.001
0.043 ± 0.001
0.086 ± 0.001
Tabella 4.5: Efficienza di identificazione e probabilità di misidentificazione
per le definizioni IsMuon e “muone”.
77
4 Applicazione della rete neurale al problema
dell’identificazione dei muoni
4.4 Confronto con il metodo IsMuon
78
Conclusioni
In questo lavoro di tesi è stato studiato un algoritmo per la ricostruzione
di tracce nel rivelatore di muoni dell’esperimento LHCb mediante l’utilizzo
di una rete neurale ricorsiva. La parte principale del progetto è stata l’implementazione dell’algoritmo di ricostruzione basato sul modello di Hopfield.
L’algoritmo è stato implementato in linguaggio C++ in vista di una possibile
integrazione nel codice ufficiale di LHCb. Il codice è formato da tra parti
principali: la creazione dei neuroni, l’evoluzione della rete e la costruzione
delle tracce.
Di particolare importanza è l’algoritmo che calcola l’evoluzione della rete
e ne determina la convergenza. Questo è stato realizzato mediante la dinamica detta Mean Field Annealing che si ispira all’approssimazione del campo
medio, metodo introdotto nella meccanica statistica. È possibile un suo utilizzo perché il tipo di reti preso in esame ha una forte analogia con un sistema
magnetico di spin.
L’algoritmo utilizzato è una variante del metodo di Denby adattata e
ottimizzata in base alle caratteristiche del rivelatore di muoni di LHCb. I
parametri della rete neurale sono stati infine ottimizzati per il problema
dell’identificazione dei muoni. Nella parte finale di questo lavoro si sono
infatti utilizzate le tracce ricostruite mediante la rete neurale per identificare
i muoni in LHCb, quantificando l’efficienza di identificazione e la percentuale
di misidentificazione del metodo.
I risultati ottenuti sono risultati confrontabili con quelli dell’algoritmo
attualmente in uso in LHCb. Riteniamo tuttavia che il metodo elaborato
in questo lavoro possa risultare più robusto in condizioni di alta densità
di particelle come quelle previste in una possibile evoluzione di LHCb ad
altissima luminosità.
Lo studio sulle tempistiche di calcolo ha evidenziato inoltre come il metodo introdotto in questo lavoro di tesi sia relativamente veloce il che lo
renderebbe un candidato per l’utilizzo nel sistema di trigger dell’esperimento.
79
Conclusioni
Prospettive future e possibili sviluppi
Prospettive future e possibili sviluppi
Il metodo per l’identificazione dei muoni introdotto in questo lavoro di tesi si è
dimostrato efficiente sia dal punto di vista computazionale che identificativo,
anche se rappresenta un primo sviluppo ed è in più punti modificabile:
• per gli aspetti relativi al calcolo, una scrittura ottimizzata del codice
porterebbe a miglioramenti sui tempi di esecuzione;
• una diversa scelta della dinamica di ricerca del minimo della funzione
costo invece potrebbe condurre a risultati più efficienti, ad esempio utilizzando il Simulated Annealing o procedure più specifiche come quella
introdotta in [53];
• infine uno studio più approfondito dell’efficienza e della misidentificazione in funzione dell’impulso aiuterebbe l’ottimizzazione dei parametri
della rete, magari introducendo anche una dipendenza della lunghezza
delle tracce dall’impulso come per il metodo IsMuon di LHCb descritto
nel paragrafo 1.4.
Anche sotto il profilo dell’hardware sono possibili dei miglioramenti: esistono infatti dei processori nati per l’elaborazione grafica che si presterebbero
bene ad un impiego in questo settore. I processori grafici [58], o GPU, infatti sono realizzati mediante una griglia di piccoli processori con prestazioni
limitate che, elaborando i dati in parallelo, sono in grado di eseguire computazioni complesse, come ad esempio lo studio di una dinamica neurale.
Facendo riferimento a quanto visto nel paragrafo 3.4 sarebbe possibile su un
processore grafico comune eseguire fino a 64 thread e fino a un migliaio su un
processore professionale. Lo sviluppo della dinamica neurale ed i suoi tempi di esecuzione trarrebbero sicuramente dei benefici dall’utilizzo di questi
processori.
80
Appendice A
Meccanica Statistica dei vetri
di spin
In questa appendice verrà presentata un’introduzione della meccanica statistica dei vetri di spin, spiegando i concetti di base per cui si può dimostrare
la stabilità del sistema magnetico. Si tratta di un metodo rigoroso e in questa
sede ne sarà data solo una breve introduzione.
Ci riferiremo in questa formulazione ai pesi come variabili aleatorie facendo riferimento alle reti neurali di Hopfield, utilizzabili quindi per eseguire
pattern-recongnition, per cui avremo i pesi definiti come in 2.4 ma per le
variabili S.
Il primo concetto da introdurre per questa trattazione è quello di transizione di fase, ovvero il passaggio da uno stato ad uno differente di un
determinato sistema statistico ad una certa temperatura. Nel nostro caso,
scesi sotto la temperatura critica, l’energia libera del sistema presenterà il
caretteristico paesaggio a “valli”, di cui discuteremo in seguito, tipico della fase detta di spin-glass partendo da un stato paramegnetico come si può
vedere dal grafico in Figura A.1.
La transizione di fase garantisce, mediante l’energia libera, che il sistema
magnetico, e quindi anche la rete neurale, abbia delle proprietà di stabilità
e ogni “valle” garantisce la presenza di un attrattore dove il sistema convergerà dato un certo vettore di ingresso. Sarà quindi possibile riconoscere un
determinato pattern con cui è stata addestrata la rete.
Per dimostrare la presenza di questa transizione di fase dobbiamo studiare
il comportamento della funzione di partizione definita in 2.8, anche se in
realtà, essendo il calcolo di difficile risoluzione, viene analizzata l’energia
libera per il singolo spin ricavata dalla 2.9 mediata sulla distribuzione dei
A1
A Meccanica Statistica dei vetri di spin
pesi1
1
≪ ln Z(β, J) ≫
N →∞ βN
f (β, J) = − lim
dove con ≪ ≫ si intende
¯ =
f (β)
Z
(A.1)
P (J)f (β, J)dJ
Ω
Per risolvere questo problema Sherrington e Kirkpatrick (SK) [59] hanno sviluppato un artificio detto Simmetria di Replica: sfruttando la forma
esponenziale della funzione di partizione possiamo scrivere
Zn − 1
n→0
n
ln Z = lim
Z n = en ln Z =
n
Y
Zα
α
dove n indica il numero totale delle repliche e α la replica. In pratica si
suppone di osservare un sistema composto da n repliche identiche e non
interagenti. Per fare il limite l’indice n dovrebbe essere una variabile continua
ma in questa trattazione viene usata come discreta (supponendo che non ci
siano particolarità per n = 0 il metodo funziona).
Per studiare efficacemente sistemi disordinati di questo tipo conviene introdurre dei parametri d’ordine: la magnetizzazione media V =≪ hSi i ≫ e il
paramentro di Edwards-Anderson [60] (EA) q =≪ hSi i2 ≫. Le loro relazioni
evidenzieranno le transizioni di fase.
Come dimostrato in [59] è possibile determinare la natura della fase del
sistema partendo dai parametri della distribuzione dei pesi e calcolare le
relazioni tra i paramentri d’ordine:
J0 ≫ J ⇒ q ≃ ±V 2 fase ferromagnetica
J0 ≪ J ⇒ q ≃ 0, V ≃ 0 fase di spin glass
In pratica nella fase di spin glass il sistema manifesta una magnetizzazione
media nulla rispetto alla distribuzione di pesi, ovvero non sarà presente una
correlazione spaziale.
Il modello di SK funziona bene fino a che il sistema non si avvicina a
temperature molto basse: per T → 0 sono necessarie alcune correzioni. Analizzando lo spazio delle fasi di un vetro di spin ci si accorge subito che si
1
Supponiamo ora che i pesi siano distribuiti gaussianamente
1
(Jij − J0 )2
P (Jij ) = √
exp −
2J 2
2πJ
A2
A Meccanica Statistica dei vetri di spin
J0 /J
Figura A.1: Diagramma di fase del modello di SK con campo magnetico
esterno nullo. Sono riconoscibili le quattro diverse fasi: paramagnetica (P), ferromagnetica (F), spin glass (SG) e mista
ferromagnetica-spin glass (F-SG).
presenta come un paesaggio a “valli”, condizione neccessaria per il funzionamento di una rete neurale ma implica anche un altro fenomeno: il sistema
non è ergodico.
Un sistema si dice ergodico se tutte le configurazioni dello spazio delle fasi
sono accessibili; in questo caso invece, al di sotto della temperatura critica
per cui abbiamo la transizione di fase, il sistema rimane intrappolato in una
certa regione dello spazio delle fasi e per spostarsi verso un’altra con energia
comparabile impiegherebbe un tempo infinito perché l’altezza delle barriere
diverge.
Proprio la rottura dell’erogodicità portò Parisi [61] [62] a formulare una
variante al modello di SK che prevedeva la rottura della Simmetria di Replica. Se questa simmetria non è più valida significa che le repliche non sono
identiche, il che può sembrare assurdo visto che sono state introdotte artiA3
A Meccanica Statistica dei vetri di spin
ficialmente. Quello che succede è che ogni stato di equilibrio (detto puro)
della fase di spin glass può essere rappresentato come appartenente ad una
diversa replica, di indice α, del sistema.
Quindi per ogni stato lo spin sarà definito come Siα e la sua media Viα =
α
hSi i, la sovrapposizione di due stati detta overlap è data da
q αβ =
1 X α β
V V
N j j j
con cui possiamo definire il parametro d’ordine q̃ = q̃(x) della transizione
come
Z q̃
Z q̃ X
x(q̃) =
P (q̃)dq̃ =
Pα Pβ δ(q̃ − q αβ )dq̃
−∞
−∞ αβ
con Pα la probabilità che il sistema si trovi nello stato puro α. Se quindi q̃ è
costante avremo solo stati puri che non differiscono macroscopicamente (fase
ferromagnetica), se invece q̃ non è costante gli stati puri saranno distinti ed
osserveremo la fase di spin glass. In [61] Parisi dimostra anche che q̃ = q se la
simmetrica di replica è rotta, ovvero che coincide con il parametro d’ordine di
EA. Questa trattazione permette anche di introdurre le correzioni necessarie
per lo studio a basse temperature.
Tutte le considerazioni fatte per la statistica dei vetri di spin possono
essere fatte anche per le reti di Hopfield come evidenziato in [63] [64] dove i
possibili vettori di addestramento della rete vanno a coincidere con gli stati
puri α del sistema.
A4
Bibliografia
[1] L. Evans and P. Bryant (editors). LHC Machine. Jinst, 3(S08001),
August 2008.
[2] Maddalena Frosini. Studio delle prestazioni del rivelatore di muoni dell’esperimento LHCb mediante la rivelazione di muoni cosmici. Master’s
thesis, Università degli studi di Firenze, 2008.
[3] Andrea Bruschi. Studio dei decadimenti J/ψ → µ+ µ− all’esperimento
LHCb e misura delle sezioni d’urto σ(pp → J/ψX) e σ(pp → bb̄ →
J/ψX) con i primi dati di LHC . Master’s thesis, Università degli studi
di Firenze, 2011.
√
[4] R. Aaij et al. Measurement of J/ψ production in pp collisions at s =
7 T eV . Eur.Phys.J., C71:1645, 2011.
[5] The LHCb Collaboration. The LHCb Detector at the LHC. Journal of
Instrumentation, 3(08):S08005, 2008.
[6] The LHCb Collaboration. LHCb VELO TDR, 2001.
[7] The LHCb Collaboration. LHCb Magnet TDR, 2000.
[8] The LHCb Collaboration. LHCb Inner Tracker TDR, 2002.
[9] The LHCb Collaboration. LHCb Outer Tracker TDR, 2001.
[10] The LHCb Collaboration. LHCb RICH TDR, 2000.
[11] The LHCb Collaboration. LHCb Calorimeter TDR, 2000.
[12] The LHCb Collaboration. LHCb Muon System TDR, 2001.
[13] F. Sauli. GEM: A new concept for electron amplification in gas detectors.
Nuclear Instruments and Methods A, 386(2-3):531–534, February 1997.
I
[14] G. Haefeli, A. Bay, A. Gong, H. Gong, M. Muecke, N. Neufeld,
and O. Schneider. The LHCb DAQ interface board TELL1. Nuclear Instruments & Methods in Physics Research Section A-accelerators
Spectrometers Detectors and Associated Equipment, 560:494–502, 2006.
[15] The LHCb Collaboration. LHCb Trigger TDR, 2003.
[16] G. Barrand, Belyaev, P. Binko, M. Cattaneo, R. Chytracek, G. Corti,
M. Frank, G. Gracia, J. Harvey, Eric Van Herwijnen, B. Jost, Last,
P. Maley, P. Mato, S. Probst, F. Ranjard, and Yu A. Tsaregorodtsev.
GAUDI : The software architecture and framework for building LHCb
data processing applications. In International Conference on Computing
in High Energy and Nuclear Physics, CHEP 2000, pages 92–95, February
2000.
[17] M. Clemencic, G. Corti, S. Easo, C. R. Jones, S. Miglioranzi, M. Pappagallo, P. Robbe, and the LHCb Collaboration. The LHCb Simulation Application, Gauss: Design, Evolution and Experience. Journal of
Physics: Conference Series, 331(3):032023, 2011.
[18] Torbjorn Sjostrand, Patrik Eden, Christer Friberg, Leif Lonnblad, Gabriela Miu, et al. High-energy physics event generation with PYTHIA
6.1. Comput.Phys.Commun., 135:238–259, 2001.
[19] D.J. Lange.
The EvtGen particle decay simulation package.
Nucl.Instrum.Meth., A462:152–155, 2001.
[20] Geant4 home page. http://geant4.web.cern.ch/geant4/.
[21] The LHCb Collaboration.
BOOLE - The LHCb Digitization Program.
http://lhcb-release-area.web.cern.ch/LHCbrelease-area/DOC/boole/.
[22] The LHCb Collaboration. MOORE - the High Level Trigger application.
http://lhcb-release-area.web.cern.ch/LHCb-release-area/DOC/moore/.
[23] The
LHCb
Collaboration.
BRUNEL
The
LHCb
Reconstruction
Program.
http://lhcb-release-area.web.cern.ch/LHCb-release-area/DOC/brunel/.
[24] The LHCb Collaboration.
DAVINCI - The Analysis Program.
http://lhcb-release-area.web.cern.ch/LHCb-release-area/DOC/davinci/.
[25] ROOT home page. http://root.cern.ch/.
II
[26] S.L. Glashow. Partial Symmetries of Weak Interactions. Nucl.Phys.,
22:579–588, 1961.
[27] Abdus Salam. Weak and Electromagnetic Interactions. Conf.Proc.,
C680519:367–377, 1968.
[28] Steven Weinberg. A Model of Leptons. Phys.Rev.Lett., 19:1264–1266,
1967.
[29] Andrzej J. Buras, Maria Valentina Carlucci, Stefania Gori, and Gino Isidori. Higgs-mediated FCNCs: Natural Flavour Conservation vs.
Minimal Flavour Violation. JHEP, 1010:009, 2010.
[30] Andrzej J. Buras. Minimal flavour violation and beyond: Towards a
flavour code for short distance dynamics. Acta Phys.Polon., B41:2487–
2561, 2010.
[31] N. Cabibbo. Unitary symmetry and leptonic decays. Phys. Rev. Lett.,
10:531–532, 1963.
[32] M. Kobayashi and T. Maskawa. CP violation in the renormalizable
theory of weak interaction. Prog. Theor. Phys., 49:652–657, 1973.
[33] Flavio Archilli, Xabier Cid Vidal, Jose Angel Hernando Morata, Gaia Lanfranchi, Jose Helder Lopes, Matteo Palutan, Erica Polycarpo,
Alessio Sarti, and Barbara Sciascia. Muon identification performance at lhcb with the 2010 data. Technical Report LHCb-INT-2011-048.
CERN-LHCb-INT-2011-048, CERN, Geneva, Oct 2011.
[34] G. Lanfranchi, X. Cid Vidal, S. Furcas, M. Gandelman, J. A. Hernando, J. H. Lopez, E. Polycarpo, and A. Sarti. The muon identification procedure of the lhcb experiment for the first data. Technical Report LHCb-PUB-2009-013. CERN-LHCb-PUB-2009-013, CERN,
Geneva, Aug 2009.
[35] Leonardo Bellucci. Applicazione delle reti di hopfield alla ricostruzione
di tracce nell’esperimento L3. Master’s thesis, Università degli studi di
Firenze, 1998.
[36] Warren McCulloch and Walter Pitts. A logical calculus of the ideas
immanent in nervous activity. Bulletin of Mathematical Biology, 5:115–
133, 1943. 10.1007/BF02478259.
III
[37] F. Rosenblatt. The perceptron: A probabilistic model for information
storage and organization in the brain. Psychological Review, 65:386–408,
1958.
[38] J. J. Hopfield. Neural networks and physical systems with emergent
collective computational abilities. Proceedings of the National Academy
of Sciences of the United States of America, 79(8):2554–2558, 1982.
[39] J.J. Hopfield and D.W. Tank. “Neural” Computation of Decisions in
Optimization Problems. biocyb, 52:141–152, 1985.
[40] J.J. Hopfield. Neurons with graded responses have collective computational properties like those of two-state neurons. PNAS, 81, 1984.
inAR.
[41] R. Rojas. Neural networks: a systematic introduction. Springer-Verlag,
1996.
[42] Angelo Salvatore Salamone. Applicazione di un modello a spin-glass per
l’ottimizzazione al riconoscimento delle tracce nell’esperimento CMS.
Master’s thesis, Università degli studi di Firenze, 1999.
[43] M. Mézard and A. Montanari. Information, physics, and computation.
Oxford graduate texts. Oxford University Press, 2009.
[44] S. Kirkpatrick, C. D. Gelatt, and M. P. Vecchi.
simulated annealing. Science, 220:671–680, 1983.
Optimization by
[45] Nicholas Metropolis, Arianna W. Rosenbluth, Marshall N. Rosenbluth,
Augusta H. Teller, and Edward Teller. Equation of state calculations by
fast computing machines. Journal of Chemical Physics, 21:1087–1092,
1953.
[46] W.K. Hastings. Monte Carlo samping methods using Markov chains and
their applications. Biometrika, pages 97–109, 1970.
[47] G.L. Bilbro, W.E. Snyder, S.J. Garnier, and J.W. Gault. Mean Field
Annealing: A Formalism for Constructing GNC-Like Algorithms. TNN,
3(1):xx, January 1992.
[48] Griff Bilbro, Reinhold Mann, Thomas K. Miller, Wesley E. Snyder, David E. Van den Bout, and Mark White. Optimization by mean field
annealing. In Advances in neural information processing systems 1, pages 91–98. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA,
1989.
IV
[49] B. and Denby. Neural networks and cellular automata in experimental
high energy physics. Computer Physics Communications, 49(3):429 –
448, 1988.
[50] Georg Stimpfl-Abele and Lluı́s Garrido. Fast track finding with neural
networks. Computer Physics Communications, 64(1):46 – 56, 1991.
[51] A. Badalà, R. Barbera, G. Lo Re, A. Palmeri, G. S. Pappalardo, A. Pulvirenti, and F. Riggi. Neural tracking in alice. Nucl. Instrum. Methods
Phys. Res., A, 502:503–506, 2003.
[52] Giovanni Passaleva. A Recurrent Neural Network for Track Reconstruction in the LHCb Muon System. IEEE Nuclear Science Symposium
Conference. Proceedings, 2008.
[53] Dario Elyasy. Nuovi metodi neurali per la ricostruzione di tracce nel
rivelatore tracciante centrale dell’esperimento CMS. Master’s thesis,
Università degli studi di Firenze, 1999.
[54] Andreas Jaeger, Paul Seyfert, Michel De Cian, Jeroen van Tilburg, and Stephanie Hansmann-Menzemer.
Measurement of the
track finding efficiency.
Technical Report LHCb-PUB-2011-025.
CERN-LHCb-PUB-2011-025, CERN, Geneva, Apr 2012.
[55] OpenMP home page. http://openmp.org/wp/.
[56] E. Polycarpo and J. R. T. De Mello-Neto. Muon identification in LHCb.
Technical Report LHCb-2001-009, CERN, Geneva, Mar 2001. revised
version number 1 submitted on 2001-08-03 10:41:14.
[57] J. Gaiser. Charmonium spectroscopy from radiative decays of the J/ψ
and ψ ′ . 1982. Ph.D. Thesis.
[58] Stefano Brilli. Implementazione efficiente del Metodo dei Gradienti
Coniugati in ambiente CUDA (Compute Unified Device Architecture).
Master’s thesis, Università degli studi di Firenze, 2008.
[59] Scott Kirkpatrick and David Sherrington. Infinite-ranged models of spinglasses. Phys. Rev. B, 17:4384–4403, Jun 1978.
[60] S. Edwards and P. W. Anderson. Theory of spin glasses. J. Phys. F,
5:965–974, 1975.
[61] Giorgio Parisi. Infinite number of order parameters for spin-glasses.
Phys. Rev. Lett., 43:1754–1756, Dec 1979.
V
[62] Giorgio Parisi. Order parameter for spin-glasses. Phys. Rev. Lett.,
50:1946–1948, Jun 1983.
[63] D.J. Amit, H. Gutfreund, and H. Sompolinsky. Spin glass models of
neural networks. Phys. Rev. A, 32:1007, 1987.
[64] D.J. Amit, H. Gutfrend, and H. Sompolinsky. Statistical mechanics of
neural networks near saturation. Ann. Phys. (New York), 173:30, 1987.
VI

Identificazione di muoni nell`esperimento LHCb mediante

Documenti correlati

Prodotti

Supporto

Identificazione di muoni nell`esperimento LHCb mediante

Documenti correlati

Aggiungere questo documento alla raccolta (s)

Aggiungere questo documento salvato

Suggeriscici come migliorare StudyLib