Capitolo 1 - Dipartimento di Fisica

Capitolo 1
Riconoscimento e ricostruzione di tracce
In questo capitolo si introduce il problema che si affronterà nel corso della tesi, il
riconoscimento e la ricostruzione di tracce. Si descrivono, quindi, le caratteristiche
generali che deve presentare un algoritmo per il riconoscimento e vari criteri per
valutarne le prestazioni, e si passano in rassegna i principali metodi utilizzati.
1.1 Il problema sperimentale
Lo scopo di questo lavoro è il riconoscimento e la ricostruzione di tracce di particelle
cariche dell’esperimento L3. Il rivelatore L3, montato sull’acceleratore a fasci incrociati
LEP (Large Electron Positron collider), deve fornire tutte le informazioni necessarie alla
ricostruzione degli eventi causati dallo scontro delle particelle appartenenti ai due fasci,
ovvero e- (elettroni) ed e+ (positroni). Una componente fondamentale dell’analisi degli
eventi è la ricostruzione delle tracce delle particelle cariche prodotte nella collisione ee+. Al fine di poter effettuare questa analisi varie parti (sottorivelatori) di L3, disposte
con simmetria cilindrica intorno all’asse dei fasci, sono dedicate alla rivelazione del
passaggio di particelle cariche; l’insieme di questo tipo di sottorivelatori viene chiamato
rivelatore tracciante (una descrizione più approfondita del rivelatore tracciante di L3 e
dei dati da esso forniti è riportata nei Cap. 3 e 4).
1.1 Il problema sperimentale
2
Per introdurre il lavoro svolto, riconoscimento e ricostruzione di tracce nella proiezione
XY (quella, cioè, ortogonale all’asse dei fasci), è necessario soffermarsi brevemente sui
dati forniti dal rivelatore tracciante di L3: questo è formato da vari sottorivelatori che
funzionano con principi diversi e forniscono informazioni diverse (la camera ad
espansione temporale, Cap.3; il rivelatore di microvertice al silicio, Cap.4;…). Da tutti i
vari componenti del rivelatore tracciante è comunque possibile ottenere punti in
coordinate xy (fig. 1.1), che possono essere divisi in tre categorie:
y
x
Fig. 1.1 Campione di evento reale (le unità indicate sugli assi sono arbitrarie).

Punti che segnalano il passaggio di particelle cariche provenienti dal vertice di
interazione primario (il punto di collisione fra le particelle dei fasci) o di prodotti di
decadimento secondario di particelle primarie.
1.1 Il problema sperimentale

3
Punti che segnalano il passaggio di particelle spurie non appartenenti all’evento, e
quindi di scarsa rilevanza per l’analisi fisica da effettuare (ad esempio particelle
prodotte da collisioni con il gas residuo presente nel tubo a vuoto dell’acceleratore).

Punti di rumore (ad esempio il rumore intrinseco dei rivelatori).
Il sistema di ricostruzione dell’esperimento deve riuscire ad individuare i punti
appartenenti alla prima categoria, e da questi individuare le tracce delle particelle
cariche prodotte nell’evento, cioè la traiettoria che hanno percorso nel rivelatore.
Benché la progettazione e la realizzazione di un sistema di ricostruzione siano
estremamente dipendenti dal rivelatore per cui il sistema è ideato, il riconoscimento di
tracce presenta molte caratteristiche generali che possono essere ritrovate in tutti i
metodi. Nel paragrafo successivo si darà una descrizione schematica di questo problema
di riconoscimento in maniera più generale, per individuare le caratteristiche
fondamentali che un sistema di riconoscimento deve possedere e per definire criteri
generali per valutarne le prestazioni.
1.2 Il riconoscimento e la ricostruzione
Dato un insieme di misure in un rivelatore, il compito del riconoscimento di tracce (ref.
[1]) è dividere l’insieme in classi tali che:

Ciascuna classe contenga le misure che potrebbero essere causate dalla stessa
particella.

Una classe (possibilmente vuota) contenga tutte le misure che non possono essere
associate ad una particella con sufficiente certezza (rumore, punti ambigui).
Molti metodi di riconoscimento e di ricostruzione di tracce sono basati su due capacità
complementari: innanzitutto, si cerca di trovare dei candidati a traccia, cioè insiemi di
1.2 Il riconoscimento e la ricostruzione
4
punti che potrebbero rappresentare la traiettoria di una particella carica; quindi li si
prova rigorosamente con un fit ad un modello di traccia.
Il modello di traccia viene costruito a partire dall’equazione di moto delle particelle
cariche in presenza di un campo magnetico: nei rivelatori traccianti si fa spesso uso di
un campo magnetico statico, perché questo permette la misura del momento delle
particelle cariche dalla curvatura della loro traiettoria. La traiettoria di una particella
carica in un campo magnetico statico è data dall’equazione di Lorentz:
dp
dt
 qv  B 
q
pB
m
(1.1)
dove p è il momento della particella, q la carica, v la velocità, m la massa, B il valore del
campo magnetico alla posizione x della particella, e  indica il prodotto vettoriale.
Moltiplicando entrambi i membri per p si ottiene (ref. [2]):
d2 x
q dx
B
2 
ds
p ds
(1.2)
dove s è la lunghezza curvilinea dell’arco di traccia.
L’eq. (1.2) può essere riscritta come:
dx
n
ds
dn
 an  B
ds
(1.3)
dove n è il vettore unitario tangente alla traiettoria nel punto x e a è una costante.
Con le unità di misura GeV/c, tesla e metri, e misurando la carica in multipli q’ della
carica dell’elettrone, a diventa:
a  0.2998
q
p
dove la costante numerica è la velocità della luce nel vuoto.
(1.4)
1.2 Il riconoscimento e la ricostruzione
5
Questo sistema di equazioni di due equazioni differenziali ha cinque costanti di
integrazioni, cioè xo, yo, nx, ny ad un dato zo, e a, o equivalentemente q’/||p||.
In un campo magnetico omogeneo (B costante nello spazio), la soluzione della eq. (1.4)
è un’elica che si avvolge attorno alla direzione di B (negli esperimenti di alte energie la
situazione più comune, come avviene anche in L3, è quella in cui B può essere assunto
costante e parallelo all’asse del fascio).
I vari metodi procedono di conseguenza in due passi: primo, vengono selezionati i
sottoinsiemi di misure che formano i candidati a traccia, eseguendo il riconoscimento
propriamente detto; secondo, viene applicata una funzione di decisione per accettare o
meno il candidato come traccia basandosi sul modello sopra descritto e facendo uso di
tutta la conoscenza a priori delle prestazioni del rivelatore: risoluzione del rivelatore,
errori sistematici e statistici. Tramite il fit, utilizzato per la funzione di decisione, si
completa anche la ricostruzione, determinando i cinque parametri dell’espressione
analitica delle tracce.
1.2.1 Qualità delle tracce
Se due o più tracce sono incompatibili (ad esempio condividono alcuni punti) e una sola
di queste deve essere scelta come quella corretta, è necessario avere una qualche misura
della qualità della traccia. Una scelta abbastanza naturale è quella di usare il test del 2
del fit. D’altra parte questa è in molti casi una scelta arbitraria, perché, nonostante i
valori di 2 siano distribuiti secondo una legge nota, un valore piccolo di 2 non indica
con certezza che una traccia è “migliore” di un’altra con 2 più alto, finché questi valori
si trovano all’interno dell’intervallo di confidenza considerato. Inoltre, se il modello di
1.2 Il riconoscimento e la ricostruzione
6
traccia non è completamente corretto, le tracce corte avranno in media un valore di
confidenza più alto di quelle più lunghe.
Il numero di punti e l’assenza di salti (regioni in cui dovrebbero essere presenti dei
punti, ma che non vengono trovati) sono una misura piuttosto sicura di qualità. Questo
porta in maniera naturale ad una ricerca gerarchica sulle tracce, in cui le tracce sono
ricercate in ordine di lunghezza.
1.2.2 Lavorare con punti spaziali o nelle proiezioni
Quando il rivelatore tracciante fornisce direttamente punti spaziali, con risoluzione
confrontabile nelle tre dimensioni, la scelta dello spazio in cui lavorare è ovvia: il
riconoscimento deve essere eseguito direttamente nello spazio. Nella maggior parte dei
casi, però, i rivelatori traccianti forniscono solo una o due coordinate del punto di
passaggio della particella con risoluzioni confrontabili.
Per ricostruire la traiettoria di una particella nello spazio, in questi casi, ci sono due
possibili scelte:

Combinare varie proiezioni locali in punti spaziali (in 3 dimensioni) ed eseguire il
riconoscimento di tracce sui punti spaziali ricostruiti.

Trovare le tracce indipendentemente nelle varie proiezioni (xy, xz, yz) e solo in
seguito cercare delle associazioni.
La scelta della strategia da adottare è guidata da due aspetti: la topologia degli eventi e
la realizzazione del rivelatore tracciante. Per eventi topologicamente semplici, lavorare
in una proiezione (ad esempio la proiezione XY di L3) è sufficiente e veloce. Quando,
però, gli eventi diventano più complessi, si preferisce lavorare nello spazio, perché le
sovrapposizioni di tracce sono, in questo caso, abbastanza rare, ed il compito del
1.2 Il riconoscimento e la ricostruzione
7
riconoscimento elimina molte ambiguità. Lavorando in una proiezione, invece, le
intersezioni sono molto comuni: come si può vedere nell’esempio di fig. 1.1, si ha un
gran numero di sovrapposizioni fra le tracce; visualizzando l’evento in tre dimensioni,
la maggior parte degli incroci fra le traiettorie delle particelle scomparirebbe.
Non sempre, però, la ricostruzione di punti spaziali è una buona soluzione: l’efficienza
di rivelazione di un punto è necessariamente più bassa che nelle proiezioni, essendo data
dal prodotto delle efficienze di tutte le proiezioni utilizzate.
Per concludere si può notare che il tempo di calcolo necessario per a lavorare nello
spazio o su due proiezioni è equivalente: da una parte si devono ricostruire i punti
tridimensionali e poi eseguire il riconoscimento, dall’altra si esegue il riconoscimento
almeno due volte.
1.2.3 Efficienza
Quando si cerca di ottimizzare un algoritmo, è opportuno avere una misura quantitativa
delle sue prestazioni. Una definizione soddisfacente di efficienza per un sistema di
riconoscimento è, però, estremamente dipendente dal rivelatore e dalle peculiarità dei
dati che questo fornisce. In questa sezione, quindi, ci si limita a dare alcuni criteri per
confrontare le prestazioni di sistemi di riconoscimento diversi su eventi con un numero
noto di tracce (ad esempio per eventi simulati MonteCarlo).

Per un numero di eventi con un numero fisso n di tracce ricostruibili per ciascuno,
l’efficienza media per eventi di molteplicità n è E n  f
n , dove f è il numero di
tracce trovate correttamente in ciascun evento, e la media è eseguita su tutti gli
eventi analizzati con molteplicità n. L’efficienza En, normalmente, decresce
lentamente al crescere della molteplicità. A volte si cerca un’efficienza globale del
1.2 Il riconoscimento e la ricostruzione
8
metodo, basata cioè su un insieme di eventi con un numero variabile di tracce, ed in
questo caso si definisce l’efficienza come E  E n 
f
n , dove la media su En
viene effettuata su tutti i possibili valori della molteplicità dell’evento.

Può essere usata la frazione di eventi in cui tutte le n tracce sono ricostruite
correttamente, cioè gli eventi in cui fn, ma questa è una misura molto severa, e
decresce rapidamente con n.

La frazione di eventi in cui almeno una frazione minima (ad esempio il 90%) delle
n tracce è stata ricostruita correttamente.

Una qualunque delle scelte precedenti, ma escludendo alcune tracce che sono
difficili da riconoscere, come le tracce di particelle con un momento piccolo o le
tracce in regioni particolari del rivelatore.
Tutti questi approcci, però, sono lontani dal fornire una definizione di efficienza che
tenga conto di tutti i vari aspetti del problema del riconoscimento. Per essere utile, la
definizione deve includere in qualche modo il numero di tracce ricostruite in maniera
errata, cioè tracce costituite da punti appartenenti in realtà a tracce diverse, o contenenti
punti spuri che non possono essere ragionevolmente associati con una traccia: più alto è
il numero delle tracce non corrette, più bassa deve diventare l’efficienza.
A parte gli eventi con una molteplicità costante, è utile mettere in evidenza la
dipendenza dell’efficienza dal numero di tracce n. Una buona definizione potrebbe
essere, ad esempio:
En 

1
max 0, f  qw
n

(1.5)
1.2 Il riconoscimento e la ricostruzione
9
dove n è la molteplicità, f il numero di tracce trovate correttamente, w è il numero di
tracce errate, q è il fattore di “punizione” per le tracce errate e la media viene eseguita
su tutti gli eventi di molteplicità .
Un altro fattore importante è il tempo di calcolo del metodo, e qualche volta si cercano
compromessi fra un metodo buono, ma molto lento, e uno veloce, ma meno efficiente.
In molti casi, però, l’efficienza è la considerazione più importante, e normalmente si
cerca di velocizzare un buon metodo piuttosto che usarne uno meno efficiente.
1.3 Metodi classici di riconoscimento di tracce
Nel seguito si userà per i metodi di riconoscimento il termine algoritmo; i sistemi per il
riconoscimento sono, in realtà, sistemi complessi di algoritmi, che chiamiamo algoritmi
per comodità.
I diversi metodi di riconoscimento di tracce possono essere classificati come globali o
locali. I metodi locali sono caratterizzati dal fatto che la procedura a due tempi di
riconoscimento dei candidati a traccia e di ricostruzione tramite il fit di decisione è
spesso ulteriormente suddivisa. Viene selezionato un candidato a traccia alla volta,
tipicamente cominciando con solo pochi punti (inizializzazione del candidato a traccia)
in accordo al modello di traccia utilizzato, e quindi, basandosi sul modello di traccia, si
determinano regioni in cui si dovrebbero trovare ulteriori punti. Se vengono trovati
punti addizionali, questi vengono aggiunti al candidato, altrimenti questo viene
abbandonato dopo un certo numero di tentativi. Poiché i metodi locali devono eseguire
vari tentativi per trovare un candidato a traccia, e possono usare lo stesso punto in varie
combinazioni, il tempo di calcolo cresce più che linearmente con il numero di punti.
1.3 Metodi classici di riconoscimento di tracce
10
Un metodo viene, invece, chiamato globale se tutti gli oggetti (nel nostro caso i punti)
intervengono nell’algoritmo nello stesso modo e vengono esaminati simultaneamente.
L’algoritmo può essere considerato come una trasformazione della totalità delle
coordinate dei punti dell’evento.
I metodi globali sono indipendenti dall’ordine in cui i punti entrano nell’algoritmo,
mentre i metodi locali non lo sono, perché il trattamento di ciascun punto dipende
dall’inizializzazione.
1.3.3 Metodi locali
Metodo dell’inseguimento di traccia
Il metodo dell’inseguimento di traccia (ref. [5], [6]) è applicato generalmente alle tracce
di tipo “visibile”, quando cioè la traccia può essere più o meno facilmente riconosciuta
da un occhio umano visualizzandone le coordinate. L’algoritmo inizia con la selezione
(esaminando tutte le possibili combinazioni) di un segmento di traccia, costituito da
pochi punti (da uno fino a tre o quattro). Il segmento viene normalmente scelto il più
lontano possibile dalla regione di interazione, per far sì che le tracce siano in media ben
separate. Al passo successivo, un punto viene predetto per estrapolazione in direzione
del vertice. Questa estrapolazione può essere di ordine zero, se semplicemente si sceglie
il punto più vicino, del primo ordine (linea retta), del secondo (parabola), o di ordini più
alti sfruttando altre forme come le eliche. Quando le misure fornite dal sistema
tracciante sono sufficientemente vicine, ed è presente un campo magnetico statico,
l’estrapolazione parabolica è sufficiente nella maggior parte dei casi. Inoltre il metodo è
molto veloce, perché una parabola attraverso tre punti può essere espressa come una
funzione lineare in tre valori della y:
1.3 Metodi classici di riconoscimento di tracce
11
y  a1  x y1  a2  x y2  a3  x y3
(1.6)
dove

  x  x x  x 

ai  x   x  x j  x  x k 
i
j
i
k
(1.7)
e i  j , k ; j  k ; i, j, k=1, 2, 3.
Questa formula è un caso speciale della formula di Lagrange, eq.(1.8), per polinomi di
grado qualunque, la cui correttezza segue dal fatto che due polinomi di grado n sono
identici se condividono n+1 punti:
n
y
j 0
 j  x
 
j xj
yj
(1.8)
dove
 j  x    x  x k 
n
(1.9)
k 0
k j
Il procedimento di estrapolazione utilizzato nell’inseguimento di traccia non richiede un
accurato modello della traiettoria delle particelle ed è sufficiente un buon modello locale
della traccia: l’estrapolazione avviene su regioni di spazio molto limitate, cercando di
prolungare il candidato a partire dagli ultimi punti aggiunti. D’altra parte, il metodo
dell’inseguimento di traccia non è efficiente quando le distanze fra i punti forniti dal
rivelatore diventano troppo grandi: il modello approssimato può non essere
sufficientemente preciso, e a causa degli errori di misura un riconoscimento corretto
basato sugli ultimi punti trovati risulta problematico.
L’inseguimento di traccia viene largamente utilizzato anche nel fit delle tracce, e prende
il nome di “filtro di Kalman” (ref. [7], [8]).
1.3 Metodi classici di riconoscimento di tracce
12
Metodo della strada di traccia
Il metodo della strada di traccia (ref. [2]) non utilizza l’estrapolazione per predire
ulteriori punti sulla traccia, ma una molto più precisa procedura di interpolazione.
L’inizializzazione del candidato avviene usando un punto ad entrambe le estremità della
traccia, e uno nel centro in caso di tracce curve (in presenza di un campo magnetico),
punti scelti in maniera combinatoriale. L’algoritmo, quindi, basandosi sul modello di
traccia scelto, determina la striscia di spazio in cui si dovrebbero trovare i punti interni
della traccia. In linea di principio, migliore è il modello di traccia inserito
nell’algoritmo, più stretta può essere la strada costruita, ma la larghezza della strada è
limitata anche dalla risoluzione del rivelatore tracciante. Questo metodo è più lento del
precedente, ma viene talvolta utilizzato quando la densità di punti forniti dal rivelatore
non è sufficiente per l’utilizzo di metodi di estrapolazione.
Metodo degli elementi di traccia
Questo metodo (ref. [9]) è particolarmente utilizzato quando il rivelatore tracciante
presenta delle suddivisioni naturali di difficile raccordo nella fase di riconoscimento: nel
ricercare ogni traccia vengono costruiti tanti candidati (elementi di traccia) quanti sono i
sottorivelatori del sistema tracciante, utilizzando procedure di estrapolazione o
interpolazione. A questo punto gli elementi di traccia vengono condensati in “superpunti” su cui viene eseguita una nuova procedura di riconoscimento basata sui due
metodi visti in precedenza. Per “super-punto” si intende, ad esempio, il punto iniziale
dell’elemento e la direzione data dall’elemento di traccia nel suo insieme.
Il grande vantaggio di questo metodo è la velocità, se confrontato con i metodi che
usano direttamente tutti i punti per traccia. Uno degli svantaggi è rappresentato dal
numero ridotto di punti e dalla loro ampia “spaziatura” nella seconda fase del
1.3 Metodi classici di riconoscimento di tracce
13
riconoscimento, ma questo è solitamente compensato dalla più alta precisione dei superpunti e dalla conoscenza della direzione della traiettoria in questi punti.
1.3.4 Metodi globali
Metodo degli istogrammi
In questo metodo (ref. [10]), si definisce un insieme di k differenti funzioni delle
coordinate dei punti e si inseriscono i valori di ogni funzione in un istogramma. Quindi
(se il metodo funziona correttamente), le tracce formano clusters o “picchi”
sull’istogramma; è sufficiente trovarli ed il problema è risolto. Nell’esempio seguente si
illustra il metodo per la parte che serve ai nostri scopi.
Fig. 1.2 Evento di esempio
Supponiamo che l’interazione avvenga sempre in uno spazio sufficientemente ristretto
(il vertice di interazione) da poter essere considerato puntiforme, e che le tracce formino
una stella attorno al punto di interazione. Questo potrebbe essere il caso di un
1.3 Metodi classici di riconoscimento di tracce
14
acceleratore a fasci incrociati, nella proiezione ortogonale alla direzione del fascio (ad
esempio la proiezione XY di L3). Se per ogni punto si calcolano i valori:
i 
 yi
 xi
yi
xi
 i  tan 1 



 x2  y2 
i 
 i



 i  sen 1 
yi
(1.10)
dove i=1,…,nH indica i punti misurati e si costruiscono gli istogrammi di i, i,i, i
picchi dell’istogramma daranno alcuni parametri (i è ad esempio la pendenza della
traccia) più probabili della traccia ed i punti corrispondenti realizzeranno una prima fase
della classificazione di § 1.2 (fig. 1.3).
Fig. 1.3 Istogramma di i
Il metodo funziona bene in assenza di campo magnetico o per ricostruire tracce di
particelle di alto impulso. Tracce molto curve non possono essere individuate.
Nel caso sia presente un campo magnetico o si vogliano ricostruire traiettorie molto
curve si utilizza la trasformazione conforme:
ui 
xi
x  yi2
2
i
vi  
yi
x  yi2
2
i
(1.11)
1.3 Metodi classici di riconoscimento di tracce
15
gli (ui, vi) si distribuiscono su linee rette nel piano uv, con un avvicinamento massimo
all’origine d  1  2 R , dove R è il raggio della traccia (fig. 1.4). L’equazione di una
circonferenza passante per l’origine è, infatti:
x 2  2 xx0  y 2  2 yy0  0
dove
(1.12)
x0 2  y0 2  r0 2 , con x0,y0 centro della circonferenza e r0 raggio della
circonferenza. Applicando la trasformazione in eq.(1.11) ai punti appartenenti a queste
circonferenze, essi soddisferanno l’equazione lineare:
1  2 x 0 u i  2 y 0 vi  0
(1.13)
È importante notare che le tracce che non passano vicino al punto usato come origine
della mappatura non danno picchi ben pronunciati nell’istogramma: questa risulta essere
una debolezza del metodo, perché le tracce provenienti da un decadimento secondario
non vengono riconosciute.
Fig 1.4 L’evento dopo l’applicazione della trasformazione conforme
1.3 Metodi classici di riconoscimento di tracce
16
Quando è necessario considerare molti istogrammi, riconoscere i clusters delle traccia
risulta essere più difficile che trovare le tracce direttamente con un modello, quindi
l’utilizzo di questo metodo è limitato a una o due proiezioni.
Albero dei cammini minimi
Per comprendere il metodo dell’albero del cammino minimo (MST, minimum spanning
tree; ref. [12], [13]) è necessario richiamare qualche elemento di teoria dei grafi.
Un grafo consiste di nodi e fili. Un nodo può rappresentare un qualunque oggetto, ed è
spesso rappresentato graficamente da un punto (fig. 1.5). Un filo può essere
rappresentato con una linea che connette due nodi, e simboleggia l’esistenza di una
qualche ben definita relazione fra i due nodi. Se un peso positivo (derivante da
un’opportuna metrica) è assegnato a ciascun filo, il grafo è chiamato a fili pesati. Un
punto isolato è un nodo senza fili. Un grafo connesso è un grafo senza punti isolati. In
un grafo totalmente connesso o completo, tutti i nodi sono direttamente connessi con
tutti gli altri nodi.
Fig. 1.5 Un albero dei cammini: ogni nodo è connesso ad almeno un altro
e da ogni nodo c’è un solo possibile cammino per ogni altro nodo.
1.3 Metodi classici di riconoscimento di tracce
17
Un sentiero fra due nodi è una sequenza di fili che li collega. Un anello o circuito è un
sentiero chiuso che connette fra loro tutti i nodi che lo compongono. Un albero è un
grafo senza anelli. Un albero dei cammini è un grafo connesso senza anelli. Un albero
del cammino minimo è un albero dei cammini per il quale la somma dei pesi dei fili ha
un minimo per una data configurazione del grafo. Se tutti i pesi sono diversi lo MST è
unico.
L’algoritmo MST, per il problema del riconoscimento di tracce, funziona
schematicamente così: ad ogni segmento, costituito da una coppia di punti del
rivelatore, si associa un nodo. I nodi vengono collegati con un filo quando i due
segmenti condividono un punto ed hanno una direzione simile. Il valore del peso da
assegnare al filo dipende dalla lunghezza dei due segmenti e dall’angolo fra le loro
direzione. L’estrazione dell’albero del cammino minimo dal grafo così ottenuto
dovrebbe risolvere il problema del riconoscimento, fornendo un sentiero per ogni traccia
dell’evento.
Per una ricerca veloce delle tracce ad alto impulso, viene usata una versione modificata
dello MST, in cui la curvatura del segmento determina il peso del filo.
Capitolo 2
Le reti neurali artificiali ed i problemi di
ottimizzazione
Le reti neurali artificiali (ANN, Artificial Neural Networks) sono un metodo di calcolo
che differisce sostanzialmente da quelli basati sulle architetture standard di Von
Neumann. Le ANN, in genere, imparano dall’esperienza (par.), piuttosto che essere
esplicitamente programmate secondo delle regole, come avviene nell’intelligenza
artificiale (AI).
Partendo da alcuni aspetti caratteristici delle reti biologiche, in questo capitolo si
caratterizzano le reti neurali artificiali, e si espongono le proprietà di un tipo particolare
di rete, le reti ricorsive. Per concludere si discute, con alcuni esempi, la formulazione
dei problemi di ottimizzazione in termini di reti ricorsive: metodi di ottimizzazione
basati su reti neurali artificiali saranno poi applicati alla ricostruzione di tracce nel
sistema TEC-SMD di L3 (vedi Cap. 3,4).
2.1 Le reti neurali biologiche
Le ANN sono ispirate alla struttura delle reti neurali biologiche, al loro modo di
impostare e di risolvere un problema, e cercano di riprodurne le proprietà operative
2.1 Le reti neurali biologiche
19
principali. Sono qui riportate brevemente i principali aspetti organizzativi e
computazionali del sistema nervoso centrale (CNS) dei vertebrati (ref. [14], [15]).

Parallelismo di massa. Un vasto numero di semplici e lente unità di calcolo (i
neuroni) sono organizzate per eseguire compiti in modo collettivo.

Alto grado di complessità delle connessioni. I neuroni hanno un gran numero di
connessioni e quindi formano configurazioni di interconnessione complesse; di
conseguenza il cervello ha un enorme numero di variabili.

Possibilità di apprendimento. I parametri di interazione fra neuroni (cioè le
caratteristiche biologiche delle loro connessioni, §2.1.1) variano continuamente in
seguito all’accumularsi delle esperienze sensoriali.

Stati binari e variabili collettive. Il potenziale di azione di un neurone (descritto
nella sezione seguente) è un processo “tutto o niente”. Ciascun neurone ha due soli
stati: a riposo o depolarizzato. Ci possono essere varie eccezioni (come nei neuroni
retinici), ma la maggior parte dei neuroni ha una risposta binaria. D’altra parte le
variabili del cervello (potenziali, aree sinaptiche, densità ionica, …) sono continue e
variano con continuità nello spazio e nel tempo.

Numerosi tipi di neuroni e segnali. Il cervello usa vari tipi di neuroni con diversi tipi
di segnali.

Complessa interazione fra i segnali. L’interazione degli impulsi ricevuti da un
neurone è altamente non lineare e dipende da molti fattori (fisiologici, …).

Decomposizione fisica. Il cervello è organizzato come un mosaico di sottoreti, ed
ognuna di esse è costituita da molte migliaia di neuroni densamente connessi.
Queste sottoreti sono i moduli di base dei processi cerebrali.
2.1 Le reti neurali biologiche

20
Decomposizione funzionale. Da un punto di vista funzionale il cervello è anche
decomposto in varie zone: ciascuna area, o sottorete, è responsabile di una specifica
funzione.
2.1.1 Proprietà biologiche dei neuroni
Una rappresentazione schematica di un neurone si trova in fig. 2.1. Il soma è il corpo
della cellula, da cui partono lunghi filamenti con diramazioni molto complesse, chiamati
dendriti, che portano al soma i segnali provenienti dai neuroni connessi. Dal soma parte
anche
una
lunga
fibra
chiamata
assone,
che
generalmente
si
suddivide
nell’arborizzazione assonale. Le punte dell’arborizzazione, le terminazioni nervose, si
collegano ai dendriti, al soma o all’assone di altri neuroni, con delle connessioni dette
sinapsi.
assone
sinapsi
assone
sinapsi
dendrite
soma
assone
sinapsi
assone
Fig. 2.1 Neurone biologico
I meccanismi che descrivono il comportamento dei neuroni sono complessi ed ancora
poco conosciuti, anche se il singolo neurone non trasmette una grande quantità di
informazione. Il comportamento collettivo di gruppi di neuroni che operano in modo
largamente parallelo, piuttosto che l’azione dei singoli neuroni, è responsabile per la
2.1 Le reti neurali biologiche
21
trasmissione ed il trattamento dei segnali in una rete neurale. Per semplificare l’analisi
di questa attività attraverso la costruzione di modelli è necessario fare varie assunzioni
che non sono valide universalmente, anche se ampiamente utilizzate.
In genere, si assume che la trasmissione dei segnali elettrici sia unidirezionale (dendriti soma - assone -terminazioni nervose), che l’attività del neurone sia un processo “tutto o
niente” (modello di McCullochs e Pitts, ref. [16]), e che tutte le sinapsi siano o
eccitatorie o inibitorie.
2.1.2 Il potenziale d’azione e la sua propagazione
Il gradiente di concentrazione di cariche elettriche nel corpo cellulare e nel liquido
circostante genera un potenziale (ref. [14]) attraverso la membrana del neurone di circa
–70 mV (positivo all’esterno, negativo all’interno). Tramite le sinapsi, i dendriti
raccolgono i segnali positivi generati dai neuroni collegati attraverso l’emissione di
neurotrasmettitori da parte dei neuroni presinaptici. Quando questo movimento di ioni
causa un aumento del potenziale di membrana di circa 15 mV (da –70 mV a –55 mV), il
neurone “scarica”: gli ioni positivi sono in grado di penetrare dall’esterno la membrana
cellulare, e questo causa un salto del potenziale (detto di depolarizzazione) a circa 35
mV. Viene così generato un impulso elettrico (il potenziale d’azione) che si propaga
lungo l’assone e, attraverso le sinapsi dell’arborizzazione assonale, ai neuroni seguenti.
2.1.3 L’apprendimento nei sistemi biologici
L’apprendimento
nei
sistemi
biologici
dipende
in
maniera
molto
forte
dall’accoppiamento fra le cellule tramite le giunzioni sinaptiche: si è visto che la
trasmissione del segnale elettrico avviene attraverso lo scambio di neurotrasmettitori. La
quantità fisica che viene modificata nell’apprendimento è proprio la “forza delle
2.1 Le reti neurali biologiche
22
connessioni”, cioè la quantità di neurotrasmettitore che viene rilasciata quando un
segnale giunge alle terminazioni sinaptiche.
La regola secondo cui questo cambiamento avviene è nota come “Regola di Hebb” (ref.
[18]): una sinapsi che ripetutamente causa l’attivazione di un neurone post-sinaptico, o è
vicina a farlo, cresce in forza, mentre le altre gradualmente si indeboliscono.
Reti neurali biologiche
Computer convenzionali
Processo parallelo distribuito
Macchine di Von Neumann
Apprendimento (per esempi) tramite la Programmate con istruzioni (analisi semodifica delle connessioni
allora basata sulla logica)
La memoria e i processi sono collegati.
La memoria e i processi sono separati.
Parallele (discrete o continue) e asincrone.
Sono sequenziali
sincroni.
o
seriali,
digitali,
Possono essere tolleranti agli errori, per la Non sono tolleranti agli errori.
rappresentazione
distribuita
e
la
ridondanza di larga scala.
Auto-organizzazione
apprendimento.
nella
fase
di Dipendono dal software.
Il modo di processare è anarchico.
Il modo di processare è autocratico.
I cicli di tempo che governano la velocità I cicli di tempo hanno una durata di circa
dei processi hanno una durata di circa un un ns.
ms.
Tab 2.1 Confronto fra una rete neurale ed un computer convenzionale
2.2 Le reti neurali artificiali
Il metodo di costruzione delle ANN è quello di astrarre qualche ingrediente chiave dalle
reti neurali biologiche e da questi costruire semplici modelli matematici che
implementino alcune delle caratteristiche citate in precedenza. Benché i modelli
2.2 Le reti neurali artificiali
23
proposti per il singolo neurone siano in genere piuttosto semplici, il comportamento di
sistemi di neuroni è complesso: è, infatti, il comportamento colletivo dei neuroni che
genera interessanti ed inaspettati metodi di “calcolo”.
2.2.1 Il neurone artificiale di McCullochs e Pitts
Il primo modello di neurone artificiale è quello di McCullochs e Pitts, o Perceptron (ref.
[17], fig. 2.2), è un semplice dispositivo a due stati, il cui valore {0,1} dipende
unicamente dal valore dei suoi ingressi.
x0
w0
w1
x1
w2
Unità
soglia
xn
…
wn
…
x2
output
a
Fig. 2.2 Neurone artificiale di McCullochs-Pitts
…
Per determinare lo stato del neurone al tempo t+to (il tempo è assunto come una
…
variabile discreta a passi di to), si calcola il “potenziale d’azione” a(t) del neurone
xn
eseguendo la somma pesata degli ingressi:
a (t )   wi xi (t )
(2.1)
i
dove gli xi rappresentano o lo stato di altri neuroni connessi a questo o valori esterni di
ingresso, e i pesi wi possono essere interpretati come la forza delle sinapsi, di vario
valore |wi|, eccitatorie (se wi>0) o inibitorie (se wi<0). Se il “potenziale d’azione” supera
la soglia  del neurone (interpretabile come il potenziale di membrana), il neurone
assume lo stato 1, altrimenti 0.
2.2 Le reti neurali artificiali
24
Si può riassumere questo comportamento con la formula:


s(t  to )  g  wi xi (t )   
 i

(2.2)
dove la funzione di trasferimento g è la funzione di Heavyside. Per le sue caratteristiche
il neurone di McCullochs e Pitts è chiamato anche “unità logica a soglia” (TLU) a pesi
variabili. Esiste anche una versione bipolare, che assume gli stati {-1,1}, in cui la
funzione di trasferimento è la funzione segno.
Benché sia semplice, il neurone di McCullochs-Pitts organizzato in rete diventa un
potente dispositivo di calcolo: è stato dimostrato (ref. [19]) che una rete interconnessa
sincrona
(in
cui
cioè
gli
aggiornamenti
di
tutti
i
neuroni
avvengono
contemporaneamente) di neuroni di questo tipo è capace di implementare una macchina
di Turing universale. Questo significa che questo modello di rete può eseguire un
qualunque calcolo come un ordinario computer, anche se non necessariamente in
maniera altrettanto rapida o conveniente.
2.2.2 Sviluppi del neurone artificiale
I neuroni reali hanno molti aspetti non compresi in questa semplice descrizione. I più
significativi sono:

I neuroni reali non possono sempre essere approssimati come dispositivi a soglia,
poiché possono rispondere agli ingressi in maniera continua. La non-linearità della
relazione fra ingressi e uscita è, però, una caratteristica universale; si assume quindi
che la caratteristica essenziale per il funzionamento del neurone sia la non-linearità
della funzione di trasferimento, e non la sua forma specifica.

Molte cellule reali eseguono una somma non lineare degli ingressi, e nell’albero
dendritico possono avvenire anche significativi processi logici. Si può tenere conto
2.2 Le reti neurali artificiali
25
di queste complicazioni utilizzando vari neuroni di McCullochs-Pitts per simulare
un singolo neurone reale, ma il modello di neurone artificiale proposto è già
sufficientemente ricco da presentare interessanti proprietà di calcolo.

Un neurone reale produce una sequenza di impulsi, non un singolo livello di uscita.
Anche rappresentando la frequenza di scarica con un numero continuo Si, si perde
gran parte dell’informazione che può essere trasportata da una tale sequenza di
segnali, ad esempio la fase degli impulsi.

I neuroni reali non hanno tutti lo stesso ritardo (to, nella notazione del paragrafo
precedente), non sono cioè aggiornati in maniera sincrona da un clock centrale. Si
preferisce, quindi, utilizzare un aggiornamento asincrono anche nelle simulazioni.

La quantità di neurotrasmettitori rilasciati da una sinapsi è una quantità
impredicibile, e questo effetto può essere modellizzato con una generalizzazione
stocastica alla dinamica di McCullochs-Pitts.
Una semplice generalizzazione dell’eq. (2.2) che include alcune di queste caratteristiche
è:


Si  g   wij S j  i 
 j

(2.3)
dove Si è una variabile continua detta stato o attivazione dell’unita i-esima. La funzione
a soglia di Heavyside è sostituita da una più generale funzione non lineare g(a) chiamata
funzione di attivazione o di trasferimento sigmoidale. Piuttosto che rendere esplicita la
dipendenza temporale dello stato dei neuroni, si dà semplicemente una regola di
aggiornamento per quando questo avviene: le unità sono aggiornate in maniera
asincrona, in ordine casuale a tempi casuali.
Una scelta tipica per neuroni continui nell’intervallo [0,1] è:
2.2 Le reti neurali artificiali
26
gai  
1
 1 
1  tanh ai  

 T 
2
(2.4)
Fig. 2.3 Effetto della temperatura sulla funzione di trasferimento
Nella formula compare un parametro T, detto “temperatura”, il cui effetto sulla funzione
di trasferimento è ben visibile nella fig. 2.3; il limite T0 corrisponde ai neuroni binari.
Anche nel caso continuo si possono definire neuroni bipolari [-1,1] con la funzione di
trasferimento
1 
gai   tanh ai 
T 
(2.5)
Una semplice trasformazione permette di passare da neuroni binari a quelli bipolari, per
cui nel seguito passeremo indifferentemente da una all’altra rappresentazione a seconda
delle convenienze
2.2 Le reti neurali artificiali
27
2.2.3 Architetture
I due principali tipi di architetture usati nella progettazione delle ANN sono la
configurazione feed-forward e quella ricorsiva.
Il nome reti feed-forward (FF-ANN, Feed Forward Artificial Neural Network) deriva
dal fatto che i neuroni sono divisi in strati separati; i neuroni di ciascuno strato
contribuiscono agli ingressi solo dei neuroni nello strato immediatamente successivo e
non ci sono connessioni fra neuroni dello stesso strato. Usualmente gli strati vengono
distinti in uno strato di ingresso (connesso con il mondo esterno, da cui riceve gli
“stimoli”), uno strato di uscita (che produce il risultato comunicandolo al mondo
esterno), e gli strati nascosti.
Fig. 2.4 Architettura delle reti
Le reti ricorsive (R-ANN, Recurrent Artificial Neural Network) hanno, invece, una
struttura totalmente interconnessa: ogni neurone è connesso tramite pesi a tutti gli altri.
Anche in questa configurazione i neuroni possono essere classificati come neuroni di
ingresso/uscita o nascosti, ma è importante notare che lo stesso neurone può avere
funzione sia di ingresso che di uscita.
2.3 Le reti ricorsive
28
2.3 Le reti ricorsive
Prima di presentare il funzionamento delle R-ANN, è opportuno ricordare alcune
proprietà dei sistemi magnetici: questi, infatti, presentano molte caratteristiche simili
alla R-ANN e sono fonte di molte ispirazioni. La rete di Hopfield è stata, infatti,
costruita proprio sul modello dei sistemi magnetici.
2.3.1 Il modello di Ising
Il modello di Ising (ref. [20]) descrive un sistema magnetico in termini di spin binari si
{-1,1}, che sono le uniche variabili effettive per i singoli atomi, e i due valori
rappresentano le possibili direzioni di magnetizzazione. Nel caso di un sistema
unidimensionale di N spin, con condizioni al contorno periodiche tali che sN+1=s1, il
modello di Ising è governato dalla funzione energia
E
J
s s
2 i i i 1
(2.6)
dove i primi vicini interagiscono a coppie con una forza di costante di accoppiamento J.
Lo stato di energia minima viene raggiunto con un aggiornamento iterativo secondo la
regola

si  sgn J  si 1  si 1 

(2.7)
che porta ad uno stato in cui tutti gli spin puntano in una delle due possibili direzioni.
Se il sistema è immerso in un bagno termico a temperatura T, appaiono delle
fluttuazioni soggette alla distribuzione di Boltzmann, per le quali la probabilità che il
sistema si trovi nello stato s è data da
P s  e
1
 E  s
T
(2.8)
2.3 Le reti ricorsive
29
e la dinamica dell’eq. (2.7) è sostituita da una procedura stocastica.
A temperature molto alte, sopra il punto di transizione di fase, non c’è alcun
allineamento. Le transizioni da fasi ordinate a fasi disordinate sono proprietà globali del
sistema. Caratteristiche simili si mantengono anche in modelli più realistici di magneti
in tre dimensioni.
Il modello di Ising può essere generalizzato ad un sistema di vetro di spin
-
permettendo interazioni non locali: sisi+1sisj con ij
-
permettendo forze di legame diverse, ma simmetriche: Jij=ji
La funzione energia del sistema diventa
E
1
  s s
2 i j i ij i j
(2.9)
Il fatto che le forze di legame possono essere di segno diverso porta alla conseguenza
che tali sistemi contengono “interessi conflittuali”, o frustrazioni: non possono essere
soddisfatte contemporaneamente tutte le condizioni (spin connessi con pesi positivi
dovrebbero puntare nella stessa direzione). Ciò crea molti stati stabili con circa la stessa
energia nella fase ordinata (T<Tc). Per un sistema di N spin esistono e0.2N stati stabili
(ref. [21]).
2.3.2 Il modello di Hopfield
La prima R-ANN, introdotta da Hopfield nel 1982 (ref. [22], [23]), è diventata un
modello classico nella costruzione delle memorie associative: la rete è costituita da N
neuroni completamente connessi fra loro, ognuno con una soglia i; le connessioni sono
simmetriche (wij=wji) e non ci sono autoconnessioni (wii=0). La rete è binaria bipolare,
2.3 Le reti ricorsive
30
cioè i neuroni possono assumere solo gli stati {-1,1}; tutti i neuroni funzionano sia come
ingresso che come uscita (fig. 2.5).
Fig. 2.5 La rete di Hopfield
La legge di aggiornamento dei neuroni è data da:


si t  t o   sgn  wij s j t 
 j i

(2.10)
dove l’effetto della soglia i è stato incluso nella sommatoria considerando una
connessione fittizia wio=-i ad un neurone so sempre nello stato acceso.
Seguendo la dinamica, la rete evolve da uno stato iniziale s(0)={s1,…,sN}, ingresso della
rete, ad uno stato finale s(tf), interpretabile come l’uscita della rete. L’evoluzione del
sistema avviene sempre verso il più vicino minimo locale dell’energia:
E
1
w s s
2 i j i ij i j
(2.11)
La rete può, quindi, essere utilizzata come una memoria associativa, se si riesce a far
coincidere i minimi locali dell’energia con i patterns da memorizzare: quando alla rete
viene presentato un pattern incompleto o in parte errato, questa lo ricostruisce.
2.3 Le reti ricorsive
31
Dato un insieme di np patterns xp ( (xp=x1p,…,xnp) ; p=1,…,np ) da memorizzare, i pesi
vengono determinati secondo la regola:
np
wij   xip x jp
(2.12)
p 1
La regola di Hebb aumenta i pesi fra neuroni la cui attività è correlata, e decresce quelli
fra neuroni anticorrelati; da notare, inoltre, che la regola di Hebb è locale e incrementale
e, poiché i pesi possono avere segni sia positivi che negativi, porta ad un profilo
dell’energia “interessante”, come nel caso dei vetri di spin.
Per capire come i patterns xp sono collegati agli stati stabili dell’energia, si può
calcolare il campo locale ai=wis quando s=xq :
N
N
np
ai   wij s j    xip x jp x qj 
j 1
j 1 p 1
N
np
N
j 1
pq
j 1
(2.13)
 xiq  x qj x qj   xip  x qj x qj  Nxiq  
Il primo ed il secondo termine ottenuti rappresentano rispettivamente segnale e rumore
nell’ottenere s=xq come uno stato stabile. Per patterns completamente casuali
(xi=rand{-1,1}), si ottiene <i>=0 e <i2>=N(np-1), che nel limite n dà un
rapporto segnale rumore
R

N

N np  1

N
np
(2.14)
R fissa la capacità limite di memorizzazione di patterns nelle reti di Hopfield: per
patterns casuali la capacità è np/N0.14, che corrisponde a R2.7; cercare di
memorizzare più di 0.14N pattern causa la formazione di stati spuri (stati stabili che non
corrispondono ad un pattern memorizzato).
2.3 Le reti ricorsive
32
Il vantaggio tipico di una memoria associativa di questo tipo è la robustezza: se un
pattern x è presentato alla rete con alcuni bit errati rispetto ad uno stato memorizzato xq,
la dinamica completa il pattern (o lo corregge). Inoltre, se uno dei pesi wij è perso, la
rete funziona ancora bene, poiché la memoria è distribuita su tutti i pesi.
Fig. 2.6 Stato iniziale e panorama dell’energia.
È utile visualizzare queste considerazioni in termini di dinamica nel panorama
dell’energia. I patterns memorizzati sono minimi locali di E; un pattern distorto è uno
stato localizzato più in alto rispetto ad un pattern puro. La dinamica di aggiornamento fa
sì che la rete scenda verso il minimo più vicino, e quindi verso il pattern corretto più
vicino.
2.3.3 Dinamica a temperatura finita
Nel caso in cui si voglia utilizzare una rete ricorsiva per risolvere un problema di
ottimizzazione, si dovrà trovare il minimo globale della funzione energia; per questo è
necessaria una procedura che permetta di evitare i minimi locali.
Un modo è quello di immergere il sistema in un bagno termico a temperatura T. Il modo
convenzionale per descrivere matematicamente gli effetti delle fluttuazioni termiche nel
modello di Ising è la dinamica di Glauber (ref. [24]); la dinamica deterministica viene
sostituita dalla regola stocastica:
2.3 Le reti ricorsive
33

 P si  1  gai 


 P si  1  1  gai 
(2.15)
dove ai rappresenta sempre il potenziale agente sul neurone. Ci sono varie scelte
possibili per la funzione g, ma la formula usuale è:
gai  
1
1 e
(2.16)
1
 ai
T
Per tentare di raggiungere il minimo globale, la procedura tipica è quella del simulated
annealing (ref. [25]): si parte da una temperatura T0 e la si diminuisce nel corso degli
aggiornamenti
delle
configurazioni,
fino
a
raggiungere
una
configurazione
sufficientemente buona. Il simulated annealing è però una strategia molto lenta (non
esiste nessuna limitazione teorica al tempo necessario al sistema per raggiungere il
minimo globale), poiché richiede l’aggiornamento di ogni singola variabile di spin un
numero estremamente elevato di volte.
2.3.4 Approssimazione di campo medio
L’idea chiave dell’approssimazione di campo medio (MFT) (ref. [26]) è di approssimare
ai con la sua media termica:
ui  ai
T
  wij s j
j i
T
  wij v j
(2.17)
j i
Per ottenere questa approssimazione si parte dalla funzione di partizione del sistema:
Z  e
1
 H
T
  s 
 s
(2.18)
Dove H è l’hamiltoniana del sistema, T la temperatura, e {s} la configurazione degli
spin.
Il valore di aspettazione dello spin si può essere espresso come:
2.3 Le reti ricorsive
34
s e 
 H
 s
si 
  s 
i
e 
 H
  s 
(2.19)
 s
L’espressione può essere riscritta nella forma:
e 
 H
  s 
 e

 H  i , s 
i
i 1
 H  i , s 
e 


 s
i 1
si 
e 
 H
  s 
(2.20)
 s
dove s indica l’insieme di tutti gli spin escluso si.
La dimostrazione di questo passaggio è immediata: sommando su si al numeratore in eq.
(2.20), si ottiene

e  H  si ,s  , che si cancella con

si 1
rimanente al numeratore diventa
  e
 H
s

i 1
e  H  i ,s  . Il termine

 s  quando  =s .
i
i
D’altra parte, sommando su i in eq. (2.20) si ottiene la tangente iperbolica:

e


hef 
1

e


hef 

 tanh hef

(2.21)
1
dove hef indica il campo effettivo che agisce sullo spin si, cioè:
hef   wij s j
(2.22)
j i
In conclusione si ottiene quindi l’uguaglianza:

si 

 s
j i
j
 
 H  s
e 
 s
Ovvero:
ij
 
 H  s
 tanh   w s  e 
(2.23)
2.3 Le reti ricorsive
35


si  tanh   wij s j 
 j i

(2.24)
L’eq. (2.24) afferma che il valore di aspettazione dello spin si è esattamente uguale al
valore di aspettazione della tangente iperbolica del campo effettivo che agisce sullo spin
stesso.
Approssimando si con vi=<si>, cioè imponendo:




tanh  wij s j   tanh  wij v j 
 j i

 j i

(2.25)
si ottiene il sistema di equazioni di campo medio:
1

vi  tanh  wij v j 
T j

(2.26)
In altre parole il processo di aggiornamento stocastico è sostituito da un sistema di
equazioni deterministiche (da notare l’analogia con la funzione di trasferimento dei
neuroni continui).
Per neuroni {0,1} le equazioni di campo medio diventano
vi 
1
1

1  tanh  wij v j  

T j

2
(2.21)
Il vantaggio principale dell’approsimazione di campo medio è la velocità, perché
l’aggiornamento stocastico è sostituito da un sistema di equazioni deterministiche. Un
altro pregio è che si ottiene una trasparente interpretazione probabilistica dell’uscita dei
neuroni, poiché vi=<si>T.
2.4 I problemi di ottimizzazione
Le reti neurali possono anche essere usate per trovare buone soluzioni approssimate di
difficili problemi di ottimizzazione combinatoriale. Soluzioni esatte di questi problemi
2.3 Le reti ricorsive
36
richiedono un'esplorazione dello spazio degli stati che porta a tempi di calcolo
dell'ordine di O(n!) o O(en), nel caso di n gradi di libertà. Vari tipi di metodi euristici
vengono comunque utilizzati per trovare soluzioni ragionevolmente buone, cioè con uno
scarto dalla soluzione ottimale inferiore ad una soglia fissata, e anche gli approcci basati
sulle ANN ricadono in questa categoria. Nei due paragrafi seguenti vengono riportati
due problemi di ottimizzazione combinatoriale per illustrare l'approccio tramite reti
neurali alla soluzione di problemi di questo tipo.
2.4.1 La bipartizione di un grafo
Il problema del grafo bipartito è così definito: dividere in due metà un insieme di N nodi
con connettività data, in maniera tale che la connettività fra le due metà sia minima. Il
problema può anche essere riformulato in termini di progettazione di chips: si
considerino N elementi circuitali da inserire su dei circuiti integrati. Se non è possibile
inserirli su un solo chip, si può cercare di dividerli su due (metà su uno e metà
sull'altro), in modo tale che il numero di fili di connessione fra i due chips sia il più
piccolo possibile. Scegliere quali elementi circuitali mettere su un chip e quali sull’altro
è quindi un problema di ottimizzazione in cui il numero dei fili rappresenta la funzione
costo.
Il problema può essere formalizzato con una funzione energia di Hopfield definita
secondo la seguente rappresentazione: si assegni un neurone binario si {-1,1} a ciascun
elemento circuitale, e per ciascuna coppia di elementi sisj con ij si assegni un valore
wij=1 se sono connessi, 0 altrimenti. Sia inoltre si=1 se il nodo i sta sul chip di destra
oppure su quello di sinistra. Con queste notazioni
>0 se i e j sono sullo stesso chip
2.3 Le reti ricorsive
37
wijsisj
=0 se i e j non sono connessi
<0 se i e j sono su chip diversi
Minimizzare la funzione energia, quindi, tende a massimizzare le connessioni su uno
stesso chip, mentre minimizza le connessioni fra i due chip. Questo porta però a forzare
tutti gli elementi circuitali su uno stesso circuito integrato, ed è perciò necessario
aggiungere alla funzione energia un termine di “condizionamento” che penalizzi le
situazioni in cui i nodi non sono equamente divisi. Quando la partizione è bilanciata
(assumendo N pari) si=0, quindi il termine opportuno da aggiungere all’energia è
proporzionale a (si)2.
La funzione dell’energia per la bipartizione di un grafo assume la forma

1

E    wij si s j    si 
2 i , j i
2 i 
2
(2.27)
dove il moltiplicatore di Lagrange  determina la forza relativa del termine di
bilanciamento rispetto alla connettività fra i due chips.
La forma generica dell'energia
E = costo + condizioni globali
(2.28)
è tipica quando si riformulano i problemi di ottimizzazione in termini di reti neurali.
L’origine della difficoltà nella soluzione di problemi di questo tipo è abbastanza chiara:
il problema è frustrato nel senso che i due termini (costo e condizioni globali) sono in
competizione l’uno con l’altro, e portano alla formazione di molti minimi locali.
Questi possono essere in larga parte evitati applicando la tecnica di MFT, che porta alle
equazioni
1

vi  tanh   wij   v j 
T j



(2.29)
2.3 Le reti ricorsive
38
La forma generica della funzione dell'energia è molto diversa da tutti i più standard
trattamenti euristici del problema di ottimizzazione. Nel caso della bipartizione di un
grafo, ad esempio, gli algoritmi standard partono da una configurazione in cui i nodi
sono equamente divisi, e quindi procedono allo scambio di coppie seguendo qualche
criterio; la condizione di equipartizione è perciò rispettata ad ogni passo del processo di
aggiornamento. Questo è in netto contrasto con la tecnica delle reti neurali, in cui le
condizioni sono implementate in maniera “morbida” attraverso i moltiplicatori di
Lagrange.
Le equazioni ottenute dalla MFT possono essere risolte per iterazioni ad una
temperatura fissa T o per annealing di T. La temperatura è quindi un parametro libero
del sistema (oltre al moltiplicatore ). Il sistema presenta due fasi:

a temperatura sufficientemente alta (T) il sistema si rilassa nel punto fisso
“banale” vi0=0

se la temperatura viene abbassata, si ha una transizione di fase per T=Tc, e per T0
appaiono punti fissi vi* che rappresentano una decisione riguardo alla soluzione del
problema di ottimizzazione in questione.
2.4.2 Il commesso viaggiatore
Quando si generalizza il problema della bisezione di un grafo ad uno di partizione, gli N
nodi devono essere divisi in K insiemi, ciascuno con N/K nodi, minimizzando sempre la
connettività fra i vari insiemi. Questo richiede l'introduzione di un secondo indice per i
nodi, sia=0,1, dove i indica il nodo (i=1,...,N) e a l'insieme (a=1,...,K). Il neurone sia
assume i valori 1 o 0 a seconda che il nodo i appartenga o meno all'insieme a.
2.3 Le reti ricorsive
39
La stessa struttura è presente nel problema del commesso viaggiatore (TSP, Traveling
Salesperson Problem), dove N città devono essere visitate esattamente una volta
ciascuna, con il cammino di lunghezza minima: il neurone sia è 1 se la città i è la aesima da visitare. Assumendo che dij sia la distanza fra le città i e j, l’energia può essere
scritta come (ref. [14]):
 2   s s

E   dij  sia si ( a 1)  si ( a 1) 
i j
a

i


   sia s ja   N    sia 

2 i j a
2
i
a
2
a b
ia ib

(2.30)
dove il primo termine misura la lunghezza totale del cammino, il secondo si assicura
che ogni città compaia al massimo una volta nel cammino, il terzo che non ci siano due
città nella stessa posizione del cammino, e l’ultimo, infine, che il cammino sia costituito
esattamente da N città.
Ancora una volta è possibile definire le variabili di campo medio via e risolvere le
corrispondenti equazioni MFT.
Questo tipo di approccio ottiene ottimi risultati, ma ha lo svantaggio che sono necessari
N2 gradi di libertà (neuroni) per un problema ad N città: da qui segue che il numero di
operazioni per iterazione nella ricerca della soluzione delle equazioni è pari a O(N3).
Capitolo 3
L3 ed il sistema tracciante
In questo capitolo si descrive la struttura del rivelatore L3. Poiché lo scopo di questo
lavoro è la realizzazione di un nuovo algoritmo per il riconoscimento di tracce nella
proiezione XY, si descrive in dettaglio il funzionamento della camera tracciante. Infine
si presenta l’algoritmo di ricostruzione in uso, per permettere un confronto con quello
proposto in questo lavoro.
3.1 Il rivelatore L3
L3 (ref. [27], fig. 3.1) è uno dei quattro esperimenti costruiti per lo studio delle
interazioni e+e- prodotte al LEP (Large Electron Positron collider) a Ginevra. I
principali sottorivelatori che compongono L3 sono, dall’esterno verso l’interno:

lo spettrometro per muoni, formato da camere a deriva, che fornisce una misura
dell’impulso dei muoni con una precisione di circa 2% a 45 GeV;

un calorimetro adronico a campionamento, formato da camere proporzionali con
assorbitori in uranio impoverito, con una risoluzione energetica tipica

  E  E  55

E  GeV   8 %
(3.1)
3.1 Il rivelatore L3

41
un calorimetro elettromagnetico composto da cristalli di germanato di bismuto
(BGO), che misura l’energia di fotoni ed elettroni con una risoluzione migliore del
2% per energie maggiori di 2 GeV;

un monitor di luminosità a cristalli di BGO;

il rivelatore centrale di tracce, a sua volta costituito da una camera a espansione
temporale (Time Expansion Chamber, TEC), la camera Z e le camere traccianti in
avanti;

un rivelatore di microvertice al silicio (Silicon Microvertex Detector, SMD),
installato nel 1993.
Fig. 3.1 Il rivelatore L3
3.1 Il rivelatore L3
42
Il rivelatore è interamente contenuto in un magnete, che fornisce un campo di 0.5 T
parallelo alla direzione dei fasci.
L’origine del sistema di coordinate globali di L3 coincide col suo centro geometrico e
rappresenta anche il vertice nominale di interazione; l’asse z è individuato dalla
direzione di moto del fascio di elettroni, l’asse y è ortogonale al piano individuato
dall’anello di LEP ed è diretto verso l’alto, l’asse x punta verso il centro di LEP. Se si
usano coordinate sferiche, l’angolo polare è calcolato rispetto all’asse z, mentre r e 
sono la distanza radiale e l’angolo azimutale nel piano perpendicolare all’asse z. Ogni
sottorivelatore presenta, inoltre, un sistema di riferimento in cui i punti sono individuati
dalle coordinate locali.
3.2 La camera a tracce
La TEC (ref [28]) è stata progettata per fornire precise informazioni nella ricostruzione
delle tracce di particelle cariche. I suoi principali compiti sono:

misurare il momento trasverso e determinare il segno della carica della particella;

ricostruire il punto di interazione e i vertici secondari;

determinare il punto di ingresso delle particelle nel calorimetro elettromagnetico;

permettere un trigger veloce basato sulle informazioni sulle tracce.
Questi obbiettivi determinano richieste molto stringenti sulla risoluzione del dispositivo,
anche in considerazione del piccolo valore del campo magnetico di L3 e del corto
braccio di leva disponibile (37 cm). Per questo motivo per la TEC (fig. 3.2) è stato
scelto il principio della espansione temporale.
La camera è divisa in una regione di deriva con un campo elettrico basso e omogeneo,
ed in una di amplificazione con un alto campo elettrico che contiene i fili anodici,
3.2 La camera a tracce
43
paralleli all’asse del fascio; le due regioni sono separate da un piano di fili di griglia. I
parametri di funzionamento della camera (pressione, densità del gas di riempimento,
temperatura, …) sono fissati in modo da ottenere una bassa velocità di deriva, (6
m/ns, da qui il nome di camera a espansione temporale).
Fig. 3.2 Principio di funzionamento di una camera a deriva
La migliore risoluzione temporale porta ad una risoluzione spaziale sul singolo filo di
circa 50 m nella regione di deriva (250 m nella regione di amplificazione), ed una
risoluzione di due tracce di 650 m.
La camera è divisa in due cilindri concentrici: la TEC interna, divisa a sua volta in 12
settori, ognuno dei quali presenta un piano radiale di fili con 8 fili anodici; la TEC
esterna, divisa, invece, in 24 settori con piani radiali di fili con 54 fili di segnale
ciascuno. Per ogni traccia perciò è possibile misurare fino ad un massimo di 62 punti sul
piano xy. La disposizione dei fili nei settori della TEC è mostrata in fig. 3.3.
Come tutte le camere a deriva, anche la TEC presenta un’ambiguità destra-sinistra
intrinseca rispetto ai piani radiali di fili anodici: poiché quello che si misura è il tempo
3.2 La camera a tracce
44
di deriva degli e-, non è possibile conoscere da quale lato del piano di fili è arrivata la
valanga. Poiché ogni settore della camera interna corrisponde a due esterni, l’ambiguità
destra-sinistra può essere risolta raccordando le tracce fra i settori interni ed esterni.
Fig. 3.3 I settori della TEC
Un altro metodo per eliminare l’ambiguità consiste nell’usare la differenza fra il segnale
indotto dagli ioni positivi sui piani di griglia da entrambi i lati dell’anodo, determinando
la posizione iniziale della valanga. In ciascun settore esterno, 14 anodi vengono
utilizzati per la risoluzione dell’ambiguità: un gruppo di 5 fili di griglia è connesso
tramite capacità a degli amplificatori e segnali sono, quindi, presentati in ingresso ad un
amplificatore differenziale. La polarità del segnale di uscita, corrispondente
all’asimmetria della valanga all’anodo, è usato per determinare il lato di deriva degli
elettroni.
Il 17% dei fili anodici è equipaggiato con lettura a divisione di carica. Questi anodi sono
letti ad entrambe le estremità, misurando la carica del segnale e determinando così la
3.2 La camera a tracce
45
coordinata della traccia lungo il filo sensibile. La risoluzione ottenuta con questo
metodo è determinata, principalmente, dalla precisione nella misura della carica.
3.3 Il riconoscimento di tracce nella TEC
Il campo magnetico di L3 è costante e parallelo alla direzione del fascio, quindi le
tracce delle particelle cariche sono delle eliche con asse parallelo al fascio. Nella fase di
riconoscimento e di ricostruzione di tracce nella TEC, il programma di ricostruzione
standard REL3 (REconstruction L3) cerca di individuare archi di circonferenza nel
piano XY e linee rette nella proiezione
SZ, dove S è la lunghezza dell'arco di
circonferenza nella proiezione XY.
3.3.1 Rappresentazione delle tracce TEC
La ricostruzione dei dati della TEC determina distanze di deriva, a partire dai tempi di
deriva misurati, utilizzando i dati di calibrazione. Combinando le distanze di deriva con
la posizione radiale e azimutale dei fili, si ottengono punti bidimensionali nel piano r,
gli hits del rivelatore. Una traccia è parametrizzata in termini di una circonferenza
utilizzando un algoritmo che approssima il fit ad una circonferenza vera con una
espressione analitica (ref. [29]), riducendo così il tempo di calcolo in maniera
significativa.
I parametri della traccia vengono calcolati rispetto ad un punto di riferimento nel piano
r, la posizione media del fascio, che viene assunto come approssimazione del vertice
vero di interazione (incognito); i parametri sono i seguenti (fig. 3.4) :

=1/R, la curvatura con segno della circonferenza, misurata in mm. Il segno
corrisponde al segno della carica della particella;
3.3 Il riconoscimento di tracce nella TEC

46
DCA (Distance of Closest Approach), la distanza di massimo avvicinamento della
traccia al punto di riferimento, misurata in mm;

, l’angolo azimutale della tangente alla traccia nel punto di massimo
avvicinamento al punto di riferimento.
L’impulso della particella nel piano trasverso rispetto alla direzione del fascio è legato
alla curvatura dalla relazione:
pt 
0.2997  10 3 B

(3.2)
dove B è il campo magnetico in Tesla e pt è misurato in GeV/c.
DCA>0:
>0 e (xref,yref) all’interno del cerchio
<0 e (xref,yref) all’esterno del cerchio
DCA<0:
>0 e (xref,yref) all’esterno del cerchio
<0 e (xref,yref) all’interno del cerchio
Fig. 3.4 Parametrizzazione delle tracce nella TEC
Alla DCA viene attribuito un segno opposto a quello del momento angolare della traccia
rispetto al punto di riferimento, calcolato nel punto di massimo avvicinamento. In
questa maniera la posizione del punto di massimo avvicinamento al punto di riferimento
è data da (-DCAsen, DCAcos).
3.3 Il riconoscimento di tracce nella TEC
47
3.3.2 L’algoritmo attuale di ricostruzione nella TEC
La ricostruzione nel piano XY della TEC è organizzata in due parti (ref. [28],[30]). Nella
prima parte i dati grezzi ottenuti dal rivelatore vengono convertiti in strutture di dati
contenenti coordinate locali e coordinate globali. Nella seconda parte viene effettuata la
ricostruzione vera e propria delle tracce, basata sulle coordinate globali.
In un primo ciclo, il programma di ricostruzione cerca le tracce ad alto impulso
trasverso (superiore a 100 MeV); in un secondo ciclo vengono cercate tutte le altre
tracce. Ciascun ciclo è costituito da tre passi fondamentali.
Nel primo passo si cercano segmenti di traccia rappresentati da punti su anodi
consecutivi, utilizzando una variante del metodo dell’albero dei cammini minimi (§
1.3). Coppie di punti adiacenti o quasi su anodi diversi sono associate per formare
doppietti che, nel primo ciclo, devono puntare verso la regione del vertice. I doppietti
vengono poi combinati per formare segmenti di traccia costituiti da almeno 5 punti. Con
questi viene effettuato un fit ad un cerchio per ottenere i parametri visti nella sezione
precedente.
Il secondo passo consiste nel combinare due segmenti compatibili in base ai parametri
ottenuti dal fit: i due punti terminali ed uno al centro del segmento più corto vengono
confrontati con il cerchio che meglio approssima il segmento più lungo. Se gli scarti di
questi tre punti sono sufficientemente piccoli, viene creato un nuovo segmento dai due
precedenti.
Il terzo passo cerca di aggiungere ai segmenti ulteriori punti considerando i punti sugli
anodi non utilizzati.
Il ciclo viene chiuso da una fase di ripulitura dei segmenti in cui i punti con scarti
troppo grandi vengono eliminati. Se vengono eliminati più del 25% dei punti assegnati
3.3 Il riconoscimento di tracce nella TEC
48
al segmento, questo viene diviso in due in modo che la somma dei 2 dei due nuovi
archi di circonferenza sia minima. Se più del 50% dei punti sono già assegnati ad un
segmento più lungo, il segmento viene eliminato.
A questo stadio si procede all’eliminazione delle tracce “riflesse” dovute all’ambiguità
destra-sinistra, sfruttando gli anodi di risoluzione dell’ambiguità e la continuità delle
tracce fra le camere interne ed esterne.
Dopo che è stata completata la ricostruzione nella proiezione XY, si procede alla
determinazione dell’angolo polare e della coordinata z del punto di massimo
avvicinamento sfruttando gli 11 fili a divisione di carica in ciascun settore e i segnali
delle camere Z.
3.4 Le prestazioni della TEC
L’efficienza e la risoluzione sul singolo filo della TEC sono misurate usando
decadimenti della Z0 a bassa molteplicità: e+e-e+e- ed e+e-+-. I risultati
presentati sono basati sui dati raccolti fra il 1990 e il 1993 (ref. [28]).
L’efficienza sul singolo filo è definita come il numero di punti effettivamente utilizzati
nel fit della traccia su tutti i possibili punti della traccia. I risultati danno il 93% per le
misure r ed il 78% per le misure z, ottenute usando i fili a divisione di carica. Questi
risultati riflettono sia l’efficienza intrinseca del filo, sia l’efficienza dell’algoritmo di
riconoscimento e ricostruzione.
La risoluzione di singolo filo è ottenuta dalla larghezza della distribuzione dei residui
dei punti usati nell’eseguire il fit della traccia. La risoluzione è una funzione dell’angolo
azimutale, cioè dell'angolo della traccia rispetto al piano dei fili anodici. Nella regione
fra il piano anodico e quello di griglia, dove la TEC si comporta come una
3.4 Le prestazioni della TEC
49
convenzionale camera a deriva, la risoluzione è dell’ordine di 250 m. Per tracce nella
regione di deriva, la risoluzione è circa 50 m. Vicino ai fili catodici la risoluzione è
peggiore a causa dell’andamento del campo elettrico in vicinanza di questi fili.
La risoluzione sulle misure z usando i fili a divisione di carica è in media 60 m. Questo
risultato è stato ottenuto confrontando le misure dei fili a divisione di carica e i dati
delle camere Z.
La risoluzione sul momento trasverso, pt, è determinata usando muoni il cui momento è
misurato con buona precisione dallo spettrometro per muoni. Il momento trasverso è
inversamente proporzionale alla curvatura  della traccia nel piano r. L’errore sulla
curvatura ha una distribuzione gaussiana, ed è dato da:


2

pt
1
2


2  2.06  0.06  10 GeV c
pt
(3.3)
La risoluzione della TEC sulla DCA è misurata usando la distanza di massimo
avvicinamento fra le due tracce presenti in eventi leptonici. La DCA di una traccia (Do),
calcolata rispetto alla posizione media del fascio O, è collegata alla incognita distanza
(Dv) di massimo avvicinamento al vero vertice dell’evento V, tramite la relazione (ref.
[31]):
Do  Dv  X v cos  Yv sen 
(3.4)
dove Xv,Yv sono le coordinate di V e  è l’angolo azimutale della traccia. Le due tracce
di un evento leptonico hanno origine da un vertice comune, pertanto Xv,Yv sono le stesse
per le due tracce; inoltre, gli angoli azimutali sono uno supplementare dell’altro. Mentre
la risoluzione sulla DCA è dominata dall’errore che si commette approssimando il
vertice vero di interazione con la posizione media del fascio, la somma delle DCA delle
due tracce di un evento leptonico è indipendente da questo errore:
3.4 Le prestazioni della TEC
50
Do 1  Do 2  Dv1  X v cos  Yv sen   Dv 2  X v cos     Yv sen    
 Dv1  Dv 2
(3.5)
Questa quantità, spesso chiamata distanza mancante (miss distance), è proprio la
distanza di massimo avvicinamento fra le due tracce presenti in eventi leptonici.
Dall’eq.(3.5) segue anche la relazione tra la larghezza della distribuzione della distanza
mancante e la risoluzione intrinseca della TEC sulla DCA:
 TEC 
 MissDis
2
(3.6)
Il fit con una singola gaussiana dà una stima per TEC di circa 130 m per il 1992 e per
il 1993, compreso il piccolo contributo dovuto alla diffusione multipla nel materiale
attraversato dalle particelle prima di raggiungere la TEC.
Capitolo 4
Il rivelatore di vertice di L3
In questo capitolo si discute l’importanza dei rivelatori di microvertice al silicio negli
esperimenti di fisica delle alte energie, quindi si descrive il rivelatore di vertice SMD
installato a L3. La necessità di una maggiore efficienza nell’utilizzo di SMD è una delle
motivazioni del nuovo algoritmo di riconoscimento messo a punto in questa tesi (Cap.
5). Per concludere si riporta l’algoritmo di REL3 che si occupa del trattamento delle
informazioni fornite da SMD.
4.1 I rivelatori di vertice al silicio
La vita media del leptone  e degli adroni composti dai quarks c e b ha valori
nell’intervallo compreso fra qualche frazione di picosecondo ed alcuni picosecondi.
L’osservazione diretta dei decadimenti di queste particelle e la misura della loro vita
media è chiaramente di grande interesse nel comprendere le relazioni fra interazioni
forti e deboli. L’osservazione diretta di queste particelle diventa ancora più importante
negli esperimenti costruiti agli acceleratori a fasci incrociati e+e- che lavorano ad
energie attorno alla massa della Z0. L’accoppiamento della Z0 alle coppie quarkantiquark è circa dello stesso valore per quarks leggeri e pesanti, quindi la produzione di
4.1 I rivelatori di vertice al silicio
52
particelle contenenti quarks c e b è particolarmente abbondante in questo tipo di
collisioni.
In questo contesto, assumono un’importanza molto rilevante i rivelatori a microstrisce
di silicio (ref. [32],[33]): le loro qualità di misurazione veloce e di alta precisione dei
punti spaziali di passaggio di particelle di alta energia, permettono di determinare vertici
primari e secondari con una miglior risoluzione. La risoluzione spaziale intrinseca dei
rivelatori a microstrisce di silicio (alcuni m) permette di identificare i vertici di
decadimento di leptoni  e di particelle costituite da quarks pesanti (charm e beauty) con
tempi di vita compresi, tipicamente, fra 0.1 e 1.5 ps.
Per distinguere tali vertici di decadimento in eventi dalla topologia complessa, la
risoluzione sul parametro di impatto (la minima distanza fra la traccia ed il vertice
primario, cioè la DCA) deve essere dell’ordine di qualche decina di m. Per una
geometria del rivelatore molto semplice, costituita da due strati cilindrici di rivelazione
a distanza r1 e r2 dal punto di produzione (vedere più avanti la descrizione dettagliata di
SMD), con risoluzione spaziale 1 e 2, la risoluzione sul parametro di impatto può
essere approssimata come:

2
d0

2
ge om

2
 MS
(4.1)
pt2
dove geom è l’errore di estrapolazione geometrica, che nel caso descritto sopra può
essere approssimato come:
 r 
  r 
  1 1   2 2 
 r2  r1 
 r2  r1 
2

2
ge om
2
e MS riflette gli effetti della diffusione multipla sulla direzione della particella:
(4.2)
4.1 I rivelatori di vertice al silicio
53
2
 MS

  r 
nscatt
j 1
j
j

2
(4.3)
dove (ref. [33]):
 j  0.0136
X j 
 X j  

1  0.038 ln
X0 
 X0 
(4.4)
è l’angolo medio di diffusione multipla di una particella con impulso trasverso pt
attraverso il materiale di spessore Xj (espresso in frazioni della lunghezza di radiazione
X0) collocato ad una distanza rj, e nscatt è il numero di strati diffusivi prima dell’ultimo
elemento di rivelazione.
Supponendo dimensioni abbastanza comuni per i rivelatori di microvertice al silicio,
ovvero r1=5 cm, r2=10 cm, 1=2=10 m, si ottiene geom22 m. Questo esempio
dimostra la necessità di una risoluzione spaziale del singolo sensore dell’ordine di 10
m per identificare i decadimenti di particelle costituite da quarks pesanti con una
geometria del rivelatore di questo tipo.
Si possono, in ogni caso, trarre varie considerazioni generali da questo semplice
esempio:

la prima misura (r1) deve essere effettuata il più vicino possibile al vertice primario,
e la risoluzione spaziale intrinseca (1) deve essere piccola;

il braccio di leva r2-r1 deve essere grande;

il materiale del rivelatore e specialmente il materiale di fronte alla prima misura
deve essere minimizzato.
4.2 Il rivelatore di microvertice al silicio di L3
54
4.2 Il rivelatore di microvertice al silicio di L3
Il rivelatore di microvertice al silicio di L3 (SMD, Silicon Microvertex Detector) è stato
installato nel 1993 per migliorare vari aspetti del sistema tracciante di L3 (ref. [34]):
risoluzione del momento trasverso, ricostruzione delle tracce in eventi complessi,
misura della coordinata z e risoluzione del parametro di impatto. I motivi di interesse
fisico che hanno spinto a questo importante e raffinato miglioramento di L3 sono stati
illustrati nel paragrafo precedente.
Fig. 4.1 Visione in sezione trasversale di SMD
SMD è un rivelatore a simmetria cilindrica formato da due strati radiali di rivelatori a
microstrisce di silicio a doppia faccia (fig. 4.1), che fornisce due misure di posizione r
e rz a circa 6 cm e 8 cm dall’asse del fascio, rispettivamente nella regione angolare
4.2 Il rivelatore di microvertice al silicio di L3
55
|cos|<0.93 e |cos|<0.88, con una risoluzione di circa 10 m nella coordinata r e 15
m in quella z.
Ciascuno strato è costituito da 12 moduli, detti ladder (ref. [35], fig. 4.2), formati a loro
volta da due unità elettricamente indipendenti, dette half-ladder.
Un half-ladder è costituito da due sensori al silicio e dall’elettronica a loro associata;
ciascun sensore è lungo 700 mm e largo 40 mm, costruito a partire da un cristallo di
silicio di tipo n di spessore 300 m.
Per la misura della coordinata rsi utilizza il lato di giunzione su cui sono impiantate
1537 strisce p+ ogni 25 m, con un passo di lettura di 50 m; le strisce corrono parallele
al lato lungo del sensore.
4.2 Il rivelatore di microvertice al silicio di L3
56
Fig. 4.2 I ladder di SMD
Per la misura della coordinata z si utilizza il lato ohmico del sensore, dove sono
impiantate 1409 strisce n+ ogni 50 m, con un passo di lettura di 200 m nella regione
|cos|=0.930.53, e di 150 m nella regione |cos|=0.530, dove  è l’angolo polare
misurato rispetto all’asse del fascio.
I ladder interni sono orientati parallelamente all’asse del fascio e sono disposti in
maniera da creare una regione di sovrapposizione, al fine di facilitare l’allineamento di
SMD con la TEC. I ladder esterni non hanno zone di sovrapposizione, e presentano
qualche regione vuota di rivelazione; queste regioni sono però correlate con le zone di
sovrapposizione dello strato interno, in modo tale che siano sempre possibili almeno
due misure di coordinate lungo la traccia su SMD.
Fig. 4.3 Rotazione stereo fra strati interno ed esterno
Una caratteristica unica del rivelatore di microvertice di L3 è la rotazione di circa 2 o dei
ladder dello strato esterno rispetto a quelli interni, per risolvere l’ambiguità delle tracce
(ref. [34]). Senza questa rotazione, infatti, il numero di tracce dovute al fondo
4.2 Il rivelatore di microvertice al silicio di L3
57
combinatoriale, cioè le tracce errate che sono ricostruite associando punti sui diversi
strati (tracce “fantasma”, fig. 4.3), è grande, a causa della relativamente semplice
geometria di SMD e all’assenza di altre misure di punti spaziali sufficientemente vicine.
Grazie alla geometria stereo scelta per lo strato esterno del rivelatore, però, le
informazioni z e r provenienti da ciascun sensore a doppia faccia sono correlate e
l’ambiguità può essere risolta.
4.2.1 Allineamento di SMD con la TEC
I miglioramenti che si ottengono dall’utilizzo di SMD sono fortemente dipendenti
dall’accuratezza dell’allineamento relativo TEC-SMD, ad esempio per il miglioramento
sulla risoluzione del parametro di impatto. Il miglioramento (ref. [36]) può arrivare fino
ad un fattore 5, ed è dovuto essenzialmente ad un raffinato sistema di controllo
dell'allineamento relativo TEC-SMD e degli altri effetti sistematici della TEC al livello
di 10 m.
L’allineamento di SMD rispetto ai rivelatori interni di L3, in particolare rispetto alla
TEC, è stato sviluppato usando varie tecniche. In primo luogo, sono stati determinati i
sei parametri che descrivono la posizione di SMD come un singolo corpo rigido,
minimizzando la somma dei residui tra le tracce della TEC e le posizioni ricostruite da
SMD, utilizzando eventi a due muoni. Inoltre sono state determinate le posizioni di
ognuno dei 96 sensori di silicio. Per poter fare ciò, non è sufficiente la precisione della
predizione TEC ed è indispensabile trovare estimatori che siano principalmente basati
sulle informazioni di SMD. Gli estimatori utilizzati sono i seguenti (ref. [31]):
4.2 Il rivelatore di microvertice al silicio di L3

58
forzando la traccia TEC a passare attraverso un punto ricostruito su uno degli strati
di SMD, si ottiene una predizione che viene confrontata con il punto ricostruito
sull'altro strato di SMD;

quando una traccia passa nella regione in cui i ladder interni di SMD si
sovrappongono, sono disponibili tre punti di SMD, e si può quindi calcolare il
residuo tra ognuno di questi punti e la predizione data dagli altri due;

trascurando effetti radiativi, le due tracce di un evento di dimuoni possono essere
descritte con una singola circonferenza, utilizzando tre punti ricostruiti da SMD e
determinando quindi il residuo rispetto al quarto punto.
4.3 Utilizzo di SMD nella ricostruzione
La prima fase della ricostruzione standard su SMD (ref. [37]) è la formazione dei
cluster: un cluster viene definito come un gruppo di strisce contigue, con un segnale che
è superiore al valore del piedistallo per una quantità almeno due volte maggiore del
rumore della striscia (in generale 5 strisce, 2 attorno ad un massimo). Una o più di
queste strisce deve avere un segnale almeno tre volte maggiore della sigma del suo
piedistallo. La carica del cluster è definita come la somma delle cariche raccolte dalle
strisce che gli appartengono.
La seconda fase, quella dell’assegnazione dei clusters alle tracce precedentemente
ricostruite nella TEC, avviene nel seguente modo:

Partendo dall’arco di circonferenza che meglio approssima la traccia, si calcola il
punto di passaggio previsto sullo strato r interno (strato 2), quindi si assegna alla
traccia il cluster più vicino alla previsione e si riesegue il fit della traccia stessa.
4.3 Utilizzo di SMD nella ricostruzione

59
Dopo aver reso più precisi i parametri della traccia con il passo precedente, si
interpola il punto di passaggio della particella sullo strato r esterno (strato 4), e si
calcola la differenza fra la previsione ottenuta solo con la TEC e quella con il
sistema TEC+(strato 2), in coordinate locali. Questa differenza porta ad una
previsione in z secondo la formula
Z globale  Z
TEC
globale
X

SMD
locale
TEC
 X locale

sen(all )
(4.5)
TEC
dove Z globale
è il punto di intersezione della traccia TEC con lo strato z esterno
SMD
(strato 3) in coordinate globali, X locale
è la coordinata locale del cluster sullo strato
TEC
4, X locale
è l’intercetta della traccia TEC con lo strato 4, e all è l’angolo di
allineamento degli strati interni con quelli esterni. L’errore nella previsione è
SMD
TEC
Z  X , dove X è l’errore su X locale
.
 X locale

A questo punto vengono assegnati alla traccia i clusters più vicini alle previsioni
dello strato 4 e dello strato 3, ed effettuato di nuovo il fit. Se sullo strato 3 non viene
trovato nessun cluster compatibile con l’errore della previsione, il fit viene eseguito
TEC
utilizzando Z globale
.
Per concludere, se c'è un numero sufficiente di tracce con un cluster z esterno e
candidati z interni (strato 1), si cerca di determinare il candidato da assegnare alla
traccia ricostruendo il vertice in z.
4.4 Prestazioni di SMD
I risultati sull’efficienza dei vari strati di rivelazione di SMD sono stati ottenuti
utilizzando gli eventi leptonici (ref. [38]). Il criterio usato è quello di considerare tutti i
4.4 Prestazioni di SMD
60
punti di SMD che sono utilizzati nel fit della traccia dopo aver assegnato i punti di SMD
alla predizione TEC. L’efficienza tiene conto della probabilità che il passaggio della
particella produca un punto e di trovare questo punto con il programma di ricostruzione.
I valori ottenuti sono: 81.9% e 88.6% rispettivamente per gli strati z e r interni, 81.3%
e 84.3% per quelli esterni.
La risoluzione intrinseca di SMD è stata invece valutata in base a prove effettuate sul
fascio con un ladder prototipo (ref. [39]). La traccia di una particella viene definita dai
punti di passaggio nei rivelatori di riferimento situati sopra e sotto il rivelatore
prototipo. La risoluzione spaziale del prototipo è determinata confrontando le
coordinate predette dai rivelatori di riferimento con quelle misurate nel rivelatore
prototipo. I risultati ottenuti sul prototipo sono una risoluzione di 7 m per il lato r e
15 m per il lato z, per tracce non inclinate.
La risoluzione sull’impulso trasverso (ref. [31]) è stata determinata a partire dagli eventi
dimuonici, confrontando il pt misurato dal sistema TEC-SMD con la misura delle
camere per muoni, che sono intrinsecamente più precise. La risoluzione ottenuta è del
47% per dimuoni a 45 GeV, che è compatibile con la previsione del 42% dei dati
MonteCarlo, e 1.7 volte migliore della risoluzione ottenuta con la sola TEC.
La risoluzione del parametro di impatto (ref. [31]) è stata valutata dalla distanza
mancante tra le due tracce degli eventi dimuonici. Dalla distribuzione della distanza
mancante, per eventi in cui le tracce hanno segnali sia dalla TEC che da SMD, si ottiene
una risoluzione sul parametro di impatto di circa 30 m, tenendo conto sia del grado di
accuratezza nella calibrazione della TEC che delle incertezze.
4.5 L’efficienza di SMD
61
4.5 L’efficienza di SMD
Se si riconsiderano i risultati sull’efficienza di rivelazione di SMD, si può notare
un’inefficienza media di circa il 15%. I motivi di una tale inefficienza non sono ancora
stati totalmente compresi, anche se in parte possono essere ricondotti al programma di
ricostruzione standard: è infatti possibile calcolare l'efficienza di rivelazione anche a
partire dalla configurazione delle prove su fascio (ref. [39]). Per calcolare l’efficienza di
rivelazione , si considera “rivelata” una particella se sullo strato corrispondente viene
trovato un cluster nella regione ,z intorno a quello predetto. In questo caso si ottiene
=97% per lo strato  e =96% per lo strato z, valori molto più elevati di quelli ottenuti
nel paragrafo precedente.
Uno degli aspetti che potrebbero influenzare il calo di efficienza è proprio il trattamento
delle informazioni fornite da SMD: i punti di SMD intervengono nel riconoscimento
delle tracce solo in seconda fase, dopo che le tracce stesse sono già state identificate a
partire dai soli punti forniti dalla TEC. Il loro contributo è estremamente importante
nella fase di ricostruzione (la determinazione dei parametri tramite il fit), poiché,
essendo punti più precisi, hanno un peso statistico maggiore. La loro maggiore
precisione non viene, però, sfruttata nel riconoscimento, perchè vengono semplicemente
“attaccati” a tracce già determinate.
I motivi che hanno portato ad una tale struttura del programma di ricostruzione sono
“storici”, perché SMD è stato installato in un secondo tempo rispetto al resto del
rivelatore, e l’algoritmo di riconoscimento di REL3 era già stato sviluppato. Sarebbe
utile, quindi, un nuovo algoritmo che aumenti l’intervento dei punti di SMD nella fase
di riconoscimento e, di conseguenza, l’efficienza di attaccamento dei punti di SMD alle
4.5 L’efficienza di SMD
62
tracce. Come si è visto in § 4.1 la determinazione del parametro di impatto con una
migliore risoluzione è essenziale per l’analisi della fisica dei sapori pesanti. Lo sviluppo
di tale algoritmo costituisce la parte centrale di questa tesi e sarà discusso in dettaglio
nei prossimi capitoli.
Capitolo 5
Una rete neurale per il riconoscimento di
tracce
In questo capitolo si descrive il principio di funzionamento del nuovo algoritmo messo a
punto nel lavoro di tesi. Si formula il problema del riconoscimento di tracce come
problema di ottimizzazione, risolubile con una rete di Hopfield; quindi si propone una
specializzazione dell’algoritmo al rivelatore tracciante di L3 per la proiezione xy. Il
lavoro svolto nel costruire l’algoritmo si è articolatato in una prima fase in cui si è
costruita un’iniziale architettura della rete sfruttando simulazioni MonteCarlo in assenza
di rumore e con rivelatore a funzionamento ideale. Nella seconda, si sono messi a punto
tutti gli accorgimenti necessari per superare i problemi connessi ai dati reali, cioè la
presenza di rumore ed il funzionamento reale dell’apparato di rivelazione.
5.1 Il riconoscimento di tracce come problema di
ottimizzazione
In questa sezione si riformula il problema del riconoscimento di tracce come problema
di ottimizzazione. Abbiamo mostrato in precedenza (Cap. 2) come sia possibile
utilizzare reti neurali ricorsive nella risoluzione di problemi di ottimizzazione. Quindi si
5.2 Il lavoro sul MonteCarlo
64
utilizzerà ora un’architettura del genere nella soluzione del problema del riconoscimento
di tracce.
È prima di tutto necessaria la definizione di una corrispondenza che permetta di
interpretare gli stati di una rete ricorsiva come soluzioni del problema del
riconoscimento di tracce. Il riconoscimento di tracce consiste nel ricostruire una curva
presumibilmente smussata a partire da un insieme di punti: una traccia costituita da n
punti può essere vista come un insieme di n-1 segmenti consecutivi con angoli non
troppo acuti e senza biforcazioni. In base a questa schematizzazione delle tracce, il
problema può essere riformulato in termini di reti di Hopfield: ad ogni segmento
orientato (il punto con il raggio minore è sempre il primo del segmento) che connette
due elementi dell’insieme di punti su cui si effettua il riconoscimento si associa un
neurone unipolare binario (§ 2.2.1). Se il neurone si trova nello stato 1, i due punti del
segmento appartengono alla stessa traccia, mentre non appartengono alla stessa traccia
se si trova nello stato 0. Ogni configurazione della rete dà quindi luogo ad una soluzione
del problema del riconoscimento: le catene di segmenti consecutivi accesi sono le tracce
riconosciute, i punti isolati sono il rumore. La soluzione ottimale viene raggiunta
quando tutti i neuroni associati a segmenti di traccia “veri” sono accesi (stato 1), mentre
tutti gli altri sono spenti (stato 0).
In questo modo si è stabilito un isomorfismo fra un problema considerato di Computer
Science con una classe estremamente ampia di sistemi fisici, i vetri di spin, ciascuno
caratterizzato da una differente funzione energia che ne definisce le proprietà. In questa
classe sarà ricercato il sistema che meglio si adatta alle nostre necessità.
Per risolvere correttamente il problema del riconoscimento è, quindi, necessario definire
i pesi di connessione dei neuroni in maniera tale che il minimo dell’energia della rete
5.2 Il lavoro sul MonteCarlo
65
corrisponda alla soluzione ottimale, e, successivamente, mettere a punto una strategia di
evoluzione dello stato della rete che assicuri il raggiungimento del minimo globale
dell’energia. La forma funzionale dell’energia è quella classica dei problemi di
ottimizzazione:
E  E cos to  E condizioni
(5.1)
dove i vari termini devono essere determinati tenendo conto delle proprietà
caratteristiche delle tracce rilasciate dalle particelle cariche in un rivelatore immerso in
un campo magnetico.
Il primo approccio (definito da una sua specifica energia) a questo problema è dovuto a
Denby (ref.[40]). Se Ai e Bi sono, rispettivamente, il primo ed il secondo punto (il più
interno ed il più esterno) del segmento orientato Li associato al neurone si, la forma
dell’energia da loro proposta è:
E D P 

 

 
   si s j  Ai , A j   B j , Bi
i j

1
 T s s  Ai , B j   A j , Bi 
2 i  j ij i j



    si  N 
 i

2
(5.2)
dove Tij è la matrice delle connessioni,  assume il valore 1 se i due punti coincidono, N
è il numero di punti dell’evento, e  e  sono due parametri liberi del sistema.
La matrice di connessioni ha la forma:
Tij 
cos  ij
li  l j
(5.3)
in cui ij è l’angolo fra i segmenti orientati Li e Lj e l la lunghezza di questi segmenti. Il
parametro libero del sistema  deve avere un valore piuttosto alto e dispari (in
letteratura possono essere trovati valori fino a 101 (ref. [41])).
5.2 Il lavoro sul MonteCarlo
66
Il parametro  agisce in modo che le tracce non abbiano biforcazioni. Su una traccia,
nessun punto dovrebbe avere più di un segmento che termina o comincia da questo: 
stabilisce connessioni inibitorie fra neuroni che violano questa condizione.
Il parametro  assicura, invece, che sia attivato il numero atteso di neuroni. Il numero di
neuroni che deve essere acceso non è mai conosciuto esattamente, perché non tutti i
punti possono essere assegnati a tracce ed il numero di tracce non è conosciuto in
anticipo. In genere, perciò, questo termine serve soprattutto come stimolo
all’attivazione, ad aumentare cioè la probabilità che i neuroni siano accesi, poiché il
numero dei neuroni accesi è già fortemente limitato da .
Bj
Bj
Bi=Bj
Lj
Bi=Aj



Bi
Li
Ai=Aj
Ai
Aj
Ai
Fig. 5.1 Possibili configurazioni dei neuroni che condividono un punto:
a)
connessione in avanti; b,c)
biforcazioni
Il metodo utilizzato da Denby e’ piuttosto semplice, e riesce a dare buone soluzioni su
eventi simulati tramite il MonteCarlo per rivelatori traccianti con caratteristiche
geometriche molto stringenti. Il metodo e’, pero’, lontano dal risultare soddisfacente per
5.2 Il lavoro sul MonteCarlo
67
eventi reali, in cui si deve affrontare e risolvere tutta una serie di problemi molto
delicati: trattamento dei punti di rumore, funzionamento reale del rivelatore
(inefficienza, risoluzione, ambiguita’,…).
Nello sviluppo di un sistema di riconoscimento di tracce per L3 basato su reti neurali,
l’approccio di Denby sara’ una fonte di ispirazione del modo di affrontare i problemi
tramite le reti neurali, ma il metodo usato sara’ sostanzialmente diverso.
5.2 Il lavoro sul MonteCarlo
La prima parte di sviluppo della rete è stata effettuata su eventi simulati con il metodo
MonteCarlo. Questa scelta è stata dettata dalla possibilità, tramite le simulazioni, di
avere a disposizione tutte le informazioni “vere” sulle tracce, e quindi dalla facilità di
valutare la qualità delle risposte della rete. Nonostante questo, si è resa necessaria
un’analisi “visiva” degli eventi ricostruiti per mettere in evidenza eventuali cause di
errori nel funzionamento della rete stessa e poter così correggerne la struttura.
Gli eventi MonteCarlo utilizzati sono di due tipi: eventi dimuonici ed eventi adronici.
Entrambi sono stati generati sfruttando il programma di simulazione MonteCarlo di L3,
GEANT.
5.2 Il lavoro sul MonteCarlo
68
Fig. 5.2 Evento adronico (e+e-Z0qq) MonteCarlo
5.2.1 Raccolta dei dati dell’analisi
Per gli eventi MonteCarlo ideali la procedura con cui si determina l’insieme dei punti su
cui eseguire il riconoscimento è semplice: le banche dati di REL3 forniscono
direttamente i punti di segnale causati dalle tracce simulate nel rivelatore.
Poiché, come si vedrà nel paragrafo successivo, il trattamento dei punti è limitato ai
primi vicini (si definiscono primi vicini i segmenti che hanno un punto in comune) si
può suddividere lo spazio di analisi in vari sottoinsiemi da analizzare singolarmente, a
patto di mantenere delle regioni di sovrapposizione con cui raccordare i risultati.
5.2 Il lavoro sul MonteCarlo
69
Complessivamente la proiezione XY viene divisa in diciotto regioni (fig. 5.3): sei
interne, corrispondenti ognuna a due settori della camera interna e alla relativa regione
angolare di SMD, e dodici esterne, corrispondenti ognuna a due settori della camera
esterna.
3
4
2
5
2
6
3
4
7
Angoli
di 10°
1
1
5
6
12
11
8
9
10
Sovrapposizion
e di raccordo
Fig. 5.3 Divisione in settori dello spazio di lavoro
I settori adiacenti hanno una sovrapposizione angolare di 10o quindi la copertura
angolare complessiva è di 70o e 40o, rispettivamente per le regioni interne ed esterne.
Per mantenere la continuità radiale, invece, le regioni interne vengono prolungate fino ai
primi quattro fili della camera esterna.
5.2.2 Definizione dei neuroni
I neuroni vengono definiti come segmenti orientati costituiti da due punti di segnale (il
primo è quello più vicino al vertice di interazione) forniti dal rivelatore. Poiché la
definizione dei neuroni è estremamente dipendente dalla regione in esame, si riportano,
5.2 Il lavoro sul MonteCarlo
70
per tutte le regioni del rivelatore tracciante, le condizioni imposte sulle due proprietà dei
neuroni utilizzate a questo scopo: la lunghezza l e l’allineamento con il vertice .

SMD. Vengono definiti i neuroni che collegano tutti i punti dello strato interno con
quelli dello strato esterno se <0.02 rad.

SMD-TEC interna. I neuroni collegano tutti i punti di SMD con quelli dati dai primi
2 fili della TEC interna se <0.03 rad.

TEC interna. I neuroni collegano tutte le coppie di punti tali che lè minore della
distanza di 2 fili e <0.03 rad.

TEC interna –TEC esterna. I neuroni collegano i punti dati dagli ultimi due fili della
TEC interna con quelli dati dai primi 2 fili della TEC esterna <0.06 rad.

TEC esterna. I neuroni collegano tutte le coppie di punti tali che lè minore della
distanza di 2 fili e <0.5 rad.
Fig. 5.4 I parametri l e  usati nella definizione dei neuroni
Le condizioni applicate hanno la funzione di ridurre il numero di neuroni definiti a
partire da un set di punti, in modo da diminuire la quantità di memoria richiesta e
limitare il tempo di esecuzione del programma. Il taglio in  sopprime la ricostruzione
di tracce con curvatura molto piccola, cioè di quelle tracce con impulso trasverso
piccolo (pt50100 MeV). Queste tracce sono quasi sempre prodotte in eventi di
scarsa rilevanza fisica, come ad esempio le collisioni con il gas residuo nel tubo a vuoto.
5.2 Il lavoro sul MonteCarlo
71
y
x
Fig. 5.5 Neuroni definiti (particolare dell’evento di esempio).
Le unità sugli assi sono arbitrarie.
5.2.3 Definizione della matrice di connessione
Poiché gli eventi analizzati in questa sezione non presentano problemi dovuti al rumore
e all’inefficienza del rivelatore, si possono ottenere buoni risultati anche con una forma
dell'energia piuttosto semplificata.
La forma dell’energia utilizzata è:
E

 


 
1
si s j  Ai , A j   Bi , B j
 T s s  Ai , B j   Ai , B j   
2 i  j ij i j
i j

(5.4)
Confrontando questa funzione con l’espressione dell’energia di Denby in eq. (5.2), si
può notare è stato eliminato il termine di condizione sul numero di neuroni accesi, in
previsione di uno sfruttamento del metodo su eventi reali con una quantità di rumore
variabile. Questo porta, infatti, a grandi variazioni sul numero di neuroni accesi a parità
di dimensioni dell’insieme su cui effettuare il riconoscimento (punti “veri” + rumore).
5.2 Il lavoro sul MonteCarlo
72
Il termine che gestisce la condizione sulle biforcazioni è formalmente lo stesso visto in
precedenza, mentre il peso di connessione relativo alla funzione costo è completamente
diverso; la sua forma generale è:
Tij 
f  
 
(5.5)
h li , l j
Nel caso di settori esterni, si specializza in:



1   lT  li  lT  l j

 3
Tij  
1   lT  li  lT  l j
 0.3





cos  0.995

 0.995  cos  0.95
(5.6)
altrimenti
dove  e  sono due parametri liberi del sistema, lT=4.8 mm corrisponde alla distanza fra
due fili anodici consecutivi, l è la lunghezza dei segmenti connessi e  è l’angolo fra
questi.
Per quelli interni, invece:
cos  0.99

Tij  
 0.3 altrimenti
(5.7)
con identico significato dei simboli.
La forma scelta per f() favorisce sempre l’accensione di neuroni che hanno una
direzione simile, mentre rende inibitorie le connessioni fra neuroni con direzioni troppo
diverse per appartenere alla stessa traccia. In particolare, f() favorisce le connessioni
fra neuroni con , con preferenza per le traiettorie rettilinee: all’interno del
rivelatore è trascurabile la diffusione multipla sulle molecole del gas riempitivo e solo le
particelle di impulso più piccolo hanno tracce con curvatura significativa a causa del
5.2 Il lavoro sul MonteCarlo
73
campo magnetico. Nei settori interni la finestra positiva del peso è più stretta perché le
traiettorie sono più vicine fra loro, ed è necessaria una maggior capacità discriminante
della rete.
Nella funzione energia riferita ai settori interni non c’è nessun fattore che regoli il
valore peso secondo la lunghezza dei neuroni. Questi settori raccolgono, infatti,
l’informazione provenienti da sottorivelatori con geometria molto diversa (SMD, TEC
interna), e devono gestire due zone relativamente ampie di transizione, (SMD-TEC
interna e TEC interna-TEC esterna), non è possibile associare una distanza tipica a due
punti consecutivi nel rivelatore. Poiché i settori esterni, invece, trattano l’informazione
proveniente da un unico sottorivelatore (TEC esterna) a geometria ben definita, il
termine h(li,lj) e’ stato inserito nella funzione energia. Questo termine ha un minimo
pari ad 1 per lT=li=lj, cioè quando collega due segmenti formati da punti su anodi
consecutivi. Il suo scopo è quello di favorire la formazione di segmenti piu’ brevi
possibili, riducendo l’energia dei pesi che connettono i segmenti lunghi.
5.2.4 Dinamica della rete
La dinamica della rete è costruita in modo da raggiungere gli stati stabili del sistema
dati dalla teoria MFT, cioe’ dall’eq. (2.26). Si dimostra (ref. [41]) che la ricerca delle
soluzioni delle equazioni di campo medio e’ equivalente alla ricerca delle soluzioni
asintotiche del sistema di equazioni differenziali:
 du i
 dt  u i   wij v j
j i



ui 
1
vi  1  tanh 
2
T

ddove si e’ usato con lo stesso formalismo di par. 2.3.4, cioe’:
(5.9)
5.2 Il lavoro sul MonteCarlo
74
vi  si
ui   wij s j
T
(5.10)
j i
e dove T e’ la temperatura e t il tempo.
In fase di definizione dei neuroni si associa ad ogni spin un valore casuale, quindi si
passa alla fase di evoluzione della rete, seguendo il flusso temporale dato dal sistema di
equazioni differenziali (5.9). Per la soluzione del sistema si e’ usato il metodo di Eulero
esplicito (ref. [44]): il metodo di Eulero esplicito fa parte di una classe di metodi di
approssimazione di equazioni differenziali, i metodi lineari a passi (LMN, linear
multistep methods). Esso consiste nell’approssimare il valore della derivata prima
dell’equazione differenziale con il rapporto incrementale della funzione stessa.
La ricerca della soluzione prosegue fino a che non viene raggiunta la condizione di
terminazione:
1
N up
 v t  t   v t   0.005
i
o
i
(5.11)
i
Poiché Nup rappresenta il numero di neuroni accesi, la condizione pone un limite alla
variazione media dello stato dei neuroni appartenenti ad un settore. Per limitare
comunque i tempi di esecuzione, si impone un limite al numero di cicli di
aggiornamento da eseguire, anche se questo non permette il raggiungimento della
condizione di terminazione.
5.2.5 Uscita della rete
Al termine della fase di ricerca dello stato stabile della rete corrsipondente al minimo
globale, l’attivazione di quasi tutti i neuroni ha raggiunto il valore asintotico di 0 o 1
(fig. 5.6); per i rimanenti, si applica una semplice procedura di decisione: se
l’attivazione supera 0.5, al neurone viene assegnato lo stato 1, altrimenti 0.
5.2 Il lavoro sul MonteCarlo
75
vi
epoca
Fig. 5.6 Evoluzione dello stato dei neuroni
A questo punto, a partire dall'insieme di tutti i neuroni accesi, vengono individuati i
cammini: per cammino si intende una catena continua di neuroni accesi che condividono
un estremo. Dai cammini vengono estratti i candidati, ovvero l’insieme dei punti che
appartengono ai neuroni dei singoli cammini. Se la scelta della funzione energia è valida
e la determinazione dei parametri è stata effettuata in maniera corretta, i candidati
dovrebbero individuare le tracce presenti nell’evento.
5.2.6 Determinazione dei parametri liberi
Affinché il sistema converga in configurazioni che corrispondono a “buone” soluzioni, è
necessario scegliere con molta cura i valori dei parametri ,  e , ed anche della
temperatura T.
y
x
5.2 Il lavoro sul MonteCarlo
76
Fig. 5.7 Soluzione al problema del riconoscimento
(Unità sugli assi arbitrarie).
Il parametro che richiede maggior attenzione è : un valore troppo grande fa sì che un
neurone attivato spenga tutti i neuroni che formano delle biforcazioni a partire da
questo. Il più grosso inconveniente è che spesso, se  è troppo grande, si formano due
cammini a zig-zag invece di due tracce vicine e parallele, quando un neurone
“sbagliato” viene attivato nella prima fase della dinamica. La determinazione di  e  è
meno critica, ma comunque importante per ottenere buoni risultati:  determina il
rapporto fra la forza positiva delle connessioni in avanti ed il piccolo valore inibitorio di
quelle fra neuroni con direzioni troppo diverse; , invece, determina quanto deve essere
stringente la condizione di avere linee corte.
La temperatura ha due funzioni principali, entrambe legate all’aggiornamento stocastico
della configurazione della rete. Il valore di T determina la velocità di convergenza, cioè
la velocità con cui il valore dell’attivazione dei neuroni raggiunge il valore asintotico 0
o 1, e quindi, in conclusione, la rapidità delle prestazioni dell'algoritmo. D’altra parte,
con un valore troppo basso della temperatura è probabile che la rete resti intrappolata in
un minimo locale dell'energia, mentre valori più alti aumentano la probabilità di
sfuggire da questi minimi. Comunque esiste sempre un valore ottimale della
temperatura per cui il salto energetico permesso è tale che, per tempi di evoluzione
sufficientemente lunghi, la rete può sfuggire a qualunque minimo locale, ma resta
intrappolata in quello globale.
5.3 Messa a punto dell’algoritmo sui dati reali
77
5.3 Messa a punto dell’algoritmo sui dati reali
Dopo il lavoro sul MonteCarlo, che ha dato eccellenti risultati dopo un lavoro non
eccessivamente complesso, si e’ provato ad estendere il metodo ai dati reali. Questa
estensione e’ la parte piu’ complessa dell’approccio e sono stati necessari parecchi
raffinamenti per tener conto del rumore e della diffusione multipla.
5.3.1 I dati dell’analisi
La prima operazione necessaria è la determinazione dei punti su cui eseguire il
riconoscimento, determinazione che segue un approccio abbastanza diverso nel caso
degli hits della TEC e dei clusters di SMD.
REL3 esegue, per ogni evento, la conversione dei segnali indotti sugli anodi della TEC
in coordinate globali. È quindi sufficiente leggere dalle banche dati dell’evento le
coordinate nella proiezione XY dei due possibili hit assegnati ad ogni filo colpito (in
y
questa fase è impossibile
risolvere le ambiguità destra-sinistra e, quindi, ogni punto
possiede una sua immagine speculare rispetto al piano dei fili anodici).
x
5.3 Messa a punto dell’algoritmo sui dati reali
78
Fig. 5.7 Esempio di evento reale.
(Unità sugli assi arbitrarie).
La procedura per l’estrazione di punti nella proiezione XY a partire dai clusters di SMD
è più complessa, a causa dei problemi di allineamento relativo di SMD con la TEC e
della correlazione fra informazioni r e z. I clusters di un evento vengono memorizzati
sotto la forma delle coordinate globali degli estremi della striscia di segnale massimo.
Per ottenere punti XY utilizzabili nell’algoritmo è necessario calcolare l’intersezione
delle strisce r e z di uno stesso ladder, creando così punti spaziali. Questo
procedimento porta alcuni problemi che verranno discussi più ampiamente in seguito:
un aumento dei punti grezzi dovuto al procedimento combinatoriale di determinazione,
e la perdita del punto nel caso in cui uno dei due clusters r o z sia assente.
5.3.2 Definizione dei neuroni per gli eventi reali
La definizione dei neuroni ricalca, come procedimento, quella eseguita sul MonteCarlo,
ma vari aspetti connessi ai dati reali hanno richiesto la modifica delle condizioni di
definizione.
La TEC presenta varie regioni in cui i fili anodici sono danneggiati e non forniscono,
quindi, alcun segnale del passaggio delle particelle (si vedano i particolari di fig. 5.7).
Per permettere alle tracce di superare queste regioni di “vuoto”, è stata aumentata la
lunghezza dei neuroni definiti, in modo tale che l’eventuale mancanza di uno o due
punti di segnale non causasse la segmentazione della traccia.
La risoluzione finita del rivelatore reale e gli effetti di diffusione multipla causano uno
“spostamento” dei punti dalla direzione ideale della traiettoria della particella. Per
superare questo inconveniente è stato necessario aumentare i limiti di definizione dei
neuroni sull’angolo .
5.3 Messa a punto dell’algoritmo sui dati reali
79
Le condizioni finali per la definizione dei neuroni sono, quindi, le seguenti:

SMD. Vengono definiti i neuroni che collegano tutti i punti dello strato interno con
quelli dello strato esterno se <0.15 rad.

SMD-TEC interna. I neuroni collegano tutti i punti di SMD con quelli dati dai primi
3 fili della TEC interna se <0.3 rad.

TEC interna. I neuroni collegano tutte le coppie di punti tali che l 3 fili e <0.3
rad.

TEC interna –TEC esterna. I neuroni collegano i punti dati dagli ultimi 3 fili della
TEC interna con quelli dati dai primi 3 fili della TEC esterna <0.5 rad.

TEC esterna. I neuroni collegano tutte le coppie di punti tali che l 3 fili e <1 rad.
5.3.3 La matrice di connessione
La definizione dei pesi di connessione vista in eq. (5.6),(5.7) è uno degli aspetti del
funzionamento della rete che ha richiesto le modifiche più accurate nel passaggio da
MonteCarlo senza rumore e senza diffusione multipla a dati reali. Per investigare
l’effetto di ogni modifica apportata, è stato necessario controllare visivamente la qualità
delle risposte fornite dalla rete al problema del riconoscimento su una vasta casistica di
eventi reali.
Mentre il termine di controllo delle biforcazioni si è dimostrato efficiente anche sui dati
reali, è stato necessario aggiungere il fattore di modulazione del peso legato alla
lunghezza dei neuroni connessi anche nei settori interni, nelle regioni della TEC interna.
La forma troppo semplificata della f() si è dimostrata inadeguata: lo “spostamento” dei
punti dalla loro posizione “vera”, dovuto alla risoluzione finita del rivelatore, ha
richiesto un allargamento della finestra di definizione positiva del peso e una forma
5.3 Messa a punto dell’algoritmo sui dati reali
80
smussata della funzione f(). In questo modo si è riusciti a valutare correttamente
l’allineamento dei punti su anodi consecutivi. Anche l’alto numero di punti di rumore su
SMD, dovuto al fondo combinatoriale prodotto dalla procedura per la definizione di
punti bidimensionale sul rivelatore di microvertice ha richiesto una modifica della parte
angolare del peso. La forma a gradino della f() non era in grado discriminare fra due o
più punti la cui distanza dalla direzione della traccia è dell’ordine di qualche decina di
micron.
La forma funzionale che si è dimostrata più adeguata alla risoluzione di questo tipo di
problemi, e che ha dato i risultati più soddisfacenti sia per i settori interni che per quelli
esterni è:
     


f    e
 01
.
2
cos  0.98
altrimenti
(5.11)
dove =0.1 rad2 e  ha lo stesso significato che nella formulazione precedente. Anche in
questo caso viene favorita l’accensione di neuroni con direzioni simili e vengono rese
inibitorie le connessioni fra neuroni con direzioni troppo diverse per appartenere alla
stessa traccia. La larghezza della finestra positiva del peso, data dalla condizione
cos()<-0.98, è stata scelta in modo tale che i segmenti consecutivi di una traccia
formino angoli sempre all’interno di questa finestra, anche tenendo conto della
risoluzione finita del rivelatore.
5.3.4 Dinamica e parametri liberi
La dinamica della rete non ha subito alcuna modifica, poiché la procedura utilizzata è
del tutto generale e si applica a vari problemi di ottimizzazione.
5.3 Messa a punto dell’algoritmo sui dati reali
81
Settori interni
Settori esterni

3
4

2.5
4.5

0.3
0.5
T
1
1
Tab. 5.1 I parametri liberi della rete regolati sui dati reali.
La modifica della matrice di connessione ha portato, invece, come conseguenza, la
necessità di una nuova regolazione fine sui parametri liberi del sistema. Le prove sono
state effettuate, però, con un criterio diverso rispetto a quanto fatto per il MonteCarlo:
non avendo a disposizione i dati “veri” delle tracce, si è verificato l’accordo fra il
programma standard di ricostruzione REL3 ed il nuovo algoritmo qui proposto in base
alla distribuzione dei parametri fisici significativi ottenibili dalle tracce ricostruite.
Ancora una volta le cause di eventuali discordanze sono state investigate controllando
“visivamente” le soluzioni al problema del riconoscimento proposte dalla rete,
utilizzando le eccezionali capacita’ delle reti neurali biologiche.
5.4 L’uscita dell’algoritmo
Per i dati reali non è più sufficiente determinare le tracce presenti nell’evento con la
semplice procedura descritta per il MonteCarlo ideale, a causa di una serie di difficoltà
legate ai dati reali. Queste difficoltà verranno analizzate nelle sezioni seguenti, insieme
ai metodi messi a punto per superarle.
5.4 L’uscita dell’algoritmo
82
5.4.1 Attaccamento dei candidati
Si è visto, nel paragrafo sul MonteCarlo (§ 5.2.5), come l’uscita della rete fornisca
direttamente le tracce complete senza bisogno di nessun altra operazione. Questo non è
più vero in generale per i dati reali, perché può succedere, in alcuni casi, che una traccia
sia divisa in due o più pezzi non connessi fra loro. Ciò può avvenire per vari motivi:

la presenza di un alto numero di punti di rumore può rendere difficile
l’individuazione del cammino corretto da seguire;

a causa di inefficienze del rivelatore il numero di segnali mancanti su anodi
consecutivi può superare il limite di tre fili imposto nella definizione dei neuroni (ad
esempio, in un settore della TEC esterna si hanno 4 fili consecutivi non
funzionanti);

la rete può essere rimasta intrappolata in un minimo locale.
Si potrebbe tentare di risolvere questi problemi direttamente al livello del
funzionamento della rete, ma questo sarebbe penalizzante in termini di velocità della
prestazioni e, in alcuni casi, anche della qualità delle soluzioni. Per superare regioni in
cui sono assenti i segnali di 4 anodi consecutivi, sarebbe necessario un aumento della
lunghezza massima dei neuroni, con una conseguente crescita del numero di neuroni e
del tempo di esecuzione ed anche della probabilità che punti appartenenti ad una traccia
vengano “saltati”.
È stata messa a punto perciò una procedura per il ricollegamento delle varie parti in cui
le tracce possono essere separate, che nel seguito verranno chiamate segmenti di traccia.
Innanzitutto vengono processati i segmenti di traccia forniti dalla rete, ottenedo da
questi tre grandezze: il raggio del punto più interno (rin), il raggio del punto più esterno
(rext) e l’angolo azimutale  del segmento. In seguito, seguendo un ordine crescente in
5.4 L’uscita dell’algoritmo
83
rin, si considera ogni segmento di traccia come possibile elemento iniziale di una traccia
più lunga, e si calcola una piccola regione angolare attorno a questo segmento. Fra tutti i
segmenti situati all’interno di questa regione si selezionano quelli per cui:
in
rinsucc  rext
(5.12)
dove rextin è il raggio del punto più esterno del candidato iniziale e rinsucc è il raggio del
punto più esterno del nuovo segmento considerato, e tali che:
nhin  nhsucc  N H max
(5.13)
dove nhin è il numero di punti assegnati al candidato iniziale, nhsucc quello dei punti
assegnati al nuovo candidato considerato e NHmax è massimo numero di punti attribuibili
ad una traccia nel rivelatore tracciante (65, 62 della TEC e 3 di SMD). Il segmento che
combinato con quello iniziale dà il 2 migliore viene assunto come prolungamento della
traccia, quindi si eliminano dall’insieme di analisi i due segmenti costituenti e si
sostituiscono con il nuovo candidato ottenuto dall’unione dei due. Il procedimento
prosegue finché non è possibile prolungare più nessun segmento.
5.4.2 Risoluzione delle ambiguità su SMD
In § 5.3.1 si è introdotto il problema del fondo combinatoriale di rumore sui punti di
SMD. Questo aspetto non è presente nel programma di ricostruzione standard di L3:
poiché nella fase di ricollegamento dei punti di SMD sono già disponibili le
informazioni nel piano r e in quello sz, REL3 procede all’assegnazione dei segnali
delle strisce alle tracce, senza dover ricostruire punti spaziali dai segnali r e z.
Qui, invece, si esegue il riconoscimento nel piano XY, prevedendo, come prima fase, la
ricostruzione di punti nelle coordinate xy. La ricostruzione di punti xy dai segnali indotti
sulle strisce di SMD presenta vari problemi, dovuti all’allineamento di SMD con la
5.4 L’uscita dell’algoritmo
84
TEC e alla correlazione fra informazione r e informazione z. Entrambi questi aspetti
impediscono l’utilizzo della striscia r come segnale nel piano XY: innanzitutto, SMD
non è perfettamente ortogonale alla proiezione XY e, soprattutto, gli strati esterni
presentano la rotazione stereo di 2o rispetto a quelli interni. Per poter, quindi, avere a
disposizioni “buoni” punti nelle coordinate XY è necessario prima ricostruire i punti
spaziali dalla combinazione di strisce r e z appartenenti allo stesso ladder e poi
proiettare questi punti sul piano XY. In questo modo il numero di punti forniti da SMD
aumenta considerevolmente: se su uno stesso ladder sono presenti n1 cluster r e n2
cluster z, vengono ricostruiti n1*n2 punti; in particolare, per ogni striscia r si ottengono
n2 punti. I punti provenienti da una stessa striscia r, e da strisce z diverse, possono
essere molto vicini, fino a raggiungere distanze dell’ordine della precisione intrinseca
del rivelatore al silicio: l’assegnazione del punto appropriato ad una traccia è
estremamente problematico.
In questi casi è possibile che la rete assegni ai candidati a traccia un punto di SMD
costituito dalla striscia r “vera”, ma da una striscia z di rumore. Poiché nel sistema qui
proposto il riconoscimento viene effettuato senza prendere in considerazione
l’informazione z, è necessario un criterio per stabilire se i punti di SMD assegnati sono
corretti oppure se sono necessari degli aggiustamenti in base alla sola informazione nel
piano trasverso.
Per ogni candidato si raccolgono, dall’insieme di punti su cui è stato effettuato il
riconoscimento, le ambiguità dei punti di SMD attaccati al candidato. Per ambiguità di
un punto di SMD si intendono tutti i punti spaziali ottenuti dallo stesso cluster r e da
cluster z diversi.. A questo punto si effettua il fit del candidato sostituendo
5.4 L’uscita dell’algoritmo
85
iterativamente ogni punto di SMD attaccato al candidato con una sua possibile
ambiguità. Dopo che sono state tentate tutte le possibili combinazioni si sceglie come
nuovo candidato da sostituire, eventualmente, al precedente quello per cui il fit dà il 2
migliore.
5.4.3 Controllo sulla correttezza dei punti di SMD
Un aspetto del metodo utilizzato per la ricostruzione dei punti di segnale di SMD a
partire dai cluster che influenza in maniera determinante l’attaccamento dei punti di
SMD alle tracce è la possibile assenza di uno dei due cluster “veri” (quello r o quello
z) generati dalla particella carica che attraversa il rivelatore a causa di inefficienze di
quest’ultimo.

Assenza del cluster r. Quando il programma di ricostruzione standard REL3 non
trova un cluster r nell’intervallo di predizione dato dal prolungamento della traccia
TEC sullo strato corrispondente di SMD, non si assegna nessun punto alla traccia su
quello strato. Analogamente, in caso di assenza di un cluster r vicino alla
traiettoria della particella, anche l’algoritmo qui proposto non troverà un punto
ricostruito da assegnare alla traccia.

Assenza del cluster z. Quando REL3 non trova nessun cluster z nell’intervallo di
predizione, viene comunque assegnato un punto di SMD alla traccia assumendo
come segnale z proprio la predizione data dal prolungamento della traccia TEC. Per
l’algoritmo messo a punto, invece, il problema è più sottile: vista la particolare
procedura utilizzata per la ricostruzione di punti su SMD, è possibile che il cluster
r “vero” venga combinato con strisce z appartenenti allo stesso ladder dovute a
rumore o ad altre particelle. In questo caso può accadere che i punti siano
5.4 L’uscita dell’algoritmo
86
sufficientemente vicini alla traiettoria della particella da far sì che i pesi di
connessione dei neuroni costituiti a partire da questi punti con gli altri primi vicini
siano positivi, causando un attaccamento del punto spurio alla traccia.
Il problema non può essere risolto a livello della rete, ad esempio riducendo la finestra
di definizione positiva dei pesi, per non impedire a tracce curve di essere ricollegate ad
SMD. È stato necessario, quindi, determinare un criterio che permettesse di scartare i
punti di questo tipo attaccati alla traccia.
Benché la loro distanza dalla traiettoria della particella non sia sufficiente da avere
connessioni negative, l’influenza di questi punti è comunque determinante nella qualità
del fit della traccia, dato l’alto peso statistico dei punti di SMD in questa operazione.
Supponendo che i punti della TEC attaccati alla traccia dalla rete siano corretti, poiché
questa è una regione in cui il riconoscimento è più agevole, si può cercare di
determinare i punti errati di SMD attaccati ad una traccia valutando il cambiamento
della qualità del fit con o senza il punto considerato. L’estimatore utilizzato per
effettuare questa valutazione è il numero di punti che vengono attribuiti alla traccia
dopo il fit: se eliminando il punto di SMD il numero di punti attaccati alla traccia
aumenta di 5 o più punti, il punto di SMD viene rimosso dall’insieme di punti del
candidato.
Capitolo 6
Analisi dei risultati
In questo capitolo si presentano le prestazioni del nuovo metodo di riconoscimento di
tracce su vari tipi di eventi reali, e si confrontano i principali risultati fisici ottenuti con
quelli prodotti dal programma di ricostruzione standard REL3.
6.1 Criteri di selezione delle tracce
Nei vari paragrafi che seguono, e che presentano diversi risultati ottenuti con il nuovo
algoritmo proposto per il riconoscimento di tracce, si considerano ben ricostruite (sia
per il nuovo algoritmo che per l’algoritmo standard REL3) le tracce che soddisfano,
dopo il fit, ai seguenti requisiti:

Almeno 10 punti nei settori esterni della TEC. Questo taglio serve per eliminare
dall’insieme di tracce ricostruite quelle di bassa qualità.

Almeno 1 punto nei settori interni della TEC. Questa condizione è particolarmente
importante per il nuovo algoritmo proposto: non essendo implementata alcuna
procedura di utilizzo dei fili di rimozione dell’ambiguità, la continuità della traccia
fra TEC interna e TEC esterna è l’unico mezzo per eliminare le tracce riflesse (§
3.3.2).
6.1 Criteri di selezione delle tracce

88
DCA<10 mm. In questo modo si eliminano tutte le tracce che non hanno interesse
nell’analisi fisica perché prodotte in regioni troppo distanti dal vertice primario di
interazione.
Inoltre è stato imposto un taglio sul thrust dell’evento. Il modulo del thrust di un evento
è definito come:
T  max
n
p
i

i
i
n
(6.1)
p
i
dove la sommatoria viene effettuata su tutte le particelle dell’evento, pi è l’impulso delle
particelle, ed n un versore. Il versore n per cui si ottiene il massimo dell’espressione
definisce il verso del thrust.
Negli eventi a due tracce in cui le due particelle hanno versi opposti (back to back),
come gli eventi e+e- Z0 e+e-,+-, la direzione del thrust individua anche la
direzione delle due tracce. Imponendo quindi la condizione:
costhrust   0.8
(6.2)
dove thrust è l’angolo formato da T con l’asse z, si selezionano solo gli eventi in cui
entrambe le tracce attraversano tutta la TEC e non le camere traccianti in avanti.
6.2 Eventi dileptonici
La prima categoria di eventi analizzati comprende gli eventi dileptonici al picco della
Z0, cioè gli eventi e+e- e+e- ed e+e- +- ad un’energia nel centro di massa di
circa 91 GeV. Un attento confronto fra le prestazioni del nuovo algoritmo e di REL3 su
questa categoria di eventi è molto importante: gli eventi dileptonici sono quelli utilizzati
6.2 Eventi dileptonici
89
per la calibrazione e l’allineamento dei rivelatori, perché su questi eventi REL3 fornisce
le migliori prestazioni in termini di risoluzione dei parametri delle tracce.
I 3000 eventi analizzati in questa sezione sono stati selezionati sui periodi 1996a e
1997a di luminosità di LEP.
Per selezionare gli eventi e+e- +- sono state imposte le seguenti condizioni:

Rivelazione di due muoni da parte delle camere a muoni.

ptmuon>40 GeV. Il taglio sull’impulso trasverso dei muoni (ptmuon ) serve per
selezionare muoni sufficientemente energetici da poter provenire da un decadimento
della Z0.

DCA<200 mm. Per scartare i muoni dei raggi cosmici, che, non essendo provenienti
dal vertice di interazione, hanno una DCA grande.

TOF<2 ms. Anche il taglio sul tempo di volo (TOF, Time of Flight) serve per non
selezionare i muoni cosmici: i raggi cosmici non sono, in generale, sincroni con lo
scontro dei fasci.
Per selezionare gli eventi e+e- e+e- sono stati effettuati i seguenti tagli:

Presenza di almeno due clusters nel calorimetro elettromagnetico.

Ebgo>40 GeV. Si impone che i due clusters più energetici nel calorimetro
elettromagnetico abbiano energie (Ebgo è l’energia rilasciata nel calorimetro
elettromagnetico) superiori a 40 GeV: in questo caso le due particelle possono
provenire dal decadimento della Z0.

E9/E25>0.99. Con E9/E25 si intende il rapporto fra l’energia rilasciata dalla particella
nei 9 cristalli più energetici attorno al cluster e quella rilasciata nei 25 più energetici.
Questa condizione serve per assicurarsi che le due particelle siano due leptoni: i
6.2 Eventi dileptonici
90
leptoni, infatti, generano nel calorimetro elettromagnetico sciami più sottili che non
gli adroni.
La prima quantità presa in considerazione per valutare la consistenza del sistema di
riconoscimento basato sulle reti neurali è il numero di tracce ricostruite per evento.
a)
b)
Fig. 6.1. Numero di tracce ricostruite per evento
a)
rete; b)
REL3
I risultati ottenuti dai due metodi (fig. 6.1) sono completamente compatibili. Il maggior
numero di eventi a due tracce ottenuto dal programma di ricostruzione standard REL3 è
compensato, nell’uscita della rete, dagli eventi con tre tracce ricostruite. Questo accade
perché nell’algoritmo non è stata implementata nessuna procedura per la rimozione
dell’ambiguità e alcune tracce riflesse possono superare il taglio di qualità imposto.
La differenza più significativa fra i risultati ottenuti dai due algoritmi si ha sui punti di
SMD assegnati alle tracce (fig. 6.2).
Affinché il confronto fra i due metodi fosse significativo, questo è stato effettuato sui
punti spaziali. Per il metodo sviluppato nel presente lavoro la definizione di punti
spaziali di SMD è stata data in § 5.3.1; per REL3 si considera assegnato alla traccia un
6.2 Eventi dileptonici
91
punto spaziale di SMD quando a questa sono assegnati un cluster r ed un cluster z
sullo stesso strato. Da un tale confronto risulta evidente l’aumento di efficienza del
nuovo metodo rispetto a REL3.
Su un campione di circa 6000 tracce ricostruite, l’algoritmo basato sulla rete ha solo 451
tracce non ricollegate ad SMD, contro le 984 di REL3 (tab. 6.1): REL3 ricostruisce il
15.9% di tracce senza punti di SMD, mentre la rete solo il 7.5%.
Fig. 6.2 Numero di punti di SMD assegnati alle tracce
Tratto continuo: REL3, Punti: Rete.
SMD
N hits
0
1
2
3
Ntracce
REL3
984
2008
2986
0
5978
RETE
451
2280
2973
292
5996
Tab. 6.1 Numero di punti di SMD assegnati alle tracce
Il diverso numero di tracce totali è dovuto alle tracce riflesse
Una approssimativa misura dell’efficienza dei metodi può essere definita come:
6.2 Eventi dileptonici
 SMD 
92
numero di tracce con punti di
numero di tracce totali
SMD
(6.3)
REL3
RETE
ottenendo  SMD
e  SMD
 92.6% , con un guadagno di circa il 10%.
 835%
.
Il valore medio del numero di punti assegnati ad una traccia passa da <Nsmd>REL3=1.33 a
<Nsmd>RETE=1.52, e si ottiene anche un significativo numero di tracce con tre punti di
SMD (nelle regioni di sovrapposizione dei ladder).
Una delle conseguenze dirette dell’aumento dell’efficienza su SMD è il miglioramento
atteso sulla risoluzione dell’estrapolazione al vertice delle tracce. La formula per
calcolare la risoluzione attesa è la seguente:
 att  f TEC TEC  f
SMD
 SMD
(6.4)
dove fSMD è la frazione di tracce con almeno un punto di SMD, fTEC la frazione di tracce
formata solo da punti TEC, TEC=100 m la risoluzione teorica della TEC
sull’estrapolazione al vertice delle tracce e SMD=30 m quella di SMD.
Fig. 6.3 Confronto sulla distribuzione della DCA (asse x in m).
Tratto continuo: REL3, Punti: Rete.
6.2 Eventi dileptonici
93
Dai risultati in tab. 6.1 si ottiene:
 attREL 3  40m
 attRETE  37m
(6.5)
con un miglioramento, quindi, di circa 3 m.
Sulla sola DCA non è possibile evidenziare i miglioramenti sulla risoluzione dovuti ad
un maggior numero di punti di SMD (fig. 6.3): la risoluzione è dominata dall’incertezza
sulla posizione “vera” del vertice di interazione, a causa delle dimensioni dei fasci di
particelle che si scontrano. L’unico confronto significativo su questa grandezza sta,
quindi, nel confrontare l’accordo delle due distribuzioni.
Fig. 6.4 Fit della distanza mancante (asse x in m).
Per eliminare la dipendenza della risoluzione dalle dimensioni del fascio si ricorre alla
distribuzione della distanza mancante (miss distance, § 3.4). Infatti, dalla eq. (3.5) qui
riportata:
Do 1  Do 2  Dv1  X v cos  Yv sen   Dv 2  X v cos     Yv sen    
 Dv1  Dv 2
si ottiene direttamente:
(3.5)
6.2 Eventi dileptonici
94
 int 
 missdis
(6.6)
2
dove int è la risoluzione intrinseca del rivelatore sull’estrapolazione al vertice e missdis
è la risoluzione sulla distanza mancante.
Il fit a due gaussiane sulla distribuzione di X missdis
2 , dove Xmissdis è la distanza
mancante, è riportato in fig. 6.4.
RETE
REL3
1 (in m)
0.02590.0016
0.0270.002
2 (in m)
0.0640.006
0.070.02
A1/A2
97/17
120/10
Tab. 6.2 Risultati del fit sulla distanza mancante
i, standard deviation della i-esima gaussiana
A1/A2, rapporto fra le aree delle gaussiane
I risultati del fit (tab. 6.2) confermano il miglioramento nella risoluzione intrinseca, ma
mostrano un aumento del numero di eventi nelle code della distribuzione. Questo effetto
può essere attribuito alla non completa soluzione del problema esposto in § 5.4.2.
L’assegnazione alle tracce di punti di SMD provenienti da clusters z “errati” può portare
ad una non corretta misura dell’estrapolazione al vertice della traccia.
6.3 Decadimento del Tau
L’aumento di efficienza su SMD risulta particolarmente importante in tutte le analisi
che richiedono la misura della vita media delle particelle a partire dai prodotti di
decadimento. Come esempio si riporta in questa sezione la misura della vita media del
leptone tau. Per rendere più chiara l’importanza dell’aumento di efficienza su SMD, si
6.3 Decadimenti del Tau
95
riporta la descrizione di una tecnica di misura della vita media utilizzata a LEP negli
eventi e+e- +-.
6.3.1 Differenza delle DCA
Tutte le tecniche per misurare la vita media del tau utilizzano i prodotti di decadimento
del tau per misurare la lunghezza del cammino del tau nel laboratorio, L. La lunghezza
di decadimento media è collegata alla vita media del tau, t, dalla relazione:
L  ct 
(6.7)
dove  è il fattore di spinta relativistica del tau visto nel laboratorio e c è la velocità
della luce.
Nel metodo che segue, si utilizzano i decadimenti del tau in una singola particella
carica: il rapporto di decadimento del tau in una singola particella carica è circa l’85%,
ed è perciò statisticamente molto conveniente utilizzare gli stati finali ad un ramo nella
misura della vita media del tau. La distanza di massimo avvicinamento della traccia
ricostruita alla origine del tau, determinata nel piano perpendicolare all’asse del fascio, è
proporzionale alla lunghezza di decadimento e contiene perciò informazioni sulla vita
media. Questa distanza, chiamata, come si è visto, DCA o parametro di impatto , è
collegata alla lunghezza di decadimento del tau L, all’angolo polare del tau  e
all’angolo  tra la traccia e la direzione del tau, dalla relazione (fig. 6.5):
  L sen  sen 
(6.8)
Il parametro di impatto non è però utilizzabile direttamente, perché la misura soffre di
due limitazioni: il punto di produzione del tau (il vertice vero di interazione) è incognito
ed anche la direzione del tau originario, e quindi l’angolo  è incognita.
6.3 Decadimenti del Tau
96
Per superare queste limitazioni si utilizza il metodo della differenza dei parametri di
impatto. Seguendo lo stesso procedimento che porta alla eq. (3.5) si ottiene, infatti:
D  1  2  sen   L1 sen 1  L2 sen 2   2 X v sen   Yv cos 
(6.9)
dove i, Li, i, rappresentano rispettivamente il parametro di impatto, la lunghezza di
decadimento e l’angolo dei due tau dell’evento, Xv e Yv le coordinate del vertice vero di
interazione,  l’angolo azimutale dei due tau, assunto uguale per le due tracce, e 
l’angolo polare del tau.
Fig. 6.5 Lunghezza di decadimento e parametro di impatto
Poiché i prodotti di decadimento del tau seguono la direzione iniziale del tau entro circa
2o, si può approssimare sen    . Mediando sulla lunghezza di decadimento, si
ottiene la seguente relazione finale:
6.3 Decadimenti del Tau
D  1  2  L sen   1   2   L sen  1  2   
97
(6.10)
dove i è l’angolo azimutale delle tracce, mentre l’angolo azimutale del tau si cancella.
Perciò la differenza dei parametri di impatto media è proporzionale alla proiezione della
acoplanarità sen  1  2    , con una costante di proporzionalità <L> che è legata
alla vita media del tau. Questo metodo ha una ridotta dipendenza dagli angoli di
decadimento incogniti del tau, mentre (1-2) può essere misurato con una incertezza
minore di 1 mrad.
6.3.2 Selezione degli eventi
Gli eventi e+e- +- selezionati sono eventi al picco della Z0, cioè ad un’energia del
centro di massa di circa 91 GeV, appartenenti ai periodi 1996a e 1997a di presa dati di
LEP.
I tagli utilizzati per selezionare gli eventi sono:

Njet2. Questo taglio viene effettuato perché gli eventi a due tau presentano almeno
due getti, ovvero quelli relativi ai prodotti di decadimento dei tau.

Ejet1>7 GeV. Imponendo un limite inferiore all’energia del getto più energetico
(Ejet1), si elimina il cosiddetto fondo gamma-gamma, che produce getti poco
energetici.

Ejet2>3 GeV. Questo taglio ha la stessa funzione del precedente.

Evis<0.8Ebeam. Si impone che l’energia visibile (Evis) sia inferiore all’energia dei
fasci (Ebeam) perché, decadendo, i tau emettono anche neutrini, che non possono
essere rivelati.
6.3 Decadimenti del Tau

98
Nclem<13. Il taglio sul numero dei clusters del calorimetro elettromagnetico (Nclem)
impedisce che eventi adronici riescano a superare la selezione.

2Ntracce6. In questo modo si caratterizza la topologia degli eventi a due tau, perché
i tau possono decadere, al massimo, in tre particelle cariche.
6.3.3 La misura
Fra tutti gli eventi a due tau selezionati e ricostruiti, vengono poi scelti gli eventi a due
tracce, quelli cioè in cui entrambi i tau sono decaduti in un’unica particella carica.
Poiché l’analisi che deve essere effettuata dipende in maniera stringente dalla qualità
delle tracce ricostruite, le due tracce presenti nell’evento devono superare ulteriori
condizioni oltre quelle presentate in § 6.1. Le condizioni imposte sulle tracce sono le
seguenti:

Almeno 40 punti nella TEC.

Almeno un punto su SMD.
I due tagli, in particolare la presenza di un punto su SMD, assicurano un’ottima
ricostruzione delle tracce, in particolare in termini di risoluzione sui parametri
importanti ai fini dell’analisi, cioè l’angolo azimutale  ed il parametro d’impatto.
La condizione sul ricollegamento delle tracce su SMD rende significativo l’aumento di
efficienza su SMD del sistema di riconoscimento sviluppato nel presente lavoro. Sullo
stesso campione di eventi, infatti, REL3 ottiene 1800 tracce utili per l’analisi, mentre la
rete ne ottiene 2200.
Riportando in grafico (fig. 6.6) la differenza dei parametri di impatto D in funzione
dell’acoplanarità sen  1  2    , è possibile mostrare la relazione lineare attesa.
6.3 Decadimenti del Tau
99
Eseguendo sui dati un fit lineare si ricava il valore del coefficiente angolare della retta
che meglio approssima l’andamento dei dati, cioè:
L  2.257  019
. mm
(6.11)
Il fit è stato eseguito sull’intervallo [-0.14, 0.14] rad. Le barre di errore riportate in fig.
6.6 sono dovute esclusivamente all’errore statistico.
m
rad
Fig. 6.6 Differenza dei parametri di impatto in funzione dell’acoplanarità
Dalla eq. (6.7), con m1.777 GeV e E=Ebeam45.625 GeV, si ottiene:
t  293  25 fs
(6.12)
in completo accordo con la media mondiale ricavata da Review of particle physics della
vita media del tau (ref. [42]):
t  290.0  12
. fs
(6.13)
6.4 Eventi adronici
L’applicazione del sistema di riconoscimento proposto agli eventi adronici al picco
della Z0 (cioè e+e-qq ad un’energia del centro di massa di circa 91 GeV) ha fornito
6.3 Eventi adronici
100
buoni risultati per eventi con, al massimo, una ventina di tracce di particelle cariche. Per
eventi con molteplicità superiore, la qualità delle prestazioni della rete diminuisce
leggermente per vari motivi.
Innanzitutto la densità molto elevata di punti nell’insieme su cui effettuare il
riconoscimento rende necessario un regolazione estremamente fine dei parametri di
funzionamento. A questo scopo andrebbe, quindi, utilizzata una procedura di
“apprendimento generalizzato”, in grado di fornire i valori migliori per i parametri liberi
del sistema, ad esempio l’algoritmo di apprendimento della macchina di Boltzmann (ref.
[14]).
Quando la molteplicità dell’evento diventa elevata, il numero di incroci fra le tracce
diventa un problema non trascurabile nella ricerca della soluzione ottimale al problema
del riconoscimento. In presenza di sovrapposizioni, infatti, la rete non riesce ad
effettuare una scelta sui neuroni da accendere: il numero di neuroni in competizione fra
loro rende necessari tempi di evoluzione troppo lunghi.
Questo problema potrebbe essere risolto con l’estensione del riconoscimento da due a
tre dimensioni. L’utilizzo della coordinata z in fase di definizione ed evoluzione dei
neuroni diminuirebbe considerevolmente il numero di incroci fra le tracce. Inoltre,
potendo utilizzare anche un taglio sulla coordinata z dei punti dei segmenti, oltre che
sulla lunghezza e sull’angolo azimutale, si avrebbe un calo del numero totale dei
neuroni, a vantaggio della velocità di prestazione e della qualità delle risposte.
Un altro problema è il notevole aumento del fondo combinatoriale su SMD: quando
molte tracce attraversano lo stesso ladder il numero di punti spaziali che possono essere
6.3 Eventi adronici
101
ricostruiti a partire dalle strisce diventa elevato. Anche in questo caso risulta difficile,
per la rete, scegliere il punto di SMD migliore da assegnare alla traccia.
Il fondo combinatoriale presente su SMD potrebbe essere ridotto implementando nel
sistema di riconoscimento procedure più raffinate per la definizione dei punti spaziali di
SMD a partire dai clusters. Ad esempio si potrebbe cercare di sfruttare la correlazione
di carica fra i segnali delle strisce su lati opposti dei ladder.