Esempi di deconvoluzione di distribuzioni sperimentali da effetti del

Università degli Studi di Trieste
FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI
Corso di Laurea Triennale in Fisica
Tesi di Laurea Triennale
Esempi di deconvoluzione di
distribuzioni sperimentali da effetti del rivelatore
Candidato:
Relatore:
Alessandro Angioi
Dott. Giuseppe Della Ricca
Matricola SM2000095
Correlatore:
Dott. Vieri Candelise
Anno Accademico 2011-2012
—A Bianca, Maura e Claudia
RINGRAZIAMENTI
Per questa tesi, vorrei innanzitutto ringraziare Giuseppe Della Ricca e Vieri
Candelise per la loro dedizione e la loro pazienza nel lavoro che abbiamo
svolto insieme. Voglio ringraziare anche i miei genitori, ai quali devo tutto,
inclusa l’opportunità di studiare fisica a Trieste, e ringrazio mia sorella per
l’appoggio morale che mi ha fornito durante questi mesi di lavoro per la tesi.
Inoltre mi sento in debito con tutti i professori che ho avuto nell’arco di questa triennale, per la passione verso la fisica e l’insegnamento che ciascuno di
loro ha mostrato. Un ringraziamento anche agli amici ed ai colleghi che ho
trovato a Trieste; credo fermamente che non sarei mai riuscito a concludere
questo corso di studi senza di voi! Infine, ringrazio i miei parenti e tutti
gli amici di famiglia, che mi hanno fatto crescere in un ambiente bizzarro e
variegato, ma soprattutto molto umano e pieno d’affetto.
iii
INDICE
1
introduzione al metodo
1
1.1 Il problema dell’Unfolding
1
1.2 Esempio semplice
1
1.3 Unfolding basato sul teorema di Bayes
1.4 Unfolding SVD
3
2
lhc,
2.1
2.2
2.3
3
validazione ed analisi dati
17
3.1 Descrizione dei dati
17
3.2 Operazioni preliminari all’Unfolding
3.3 Test di validazione
18
3.4 Unfolding dei dati
19
4
cms e fisica dei jet
LHC
9
CMS
11
Fisica dei Jet
14
conclusioni
bibliografia
2
9
17
21
23
v
1
1.1
INTRODUZIONE AL METODO
il problema dell’unfolding
Nella fisica delle alte energie, ci si trova spesso a dover misurare delle distribuzioni che sono in qualche modo distorte da effetti come accettanza limitata o risoluzione finita del rivelatore. Risulta quindi poco sensato confrontare
direttamente le predizioni teoriche con i dati misurati senza prima compiere
qualche studio atto a deconvolvere (to unfold) gli effetti del rivelatore dalla
distribuzione misurata.
Chiamato b il vettore che ha come componente i-esima il numero di
entries dell’i-esimo bin della distribuzione misurata, e chiamato x il vettore
che ha come componente i-esima il rapporto tra l’i-esimo bin della distribuzione soggiacente all’evento che vogliamo misurare e l’i-esimo bin della
distribuzione che il rivelatore dovrebbe misurare secondo una simulazione
Monte Carlo del fenomeno, l’effetto del rivelatore è descritto da una matrice
A, che agisce su x per dare b:
Ax = b.
(1)
dove Aij è il numero di eventi che sono migrati dal j-esimo bin di x all’iesimo bin di b. Sia nE il numero di bin dell’istogramma b e nC il numero
di bin dell’istogramma x; ne consegue che A ∈ CnE ×nC . Si supponga inoltre che nE 6 nC . Questa matrice A viene solitamente trovata attraverso
una simulazione Monte Carlo del processo di misura con il rivelatore, vista
l’estrema difficoltà di trovare un’espressione analitica di essa a causa della
complessità tecnica dei tipici rivelatori.
Si potrebbe pensare che per ottenere x sapendo b ed A si possa calcolare
A−1 e scrivere
x = A−1 b
(2)
il problema però è più complesso di così, per almeno due buone ragioni:
• non esiste alcuna ragione fisica, e nemmeno una ragione statistica, per
la quale in generale debba esistere la matrice A−1 .
• anche nei casi in cui la matrice la matrice A−1 esiste, la sua inversa è
di solito inutile al fine di deconvolvere dagli effetti del rivelatore i dati
misurati; le soluzioni di (1) date da (2) infatti possono essere molto
sensibili a piccole variazioni di b, il quale è affetto da errori statistici.
Per capire meglio quest’ultimo punto, prendiamo in considerazione un esempio tratto da Höcker e Kartvelishvili, 1995, p.5
1.2
esempio semplice
Supponiamo che l’apparato sperimentale sia descritto da una matrice
1 1+ 1−
A=
2 1− 1+
(3)
1
2
introduzione al metodo
è facile intuire qual’è il comportamento di questo rivelatore al variare di :
per = 1 il rivelatore è perfetto; infatti per tale valore di la matrice A
diventa l’identità, quindi x = b, ovvero il rivelatore non distorce minimamente la distribuzione che si cerca. Per quanto riguarda il comportamento
per = 0, invece, il rivelatore è praticamente ”cieco”: supponendo infatti
che la distribuzione incognita sia x = (x1 , x2 ), la distribuzione misurata sarà b = Ax = 21 (x1 + x2 , x1 + x2 ), quindi qualunque fosse la distribuzione
vera degli eventi, il rivelatore misura una distribuzione uniforme.
La matrice A−1 esiste per ogni diverso da zero, e vale
1
1 1 1
1
1 + −1 + 1 −1
−1
=
+
(4)
A =
2 −1 + 1 + 2 1 1
2 −1 1
e quindi, posto b = (b1 , b2 )
b1 − b2 1
b1 + b2 1
−1
x=A b=
+
−1
1
2
2
(5)
Ipotizziamo che la differenza tra b1 e b2 non sia statisticamente rilevante,
ad esempio ponendo (b1 − b2 )2 6 (b1 + b2 ), e quindi che in un processo di
misura b1 − b2 sia effettivamente un numero casuale. Allora, la soluzione
(3) del sistema è la somma di una parte casuale ed una statisticamente significativa. Per valori di non troppo piccoli, il primo termine è abbastanza
innocuo; prendendo però un valore di sufficientemente piccolo si può far
dominare il primo termine sul secondo, e ciò porta ad avere una soluzione
x che non ha più nulla a che fare col fenomeno che si sta studiando.
Analizzeremo due modi per superare questo problema: uno basato sul
teorema di Bayes (G.D’Agostini, 1994) e uno basato sulla decomposizione
SVD (Höcker e Kartvelishvili, 1995)
1.3
unfolding basato sul teorema di bayes
Si consideri la distribuzione di eventi che soggiace al fenomeno che si sta
studiando (che chiameremo distribuzione ”vera”) come un insieme di cause
{Cj , j = 1, . . . , nC } che può produrre un insieme di effetti {Ei , i = 1, . . . , nE }.
Poniamo come i-esimo effetto l’osservazione di un certo numero di eventi
nell’i-esimo bin dell’istogramma b dei dati misurati. Applicando il teorema
di Bayes, si trova che
P(Ei |Cj )P(Cj )
P(Cj |Ei ) = PnC
l=1 P(Ei |Cl )P(Ci )
(6)
dove P(A|B) è la probabilità di A condizionata dal fatto che si è verificato B.
Questa formula a prima vista può apparire non utilizzabile poiché richiede
una conoscenza a priori di P(Cj ); tuttavia si può far partire il processo di
inferenza da una distribuzione a priori uniforme, e aggiornarla a posteriori
attraverso la formula di Bayes dopo l’osservazione.
Nella formula di Bayes si vede anche che la probabilità condizionata a
0 ; quest’ultima probabilità si
posteriori P(Cj |Ei ) dipende da P(Ei |Cj ) = Aij
può calcolare a partire dalla matrice A precedentemente definita normalizzandone a 1 i vettori riga.1
1 Si ricordi che la j-esima componente della i-esima riga di A rappresenta il numero di eventi
misurati nell’i-esimo bin che nella distribuzione vera erano nel j-esimo; normalizzando la i0 sia la probabilità che un evento
esima riga di A si ottiene quindi una matrice A 0 tale che Aij
nel bin i della distribuzione misurata fosse originariamente nel bin j della distribuzione vera.
1.4 unfolding svd
P nE
È importante notare che 0 < εj =
i=1 P(Ei |Cj ) 6 1: non è necessario che un evento venga misurato. La causa di ciò è che i rivelatori reali
hanno un’accettanza limitata. Il termine εj indica quindi l’efficienza che si
ha nel rilevare la causa Cj in uno qualsiasi degli eventi misurati, ovvero
la probabilità che la causa Cj sia misurata dal rivelatore, anche se nel bin
errato.
Dopo un numero Nobs di osservazioni sperimentali, si ottiene una distribuzione n(E) = {n(E1 ), . . . , n(EnE )}. Il valore atteso del numero di cause da
attribuire solo agli eventi osservati è
nE
X
P(Cj |Ei )n(Ei )
n̂(Cj )obs =
(7)
i=1
tenendo conto dell’efficienza del rivelatore,
nE
1 X
n̂(Cj ) =
P(Cj |Ei )n(Ei )
εj
εj 6= 0
(8)
i=1
dove la divisione per εj non è mai un problema poiché se esiste un j̄ tale
che εj̄ = 0, l’esperimento è cieco a Cj̄ , e quindi non era corretto da principio
accorparlo alle cause del processo.
Dalla distribuzione unfoldata n(C) = {n(C1 ), . . . , n(CnC )} possiamo ricavare il vero numero di eventi, la probabilità delle cause e l’efficienza
totale
N̂true =
nC
X
n(Cj )
j=1
P̂(Cj ) = P(Cj |n(E)) =
n̂(Cj )
N̂true
N
ε̂ = obs
N̂true
Se la distribuzione iniziale non è consistente coi dati, si può verificare
che la distribuzione così ottenuta tenderà ad avere valori compresi tra quelli della distribuzione iniziale e quelli della distribuzione vera; questo suggerisce di applicare iterativamente i passaggi fatti finora scegliendo come
nuova distribuzione iniziale quella ottenuta dall’applicazione precedente
dell’algoritmo.
1.4
unfolding svd
Il metodo di unfolding SVD consente, attraverso l’analisi dei valori singolari di una certa matrice, di regolarizzare le soluzioni del sistema (1),
sopprimendone le componenti spurie e velocemente oscillanti.
Definizione (singular value decomposition). Sia A ∈ Cm×n ; una sua decomposizione ai valori singolari (SVD) è una fattorizzazione della forma
A = USV T ,
dove
• U è una matrice unitaria m × m
3
4
introduzione al metodo
• S è una matrice diagonale m × n
• V è una matrice unitaria n × n
I valori {Si,i , i = 1, . . . , n} sono detti valori singolari della matrice A; possono sempre essere presi in modo che S1,1 > S2,2 > · · · > Sn,n
Torniamo quindi al problema (1), e guardiamolo da un diverso punto di
vista: esso è la soluzione di un problema di minimi quadrati
nC
nE X
X
Aij xj − bi
2
(9)
= min
i=1 j=1
Questa soluzione è adeguata nel caso in cui l’equazione sia esatta, oppure
se gli errori sulle varie componenti di b fossero identici. Questo non è
ciò che avviene in generale; la cosa più sensata da fare è considerare un
problema ai minimi quadrati dove si minimizza la forma quadratica
nE
X
P nC
j=1 Aij xj
− bi 2
∆bi
i=1
(10)
= min
ovvero, si pesano i vari termini dell’equazione a seconda dell’errore associato. L’espressione (10) può essere generalizzata scrivendo
(Ax − b)T B−1 (Ax − b) = min
(11)
dove B è la matrice di covarianza dei dati B.
Nel caso più generale in cui B non sia diagonale, possiamo comunque
scalare le equazioni in modo analogo a (11); infatti B, essendo una matrice di covarianza, deve essere simmetrica e definita positiva, quindi la sua
decomposizione ai valori singolari deve essere
B = QRQT ,
Rii ≡ ri 2 > 0,
B−1 = QT R−1 Q.
(12)
Scalando sia A che b in questo modo:
Ãij ≡
1 X
Qim Amj
ri m
b̃i ≡
1 X
Qim bm
ri m
(13)
sostituendo in (11), troviamo
(Ãx − b̃)T (Ãx − b̃) = min
(14)
la cui minimizzazione ci porta al sistema
nC
X
Ãij xj = b̃.
(15)
j=1
Dopo le trasformazioni effettuate, la matrice di covarianza di b̃ non è altro
che la matrice identità2 , e inoltre tutte le equazioni hanno uguale importanza.
2 In (13) si è prima ruotato il vettore b applicando ”a destra” (nel senso del prodotto righe per
colonne) la matrice Q, e poi diviso ogni componente per il corrispondente valore singolare della matrice R. Facendo la stessa rotazione alla matrice B, troviamo QT BQ = QT QRQT Q =
R =⇒ se dividiamo ogni componente di b per il corrispondente valore singolare della matrice
R, la matrice di covarianza ruotata diventa l’identità.
1.4 unfolding svd
I passaggi fatti finora hanno solo cambiato la forma del sistema da risolvere, ma le soluzioni sono rimaste le stesse; in particolar modo, se si cercasse di
risolvere esattamente il sistema (15) si troverebbero ancora i comportamenti
spuri della soluzione. Queste componenti spurie devono essere soppresse
utilizzando una qualche condizione a priori sulla soluzione; un modo di
farlo è aggiungere un termine di regolarizzazione all’espressione che si sta
minimizzando
(Ãx − b̃)T (Ãx − b̃) + τ(Cx)T Cx = min.
(16)
In questa formula, la matrice C definisce la condizione di regolarità che si
impone alla soluzione, ed il parametro τ determina il peso di questa condizione; ad esempio, ponendo Cik = δik si cerca di minimizzare la norma
euclidea del vettore x, e se si facesse tendere τ ad infinito la soluzione sarebbe il vettore nullo, indipendentemente da Ã e b̃. Una scelta abbastanza
generale è quella di imporre che l’istogramma x, che è il rapporto tra la
distribuzione unfolded u che stiamo cercando e la distribuzione che il rivelatore dovrebbe misurare secondo la simulazione Monte Carlo, abbia delle variazioni tra bin adiacenti molto piccole. Definendo la curvatura della
distribuzione discreta x come
X
[(xj+1 − xj ) − (xj − xj−1 )]2
(17)
j
allora la scelta

−1
1

0
C=



1
−2
1
...
...
...
0
1
−2
0 ...
0 ...
1 ...
...
1 −2
1







1
−1
(18)
sopprimerà le soluzioni x che hanno grandi curvature. La minimizzazione
di (16) porta ad un nuovo sistema, che ha NC equazioni in più:
Ã
b̃
√
x=
.
τ·C
0
(19)
Questo sistema è sovradeterminato, e si può applicare l’SVD alla matrice
(nE + nC ) × nC nel lato sinistro dell’equazione per risolverlo; questo però
comporterebbe l’effettuare la decomposizione SVD per ogni valore di τ. Esiste però un metodo più efficiente, chiamato damped least squares (C.E.Lawson
e R.J.Hanson, 1974, Cap. 25, Sez. 4) che consente di esprimere la soluzione
di (19) per ogni τ attraverso la soluzione del problema con τ = 0. La prima cosa da fare è rendere il termine di regolarizzazione proporzionale alla
matrice identità I:
−1 b̃
ÃC
√
Cx =
.
0
τ·I
(20)
Bisogna fare attenzione al fatto che la matrice C, per come è stata definita,
non è invertibile (per avere un indizio di ciò, si può notare che tutte le righe,
5
6
introduzione al metodo
e tutte le colonne, hanno somma zero). Per superare questo problema, basta
aggiungere una piccola componente diagonale,


−1 + ξ
1
0
0
...

 1
−2 + ξ
1
0
...



 0
1
−2
+
ξ
1
.
.
.


(21)
C=

...
...



...
1 −2 + ξ
1 
...
1
−1 + ξ
con ξ che sia abbastanza grande da rendere l’inversione numericamente
possibile, ma abbastanza piccola da non cambiare la condizione di minima
curvatura; nella maggior parte dei casi, ξ = 10−3 o 10−4 è una buona scelta.
Risolviamo quindi il sistema (20) con τ = 0; iniziamo col decomporre ai
valori singolari la matrice ÃC−1 :
ÃC−1 = USV T
(22)
e chiamiamo si gli elementi della diagonale di S; in seguito ruotiamo b̃ e
Cx:
d ≡ UT b̃,
z ≡ V T Cx.
(23)
ed in conclusione, il sistema può essere scritto come
s i · z i = di ,
i = 1, . . . , nC .
(24)
che ha come soluzione
(0)
zi
=
di
si
x(0) = C−1 Vz(0)
(25)
e la distribuzione unfolded u(0) può essere ottenuta moltiplicando ogni
componente di x(0) per la corrispondente componente della ricostruzione
Monte Carlo; avendo scelto τ = 0, però, otteniamo la soluzione non regolarizzata. Grazie al metodo descritto da C.E.Lawson e R.J.Hanson, 1974, Cap.
25, Sez. 4, si può calcolare la soluzione per ogni τ in maniera molto semplice; in sostanza, introdurre un τ 6= 0 è equivalente al sostituire di con
(τ)
di
= di
s2i
s2i + τ
(26)
e quindi la soluzione del sistema diventa
(τ)
zi
=
di s i
s2i + τ
x(τ) = C−1 Vz(τ) .
(27)
Le matrici di covarianza Z e X possono essere calcolate, tenendo conto
che la matrice di covarianza di d è unitaria, come
(τ)
Zik =
s2i
δik
(s2i + τ)2
X(τ) = C−1 VZ(τ) V T CT
(28)
−1
.
(29)
Per ottenere la distribuzione unfolded u e la sua matrice di covarianza U,
si devono moltiplicare x e X per la ricostruzione Monte Carlo m:
(τ)
ui
(τ)
Uik
(τ)
(30)
(τ)
mi Xik mi .
(31)
= mi xi
=
1.4 unfolding svd
Una cosa fondamentale per l’unfolding SVD è la scelta di un τ appropriato; questo si può fare facendo un grafico logaritmico delle componenti di
d; tali componenti rappresentano i coefficienti dell’espansione in funzioni
ortogonali (definite dai vettori colonna di U) di b̃. Per distribuzioni abbastanza regolari, soltanto i primi termini della espansione dovrebbero essere
significativi, mentre gli altri dovrebbero essere statisticamente compatibili
con zero (ricordiamo che la varianza delle componenti di d è 1). Nel grafico,
quindi, si dovrebbero riuscire a distinguere due comportamenti diversi delle
componenti di d: per piccoli i, i di dovrebbero essere statisticamente significativi, e man mano dovrebbero decrescere fino a diventare variabili casuali
distribuite secondo una gaussiana standard. Il valore critico i = k dopo il
quale i di non sono più statisticamente significativi è il rango effettivo del
sistema; ovvero k è il numero di equazioni statisticamente significative del
sistema. Una buona scelta del parametro di regolarizzazione τ è quindi
τ = S2kk ,
(32)
poiché dalla forma delle soluzioni (27), e considerando che i valori singolari (le componenti diagonali di S) sono una successione monotonamente
decrescente, si evince che gli zi con i > k verranno fortemente soppressi.
7
2
2.1
LHC, CMS E FISICA DEI JET
lhc
L’LHC (Large Hadron Collider) è un collisore protone-protone e Pb-Pb situato
al CERN di Ginevra. L’anello acceleratore percorre una circonferenza di circa 27Km, ed è situato nel tunnel sotterraneo che precedentemente ospitava
l’acceleratore LEP. L’obiettivo di questa macchina è il riuscire ad accelerare
fasci di protoni a 7T eV per la fine del 2013; per essere in grado di curvare un
fascio di particelle così energetiche, essa impiega oltre 1900 elettromagneti
che generano un campo di 8.4T (vedi LHC Study Group, 1995). Tali magneti sfruttano il fenomeno della superconduzione, che avviene a temperature
molto basse; in particolare, i magneti di LHC devono essere mantenuti alla
temperatura di 1.9K per funzionare; si raggiunge tale scopo attraverso un
sistema di raffreddamento ad elio liquido.
Gli scopi scientifici di questa macchina sono molteplici; uno dei più importanti è la verifica della validità del Modello Standard. Esso è una teoria
quantistica dei campi che descrive tre delle quattro forze fondamentali a noi
note (interazione elettromagnetica, forte e debole) ed il loro rapporto con
delle particelle elementari (per le quali c’è forte evidenza del fatto che siano
prive di struttura). Il Modello standard è una teoria che ha avuto un numero enorme di conferme sperimentali e sta alla base della comprensione
delle particelle attuale; tuttavia in esso ci sono alcuni tasselli mancanti che
non consentono di spiegare alcuni fenomeni, ed inoltre sono presenti un
gran numero di parametri liberi da determinare sperimentalmente. Inoltre,
prima della costruzione di LHC non è mai stata trovata alcuna evidenza
sperimentale di un bosone scalare, l’Higgs, teorizzato nel modello standard,
con un ruolo di primaria importanza; è infatti l’accoppiamento dell’Higgs
con le particelle che dovrebe fornire massa alle particelle stesse.
Gli obiettivi scientifici principali di LHC possono essere riassunti così:
• Trovare quale sia l’origine della massa delle particelle del modello standard; in particolare, le teorie più accreditate prevedono l’esistenza dell’Higgs. In merito a questa ricerca, il 4 Luglio 2012 il CERN con un
annuncio ufficiale ha comunicato la scoperta di un nuovo bosone che
Figura 1: Collocazione geografica di LHC
9
10
lhc, cms e fisica dei jet
Figura 2: Complesso di acceleratori al CERN
ha delle caratteristiche compatibili con quelle che sono state ipotizzate
per il bosone di Higgs.
• Studiare uno stato della materia chiamato Quark Gluon Plasma, nel
quale gluoni e quark si muovono liberamente, senza essere soggetti al
principio di confinamento dei quark.1 Capire le caratteristiche di tale
stato è molto importante, perché si ipotizza che tale stato fosse quello
prevalente dell’universo pochi istanti dopo il Big Bang
• Osservare i cosiddetti partner supersimmetrici, ipotizzati dalle teorie
supersimmetriche (SUSY) che associano ad ogni fermione del modello
standard un superpartner bosonico e ad ogni bosone un superpartner
fermionico attraverso un’operazione di simmetria; tali partner però
non sono mai stati osservati in natura. Le teorie supersimmetriche
sono un argomento di ricerca molto fertile, poiché potrebbero consentire di spiegare la materia oscura (un problema irrisolto della fisica
moderna) e di formulare una descrizione unificata delle quattro forze fondamentali; inoltre risolvono vari problemi teorici del modello
standard.
• Cercare una spiegazione della asimmetria tra materia ed antimateria
nell’universo; si cerca di raggiungere tale scopo attraverso lo studio
della violazione della simmetria CP nelle interazioni deboli.
I fasci di protoni di LHC sono composti da circa 2800 pacchetti contenenti
ciascuno 100 miliardi di particelle; i pacchetti distano l’uno dall’altro circa
7m (nel sistema del laboratorio), e sono accelerati da delle cavità risonanti
a radiofrequenze disposte periodicamente lungo l’anello2 ; prima di essere
immessi in LHC, questi fasci sono accelerati da degli acceleratori ausiliari
posti in cascata, che forniscono attraverso vari stadi sempre più energia
cinetica al fascio, come mostrato in Figura 2.
1 Per spiegare come più quark con caratteristiche identiche possano occupare lo stesso stato
all’interno degli adroni senza violare il principio di Pauli, si introduce una quantità chiamata
”carica di colore”. Esiste un principio, chiamato principio di confinamento, che asserisce che
particelle che hanno carica di colore non sono osservabili individualmente.
2 La suddivisione del fascio in pacchetti è qualcosa di comune a tutte le macchine acceleratrici
circolari; proprio a causa della geometria circolare, i campi elettrici e magnetici oscillanti disposti lungo la macchina acceleratrice tendono ad accelerare solo particelle aventi fase compresa
in un certo range rispetto al campo elettrico e magnetico.
2.2 cms
In quattro punti dell’anello, chiamati punti di interazione, i fasci provenienti da due direzioni diverse vengono focalizzati in un punto di una camera a vuoto attraverso dei quadrupoli magnetici; questo processo (chiamato
bunch crossing) viene effettuato ogni 25ns e provoca in media 20 eventi di
scattering inelastico tra protoni (un numero esiguo di eventi, rispetto alle
migliaia di eventi con piccolo momento trasferito); ogni secondo si avranno
quindi 30 milioni di crossings, che daranno origine ad una media di 600
milioni di eventi.
In fisica delle particelle, è comune definire ”luminosità” la costante che lega la
frequenza di eventi alla sezione d’urto; tale quantità ha le dimensioni di T −1 L−2 .
Si può dimostrare che la luminosità di un
collider è pari a
L = fn
N1 N2
,
A
dove f è la frequenza di rivoluzione dei fasci nel collider, N1 e N2 sono il numero di
pacchetti nel primo e nel secondo fascio ed
A è la sezione geometrica dei fasci. LHC è stato progettato in modo da raggiungere un’elevata luminosità: 1034 s−1 cm−2 ; tale luminosità è richiesta
dal fatto che gran parte della nuova fisica che si cerca in LHC è composta
da eventi molto rari.
Una luminosità così alta, però, genera anche il problema logistico di come gestire i dati misurati, sia per quanto riguarda la quantità di essi, che
per la velocità di trasferimento. In un rivelatore di LHC si generano circa 300GBytes/s di dati; un sistema di trigger (ad esempio, per i trigger
di CMS vedi CMS Collaboration, 2000), discriminando gli eventi ”interessanti” da quelli che non lo sono, riesce a filtrare questi dati fino a circa
300MBytes/s, e deve riuscire a farlo in circa un microsecondo, anche se la
completa ricostruzione di certi eventi può richiedere fino ad un secondo.
Un altro problema (al quale ci si riferisce col nome di pile up) causato da
una luminosità così alta è che quando si generano nuove particelle in un
urto, altre particelle provenienti da un urto precedente non hanno ancora
lasciato il rivelatore; affinché non si confondano particelle prodotte in due
eventi diversi è necessaria quindi una grandissima risoluzione temporale dei
rivelatori, ed il clock dato ai milioni di componenti elettronici deve essere
sincronizzato in modo estremamente preciso.
In LHC, sono presenti quattro esperimenti in presenza dei quattro punti
di interazione: CMS, ATLAS, ALICE e LHCb; i primi due sono rivelatori general purpose, costruiti per dare risposte ad un po’ tutti i problemi
precedentemente esposti, ALICE è dedito soprattutto allo studio del QuarkGluon Plasma nelle interazioni Pb-Pb e LHCb allo studio della fisica del
quark bottom.
Figura 3: Tunnel di LHC
2.2
cms
L’esperimento CMS (Compact Muon Solenoid) è un rivelatore general purpose progettato per poter esplorare un ampia gamma di fenomeni fisici
differenti (CMS Collaboration, 1994). Esso è costituito da diversi rivelatori
posti attorno al punto di incontro tra i fasci durante i bunch crossing, ed
11
12
lhc, cms e fisica dei jet
Figura 4: Spaccato di CMS
ha una struttura composta da una parte cilindrica (barrel) e da due tappi
(endcap) al fine di coprire la maggior parte possibile di tutto angolo solido che circonda il punto di interazione; questa ermeticità è fondamentale
per identificare con precisione gli eventi in cui ci sia ”energia mancante”,
ovvero nei quali vengono prodotte particelle che non interagiscono col rivelatore, e delle quali quindi bisogna ricostruire energia e momento a partire
dall’energia delle altre particelle misurate e dal principio di conservazione
del quadrimomento. Partendo dall’interno, le componenti di CMS sono:
Tracker
Nella parte più interna di CMS si trova un
tracciatore al silicio (vedi CMS Collaboration,
1997d), che si occupa di identificare le traiettorie delle particelle cariche prodotte nelle collisioni; la curvatura della traiettoria di queste
particelle causata dal campo magnetico prodotto dal solenoide in cui è alloggiato il tracker
consente una misura del loro momento. Il tracFigura 5: Silicon Strip nel ciatore di CMS è fatto da vari strati di diversi
sensori al silicio; nei primi tre livelli è compotracker di CMS
sto da 66 milioni di pixel detector, sensori molto piccoli (100µm × 150µm) che consentono di distinguere singole particelle,
anche in presenza di un flusso molto intenso. I quattro livelli successivi sono composti da strip di silicio di 10cm × 180µm, seguiti da altri sei livelli di
strip da 25cm × 180µm. In totale, sono presenti 9, 6 milioni di canali per le
strip di silicio. I sensori sono via via più grandi man mano che ci si allontana
dal punto di interazione.
2.2 cms
ECAL
All’esterno del tracker è presente un calorimetro elettromagnetico (ECAL)
costituito da scintillatori di cristalli di tungstenato di piombo (PbWO4 ), il
cui scopo è misurare l’energia di particelle che hanno interazioni elettromagnetiche con la materia (elettroni, positroni e fotoni) facendole sciamare e
misurando il segnale prodotto dallo sciame (vedi CMS Collaboration, 1997a).
Il PbWO4 è un materiale molto denso (8.3g/cm3 ) e dotato di piccola lunghezza di radiazione (0.89cm) e piccolo raggio di Molière (2.2cm); i cristalli
utilizzati hanno una dimensione di 22mm × 22mm × 230mm, e sono collocati in una matrice di fibra di carbonio per tenere i singoli cristalli otticamente
isolati; per la lettura del segnale generato sono utilizzati dei fotodiodi a valanga. In tutto il barrel sono collocati 61, 200 cristalli, mentre per ciascun
endcap ne sono stati utilizzati 7, 324.
HCAL
Il calorimetro adronico (HCAL), ha lo scopo di
misurare l’energia degli adroni prodotti in ogni
evento. Esso è costituito da strati di materiali
assorbitori densi (ottone) inframezzati da scintillatori; quando un adrone interagisce con l’assorbitore, genera una cascata di particelle, che
via via attraversano i vari livelli di assorbitori
e scintillatori, producendo sempre più particelle via via meno energetiche, ed attraverso una
lettura del segnale proveniente dai vari strati di
scintillatori, si può risalire all’energia dell’adroFigura 6: Vista frontale di ne di partenza. HCAL, al fine di essere il più erCMS, senza endcap metico possibile, è costituito da varie parti leggermente differenti l’una dall’altra (vedi CMS
Collaboration, 1997b), sia geometricamente che per il tipo di materiali utilizzati: HB ed HO nel barrel, HE nell’endcap e HF in una regione chiamata
forward (3.0 < |η| < 5.0). HF in particolare è abbastanza diverso dalle altre zone di HCAL, in quanto deve riuscire a misurare l’energia di singole
particelle in una zona in cui si hanno un gran numero di particelle molto
energetiche prodotte.
Magnete
I tre componenti appena elencati sono collocati dentro un magnete solenoidale da 3.8T , lungo 13m con un diametro di 6m; è il magnete solenoidale
superconduttore più grande mai prodotto al mondo, ed il suo forte campo
magnetico orientato lungo l’asse della beamline è ciò che rende possibile
la misura dell’impulso delle particelle generate nelle collisioni. Il magnete è circondato da un giogo di ferro che fa in modo che le linee di flusso
del campo magnetico siano il più uniformi possibile; esso inoltre ”filtra” le
particelle lasciando passare ai livelli successivi del rivelatore solo muoni (in
quanto emettono una piccolissima radiazione di bremsstrahlung, quindi sono molto penetranti) e particelle che interagiscono in maniera estremamente
trascurabile con la materia (neutrini).
13
14
lhc, cms e fisica dei jet
Figura 7: Rivelatori di CMS
Rivelatori di µ
Infine, nella parte più esterna del rivelatore, è presente un sistema di rivelazione per i muoni CMS Collaboration, 1997c. I muoni più energetici
possono penetrare facilmente attraverso diversi metri di materiale, quindi
sistemi simili ai calorimetri precedentemente descritti non vanno bene; al
fine di misurare il momento dei muoni vengono utilizzati circa 250 Drift
tubes e 540 Cathode Strip Chambers, rivelatori che consentono di calcolare la
traiettoria dei muoni, e in più sono presenti 610 Resistive Plate Chambers, che
sono importanti soprattutto per i trigger, in quanto attraverso la loro estrema granularità temporale riescono a dare una veloce e istantanea misura
del momento dei muoni, fornendo così indicazioni significative riguardo i
muoni al trigger. Nel barrel vengono impiegati i Drift tubes, mentre negli endcap sono presenti le Cathode Strip Chambers; sia nel barrel che negli endcap
vengono inoltre utilizzate le Resistive Plate Chambers.
2.3
fisica dei jet
Dallo studio delle collisioni protone-protone (p-p) si cerca di trovar risposte
alla maggioranza dei quesiti che LHC e CMS sono stati costruiti per risolvere; inoltre, i dati ai quali applicheremo gli algoritmi di unfolding saranno
proprio quelli relativi ad urti p-p.
Un fascio di protoni può essere visto come un fascio di gluoni e quarks,
chiamati collettivamente partoni (vedi Griffiths, 1987); ciascun partone avrà
una frazione dell’energia dei fasci, cioè un’energia x × Ep , dove Ep è l’energia dei fasci e x è detta variabile di Bjorken, e può assumere solo valori tra
0 e 1. Consideriamo il caso di un urto p-p: chiamiamo i due protoni A e B;
sia a un partone di A e sia b un partone di B; vale che
~pa = xa~pA
~pb = xb~pB
Nel modello a partoni, possiamo calcolare la sezione d’urto di un certo
processo p + p → X come
XZ
σp+p→X =
dxa dxb fa (xa , Q2 )fb (xb , Q2 )σa+b→X
a,b
dove con la somma su a e b si intende di effettuare una somma per tutti
i partoni di A e B, con Q si è indicato il momento trasferito nel processo
2.3 fisica dei jet
Figura 8: Scattering p-p nel modello a partoni
Figura 9: Processo che nello stato finale ha Z + 3 jet
e sia fa (xa , Q2 ) che fb (xb , Q2 ) sono le Parton Distribution Function (PDF),
definite come la densità di probabilità che un partone abbia una frazione
di momento longitudinale rispettivamente xa o xb e modulo quadro del
momento trasferito Q2 .
I quark e gli antiquark possono emettere gluoni
in modo analogo al processo di bremsstrahlung
Meson
per cui gli elettroni emettono fotoni nell’interazioAntigreen
ne elettromagnetica; i gluoni a loro volta possono
creare coppie quark-antiquark.
I quark e i gluoni, inoltre, sono particelle che
hanno una carica di colore, ovvero un numero quantico che è stato introdotto per spiegare come posGreen
sano coesistere nello stesso stato in un adrone dei
quark
con tutti i numeri quantici uguali senza vioBaryon
lare il principio di Pauli. Una caratteristica importante delle particelle aventi carica di colore è quella
Red
del confinamento; l’interazione tra particelle ”colorate” (aventi carica di colore), infatti, ha la caratteristica di essere asintoticamente nulla più si avvicinano le due particelle, ma più si allontanano le due
particelle,
più il potenziale associato a questa forza
Blue
Green
aumenta. A causa di questa interazione, ad oggi
Figura 10: Vari modi di non è mai stato osservato un quark isolato, ma soformare parti- lo confinato in stati legati non colorati: i mesoni ed
celle non coloi barioni.
rate
Negli urti tra due partoni possono essere emessi nello stato finale un gran numero di gluoni e
coppie quark-antiquark; a causa del confinamento dei quark, però, queste particelle non possono rimanere isolate. Attraverso un processo chiamato adronizzazione, queste particelle si ricombinano con altri quark e an-
15
16
lhc, cms e fisica dei jet
tiquark creati dal vuoto in modo da formare adroni; viene chiamato jet
un fascio di particelle approssimativamente collineari in impulso, prodotte
dall’adronizzazione dei partoni che hanno subito un processo di scattering.3
Un processo di grande interesse è quello di produzione di eventi con
Z(+jets) nello stato finale; un esempio di questo tipo di processo è rappresentato in Figura 9: il bosone Z, in figura emesso dal quark u, decade poi in
una coppia muone-antimuone, e viene rivelato ricostruendo la sua massa invariante a partire dall’energia misurata dei due muoni. In questo processo,
inoltre, nello stato finale vengono formati anche due quark ed un gluone,
ma essi subito dopo la loro formazione adronizzeranno e formeranno tre
jet.
3 Più formalmente, un jet viene definito come una certa regione circolare nello spazio eta-phi.
3
3.1
VA L I DA Z I O N E E D A N A L I S I DAT I
descrizione dei dati
Le distribuzioni che ci si appresta ad analizzare sono due:
• La molteplicità dei jet; in particolare, studieremo la distribuzione del
numero di eventi con Z + > N jet
• Il momento trasverso pt dei jet negli eventi in cui si produce anche
una Z
Sono stati effettuati vari tagli sui dati di CMS per selezionare gli eventi
sopracitati con la minor quantità di fondo possibile; nello specifico, il dataset
che analizzeremo è composto dagli eventi in cui la Z decade in e+ + e− .
Per fare ciò, sono stati selezionati gli eventi in cui erano soddisfatti tutti i
seguenti prerequisiti:
1. L’energia trasversa degli elettroni e positroni deve essere di almeno
20GeV, per ottimizzare l’efficienza dell’algoritmo di ricostruzione degli eventi.
2. Si considerano solo regioni aventi pseudorapidità η tale che |η| < 2.4,
escludendo inoltre la regione 1.4442 < |η| < 1.566 in cui si ha una
sovrapposizione tra endcap e barrel.
3. Si deve osservare una coppia elettrone-positrone che abbia una massa
invariante compresa tra 71 e 111 GeV, così si selezionano gli eventi in
cui si è formata una Z, ed in seguito è decaduta in e+ + e− .
3.2
operazioni preliminari all’unfolding
Per ciascuna delle due distribuzioni precedentemente elencate si è innanzitutto generata una distribuzione chiamata Monte Carlo Truth, ottenuta
eseguendo simulazioni a partire dalla teoria di cui si dispone riguardo i
jet. In seguito, vengono simulate le interazioni tra gli adroni prodotti nelle collisioni ed il rivelatore, e facendo ciò si costruiscono due importanti
oggetti:
• Una distribuzione detta Monte Carlo Reconstruction (spesso abbreviato in Reco), che rappresenta la distribuzione che si dovrebbe misurare
col rivelatore se il processo fisico che si sta misurando seguisse la distribuzione Monte Carlo Truth. La Monte Carlo Reco è in generale
diversa dalla Monte Carlo Truth in quanto un generico rivelatore reale
ha accettanza limitata1 e risoluzione finita. In particolare, soprattutto
nel caso della molteplicità dei jet, le cose sono ulteriormente complicate dal fatto che esistono errori associati al processo di ricostruzione
degli eventi, aggiungendo ulteriori effetti di migrazione di bin.
1 Un rivelatore, in generale, non riesce a rilevare tutti gli eventi che accadono, ma il numero
totale di eventi osservati sarà inferiore al numero totale di eventi reale.
17
validazione ed analisi dati
• Una matrice A il cui ij-esimo elemento è il numero di eventi che sono
migrati dal bin j della distribuzione Monte Carlo Truth all’i-esimo bin
della distribuzione Monte Carlo Reco; questa matrice non è altro che
quella introdotta nel primo capitolo; viene spesso chiamata Response
Matrix.
Una volta che si hanno questi elementi, si può procedere con l’unfolding
di un set di misure, che chiameremo genericamente Data; prima ancora,
però, verificheremo che l’algoritmo sia ben funzionante.
3.3
test di validazione
Avendo a disposizione le distribuzioni Monte Carlo Reco e Monte Carlo
Truth, e disponendo della matrice A, si può verificare cosa succede quando
si applicano gli algoritmi di Unfolding per deconvolvere la distribuzione
Monte Carlo Reco dagli effetti del rivelatore. Quello che ci si aspetta è che la
soluzione data dall’algoritmo sia proprio la distribuzione Monte Carlo Truth.
L’implementazione che è stata fatta dell’algoritmo che sfrutta il teorema di
Bayes, come si può vedere da Figura 11, riesce, se applicato al Monte Carlo
Reco, a ritrovare il Monte Carlo Truth; in entrambi i grafici, il rapporto tra
la distribuzione Unfolded ed il Monte Carlo Truth è esattamente uno.
Lo stesso discorso si può fare per quanto riguarda l’algoritmo che sfrutta
la decomposizione ai valori singolari, come mostrato in Figura 12.
Distribuzioni Truth, Reco ed Unfolded
hv
Z + (>=N) Jet
Entries
754428
Monte
Carlo Truth
Mean
RMS
105
Distribuzioni Truth, Reco ed Unfolded
Monte Carlo Truth
1.247
0.5404
Monte Carlo Reco
Unfolded Distribution
Monte Carlo Reco
105
Unfolded Distribution
4
10
104
103
102
103
1
2
3
4
5
6
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
1
2
3
4
(a) Molteplicità
5
6
100
150
200
250
300
Jet Pt (GeV/C)
1.5
Unfolded/MCTruth
1.4
0.5
50
hr
Rapporto Unfolded/Truth
Entries754428
Mean
3.5
RMS
1.708
1.5
Unfolded/MCTruth
18
1.4
1.3
1.2
Rapporto Unfolded/Truth
hr
Entries 707308
1.1
Mean
RMS
1
0.9
0.8
0.7
0.6
0.5
2
4
6
8
10
12
(b) Momento trasverso
Figura 11: Test di validazione per l’algoritmo bayesiano
14
8
4.32
3.4 unfolding dei dati
hv
Entries
Monte Carlo 754422
Truth
Mean
1.247
RMS
0.5404
Z + (>=N) Jet
Spettro >= N: Truth, Reco, Unfolded e Data
105
19
Spettro pT: Truth, Reco, Unfolded e Data
Monte Carlo Truth
Monte Carlo Reco
Monte Carlo Reco
105
Unfolded Distribution
Unfolded Distribution
104
104
103
103
102
1
2
3
4
5
6
50
Mean
RMS
200
250
300
Jet Pt (GeV/c)
hr
Rapporto Unfolded/Truth
Entries 707308
1.5
3.5
1.708
Unfolded/MCTruth
Unfolding/MCTruth
150
Entries 754428
1.5
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
100
hr
Rapporto Unfolded/Truth
1
2
3
4
5
7.997
4.321
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
6
Mean
RMS
1.4
2
(a) Molteplicità
4
6
8
10
12
14
(b) Momento trasverso
Figura 12: Test di validazione per l’algoritmo SVD
3.4
unfolding dei dati
Una volta effettuata la validazione degli algoritmi, si è proceduto all’applicarli ai dati di CMS.
Per l’algoritmo che sfrutta il teorema di Bayes, si è scelto un numero di
iterazioni abbastanza grande da assicurare la convergenza dell’algoritmo,
mentre per l’algoritmo SVD si è visto dal grafico delle componenti di d
quale fosse il numero k di esse che fossero statisticamente significative, e
quindi sopprimendo i valori singolari dopo il k-esimo.
I risultati ottenuti con i due metodi sono mostrati in Figura 14; si può
notare che essi sono molto simili, ed entrambi tendono ad avere errori molto
grandi nei canali dove si ha poca statistica (ad esempio, nel sesto canale della
distribuzione della molteplicità dei jet).
hv
Monte Carlo Truth
Entries
754422
Mean
1.247
RMS
Monte Carlo0.5404
Reco
Z + (>=N) Jet
Distribuzioni Truth, Reco ed Unfolded
Distribuzioni Truth, Reco ed Unfolded
Monte Carlo Truth
Monte Carlo Reco
5
10
Data
105
Data
Unfolded Distribution
104
Unfolded Distribution
4
10
3
10
103
102
1
2
3
4
5
6
50
100
150
200
250
300
Jet Pt (GeV/c)
hr
Rapporto Unfolded/Truth
Entries 754428
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
Mean
3.585
RMS
1.792
1
2
3
4
(a) Molteplicità
5
6
hr
Rapporto Unfolded/Truth
Entries707308
Mean 7.688
1.5
RMS
Unfolded/MCTruth
Unfolded/MCTruth
1.5
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
2
4
6
8
10
12
(b) Momento trasverso
Figura 13: Unfolding dei dati con l’algoritmo bayesiano
14
4.323
validazione ed analisi dati
hv
Monte Carlo Truth
Entries
754422
Mean
1.247
0.5404
RMS
Monte Carlo Reco
Z + (>=N) Jet
Spettro >= N: Truth, Reco, Unfolded e Data
5
10
Data
Unfolded Distribution
104
3
10
102
1
2
3
4
5
6
hr
Rapporto Unfolded/Truth
Entries
754428
1.5
Mean
Unfolded/MCTruth
RMS
3.56
1.805
1.4
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
1
2
3
4
5
6
(a) Molteplicità
Spettro pT: Truth, Reco, Unfolded e Data
Monte Carlo Truth
Monte Carlo Reco
105
Data
Unfolded Distribution
104
103
102
50
100
150
200
250
300
Jet Pt (Gev/c)
hr
Rapporto Unfolded/Truth
Entries 707308
1.5
Unfolded/MCTruth
20
1.4
Mean
7.792
RMS
4.399
1.3
1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
2
4
6
8
10
12
14
(b) Momento trasverso
Figura 14: Unfolding dei dati con l’algoritmo SVD
4
CONCLUSIONI
Il problema che si pone con l’Unfolding dei dati è, come tanti problemi inversi, un problema malposto, dove si ha una forte dipendenza della soluzione
dalle condizioni iniziali. Risulta difficile formulare condizioni sufficienti o
necessarie per tante proprietà interessanti di queste soluzioni, dall’esistenza
all’unicità.
I metodi utilizzati per risolvere questo problema hanno portato a soluzioni simili, e la loro complessità è paragonabile. L’algoritmo SVD, in particolare, è quello che fornisce una maggiore comprensione del fenomeno, perché
studiando i valori singolari in gioco in questo problema si riescono a fare
molte considerazioni sui dati che si hanno in possesso, in particolare si può
capire se gli errori siano stati sovrastimati o sottostimati. L’algoritmo che
sfrutta il teorema di Bayes, invece, fornisce meno informazioni sul sistema
oggetto di studio, ma comunque riesce a fornire una soluzione accettabile.
Le soluzioni ottenute con i due algoritmi risultano simili; l’algoritmo che
sfrutta il teorema di Bayes sembra convergere, nei dati utilizzati per questa tesi, alla soluzione che si trova ”riducendo” il rango del sistema oggetto di studio a k (numero di componenti statisticamente indipendenti della decomposizione in funzioni ortogonali del sistema). Per un confronto
più esaustivo, sarebbe necessario studiare meglio la convergenza del primo
algoritmo.
Entrambi i metodi hanno portato a delle correzioni da applicare ai dati
decisamente significative; l’Unfolding è quindi necessario per confrontare
predizioni teoriche e dati misurati, in luce del fatto che le distribuzioni che
si misurano possono essere distorte in maniera non trascurabile da effetti
del rivelatore.
21
BIBLIOGRAFIA
C.E.Lawson e R.J.Hanson
1974 Solving Least Square Problems, Prentice-Hall Inc., Englewood Cliffs.
CMS Collaboration
1994 “The Compact Muon Solenoid - Technical Proposal”, CERN/LHCC
94-38.
1997a “The CMS electromagnetic calorimeter project: Technical Design
Report”, CMS-TDR-004.
1997b “The CMS hadron calorimeter project : Technical Design Report”,
CMS-TDR-002.
1997c “The CMS muon project : Technical Design Report”, CMS-TDR003.
1997d “The CMS tracker system project: Technical Design Report”, CMSTDR-005.
2000 “CMS TriDAS project : Technical Design Report; 1, the trigger systems”, CMS-TDR-006.
G.D’Agostini
1994 “A Multidimensional Unfolding Method Based on Bayes’ Theorem”, DESY 94-099.
Griffiths, David
1987 Introduction to elementary particles, John Wiley and sons, Inc.
Höcker, Andreas e Vakhtang Kartvelishvili
1995 “SVD Approach to Data Unfolding”, arch-ive/9509307.
LHC Study Group
1995 “The Large Hadron Collider, Conceptual design”, CERN/AC/95-05.
23