Dati - Agenda INFN

Il calcolo per l’esperimento
GERDA
Luciano Pandola
INFN, Laboratori del Gran Sasso
Riunione della CSN2, LNF Frascati, 29 Novembre 2011
Collaborazione
GERDA
Il data flow
Bastion host,
switch
nfs
DAQ
DAQ
Server GERDA
Server dati (2 CPU Xeon E5502)
Rete GERDA nei Laboratori sotterranei
3am
(2 CPU Xeon E5620)
Laboratori esterni (CED)
L’approccio di gestione dei dati
– dati raw e blinding

I dati raw sono interamente convertiti in un formato
standard (“tier1”)




Supporta il blinding dei dati



Basato su ROOT, sviluppato congiuntamente da GERDA e
Majorana
I files convertiti contengono esattamente la stessa informazione
dei dati raw (a meno del blinding)
Analisi indipendente dal particolare formato iniziale dei dati (stessa
pipeline): background, calibrazioni, MC, altri R&D
I dati raw non sono disponibili alla Collaborazione
I tier1, che vengono distribuiti per l’analisi, possono avere degli
eventi filtrati (blinding nella finestra Qbb)
Svantaggio: richiede maggiore spazio disco, perché le
informazioni sono di fatto duplicate (dati raw & tier1)
La gestione dei dati
Accesso ristretto
Dati raw
background
Dati raw
calibrazione
Tier1 (= copia dei dati)
Analisi, livello 1
Simulazioni
Monte Carlo
Superficie
Galleria
Hardware (server e storage)

Server dati


2 CPU Xeon E5502 (1.846GHz 4MB)
8 dischi (2 TB ciascuno)

14 TB di disco disponibile in RAID5

Acquistato e gestito dal gruppo INFN-PD

Server dati (Dell R410) – ge-data.lngs.infn.it



21 dischi (2 TB ciascuno), fisicamente su ge-data




2 CPU Xeon (2.40 GHz 12 MB), scheda Fibre Channel
Certificato digitale rilasciato (Terena)
Circa 35 TB disponibili, al netto della ridondanza RAID
3 partizioni, una esportata sul cluster LNGS via nfs
Server di backup (Identico, Dell R410), ordinato
Acquistato da GERDA, gestito dal Calcolo LNGS
Necessità per il calcolo di
GERDA: (1) spazio disco

Dati di GERDA Fase I: ~ 10 TB/anno

Dati di background



Calibrazioni con


Una calibrazione a settimana, circa 40-50 GB
Viene applicata una compressione  lavoro in corso
Dati di attività di R&D per la Fase II: ~ 10 TB


228Th
Overhead (70%) dovuto ai file tier1


Rate tipico: (0.1 + 0.002*Nch) [Hz], a parte noise bursts
Con 12 canali: 6-7 GB/giorno (80% dal pulser)
Misure per l’accettazione dei nuovi detector BEGe per
la Fase II: 400 GB/rivelatore x 20 rivelatori
Output di analisi e Monte Carlo. Per ora < 1 TB

Simulazione impulsi
Necessità per il calcolo di
GERDA: (2) backup su nastro

Dati raw di GERDA Fase I

Policy della Collaborazione: 3 copie (Italia, Germania,
Russia)




Non c’è bisogno di backup dei files di tier1
Utile che comunque i dati siano anche conservati su
disco (o che possano essere rapidamente ripristinati su
disco)



Probabilmente Istituti Russi non ancora pronti
Delicato perché i dati raw sono ad accesso ristretto
Ad esempio, all’apertura del “box”, tutti i dati raw andranno
riprocessati
Dati prodotti dai vari test R&D
Risultati di analisi e simulazioni rilevanti
Necessità per il calcolo di
GERDA: (3) CPU

Analisi dati di GERDA (bck e calibrazioni)


Analisi “base” (ricostruzione in energia, rise time,
parametri semplici di PSD)  richieste limitate (1 CPU)
Analisi PSD avanzata: potenzialmente molto più pesante
dal punto di vista della CPU



Analisi per accettazione rivelatori BEGe


Inversioni matrici, fit, deconvoluzioni
Ancora non c’è una linea definita, varie ipotesi
Presumibilmente analisi abbastanza semplici (energy
resolution, rates, A/E), ma data rate più alto
Simulazioni Monte Carlo (gruppi LNGS e PD)


Simulazioni di sorgenti di fondo (e.g. Geant4)
Simulazioni di forme d’impulso
Organizzazione del calcolo di
GERDA

Vari requirements/informazioni aggiuntive:




I dati vengono prodotti/salvati in posti diversi
(LNGS per l’esperimento, altrove per la caratterizzazione
dei nuovi rivelatori)
I vari gruppi INFN hanno bisogno di girare simulazioni
Monte Carlo (praticamente indipendenti)
Il gruppo INFN-LNGS è responsabile del coordinamento
analisi di GERDA
Approccio “sinergico”: uso combinato delle
risorse sia presso i LNGS che presso il CNAF
Richieste: LNGS (“home Lab”)

Storage e analisi dati di GERDA-Fase I


È il posto naturale, perché sede fisica dove vengono raccolti i dati e
centro del Coordinamento Analisi di GERDA
La macchina che monta di dischi (server ge-data) cura la
conversione dei dati raw in tier1 e l’analisi di primo livello


Analisi dati advanced di GERDA (PSD), almeno in parte



il carico CPU ancora non è definito, risorse u-Lite
CPU per alcune simulazioni MC


ricostruzione energia, quality cuts, calibrazioni
Studi del fondo, soprattutto gruppo LNGS
Backup su nastro usando l’infrastruttura messa a
disposizione dal Servizio Calcolo
Le risorse disponibili sono più che adeguate (risorse di
GERDA + U-Lite)
Richieste: CNAF

Storage e analisi per le misure di accettazione dei
BEGe


CPU per simulazioni MC



Studi del fondo, soprattutto gruppo Padova
Simulazioni di pulse shape (campi elettrici, etc.)
Backup su nastro (e copia su disco) dei dati raw GERDAFase I dai LNGS



Non ha senso trasferire e analizzare i dati ai LNGS (!)
Centro di backup (in sostituzione degli Istituti Russi)
Centro di “ridistribuzione” dei dati (-> Germania per terzo backup)
CPU addizionale per analisi dati avanzata di GERDA

Supporto alle risorse LNGS, se le tecniche di PSD che verranno scelte
dovessero risultare particolarmente CPU-intensive
Conclusioni

Il footprint di GERDA per le risorse di calcolo (disco, CPU) è
relativamente modesto rispetto ad altri esperimenti


I gruppi INFN finora hanno curato lo storage e i data server di
esperimento


Inoltre, Coordinamento Analisi presso i LNGS
LNGS (risorse GERDA e U-Lite) è il centro di riferimento
per le attività direttamente connesse allo storage, backup e
analisi dei dati di GERDA


Basso counting rate, pochi canali
CPU anche per analisi avanzata e alcune simulazioni MC
CNAF per supporto su dati GERDA (backup disco/nastro) e
per le attività non direttamente collegate alla presa dati
LNGS (R&D, caratterizzazione rivelatori)

CPU per simulazioni (fondo, forme d’impulso) e eventualmente per
particolari analisi avanzate particolarmente “pesanti”