Il calcolo per l’esperimento GERDA Luciano Pandola INFN, Laboratori del Gran Sasso Riunione della CSN2, LNF Frascati, 29 Novembre 2011 Collaborazione GERDA Il data flow Bastion host, switch nfs DAQ DAQ Server GERDA Server dati (2 CPU Xeon E5502) Rete GERDA nei Laboratori sotterranei 3am (2 CPU Xeon E5620) Laboratori esterni (CED) L’approccio di gestione dei dati – dati raw e blinding I dati raw sono interamente convertiti in un formato standard (“tier1”) Supporta il blinding dei dati Basato su ROOT, sviluppato congiuntamente da GERDA e Majorana I files convertiti contengono esattamente la stessa informazione dei dati raw (a meno del blinding) Analisi indipendente dal particolare formato iniziale dei dati (stessa pipeline): background, calibrazioni, MC, altri R&D I dati raw non sono disponibili alla Collaborazione I tier1, che vengono distribuiti per l’analisi, possono avere degli eventi filtrati (blinding nella finestra Qbb) Svantaggio: richiede maggiore spazio disco, perché le informazioni sono di fatto duplicate (dati raw & tier1) La gestione dei dati Accesso ristretto Dati raw background Dati raw calibrazione Tier1 (= copia dei dati) Analisi, livello 1 Simulazioni Monte Carlo Superficie Galleria Hardware (server e storage) Server dati 2 CPU Xeon E5502 (1.846GHz 4MB) 8 dischi (2 TB ciascuno) 14 TB di disco disponibile in RAID5 Acquistato e gestito dal gruppo INFN-PD Server dati (Dell R410) – ge-data.lngs.infn.it 21 dischi (2 TB ciascuno), fisicamente su ge-data 2 CPU Xeon (2.40 GHz 12 MB), scheda Fibre Channel Certificato digitale rilasciato (Terena) Circa 35 TB disponibili, al netto della ridondanza RAID 3 partizioni, una esportata sul cluster LNGS via nfs Server di backup (Identico, Dell R410), ordinato Acquistato da GERDA, gestito dal Calcolo LNGS Necessità per il calcolo di GERDA: (1) spazio disco Dati di GERDA Fase I: ~ 10 TB/anno Dati di background Calibrazioni con Una calibrazione a settimana, circa 40-50 GB Viene applicata una compressione lavoro in corso Dati di attività di R&D per la Fase II: ~ 10 TB 228Th Overhead (70%) dovuto ai file tier1 Rate tipico: (0.1 + 0.002*Nch) [Hz], a parte noise bursts Con 12 canali: 6-7 GB/giorno (80% dal pulser) Misure per l’accettazione dei nuovi detector BEGe per la Fase II: 400 GB/rivelatore x 20 rivelatori Output di analisi e Monte Carlo. Per ora < 1 TB Simulazione impulsi Necessità per il calcolo di GERDA: (2) backup su nastro Dati raw di GERDA Fase I Policy della Collaborazione: 3 copie (Italia, Germania, Russia) Non c’è bisogno di backup dei files di tier1 Utile che comunque i dati siano anche conservati su disco (o che possano essere rapidamente ripristinati su disco) Probabilmente Istituti Russi non ancora pronti Delicato perché i dati raw sono ad accesso ristretto Ad esempio, all’apertura del “box”, tutti i dati raw andranno riprocessati Dati prodotti dai vari test R&D Risultati di analisi e simulazioni rilevanti Necessità per il calcolo di GERDA: (3) CPU Analisi dati di GERDA (bck e calibrazioni) Analisi “base” (ricostruzione in energia, rise time, parametri semplici di PSD) richieste limitate (1 CPU) Analisi PSD avanzata: potenzialmente molto più pesante dal punto di vista della CPU Analisi per accettazione rivelatori BEGe Inversioni matrici, fit, deconvoluzioni Ancora non c’è una linea definita, varie ipotesi Presumibilmente analisi abbastanza semplici (energy resolution, rates, A/E), ma data rate più alto Simulazioni Monte Carlo (gruppi LNGS e PD) Simulazioni di sorgenti di fondo (e.g. Geant4) Simulazioni di forme d’impulso Organizzazione del calcolo di GERDA Vari requirements/informazioni aggiuntive: I dati vengono prodotti/salvati in posti diversi (LNGS per l’esperimento, altrove per la caratterizzazione dei nuovi rivelatori) I vari gruppi INFN hanno bisogno di girare simulazioni Monte Carlo (praticamente indipendenti) Il gruppo INFN-LNGS è responsabile del coordinamento analisi di GERDA Approccio “sinergico”: uso combinato delle risorse sia presso i LNGS che presso il CNAF Richieste: LNGS (“home Lab”) Storage e analisi dati di GERDA-Fase I È il posto naturale, perché sede fisica dove vengono raccolti i dati e centro del Coordinamento Analisi di GERDA La macchina che monta di dischi (server ge-data) cura la conversione dei dati raw in tier1 e l’analisi di primo livello Analisi dati advanced di GERDA (PSD), almeno in parte il carico CPU ancora non è definito, risorse u-Lite CPU per alcune simulazioni MC ricostruzione energia, quality cuts, calibrazioni Studi del fondo, soprattutto gruppo LNGS Backup su nastro usando l’infrastruttura messa a disposizione dal Servizio Calcolo Le risorse disponibili sono più che adeguate (risorse di GERDA + U-Lite) Richieste: CNAF Storage e analisi per le misure di accettazione dei BEGe CPU per simulazioni MC Studi del fondo, soprattutto gruppo Padova Simulazioni di pulse shape (campi elettrici, etc.) Backup su nastro (e copia su disco) dei dati raw GERDAFase I dai LNGS Non ha senso trasferire e analizzare i dati ai LNGS (!) Centro di backup (in sostituzione degli Istituti Russi) Centro di “ridistribuzione” dei dati (-> Germania per terzo backup) CPU addizionale per analisi dati avanzata di GERDA Supporto alle risorse LNGS, se le tecniche di PSD che verranno scelte dovessero risultare particolarmente CPU-intensive Conclusioni Il footprint di GERDA per le risorse di calcolo (disco, CPU) è relativamente modesto rispetto ad altri esperimenti I gruppi INFN finora hanno curato lo storage e i data server di esperimento Inoltre, Coordinamento Analisi presso i LNGS LNGS (risorse GERDA e U-Lite) è il centro di riferimento per le attività direttamente connesse allo storage, backup e analisi dei dati di GERDA Basso counting rate, pochi canali CPU anche per analisi avanzata e alcune simulazioni MC CNAF per supporto su dati GERDA (backup disco/nastro) e per le attività non direttamente collegate alla presa dati LNGS (R&D, caratterizzazione rivelatori) CPU per simulazioni (fondo, forme d’impulso) e eventualmente per particolari analisi avanzate particolarmente “pesanti”