Il calcolo per l’esperimento GERDA: prospettive per la Fase II Luciano Pandola INFN, Laboratori del Gran Sasso e Laboratori del Sud Workshop della CCR, LNGS, 26 Febbraio 2014 Come abbiamo lavorato in Fase I L’approccio di gestione dei dati – strategia di Fase I L'esperimento prevede il blinding dei dati: gli eventi con energia prossima a quella di interesse vengono "nascosti" ed eliminati dal data stream pubblico I dati raw sono interamente convertiti in un formato standard (“tier1”), basato su ROOT Consente di finalizzare tutti i dettagli dell'analisi dati (cuts, modello di fondo, analisi di forma) prima di guardare gli eventi di potenziale interesse Presa dati "blind" da Gennaio 2012 a Maggio 2013. Unblinding e pubblicazione a Giugno/Luglio 2013 I files convertiti contengono esattamente la stessa informazione dei dati raw (a meno di eventi tagliati) Analisi indipendente dal particolare formato iniziale dei dati (stessa pipeline): background, calibrazioni, MC, altri R&D I dati raw non sono disponibili alla Collaborazione Svantaggio: richiede maggiore spazio disco, perché le informazioni sono di fatto duplicate (dati raw & tier1) La gestione dei dati Accesso ristretto Dati raw background Dati raw calibrazione Tier1 (= copia dei dati) Analisi, livello 1 Simulazioni Monte Carlo Collaborazione GERDA Il data flow nfs Bastion host, switch DAQ Restricted disk area blinding Restricted disk area Server GERDA Server dati (2 CPU Xeon E5502) Rete GERDA nei Laboratori sotterranei (2 CPU Xeon E5620) Laboratori esterni (CED) Consuntivo finora per: (1) spazio disco [LNGS] Dati di GERDA Fase I: circa 6 TB Dati del commissioning (2011-2012): ~ 4 TB Dati per attività di R&D per la Fase II: ~ 6 TB Raw data: 2.2 TB run fisica + 1.7 TB calibrazioni Tier1: 1.1 TB (compressione fattore ~4) Altri files di analisi (tierN): < 200 GB Muon veto: 0.5 TB Solo misure effettuate ai LNGS. I dati dei test effettuati in altre sedi sono mantenuti localmente Test elettronica, LArGe, caratterizzazione rivelatori Output di Monte Carlo e analisi avanzata: ~ 2 TB Consuntivo finora per: (2) backup su nastro Dati raw di GERDA Fase I Policy della Collaborazione: 3 copie (Italia, Germania, Russia) Non c’è bisogno di backup dei files di tier1 Due copie su nastro ai LNGS di tutte le aree disco di GERDA Dati raw, files ausiliari, files di analisi, etc. Gestito dal Servizio di Calcolo Utilizzati 4.5 TB circa Istituti Russi non ancora pronti Delicato perché i dati raw sono ad accesso ristretto Una copia ad Heidelberg Una copia (disco/nastro) al CNAF per tutti i dati raw di Fase I Consuntivo finora per: (3) CPU [LNGS] Analisi dati di GERDA (bck e calibrazioni) Analisi “base” (ricostruzione in energia, rise time, parametri semplici di PSD) richieste limitate Tutto il ri-processamento dell'unblinding ha richiesto ~1 settimana di CPU sul server di GERDA Simulazioni Monte Carlo, analisi avanzata (PSD) per Fase I, analisi delle misure extra Molto più pesante dal punto di vista della CPU Nell'ultimo anno (Feb 2013-Feb 2014) utilizzati 4.3 CPU yr sul sistema uLite ai LNGS Relativa ai soli dati effettivamente salvati ai LNGS Accesso efficiente ai dati su disco Richieste CPU (piccole) anche sul CNAF, ma non utilizzate Creata VO (gerda.mpg.de) Prospettive per la Fase II Lo scale-up alla Fase II Si prevede di lavorare con una logica simile alla Fase I Blinding dei dati, main storage ai LNGS Dati fattore x 5-10 rispetto alla Fase I Più canali di lettura dei Germani. Acquisizione veto attivo Ar. Tre anni di presa dati, anziché circa un anno Da ottimizzare LNGS ancora pensato come centro di acquisizione, storage, analisi e smistamento primario per i dati dell'esperimento Altre sedi contribuiranno per backup, storage delle misure ausiliarie e CPU per l'analisi dedicata Ai LNGS (“home Lab”) Storage e analisi dati primaria di GERDA-Fase II CPU per alcune simulazioni MC e analisi dati avanzata È il posto naturale, perché sede fisica dove vengono raccolti i dati e centro del Coordinamento Analisi di GERDA Acquistati altri 40 TB di disco (totale: 80 TB) Analisi base probabilmente gestibile con i due server di GERDA, possibilmente integrati da uLite nei momenti di picco Studi del fondo, analisi dati avanzata, processamento di misure ausiliarie acquisite e salvate ai LNGS… Backup su nastro usando l’infrastruttura messa a disposizione dal Servizio Calcolo Le risorse disponibili dovrebbero essere adeguate (risorse di GERDA + U-Lite) Conclusioni Il footprint di GERDA per le risorse di calcolo (disco, CPU) è relativamente modesto rispetto ad altri esperimenti I gruppi INFN finora hanno curato lo storage e i data server di esperimento LNGS (risorse GERDA e U-Lite) è il centro di riferimento per le attività direttamente connesse allo storage, backup e analisi dei dati di GERDA Basso counting rate, pochi canali Vero "a consuntivo" per la Fase I e prevedibilmente vero anche per la Fase II CPU anche per analisi avanzata e alcune simulazioni MC Istituzioni estere e CNAF per supporto su dati GERDA (backup disco/nastro) e per le attività non direttamente collegate alla presa dati LNGS (R&D, caratterizzazione rivelatori) Backup Superficie Galleria Hardware (server e storage) Server dati 2 CPU Xeon E5502 (1.846GHz 4MB) 8 dischi (2 TB ciascuno) 14 TB di disco disponibile in RAID5 Acquistato e gestito dal gruppo INFN-PD Server dati (Dell R410) – ge-data.lngs.infn.it 21 dischi (2 TB ciascuno), fisicamente su ge-data 2 CPU Xeon (2.40 GHz 12 MB), scheda Fibre Channel Certificato digitale rilasciato (Terena) Circa 35 TB disponibili, al netto della ridondanza RAID 3 partizioni, una esportata sul cluster LNGS via nfs Server di backup (Identico, Dell R410) Acquistato da GERDA, gestito dal Calcolo LNGS