Referaggio CALCOLO Esperimenti non LHC G. Carlino, D. Lucchesi, V. Vagnoni CSN1 – Catania 1 Ottobre 2014 Non c’è solo LHC Esperimenti non LHC di CSN1 che calcolano in Italia: • Belle II, Bes III, CDF, Compass, Kloe, LHCf, NA62 Nella riunione di luglio sono stati descritti i computing model e le attività degli esperimenti. – Non ritorniamo sull’argomento Richieste totali Il calcolo LHC è sempre predominante, ma le necessità degli altri esperimenti cominciano a diventare significative (~30%). Molti esperimenti in RUN richieste 2014: 301 + 40 s.j. CSN1 - 01/10/14 Esperimenti Richieste (k€) Belle II 79.5 Bes III 7 + 14.5 s.j. CDF 83 Compass 50.5 KLOE 61 + 38 s.j. LHCF 3 NA62 104 totale 388 + 52.5 s.j. Referaggio CALCOLO esperimenti non LHC 2 Finanziamento calcolo CSN1 Nella riunione di luglio sono stati discussi e definiti alcuni principi guida che guideranno i finanziamenti nei prossimi anni CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 3 Belle II – attività 2014 • • La collaborazione ha svolto una campagna MC nella quale il contributo italiano è stato superiore alla quota di autori (10%) Organizzazione di una struttura di calcolo italiana: Tier1 al CNAF e Federazione dei Tier2. – Siti proposti in accordo con la CSN1: Napoli (RECAS), Pisa, Torino – In attesa di un parere definitivo dalla GE • • Preparazione di un MoU per la definizione della qualità dei servizi dei siti grid Ruolo importante nella definizione dei traffici di rete internazionali e tra i siti italiani CSN1 - 01/10/14 Bandwidth tra i siti italiani (Mbps) Referaggio CALCOLO esperimenti non LHC 4 Belle II – attività 2015 • Produzione MC: 1011 eventi, 4 PB disco, in produzione continua nell’anno (approvati dal BPAC nel 2014) – Quota italiana 10% – In base agli attuali parametri del CM (event size, CPU time, etc) = 400 TB e 13 kHS • Detector studies – Studi tracking (106 eventi raw, 2 fb-1), studi calorimetro (106 eventi raw, 2 fb-1) + PID e SVD – 30 TB, 1 kHS • Software & Physics tools – Charm e semileptonici con missing energy (5*108 eventi mDST, 100 fb-1) – 25 TB, 1 kHS • Consolidamento del Computing Model (n.d. referee) e preparazione MoU CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 5 Belle II – richieste 2015 • • Per le attività 2015 sono necessari 450 TB e 15 kHS Risorse disponibili (pledge-abili) = – 50 TB + 0.7 kHS (ex SuperB) attualmente al CNAF – risorse ingenti a Napoli fornite da RECAS disponibili da ottobre 2014 Richieste • Tier1: 100 TB (28 k€ nel DB) + 4.3 kHS (52 k€) • Tier2 Napoli: 300 TB (75 k€) + 10 kHS (120 k€) Assegnati • Tier1: 100 TB = 25 kE (riduzione dei CU disco al CNAF 250 €/TB) + 4.3 kHS = 43 kE (CU CPU 12 €/HS, compreso overlap CPU CNAF) • Tier2: risparmio 195 k€ (ringraziare RECAS) • In prospettiva l’esperimento chiede il 40% delle risorse al CNAF e il 20% in ognuno dei 3 Tier2 (non ancora concordato con i referee) CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 6 Infrastruttura Cloud Torino La Sezione di Torino ha messo in piedi un’infrastruttura cloud che serve tutti gli esperimenti e gli utenti locali • necessaria per ovviare all’aumento di risorse nei siti e alla varietà di applicazioni senza un adeguato incremento del manpower • Acquisti HW in comune (costi migliori) e trasparenti agli esperimenti • L’approccio Cloud (IaaS) ottimizza la fornitura di risorse a utenti diversi • Siti grid • Farm • Utenti singoli • Condivisione (e ottimizzazione) delle risorse Belle II, Bes III e Compass sono (o saranno a breve) completamente integrati CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 7 Bes III • Bes III è pienamente integrato nell’infrastruttura di Torino e ha dimostrato all’intera collaborazione (cinesi in primis) la validità dell’approccio. • Le risorse disponibili sono il 3.3 % dell’intera collaborazione contro la quota italiana del 7.2%. Ma le attività di divulgazione del cloud computing nell’esperimento coprono la mancanza Test bed installato a IHEP, CERN e Dubna oltre che a Torino • – Success rate 100% anche se sono necessari test di scaling – Performance confrontabili con siti non cloud • Torino unico sito con approccio grid on cloud in produzione e dopo i risultati del test bed sta guidando la migrazione dell’intero computing model alla cloud. Complimenti! • • • • Cloud R&D ancora in corso su un testbed dedicato Partecipazione di UniTO al progetto VLDATA alla call H2020 EINFRA-1 INFN come resource provider si chiede personale dedicato per l’ R&D CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 8 Bes III – attività 2015 • Nei siti fuori Cina viene svolta la produzione MC (simulazione e ricostruzione) e i test (migrazione OS, upgrade BOSS). Non è prevista la ricostruzione dati (per limiti sulla bandwidth) • Disco: 8 siti coinvolti, 50 TB ognuno come spazio disco minimo – 30 TB random trigger – 15 TB MC output – 5 TB MC test • CPU: – la produzione MC (had. decays) e test (bhabha e had. decays) occupa 11 mesi di WC time dei 200 core disponibili a efficienza 100%. – Se viene approvato VLDATA saranno da fare ulteriori test CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 9 Bes III – richieste 2015 • Disco: la collaborazione richiede che il minimo disco disponibile nei siti sia 50 TB – Già disponibili 20 TB, richiesto e approvato 30 TB = 7 k€ • CPU: la collaborazione italiana si impegna a fornire 100 nuovi core (200 già disponibili) nell’ipotesi che il progetto VLDATA vinca la call. – Richiesti e approvati in s.j. all’approvazione 1 kHS = 12 kE Possibile anticipo del disco al 2014 per minimizzare i costi poiché è in preparazione una gara per ALICE da parte del centro di calcolo di Torino. CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 10 Compass Il CM originale local storage oriented basato su una struttura a 2 Tier • CERN – Central Data Recording – Ricostruzione • Home Institutes – Produzione MC – Filtering – Analisi • Integrazione nella GRID per produzione MC • La collaborazione (italiana) si sta impegnando nei test di tool avanzati di gestione dei job e dei dati già usati in altri esperimenti LHC • Passo fondamentale per il passaggio ad un completo sistema di computing distribuito e per interfacciarsi a qualsiasi sistema cloud CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 11 Compass in Italia – TO Farm di Torino (stand alone cluster): • Appena terminati dei test per l’integrazione nell’ infrastruttura di cloud della sezione – Creazione di una replica dell’ attuale farm di esperimento – Esecuzione di MC, analisi e simulazione FLUKA • Test positivi, entro gennaio 2015 sposteranno la farm nella cloud • 2.8 KHS CPU + 50 TB Disk – 1.4 kHS e 20 TB non migrabili • Molte attività previste nel 2015 – non quantificato il bisogno di risorse – accounting 2014 cluster stand alone: 2.4 kHS CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 12 Compass in Italia - TS Farm di Trieste • farm di sezione multiesperimento • Risorse disponibili: 2.5 KHS CPU + 65 TB Disk + Tape Library • Attività principale: effetti di spin e momento trasverso nel SIDIS con muoni di alta energia • Funzionalità: replica (in copia spesso unica) dei mDST filtrati per le analisi, produzione MC (non recentemente) e analisi dei dati – attualmente con accesso locale ai dati • Attività previste nel 2015 – Continuazione analisi dati SIDIS con bersaglio non polarizzato (2006) e polarizzato (2010), analisi dati DY 2015 e ottimizzazione SIDIS 2015-16 – Risorse necessarie: ~65 TB (40 mDST MC 2010, 15 TB prod MC di test 2016, 10 TB “spazio di lavoro”) – Migrazione su tape di 25 TB di spazio disco di dati analisi finite CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 13 Compass – richieste TO 2015 • Richieste – Rimpiazzo delle risorse non integrabili nell’infrastruttura cloud: • CPU 1.4 kHS + Disco 20 TB – CPU 0.6 kHS aggiuntivi per analisi DY 2015 • Assegnazioni – Rimpiazzi: 1.4 kHS = 17 k€ + 20 TB = 4.5 k€ – Per quanto riguarda le risorse aggiuntive di CPU (non assegnate), in caso di emergenza si potrà sfruttare la disponibilità fornita dalla farm comune – Richiesta di anticipare il disco (6.5 k€) per gara comune ALICE e BES • Richieste dei referee: – l’assegnazione dovrebbe essere s.j. all’effettiva integrazione nella cloud. Riteniamo comunque che ciò avverrà nei tempi previsti visti l’esito dei test preliminari e la collaboratività del CdC di Torino – Necessità di monitorare l’uso delle risorse con un sistema di accounting ancora non esistente Nella prima parte del 2015 verificheremo il grado di soddisfacimento di queste richieste CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 14 Compass – richieste TS 2015 • • La sezione di Trieste dispone di una farm di calcolo utilizzata da COMPASS per attività locali Riteniamo sia importante che COMPASS Italia faccia gli sforzi necessari per integrarsi completamente nell’infrastruttura TIer1/Tier2 – avendo la possibilità di sfruttare le risorse presenti nei siti italiani • Nel breve termine, in collaborazione con il gruppo di TO, è necessario che TS si impegni ad utilizzare la cloud del Tier2 di Torino per il proprio calcolo • Richieste – Consumo (tape): 2 k€ e manutenzione tape library: 2 k€ – Storage: 20 k€ (>40 TB a CU superiori a quelli standard) Consideriamo il 2015 come anno di transizione per cui riteniamo sia opportuno finanziare una parte dell’incremento di storage richiesto in modo da non danneggiare le attività di analisi e la competitività del gruppo • Proposte – Manutenzione e consumi non assegnati in quanto non di pertinenza – Storage aggiuntivo: 30 TB k€ = 7 k€ al CU standard CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 15 NA62 • Documento NA62-14-03 pubblicato il 3 aprile – Richieste di risorse (tutte) a Tier1 basate su questo documento • 1 anno = 1 PB di RAW, circa la stessa quantità di RECO non filtrati • Si stima che sia possibile una riduzione di filtro pari a circa il 30% • Per il 2015 si prevede di ricostruire al Tier-0 e poi distribuire i RECO per l’analisi ai Tier-1 • Assumendo: 50% al CERN + 25% ciascuno a CNAF e RAL, risorse richieste: – 250 TB di RECO + 75 TB di RECO filtrati (30 TB già disponibili) – 3 kHS06 per l’analisi (300 HS già disponibili) • In corso discussione per un modello di calcolo distribuito su Grid – Esperienza con DIRAC – Migrata la produzione Monte Carlo su DIRAC da parte dei gruppi UK • Assegnazioni: – Disco 225 TB = 56 k€ – CPU 220 kHS = 27 k€ – Taglio limitato nonostante le incertezze sul CM, per limitare la crescita nel 2016 • Commenti Referee: – Ci proponiamo di verificare nel corso del 2015 il reale utilizzo delle risorse dopo la prima esperienza di presa dati e l’effettiva efficacia del CM CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 16 LHCf • Risorse disponibili al CNAF 2 kHS • CPU 2 kHS, Disco 20 TB • Uso medio delle risorse un po’ inferiore rispetto all’assegnazione 2014, ma comunque significativo e continuativo • Evidente convenienza delle farm multi-esperimento, le CPU non si sprecano mai • Richiesta 2005: 10 TB = 3 k€ approvata Accounting CPU CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 17 KLOE Caso particolare rispetto al panorama del calcolo INFN, la farm ha funzioni di Tier0-1-2 con una componente online e una offline • • • • • • Risorse disponibili Storage: 250 TB CPU: 6 IBM servers, capacità di calcolo: 5 pb-1/ora Tape library: 500 TB disponibili per nuovo data taking Archiviazione secondaria di dati al CNAF Sostanzialmente tutti sistemi power PC proprietari IBM – Tecnologia ortogonale a tutto il resto del calcolo INFN (in realtà a tutto il calcolo HEP) Molte macchine vecchie, talvolta obsolete – Costi di manutenzione e efficienza energetica CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 18 KLOE Richieste 2015 per manutenzioni e ripristino rotture • • • Sono richiesti 40 kEuro per il contratto di manutenzione e 20 kEuro per ripristino eventuali rotture (stimate sulla base dell’esperienza passata) All'interno del contratto di manutenzione ci sono tutti quei sistemi il cui guasto porterebbe a un blocco immediato delle funzioni essenziali all'esperimento, nel dettaglio – Macchine per Online and DAQ – Macchine per DB – Server di dati – Server AFS – Meccanica della tape library Sono esclusi dal contratto tutti quei sistemi che possono essere mantenuti con parti spare che sono state acquistate, e cioè – Le CPU in apparato – Switch vari • CISCO 6509, CISCO 6504, 8 CISCO 3500 e 4 CISCO 4000 Fiber Channel – Tutti gli array dischi per un totale di 250 TB, tutti veicolati attraverso Fiber Channel – Tutti i tape drive – La quasi totalità delle CPU offline CSN1 - 17/07/14 G. Carlino - Il Calcolo non-LHC 19 KLOE • Assegnazioni: – Manutenzione server e libreria: 34 k€ + 6 k€ s.j. – Sostituzioni eventuali rotture: 5 k€ + 7.5 k€ s.j.. – Storage cassette per libreria a LNF: 25 k€ s.j. • NB: il CU delle cassette è molto più alto a LNF rispetto al CNAF poiché la tecnologia (e quindi la capacità) dei nastri e dei drive è obsoleta • Probabilmente questo ha anche un impatto sui costi di manutenzione della libreria – Storage cassette per libreria al CNAF: 14 k€ s.j. • Se KLOE ha prospettive di presa dati di alcuni anni, sarà necessario rivedere il modello di calcolo – Integrazione di KLOE nell’infrastruttura di calcolo dell’INFN, almeno per quanto riguarda la parte offline, abbandonando la farm basata su architettura proprietaria – Porting del software da Unix AIX per power PC a Linux – Vedi talk referee KLOE CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 20 CDF CDF Data Preservation al CNAF • La copia dei dati su tape è in corso e terminerà nel 2015 a causa di vari ritardi, da marzo a oggi 15 TB/giorno contro i 40 TB/giorno precedenti. Mancano ancora da copiare 2.1 PB, necessari 5 mesi. Possibilità di ridurre a 2-3 mesi aggiungendo 2 tape drive e aumentando la rate di pre-stage a FNAL • In parallalo procede lo sviluppo del sistema di accesso e analisi dei dati per il futuro CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 21 CDF – richieste 2015 • Risorse disponibili al CNAF: 8 kHS e 470 TB • Richieste 2015: • Disco: mantenimento dello spazio disponibile • CPU: mantenimento di metà delle risorse attuali = 4 kHS • Potenza di calcolo necessaria per le attività previste, ovvero test per la preparazione del framework di analisi a lungo termine e analisi utenti • Proposte • Disco: riduzione a 400 TB, necessità di rimpiazzare 134 TB = 33 k€ • CPU: riduzione a 4 kHS, necessità di rimpiazzare 2.25 kHS = 27 k€ CSN1 - 01/10/14 Referaggio CALCOLO esperimenti non LHC 22 Riepilogo assegnazioni CSN1 - 01/10/14 Esperimenti Richieste (k€) Assegnazioni (k€) Belle II 79.5 68 Bes III 7 + 14.5 s.j. 7 + 14.5 s.j. CDF 83 60 Compass 50.5 30.5 KLOE 61 + 38 s.j. 36.5 + 52.5 s.j. LHCf 3 3 NA62 104 83 totale 388 + 52.5 s.j. 288 + 67 s.j. Referaggio CALCOLO esperimenti non LHC 23