Referaggio CALCOLO
Esperimenti non LHC
G. Carlino, D. Lucchesi, V. Vagnoni
CSN1 – Catania
1 Ottobre 2014
Non c’è solo LHC
Esperimenti non LHC di CSN1 che calcolano in Italia:
• Belle II, Bes III, CDF, Compass, Kloe, LHCf, NA62
Nella riunione di luglio sono stati descritti i computing model e le
attività degli esperimenti.
– Non ritorniamo sull’argomento
Richieste totali
Il calcolo LHC è sempre
predominante, ma le necessità degli altri esperimenti
cominciano a diventare
significative (~30%).
Molti esperimenti in RUN
richieste 2014: 301 + 40 s.j.
CSN1 - 01/10/14
Esperimenti
Richieste (k€)
Belle II
79.5
Bes III
7 + 14.5 s.j.
CDF
83
Compass
50.5
KLOE
61 + 38 s.j.
LHCF
3
NA62
104
totale
388 + 52.5 s.j.
Referaggio CALCOLO esperimenti non LHC
2
Finanziamento calcolo CSN1
Nella riunione di luglio sono stati discussi e definiti alcuni principi
guida che guideranno i finanziamenti nei prossimi anni
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
3
Belle II – attività 2014
•
•
La collaborazione ha svolto una
campagna MC nella quale il
contributo italiano è stato superiore
alla quota di autori (10%)
Organizzazione di una struttura di
calcolo italiana: Tier1 al CNAF e
Federazione dei Tier2.
– Siti proposti in accordo con la CSN1:
Napoli (RECAS), Pisa, Torino
– In attesa di un parere definitivo dalla
GE
•
•
Preparazione di un MoU per la
definizione della qualità dei servizi
dei siti grid
Ruolo importante nella definizione
dei traffici di rete internazionali e tra i
siti italiani
CSN1 - 01/10/14
Bandwidth tra i siti italiani (Mbps)
Referaggio CALCOLO esperimenti non LHC
4
Belle II – attività 2015
•
Produzione MC: 1011 eventi, 4 PB disco, in produzione continua nell’anno
(approvati dal BPAC nel 2014)
– Quota italiana 10%
– In base agli attuali parametri del CM (event size, CPU time, etc) = 400 TB e 13
kHS
•
Detector studies
– Studi tracking (106 eventi raw, 2 fb-1), studi calorimetro (106 eventi raw, 2 fb-1) +
PID e SVD
– 30 TB, 1 kHS
•
Software & Physics tools
– Charm e semileptonici con missing energy (5*108 eventi mDST, 100 fb-1)
– 25 TB, 1 kHS
•
Consolidamento del Computing Model (n.d. referee) e preparazione MoU
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
5
Belle II – richieste 2015
•
•
Per le attività 2015 sono necessari 450 TB e 15 kHS
Risorse disponibili (pledge-abili) =
– 50 TB + 0.7 kHS (ex SuperB) attualmente al CNAF
– risorse ingenti a Napoli fornite da RECAS disponibili da ottobre 2014
Richieste
• Tier1: 100 TB (28 k€ nel DB) + 4.3 kHS (52 k€)
• Tier2 Napoli: 300 TB (75 k€) + 10 kHS (120 k€)
Assegnati
• Tier1: 100 TB = 25 kE (riduzione dei CU disco al CNAF 250 €/TB) + 4.3
kHS = 43 kE (CU CPU 12 €/HS, compreso overlap CPU CNAF)
• Tier2: risparmio 195 k€ (ringraziare RECAS)
•
In prospettiva l’esperimento chiede il 40% delle risorse al CNAF e il 20%
in ognuno dei 3 Tier2 (non ancora concordato con i referee)
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
6
Infrastruttura Cloud Torino
La Sezione di Torino ha messo in piedi un’infrastruttura cloud che serve tutti gli
esperimenti e gli utenti locali
• necessaria per ovviare all’aumento di risorse nei siti e alla varietà di
applicazioni senza un adeguato incremento del manpower
• Acquisti HW in comune (costi migliori) e trasparenti agli esperimenti
• L’approccio Cloud (IaaS) ottimizza la fornitura di risorse a utenti diversi
• Siti grid
• Farm
• Utenti singoli
• Condivisione (e ottimizzazione)
delle risorse
Belle II, Bes III e Compass
sono (o saranno a breve)
completamente integrati
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
7
Bes III
•
Bes III è pienamente integrato nell’infrastruttura di Torino e ha
dimostrato all’intera collaborazione (cinesi in primis) la validità
dell’approccio.
•
Le risorse disponibili sono il 3.3 % dell’intera collaborazione contro la
quota italiana del 7.2%. Ma le attività di divulgazione del cloud
computing nell’esperimento coprono la mancanza
Test bed installato a IHEP, CERN e Dubna oltre che a Torino
•
– Success rate 100% anche se sono necessari test di scaling
– Performance confrontabili con siti non cloud
•
Torino unico sito con approccio grid on cloud in produzione e dopo i
risultati del test bed sta guidando la migrazione dell’intero computing
model alla cloud. Complimenti!
•
•
•
•
Cloud R&D ancora in corso su un testbed dedicato
Partecipazione di UniTO al progetto VLDATA alla call H2020 EINFRA-1
INFN come resource provider
si chiede personale dedicato per l’ R&D
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
8
Bes III – attività 2015
•
Nei siti fuori Cina viene svolta la produzione MC (simulazione e
ricostruzione) e i test (migrazione OS, upgrade BOSS). Non è
prevista la ricostruzione dati (per limiti sulla bandwidth)
•
Disco: 8 siti coinvolti, 50 TB ognuno come spazio disco minimo
– 30 TB random trigger
– 15 TB MC output
– 5 TB MC test
•
CPU:
– la produzione MC (had. decays) e test (bhabha e had. decays) occupa
11 mesi di WC time dei 200 core disponibili a efficienza 100%.
– Se viene approvato VLDATA saranno da fare ulteriori test
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
9
Bes III – richieste 2015
•
Disco: la collaborazione richiede che il minimo disco
disponibile nei siti sia 50 TB
– Già disponibili 20 TB, richiesto e approvato 30 TB = 7 k€
•
CPU: la collaborazione italiana si impegna a fornire 100 nuovi
core (200 già disponibili) nell’ipotesi che il progetto VLDATA
vinca la call.
– Richiesti e approvati in s.j. all’approvazione 1 kHS = 12 kE
Possibile anticipo del disco al 2014 per minimizzare i costi poiché
è in preparazione una gara per ALICE da parte del centro di
calcolo di Torino.
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
10
Compass
Il CM originale local storage oriented basato su una struttura a 2 Tier
• CERN
– Central Data Recording
– Ricostruzione
• Home Institutes
– Produzione MC
– Filtering
– Analisi
• Integrazione nella GRID
per produzione MC
• La collaborazione (italiana) si sta impegnando nei test di tool
avanzati di gestione dei job e dei dati già usati in altri esperimenti
LHC
• Passo fondamentale per il passaggio ad un completo sistema di
computing distribuito e per interfacciarsi a qualsiasi sistema cloud
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
11
Compass in Italia – TO
Farm di Torino (stand alone cluster):
• Appena terminati dei test per l’integrazione nell’ infrastruttura di
cloud della sezione
– Creazione di una replica dell’ attuale farm di esperimento
– Esecuzione di MC, analisi e simulazione FLUKA
• Test positivi, entro gennaio 2015 sposteranno la farm nella cloud
• 2.8 KHS CPU + 50 TB Disk
– 1.4 kHS e 20 TB non migrabili
• Molte attività previste nel 2015
– non quantificato il bisogno di risorse
– accounting 2014 cluster stand alone:
2.4 kHS
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
12
Compass in Italia - TS
Farm di Trieste
• farm di sezione multiesperimento
• Risorse disponibili: 2.5 KHS CPU + 65 TB Disk + Tape Library
• Attività principale: effetti di spin e momento trasverso nel SIDIS con
muoni di alta energia
• Funzionalità: replica (in copia spesso unica) dei mDST filtrati per le
analisi, produzione MC (non recentemente) e analisi dei dati
– attualmente con accesso locale ai dati
• Attività previste nel 2015
– Continuazione analisi dati SIDIS con bersaglio non polarizzato (2006)
e polarizzato (2010), analisi dati DY 2015 e ottimizzazione SIDIS
2015-16
– Risorse necessarie: ~65 TB (40 mDST MC 2010, 15 TB prod MC di
test 2016, 10 TB “spazio di lavoro”)
– Migrazione su tape di 25 TB di spazio disco di dati analisi finite
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
13
Compass – richieste TO 2015
•
Richieste
– Rimpiazzo delle risorse non integrabili nell’infrastruttura cloud:
• CPU 1.4 kHS + Disco 20 TB
– CPU 0.6 kHS aggiuntivi per analisi DY 2015
•
Assegnazioni
– Rimpiazzi: 1.4 kHS = 17 k€ + 20 TB = 4.5 k€
– Per quanto riguarda le risorse aggiuntive di CPU (non assegnate), in caso
di emergenza si potrà sfruttare la disponibilità fornita dalla farm comune
– Richiesta di anticipare il disco (6.5 k€) per gara comune ALICE e BES
•
Richieste dei referee:
– l’assegnazione dovrebbe essere s.j. all’effettiva integrazione nella cloud.
Riteniamo comunque che ciò avverrà nei tempi previsti visti l’esito dei test
preliminari e la collaboratività del CdC di Torino
– Necessità di monitorare l’uso delle risorse con un sistema di accounting
ancora non esistente
Nella prima parte del 2015 verificheremo il grado di soddisfacimento di
queste richieste
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
14
Compass – richieste TS 2015
•
•
La sezione di Trieste dispone di una farm di calcolo utilizzata da
COMPASS per attività locali
Riteniamo sia importante che COMPASS Italia faccia gli sforzi necessari
per integrarsi completamente nell’infrastruttura TIer1/Tier2
– avendo la possibilità di sfruttare le risorse presenti nei siti italiani
•
Nel breve termine, in collaborazione con il gruppo di TO, è necessario che
TS si impegni ad utilizzare la cloud del Tier2 di Torino per il proprio calcolo
•
Richieste
– Consumo (tape): 2 k€ e manutenzione tape library: 2 k€
– Storage: 20 k€ (>40 TB a CU superiori a quelli standard)
Consideriamo il 2015 come anno di transizione per cui riteniamo sia
opportuno finanziare una parte dell’incremento di storage richiesto in modo da
non danneggiare le attività di analisi e la competitività del gruppo
•
Proposte
– Manutenzione e consumi non assegnati in quanto non di pertinenza
– Storage aggiuntivo: 30 TB k€ = 7 k€ al CU standard
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
15
NA62
• Documento NA62-14-03 pubblicato il 3 aprile
– Richieste di risorse (tutte) a Tier1 basate su questo documento
• 1 anno = 1 PB di RAW, circa la stessa quantità di RECO non filtrati
• Si stima che sia possibile una riduzione di filtro pari a circa il 30%
• Per il 2015 si prevede di ricostruire al Tier-0 e poi distribuire i RECO per
l’analisi ai Tier-1
• Assumendo: 50% al CERN + 25% ciascuno a CNAF e RAL, risorse
richieste:
– 250 TB di RECO + 75 TB di RECO filtrati (30 TB già disponibili)
– 3 kHS06 per l’analisi (300 HS già disponibili)
• In corso discussione per un modello di calcolo distribuito su Grid
– Esperienza con DIRAC
– Migrata la produzione Monte Carlo su DIRAC da parte dei gruppi UK
• Assegnazioni:
– Disco 225 TB = 56 k€
– CPU 220 kHS = 27 k€
– Taglio limitato nonostante le incertezze sul CM, per limitare la crescita nel 2016
• Commenti Referee:
– Ci proponiamo di verificare nel corso del 2015 il reale utilizzo delle risorse
dopo la prima esperienza di presa dati e l’effettiva efficacia del CM
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
16
LHCf
• Risorse disponibili al CNAF
2 kHS
• CPU 2 kHS, Disco 20 TB
• Uso medio delle risorse un po’ inferiore rispetto all’assegnazione 2014, ma
comunque significativo e continuativo
• Evidente convenienza delle farm multi-esperimento, le CPU non si sprecano
mai
• Richiesta 2005: 10 TB = 3 k€ approvata
Accounting CPU
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
17
KLOE
Caso particolare rispetto al panorama del calcolo INFN, la farm ha funzioni
di Tier0-1-2 con una componente online e una offline
•
•
•
•
•
•
Risorse disponibili
Storage: 250 TB
CPU: 6 IBM servers, capacità di
calcolo: 5 pb-1/ora
Tape library: 500 TB disponibili per
nuovo data taking
Archiviazione secondaria di dati al
CNAF
Sostanzialmente tutti sistemi power PC
proprietari IBM
– Tecnologia ortogonale a tutto il resto
del calcolo INFN (in realtà a tutto il
calcolo HEP)
Molte macchine vecchie, talvolta obsolete
– Costi di manutenzione e efficienza
energetica
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
18
KLOE
Richieste 2015 per manutenzioni e ripristino rotture
•
•
•
Sono richiesti 40 kEuro per il contratto di manutenzione e 20 kEuro per ripristino eventuali
rotture (stimate sulla base dell’esperienza passata)
All'interno del contratto di manutenzione ci sono tutti quei sistemi il cui guasto porterebbe a
un blocco immediato delle funzioni essenziali all'esperimento, nel dettaglio
– Macchine per Online and DAQ
– Macchine per DB
– Server di dati
– Server AFS
– Meccanica della tape library
Sono esclusi dal contratto tutti quei sistemi che possono essere mantenuti con parti spare
che sono state acquistate, e cioè
– Le CPU in apparato
– Switch vari
• CISCO 6509, CISCO 6504, 8 CISCO 3500 e 4 CISCO 4000 Fiber Channel
– Tutti gli array dischi per un totale di 250 TB, tutti veicolati attraverso Fiber Channel
– Tutti i tape drive
– La quasi totalità delle CPU offline
CSN1 - 17/07/14
G. Carlino - Il Calcolo non-LHC
19
KLOE
• Assegnazioni:
– Manutenzione server e libreria: 34 k€ + 6 k€ s.j.
– Sostituzioni eventuali rotture: 5 k€ + 7.5 k€ s.j..
– Storage cassette per libreria a LNF: 25 k€ s.j.
• NB: il CU delle cassette è molto più alto a LNF rispetto al CNAF poiché
la tecnologia (e quindi la capacità) dei nastri e dei drive è obsoleta
• Probabilmente questo ha anche un impatto sui costi di manutenzione
della libreria
– Storage cassette per libreria al CNAF: 14 k€ s.j.
• Se KLOE ha prospettive di presa dati di alcuni anni, sarà
necessario rivedere il modello di calcolo
– Integrazione di KLOE nell’infrastruttura di calcolo dell’INFN, almeno
per quanto riguarda la parte offline, abbandonando la farm basata
su architettura proprietaria
– Porting del software da Unix AIX per power PC a Linux
– Vedi talk referee KLOE
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
20
CDF
CDF Data Preservation al CNAF
• La copia dei dati su tape è in corso e terminerà nel 2015 a causa di vari ritardi, da
marzo a oggi 15 TB/giorno contro i 40 TB/giorno precedenti. Mancano ancora da
copiare 2.1 PB, necessari 5 mesi. Possibilità di ridurre a 2-3 mesi aggiungendo 2
tape drive e aumentando la rate di pre-stage a FNAL
• In parallalo procede lo sviluppo del sistema di accesso e analisi dei dati per il
futuro
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
21
CDF – richieste 2015
•
Risorse disponibili al CNAF: 8 kHS e 470 TB
• Richieste 2015:
• Disco: mantenimento dello spazio disponibile
• CPU: mantenimento di metà delle risorse attuali = 4 kHS
• Potenza di calcolo necessaria per le attività previste, ovvero test
per la preparazione del framework di analisi a lungo termine e
analisi utenti
• Proposte
• Disco: riduzione a 400 TB, necessità di rimpiazzare 134 TB = 33 k€
• CPU: riduzione a 4 kHS, necessità di rimpiazzare 2.25 kHS = 27 k€
CSN1 - 01/10/14
Referaggio CALCOLO esperimenti non LHC
22
Riepilogo assegnazioni
CSN1 - 01/10/14
Esperimenti
Richieste (k€)
Assegnazioni (k€)
Belle II
79.5
68
Bes III
7 + 14.5 s.j.
7 + 14.5 s.j.
CDF
83
60
Compass
50.5
30.5
KLOE
61 + 38 s.j.
36.5 + 52.5 s.j.
LHCf
3
3
NA62
104
83
totale
388 + 52.5 s.j.
288 + 67 s.j.
Referaggio CALCOLO esperimenti non LHC
23