Referaggio Calcolo ATLAS
Gianpaolo Carlino
INFN Napoli
• Attività di Computing ATLAS
• Attività di Computing in Italia
• Risorse e Richieste 2013
CNAF, 11 Maggio 2012
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
2
Data Volume 2010-2011
Data volume cumulativo
registrato al Tier0
• Data volume cumulativo registrato in
GRID, costituito dalle varie repliche
distribuite nelle cloud: 90 PB
• Variazione nel tempo del formato dei
dati e del numero di repliche
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
3
Data taking 2012
• 1.2 fb-1 fino al 10 Maggio. Molto promettente!
• Per ICHEP si potrà avere la stessa statistica del 2011
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
4
Evoluzione del Computing Model
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
5
Breaking the Cloud Model
Evoluzione del Computing Model, permesso dalle alte performance della rete
• rende più flessibile il data transfer routing
• consente una distribuzione dei dati ai siti più efficiente
• consente un utilizzo ottimale delle risorse
• Facilita l’analisi degli utenti
a) Modello originale
b) Multicloud Tier2
c) Multicloud Tier1
CNAF, 11 Maggio 2012
Tier2 Diretti (T2D): Tier2 con alte performance di
trasferimento dei dati (5 MB/s verso almeno 10 dei 12
Tier1 per large files (>1 GB)) vengono definiti Tier2 Diretti
(T2D) e
• Sono siti Multicloud
• Conservano copie primarie dei dati
G. Carlino – Referaggio Calcolo ATLAS
6
Distribuzione dei dati
• Statica (planned) = distrubuzione predefinita secondo share fissati
• Dinamica (data caching) = distribuzione in base alla popolarità dei dati
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
7
Distribuzione dei dati
• Nel 2011 si è cercato il giusto rapporto tra il volume di dati trasferiti
dinamicamente e staticamente per permettere che una frazione significativa
dell’analisi fosse svolta nei Tier2 insieme ad un uso saggio del disco
• Le comunità di utenti fanno capo soprattutto ai Tier2 (cpu e disco dedicati,
accesso diretto), era dannoso concentrare l’analisi solo ai Tier1 (inizi 2011)
Replica dei dati prestabilita:
• Tier1, replica per ridondanza
(consolidamento), copia primaria
• Tier2, replica per l’analisi, primaria
• Tier2, replica extra per l’analisi, copia
secondaria
Determinata dallo share della cloud
(Tier1) e dalla classificazione (Tier2)
Replica dinamica dei dati
• Tier1 e Tier2, basata sulla popolarità
dei dati, copia secondaria
Determinata dall’utilizzo dei siti
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
8
Attività di Computing in ATLAS
Ruolo principale di ATLAS in LHC
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
9
Attività di Computing in ATLAS
Numero di job simultanei
nell’ultimo anno
Produzione:
• > 60k job, constante
• incremento inizio 2012
per reco MC11
Analisi:
• crescita lineare nel 2011
fino a > 20k job
• Alta attività nel 2012 per
le conferenze invernali
• In attesa di statistica per
riprendere l’attività seria
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
10
Attività di Computing in ATLAS
Numero di job running per attività:
• MC production e end-user analysis attività principali
• Crescita costante delle attività degli utenti
• Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in
una forma production-like
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
11
Attività di Computing in ATLAS
Tier1
•
•
•
•
Tier2
MC simul (G4) e end-user analysis attività principali
MC simul satura tutte le risorse disponibili, anche nei Tier1
Pileup (reco MC) principalmente nei Tier1 ma svolta anche nei T2D
Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma
production-like
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
12
Attività nei Tier
• I Tier2 forniscono la
maggioranza delle
risorse
• Contributo dei Tier3
non trascurabile
Tier2
Tier0
Tier3
Analisi
Produzione
Tier1
Tier2
Tier2
Tier3
Tier0
Tier0
Tier3
Tier1
Tier1
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
13
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
14
La Cloud Italiana
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
15
Utilizzo risorse al CNAF
Il CNAF è tra i migliori
Tier1 di ATLAS e lotta per
la terza posizione
CNAF, 11 Maggio 2012
INFN–T1 - 9.32%
G. Carlino – Referaggio Calcolo ATLAS
16
Utilizzo risorse al CNAF
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
17
Utilizzo risorse al CNAF
Risorse 2012 ancora non installate
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
18
Classificazione dei Tier2
•
•
Necessità di individuare i siti più affidabili per
l’analisi cui inviare la maggior parte dei dati.
Classificazione in base alle performance (stabilità)
CNAF, 11 Maggio 2012
4 Gruppi
• Alpha: (60% share): T2D con rel > 90%
• Bravo: (30% share): non T2D con rel> 90%
• Charlie: (10% share): 80% < rel < 90%
• Delta: (0% share): rel <80%
G. Carlino – Referaggio Calcolo ATLAS
19
Reliability & Availability 2011-12
Valori medi 2011-12
Frascati
Milano
rel
ava
rel
ava
98%
96%
92%
92%
Napoli
Roma
rel
ava
rel
ava
96%
95%
98%
97%
Availability =
time_site_is_available/total_time
Reliability =
time_site_is_available/
(total_time-time_site_is_sched_down)
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
20
Uso risorse nei Tier2
Uso risorse per “Processing Cloud”
per
attività
per Tier2
IT – 6.46%
Quinta cloud
La percentuale può essere molto diversa
dai pledges dichiarati a causa delle risorse
a disposizione nelle varie cloud per le
attività nazionali (anche in IT)
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
21
Uso risorse Tier2
Le reali performance dei siti sono evidenti non nel confronto
con le altre cloud, ma con le risorse a disposizione
Pledge (26600)
Pledge (18000)
• Le CPU sono utilizzate pienamente e con continuità.
• Sistematicamente oltre le pledge
• Siamo in grado di utilizzare tutte le risorse a disposizione
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
22
Efficienze
CPU/WCT - produzione
CPU/WCT - analisi
Eff produzione > 90% per tutti i siti
Eff analisi > 80% per tutti i siti
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
23
Accounting dei Tier2
Accounting ultimo mese
Frascati
Milano
Napoli
Roma 1
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
24
Accounting dei Tier2
Accounting ultimo anno
Milano
Frascati
Roma 1
Napoli
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
25
Uso risorse CPU a Milano
• I dati nell’account DGAS risentono di in problema specifico del
CE Condor che genera una sottostima dell’utilizzo, erratica e
non facilmente stimabile, anche se probabilmente contenuta
• Presentiamo quindi i dati ottenuti dalla dashboard di ATLAS,
che danno i valori relativi agli altri T2 italiani
• I commenti riguardano la comparazione con Roma che nel
2011 ha risorse in linea simili a quelle di Milano, mentre nel
2012 ha messo in linea per uso da ATLAS remoto anche circa
25% risorse unpledged che invece a Milano sono state
riservate all’uso locale PROOF. La comparazione con NA e’ piu’
complessa perche’ NA ha reso disponibili via Grid addizionali
risorse unpledged da SCOPE
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
26
Uso CPU T2: ott-dic
Torna con saturazione CPU Milano (si vede in Ganglia-MI) con up-time mil 88.6,
roma 93.7 ma Roma stava usando circa 10% sue risorse in locale per calib
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
27
Uso CPU T2: 2012
uptime 83% mi, 97.7 roma , 95.9 Na: abbiamo avuto problemi gravi di storage
e GPFS in gennaio poi qualche problema nell’upgrage di STORM a febbraio.
Tenuto conto di un po’ di isteresi ATLAS nello spedire jobs a siti che
riprendono dopo lunghi down anche della differenza delle CPU in linea, si
capisce 11.3% Mi contro Roma circa 16.8%.
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
28
Attività nei Tier2 Italiani
I Tier2 di ATLAS contribuiscono tutti alle attività di produzione e analisi di ATLAS in maniera
indifferenziata
• CPU pledge a disposizione di tutti gli utenti ATLAS
• Replica dinamica e preplaced di tutti i dati di ATLAS
L’unica differenziazione è determinata dalle aree di storage di gruppo che contengono dati di
particolare interesse per le attività italiane e dalle attività di calibrazione o di performance
•
Attività di gruppo
–
–
–
–
–
•
Aree gestite dai gruppi (pledged), dati sempre più utilizzati per l’analisi
CNAF: SUSY e TOP
Milano: MS e EGAMMA
Napoli: HIGGS e TRIGGER
Roma1: HIGGS e MUONI
Attività specifiche
–
–
–
–
Frascati: FTK
Milano: EGAMMA performance
Napoli: RPC e LVL1 Muon Trigger calibrazione e performance
Roma1: MDT calibrazione e performance
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
29
Risorse dedicate attività IT
Job running in un Tier2:
 Ultima settimana
 Ultimo anno
Produzione
Analisi Atlas
Analisi Italiana
• L’analisi viene svolta efficacemente nei
Tier2 Italiani
• Le risorse dedicate (dedicabili) sono
significative
• Permettono ai job italiani di andare in
run più velocemente senza essere
accodati agli altri
• Non solo analisi, anche prod MC
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
30
Proof on Demand (PoD)
• Proof – tool che parallelizza l’analisi con ROOT su diversi core della
stessa macchina (Proof Light) o su un cluster di nodi
• Demand – possibilità di usare, a richiesta, i nodi di una farm destinata
prevalentemente ad altri scopi (per esempio Tier2/3 in GRID)
Proof on Demand su un cluster Grid: Tier2 o Tier3

E' stato sviluppato un plugin di PoD per gLite, che da la possibilità agli
utenti di attivare un cluster Proof “on demand” su una farm in Grid
con middleware gLite e Panda a breve

Gli utenti, connettendosi ad una UI, possono lanciare PoD e riservare
un certo numero di nodi sulla farm di un Tier2/3

La gestione delle risorse e' simile a quella del cluster locale e il codice
per il setup di PoD viene fatto direttamente da cvmfs, disponibile
ormai nella maggior parte dei siti di ATLAS
PoD permette di abbandonare l’uso di un cluster statico per Proof
e mettere in comune in GRID le risorse “Tier3” dei Tier2
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
31
Uso della rete nei Tier2
Siti saturi.
La limitata banda a
disposizione determina
performance non
eccellenti come T2D
Aspettando il GARR-X
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
32
Tier-3
I Tier3 Italiani sono tutti in attività
• Finanziamenti centrali:
– GE+RM3 2010 (fondi fine 2010)
– LE+RM2 2011 (fondi 2012)
• Stato attuale (maggio 2012):
– BO, CS, GE, LE, PV, RM3 attivi
• Setup ATLAS comune a tutti
– Storage tokens
– Code Grid e locali
• Shares fra Grid/prod, Grid/anal e analisi locale definite
localmente
– RM2 in installazione
– TS solo storage e analisi locale
33
Tier-3
Contributo sia alle attività di produzione
(solo MC G4) sia di analisi (solo end user)
34
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
35
Risorse Disponibili 2012 - CPU
CPU disponibili 2012 “pledged”
CPU
Frascati
Milano
Napoli
Roma
Totale
HP06
4120
9985
9598
1080
33675
Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged:
• le CPU obsolete (fino al 2012 e già rifinanziate) ancora in produzione ma in corso di
spegnimento
• CPU non a completa disposizione dei siti
– (scope a NA, TDAQ a LNF)
• CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività
italiane (Tier3) finanziate con fondi vari
– Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it
Queste CPU concorrono alla definizione della linea blue dell’accounting che in alcuni casi è
significativamente maggiore della linea rossa
Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2012 ancora da installare
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
36
Risorse Disponibili 2012 - Dischi
Storage disponibile 2012 “pledged”
Disco
Frascati
Milano
Napoli
Roma
Totale
Totale
disponibile
396
1080
1080
1020
3576
to be
pledged
3226
Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono
conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali
• La dimensione di queste aree è di circa 100 TB per i Tier2 grandi e 50 TB per LNF
• In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più
necessari per fare spazio ai dati del 2012
• l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage
da dichiare pledged
Nel conto del disco totale disponibile sono comprese le recenti acquisizioni ancora da
installare
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
37
Risorse obsolete 2013
Risorse Obsolete nel 2013
CPU (HS06)
Disco (TBn)
Frascati
557
36
Milano
1825
184
Napoli
2051
92
Roma
1725
184
Tot
6158
496
• le CPU obsolete sono le macchine comprate nel 2009 e
installate fine 2009 inizi 2010 (non sono comprese le macchine
installate successivamente). Le CPU hanno garanzia triennale
• Lo storage obsoleto comprende le SAN comprate nel 2007 e
installate giugno 2008. Garanzia quinquennale
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
38
Risorse Attività ATLAS 2013
ATLAS ha presentato allo Scrutiny Group le risorse necessarie per le attività 2012 – 2014
Le richieste per il 2013 sono determinate da:
• simulazione MC di tutti i dati 2010-2012 + inizio simulazione a 13 TeV
• reprocessing dei dati 2011-2012 con software più performante
• processamento della delayed stream, raccolta nel 2012 e archiviata su tape
• 130 Hz di trigger speciali (200 TB di RAW data)
• analisi di gruppo e utenti
Il Computing non sarà in shut-down!
• Le risorse necessarie sono state calcolate in base all’esperienza dell’anno 2011 che ha
evidenziato le reali necessità di risorse per l’analisi utente vs altre attività centrali (MC)
Stima realistica!
• Si è tenuto conto dei notevoli miglioramenti delle performance del software
• G4 simulation time ridotto di un fattore 2 e con prospettive di ulteriore
miglioramento
• Riduzione della size degli eventi per contrastare l’effetto del pile-up
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
39
Risorse Attività ATLAS 2013
Le
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
40
Risorse Attività ATLAS 2013
Referaggio dello Scrutiny Group
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
41
Risorse Attività ATLAS 2013
Lo Scrutiny Group ha riconosciuto la necessità di risorse aggiuntive dato l’aumento dei valori
da 2013 (previous estimate) a (this scrutiny), ha tuttavia effettuato un taglio, soprattutto per i
Tier2: 4% Disco e 9% CPU
Una delle possibili motivazioni è probabilmente un uso non massimale delle risorse dei Tier2
nel 2011 cui si è ovviato con cambiamenti nel data placement e job brokering nell’anno
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
42
Richiesta Risorse 2013 - I
Le risorse necessarie per il 2013 sono determinate dalla volontà di conservare
il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni
conservando gli share di risorse pledged per le attività centrali:
– Tier1: 10%
– Tier2: 10% CPU e 7% Disco
e di garantire la competitività agli utenti italiani mediante l’uso di risorse
dedicate nei Tier2 e Tier3
CPU T1
(kHS)
Disco T1
(PB)
CPU T2
(kHS)
Disco T2
(PB)
ATLAS
Share
IT
ATLAS IT
2013
ATLAS IT
disponibile
Attività
2013
297
10%
29.7
25.0*
4.7
29
10%
2.9
2.5*
0.4
319
10%
31.9
33.7
0
49
7%
3.43
3.23
0.2
* Pledge 2012
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
43
Richiesta Risorse 2013 - II
Le risorse per le attività italiane sono già disponibili e non inclusi nel
disponibile “pledged” 2012 e non sono necessarie ulteriori richieste
Attività
2013
Attività
Italiane
Obs
Richieste
2013
k€€€€
CPU T2
0
0
6.16
6.16
86
Disco T2
0.20
0
0.50
0.70
174
Prezzi stimati:
• CPU = 0.014 k€/kHS
• Disco = 0.35 k€/PB
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
44
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
45
Risorse Attività ATLAS 2013
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
46
Risorse Attività ATLAS 2013
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
47
Risorse Attività 2013 – Tier1
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
48
Risorse Attività 2013 – Tier2
Le
CNAF, 11 Maggio 2012
G. Carlino – Referaggio Calcolo ATLAS
49