18/05/11
Attilio Picazio - Workshop ATLAS Italia
ATLAS Italia Physics Workshop
Napoli 18 e 19 maggio 2011
ANALISI DISTRIBUITA IN ATLAS
L’esperienza degli utenti
Attilio Picazio
Università di Napoli “Federico II” – INFN Napoli
18/05/11
Attilio Picazio - Workshop ATLAS Italia
2
Introduzione
• Grid Computing nel 2011
• Risultati dell’ “ATLAS Distributed Analysis User Survey”
• Un esempio di analisi
• Esperienza degli utenti italiani
18/05/11
Attilio Picazio - Workshop ATLAS Italia
Grid Computing
nel 2011
WLCG today
for LHC experiments
WLCG oggi per gli esperimenti di LHC
88!9.3-:8!5, 4=), <C!; 8<=!9.3-:>!5, 4=), <!"( 73<!9.3-:?<&
!
!
@8A=B!$GE !5*), <C!B6=!: U !H*. <V- ' /
; A=$CD!- 6<W
http://event.twgrid.org/isgc2011/slides/opening/1/K2_Bonacorsi_presentation.pdf
3
18/05/11
4
Attilio Picazio - Workshop ATLAS Italia
Site reliability in WLCG
AffidabilitàSite
dei reliability
siti in WLCG
in WLCG
>=8=$/ E6E$6EB.*+
>=8=$
/ E6E$
6EB.*+
76E-6$
E6$
F$93G
76E-6$E6$F$93G
2006
2006
2007
2007
2008
2008
2009
2009
Jul’ 06
2010
2010
2011
2011
Feb’ 11
Jul’06
Feb’11
>=8=$/ E6E$6EB.*+
76E-6$E6$F$93G
>=8=$/ E6E$6EB.*+
76E-6$E6$F$93G
2009
2009
ISGC’ 11 - Taipei - 22 Marzo 2011
2010
2010
@' <65!? *46=*)6
4P!*F!J
#$%!
Monitoraggio
di
base
dei
servizi WLCG
<65,
5!?< *46=*)64P!*F!J #$%!
<,@')+6
•<,! Ai
)+6
5, <, )Q9V: V8!7, +, 7<
' T0/T1/T2
=!X6
' =!X6
9V:
V8!7
7,</!64P), - 6, 4=!
A6=,! <!),
76', .)Q6
76=/!6
<!', +,!W
L’affidabilità
dei siti è un ( 3L 4P!
64!=B,
!<355,
A6=, <!),
76' . 6<<!*F!#N$!$*?
76=/!6<!' !W,/!64P), - 6, 4=!
ingrediente
chiave
per7' il. *)'
successo
!
1, <37
=!*F!' <<!*F!#N$!$*?
!B3P, !5*7
L (+,3L
!D *)W
64!=B,
!<355,
4P!
del! ! Computing
di
LHC
XB' 4W
#$%!'
4- !<6=, !' - ? 64<Y
1, <37<!=*!J
=!*F!' !B3P,
!5*7
7' . *)' L +, !D*)W
• Risultato di un enorme lavoro di
! XB' 4W
<!=*!J #$%!' 4- !<6=, !' - ? 64<Y
Daniele Bonacorsi [CMS]
4
collaborazione
ISGC’11 - Taipei - 22 Marzo 2011
Daniele Bonacorsi [CMS]
http://event.twgrid.org/isgc2011/slides/opening/1/K2_Bonacorsi_presentation.pdf
4
18/05/11
5
Attilio Picazio - Workshop ATLAS Italia
ATLAS Distributed Analysis User Survey
• Obiettivi:
Valutazione generale dell’esperienza degli utenti dell’Analisi Distribuita
Idee per possibili sviluppi futuri dell’Analisi Distribuita
21.2%
19.9%
15.4%
15.8%
13.3%
12.0%
None
Trigger
4.6%
Top
SUSY
Standard Model
Software
Jet/EtMiss
Inner Tracking
I risultati integrali del test si trovano al link:
https://twiki.cern.ch/twiki/bin/viewauth/Atlas/Dis tributedAnalysisSurvey2011
Tau
4.6%
1.7%
0.8%
Higgs
Heavy Ions
Flavour Tagging
Exotics
2.5%
Monte Carlo
5.8%
8.7%
8.3%
4.6%
Luminosity
9.5%
B Physics
–
241 Utenti
circa il 70%
Dottorandi e PostDoc
Diversi gruppi di
lavoro
e/gamma
–
–
27.0%
Data preparation
• Campione analizzato:
70
60
50
40
30
20
10
0
Q43: In which group(s) are you
working?
Computing
43 domande
Risposta multipla o aperta.
Combined Muon
• Modalità:
6
18/05/11
6
Attilio Picazio - Workshop ATLAS Italia
Formato dei dati utilizzati
per le analisi
Q3: Which data types/formats do you
analyse on the Grid?
180
Formato dei dati
prevalentemente
analizzati sulla Grid
70.1%
160
52.7%
140
120
100
35.3%
80
60
12.0%
40
13.3%
6.6%
20
0
Q2:
Which data types/formats do you analyse
AOD
D3PD
dAOD
dESD
ESD
Other
on your
local
workstation
or batch
system?
Formato dei dati
prevalentemente
analizzati su workstation
locali o sistemi batch
200
180
160
140
120
100
80
60
40
20
0
10
72.2%
27.0%
AOD
•
•
•
•
24.5%
12.0%
D3PD
8.3%
4.1%
dAOD
dESD
ESD
Other (User
ntuples,
etc…)
Strong local D3PD usage
ESD: Event Summary Data -> Contengono
tutte le informazioni dell’evento
9
AOD: Analysis Object Data -> Contengono le informazioni di maggiore interesse per l’analisi
D3PD: Derived Physics Data -> Formato in rappresentazione tipo ennupla derivato da gli AOD
dAOD e dESD: equivalenti a AOD e ESD rispettivamente ma con selezioni sugli eventi
18/05/11
Formato dei
Attilio Picazio - Workshop ATLAS Italia
Q10:
What is the output format7 of
your analysis?
dati di output
e Tools usati
200
File di Outputs dei jobs
eseguiti sulla Grid
73.0%
180
66.0%
160
140
120
100
80
23.2%
60
40
5.0%
20
5.4%
Q13:
Which of the following DA tools do
0
AOD use? D3PD
you
(selecthistograms
all that n-tuple
apply) Other
Large fraction with customized output formats
Tools di Analisi Distribuita
prevalentemente utilizzati
200
180
160
140
120
100
80
60
40
20
0
78.4%
66.4%
18
66.4%
29.9%
8.7%
3.7%
9.1% 5.4%
21
pAthena e Ganga: tools per girare Athena sulla Grid
pRun: tool per girare macro di root e programmi in C++ sulla grid
18/05/11
Attilio Picazio - Workshop ATLAS Italia
8
Sottomissione dei Job
=3.39
Quanto spesso i Jobs vengono
indirizzati verso particolari siti o clouds
=3.07
=3.34
Affidabilità complessiva della Grid Q30: Reliability of the grid: On average what fraction
of your
Grid are
jobsdirecting
fail when you
are processing a=3.10
large
Most users are not blindly submitting jobs
– they
them
somewhere known to be reliable. Not a good sign. dataset container?
Frazione di subjobs falliti per
sottomissione
Il fallimeto dei subjobs è spesso dovuto a
problemi di accesso alle risorse di Storage
30
38
18/05/11
9
Attilio Picazio - Workshop ATLAS Italia
Q32: What do you typically do with
your Grid output data?
Recupero dei dati in uscita
250
94.6%
200
150
Principali operazioni fatte
dagli utenti con i loro
outputs
35.7%
100
23.2%
50
0
0.4%
0.4%
Most want
outputs off
grid.
Dq2-get is
essential.
1.2%
0.4%
0.4%
43
Come si apprende l’uso della Grid?
Q35: How did you learn to use the Grid?
250
90.5%
200
150
49.4%
100
25.3%
18.3%
50
0
0.4%
4.1%
6.6%
2.5%
47
Percentuali molto alte di utenti
hanno imparato ad usare la Grid
grazie ai documenti delle Twiki e a
informazioni fornite dai colleghi.
18/05/11
Attilio Picazio - Workshop ATLAS Italia
10
Selezione di Siti e Clouds Utilizzate
• Molti users hanno personali “Black-list” dei siti (da
esperienza maturata) e preferiscono l’utilizzo delle
Clouds: US, DE
• Buona percentuale di users preferiscono la Cloud
IT e TRIUMF
• Considerevole quantità di jobs mandati ai T2, data
la disponibilità di dati sui LOCALGROUPDISK
• La risposta più frequente degli utenti nella
selezione di siti e cloud è stata: “quello più
disponibile al momento”
18/05/11
Attilio Picazio - Workshop ATLAS Italia
11
Un esempio di workflow: l’esperienza del gruppo di Napoli per gli
studi sulle performance del trigger muonico
data10_7TeV.00167776.physics_Muons.recon.ESD.f299
JpsiIT: il nostro tool di analisi
•
•
•
Girato con pAthena sulla
grid
Produce N-tuple di grandi
dimensioni
non selezioniamo una cloud
preferita
JpsiIt
Formato dati ESD:
 6 pb-1
 Spazio disco ~3.6
TB
 N Eventi 7318938
 N Files 4015
JpsiItDumper
Principali utilizzi del nostro
codice:
 T&P per lo studio delle
effiienze di trigger muonico
 analisi della J/ψ in protoneprotone e in Heavy Ions
JpsiItDumper: Macro di
taginvmass1
taginvmass2
485457
Entries 257279
2.98
3.008
Mean
0.4431
0.5879
RMS
Massa invariante(GeV) per q=0
6000
massa invariante
5000
Massa invariante(GeV) per q=0
Massa invariante(GeV) per q=/0
4000
3000
2000
1000
2
2.2
2.4
2.6
2.8
3
3.2
3.4
3.6
4
3.8
m (GeV)
Root che esegue un ulteriore
skimming degli eventi
• Girato con pRun sulla grid
• Gira sui Datasets di output
di JpsiIt
18/05/11
Attilio Picazio - Workshop ATLAS Italia
12
Esperienza di altri utenti italiani
Tra gli utenti italiani “intervistati” si possono distinguere due categorie di analisi:
Performance e trigger
Formato dati utilizzato: ESD e AOD
La dislocazione dei datasets
(soprattutto degli ESD), non
permette di scegliere una
particolare cloud.
Gli utenti scrivono delle liste
personali con l’elenco dei siti
più problematici al momento
dell’analisi.
Analisi di fisica
(Bphys, SM, Higgs, SUSY…)
Formato dati utilizzato: D3PD e AOD
Per queste analisi spesso si
ricorre alla sottoscrizione dei
datasets nei local group disk
per usufruire delle risorse dei T2
Affidabilità riscontrata dagli utenti italiani contattati dell’ordine del 90%
18/05/11
Attilio Picazio - Workshop ATLAS Italia
13
La Grid è uno strumento essenziale per l’analisi dei dati ad LHC ma…
c’è qualche perplessità sull’attuale modello di calcolo
La tendenza degli utenti negli ultimi mesi è quella di creare delle ntuple o D3PD comuni per gruppi di analisi. Questo comporta una
diminuzione dell’utilizzo complessivo della grid.
code meno affollate?
No, perché i dati ultimamente sono
replicati solo ai T1
La replica ai T2 è solo a valle di una procedura di ranking
Si gira poco o niente ai T2 e l’analisi globale ne risulta rallentata
18/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
14
ANALISI DISTRIBUITA IN ATLAS
Computing Point of View
G. Carlino
INFN Napoli
18/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
15
IL CM – analisi critica e sviluppi
Presa dati 2010. Sufficiente esperienza per una valutazione critica del CM
• La griglia sembra funzionare
• scala oltre i livelli testati nelle varie fasi di commissioning
• gli utenti stanno familiarizzando con i tool di analisi e gestione dei
dati, selezionando quelli migliori (panda vs. WMS), sono mediamente
soddisfatti
• Critiche negli anni al nostro CM
• richiesta eccessiva di spazio disco
• proliferazione del formato dei dati
• eccesso di repliche dei dati
• Superamento dei punti deboli
• accounting dell’accesso ai dati: determinazione della loro popolarità
• cancellazione automatica dei dati meno popolari
• replica dinamica ai Tier2 solo dei dati utilizzati dagli utenti
Gianpaolo Carlino- Workshop ATLAS Italia
18/05/11
16
Data popularity & deletion
•
•
•
•
Accounting dell’accesso ai dati
Alla base del sistema di cancellazione delle repliche
Fornisce una statistica dei formati più utilizzati (popolari) per l’analisi
Fornisce una statistica dell’uso dei siti
Fornisce una statistica dei tool di analisi più usati
I dataset meno popolari possono essere cancellati dopo essere stati replicati nei siti
• bisogna assicurare la custodialità prevista dal Computing Model
• replica sempre tutti i dati nuovi per l’analisi senza penalizzare le cloud più piccole
• risparmio significativo di spazio disco
ATLAS usa un sistema automatico di cancellazione basato sulla classificazione dei dataset e
la misura del numero di accessi
• custodial data: cancellabili solo se obsoleti (RAW, ESD o AOD prodotti nella cloud)
• primary data: cancellabili solo se diventano secondary (dati previsti dal CM)
• secondary data: solo questi possono essere cancellati se non popolari in base alla loro
anzianità
Cancellazione dei dati secondari meno
popolari quando lo spazio disco occupato
supera una soglia di sicurezza
Permette una continua rotazione dei dati
Gianpaolo Carlino- Workshop ATLAS Italia
18/05/11
17
Evoluzione del Computing Model – PD2P
Perché replicare i dati se poi vengono cancellati?
• Nel 2010 si sono replicati milioni di file (spesso molto piccoli)
• replica in tutti i siti (70+) e solo in pochi sono stati realmente acceduti
Non esiste un metodo più intelligente?
• Evoluzione del Computing Model verso un modello meno rigido che ottimizzi le risorse
disponibili: riduzione del disco necessario e utilizzo di tutte le CPU
• il paradigma è invariato: i job vanno dove sono i dati ma, sfruttando l’efficienza del sistema di
data management e le performance della rete, la replica dei dati è triggerata dai job stessi
Panda Dynamic Data Placement Model (PD2P)
Modello di distribuzione dei dati basato sull’idea di considerare gli storage dei T2 come cache
• nessun dato pre-placed nei Tier2, stop alle repliche automatiche
• immutata la distribuzione automatica dei dati nei Tier1
• Panda esegue la replica dei dati verso un Tier2 della stessa cloud quando c’è un job al Tier1
che li richiede
• i successivi job girano o al Tier1 o al Tier2 dove è stata eseguita e completata la replica
• clean up dei Tier2 quando lo storage
è pieno basato sul sistema di popolarità
Evitata la catastrofe
ultravioletta nei Tier2
1818/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
18
PD2P nel 2011
Nel 2010 il PD2P ha dato risultati positivi. Estensione del modello anche a causa delle
nuove condizioni di run di LHC che hanno reso necessaria una sensibile riduzione del
numero di repliche di dati nella griglia
•
•
•
Cancellazione dei cloud boundaries: trasferimenti infra-cloud tra Tier1 e Tier2
Trasferimenti anche tra Tier1
Extra repliche in base al riutilizzo dei dati già trasferiti e al numero di richieste di accesso
contemporanee al singolo dataset
Primi risultati del nuovo modello
•
•
L’algoritmo di brokering dei dati e dei job di analisi, basato sul numero di job running nei
siti, sembra stia favorendo troppo i Tier1 penalizzando i Tier2.
• Pochi dati ai Tier2 (in tutte le cloud)
• Pochi job di analisi nei Tier2 (in tutte le cloud)
Utilizzo non efficiente delle risorse di ATLAS e insoddisfazione da parte degli utenti
L’ ADC team in collaborazione con le cloud sta analizzando il modello per verificarne la
bontà e determinare le modifiche necessarie
• modifiche dell’algoritmo di brokering
• preplacement di una frazione di dati nei T2D
TIM Workshop a Dubna a inizi giugno nel quale descriverò l’esperienza degli utenti italiani
(feedback very welcome)
1918/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
ATLAS Cloud Model
19
Modello gerarchico basato sulla
topologia di rete di Monarc
• Comunicazioni possibili:
• T0-T1
• T1-T1
• Intra-cloud T1-T2
• Comunicazioni vietate:
• Inter-cloud T1-T2
• Inter-cloud T2-T2
Limitazioni:
•
•
•
Impossibile fornire una replica completa
di dati per l’analisi ad ogni cloud
Trasferimenti tra le cloud attraverso salti
multipli tra i Tier1
• User analysis outputs
Tier2 non utilizzabili come repository di
dati primari per il PD2P o di gruppo
2018/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
20
ATLAS Cloud(less) Model
Breaking the Wall
•
•
•
La rete attuale permette il
superamento del modello Monarc:
• molti Tier2 sono già ben
connessi con molti Tier1
• Abilitazione delle connessioni
inter cloud
Superamento di una gerarchia
stretta tra Tier1 e Tier2
Scelta dei Tier2 adatti
•
•
alcuni Tier2 sono mal collegati
anche con il proprio Tier1
Non tutti i Tier2 hanno le
dimensioni e le performance
necessarie
2118/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
21
Tier2 Diretti
T2D – Tier2 “Directly Connected”
• Tier2 connessi direttamente tra di loro
e a tutti i Tier1
• Storage per dati primari come i Tier1
• Preplacement di una quota di dati
• Data source per il PD2P
• Group data
• Disponibilità di una quota di disco nei Tier1 come
cache
• Requirement molto stretti
• Metriche di trasferimento con tutti I Tier1
• Livello di commitment e reliability adeguato
Avg(Byterate)+StD(Byterate)
SMALL
<0.05MB/s
<0.1MB/s
≥0.1MB/
s
MEDIUM
<1MB/s
<2MB/s
≥2MB/s
LARGE
<10MB/s
<15MB/s
≥15MB/s
T2D approvati:
INFN-NAPOLI- ATLAS, INFN-MILANO-ATLASC, INFNROMA1
IFIC-LCG2, IFAE, UAM-LCG2
GRIF-LPNHE, GRIF-LAL, TOKYO-LCG2
DESY-HH, DESY-ZN, LRZ-LMU, MPPMU
MWT2_UC,WT2, AGLT2,BU_ATLAS_Tier2, SWT2_CPB
UKI-LT2-QMUL, UKI-NORTHGRID-LANCS-HEP, UKINORTHGRID-MAN-HEP, UKI-SCOTGRID-GLASGOW
Siti che faranno parte
da subito di LHCOne
18/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
Attività in ATLAS
22
Numero medio di jobs di produzione running per cloud
• > 50k job simultanei.
• Produzione: Ricostruzione (T1),
Simulazione e Analisi di gruppo
(produzione centralizzata di D3PD
in alcuni gruppi)
Numero medio di jobs di analisi running per cloud
• ~ 10k job simultanei. riduzione analisi
nel 2011.
• aumento attività analisi di gruppo:
• aumento della coordinazione.
Minore caoticità e duplicazione dei
dati
• centralizzazione della produzione:
in molti casi accountata come
produzione
• analisi finale off grid su ntuple
18/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
WCT consumptions dei job di produzione.
Giugno 2010 – Maggio 2011
Utilizzo risorse in Italia
23
18/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
24
Sharing delle risorse
Tra le attività
nei Tier2
Attività nei Tier2
Job running su un Tier2
• Produzione
• Analisi WMS
• Analisi Panda
• Analisi Panda ruolo italiano
(Gli italiani vengono mappati sia su
panda che su panda/it, risorse dedicate)
Buona efficienza in tutti i siti, superiore alla media, anche per i job di analisi
18/05/11
25
25
Gianpaolo Carlino- Workshop ATLAS Italia
Reliability & Availability – 2010/11
Valori medi 2011
Frascati
Milano
rel
ava
rel
ava
95%
94%
93%
93%
Napoli
Buona affidabilità in tutti i siti, superiore
alla media WLCG. Molto spesso i problemi
ai siti sono dovuti a cause esterne
Availability =
time_site_is_available/total_time
Reliability =
time_site_is_available/
(total_time-time_site_is_sched_down)
Roma
rel
ava
rel
ava
93%
92%
98%
97%
18/05/11
Gianpaolo Carlino- Workshop ATLAS Italia
26
Osservazioni conclusive
L’attività di computing in ATLAS è soddisfacente ma il frequente cambiamento delle condizioni al
contorno comporta la necessità di continue modifiche al CM per adattarsi ad esse e alle necessità
degli utenti. Reazioni sufficientemente veloci nei limiti del possibile
Analisi
• appartente variazione del workflow di molte analisi comportano una riduzione dell’attvità nella
griglia, temporanea?
• utilizzo delle risorse tra Tier1 e Tier2 al momento sbilanciato, tuning in corso
Tier1 e Tier2 italiani
• Il CNAF è tra i migliori Tier1 di ATLAS
• le CPU al CNAF e ai Tier2 sono quasi sempre sature
• Le efficienze e le affidibilità dei siti sono superiori alla media
Utilizzo delle risorse italiane
• la riduzione del numero di repliche di dati nella griglia e l’uso dei container di dataset non
permettono di selezionare i siti o la cloud su cui runnare i propri job
• può però essere intensificato l’uso dei Tier2 italiani per le attività dei nostri gruppi in modo da
sfruttare le risorse di CPU e disco dedicate agli utenti sottoscrivendo gli output del primo step delle
analisi nei LOCALGROUP