Referaggi Computing ATLAS

Relezione Riunioni
Referaggio Calcolo
ATLAS
Gianpaolo Carlino
INFN Napoli
GGI Arcetri, 6 Settembre 2011
• Computing Model News
• Attivita’ Computing 2011
• Richieste Tier2 2012
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
1
Referaggi Computing ATLAS
1. 13 Maggio – Bologna
• Discussione delle risorse 2012 nel Tier1
• Discussione delle risorse pledged 2012 nei Tier2
2. 20 Giugno – Frascati
• Richiesta di promozione di Frascati a Tier2 ufficiale
• Incontro precedente tra Direttore Frascati, Membro di Giunta, Referee
e Gruppo Frascati
3. 5 Luglio - Napoli
• Discussione delle risorse 2012 nei Tier2 e Tier3 per le attività italiane
+ discussioni sul Computing Model, attività e performance in ogni riunione
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
2
Computing Model news
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
3
ATLAS Cloud Model
• Modello gerarchico basato sulla
topologia di rete di Monarc
• Comunicazioni possibili:
• T0-T1
• T1-T1
• Intra-cloud T1-T2
• Comunicazioni vietate:
• Inter-cloud T1-T2
• Inter-cloud T2-T2
Limitazioni:
• Richiesta eccessiva di spazio disco:
impossibile fornire una replica di dati
per l’analisi ad ogni cloud
• Trasferimenti tra le cloud attraverso
salti multipli tra i Tier1
• User analysis outputs
• MC confinato nella cloud
• Tier2 non utilizzabili come repository
di dati primari
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
4
ATLAS Cloud(less) Model
Breaking the Walls
• La rete attuale permette il
superamento del modello a cloud
• molti Tier2 sono già ben
connessi con molti Tier1
• Abilitazione delle connessioni
inter cloud
• Superamento di una gerarchia
stretta tra Tier1 e Tier2
• Scelta dei Tier2 adatti: non tutti i
Tier2 hanno le dimensioni e le
performance necessarie
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
5
Tier2 Diretti
T2D – Tier2 “Directly Connected”
• Tier2 connessi direttamente tra di loro
a tutti i Tier1
• Storage per dati primari come i Tier1
• Preplacement di una quota di dati
• Group data
• Requirement molto stretti
• Metriche di trasferimento con tutti I Tier1
• Livello di commitment e reliability adeguato
Avg(Byterate)+StD(Byterate)
SMALL
<0.05MB/s
<0.1MB/s
≥0.1MB/s
MEDIUM
<1MB/s
<2MB/s
≥2MB/s
LARGE
<10MB/s
<15MB/s
≥15MB/s
T2D approvati nella prima fase:
INFN-NAPOLI- ATLAS, INFN-MILANO-ATLASC, INFN-ROMA1
IFIC-LCG2, IFAE, UAM-LCG2
GRIF-LPNHE, GRIF-LAL, TOKYO-LCG2
DESY-HH, DESY-ZN, LRZ-LMU, MPPMU
MWT2_UC,WT2, AGLT2,BU_ATLAS_Tier2, SWT2_CPB
UKI-LT2-QMUL, UKI-NORTHGRID-LANCS-HEP, UKI-NORTHGRID-MAN-HEP,
UKI-SCOTGRID-GLASGOW
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
Siti che faranno parte
da subito di LHCOne
6
Classificazione Tier2
4 Gruppi:
• Necessità di individuare i siti più affidabili per
• Alpha: (60% share): T2D con rel > 90%
l’analisi cui inviare la maggior parte dei dati.
• Bravo: (30% share): non T2D con rel> 90%
• Classificazione in base alle performance (stabilità) • Charlie: (10% share): 80% < rel < 90%
• Delta: (0% share): rel <80%
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
7
Analisi in ATLAS e
attività italiane
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
8
2011 LHC pp data taking
2011 (aggiornato al 4 settembre)
Lumonsità Integrata ~ 2.5 fb-1
Luminosità di picco = 2.37 x 1033 cm-2s-1
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
9
• Logical data: singola copia dei dati prodotti
• Physical data: insieme di tutte le copie
prodotte e replicate nelle cloud
TB
Logical data
Physical data
TB
TB
2011 LHC pp data taking
Data in Italy
• Significativa riduzione del numero di copie
e di formati di dati replicati nella griglia
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
10
Produzione in ATLAS
Numero medio di jobs di produzione running per cloud
• > 50k job simultanei (60k presa dati 2011, riduzione agosto per
problemi con G4).
• Produzione: Ricostruzione (T1), Simulazione e Analisi di gruppo
(produzione centralizzata di D3PD in alcuni gruppi)
Firenze, 6 Settembre 2011
Previsione simulazione MC
• 2011: 1000M fullsim
• 2012: 600M full + 6000M fast
G. Carlino – Relazione Referaggi Computing ATLAS
11
Analisi in ATLAS
Numero medio di jobs di analisi running per cloud
• > 10k job simultanei (15k/20k negli ultimi mesi) .
• Riduzione analisi nel 2011. Aumento attività analisi di gruppo:
• aumento della coordinazione. Minore caoticità e duplicazione dei dati
• centralizzazione della produzione: in molti casi “accountata” come produzione
• Aumento negli ultimi mesi
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
12
Come si fa l’analisi
Produzione
• produzione centralizzata di AOD e ESD nella prompt
reconstruction al Tier0 e nei reprocessing ai Tier1
• produzione centralizzata di Derived AOD e ESD
(DAOD e DESD) attaverso skimming e slimming
• produzione di gruppo “centralizzate” di ntuple e di
gruppi di utenti (D3PD e NTUP)
Workflow (principale) di analisi
• fase 1: skimming da AOD/ESD/D3PD e produzione
di ntuple D3PD o NTUP
• eseguito centralmente dai working group
• eseguito in Griglia
• output in GROUPDISK o LOCALGROUPDISK
• fase 2: skimming/slimming dei D3PD e produzione
di NTUP di (sotto)gruppo leggere
• eseguito da utenti o gruppi locali
• eseguito in Griglia
• output in LOCALGROUPDISK
• fase 3: analisi finale
• NTUP nei LOCALGROUPDISK dei Tier2/3
• eseguita in Griglia con PRUN
• o eseguita in locale con ROOT/PROOF
Firenze, 6 Settembre 2011
RAW
AOD
ESD
DESD
DAOD
D3PD
NTUP
Utilizzo formati di analisi
• RAW utilizzati solo per la ricostruzione e
presenti solo nei Tier1
• ESD utilizzati solo per analisi di
performance e presenti solo nei Tier1
• AOD/D3PD/NTUP molto utilizzati
• DAOD e DESD utilizzo molto marginale,
formato in via di estinzione
G. Carlino – Relazione Referaggi Computing ATLAS
13
Utilizzo dei formati di dati
# utenti individuali che accedono alle code di analisi in ITALIA
• AOD e Ntuple formati nettamente preferiti
• evidente incremento negli ultimi mesi
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
14
Ruolo dei Tier2 nell’analisi
Storicamente (TDR) ATLAS prevedeva di conservare in ogni cloud una copia completa
di dati per l’analisi. Lo spazio disco necessario a tale scopo si è rivelato eccessivo con
l’inizio della presa dati, per cui si è ridotto il numero di copie disponibili nella Griglia
• I dati sono distribuiti in tutta la Griglia e i job runnano nei siti (Tier1 e Tier2) dove
sono conservati i dati (massima democrazia)
• I Tier2 sono grandi cache di disco per i principali formati di dati di ATLAS
• Non esiste quindi una corrispondenza Tier2  canale di analisi
• molti Tier2 hanno uno spazio pledged di gruppo, gestito dai gruppi di ATLAS
• ogni Tier2 ha uno spazio disco locale a disposizione degli utenti nazionali
• questi spazi disco vengono utilizzati per l’ultima fase delle analisi
Caratterizzazione dei Tier2 Italiani, in seguito alle attività di
costruzione e di studio delle performance dei rivelatori e del trigger
• Frascati: Fast Tracker (FTK)
• Milano: Studio Performance EtMiss e calibrazioni EM
• Napoli: RPC e LVL1 muon calibration
• Roma1: MDT calibration (centro ufficiale di calibrazione)
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
15
Ruolo dei Tier2 nell’analisi
Attivita’ ultimi 3 mesi
(T1 dovrebbe essere 25%)
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
16
Sharing risorse nei Tier2
Job running su un Tier2
nell’ultimo mese:
• Produzione
• Analisi WMS
• Analisi Panda
• Analisi Panda ruolo italiano
Attenzione:
• Gli italiani vengono mappati sia su
panda che su panda/it
• Analisi di gruppo (p.es calibrazione)
risulta come produzione
• gli italiani con certificato CERN (non
pochi) vengono mappati su panda
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
17
Utilizzo risorse in Italia
CPU consumptions. Marzo – Agosto 2011
6
INFN-FRASCATI
10
9
INFN-MILANO
IT
Efficienza job produzione
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
18
Analisi nei Tier2
Eff. job analisi
CPU consumptions. Giugno – Agosto 2011
Nota:
non abbiamo
ancora installato le
risorse 2011
7
IT
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
19
Uso del disco nei Tier2
Trasferimenti dei dati nei Tier2 in atto dall’estate 2010
• sistema dinamico basato sulla popolarità dei dati: PD2P
• no preplacement dei dati principali
• storage nei Tier2 usato come cache: cancellazione dei dati meno utilizzati o vecchi
Modifiche nel 2011 aggiungendo anche i Tier1 nel meccanismo dinamico per compensare la
diminuzione del numero di copie di dati nella griglia
• Il nuovo meccanismo di brokering del PD2P ha penalizzato pesantemente i Tier2 nel trasferimento
dei dati: uso ridotto dei del disco nel periodo maggio-luglio
• Inoltre, il formato più popolare e quindi trasferito è NTUP, leggero!
Modifiche all’algoritmo da fine luglio con significativo aumento, e utilizzo, dei dati trasferiti nei Tier2
• Circa 50 TB al mese di dati
principali per ogni Tier2
• Ulteriore aumento atteso
per pre-placement degli AOD
• Nessun rischio saturazione, i
dati sono secondari e quindi
cancellabili per copiarne di
nuovi. I Tier2 sono cache
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
20
Reliability & Availability – 2010/11
Valori medi 2011
Frascati
Milano
rel
ava
rel
ava
97%
96%
91%
91%
Napoli
Roma
rel
ava
rel
ava
94%
94%
98%
97%
Availability =
time_site_is_available/total_time
Reliability =
time_site_is_available/
(total_time-time_site_is_sched_down)
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
21
Accounting Tier2
Frascati
Milano
Problemi condizionamento in
agosto e al mw dello storage
non dipendente dal sito
Napoli
Firenze, 6 Settembre 2011
Roma1
G. Carlino – Relazione Referaggi Computing ATLAS
22
Richieste 2012
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
23
Richieste 2012
Modifica della stima delle risorse necessarie rispetto alle previsioni del 2010
a causa di:
o variazioni dell’attività di LHC: run 2012 e shut-down 2013 richiedono un
maggior numero di risorse per il computing
o pile-up molto più alto del previsto (μ=6 medio, atteso fino a μ=~25 in
autunno e nel 2012) provocato dall’aumento della densità dei fasci
 raddoppio delle dimensioni degli eventi e del tempo di ricostruzione:
100 HS-sec determinato dai dati 2010 raddoppiato a 200 HS-sec
Risorse 2011 già determinate per cui si è reso necessario modificare il CM, in
particolare riducendo il numero di repliche dei dati primari nelle cloud:
 1 copia di RAW nei Tier1
 rolling buffer del 10% di ESD nei Tier1
 10 copie di AOD (2 Tier1 e 8 Tier2) in tutte le cloud
 2 copie di dESD nei Tier1 e 4 nei Tier2
• somma dESD = somma AOD
in base a questo modello le risorse 2012 aumentano molto poco o nulla
rispetto all’RRB 2010
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
24
Computing Model – Input parameters
Campagne di ottimizzazione in
corso in ATLAS che hanno
portato alla riduzione della
dimensione degli eventi e dei
tempi di ricostruzione:
• RAW = 1.2 MB
(compressione dati)
• ESD e AOD = 1.1 e 0.161 MB
(riduzione aggressiva delle
informazioni senza penalizzare
il contenuto fisico)
• Full Sim: 4950 HS sec
• Real Recon: 108 HS sec
Il risparmio di risorse
permette un di aumentare il
trigger rate come richiesto dai
gruppi di fisica
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
25
Computing Model – Input parameters
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
26
Risorse “pledged” per attività - CPU
Attività principali:
Simulazione e analisi di gruppo
e di utente.
Simulazione e analisi di gruppo
condivise con i Tier1.
leggero aumento rispetto al 2011 per l’attività degli utenti. In assoluto aumenti molto contenuti
grazie alla modifica del Computing Model. Richieste identiche a quelle effettuate nell’RRB 2010!!!!
 Simulazione: 10% di ATLAS
• 5600 HS
 Attività gruppi: 8 gruppi (2 gruppi a Milano, Napoli e Roma e 2 nuovi gruppi a Frascati)
su ~ 100 gruppi ATLAS
• 46400 HS
 Analisi ATLAS: 10% di ATLAS (quota “pledged” escludendo l’attività italiana)
• 18000 HS
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
27
Risorse “pledged” per attività - disco
 Simulazione MC: 50% di una replica completa
• 1000 TB + 60 TB (buffer produzione)
 Dati pp: 50% di una replica completa
• 1313 TB
 Attività gruppi: 8 gruppi (2 gruppi a Milano, Napoli e Roma e 2 nuovi a Frascati)
• 600 TB (75 TB per gruppo)
 Analisi: area scratch per utenti generici
• 100 TB (area scratch per utenti generici)
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
28
Risorse “pledged” - riepilogo
Attività
CPU (HS06)
Disco (TBn)
LHC data taking
1320
Simulazione
5600
1060
Gruppi ATLAS
4640
600
Analisi
18000
100
Totale
28240
3080
T2 Italia
T2 ATLAS
T2 It/ATLAS
CPU
(kHS06)
28,2
295
9.6%
Disco
(PBn)
3,08
49
6,3%
Firenze, 6 Settembre 2011
Nel nuovo modello di calcolo di ATLAS
per i Tier2 acquista maggiore
importanza la disponibilità di CPU
rispetto allo storage. Utile per la
competitività dei siti
• conservare le stesse pledge 2010 per il
disco (~6%)
• aumentare quelle delle CPU a ~10%
come al CNAF
G. Carlino – Relazione Referaggi Computing ATLAS
29
Organizzazione Spazio Disco in ATLAS
Aree di storage previste
• DATADISK: area permanente, pledged, per i dati “centrali” di ATLAS
• GROUPDISK: area permanete, pledged, per i dati dei gruppi di fisica e performance
• SCRATCHDISK: area temporanea, pledged, presente in tutti i siti in cui si svolge
l’analisi destinata ai dati degli utenti. Ripulita ogni 15 giorni o quando piena
• LOCALGROUPDISK: area permanente, non pledged, destinata a conservare i dati
degli utenti
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
30
Organizzazione Spazio Disco in ATLAS
Necessario uno spazio disco locale (LOCALGROUPDISK) nei TierN per conservare i
dati dei gruppi e degli utenti italiani
• nei Tier2 O(100 TB) per conservare l’intera statistica di dati degli utenti italiani
• nei Tier3 O(10 TB) per conservare sample ridotti per interattivo, sviluppo e
definizione dell’analisi
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
31
Risorse per attività italiane
Storage: Necessità assoluta
Spazio disco locale (LOCALGROUP) nei Tier2 e Tier3 per ogni attività italiana.
ATLAS non considera nessuna area di storage permanente per gli utenti
Queste aree possono essere ospitate sia nei Tier2 che nei Tier3 con diverse
funzionalità e dimensioni:
• Tier2: dimensione O(100 TB) - utilizzo per ospitare campioni completi dei dati
prodotti da tutti gli utenti e i gruppi italiani
• Tier3: dimensione O(10 TB) – utilizzo per ospitare campioni ridotti dei dati per
definire e tunare le analisi con tool interattivi e batch locale. Sviluppo del codice
• Le aree locali nei Tier2 e Tier3 vanno considerati complementari. L’aumento
dell’attività nei Tier3 porta a rimodulare le richieste diminuendo lo spazio disco
richiesto nei Tier2 a favore di quello dei Tier3
• Inoltre il nuovo modello di utilizzo del disco dei Tier2 come cache permette di
limitare le richieste pledged a favore dell’area locale di storage permanente
CPU: aumento della competitività
La disponibilità di CPU oltre le risorse pledged da dedicare agli italiani permette di
aumentare notevolmente la competitività dei siti
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
32
Risorse per attività italiane
• # gruppi attivi: ~ 50 nelle 13 sezioni
• alcune attività clusterizzate tra varie sedi
• dimensioni dei gruppi e utilizzo risorse molto vario
Dimensionamento medio risorse necessarie:
• misura risorse necessarie attualmente con 1 fb-1
• stima con 10 fb-1, considerando sia l’aumento dei dati che del MC (non lineare)
• statistica attuale o ultimo fb conservabile su LOCALGROUP al Tier3, statistica
intera necessariamente da ospitare in LOCALGROUP al Tier2
Analisi Italiana – Disco
• 11 TB medi per attività considerando in prospettiva la statistica totale del 2012
• 25 TB in ogni Tier3 (2 in attività finanziati nel 2011 (RM3, GE) + 2 in attività con
altri finanziamenti (BO, UD) + 2 da finanziare nel 2012 (LE, RM2)) = 150 TB
• 400 TB nei Tier2 (~200 TB gia’ occupati)
Analisi Italiana – CPU
• 200 HS medio per attività
• 600 HS in ogni Tier3 (6 Tier3) = 3600 HS
• 6400 HS nei Tier2
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
33
Risorse totali - riepilogo
Firenze, 6 Settembre 2011
Attività
CPU (HS06)
Disco (TBn)
Pledged
28240
3080
Analisi Italiana
6400
400
Totale
34640
3480
G. Carlino – Relazione Referaggi Computing ATLAS
34
Risorse disponibili
Richieste Tier2 2012
CPU (HS06)
Disco (TBn)
Frascati
2321
258
Milano
7820
856
Napoli
8079
864
Roma
7880
864
Tot
26100
2842
Richieste
CPU
HS06
Disco
K€
TBn
Necessità attività 2012
34640
3480
Risorse disponibili 2011
26100
2840
Richieste 2012
8540
153
640
K€
282
Server
Rete
K€
K€
40
32
40
32
Per la stima dei costi di CPU e Disco si è considerata l’esperienza
delle ultime gare e le analisi di mercato che continuiamo a svolgere
 CPU: 18 €/HS06
 Disco: 440€/TBn
Per la stima dei costi necessari per server e rete ci si è attenuti all’algoritmo Bozzi:
• Server: ~10% Disco e CPU
• Rete: ~8% Disco e CPU
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
35
Richieste Tier2 2012
Dettaglio per Tier2
 è in corso la validazione di Frascati come Tier2 ufficiale
 pieno supporto del Direttore dei Laboratori e del gruppo
 lavori infrastrutturali in corso
 referaggio concluso
 divisione delle risorse in parti uguali tra i 4 Tier2 a parte piccoli aggiustamenti
CPU
HS06
Disco
K€
TBn
Rete
Server
Totale
Cons.
K€
K€
K€
K€
K€
Frascati
2690
505
57
160
0
70
8
10
145
5
Milano
1950
414
43
160
38
87
8
10
148
5
Napoli
1950
1154
56
160
0
70
8
10
144
5
Roma
1950
1493
62
160
0
70
8
10
150
5
Tot
8540
obs
265
640
obs
297
32
40
587
Le risorse acquistate nel 2008 per le CPU e precedenti per il disco vanno considerate obsolete nel
2012 e sostituite da nuove: (obs) nelle colonne HS06 e TBn. Il dettaglio per ogni Tier2 è presente
nelle tabelle consegnate ai referee
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
36
Richieste Tier3
Tier3 in attività in ATLAS:
Bologna, Genova, Roma3, Udine/Trieste
Richieste 2012 per 2 nuovi Tier3:
Lecce
• farm già esistente in sezione con risorse ridotte e vecchie
• richiesta di diventare Tier3 “Grid enabled”
• CPU: 2 twin (4 WN) = 9 K€
• Disco: sostituzione dischi da 750 GB a 2 TB, totale 26 TB = 6 K€
Roma2
• nuova farm
• richiesta di diventare Tier3 “Grid enabled”
• CPU: 2 twin (4 WN) = 9 K€
• Disco: NAS con 20 TB = 6 K€
Firenze, 6 Settembre 2011
G. Carlino – Relazione Referaggi Computing ATLAS
37