ATLAS Calcolo LHC 2011 Gianpaolo Carlino INFN Napoli CSN1 – Torino, 17 Maggio 2010 • Attività di Computing @7 TeV • Risorse 2010 & 2011 CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 1 Attività di computing 2010 CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 2 LHC 2010 – primo nb-1 Al 16 Maggio si sono raccolti 5.2 nb-1 (~300 M ev) Le attività e le performance mostrate di seguito, relative al primo nb-1 (~ 50 M ev) raccolto prima del technical stop di fine aprile, sono pienamente rappresentative del comportamento del computing di ATLAS. CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 3 2010 LHC – Data taking Physical Volume Size 3000 Dati raccolti e prodotti da ATLAS per il primo nb-1 di luminosità 2500 other 2000 Raw Data Event size = 1.6 MB NTUP DESD 1500 AOD 1000 ESD 500 RAW 0 28-03-06 Logical Volume Size 04-04-06 11-04-06 18-04-06 25-04-06 700 600 500 other 400 NTUP 300 DESD 200 AOD 100 ESD RAW CSN1 – Torino, 17 Maggio 2010 • Physical Data (comprende tutte le repliche distribuite in Grid) = 2.5 PB (*2.5 vs 2009) 29-04-06 27-04-06 25-04-06 23-04-06 21-04-06 19-04-06 17-04-06 15-04-06 13-04-06 11-04-06 09-04-06 07-04-06 05-04-06 03-04-06 01-04-06 30-03-06 28-03-06 0 • Logical Data = 650 TB (*3 vs 2009) G. Carlino – ATLAS: Calcolo 2011 4 Computing Model – Distribuzione dei dati • RAW: 1 piano distribuita sull’insieme dei Tier1 • ESD: 2 copie sull’insieme dei Tier1. Replica nei Tier2 della cloud per i primi mesi di run • AOD: 2 copie sull’insieme dei Tier1. 10 copie sull’insieme dei Tier2 (~ 1 per cloud) • dESD: non replicati ai Tier1. 10 copie sull’insieme dei Tier2 (~ 1 per cloud) • Distribuzione nei Tier1 in base al “Tier1 ratio” Il “Tier1 ratio“ è quello reale, non quello nelle tabelle WLCG: CNAF 5% Sistema di repliche basato su un sistema di cancellazione • i siti devono fornire un buffer per le attività pianificate nei successivi 3 mesi • replicazione di tutti i dati nelle cloud come previsto dal CM • determinazione dei dati “da custodire” nella cloud non cancellabili • riduzione delle repliche in base al principi di popolarità dei dati L’esperienza del primo anno e le performance della rete ci permetteranno di modificare il CM allo scopo di ridurre il numero di repliche nella griglia CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 5 2010 LHC – Data Distribution > 3 volte del throughput run 2009 • In media i dati sono disponibili ai Tier2 per l’analisi in circa 4 ore • Efficienza 100%. Nessuno problema con la distribuzione dei dati CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 6 2010 LHC – Data Distribution in IT CSN1 – Torino, 17 Maggio 2010 100 other 80 NTUP 60 DESD 40 AOD ESD 20 RAW G. Carlino – ATLAS: Calcolo 2011 29-04-06 27-04-06 25-04-06 23-04-06 21-04-06 19-04-06 17-04-06 15-04-06 13-04-06 11-04-06 09-04-06 07-04-06 05-04-06 03-04-06 01-04-06 0 30-03-06 ESD = 50 TB • 10% al CNAF (5% custodial + 5% primario) e 10% ai Tier2 120 28-03-06 RAW = 1 TB 1. CNAF Down per 2 giorni per migrazione cataloghi 2. Disco del CNAF in blacklist alcuni giorni perché completo in attesa di cancellazioni forzate di dati 3. Scherzi della statistica: del 5% dei dataset nessun MinBias 7 Reprocessing ai Tier1 3 campagne di reprocessing nel 2010: • Febbraio: dati 2009 e cosmici • Aprile: dati 2009 e 2010 • Maggio: dati 2009 e 2010 e MC (in corso) CSN1 – Torino, 17 Maggio 2010 Reprocessamento del 100 % dei dati • RAW ESD • ESD merge • ESD AOD, dESD • Distribuzione nuovi dati nella Grid G. Carlino – ATLAS: Calcolo 2011 8 Reprocessing ai Tier1 Attività di routine nei Tier1 • RAW data su disco nel 2010. Non è necessario il pre-stage da tape • Efficienza richiesta 100%. Ok ma ancora con troppi interventi manuali • Prevalidazione dei siti molto rigorosa CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 9 Uso risorse al CNAF Risorse ATLAS al CNAF: Attualmente: 8700 HS06 Pledge 2010: 16000 HS06 Monitor CNAF CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 10 Uso risorse nei Tier2 - CPU Nota. Accounting non corretto per il Tier2 di Milano fino a inizio Marzo. Accounting parziale a Roma per 1 mese (aprile) per la perdita di dati di un CE CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 11 Analisi Distribuita Dati • distribuzione organizza centralmente con DDM/DQ2 in base al Computing Model • il formato dati utilizzato utilizzato per l’analisi dipende dalle necessità dei gruppi (fisica o locali) User jobs • Modello: “i job vanno dove sono i dati”. I siti devono garantire stabilità e affidabilità • La banda passante disponibile potrà permettere di modificare il modello spostando i dati dove sono disponibili le CPU riducendo il numero di repliche sulla griglia Scelta del Frontend e del Backend • con la reale attività di analisi gli utenti utilizzano gli strumenti che garantiscono la migliore efficienza, velocità, semplicità d’uso e stabilità CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 12 Analisi Distribuita Uso significativo della Grid per l’analisi • 2.2 milioni di job completati • 16.6 miliardi di eventi analizzati • 705 utenti (350 runnano più di 1000 job) (valori relativi al primo nb inverso) CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 13 Analisi Distribuita • Al momento il formato più popolare è l’ESD, più completo e adatto per lo studio delle performance, il 5% è in Italia ⇒ Gli utenti italiani mandano i loro job nelle altre cloud dove sono i dati • Fase iniziale per tunare la composizione dei dESD (ESD skimmati e slimmati) replicati completamente in ogni cloud ⇒ E’ necessario passare al più presto all’utilizzo di dESD e AOD. Le risorse disponibili in altre cloud sono limitate. CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 14 Analisi Distribuita Job di Analisi con Panda in Italia • non viene riportato l’uso del WMS comunque significativo in Italia • Frascati è da poco rientrato tra i siti cui vengono replicati i dati (10%) Esempio di job su un Tier2 ultima settimana • Produzione • Analisi Panda • Analisi WMS Buchi dovuti alla mancanza di produzione a causa del ridottissimo spazio disco libero al CNAF CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 15 Analisi Distribuita – Accesso ai dati Popular Sites: Analisi dell’accesso ai dati per sito, area di storage e formato dati • Alla base del sistema di cancellazione delle repliche • Fornisce una statistica dell’uso dei siti Popular Sites (LOCALGROUPDISK) LOCALGROUPDISK - Area di Storage locale dedicata agli output dei job prodotti in Grid • Indipendentemente dalla cloud dove girano i job, l’output viene trasportato nel proprio Tier2 e opportunamente catalogato per l’uso successivo nella Griglia (non Tier3) • Spazio disco non pledged. E’ necessario garantire agli utenti italiani uno spazio sufficiente CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 16 Analisi Distribuita – Accesso ai dati Popular Sites (ESD) Popular Sites (dESD) CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 17 Group Analysis Attività di skimming e slimming dei gruppi di Fisica e Performance di ATLAS Selezione dei siti (faticosa) in base alle performance determinate dai test periodici di analisi (Hammer Cloud), all’affidabilità e alla disponibilità di spazio disco. Milano, Napoli e Roma hanno superato senza problemi la selezione. Frascati supera le metriche di performance e affidabilità ma non ha lo spazio disco necessario. Faremo richiesta dopo l’installazione delle risorse 2010 CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 18 Risorse Computing ATLAS CSN1 – Torino, 17 Maggio 2010 Risorse Tier1 e Tier2 2010 Previsione Risorse 2011 Tier3 G. Carlino – ATLAS: Calcolo 2011 19 LHC schedule Final schedule dopo il meeting di Chamonix, feb 2010 RRB year Start 2009 RRB year End Mesi Live time (pp) *10^6 sec May ’10 3 2.2 (2.2) Events (pp) *10^6 1460 2010 Jun ’10 Mar ‘11 8 5.8 (5.1) 2011 Apr ’11 Mar ’12 8 5.8 (5.1) 1020 2012 Apr ’12 Mar ‘13 0 0 0 Energia = 7 TeV – Luminosità integrata = 1 fb-1 Assunzioni Rate 200 Hz Run efficiency 70% LHC efficiency 40% CSN1 – Torino, 17 Maggio 2010 • Run Efficiency = time for physics / total time • LHC Efficiency = time with colliding beam/ time for physics G. Carlino – ATLAS: Calcolo 2011 20 Computing Model – Input parameters CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 21 Computing Model – Input parameters CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 22 Risorse ATLAS – Tier1 Attività principali: Reprocessing dati reali e simulati, simulazione e analisi di gruppo. Attività asincrone con il data taking, scalano con il volume dei dati 2010. riduzione (CPU) o non variazione (Disco) delle risorse nonostante la schedula LHC più lunga 2011. moderato aumento risorse (~27% CPU e ~14% Disco) nonostante il raddoppio dei dati raccolti CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 23 Risorse ATLAS al CNAF 2010 Gare 2009 CNAF - 2010 Gara Opzione base CPU (kHS06) 8.7 Disco (PBn) 1.3 E’ importante esercitare il più presto possibile le opzioni delle gare • installazione CPU in tempo per il 1° Giugno • installazione disco settembre/ottobre CSN1 – Torino, 17 Maggio 2010 Gara Opzione 1 Gara Opzione 2 16 1.8 Share CNAF = 8% G. Carlino – ATLAS: Calcolo 2011 24 Risorse ATLAS 2010 “normalizzate” (TW=0) Canada Triumf (5%) Germany FZK (11%) NDGF (4%) UK RAL (13%) Spain PIC (5%) 100% France CCIN2P3 (13%) Netherlands SARA/NIKHEF (15%) CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 Italy CNAF (9%) USA BNL (25%) 25 Previsione Risorse ATLAS al CNAF 2011 2010 2011 CNAF ATLAS CNAF 10% Δ k€ CPU (kHS06) 16 226 22.6 6.6 165 Disco (PBn) 1.8 25 2.5 0.7 455 1.3 30 3 1.7 Tape (PB) • 10% è lo share corretto per un Tier1 di una cloud con il 9% di autori • I numeri vanno armonizzati con le richieste degli altri esperimenti LHC per conservare al CNAF le usuali percentuali basate sul numero di autori italiani CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 CPU = 25 €/HS Disco = 650 €/TBn Tape = 75 €/TB Questi costi andranno valutati criticamente in seguito alle veloci variazioni del rate con il dollaro 26 Risorse ATLAS – Tier2 Attività principali: Simulazione e analisi di gruppo e di utente. Simulazione e analisi di gruppo condivise con i Tier1. Analisi di utenti solo ai Tier2 2010. riduzione (CPU) o moderato aumento (Disco) delle risorse nonostante la schedula LHC più lunga • diminuzione tempo simulazione • cancellazione vecchie simulazioni obsolete o a energie ≠ 7 TeV 2011. aumento significativo risorse (~20% CPU e ~60% Disco) a causa del raddoppio dei dati raccolti CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 27 Risorse 2010 nei Tier2 2010 T2 Italia T2 ATLAS T2 It/ATLAS Pledges Uso IT CPU (kHS06) 16 226 7,1% 12 (5%) 25% 1.0 (4%) 43% 1.3 (5%) 26% Disco (PBn) 1.76 24 7,3% Uso IT: risorse “non pledged” da dedicare agli utenti italiani (LOCALGROUPDISK). ~25% delle risorse dei Tier2 nel 2010 Le risorse disponibili nel 2010 nei Tier2 Italiani sono solo una stima • numeri presentati al referaggio di marzo • cambio con il dollaro notevolmente peggiorato: al momento costo superiore del 15 o 20% Gare: tempistica per l’acquisizione notevolmente cambiata • richiesta dell’amministrazione INFN di effettuare gare pubbliche raggruppando le gare • messa in produzione probabile solo a dicembre • le gare ai Tier2, lunghe come quelle del CNAF, vanno programmate in tempo per le scadenze WLCG CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 28 Previsione risorse 2011 nei Tier2 CPU = 25 €/HS Disco = 600 €/TBn 2010 2011 T2 Italia ATLAS T2 Italia 7% Δ K€ T2 Italia 9% Δ k€ 16 278 19,5 3.5 87 25 9 225 1.76 38 2.7 0.9 540 3,4 1,7 996 CPU (kHS06) Disco (PBn) Totale Rete Server Gran tot. Share Tier2: • ~ 7% attuale (5% pledged) • ~ 9% corrisponde al numero di autori italiani. Auspicabile! Questa tabella fornisce i possibili ordini di grandezza delle richieste CSN1 – Torino, 17 Maggio 2010 627 1221 34 85 63 152 30 50 724 1458 691 1356 (Bozzi – CSN1 09/09) Stime per la rete suff. corrette, eccessive per i server G. Carlino – ATLAS: Calcolo 2011 29 Tier3 Modello ATLAS per i Tier3 • Task force in ATLAS e in Italia per definire funzionalità e testare tool specifici • Analisi interattiva (Root, Proof) e sviluppo di codice. Storage locale (ntuple) • siti molto importanti per l’attività locale • Molti siti già attivi • in tutto il mondo e soprattutto in America • in Italia alcuni siti di test (Genova, Roma3, Trieste/Udine) • Tipologia Tier3: • sito pienamente “grigliato” (in Italia p.es. farm INFN-GRID) • Tier3 @Tier2 (tipologia più diffusa in ATLAS) • piccola farm locale non “grigliata” • Discussione in Italia • primo incontro con i referee al Workshop congiunto INFN-GRID & CCR • Richieste finanziarie • richieste minime verranno presentate nei preventivi (trascurabili rispetto ai Tier2) per dotare alcune farm dello spazio disco base (pochi TB) e/o server necessari per UI o “interfaccia” con la Griglia CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 30 Conclusioni Aspetti positivi: • la griglia sembra funzionare sufficientemente bene (giudizio degli utenti) • distribuzione dati efficiente e veloce • la riduzione del numero di repliche previste dal CM dopo il referaggio dell’anno scorso non ha penalizzato le attività • l’analisi dei dati è stata possibile sin dal primo momento nella griglia • size degli eventi sotto controllo • riduzione dei tempi di simulazione degli eventi • modello dei Tier3 sufficientemente maturo. Siti molto importanti a livello locale Aspetti da verificare o negativi: • Sistema di diminuzione delle repliche basato sulla cancellazione dei dati meno popolari • Analisi distribuita • da dimostrare che scali al crescere dei dati • limitatezza delle risorse. Le risorse a disposizione all’estero sono sempre più ridotte e bisogna poter contare sulle risorse italiane • migliorare la stabilità e l’efficienza di alcuni tool di analisi distribuita • Reprocessing da disco. Nel 2011 dovrà essere fatto da tape • Spazio disco al CNAF veramente ridotto e fonte di grandi sofferenze • Gare pubbliche ai Tier2. Le risorse 2010 saranno disponibili solo a fine anno. Attenzione per l’acquisizione delle risorse 2011 CSN1 – Torino, 17 Maggio 2010 G. Carlino – ATLAS: Calcolo 2011 31