Referaggio Calcolo ATLAS Gianpaolo Carlino INFN Napoli • Attività di Computing ATLAS • Attività di Computing in Italia • Risorse e Richieste 2013 CNAF, 11 Maggio 2012 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 2 Data Volume 2010-2011 Data volume cumulativo registrato al Tier0 • Data volume cumulativo registrato in GRID, costituito dalle varie repliche distribuite nelle cloud: 90 PB • Variazione nel tempo del formato dei dati e del numero di repliche CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 3 Data taking 2012 • 1.2 fb-1 fino al 10 Maggio. Molto promettente! • Per ICHEP si potrà avere la stessa statistica del 2011 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 4 Evoluzione del Computing Model CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 5 Breaking the Cloud Model Evoluzione del Computing Model, permesso dalle alte performance della rete • rende più flessibile il data transfer routing • consente una distribuzione dei dati ai siti più efficiente • consente un utilizzo ottimale delle risorse • Facilita l’analisi degli utenti a) Modello originale b) Multicloud Tier2 c) Multicloud Tier1 CNAF, 11 Maggio 2012 Tier2 Diretti (T2D): Tier2 con alte performance di trasferimento dei dati (5 MB/s verso almeno 10 dei 12 Tier1 per large files (>1 GB)) vengono definiti Tier2 Diretti (T2D) e • Sono siti Multicloud • Conservano copie primarie dei dati G. Carlino – Referaggio Calcolo ATLAS 6 Distribuzione dei dati • Statica (planned) = distrubuzione predefinita secondo share fissati • Dinamica (data caching) = distribuzione in base alla popolarità dei dati CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 7 Distribuzione dei dati • Nel 2011 si è cercato il giusto rapporto tra il volume di dati trasferiti dinamicamente e staticamente per permettere che una frazione significativa dell’analisi fosse svolta nei Tier2 insieme ad un uso saggio del disco • Le comunità di utenti fanno capo soprattutto ai Tier2 (cpu e disco dedicati, accesso diretto), era dannoso concentrare l’analisi solo ai Tier1 (inizi 2011) Replica dei dati prestabilita: • Tier1, replica per ridondanza (consolidamento), copia primaria • Tier2, replica per l’analisi, primaria • Tier2, replica extra per l’analisi, copia secondaria Determinata dallo share della cloud (Tier1) e dalla classificazione (Tier2) Replica dinamica dei dati • Tier1 e Tier2, basata sulla popolarità dei dati, copia secondaria Determinata dall’utilizzo dei siti CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 8 Attività di Computing in ATLAS Ruolo principale di ATLAS in LHC CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 9 Attività di Computing in ATLAS Numero di job simultanei nell’ultimo anno Produzione: • > 60k job, constante • incremento inizio 2012 per reco MC11 Analisi: • crescita lineare nel 2011 fino a > 20k job • Alta attività nel 2012 per le conferenze invernali • In attesa di statistica per riprendere l’attività seria CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 10 Attività di Computing in ATLAS Numero di job running per attività: • MC production e end-user analysis attività principali • Crescita costante delle attività degli utenti • Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma production-like CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 11 Attività di Computing in ATLAS Tier1 • • • • Tier2 MC simul (G4) e end-user analysis attività principali MC simul satura tutte le risorse disponibili, anche nei Tier1 Pileup (reco MC) principalmente nei Tier1 ma svolta anche nei T2D Attività di gruppo, all’inizio quasi caotica e user-like ora organizzata in una forma production-like CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 12 Attività nei Tier • I Tier2 forniscono la maggioranza delle risorse • Contributo dei Tier3 non trascurabile Tier2 Tier0 Tier3 Analisi Produzione Tier1 Tier2 Tier2 Tier3 Tier0 Tier0 Tier3 Tier1 Tier1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 13 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 14 La Cloud Italiana CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 15 Utilizzo risorse al CNAF Il CNAF è tra i migliori Tier1 di ATLAS e lotta per la terza posizione CNAF, 11 Maggio 2012 INFN–T1 - 9.32% G. Carlino – Referaggio Calcolo ATLAS 16 Utilizzo risorse al CNAF CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 17 Utilizzo risorse al CNAF Risorse 2012 ancora non installate CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 18 Classificazione dei Tier2 • • Necessità di individuare i siti più affidabili per l’analisi cui inviare la maggior parte dei dati. Classificazione in base alle performance (stabilità) CNAF, 11 Maggio 2012 4 Gruppi • Alpha: (60% share): T2D con rel > 90% • Bravo: (30% share): non T2D con rel> 90% • Charlie: (10% share): 80% < rel < 90% • Delta: (0% share): rel <80% G. Carlino – Referaggio Calcolo ATLAS 19 Reliability & Availability 2011-12 Valori medi 2011-12 Frascati Milano rel ava rel ava 98% 96% 92% 92% Napoli Roma rel ava rel ava 96% 95% 98% 97% Availability = time_site_is_available/total_time Reliability = time_site_is_available/ (total_time-time_site_is_sched_down) CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 20 Uso risorse nei Tier2 Uso risorse per “Processing Cloud” per attività per Tier2 IT – 6.46% Quinta cloud La percentuale può essere molto diversa dai pledges dichiarati a causa delle risorse a disposizione nelle varie cloud per le attività nazionali (anche in IT) CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 21 Uso risorse Tier2 Le reali performance dei siti sono evidenti non nel confronto con le altre cloud, ma con le risorse a disposizione Pledge (26600) Pledge (18000) • Le CPU sono utilizzate pienamente e con continuità. • Sistematicamente oltre le pledge • Siamo in grado di utilizzare tutte le risorse a disposizione CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 22 Efficienze CPU/WCT - produzione CPU/WCT - analisi Eff produzione > 90% per tutti i siti Eff analisi > 80% per tutti i siti CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 23 Accounting dei Tier2 Accounting ultimo mese Frascati Milano Napoli Roma 1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 24 Accounting dei Tier2 Accounting ultimo anno Milano Frascati Roma 1 Napoli CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 25 Uso risorse CPU a Milano • I dati nell’account DGAS risentono di in problema specifico del CE Condor che genera una sottostima dell’utilizzo, erratica e non facilmente stimabile, anche se probabilmente contenuta • Presentiamo quindi i dati ottenuti dalla dashboard di ATLAS, che danno i valori relativi agli altri T2 italiani • I commenti riguardano la comparazione con Roma che nel 2011 ha risorse in linea simili a quelle di Milano, mentre nel 2012 ha messo in linea per uso da ATLAS remoto anche circa 25% risorse unpledged che invece a Milano sono state riservate all’uso locale PROOF. La comparazione con NA e’ piu’ complessa perche’ NA ha reso disponibili via Grid addizionali risorse unpledged da SCOPE CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 26 Uso CPU T2: ott-dic Torna con saturazione CPU Milano (si vede in Ganglia-MI) con up-time mil 88.6, roma 93.7 ma Roma stava usando circa 10% sue risorse in locale per calib CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 27 Uso CPU T2: 2012 uptime 83% mi, 97.7 roma , 95.9 Na: abbiamo avuto problemi gravi di storage e GPFS in gennaio poi qualche problema nell’upgrage di STORM a febbraio. Tenuto conto di un po’ di isteresi ATLAS nello spedire jobs a siti che riprendono dopo lunghi down anche della differenza delle CPU in linea, si capisce 11.3% Mi contro Roma circa 16.8%. CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 28 Attività nei Tier2 Italiani I Tier2 di ATLAS contribuiscono tutti alle attività di produzione e analisi di ATLAS in maniera indifferenziata • CPU pledge a disposizione di tutti gli utenti ATLAS • Replica dinamica e preplaced di tutti i dati di ATLAS L’unica differenziazione è determinata dalle aree di storage di gruppo che contengono dati di particolare interesse per le attività italiane e dalle attività di calibrazione o di performance • Attività di gruppo – – – – – • Aree gestite dai gruppi (pledged), dati sempre più utilizzati per l’analisi CNAF: SUSY e TOP Milano: MS e EGAMMA Napoli: HIGGS e TRIGGER Roma1: HIGGS e MUONI Attività specifiche – – – – Frascati: FTK Milano: EGAMMA performance Napoli: RPC e LVL1 Muon Trigger calibrazione e performance Roma1: MDT calibrazione e performance CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 29 Risorse dedicate attività IT Job running in un Tier2: Ultima settimana Ultimo anno Produzione Analisi Atlas Analisi Italiana • L’analisi viene svolta efficacemente nei Tier2 Italiani • Le risorse dedicate (dedicabili) sono significative • Permettono ai job italiani di andare in run più velocemente senza essere accodati agli altri • Non solo analisi, anche prod MC CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 30 Proof on Demand (PoD) • Proof – tool che parallelizza l’analisi con ROOT su diversi core della stessa macchina (Proof Light) o su un cluster di nodi • Demand – possibilità di usare, a richiesta, i nodi di una farm destinata prevalentemente ad altri scopi (per esempio Tier2/3 in GRID) Proof on Demand su un cluster Grid: Tier2 o Tier3 E' stato sviluppato un plugin di PoD per gLite, che da la possibilità agli utenti di attivare un cluster Proof “on demand” su una farm in Grid con middleware gLite e Panda a breve Gli utenti, connettendosi ad una UI, possono lanciare PoD e riservare un certo numero di nodi sulla farm di un Tier2/3 La gestione delle risorse e' simile a quella del cluster locale e il codice per il setup di PoD viene fatto direttamente da cvmfs, disponibile ormai nella maggior parte dei siti di ATLAS PoD permette di abbandonare l’uso di un cluster statico per Proof e mettere in comune in GRID le risorse “Tier3” dei Tier2 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 31 Uso della rete nei Tier2 Siti saturi. La limitata banda a disposizione determina performance non eccellenti come T2D Aspettando il GARR-X CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 32 Tier-3 I Tier3 Italiani sono tutti in attività • Finanziamenti centrali: – GE+RM3 2010 (fondi fine 2010) – LE+RM2 2011 (fondi 2012) • Stato attuale (maggio 2012): – BO, CS, GE, LE, PV, RM3 attivi • Setup ATLAS comune a tutti – Storage tokens – Code Grid e locali • Shares fra Grid/prod, Grid/anal e analisi locale definite localmente – RM2 in installazione – TS solo storage e analisi locale 33 Tier-3 Contributo sia alle attività di produzione (solo MC G4) sia di analisi (solo end user) 34 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 35 Risorse Disponibili 2012 - CPU CPU disponibili 2012 “pledged” CPU Frascati Milano Napoli Roma Totale HP06 4120 9985 9598 1080 33675 Le CPU totali a disposizione dei Tier2 comprendono anche risorse che non pledged: • le CPU obsolete (fino al 2012 e già rifinanziate) ancora in produzione ma in corso di spegnimento • CPU non a completa disposizione dei siti – (scope a NA, TDAQ a LNF) • CPU per uso locale (cluster proof) o in griglia ma dedicate principalmente alle attività italiane (Tier3) finanziate con fondi vari – Proof on Demand, share per analisi e simulazione MC per il ruolo atlas/it Queste CPU concorrono alla definizione della linea blue dell’accounting che in alcuni casi è significativamente maggiore della linea rossa Nel conto delle CPU pledged sono comprese le CPU gara CNAF 2012 ancora da installare CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 36 Risorse Disponibili 2012 - Dischi Storage disponibile 2012 “pledged” Disco Frascati Milano Napoli Roma Totale Totale disponibile 396 1080 1080 1020 3576 to be pledged 3226 Lo storage totale disponibile nei Tier2 comprende anche l’area locale in cui sono conservati i dati di tutti gli utenti italiani (LOCALGROUP), non solo gli utenti locali • La dimensione di queste aree è di circa 100 TB per i Tier2 grandi e 50 TB per LNF • In gran parte già occupata, gli utenti dovranno cancellare i dati vecchi non più necessari per fare spazio ai dati del 2012 • l’utilizzo di queste aree è irrinunciabile per cui il loro volume va sottratto allo storage da dichiare pledged Nel conto del disco totale disponibile sono comprese le recenti acquisizioni ancora da installare CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 37 Risorse obsolete 2013 Risorse Obsolete nel 2013 CPU (HS06) Disco (TBn) Frascati 557 36 Milano 1825 184 Napoli 2051 92 Roma 1725 184 Tot 6158 496 • le CPU obsolete sono le macchine comprate nel 2009 e installate fine 2009 inizi 2010 (non sono comprese le macchine installate successivamente). Le CPU hanno garanzia triennale • Lo storage obsoleto comprende le SAN comprate nel 2007 e installate giugno 2008. Garanzia quinquennale CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 38 Risorse Attività ATLAS 2013 ATLAS ha presentato allo Scrutiny Group le risorse necessarie per le attività 2012 – 2014 Le richieste per il 2013 sono determinate da: • simulazione MC di tutti i dati 2010-2012 + inizio simulazione a 13 TeV • reprocessing dei dati 2011-2012 con software più performante • processamento della delayed stream, raccolta nel 2012 e archiviata su tape • 130 Hz di trigger speciali (200 TB di RAW data) • analisi di gruppo e utenti Il Computing non sarà in shut-down! • Le risorse necessarie sono state calcolate in base all’esperienza dell’anno 2011 che ha evidenziato le reali necessità di risorse per l’analisi utente vs altre attività centrali (MC) Stima realistica! • Si è tenuto conto dei notevoli miglioramenti delle performance del software • G4 simulation time ridotto di un fattore 2 e con prospettive di ulteriore miglioramento • Riduzione della size degli eventi per contrastare l’effetto del pile-up CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 39 Risorse Attività ATLAS 2013 Le CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 40 Risorse Attività ATLAS 2013 Referaggio dello Scrutiny Group CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 41 Risorse Attività ATLAS 2013 Lo Scrutiny Group ha riconosciuto la necessità di risorse aggiuntive dato l’aumento dei valori da 2013 (previous estimate) a (this scrutiny), ha tuttavia effettuato un taglio, soprattutto per i Tier2: 4% Disco e 9% CPU Una delle possibili motivazioni è probabilmente un uso non massimale delle risorse dei Tier2 nel 2011 cui si è ovviato con cambiamenti nel data placement e job brokering nell’anno CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 42 Richiesta Risorse 2013 - I Le risorse necessarie per il 2013 sono determinate dalla volontà di conservare il ruolo significativo nel computing di ATLAS acquisito negli ultimi anni conservando gli share di risorse pledged per le attività centrali: – Tier1: 10% – Tier2: 10% CPU e 7% Disco e di garantire la competitività agli utenti italiani mediante l’uso di risorse dedicate nei Tier2 e Tier3 CPU T1 (kHS) Disco T1 (PB) CPU T2 (kHS) Disco T2 (PB) ATLAS Share IT ATLAS IT 2013 ATLAS IT disponibile Attività 2013 297 10% 29.7 25.0* 4.7 29 10% 2.9 2.5* 0.4 319 10% 31.9 33.7 0 49 7% 3.43 3.23 0.2 * Pledge 2012 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 43 Richiesta Risorse 2013 - II Le risorse per le attività italiane sono già disponibili e non inclusi nel disponibile “pledged” 2012 e non sono necessarie ulteriori richieste Attività 2013 Attività Italiane Obs Richieste 2013 k€€€€ CPU T2 0 0 6.16 6.16 86 Disco T2 0.20 0 0.50 0.70 174 Prezzi stimati: • CPU = 0.014 k€/kHS • Disco = 0.35 k€/PB CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 44 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 45 Risorse Attività ATLAS 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 46 Risorse Attività ATLAS 2013 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 47 Risorse Attività 2013 – Tier1 CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 48 Risorse Attività 2013 – Tier2 Le CNAF, 11 Maggio 2012 G. Carlino – Referaggio Calcolo ATLAS 49