Calcolo in BaBar: stato attuale e prospettive Francesco Safai Tehrani, INFN Roma per BaBar Italia Computing Model 2 • Incremento di luminosita' integrata previsto: – nel 2003 160 fb-1, nel 2004 250 fb-1 • Nuovo modello di calcolo: – Tipo base dell’analisi in sostituzione del “micro” (AOD) diventa il “reduced mini” – Migrazione dall’event store Objectivity ad uno basato completamente su ROOT – Nuovi tool di bookkeeping • Sviluppo da Ottobre 2002, implementazione da Gennaio 2003, in produzione ad Ottobre 2003, dopo test estensivi. 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 2 Attivita’ CM2 in BaBar Italia • Modello di analisi (partecipanti italiani: M.Bondioli, G.DeNardo, L.Lista): – sviluppo del nuovo formato “reduced-mini” – accesso ai dati ad 1 kHz – UsrData: possibilita' di aggiungere informazioni (es. sui compositi) – reskimming ogni 3 mesi a partire dai mini 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 3 Attivita’ CM2 in BaBar Italia (2) • Migrazione Event Store – Conversione Objectivity – Kanga • Necessaria sia per dati ricostruiti che per il MC – Sviluppo server Xrootd + XTNetFile per accesso ai dati (A.Dorigo, F.Furano) • Il prodotto finito e’ stato offerto (ed accettato) per l’inclusione nelle release ufficiali di ROOT – Test modifiche sistema controllo PR (Padova) 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 4 Farm di analisi • Problemi seri: – A meta’ luglio il sistema RAID Compaq che ospitava le home directories e’ crashato a causa di problemi hardware e di firmware. – I tempi d’intervento sono stati lunghi anche a causa di un tentativo di recupero dei raidset (fallito). 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 5 Farm di analisi (2) crash 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 6 Farm di analisi (3) • Lo stato attuale: – Nuovo sistema RAID per homedirs (fatto) • Server 3Ware con 0.5TB di spazio – Upgrade firmware dei RAID Compaq (fatto) – Patch del kernel delle macchine Solaris, i server NFS per i RAID Compaq (da fare) – Trasloco della farm da Roma al CNAF • Fatto il 18/09/2003, arrivo al CNAF 19/09/2003 – Riconfigurazione e reinstallazione della farm al CNAF (da fare, appena il CNAF e’ pronto) 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 7 Monte Carlo: farm di Roma Impegnati: C. Bulfon, G. Della Ricca, F. Safai Tehrani • Struttura della farm: farm – 1 server Linux, dual Xeon 2 GHz, 2 GB (NFS and Objy lock servers, batch queues) – 8 (+2) client Linux, dual PIII 800 MHz, 1 GB – 17 client Linux, dual PIII 1.27 GHz, 1 GB – 1 client Linux, dual PIII 800 MHz, 1 GB (DBs and LOGs export) – 1 Array RAID EIDE 1TB • Produzione SP5: RH 7.2 + Obj 7.1 • Espansione farm: – (in arrivo, inizio Ottobre) 26 client dual Xeon 2.4GHz, 2GB – (pronti) 2*0.5TB Array RAID EIDE 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 8 Monte Carlo “parassita” (1) Impegnati: C. Bozzi, C. Bulfon, G. Della Ricca, F. Safai Tehrani • Farm di analisi: 16 cpu su 54 • Per minimizzare la concorrenza con l’analisi • 15 macchine usavano ancora RH6.2 – Un crash di un sistema RAID ha fermato la produzione alla fine di Luglio • Stato attuale: – Farm al CNAF, da reinstallare – Tutte le macchine upgradate a RH7.2 • Da fare: – Riconfigurare il sistema di code per massimizzare l’uso delle macchine senza limitazioni artificiali sul numero di job 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 9 Monte Carlo “parassita” (2) Impegnati: G. Della Ricca, F. Galeazzi • Usa le farm di calcolo di PD dedicate a processing e reprocessing • Stato attuale: – INFNTA1: in produzione con 30 macchine – INFNTA2: appena partita (19/09/03) con 7 macchine • Una farm (ER2) e’ validata per la produzione MC e puo’ essere “convertita” in 2-4 ore. 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 10 MC: prestazioni “ufficiali” 24/03/03-13/09/03 Plot prestazioni infn: 54Mev ~ 9.1Mev/mese infnta1: 38Mev ~ 6.5Mev/mese infn2: 5Mev ~ 0.8Mev/mese 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 11 Monte Carlo: prestazioni reali Le prestazioni reali sono calcolate sull’effettivo periodo di attivita’ delle farm • Farm di Roma (INFN), 23/03/2003 - 13/09/2003: – 53Mev ~ 8.9Mev/mese, peak: 15.4Mev/mese • Farm Analisi (INFN2), 11/05/2003 - 06/09/2003: – 4.7Mev ~ 1.3Mev/mese, peak: 2Mev/mese • Farm (re)processing (INFNTA1), 15/06/2003 - 13/09/2003: – 38Mev ~ 12Mev/mese, peak: 17.2Mev/mese “peak” = massimo #ev prodotti in un periodo di un mese 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 12 Monte Carlo: espansioni & problemi • 2002: prodotti circa 60Mev su un fabbisogno totale di 1.5*103Mev, pari al 4%. • Obiettivo per il 2003: produzione del 15% del fabbisogno ufficiale di BaBar (375Mev su 2.5*103Mev). A tal fine: – Uso “parassita” della farm di (re)processing per circa 1/3 della statistica. – 1TB disco addizionale per buffer farm MC – raddoppio CPU farm MC: +150x30SpecInt95 • Ma c’e’ un problema: le nuove CPU per la farm sono in ritardo di 4 mesi a causa di problemi (risolti) nella firma del contratto di fornitura a seguito della trasformazione NAOS-Oxyria. • Arrivo previsto: prima meta’ di Ottobre. 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 13 Monte Carlo + GRID Sezioni impegnate: Ferrara, Napoli • Richieste di BaBar: – ~1.5 Geventi adronici simulati per 100 fb-1 di luminosità integrata • Le risorse necessarie sono ingenti e non disponibili in un singolo sito – Soluzione: produzione distribuita in una “Grid” di circa 25 siti amministrati e gestiti localmente 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 14 Monte Carlo + GRID (2) • Testbed: Farm di Ferrara – 1 CE + 1 SE + 6 WN con EDG 1.4.11 – Visibile dal RB di BaBar (Imperial College) – I membri della VO BaBar possono sottomettere job anche da RB del CNAF • Stato attuale: – Software MC integrato in EDG ed installato su farm EDG di Ferrara, Napoli, Catania e Padova – Effettuati test di produzione remota sulle 4 farm – Portale GENIUS installato a Ferrara e configurato per la produzione MC su risorse GRID • A breve: • Integrazione in LCG (fine anno) • Integrazione nel nuovo CM di BaBar (autunno) 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 15 Farm di (re)Processing • Attivita' estive, durante luglio ed agosto: – Hardware: • riconfigurazione macchine (datamover) – Software: • Modifiche al sistema di import Xtc (G.Tiozzo) • Sviluppo e test del sistema di controllo (M.Piemontese, A.Ceseracciu, F.Galeazzi) • Sviluppo e test nuovo sistema di export (G.Vedovato, F.Galeazzi) • “reprocessing” di un set consistente di dati (circa 10 fb-1) con varie releases Nessuna “chiusura per ferie”... 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 16 Il processing di BaBar • Architettura a due step: – Ogni run “pronto” ad IR2 viene automaticamente copiato a PD e (contemporaneamente)... – …accodato alla farm di calibrazione “PC” (a SLAC): • selezione rapida di un campione di eventi per il calcolo delle “rolling calibrations”, che vengono scritte in Objectivity – Ogni ~24 ore si estraggono i database contenenti le calibrazioni (da Obj) e si copiano nel database di calibrazione (Obj) di PD – Processing a PD (Event Reconstruction) sulle farm “ER” • condizioni lette da Objy ma uscita in formato ROOT – Export a SLAC dei dati processati dal 09/2003 tutta l'attivita' di ER viene fatta a Padova 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 17 Processing: stato attuale • E' iniziato il Run 4! – (Programma anticipato di circa una settimana) – Primo run di cosmici il 26 agosto mattina (CET) • dati riprocessati pronti per gli esperti dopo circa 24 ore • feedback positivo – “Colliding beams” dal 5 settembre: • Primo run utile: 40003 chiuso il 9/9/2003, 18:24 PST • Primo blocco calibrazioni: 10/9/2003, 00:45 PST • Dati processati disponibili a SLAC: 10/9/2003, 07:09 PST Ciclo di processing estremamente veloce 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 18 Processing+CM2=un successo • L’efficienza di CM2 nel rendere disponibili i dati per l’analisi era impensabile con Objectivity: • “Congratulations to everyone who helped make the first live CM2 production an immediate success.” (Rainer Bartoldus, Deputy Computing Coordinator) • “...once again I'd like to congratulate and thank the OPR folks for the amazingly rapid throughput and availability of the data.” (Mike Kelsey, DCH System Manager) • Dati riprocessati disponibili agli utenti: – Objectivity: ~2-3 settimane • export settimanale + import in Objy a SLAC + caricamento collezioni nella Bridge Federation – CM2: ~1 giorno • Export per ogni singolo run e l’import = untar di un file 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 19 Processing: import dei dati • Copia completa del campione di dati “raw” da SLAC per backup ed uso locale. • Modifica del sistema di import per la gestione di buffer di disco a SLAC e a PD (quasi completato). • Tutti i dati fino alla fine di Run3 sono stati importati entro fine Agosto e copiati su nastro. • Attualmente i dati di Run4 vengono importati e copiati su nastro appena disponibili. A.Dorigo ha ora la responsabilita' dell'import (il contratto di G.Tiozzo scaduto a fine agosto) 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 20 Processing: export • Sistema completamente nuovo: – Granularita’: dalla “production week” al singolo run (ri)processato • Molto piu' flessibile: – Objy imponeva l'assegnazione di risorse separate per ogni farm – Lo schema attuale ottimizza l’uso delle risorse aggregandole in “pool”: • “produttori”, cioe' le farm di processing • “export”, cioe' le macchine che gestiscono la copia • “tier”, cioe' l'insieme delle destinazioni (inclusi i nastri) – I collegamenti tra pool possono essere modificati in ogni momento con molta semplicita' (ad es. per includere Lione, CNAF...) – Completamente automatizzato • Gia' operativo: – Solo due destinazioni: SLAC e i nastri – Qualche dettaglio nel protocollo di handshaking con i tier da definire 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 21 (re)Processing: stato delle farm • Macchine della gara 2003 in arrivo: – dopo installazione e test, operative ~15 Ottobre • Nel frattempo: – ER0: (piccola) farm di test – ER1: produzione MonteCarlo – ER2: “validata” come farm di produzione MC • Puo' essere convertita a processing, o reprocessing, o MonteCarlo nel giro di 2-4 ore – ER3, ER4: processing dei nuovi dati con 3 farm = 0.5 fb-1/giorno (PEP: al 19/9 max 0.25 fb-1/giorno, ~0.45 fb-1/giorno entro Dicembre) 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 22 Prospettive future: attivita’ • Attivita’ relative al CM2 sulla farm di (re)processing: – Conversione dei dati dei Run1-3 dal formato mini-Obj al nuovo formato – (re)skimming – Reprocessing dei dati (ove necessario) • Tutto questo in parallelo con il processing dei nuovi dati, grazie al nuovo hardware in arrivo ad Ottobre. 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 23 Prospettive di espansione hw 2004 2005 268 425 CPU(CPUunit) +350 +400 Disco (TB) +19 +26 +350 +420 +8 +2 Luminosita’ integrata (fb-1) Farm Analisi Farm (re)processing CPU(CPUunit) Disco (TB) 22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 24