Calcolo in BaBar: stato attuale e prospettive - INFN

Calcolo in BaBar:
stato attuale e prospettive
Francesco Safai Tehrani, INFN Roma
per BaBar Italia
Computing Model 2
• Incremento di luminosita' integrata previsto:
– nel 2003 160 fb-1, nel 2004 250 fb-1
• Nuovo modello di calcolo:
– Tipo base dell’analisi in sostituzione del “micro”
(AOD) diventa il “reduced mini”
– Migrazione dall’event store Objectivity ad uno
basato completamente su ROOT
– Nuovi tool di bookkeeping
• Sviluppo da Ottobre 2002, implementazione
da Gennaio 2003, in produzione ad Ottobre
2003, dopo test estensivi.
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
2
Attivita’ CM2 in BaBar Italia
• Modello di analisi (partecipanti italiani:
M.Bondioli, G.DeNardo, L.Lista):
– sviluppo del nuovo formato “reduced-mini”
– accesso ai dati ad 1 kHz
– UsrData: possibilita' di aggiungere
informazioni (es. sui compositi)
– reskimming ogni 3 mesi a partire dai mini
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
3
Attivita’ CM2 in BaBar Italia (2)
• Migrazione Event Store
– Conversione Objectivity – Kanga
• Necessaria sia per dati ricostruiti che per il MC
– Sviluppo server Xrootd + XTNetFile per
accesso ai dati (A.Dorigo, F.Furano)
• Il prodotto finito e’ stato offerto (ed accettato)
per l’inclusione nelle release ufficiali di ROOT
– Test modifiche sistema controllo PR
(Padova)
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
4
Farm di analisi
• Problemi seri:
– A meta’ luglio il sistema RAID Compaq che
ospitava le home directories e’ crashato a
causa di problemi hardware e di firmware.
– I tempi d’intervento sono stati lunghi anche
a causa di un tentativo di recupero dei
raidset (fallito).
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
5
Farm di analisi (2)
crash
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
6
Farm di analisi (3)
• Lo stato attuale:
– Nuovo sistema RAID per homedirs (fatto)
• Server 3Ware con 0.5TB di spazio
– Upgrade firmware dei RAID Compaq (fatto)
– Patch del kernel delle macchine Solaris, i server
NFS per i RAID Compaq (da fare)
– Trasloco della farm da Roma al CNAF
• Fatto il 18/09/2003, arrivo al CNAF 19/09/2003
– Riconfigurazione e reinstallazione della farm al
CNAF (da fare, appena il CNAF e’ pronto)
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
7
Monte Carlo: farm di Roma
Impegnati: C. Bulfon, G. Della Ricca, F. Safai Tehrani
• Struttura della farm:
– 1 server Linux, dual Xeon 2 GHz, 2 GB (NFS and Objy lock
servers, batch queues)
– 8 (+2) client Linux, dual PIII 800 MHz, 1 GB
– 17 client Linux, dual PIII 1.27 GHz, 1 GB
– 1 client Linux, dual PIII 800 MHz, 1 GB (DBs and LOGs
export)
– 1 Array RAID EIDE 1TB
• Produzione SP5: RH 7.2 + Obj 7.1
• Espansione farm:
– (in arrivo, inizio Ottobre) 26 client dual Xeon 2.4GHz, 2GB
– (pronti) 2*0.5TB Array RAID EIDE
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
8
Monte Carlo “parassita” (1)
Impegnati: C. Bozzi, C. Bulfon, G. Della Ricca, F. Safai Tehrani
• Farm di analisi: 16 cpu su 54
• Per minimizzare la concorrenza con l’analisi
• 15 macchine usavano ancora RH6.2
– Un crash di un sistema RAID ha fermato la
produzione alla fine di Luglio
• Stato attuale:
– Farm al CNAF, da reinstallare
– Tutte le macchine upgradate a RH7.2
• Da fare:
– Riconfigurare il sistema di code per massimizzare
l’uso delle macchine senza limitazioni artificiali sul
numero di job
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
9
Monte Carlo “parassita” (2)
Impegnati: G. Della Ricca, F. Galeazzi
• Usa le farm di calcolo di PD dedicate a
processing e reprocessing
• Stato attuale:
– INFNTA1: in produzione con 30 macchine
– INFNTA2: appena partita (19/09/03) con 7
macchine
• Una farm (ER2) e’ validata per la produzione
MC e puo’ essere “convertita” in 2-4 ore.
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
10
MC: prestazioni “ufficiali” 24/03/03-13/09/03
Plot prestazioni
infn: 54Mev ~ 9.1Mev/mese
infnta1: 38Mev ~ 6.5Mev/mese
infn2: 5Mev ~ 0.8Mev/mese
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
11
Monte Carlo: prestazioni reali
Le prestazioni reali sono calcolate sull’effettivo periodo di attivita’ delle farm
• Farm di Roma (INFN), 23/03/2003 - 13/09/2003:
– 53Mev ~ 8.9Mev/mese, peak: 15.4Mev/mese
• Farm Analisi (INFN2), 11/05/2003 - 06/09/2003:
– 4.7Mev ~ 1.3Mev/mese, peak: 2Mev/mese
• Farm (re)processing (INFNTA1), 15/06/2003 - 13/09/2003:
– 38Mev ~ 12Mev/mese, peak: 17.2Mev/mese
“peak” = massimo #ev prodotti in un periodo di un mese
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
12
Monte Carlo: espansioni & problemi
• 2002: prodotti circa 60Mev su un fabbisogno totale di
1.5*103Mev, pari al 4%.
• Obiettivo per il 2003: produzione del 15% del fabbisogno
ufficiale di BaBar (375Mev su 2.5*103Mev). A tal fine:
– Uso “parassita” della farm di (re)processing per circa
1/3 della statistica.
– 1TB disco addizionale per buffer farm MC
– raddoppio CPU farm MC: +150x30SpecInt95
• Ma c’e’ un problema: le nuove CPU per la farm sono in ritardo
di 4 mesi a causa di problemi (risolti) nella firma del contratto
di fornitura a seguito della trasformazione NAOS-Oxyria.
• Arrivo previsto: prima meta’ di Ottobre.
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
13
Monte Carlo + GRID
Sezioni impegnate: Ferrara, Napoli
• Richieste di BaBar:
– ~1.5 Geventi adronici simulati per 100 fb-1 di
luminosità integrata
• Le risorse necessarie sono ingenti e non
disponibili in un singolo sito
– Soluzione: produzione distribuita in una “Grid” di
circa 25 siti amministrati e gestiti localmente
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
14
Monte Carlo + GRID (2)
• Testbed: Farm di Ferrara
– 1 CE + 1 SE + 6 WN con EDG 1.4.11
– Visibile dal RB di BaBar (Imperial College)
– I membri della VO BaBar possono sottomettere job anche da RB
del CNAF
• Stato attuale:
– Software MC integrato in EDG ed installato su farm EDG di
Ferrara, Napoli, Catania e Padova
– Effettuati test di produzione remota sulle 4 farm
– Portale GENIUS installato a Ferrara e configurato per la
produzione MC su risorse GRID
• A breve:
• Integrazione in LCG (fine anno)
• Integrazione nel nuovo CM di BaBar (autunno)
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
15
Farm di (re)Processing
• Attivita' estive, durante luglio ed agosto:
– Hardware:
• riconfigurazione macchine (datamover)
– Software:
• Modifiche al sistema di import Xtc (G.Tiozzo)
• Sviluppo e test del sistema di controllo (M.Piemontese,
A.Ceseracciu, F.Galeazzi)
• Sviluppo e test nuovo sistema di export (G.Vedovato,
F.Galeazzi)
• “reprocessing” di un set consistente di dati (circa 10 fb-1)
con varie releases
Nessuna “chiusura per ferie”...
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
16
Il processing di BaBar
• Architettura a due step:
– Ogni run “pronto” ad IR2 viene automaticamente copiato
a PD e (contemporaneamente)...
– …accodato alla farm di calibrazione “PC” (a SLAC):
• selezione rapida di un campione di eventi per il calcolo delle
“rolling calibrations”, che vengono scritte in Objectivity
– Ogni ~24 ore si estraggono i database contenenti le
calibrazioni (da Obj) e si copiano nel database di
calibrazione (Obj) di PD
– Processing a PD (Event Reconstruction) sulle farm “ER”
• condizioni lette da Objy ma uscita in formato ROOT
– Export a SLAC dei dati processati
dal 09/2003 tutta l'attivita' di ER viene fatta a Padova
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
17
Processing: stato attuale
• E' iniziato il Run 4!
– (Programma anticipato di circa una settimana)
– Primo run di cosmici il 26 agosto mattina (CET)
• dati riprocessati pronti per gli esperti dopo circa 24 ore
• feedback positivo
– “Colliding beams” dal 5 settembre:
• Primo run utile: 40003 chiuso il 9/9/2003, 18:24 PST
• Primo blocco calibrazioni: 10/9/2003, 00:45 PST
• Dati processati disponibili a SLAC: 10/9/2003, 07:09 PST
Ciclo di processing estremamente veloce
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
18
Processing+CM2=un successo
• L’efficienza di CM2 nel rendere disponibili i dati
per l’analisi era impensabile con Objectivity:
• “Congratulations to everyone who helped make the first live
CM2 production an immediate success.” (Rainer Bartoldus,
Deputy Computing Coordinator)
• “...once again I'd like to congratulate and thank the OPR
folks for the amazingly rapid throughput and availability of
the data.” (Mike Kelsey, DCH System Manager)
• Dati riprocessati disponibili agli utenti:
– Objectivity: ~2-3 settimane
• export settimanale + import in Objy a SLAC + caricamento
collezioni nella Bridge Federation
– CM2: ~1 giorno
• Export per ogni singolo run e l’import = untar di un file
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
19
Processing: import dei dati
• Copia completa del campione di dati “raw” da SLAC
per backup ed uso locale.
• Modifica del sistema di import per la gestione di
buffer di disco a SLAC e a PD (quasi completato).
• Tutti i dati fino alla fine di Run3 sono stati importati
entro fine Agosto e copiati su nastro.
• Attualmente i dati di Run4 vengono importati e copiati
su nastro appena disponibili.
A.Dorigo ha ora la responsabilita' dell'import
(il contratto di G.Tiozzo scaduto a fine agosto)
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
20
Processing: export
• Sistema completamente nuovo:
– Granularita’: dalla “production week” al singolo run (ri)processato
• Molto piu' flessibile:
– Objy imponeva l'assegnazione di risorse separate per ogni farm
– Lo schema attuale ottimizza l’uso delle risorse aggregandole in “pool”:
• “produttori”, cioe' le farm di processing
• “export”, cioe' le macchine che gestiscono la copia
• “tier”, cioe' l'insieme delle destinazioni (inclusi i nastri)
– I collegamenti tra pool possono essere modificati in ogni momento
con molta semplicita' (ad es. per includere Lione, CNAF...)
– Completamente automatizzato
• Gia' operativo:
– Solo due destinazioni: SLAC e i nastri
– Qualche dettaglio nel protocollo di handshaking con i tier da definire
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
21
(re)Processing: stato delle farm
• Macchine della gara 2003 in arrivo:
– dopo installazione e test, operative ~15 Ottobre
• Nel frattempo:
– ER0: (piccola) farm di test
– ER1: produzione MonteCarlo
– ER2: “validata” come farm di produzione MC
• Puo' essere convertita a processing, o reprocessing, o
MonteCarlo nel giro di 2-4 ore
– ER3, ER4: processing dei nuovi dati
con 3 farm = 0.5 fb-1/giorno
(PEP: al 19/9 max 0.25 fb-1/giorno, ~0.45 fb-1/giorno
entro Dicembre)
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
22
Prospettive future: attivita’
• Attivita’ relative al CM2 sulla farm di
(re)processing:
– Conversione dei dati dei Run1-3 dal
formato mini-Obj al nuovo formato
– (re)skimming
– Reprocessing dei dati (ove necessario)
• Tutto questo in parallelo con il
processing dei nuovi dati, grazie al
nuovo hardware in arrivo ad Ottobre.
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
23
Prospettive di espansione hw
2004
2005
268
425
CPU(CPUunit)
+350
+400
Disco (TB)
+19
+26
+350
+420
+8
+2
Luminosita’ integrata (fb-1)
Farm Analisi
Farm (re)processing
CPU(CPUunit)
Disco (TB)
22/09/2003
F. Safai Tehrani - Stato del Calcolo di BaBar
24