Stato della Farm di Trieste CSN 1 17 settembre 2002 Benigno Gobbo INFN Sezione di Trieste [email protected] 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 1 Hardware 19 New clients: Abit VP6 Dual PIII 1000 Mhz 2 x 40 GB ATA Disks 512 MB RAM Tape 4900 Library 3com STK L40 20 slot 3com 3900 2 x IBM Ultrium Tape/disk server Kvm switch Dell PowerEdge 4400 Dual Xeon 1 GHz 2 x 36 GB SCSI RAID1 6 x 73 GB SCSI RAID0 www.ts.infn.it/acid/ SCSI disk server Sun Blade 1000 Dual SparcIII 750 MHz 18 GB SCSI FC disk 8 x 73 GB SCSI RAID5 [email protected] EIDE disk server Intel L440 GX+ Server SGE, DHCP, BB, … Dual PIII 700 MHz Asus CUR-DLS 11 Old clients: 2 x 15 GB ATA disks Dualdisks PIII 800 MHz MSI 694D Pro 14 x 75 GB ATA EIDEDisks disk server 2 xdisks 30 GB ATA Dual PIII 800 Mhz 6 x 80 GB ATA Intel STL2 512 MB RAM 2 x 20 GB ATA Disks GA620 G gigabit Dual PIII 866 MHz GA620 G gigabit 512 MB RAM 2 x 20 GB ATA disks 20 x 80 GB ATA disks GA620 G gigabit 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 2 Hardware (cont.) Problemi, rotture, etc… ACID01 (server SunGrid, DHCP, BigBrother, …) Problemi con motherboard (CUR-DLS) che legge male la temperatura della seconda CPU. Risolto aumentando la ventilazione. ACID02 Problemi con scheda di rete Intel PRO/100 S. ACID03 (disk server) Problemi su diversi dischi IBM DTLA-307075 (è un problema noto, ora…). Client Vecchi (ACID06, 07, 09, 10, 12, 13) Problemi con le ventole delle CPU. ACID05 Rottura alimentatore. ACID13 Rottura disco ( ri-installazione del sistema). ACID17 (disk server) Rottura di una 3ware Escalade 6800. ACID36 Rottura dell’alimentatore e della scheda video (probabilmente correlate). 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 3 Software installato Management della farm R. Birsa (Solaris), BG (Linux) Componenti free software RedHat Linux 7.2 (kernel 2.4.9, glibc 2.2.4) oppure 7.3 (kernel 2.4.18, glibc 2.2.5). A parte la Sun che ovviamente monta Solaris Queuing system: Sun Grid Engine EE 5.3p1 System/Network monitor: Big Brother 1.9 CERN software CERNLib, ANAPHE, ROOT, CASTOR, DATE COMPASS software COMGeant (simulazione), Coral (ricostruzione ed ad analisi) Tools locali (parallelizzazione dei processi, accesso a DB remoto) Componenti commerciali Backup: CA Arcserve 7 1 licenza Linux server, 3 licenze Linux client, 1 licenza Unix client ODBMS: Objectivity 6.1.3 CERN Contract 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 4 Software installato (cont.) 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 5 Software installato (cont.) 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 6 Software installato (cont.) 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 7 Software installato (cont.) Mirroring/Update Giornaliero di: Distribuzione RedHat 7.2 e 7.3 Software/DataBase di COMPASS COMGeant CORAL DataBase delle calibrazioni Database di geometria, mappe ed allineamenti Periodico dei patch su sistema od applicativi Non si usano auto-update tools ASIS Non viene usato Sono installati solo i package che servono esplicitamente (CERNLib, CASTOR, …), localmente su ogni nodo, usando RPM. 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 8 Tools sviluppati ed attività in corso Spar: tool per la parallelizzazione della procedura di analisi di MC via SunGrid (V.Duic) Input: l’utente specifica eseguibili e file di configurazione come se si trattasse di un unico job di generazione/produzione/analisi spar provvede alla suddivisione in job paralleli alterando opportunamente i file di opzioni (il grado di parallelizzazione viene specificato dall’utente). Output: spar alla fine raggruppa opportunamente i file di output Supporta fino all’intero ciclo di processamento: generatori COMGeant CORAL, con possibilità di escludere alcuni passi Può partire da passi intermedi (es. CORAL su output di COMGeant) Una prima versione di spar è gia in utilizzo. Parallelizzazione dell’analisi sui DST e raw data (V.Duic) Concettualmente è analogo al tool precedente Si basa sull’analogo tool in uso al CERN per la produzione (VD, M.Lamanna). 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 9 Tools sviluppati ed attività in corso (cont.) Copia delle federazioni Objectivity di COMPASS (V.Duic) Solo DST ed alcuni “raw data”. Trasferimento (va ftp su wacdr) di: Federazione Database di header (di run ed eventi) Database di eventi (essenzialmente DST) Come test sono stati trasferiti i DST relativi al 2001 I DST dei dati con polarizzazione trasversa del 2002 sono importati man mano che vengono prodotti al CERN Test di processatura di raw event e DST Produzione MC per test sistema e sviluppo software (A.Martin) Per trasverso. 1M eventi su tutto range x e in diversi bin di x Generazione eventi DIS con Lepto: singolo job per campione (è rapido) COMGeant: parallelizzato da spar su 10 e 20 nodi/generazione 1.4 s/evento, 5k eventi/CPU/generatore, 2 ore siu 10 CPU, zebra file 0.34 GB CORAL: parallelizzato da spar su 10 e 20 nodi/generazione Output ROOT tree (1MB per 5k eventi), somma dei singoli file fatta automaticamente da spar Ottimizzazione della ricostruzione del RICH1 (P.Schiavon) Run su file binari pre-prodotti al CERN per sviluppo ed ottimizzazione della ricostruzione degli anelli del RICH. 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 10 Attività prossima futura Il run ci ha tenuto molto occupati. A questo si aggiunge l’impegno sull’offline generale di COMPASS Responsabilità: Coral (BG), CCF e gestione dati (M.Lamanna), software RICH1 (P.Schiavon). Attività: gestione dati e produzione DST (P.Pagano, V.Duic) Ottimizzazione della Farm per l’analisi dei dati Test di accesso diretto alle federazioni CERN via WAN (da ottobre) Verifica protezioni, sicurezza, etc. Produzione selettiva di DST da DST con Coral Richiede modifiche del codice GUI per i tool di parallelizzazione In test Miglioramento dei tools di gestione e controllo della farm Più sono automatizzati meno lavoro c’è per me (credo…) 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 11 Attività prossima futura (cont.) Verifica della possibilità di utilizzo di HSM Studio della possibilità di porting di CASTOR (ostico…) HSM commerciali (poca roba per Linux: DiskXtender,…) NOTA: dall’esperienza di analisi sui dati 2002 capiremo se ed eventualmente quanto storage aggiuntivo ci serve. È importante capire se si può puntare verso un HSM che potrebbe avere costi sensibilmente minori dell’allargamento dello spazio disco. Adattamento e test del software per il nuovo DBMS Studio sistematico della prestazioni del RICH1 Analisi dei dati (già iniziata): misura di h1 da asimmetria dei “leading π” in DIS su bersaglio con polarizzazione trasversa 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 12 Analisi dati trasverso 2002 È una misura complessa: l’asimmetria prevista è di pochi % con un apparato del tutto nuovo DST Organizzati in due periodi corrispondenti a circa 270 run (più di mezzo miliardo di eventi) 26 TB di “raw data”, 2 TB di dati DST Inoltre è stato deciso di acquisire ulteriori dati per il trasverso in questi ultimi giorni di run: due periodi da cui ci aspettiamo almeno 100 run aggiuntivi. La produzione dei primi due periodi è stata iniziata al CERN a fine agosto Il primo periodo è in avanzato stato di processato e trasferimento a Trieste La produzione del secondo periodo è stata appena iniziata Analisi Studi di stabilità su tutti gli eventi (2 TB) in collaborazione con Torino in base alle risorse hardware disponibili Calcolo asimmetria all’inizio solo su eventi con Q2>1 GeV2 (20%). Software già testato sulla farm (P.Pagano) Studio di effetti sistematici dovuti ad accettanza e fondo Richiede Produzione massiccia di MC Produzione iniziale 107 eventi DIS nel range di interesse 1TB di eventi simulati (20 CPU per 8 giorni) Processatura: ogni analisi richiede lo stesso ordine di tempo della produzione 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 13 Hardware, desiderata 2003 Inventariabile Rimpiazzo RAID controller SCSI CRD-5440 con analogo Infotrend Sentinel 150 ( 3.5 k€ ) CMD si è orientata su mercato militare. Non c’è modo di mettere l’oggetto in manutenzione Sostituzione ACID01 con server “di qualità” (con RAID…) ( 5.6 k€ ) Fa servizi importanti: master SGE, server DHCP, master e display BigBrother,… È vecchio e usa dischi ATA non in RAID. Upgrade della Tape Library a 40 slot (5.0 + IVA k€ ) 20 slot (= 2 TB). NOTA: prezzo farm con 20 slot 67 MITL Inventariabile (seconda priorità) Inizio upgrade dei client vecchi (5/30 da fare a fine 2003) (28.0 k€ ) Consumo Varie ( 3.0 k€ ) Tape Ultrium ( 10.0 k€ ) Manutenzioni Switch 3com 3900 (07/2002-12/2003) ( 0.7 k€ , possibilmente anticipati al 2002) Switch 3com 4900 (01/2003-12/2003) (0.6 k€ ) Gruppo di continuità (50%: 0.6 k€ ) 17 settembre 2002 CSN 1 Benigno Gobbo – INFN Trieste 14