CSN1 2002/09/17 (pps) - INFN Trieste, ACIDWEB Server

Stato della Farm di Trieste
CSN 1
17 settembre 2002
Benigno Gobbo
INFN Sezione di Trieste
[email protected]
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste
1
Hardware
19 New clients:
Abit VP6
Dual PIII 1000 Mhz
2 x 40 GB ATA Disks
512 MB RAM
Tape 4900
Library
3com
STK L40
20 slot
3com
3900
2 x IBM Ultrium
Tape/disk server
Kvm switch
Dell PowerEdge
4400
Dual Xeon 1 GHz
2 x 36 GB SCSI RAID1
6 x 73 GB SCSI RAID0
www.ts.infn.it/acid/
SCSI disk server
Sun Blade 1000
Dual SparcIII 750 MHz
18 GB SCSI FC disk
8 x 73 GB SCSI RAID5
[email protected]
EIDE disk server
Intel L440 GX+
Server SGE, DHCP, BB, …
Dual PIII 700 MHz
Asus
CUR-DLS
11 Old clients:
2 x 15 GB ATA
disks
Dualdisks
PIII 800 MHz
MSI 694D Pro
14 x 75 GB ATA
EIDEDisks
disk server
2 xdisks
30 GB ATA
Dual PIII 800 Mhz 6 x 80 GB ATA
Intel STL2
512 MB RAM
2 x 20 GB ATA Disks GA620 G gigabit
Dual PIII 866 MHz
GA620 G gigabit
512 MB RAM
2 x 20 GB ATA disks
20 x 80 GB ATA disks
GA620 G gigabit
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 2
Hardware (cont.)
Problemi, rotture, etc…
ACID01 (server SunGrid, DHCP, BigBrother, …)
Problemi con motherboard (CUR-DLS) che legge male la temperatura della seconda
CPU. Risolto aumentando la ventilazione.
ACID02
Problemi con scheda di rete Intel PRO/100 S.
ACID03 (disk server)
Problemi su diversi dischi IBM DTLA-307075 (è un problema noto, ora…).
Client Vecchi (ACID06, 07, 09, 10, 12, 13)
Problemi con le ventole delle CPU.
ACID05
Rottura alimentatore.
ACID13
Rottura disco ( ri-installazione del sistema).
ACID17 (disk server)
Rottura di una 3ware Escalade 6800.
ACID36
Rottura dell’alimentatore e della scheda video (probabilmente correlate).
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 3
Software installato
Management della farm
R. Birsa (Solaris), BG (Linux)
Componenti free software
RedHat Linux 7.2 (kernel 2.4.9, glibc 2.2.4) oppure 7.3 (kernel 2.4.18, glibc 2.2.5).
A parte la Sun che ovviamente monta Solaris
Queuing system: Sun Grid Engine EE 5.3p1
System/Network monitor: Big Brother 1.9
CERN software
CERNLib, ANAPHE, ROOT, CASTOR, DATE
COMPASS software
COMGeant (simulazione), Coral (ricostruzione ed ad analisi)
Tools locali (parallelizzazione dei processi, accesso a DB remoto)
Componenti commerciali
Backup: CA Arcserve 7
1 licenza Linux server, 3 licenze Linux client, 1 licenza Unix client
ODBMS: Objectivity 6.1.3
CERN Contract
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 4
Software installato (cont.)
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 5
Software installato (cont.)
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 6
Software installato (cont.)
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 7
Software installato (cont.)
Mirroring/Update
Giornaliero di:
Distribuzione RedHat 7.2 e 7.3
Software/DataBase di COMPASS
COMGeant
CORAL
DataBase delle calibrazioni
Database di geometria, mappe ed allineamenti
Periodico dei patch su sistema od applicativi
Non si usano auto-update tools
ASIS
Non viene usato
Sono installati solo i package che servono esplicitamente
(CERNLib, CASTOR, …), localmente su ogni nodo, usando RPM.
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 8
Tools sviluppati ed attività in corso
Spar: tool per la parallelizzazione della procedura di analisi di MC
via SunGrid (V.Duic)
Input: l’utente specifica eseguibili e file di configurazione come se si
trattasse di un unico job di generazione/produzione/analisi
spar provvede alla suddivisione in job paralleli alterando opportunamente i file di
opzioni (il grado di parallelizzazione viene specificato dall’utente).
Output: spar alla fine raggruppa opportunamente i file di output
Supporta fino all’intero ciclo di processamento: generatori COMGeant
 CORAL, con possibilità di escludere alcuni passi
Può partire da passi intermedi (es. CORAL su output di COMGeant)
Una prima versione di spar è gia in utilizzo.
Parallelizzazione dell’analisi sui DST e raw data (V.Duic)
Concettualmente è analogo al tool precedente
Si basa sull’analogo tool in uso al CERN per la produzione (VD,
M.Lamanna).
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 9
Tools sviluppati ed attività in corso (cont.)
Copia delle federazioni Objectivity di COMPASS (V.Duic)
Solo DST ed alcuni “raw data”.
Trasferimento (va ftp su wacdr) di:
Federazione
Database di header (di run ed eventi)
Database di eventi (essenzialmente DST)
Come test sono stati trasferiti i DST relativi al 2001
I DST dei dati con polarizzazione trasversa del 2002 sono importati man mano
che vengono prodotti al CERN
Test di processatura di raw event e DST
Produzione MC per test sistema e sviluppo software (A.Martin)
Per trasverso. 1M eventi su tutto range x e in diversi bin di x
Generazione eventi DIS con Lepto: singolo job per campione (è rapido)
COMGeant: parallelizzato da spar su 10 e 20 nodi/generazione
1.4 s/evento, 5k eventi/CPU/generatore, 2 ore siu 10 CPU, zebra file 0.34 GB
CORAL: parallelizzato da spar su 10 e 20 nodi/generazione
Output ROOT tree (1MB per 5k eventi), somma dei singoli file fatta automaticamente da spar
Ottimizzazione della ricostruzione del RICH1 (P.Schiavon)
Run su file binari pre-prodotti al CERN per sviluppo ed ottimizzazione della
ricostruzione degli anelli del RICH.
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 10
Attività prossima futura
Il run ci ha tenuto molto occupati. A questo si aggiunge l’impegno
sull’offline generale di COMPASS
Responsabilità: Coral (BG), CCF e gestione dati (M.Lamanna), software
RICH1 (P.Schiavon). Attività: gestione dati e produzione DST (P.Pagano,
V.Duic)
Ottimizzazione della Farm per l’analisi dei dati
Test di accesso diretto alle federazioni CERN via WAN (da ottobre)
Verifica protezioni, sicurezza, etc.
Produzione selettiva di DST da DST con Coral
Richiede modifiche del codice
GUI per i tool di parallelizzazione
In test
Miglioramento dei tools di gestione e controllo della farm
Più sono automatizzati meno lavoro c’è per me (credo…)
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 11
Attività prossima futura (cont.)
Verifica della possibilità di utilizzo di HSM
Studio della possibilità di porting di CASTOR (ostico…)
HSM commerciali (poca roba per Linux: DiskXtender,…)
NOTA: dall’esperienza di analisi sui dati 2002 capiremo se ed
eventualmente quanto storage aggiuntivo ci serve. È importante capire se
si può puntare verso un HSM che potrebbe avere costi sensibilmente
minori dell’allargamento dello spazio disco.
Adattamento e test del software per il nuovo DBMS
Studio sistematico della prestazioni del RICH1
Analisi dei dati (già iniziata): misura di h1 da asimmetria dei
“leading π” in DIS su bersaglio con polarizzazione trasversa
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 12
Analisi dati trasverso 2002
È una misura complessa: l’asimmetria prevista è di pochi % con un
apparato del tutto nuovo
DST
Organizzati in due periodi corrispondenti a circa 270 run (più di mezzo miliardo
di eventi) 26 TB di “raw data”, 2 TB di dati DST
Inoltre è stato deciso di acquisire ulteriori dati per il trasverso in questi ultimi
giorni di run: due periodi da cui ci aspettiamo almeno 100 run aggiuntivi.
La produzione dei primi due periodi è stata iniziata al CERN a fine agosto
Il primo periodo è in avanzato stato di processato e trasferimento a Trieste
La produzione del secondo periodo è stata appena iniziata
Analisi
Studi di stabilità su tutti gli eventi (2 TB) in collaborazione con Torino in base
alle risorse hardware disponibili
Calcolo asimmetria all’inizio solo su eventi con Q2>1 GeV2 (20%). Software già
testato sulla farm (P.Pagano)
Studio di effetti sistematici dovuti ad accettanza e fondo
Richiede Produzione massiccia di MC
Produzione iniziale 107 eventi DIS nel range di interesse
1TB di eventi simulati (20 CPU per 8 giorni)
Processatura: ogni analisi richiede lo stesso ordine di tempo della produzione
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 13
Hardware, desiderata 2003
Inventariabile
Rimpiazzo RAID controller SCSI CRD-5440 con analogo Infotrend Sentinel 150 (
3.5 k€ )
CMD si è orientata su mercato militare. Non c’è modo di mettere l’oggetto in
manutenzione
Sostituzione ACID01 con server “di qualità” (con RAID…) ( 5.6 k€ )
Fa servizi importanti: master SGE, server DHCP, master e display BigBrother,…
È vecchio e usa dischi ATA non in RAID.
Upgrade della Tape Library a 40 slot (5.0 + IVA k€ )
20 slot (= 2 TB). NOTA: prezzo farm con 20 slot 67 MITL
Inventariabile (seconda priorità)
Inizio upgrade dei client vecchi (5/30 da fare a fine 2003) (28.0 k€ )
Consumo
Varie ( 3.0 k€ )
Tape Ultrium ( 10.0 k€ )
Manutenzioni
Switch 3com 3900 (07/2002-12/2003) ( 0.7 k€ , possibilmente anticipati al 2002)
Switch 3com 4900 (01/2003-12/2003) (0.6 k€ )
Gruppo di continuità (50%: 0.6 k€ )
17 settembre 2002
CSN 1
Benigno Gobbo – INFN Trieste 14