KLOE - Referee Paolo Checchia, Luca Lista, Ezio Menichetti, Pierluigi Paolucci con l’aiuto sostanziale di Luca dell’Agnello, Mauro Morandin CSN1 L’incidente • • • La più nuova delle due tape library di KLOE ha mostrato una serie di errori di lettura e la rottura di due drive (sostituiti) a partire dal 16/06/2010 L’analisi dei danni si è conclusa il 24/02/2011, presso gli "IBM Media Development Laboratory", Tucson, AZ Rilevata contaminazione da insetti – • [*] 6 cartucce hanno mostrato residui di insetti schiacciati Un analogo incidente è stato riportato anche a Fermilab[*] http://www-ccf.fnal.gov/gcc/GCC-Commissioning.html CSN1 Luca Lista 2 Entità del danno • Le cartucce potenzialmente contaminate sono 640 su 2800 (non si sa esattamente quante) – 640 potenzialmente contaminate: • 139 contengono dati RAW (non riproducibili!) • 501: dati ricostruiti, DST, MC (riproducibili) Tapes – 2800-640 = 2160 incontaminate • 316 con dati • 1844 vuote – Tape size: 1TB/620 GB 139 RAW data 316 1844 • Il materiale (i drive!) contaminato non è considerato in manutenzione dall’IBM CSN1 501 Luca Lista RECO, DST, MC data empty 3 Proposta iniziale di KLOE • La library più vecchia, incontaminata, potrebbe ospitare nuovi drive, le 2160 cassette incontaminate e nuove cassette da acquistare – Necessario acquistare: • 12 drive nuovi • 500 cassette nuove • 64 TB di disco da usare come buffer per il riversamento – Costo stimato: ~100-200k€ (trattativa da avviare con IBM) – Valore di riferimento: gara fine 2009 • Vanno comunque recuperati i RAW data ora registrati sui 139 nastri contaminati – Il costo per il “cleaning” dell’IBM: 5k€/nastro = 700k€ !!! – Necessario inviare i nastri in USA… CSN1 Luca Lista 4 Due problemi da affrontare • Due problemi vanno affrontati separatamente e con priorità diverse: 1. Garantire a KLOE capacità di storage per la presa dati – Il sistema deve essere efficiente per il processamento (RAWRECODST) e per la successiva analisi (DST) 2. Avviare il recupero dei dati e possibilmente del materiale contaminato (principalmente i drive) – – – CSN1 Probabilmente un’attività penosa, ma visti i prezzi proibitivi è necessario fare un tentativo in casa Se l’intervento funziona si potrebbero recuperare i drive e i nastri, almeno in parte La library va comunque spostata dal luogo attuale Luca Lista 5 Alternativa: la library del CNAF • • • 20 drives T10Kb IBM (1 TB, 1GB/s, 5TB; KLOE ne ha 12) Usata principalmente da esperimenti LHC, ma risorse sufficienti per lo storage di KLOE 410 PB nel 2011 ( upgrade a 20 PB nel 2012) + ~100TB di buffer disco – Al mese, assumendo ½ fb-1, KLOE ha bisogno di ~0.28 PB: 120 TB di RAW, 80 TB di RECO, 25-30 TB di DST-dati, 50 TB di DST-MC • Sistema già usato da KLOE (con protocollo TSM) • Accesso a files su tape automatico quando si accede al file system GPFS, come se fosse un’area disco normale KLOE non usa un vero HSM e neanche SRM (gestisce “a mano” il pre-staging dei files) • CSN1 Luca Lista 6 Throughput library • Esigenze di KLOE: ~200 MByte/s – 50 MByte/s DAQ – 50 MByte/s processing – 50 MByte/s concurrent processing – 50 MByte/s analisi • • • La library ha mostrato performances sufficienti (×2.5) Necessario un upgrade di rete (300Mbit/s 1÷2Gbit/s), che dovrebbe essere fattibile senza troppi problemi Upgrade utile anche per il T2 di ATLAS Test fatti al CNAF con la library in questione CSN1 Luca Lista 7 Uso dei nastri al CNAF • Al momento, KLOE usa massicciamente i nastri, anche per l’analisi, per mancanza di spazio disco sufficiente come buffer • Un uso “tal-quale” della library al CNAF è forse fattibile, con un upgrade di rete, ma sarebbe sub-ottimale • L’uso dei tape principalmente come archivio dei RAW data per i (ri-)processamenti consentirebbe di ridurre il numero di stage dei nastri, quindi lo stress meccanico • Necessario un buffer disco più ampio, solo per i DST, per garantire un accesso veloce per l’analisi • Sembrerebbe un uso ragionevole, e migliorerebbe anche il workflow dell’analisi attuale CSN1 Luca Lista 8 Soluzioni analizzate • • • • • • (A) Copia o backup dei RAW data al CNAF Necessario comunque upgrade della library incontaminata Soluzione completamente da testare Copia necessario rivedere il software per l’archiviazione, traserimento al CNAF e popolazione del DB con i dati relativi Backup uso di TSM a basso livello, device FC-over-IP (disponibile al CNAF, da comprare a LNF, mai testato!) Espressi dubbi sulla sicurezza per il trasferimento dei dati in questo modo CSN1 • • • • • • Luca Lista (B) Storage dei RAW al CNAF, processamento RECO a LNF e buffer disco con DST a LNF Il buffer disco evita la necessità di una library locale 135 TB di dati di KLOE + 50-60 TB per ogni fb-1 di KLOE-2 Upgrade di banda:1÷2GB/s Da definire il modo in cui effettuare le copie remote (GRID-FTP, …) Revisione del software di archiviazione e trasferimento comunque necessaria 9 Soluzione estrema • (C) Spostare l’intero sistema di calcolo di KLOE al CNAF • Limitati gli interventi sul software • Dopo una iniziale considerazione è apparsa troppo rischiosa e probabilmente troppo onerosa per il CNAF • Si potrebbe riconsiderare dal 2012 in poi, con l’installazione dei nuovi detector CSN1 Luca Lista 10 Proposta su come procedere • La proposta (B) appare la soluzione più solida sia sul breve che sul lungo termine. Proponiamo di: • Avviare quanto prima la connessione con la library al CNAF per archiviare i nuovi dati • Definire il piano degli interventi da fare per l’integrazione – es.: upgrade del software • Aumentare lo spazio disco come buffer per l’analisi • Avviare in parallelo la procedura di recovery, cercando di salvare il salvabile • Valutare l’esito della strategia tra qualche mese (pochi…) – alla luce dei benchmark misurati col nuovo sistema, e di quanto si sarà potuto recuperare CSN1 Luca Lista 11 Altre richieste • Bari, ME: + 4k€ • LNF, CON: +17k€ OK OK – impegno per gara He • Entrambe le richieste sono coperte dai s.j. assegnati a settembre su ME e CON a LNF CSN1 Luca Lista 12 Conclusioni • La soluzione che richiede meno sforzo (acquisto di nuovi drive e nastri) è anche la più costosa • La library al CNAF sembra adeguata, vanno dettagliati gli interventi da fare • Il ripensamento dell’uso dei nastri limitato al riprocessamento e del disco per l’analisi potrebbe anche portare un miglioramento rispetto al modello attuale CSN1 Luca Lista 13