schema delle esigenze di calcolo di glast nel triennio

SCHEMA DELLE ESIGENZE DI CALCOLO DI GLAST NEL TRIENNIO
PRECEDENTE IL LANCIO
Le Unita’ Operative (U.O.) INFN coinvolte in GLAST sono: Bari, Padova, P=
erugia, Pisa, Roma2, Trieste-Udine.
L'impegno italiano in GLAST da parte dell'INFN e’ rilevante sia dal punt=o di vista
hardware (costruzione del tracker, dove e’ responsabile di ac=quisto, test ed
assemblaggio dei rivelatori al silicio e della costruzione e test dei piani e delle torri di
volo) sia dal punto di vista del software (la componente italiana ha sviluppato in sinergia
con il CERN la simulazione, basata su GEANT4, ed e’ attualmente responsabile
dell'event display; contribuisce inoltre al software per il test della strumentazione,=
allo sviluppo dei prototipi di software di analisi scientifica ed coinvolta in gruppi di
fisica).
Nel dettaglio le responsabilita' italiane nel software sono le seguenti:
- Simulazione [1]: abbiamo consegnato la simulazione sviluppata sotto la responsabilita'
di Alessandro De Angelis (Udine), e attualmente stiamo procedendo alla fase di
validazione coordinata da Francesco Longo (Trieste).
All'interno del progetto generale della simulazione, il gruppo di Bari ha sviluppato la
digitizzazione nel tracker, e C. Cecchi (Perugia) e' responsabile della simulazione veloce
delle sorgenti [2].
- Event display: una delle due linee di R&D sul possibile event display [3] di GLAST e'
sviluppata a Udine con la coordinazione di Riccardo Giannitrapani.
- Siamo coinvolti nello sviluppo di tools di analisi; in particolare:
Nicola Omodei (Pisa) [4] e' responsabile con Francesco Longo della simulazione dei
GRB;
- il gruppo di Perugia sta sviluppando tecniche di selezione del segnale mediante ICA e
wavelets [5];
- il gruppo di Udine e' impegnato su tecniche di ricerca e classificazione automatica [6].
- Gruppi di Scienza. Abbiamo la corresponsabilita’ di due dei cinque gruppi di scienza:
Gamma-Ray Bursts (Guido Barbiellini, Trieste) e Dark Matter (Aldo Morselli, Roma 2
[7]).
Un modello generale di calcolo per GLAST non e' ancora definito. Sappiamo pero' che il
prossimo triennio, che precedera’ il lancio e la presa dati, sara’ cruciale per la completa
definizione e la sperimentazione di un modello di calcolo e di produzione scientifica per
la componente INFN di GLAST.
Oltre a dover continuare lo sviluppo ed il supporto dei pacchetti software gia’ prodotti
negli ultimi due anni, infatti, si comincera’ lo sviluppo del software da usare per l'analisi
scientifica dei dati di GLAST. Questa e’ una fase delicata, in cui le competenze di fisica,
unit=e allo sviluppo del software, saranno fondamentali per poter accedere alla scienza di
GLAST fin dal primo giorno. La nostra ambizione e' di poter analizzare i dati
autonomamente. Per essere pronti sara’ necessario produrre quantita’ di dati simulati
confrontabili con quelle attese per i dati reali dopo la fase di pre-processamento
(2TB/anno + 0.2 TB per il data base) da immagazzinare in un centro facilmente
accessibile alle sedi italiane partecipanti. Riteniamo utile eventualmente poter
immagazzinare completamente anche meta’ dei "raw data" prodotti in un anno, che
ammonterebbero a 3.5 TB/anno, allo scopo di testare e sviluppare gli algoritmi di
reiezione del fondo. In totale, una previsione di 18 TB (2000 EUR/TB).
Per quanto riguarda la generazione della simulazione e la prima elaborazione dei dati, la
generazione di un secondo di presa dati "raw" richiede un tempo medio di 700s su una
macchina Linux RedHat 7.2 con processore ATHLON 2x1.8 GHz. Si puo’ assumere di
generare il 2% dei dati -una settimana di presa dati- con la full simulation, il 48% con una
full simulation nel tracker seguita da una full simulation nel calorimetro (70s per secondo
reale), e meta’ con una fast simulation. Il tempo richiesto dalla ricostruzione e’
trascurabile. Questo schema richiede a regime l'impiego di 50 biprocessori alle tecnologie
attuali (che considerando il costo convenzionale CNAF di 2500 EUR/biprocessore
darebbe un totale di 125,000 EUR nei 3 anni). Conviene naturalemente sfruttare il
miglioramento di performance dei computers posticipando il completamento alle farm a
sei mesi prima del lancio, ma e' comunque utile iniziare da subito ad avere una capacita'
di calcolo corrispondente a una ventina di macchine in modo da poter partecipare alle
data challenges e quindi prendere mano sul software. Per questo chiediamo 50 kEUR SJ
per il 2004.
La soluzione di un centro di produzione ed analisi unico sembra la piu’ funzionale.
Appoggiare tale centro al CNAF offre ovvi vantaggi ma necessita di una persona fissa in
tale centro dedicata al lavoro, per cui sarebbe opportuno prevedere un assegno di ricerca
per un informatico per 3 anni (45000 EUR). In alternativa tale centro si puo' appoggiare a
una sede partecipante a GLAST; a questo proposito e' opportuno sottolineare che fra le
sedi partecipanti Udine offre un ambiente con una lunga tradizione informatica e molti
laureati e dottorandi che collaborano con il locale gruppo 2, e che Perugia sta
gia’.sviluppando esperienza nel primo data challenge. La prima richiesta SJ verra'
attribuita a Udine, con l'idea che in ogni caso si seguira' un'architettura standard
trasportabile in un'altra sede o al CNAF a seconda della decisione finale.
Infine, per il calcolo in sede (test di algoritmi di ricostruzione ed analisi sugli eventi MC),
un sistema di calcolo potente per gruppo partecipante (ad esempio i biprocessori
ATHLON usati al CNAF e da CDF a FNAL, equipaggiati con 2GB di RAM e 120 GB di
disco rigido, al prezzo convenzionaledi 2500 EUR per 6 U.O. (15000 EUR) per ciascuna
sede.
RICAPITOLAZIONE
COSTI (kEUR) nei 3 anni
Mass storage 18 TB 36=20
CPU Farm 50 biprocessori ATHLON 125 (50 SJ da chiedere per il 2004)
CPU nelle sedi [per ognuna delle 6 sedi 6 biprocessori ATHLON 15 + 1 file server con
4 TB di disco 8] (6x6 da chiedere per il 2004: 2 biprocessori con 0.6 TB di disco IDE)
TOTALE
299
Bibliografia
[1] P. Boinee et al, Gleam: the GLAST LAT simulation framework, in: S. Ci=
prini, A. De Angelis, P. Lubrano and O. Mansutti (eds.):=20
Proc. of "Science with the New Generation of High Energy Gamma-ray Exper=
iments" (Perugia, Italy, May 2003). Forum, Udine=20
2003, p.141, astro-ph/0308120.
[2] C. Cecchi et al, A fast simulator for the sky map observed by the GLA=
ST experiment, in: S. Ciprini, A. De Angelis, P. Lubrano=20
and O. Mansutti (eds.): Proc. of "Science with the New Generation of Hig=
h Energy Gamma-ray Experiments" (Perugia, Italy, May=20
2003). Forum, Udine 2003, p.168, astro-ph/0306557.
[3] M. Frailis, R. Giannitrapani, The FRED Event Display: an Extensible H=
epRep Client for GLAST, Proc. 2003 Computing in High=20
Energy and Nuclear Physics (CHEP03), La Jolla, Ca, USA, March 2003, arXiv=
:cs.GR/0306031; J. Perl, R. Giannitrapani, M. Frailis, The=20
Use of HepRep in GLAST, ibid., arXiv:cs.GR/0306059.
[4] http://www.pi.infn.it/~omodei/NicolaOmodei.html
[5] F. Marcucci, C. Cecchi, G. Tosti, An application of ICA to gamma-rays=
astrophysical imaging, in: S. Ciprini, A. De Angelis, P.=20
Lubrano and O. Mansutti (eds.): Proc. of "Science with the New Generatio=
n of High Energy Gamma-ray Experiments" (Perugia,=20
Italy, May 2003). Forum, Udine 2003, p.186, astro-ph/0306563; M. Fiorucci=
, Wavelet methods for source detection in GLAST, ibid., p.190.
[6] P. Boinee, A. De Angelis, E. Milotti, Automatic Classification using =
Self-Organizing Neural Networks in Astrophysical=20
Experiments, in: S. Ciprini, A. De Angelis, P. Lubrano and O. Mansutti (e=
ds.): Proc. of "Science with the New Generation of High=20
Energy Gamma-ray Experiments" (Perugia, Italy, May 2003). Forum, Udine 20=
03, p.177, arXiv:cs.NE/0307031; M. Frailis, A. De Angelis, V. Roberto,=20
Data Management and Mining in Astrophysical Databases, ibid., p. 157, arX=
iv:cs.DB/0307032.
[7] A. Morselli et al, Search for Dark Matter with GLAST, Nucl. Phys. Pro=
c. Suppl. 113 (2002) 213.