Documento sul calcolo per la Commissione II

Esperimento AUGER
Documento sul calcolo per la Commissione II
INTRODUZIONE
La collaborazione Auger ha tenuto un Analysis Meeting presso il Centre for Cosmological
Physics, University of Chicago nei giorni 2-5 Ottobre 2002. In occasione di questo meeting e'
stato riorganizzato il Task DPA (Data and Processing Analysis) ed e' stato dato incarico di
coordinare le Analysis Tasks ad Alan Watson per il Surface Detector (SD) e a Paolo Privitera per
il Fluorescence Detector (FD). Sono state individuate le seguenti Task ovvero argomenti di
analisi a ciascuno dei quali corrisponde un gruppo di lavoro:
Surface Detector
1) Monitoring/calibration
2) Direction
3) Density accuracy
4) Core algorithm
5) Lateral distribution functions
6) FADC traces
7) Asymmetry effects
8) Horizontal showers
9) Aperture/trigger
10) FD/SD cross calibration
Fluorescence Detector
1) Performance monitoring
2) Detector calibration
3) Atmosphere calibration
4) Trigger efficiency
5) Shower reconstruction
6) Shower profile
7) Multiple-eye showers
8) FD detector and atmosphere simulation
Il DPA ha il compito di sviluppare e mantenere i tools per il processamento dei dati in stretta
connessione con i Task di analisi che forniranno le routine specifiche.
L'esperimento Auger prevede che i dati raw vengano quotidianamente trasferiti verso siti mirror,
ubicati a Lyon, Fermilab e Buenos Aires. Attualmente il solo sito di Lyon e' pienamente
1
funzionante. Da questi siti mirror, i dati vengono poi prelevati dai gruppi dei diversi istituti per
la ricostruzione e l'analisi. I siti mirror fungono anche da sorgente di sciami simulati.
E' necessario tener presente che l'organizzazione dell'analisi dell'esperimento Auger e' ancora in
fase embrionale e richiedera' certamente aggiustamenti con il passar del tempo e il procedere
della costruzione dell'Osservatorio. Finora abbiamo esperienza soltanto con il primo nucleo
dell'Osservatorio, l'Engineering Array, che costitusce appena qualche per cento del totale.
Per conseguenza questo documento e' da considerare preliminare e provvisorio.
1) MODELLO DI CALCOLO PER ANALISI DATI E SIMULAZIONI
1.1 Simulazione
La simulazione prevede due fasi: quella di simulazione dello sciame atmosferico per se e quella
di simulazione della risposta del detector. La simulazione degli sciami (effettuata con Corsika ed
Aires) richiede grandi risorse di CPU e storage. Attualmente, a Lyon e Fermilab, si stanno
producendo librerie di sciami. Questi sciami dovranno servire come input per i programmi di
simulazione del detector. I gruppi Italiani contribuiscono attivamente allo sviluppo dei
programmi di simulazione del detector, mentre non hanno finora preso impegni sulla produzione
degli sciami.
1.2 Analisi
Il programma di ricostruzione e analisi sara' in grado di processare dati raw o preprocessati.
Nella sua versione finale conterra' algoritmi avanzati di ricostruzione del segnale, ricostruzione
geometrica e studio dell'energia e della composizione del primario.
E’ prevista una struttura modulare in modo da permettere ad ogni ricercatore di intervenire sui
vari algoritmi. L' analisi statistica degli eventi potra’ essere effettuata con il sistema ROOT.
Attualmente prevediamo due fasi per l'organizzazione delle risorse di calcolo.
Nella fase iniziale si utilizza in modo intensivo il mirror di Lyon mentre lo sviluppo delle routine
di analisi e il processing dei dati, affidato ai gruppi delle analysis Tasks, viene eseguito con
mezzi di calcolo distribuito nelle diverse Sezioni.
Tuttavia e' prevedibile che, al momento dell'entrata in funzione di LHC, il mirror di Lyon
divenga sovraccarico. E’ quindi prudente elaborare una strategia che permetta ai gruppi Europei,
non soltanto Italiani, di eseguire un preprocessing e reprocessing centralizzato.
Pensiamo quindi nella fase successiva di costituire una farm Europea che affianchi il mirror di
Lyon. In questa fase, i programmi saranno ormai divenuti stabili e la procedura di analisi sara’
ben definita. Risultera’ allora estremamente efficiente e conveniente poter effettuare un
reprocessing completo dei dati in una farm.
Riteniamo opportuno avviare una discussione su questo tema con gli altri partner Europei.
Stiamo attualmente esaminando la possibilita’ e l’opportunita’ di far entrare il progetto Auger in
GRID. L’aspetto piu’ interessante di tale partecipazione e’ la possibilita’ di usare potenti mezzi
di calcolo per la produzione di grandi librerie di sciami.
2
2) RESPONSABILITA' INFN
I fisici dell'INFN hanno gia’ assunto responsabilita' primarie e rilevanti nell'ambito del
coordinamento e gestione del trattamento e analisi dei dati.
- Stefano Argiro' (Torino) e' Task Leader del DPA. Ha il compito di coordinare lo sviluppo e
l'implementazione del codice off-line di simulazione del detector e ricostruzione degli eventi.
- Gianni Navarra (Torino) e' convenor del gruppo di analisi 3) del SD.
- saranno tra breve nominati altri convener Italiani per le Task di analisi del FD.
Le attivita' nel campo della simulazione e analisi dei gruppi Italiani sono le seguenti.
Surface Detector
Torino/SD: Task 1), 3), 5) e 9).
Fluorescence Detector
L'Aquila: Task 3) e 4).
Catania: Task 2), 5) e 6).
Milano: Task 1) e 7).
Napoli: Task 3), 5) e 6).
Pavia: Task 8).
Roma II: Task 2), 4), 5) e 6).
Torino/FD: Task 2), 3), 5) e 7).
L’attivita’ di analisi dei vari gruppi negli argomenti sopra menzionati e’ gia’ iniziata e si sta ora
formalizzando ufficialmente in una struttura organizzativa in corso di definizione.
3) PIANIFICAZIONE RISORSE DI CALCOLO TRIENNIO 2003-2005
Tra i preventivi per il 2003 e' stata inclusa la richiesta da parte del gruppo di Roma II per un PC
con elevate prestazioni e grande spazio di memoria per la preanalisi sul sito dei dati di
calibrazione del rivelatore di fluorescenza. Il volume di dati di calibrazione con sorgenti di luce
e di assorbimento atmosferico con Lidar e' troppo grande per permettere la trasmissione via rete.
E' necessario eseguire una analisi preliminare sul sito dove saranno immagazzinati i raw data e
inviare via rete risultati di analisi. La richiesta e' stata accolta dalla Commissione.
A) Fase iniziale
I gruppi Italiani fanno riferimento al mirror di Lyon potenziando le risorse di calcolo locali nelle
Sezioni mediante acquisto di PC adeguati. Questa soluzione e' certamente soddisfacente a breve
e forse anche medio termine e permette comunque di estendere l'utilizzo del sistema di calcolo
distribuito anche nell'eventuale fase successiva o finale ancora da definire. La configurazione
tipo del PC per ciascun gruppo dovrebbe prevedere Pentium 4 CPU a 2.8 GHz con doppio
processore, 1 GB RAM, mass storage iniziale di almeno due dischi da 200 GB (estendibile) e
sistema di backup. Il costo iniziale e' di 12 – 14 kEuro per PC.
3
B) Fase successiva
In questa fase, allorche'i programmi e la strategia di analisi saranno ben definiti, si fara’ uso di
una farm per la selezione dei raw data e per il reprocessing sistematico.
La farm dovrebbe essere concepita come il mirror di Lyon e cioe’ una facility a disposizione di
tutti i gruppi Europei. Dovranno essere discusse le modalita’ di finanziamento, se interamente o
parzialmente a carico dell’INFN. La configurazione della farm, la sua localizzazione territoriale
e la individuazione del personale addetto devono ancora essere studiate e saranno definite in un
secondo tempo.
4) RISORSE DI RETE
Il volume di dati previsto per l'Osservatorio completo e' di circa 300 GBytes/anno, cioe'
dell'ordine di 1 GBytes/giorno. La larghezza di banda richiesta e' quindi di circa 100 kbit/s.
Durante l'operazione dell'Engineering Array (40 rivelatori di superficie su un totale di 1600
corrispondente al 2% e 2 telescopi di fluorescenza su un totale di 24 corrispondente al 8% del
totale) sono stati regolarmente trasmessi i dati ai mirrors di Fermilab e di Lyon.
Il volume di dati trasmesso ha raggiunto valori di picco pari a circa 1 MB/giorno per lo SD ed
alcuni MB/giorno per lo FD (dati di calibrazione esclusi).
Le attuali velocita` di scaricamento dei dati presi con l’Engineering Array dal mirror di Lyon,
osservate nelle diverse Sezioni, sono nell’intervallo tra 150 e 500 kBytes/s a seconda della fascia
oraria utilizzata.
Scegliendo opportunamente la fascia oraria, lo scaricamento dei dati, presi in una giornata
dall’Osservatorio completo a regime, dovrebbe quindi avvenire in un intervallo di tempo di
½ - 1 ora. Si tratta di un tempo ragionevole ma forse in pratica marginale per cui ci
ripromettiamo di studiare meglio il problema delle risorse di rete.
Gennaio 2003
4