Esperimento AUGER Documento sul calcolo per la Commissione II INTRODUZIONE La collaborazione Auger ha tenuto un Analysis Meeting presso il Centre for Cosmological Physics, University of Chicago nei giorni 2-5 Ottobre 2002. In occasione di questo meeting e' stato riorganizzato il Task DPA (Data and Processing Analysis) ed e' stato dato incarico di coordinare le Analysis Tasks ad Alan Watson per il Surface Detector (SD) e a Paolo Privitera per il Fluorescence Detector (FD). Sono state individuate le seguenti Task ovvero argomenti di analisi a ciascuno dei quali corrisponde un gruppo di lavoro: Surface Detector 1) Monitoring/calibration 2) Direction 3) Density accuracy 4) Core algorithm 5) Lateral distribution functions 6) FADC traces 7) Asymmetry effects 8) Horizontal showers 9) Aperture/trigger 10) FD/SD cross calibration Fluorescence Detector 1) Performance monitoring 2) Detector calibration 3) Atmosphere calibration 4) Trigger efficiency 5) Shower reconstruction 6) Shower profile 7) Multiple-eye showers 8) FD detector and atmosphere simulation Il DPA ha il compito di sviluppare e mantenere i tools per il processamento dei dati in stretta connessione con i Task di analisi che forniranno le routine specifiche. L'esperimento Auger prevede che i dati raw vengano quotidianamente trasferiti verso siti mirror, ubicati a Lyon, Fermilab e Buenos Aires. Attualmente il solo sito di Lyon e' pienamente 1 funzionante. Da questi siti mirror, i dati vengono poi prelevati dai gruppi dei diversi istituti per la ricostruzione e l'analisi. I siti mirror fungono anche da sorgente di sciami simulati. E' necessario tener presente che l'organizzazione dell'analisi dell'esperimento Auger e' ancora in fase embrionale e richiedera' certamente aggiustamenti con il passar del tempo e il procedere della costruzione dell'Osservatorio. Finora abbiamo esperienza soltanto con il primo nucleo dell'Osservatorio, l'Engineering Array, che costitusce appena qualche per cento del totale. Per conseguenza questo documento e' da considerare preliminare e provvisorio. 1) MODELLO DI CALCOLO PER ANALISI DATI E SIMULAZIONI 1.1 Simulazione La simulazione prevede due fasi: quella di simulazione dello sciame atmosferico per se e quella di simulazione della risposta del detector. La simulazione degli sciami (effettuata con Corsika ed Aires) richiede grandi risorse di CPU e storage. Attualmente, a Lyon e Fermilab, si stanno producendo librerie di sciami. Questi sciami dovranno servire come input per i programmi di simulazione del detector. I gruppi Italiani contribuiscono attivamente allo sviluppo dei programmi di simulazione del detector, mentre non hanno finora preso impegni sulla produzione degli sciami. 1.2 Analisi Il programma di ricostruzione e analisi sara' in grado di processare dati raw o preprocessati. Nella sua versione finale conterra' algoritmi avanzati di ricostruzione del segnale, ricostruzione geometrica e studio dell'energia e della composizione del primario. E’ prevista una struttura modulare in modo da permettere ad ogni ricercatore di intervenire sui vari algoritmi. L' analisi statistica degli eventi potra’ essere effettuata con il sistema ROOT. Attualmente prevediamo due fasi per l'organizzazione delle risorse di calcolo. Nella fase iniziale si utilizza in modo intensivo il mirror di Lyon mentre lo sviluppo delle routine di analisi e il processing dei dati, affidato ai gruppi delle analysis Tasks, viene eseguito con mezzi di calcolo distribuito nelle diverse Sezioni. Tuttavia e' prevedibile che, al momento dell'entrata in funzione di LHC, il mirror di Lyon divenga sovraccarico. E’ quindi prudente elaborare una strategia che permetta ai gruppi Europei, non soltanto Italiani, di eseguire un preprocessing e reprocessing centralizzato. Pensiamo quindi nella fase successiva di costituire una farm Europea che affianchi il mirror di Lyon. In questa fase, i programmi saranno ormai divenuti stabili e la procedura di analisi sara’ ben definita. Risultera’ allora estremamente efficiente e conveniente poter effettuare un reprocessing completo dei dati in una farm. Riteniamo opportuno avviare una discussione su questo tema con gli altri partner Europei. Stiamo attualmente esaminando la possibilita’ e l’opportunita’ di far entrare il progetto Auger in GRID. L’aspetto piu’ interessante di tale partecipazione e’ la possibilita’ di usare potenti mezzi di calcolo per la produzione di grandi librerie di sciami. 2 2) RESPONSABILITA' INFN I fisici dell'INFN hanno gia’ assunto responsabilita' primarie e rilevanti nell'ambito del coordinamento e gestione del trattamento e analisi dei dati. - Stefano Argiro' (Torino) e' Task Leader del DPA. Ha il compito di coordinare lo sviluppo e l'implementazione del codice off-line di simulazione del detector e ricostruzione degli eventi. - Gianni Navarra (Torino) e' convenor del gruppo di analisi 3) del SD. - saranno tra breve nominati altri convener Italiani per le Task di analisi del FD. Le attivita' nel campo della simulazione e analisi dei gruppi Italiani sono le seguenti. Surface Detector Torino/SD: Task 1), 3), 5) e 9). Fluorescence Detector L'Aquila: Task 3) e 4). Catania: Task 2), 5) e 6). Milano: Task 1) e 7). Napoli: Task 3), 5) e 6). Pavia: Task 8). Roma II: Task 2), 4), 5) e 6). Torino/FD: Task 2), 3), 5) e 7). L’attivita’ di analisi dei vari gruppi negli argomenti sopra menzionati e’ gia’ iniziata e si sta ora formalizzando ufficialmente in una struttura organizzativa in corso di definizione. 3) PIANIFICAZIONE RISORSE DI CALCOLO TRIENNIO 2003-2005 Tra i preventivi per il 2003 e' stata inclusa la richiesta da parte del gruppo di Roma II per un PC con elevate prestazioni e grande spazio di memoria per la preanalisi sul sito dei dati di calibrazione del rivelatore di fluorescenza. Il volume di dati di calibrazione con sorgenti di luce e di assorbimento atmosferico con Lidar e' troppo grande per permettere la trasmissione via rete. E' necessario eseguire una analisi preliminare sul sito dove saranno immagazzinati i raw data e inviare via rete risultati di analisi. La richiesta e' stata accolta dalla Commissione. A) Fase iniziale I gruppi Italiani fanno riferimento al mirror di Lyon potenziando le risorse di calcolo locali nelle Sezioni mediante acquisto di PC adeguati. Questa soluzione e' certamente soddisfacente a breve e forse anche medio termine e permette comunque di estendere l'utilizzo del sistema di calcolo distribuito anche nell'eventuale fase successiva o finale ancora da definire. La configurazione tipo del PC per ciascun gruppo dovrebbe prevedere Pentium 4 CPU a 2.8 GHz con doppio processore, 1 GB RAM, mass storage iniziale di almeno due dischi da 200 GB (estendibile) e sistema di backup. Il costo iniziale e' di 12 – 14 kEuro per PC. 3 B) Fase successiva In questa fase, allorche'i programmi e la strategia di analisi saranno ben definiti, si fara’ uso di una farm per la selezione dei raw data e per il reprocessing sistematico. La farm dovrebbe essere concepita come il mirror di Lyon e cioe’ una facility a disposizione di tutti i gruppi Europei. Dovranno essere discusse le modalita’ di finanziamento, se interamente o parzialmente a carico dell’INFN. La configurazione della farm, la sua localizzazione territoriale e la individuazione del personale addetto devono ancora essere studiate e saranno definite in un secondo tempo. 4) RISORSE DI RETE Il volume di dati previsto per l'Osservatorio completo e' di circa 300 GBytes/anno, cioe' dell'ordine di 1 GBytes/giorno. La larghezza di banda richiesta e' quindi di circa 100 kbit/s. Durante l'operazione dell'Engineering Array (40 rivelatori di superficie su un totale di 1600 corrispondente al 2% e 2 telescopi di fluorescenza su un totale di 24 corrispondente al 8% del totale) sono stati regolarmente trasmessi i dati ai mirrors di Fermilab e di Lyon. Il volume di dati trasmesso ha raggiunto valori di picco pari a circa 1 MB/giorno per lo SD ed alcuni MB/giorno per lo FD (dati di calibrazione esclusi). Le attuali velocita` di scaricamento dei dati presi con l’Engineering Array dal mirror di Lyon, osservate nelle diverse Sezioni, sono nell’intervallo tra 150 e 500 kBytes/s a seconda della fascia oraria utilizzata. Scegliendo opportunamente la fascia oraria, lo scaricamento dei dati, presi in una giornata dall’Osservatorio completo a regime, dovrebbe quindi avvenire in un intervallo di tempo di ½ - 1 ora. Si tratta di un tempo ragionevole ma forse in pratica marginale per cui ci ripromettiamo di studiare meglio il problema delle risorse di rete. Gennaio 2003 4