Il modello di calcolo distribuito per gli esperimenti di Fisica delle Alte Energie Workshop su GRID computing e calcolo avanzato Napoli, 6 maggio 2003 Leonardo Merola Dipartimento di Scienze Fisiche - Università di Napoli “Federico II” Istituto Nazionale di Fisica Nucleare - Sezione di Napoli La Fisica delle Particelle delle Alte Energie studia i costituenti fondamentali della materia (privi di struttura interna ?), che costituiscono i “mattoni” della Natura e le loro interazioni. (1 m) (10 -10 m) (< 10 -18 m) (10 -14 m) (10 -15 m) (10 -15 m) (< 10 -18 m) La tecnica più usata è la collisione di particelle ad altissima energia prodotte in acceleratori. L’energia della collisione viene “spesa” per la produzione di centinaia di particelle la cui natura e le cui caratteristiche dinamiche dipendono dal tipo di interazione, dall’energia totale, dalla natura delle particelle collidenti. E = mc2 (c = velocità della luce nel vuoto = 300.000 km/s) Alte Energie significano anche alte temperature equivalenti e conseguentemente riproduzione in laboratorio di condizioni esistenti nel “lontano passato dell’Universo” 3 secondi Energia e particelle esotiche 3 minuti protoni e neutroni 300.000 anni nubi di atomi di idrogeno e di elio 1 miliardo di anni 15 miliardi di anni stelle e galassie in formazione l’universo oggi 1 Mld Adroni Nuclei Atomi -> Molecole Galassie O G G I 10 32 10 15 10 13 10 9 6000 gradi Kelvin 18 3 Centro Europeo per la Fisica delle Particelle LEP/ LHC SPS CERN GINEVRA LEP : Large Electron Positron collider (1989-2000) LHC: Large Hadron Collider (2007-2020) LEP : elettroni LHC : protoni positroni (ECM fino a 210 GeV) protoni (ECM = 14000 GeV) LEP / LHC FRANCIA CERN PS SPS SVIZZERA Aeroporto di Ginevra Parametri della macchina LHC F = 0.9, v = rev freq., N = Prot/bunch, s= transv beam size Gli Esperimenti a LHC p-p CMS p-p ATLAS LHCb p-p Pb-Pb Molteplici SFIDE VASTE COLLABORAZIONI INTERNAZIONALI: Decine di migliaia di fisici, tecnologi, tecnici Centinaia di Istituzioni e Università in decine di Paesi e vari Continenti APPARATI SPERIMENTALI GIGANTESCHI: Peso: 12500 ton Diametro: 15 m Lunghezza: 21,6 m Campo magnetico: 4 Tesla CMS FISICA DIFFICILE: Sezioni d’urto di produzione di eventi interessanti (ad es. Ricerca del bosone di HIGGS) molto basse e molto difficili da riconoscere in modo non ambiguo: dN/dt = s L N = N. eventi s= Sezione d’urto del processo L = Luminosità della macchina stot = 70 mbarn =>109 interazioni al secondo Higgs 10-2 - 10-1 Hz Top W 10 Hz 2 kHz Simulazione al calcolatore di un evento di collisione protone - protone (14 TeV) a LHC con produzione e decadimento di un bosone di Higgs: H ZZ 4 m Simulazione di un evento: 3000 SpecInt95*sec > 1 min su PIV 1GHz SISTEMI DI RIVELAZIONE, ACQUISIZIONE DATI E SELEZIONE ON-LINE E OFF-LINE SOFISTICATI: Rivelatori,Trigger, DAQ, Computing Frequenza di Bunch-crossing = 40 MHz Frequenza di Interazione ~109 Hz @ L = 1034 cm-2 s-1 1° livello di Trigger 75-100 kHz • Combina informazioni dai calorimetri e dallo spettrometro μ. • Identificazione del Bunch Crossing ID 2° livello di Trigger ~1kHz Utilizza le ROI formate dal LVL1 Criteri di selezione piu’ stringenti 3° livello di trigger (EF) ~100 Hz Utilizzo software offline 109 eventi/s con incroci dei fasci a 40MHz (bunch-crossing 25 ns) 100 eventi/s su memoria di massa 1 MByte/evento 100MB/s 107 s tempo di raccolta dati/anno GRANDE MOLE DI DATI: ~ 1 PetaByte/anno di dati “RAW”+ ~ 1 PetaByte/anno di dati simulati INGENTI RISORSE DI CALCOLO: ~ 1 MSI95 (PIII 500 MHz ~ 20SI95) ~ 100.000 PC CMS Situazione analoga per l’esperimento CMS ~ PetaByte/anno di dati “RAW” COMPLESSITA’ DEI DATI DA TRATTARE: Ricostruzione di vertici di interazione e di decadimento, ricostruzione di tracce, identificazione di particelle, misura delle loro energie e degli impulsi: – Ricca gerarchia di centinaia di tipi di dati complessi (classi) – Molte relazioni fra essi – Differenti tipi di accesso Uso della Tecnologia OO (Object Oriented) – per il software di simulazione e ricostruzione di vertici e tracce, – per il database degli eventi, – per l’analisi dei dati Uso degli strumenti più avanzati SW e calcolo/analisi Event Tracker Calorimeter TrackList Track Track Track Track Track HitList Hit Hit Hit Hit Hit C++, JAVA, PERL, ROOT, GEANT4, PAW, … 10,00 1,00 100 0,10 MHz SI2000 €/SI2000 Capacity/Tape (GB) 100,00 1000 10000 1000,00 1000 100,00 100 10,00 10 1,00 1 0,10 €/GB 1000 2000 2001 2002 2003 2004 2005 2006 10000 €/SPECint2000 CPU 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 100000 GB/Drive 1ge n1- 200 ge 0 n1- 200 ge 1 n2 0 1ge 02 n1- 200 ge 3 n1- 200 ge 4 n2 0 1ge 05 n20 06 MHz & SPECint2000 Nastri 10 10,00 1,00 100 0,10 0,01 Price/Capacity (€/GB) Il problema non è l’hardware che è sempre più potente e costa sempre meno: GB/Drive €/GB Dischi Cap €/GB Il problema è il software (e il middleware): Scientist M I D L E W A R E Experiment Analysis Computing Storage Storage Analysis Experiment Computing Computing Storage Il fisico HEP (High Energy Physics) non deve vedere le differenze degli ambienti di calcolo a cui accede. CLRC Daresbury Il “Middleware”, una via di mezzo tra hardware e software, deve assicurare la compatibilità fra i vari ambienti. Gli esperimenti di Fisica delle Alte Energie stanno sperimentando una soluzione su scala mondiale per: a) Calcolo intensivo distribuito b) Accesso veloce e flessibile a grandi moli di dati Le “griglie computazionali” << GRID >> World Wide GRID Costituiremo VIRTUAL ORGANIZATIONS (VO) per la collaborazione e la condivisione delle risorse: Esperimenti: ATLAS, CMS, ALICE, LHCb, BABAR, CDF, … Utilizzeremo i SERVIZI DI GRID Application • High-Throughput Computing – asynchronous processing • On-Demand Computing – dynamic resources • Data-Intensive Computing – databases • Collaborative Computing – scientists User Collective; es. RM Application Resource; es.CE,SE Connectivity;es IP Transport Internet Fabric; es. LSF.. Link Internet Protocol Architecture • Distributed Computing – synchronous processing Su RETI VELOCI Modello di calcolo distribuito per gli esperimenti a LHC Gerarchia “funzionale” a più livelli (Tier-x) CERN Tier 0 desktop CPU Server CPU Server CPU Server CPU Server desktop Data Server Data Server Tier 1 Data Server (Centri Nazionali e Regionali) Tier 2 desktop CPU Server Tier 3-4 (Centri Nazionali e Regionali) (Dip. e Istituti) desktop Struttura a Tiers di ATLAS US Italy-INFN CNAF-BO MI PV GE … RM1 NA Tipo di dati da produrre e conservare: CERN Tier 0/1 RAW DATA: 2 MB/evento, 100 Hz (Data acquisition, Reprocessing, Event Reconstruction) MC RAW DATA: 2 MB/evento, 3000 SI95*s ESD, Event Summary Data, output della ricostruzione: 500 KB/evento, Tier 1 Regional Centers Y X Z 640 SI95*s (Reprocessing, Event Reconstruction, MC simulation) AOD, Analysis Object Data, formato "pubblico" di analisi: 10 KB/evento, 25 SI95*s (MC simulation, Physics Analysis) Lab a Tier2 Regional/National Centers Lab b Uni c Tier3/4 Departments DPD, Derived Physics Data, formato “privato” di analisi, tipo n-pla: 1 KB/evento, 5 SI95*s (Physics Analysis) Desktop PHYSICS ANALYSIS Uni n Risorse HW ATLAS a regime (2007) CERN (T0+T1) @ 1/3 del totale Each RC T1+T2 (6 RC in totale) S T1+T2 @ 1/3 del totale Each T3 S T3+T4 @ 1/3 del totale Total 1 T2: @ 10% RC CPU Tape (MSI95) (PB) Disk (PB) 0,5 10 0,8 0,2 2 0,4 0,010 > 2 x 24 MCHF 8 MCHF /RC 0,05 > 20 > 2 2003/4: @ 10% delle risorse a regime @ 50 CPU + 4 TB Data Challenges Motivated by need to test scaling of solutions: Hardware, Middleware and Experiment Software) DC0 – 2001/2002 • Tests of the ATLAS software DC1 - 2002/2003 • Pile-Up Production (High and Low Luminosity) • Large scale Grid test for reconstruction • Reconstruction start March 2003 • ~ 10**7 fully simulated events DC2 - 2003/2004 • • • • • • Geant4 replacing Geant3 Pile-up in Athena Use LCG common software Use widely GRID middleware Perform large scale physics analysis As for DC1: ~ 10**7 fully simulated events DC3 - 2004/2005 scale: 5 x DC2 DC4 - 2005/2006 scale: 2 x DC3 D US CERN CPUs Italia: 46 RM1 40 CNAF 16 NA 10 LNF J I F grid tools used at 11 sites La farm di ATLAS-Napoli 7 nodi diskless con 2 CPU PIII a 1 GHz, RAM 512 MB, 2 schede di rete a 100 Mb/s. Server con 2 CPU PIII a 1 GHz, 1 GB RAM, 2 schede di rete a 100 Mb/s, 1 scheda di rete a 1 GB/s 2 TB storage ATLAS SW e primi tools di GRID 100 Mb/s 1 Gb/s CPU Server Disk Server E’ in corso l’evoluzione dal ruolo di Tier-3 a quello di Tier-2, con l’estensione delle risorse della farm: 25 biprocessori e 4 TB disco. Obiettivi GRID a breve termine della Farm di ATLAS Napoli 1. Prendere parte ai test di ricostruzione con il Middleware EDG che già coinvolgono RAL, Lione, CNAF (e in seguito Milano, Cambridge e Roma). 2. Registrare le risorse nella Virtual Organization di ATLAS e configurare diverse macchine della Farm come elementi della griglia mediante l'installazione del middleware di EDG. 3. Istallare un Computing Element (che gestisce localmente l’allocazione del lavoro), uno Storage Element (che gestisce lo storage) e diversi Worker Nodes (che girano i job). 4. Pubblicare le informazioni relative alle risorse dela Farm sulla GRID in modo che mediante un Resource Broker i job vengano assegnati alla Farm. Il Modello di CMS Il Modello di calcolo di CMS Italia è un modello integrato di Funzionalità dei Tier1, Tier2 e Tier3. Tier2 di riferimento a Legnaro Schema di “calcolo” distribuito sulle Sedi. Alcune funzioni e specificita’ (chiamate in gergo “services”) sono tipiche di una gerarchia Modello di Tier0, Tier1, Tier2, Tier3 … Altre sono tipiche di una distribuzione paritaria Modello distribuito alla “GRID” Ruolo del Tier1 (comune per l’INFN) ~40% del commitment italiano Assorbimento dei picchi di CPU (shared con gli altri Esperimenti) Mass Storage e accentramento dei dati di simulazione e analisi Riferimento core software (supporto) Ruolo dei Tier2 (incluso il Tier2 di riferimento) ~40% del commitment italiano CPU e storage (solo dischi e/o archive) per l’analisi (distribuita) Dimensionamento delle attivita’ in funzione delle competenze ed interessi locali (dal farming alla analisi) Ruolo dei Tier3 ~20% del commitment italiano Punto di forza in item specifici sia di analisi che di software e/o supporto e/o middleware Software in comune con gli altri esperimenti LHC Prodotti software che non hanno a che fare con “Dati e Calcolo distribuiti” (Grid independent): es. Generatori di Fisica, (Detector Description DataBase), … Prodotti software (middleware) che gestiscono la distribuzione dei dati e del calcolo (Grid dependent): es. Brokering dei job, Data replication, Information System, Monitoring, … Prodotti software che sono influenzati dalla caratteristica distribuita del Calcolo (Grid-aware): es. Persistenza, meta-data structure, Bookkeeping… Prodotti che NON “possono” essere comuni: programmi di ricostruzione dei vari detector, tools di gestione specifici dell’architettura del Computing Model, … Logical components diagram Software release Experiment Software Software Repository Data Management System New dataset request Data Materializer Job Definition Job Monitoring Definition Data management operations Dataset Catalogue Input data location Dataset Definition Software Release Manager Data Resource Monitoring System Retrieve Resource status Workload Management System Job submission Storage Service Resource Directory Job assignment to resources Job Catalogue Job Monitoring System Job type definition By Claudio Grandi Job Book-keeping Publish Resource status Computing Service Push data or info Pull info Layout farm LNL 2002: production + analysis + grid = grid enabled element Production N1 computing nodes N24 N24 N1 N24 N1 FastEth FastEth FastEth SWITCH SWITCH SWITCH To WAN 34 Mbps 2001 ~ 1Gbps 2002 Analysis computing nodes 32 – GigaEth 1000 BT GW S1 S9 Production servers Production control SE S10 S11 S12 CE G1 Analysis servers Remote login Analysis UI G2 Grid enabled Analysis Il progetto LCG (LHC Computing Grid) The Goal of the LHC Grid To help the experiments’ computing projects prepare, build and operate the computing environment needed to manage and analyze the data coming from the detectors LCG 2003 – LCG-1 • Establish the LHC grid as a reliable, manageable, permanently available service including the Tier 1 and many Tier 2 centres • Serve as one of the computing facilities used for simulation campaigns during 2H03 2004 – • Stable service for batch analysis • Scaling and performance tests, commissioning of operations infrastructure • Computing model tests – 4 collaborations Tier 0 – Tier 1 – Tier 2 – Tier 3 Computing TDRs at end 2004 LCG-3 2005 – • Full prototype of initial LHC service – second generation middleware - validation of computing models (4 collaborations) - validation of physical implementation – technology, performance, scaling • LCG TDR – sizing/cost/schedule for the initial LHC service – July 2005 2006–2008 • acquire, build and operate the LHC computing service La GRID dei TIER per LHC Le Capacità Richieste per LHC • CERN (Somma di tutti gli esperimenti): – Mass Storage: 10 Peta Bytes (1015 B)/anno – disk: 2 PB (100.000 Dischi da 20GB) – CPU: 20 MSPECint2000 (40.000 Pentium@1GHz) • Per ogni Tier 1 Multi-esperimento : – Mass Storage: 1 - 3 PB/anno – disk: 1.5 PB – CPU: 10 MSPECint2000 • Networking Tier 0 (CERN) --> Tier 1: – 2 Gbps (>4.000 connessioni ADSL) Esperimento BaBar a SLAC (California, USA) Struttura a Tiers di BABAR Tier 0: SLAC Stanford CA, USA TierA/B : Lione IN2P3, RAL, INFN-PD, INFN-CNAF Tier C: NA, …. • Role of Tier A sites: reduce significantly computing burden at SLAC – – – • Primarily analysis: IN2P3, RAL Production: INFN-Padova Issues: • • • • data replication at Tier A’s data partitioning at Tier A’s (micro, mini, beam data, MC) transparent access to data across Tier A’s (BabarGrid) specialization of Tier A’s: skimming, (re-)processing, etc. Role of Tier C sites: smaller sites at remote institutes – – main contribution so far in MC production (majority of MC events produced away from SLAC) analysis at Tier C’s has been difficult due to problems with data distribution need to resolve with new Computing Model Il processo di analisi 1. 2. 3. 4. 5. Identificazione dei campioni di dati da analizzare con strumenti di bookkeeping • Omogenei per dati e Monte Carlo Sottomissione (e monitaggio) job di l’analisi • Analisi combinatoria (D, D*, B-reco, …) • Calcolo delle quantità fisiche • Scrittura nuovo micro-DST ridotto contenente le informazioni per l’analisi Working Group • Produzione centralizzata per tutta la collaborazione (ogni 3 mesi) Riduzione dei micro-DST per le analisi specifiche Produzione dei risultati con accesso interattivo ai micro-DST (ROOT, …) • Oppure produzione di ntuple ridotte e istogrammi nel formato finale per l’analisi Preparazione dei documenti di analisi CONCLUSIONI Stiamo costruendo un prototipo di sistema di calcolo distribuito basato su GRID. Dobbiamo essere pronti per lo startup di LHC: 2007 Numerosi sono i progetti su GRID nazionali (es. INFNGRID, FIRB GRID.IT) ed europei (es. DataTAG, LCG, EGEE) in cui noi fisici delle Alte Energie siamo coinvolti. Auspichiamo una collaborazione stretta anche con altri settori scientifici per la realizzazione di una infrastruttura comune di GRID anche a livello locale.