ATLAS Distributed Computing e Data Management Alessandro De Salvo [email protected] 19-5-2011 Outline Stato attuale Evoluzione del modello di calcolo Nuove tecnologie e roadmap A. De Salvo – 19 Maggio 2011 ATLAS Panda Modello di base: I dati sono pre-distribuiti nei siti, I job sono inviati ai siti che posseggono i dati A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 ATLAS DDM model I file sono aggregati in datasets Subscription service I files sono trasferiti solo come parte di un dataset Uno o più dataset può essere sottoscritto per triggerare una replica ad un sito specifico di destinazione I metadati di fisica sono contenuti in un DB separato (AMI) A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 ATLAS Cloud Model • • • Modello gerarchico basato sulla topologia di rete di Monarc Comunicazioni possibili: • T0-T1 • T1-T1 • Intra-cloud T1-T2 Comunicazioni vietate: • Inter-cloud T1-T2 • Inter-cloud T2-T2 Limitazioni: • Impossibile fornire una replica di dati per l’analisi ad ogni cloud • Trasferimenti tra le cloud attraverso salti multipli tra i Tier1 • User analysis outputs • MC confinato nella cloud • Tier2 non utilizzabili come repository di dati primari per il PD2P o di gruppo A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 ATLAS Cloud(less) Model Breaking the Wall • La rete attuale permette il superamento del modello Monarc: • molti Tier2 sono già ben connessi con molti Tier1 • Abilitazione delle connessioni inter cloud • Superamento di una gerarchia stretta tra Tier1 e Tier2 • Scelta dei Tier2 adatti • alcuni Tier2 invece sono mal collegati anche con il proprio Tier1 • Non tutti I Tier2 hanno le dimensioni e le performance necessarie A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Tier-2 diretti (T2D) • • • T2D – Tier2 “Directly Connected” Tier2 connessi direttamente tra di loro a tutti i Tier1 Storage per dati primari come i Tier1 • Pre-placement di una quota di dati • Data source per il PD2P • Group data • Disponibilità di una quota di disco nei Tier1 come cache Requirement molto stretti • Metriche di trasferimento con tutti i Tier1 • Livello di committment e reliability adeguato Avg(Byterate)+StD(Byterate) SMALL <0.05MB/s <0.1MB/s ≥0.1MB/ s MEDIUM <1MB/s <2MB/s ≥2MB/s LARGE <10MB/s <15MB/s ≥15MB/ s T2D approvati: INFN-NAPOLI- ATLAS, INFN-MILANO-ATLASC, INFNROMA1 IFIC-LCG2, IFAE, UAM-LCG2 GRIF-LPNHE, GRIF-LAL, TOKYO-LCG2 DESY-HH, DESY-ZN, LRZ-LMU, MPPMU MWT2_UC,WT2, AGLT2,BU_ATLAS_Tier2, SWT2_CPB UKI-LT2-QMUL, UKI-NORTHGRID-LANCS-HEP, UKI-NORTHGRIDMAN-HEP, UKI-SCOTGRID-GLASGOW Siti che faranno parte da subito di LHCOne A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 PanDA Dynamic Data Placement (PD2P) [1] Il precedente modello di calcolo di ATLAS prevedeva la distribuzione dei dati in tutti i centri (~75), secondo share predefiniti Il nuovo modello di calcolo prevede l’invio dei dati su richiesta ai centri Tier2 (~65) tramite l’utilizzo di un algoritmo di brokering predittivo Non molto efficiente in termini di tempo e banda utilizzata Utilizzo dello spazio disco non ottimale Il primo utilizzo di un dataset che non è disponibile in nessuno dei Tier2 fa partire la replica verso una locazione ottimale, scelta dal sistema di brokering di PanDA I job degli utenti continueranno ad essere assegnati ai Tier1 finché una copia dei dati non sarà disponibile ai Tier2, momento in cui i job verranno ri-schedulati al Tier2 in questione Se il numero dei job rimamenti (di tutti gli utenti) che richiedono un dataset è troppo elevato verranno effettuate delle copie addizionali del dataset di input in altrettanti siti Dal 2011 il sistema di Dynamic Data Placement è stato esteso anche ai centri Tier1 A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 PanDA Dynamic Data Placement (PD2P) [2] • • • • • • • • • 2010 Buoni risultati di ottimizzazione dello spazio disco Diminuzione delle repliche pre-placed Trasferimento solo di dati utili per l’analisi Spazio disco ai Tier2 in gran parte usato come cache Ristretto ai trasferimenti intra-cloud T1 T2 2011 Cancellazione dei cloud boundaries: trasferimenti intra-cloud Extra repliche in base al riutilizzo dei dati già trasferiti e al numero di richieste di accesso al singolo dataset Trasferimenti anche tra Tier1 Dati trasferiti: AOD e D3PD molto più leggeri degli ESD del 2010 diminuzione della banda occupata Concern Il brokering dei dati e dei job di analisi in Panda sembra stia favorendo troppo i Tier1 a scapito dei Tier2. Il mese di maggio sarà analizzato per verificare la bontà del modello e il tuning necessario. Prima azione: pre-placement di una frazione di dati nei T2D A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Popolarità dei dati Data replication on-demand (DaTri) Possibilità di generare statistiche su Dataset più utilizzati Tipi di dati più popolari Siti utilizzati per l’analisi dati Group production A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Distribuzione dei dati di ATLAS nel 2010 Reprocessing dati e MC AVERAGE:2.3 GB/s MAX 7.5 GB/s inizio presa dati @ 7 TeV MB/s per day Reprocessing MC Gennaio EFFICIENCY: 100% (including retries) Reprocessing dati 2009 Febbraio Marzo Aprile Maggio 2010 pp reprocessing Presa dati e produzione Giugno Dati disponibili nei siti dopo poche ore PbPb processing @T1s MB/s per day Luglio Agosto Settembre Ottobre Novembre Dicembre A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Distribuzione dei dati di ATLAS nel 2011 MB/s per day AVERAGE:2.2 GB/s MAX 5.1 GB/s PbPb reprocessing inizio presa dati @ 7 TeV Gennaio Febbraio Marzo Aprile Maggio A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Distribuzione dei dati di ATLAS in Italia nel 2010/2011 AVERAGE:195 MB/s MAX 900 MB/s 2010 MB/s per day 400 Marzo Aprile TB Maggio Giugno 2010 Luglio Agosto TB MB/s per day Settembre Ottobre Novembre Dicembre 2011 2011 AVERAGE:111 MB/s MAX 400 MB/s 400 Gennaio Febbraio Marzo Aprile Maggio A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Condition data access I condition data sono contenuti in database (ORACLE) e/o in plain (ROOT) file, registrati al CERN I dati sono replicati in alcuni dei Tier1 ed utilizzati dai job di analisi L’accesso diretto ad ORACLE è una killer application per i DB nei Tier1 • Numero troppo elevato di connessioni ai server di ORACLE • Load elevato • Rischio di inefficienze Per supplire a tale limitazione, l’accesso preferito ai condition data viene effettuato tramite un caching proxy intermedio • FroNTier server • Estensione di uno squid proxy standard, può anche essere utilizzato come uno squid tradizionale • Caching e failover A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Condition data access example: ATLAS FroNTier utilizzato per abilitare l’accesso distribuito al condition DB Sempre più trasparente dal punto di vista degli utenti finali Stesso modello utilizzato da CMS A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Nuove tecnologie di DB: noSQL database [1] Gli RDBMS attuali hanno delle limitazioni Difficoltà a scalare Necessità di una de-normalizzazione per ottenere una perfomance migliore Setup/configurazione complicata con apache Difficoltà con applicazioni grandi, accessi random and I/O intensiva ATLAS sta esplorando le soluzioni DB di tipo noSQL solutions per eliminare le limitazioni attuali ‘Facilità a scalare’ – ma architettura differente ‘Fanno il loro lavoro’ su una infrastruttura a basso costo Stessa affidabilità a livello di applicazione Google, Facebook, Amazon, Yahoo! Progetti open source • Bigtable, Cassandra, Simpledb, Dynamo, MongoDB, Couchdb, Hypertable, Riak, Hadoop Hbase, ecc. Attualmente i database di tipo noSQL non sono un rimpiazzo per gli RDBMS standard Ci sono classi di query complesse che includono range di date e tempi dove gli RDBMS hanno una performance abbastanza bassa Ad esempio, registrare molti dati storici su un costoso RDBMS transaction-oriented non sembra ottimale Una opzione attraente è quella di scaricare una mole significante di dati di archiviazione da un database ORACLE verso un sistema scalabile ad alte perfomance, basato su hardware a basso costo A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Nuove tecnologie di DB: noSQL database [2] In fase di valutazione per ATLAS Panda system ATLAS Distributed Data Management … L’esperienza di ATLAS con il servizio di Accounting di DQ2 Accounting (grandi tabelle) mostra che un database di tipo noSQL come MongoDB può raggiungere almeno le stesse performance di un cluster di ORACLE RAC, utilizzando circa il medesimo spazio disco, ma girando su hardware a basso costo Oracle • • • • • 0.3s per completare le query di test Oracle RAC (CERN ADCR) 38 GB di spazio disco utilizzato 243 indici, 2 funzioni, 365 partizioni/Y+hints 5 settimane + DBAs per creare la facility MongoDB • • • • • 0.4s per completare le query di test Singola macchina, 8 Cores/16G 42 GB di spazio disco utilizzato 4 ore per creare la facility 1 tabella, 1 indice A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Nuove tecnologie di accesso dati: XRootd Federations Utilizzo di un redirector XRoot per creare un punto di accesso unificato per i siti - “Global Redirector” Namespace unificato, 1 protocollo, location-neutral Alte performance, accesso ai dati con basso livello di manutenzione • Possibilità di girare job su dati remoti (con o senza cache locale) XRD: alte prestazione, scalabile, flessibile, architettura a plugin • Principalmente per i Tier3, ma anche carico ridotto per I T1/T2 Supporta dCache, GPFS, Hadoop, ecc come backend di storage Quale livello di sicurezza è appropriato per un accesso di tipo readonly a dati di fisica? GSI supportato via plugin 'seclib’ • • • • Stato del supporto a VOMS? Maggiore overhead per installare/operare User- o host- based? (service cert?) Implicazioni sulle prestazioni A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Large Scale Tests: CERN EOS EOS è un set di plug-in XRootd E parla il protocollo Xroot verso gli utenti Just a Bunch Of Disks... JBOD - no hardware RAID array “Network RAID” tra gruppi di nodi Per-directory settings Le operazioni (e gli utenti) decidono le disponibilità/performance (numero di repliche per directory – non posizionamento fisico) Un pool di dischi – differenti classi di servizio Affidabilità e durabilità Self-healing Operazioni “asincrone” (ad esempio rimpiazzo di un disco rotto quando è “conveniente”, mentre il sistema è in attività) A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Large Scale Tests: CERN EOS architecture Head node Head node NS async Namespace, Quota Strong Authentication Capability Engine File Placement File Location Message Queue sync MQ async File server Service State Messages File Transaction Reports File Server File & File Meta Data Store Capability Authorization Checksumming & Verification Disk Error Detection (Scrubbing) A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Large Scale Tests: CERN EOS performance HammerCloud Test 10004055 http://hammercloud.cern.ch/atlas/10004055/test/ Reference Events/Wallclock time 15-20 Hz A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Large Scale Tests: pNFS (NFS v4.1) pNFS aggiunge la parallel I/O al protocollo NFS pNFS fa parte dello standard NFS v4.1 Approvato da IETF Dec, 2008 RFC editorial review Oct, 2009 Numeri di RFC assegnati a gennaio 2010 Multiple implementazioni sono in fase di sviluppo Elimina il collo di bottiglia del file server Mette a disposizione del path paralleli di dati, anche per un singolo file Il client software software sarà incluso in tutte le distribuzioni di OS principali L’unico Industry-Standard Parallel File System Testbed con BlueArc a BNL (pianificato per Agosto 2011) Singolo server di metadati, altamente scalabile • • Clusterizzato per HA L’architettura supporta molti server di metadati clusterizzati Supporto per data server eterogenei Costruito su piattaforma di classe Enterprise • • Affidabilità Full Featured NAS – Quota, Snapshot ecc. A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Large Scale Tests: testbed di pNFS a BNL SRM WA Network Xrootd GridFTP A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Nuove tecnologie per la distribuzione del software di esperimento: CVMFS ATLAS ed LHCb si stanno muovendo verso un modello dinamico di distribuzione del software tramite CVMFS Virtual software installation tramite un File System HTTP Data Store • • Compressed Chunks (Files) Eliminazione dei Duplicati File Catalog • • • • • • Directory Structure Symlinks SHA1 dei Regular Files Digitally Signed Time to Live Nested Catalogs ATLAS distribuirà anche i file di condition data tramite CVMFS Export dell’area del software degli esperimenti come read-only Montata nei nodi remoti tramite il modulo fuse Local cache per accesso più rapido Beneficia di una gerarchia di squid per garantire performance, scalabilità e affidabilità • Stesso tipo di squid utilizzato anche da Frontier A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Network monitoring e link commissioning: Sonar Tests Commissioning dei link nei siti di ATLAS (full mesh) 15 trasferimenti di FTS • • • 5 file piccoli: 20 MB 5 file medi: 200 MB 5 file grandi: 2 GB I trasferimenti sono effettuati in modo da evitare trasferimenti contemporanei in tutti I canali Le metriche in uso vengono utilizzate per definire i siti T2D A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011 Conclusioni Il nuovo computing model di ATLAS prevede delle novità importanti “Breaking the wall” – cloudless model Nuovi tipi di Tier2 (T2D) Dynamic Data Placement (PD2P) Nuove tecnologie per l’ottimizzazione delle risorse e per rendere i sistemi sempre più trasparenti, affidabili e performanti agli utenti Frontier server per l’accesso ai condition data noSQL database Nuove tecnologie di storage Link commissioning tramite i Sonar Tests A. De Salvo – ATLAS Distributed Computing e Data Management – CCR Workshop, Isola d’Elba 19-5-2011