Istituto Nazionale di Fisica Nucleare Italian National Institute for Nuclear Physics Progetto APE: supercomputer dedicati per applicazioni scientifiche APE Group Development Team INFN - Roma HPC e simulazioni scientifiche: alcuni fatti…(1) – Computer e problemi di fisica (teorica, applicata,…) • Eccezionale rilevanza scientifica • Formidabile “technology driver” • I risultati ottenibili possono giustificare corposi investimenti economici e tecnologici • Purtroppo non ovunque… Research 18%, Finance 7%, Geophysics 5% Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 2 Applicazioni numeriche “large scale” – – – – – – Applicazioni numeriche “large-scale” • Richieste non-comuni di potenza computazionale e memoria (I/O, storage,…) • Necessitano di architetture di calcolo parallele, “scalabili” ad alte prestazioni e che mostrino alta efficenza computazionale su classi di applicazioni specifiche: spesso piattaforme “dedicate” Astrofisica e Fisica del plasma • Oggi: 70-100 TF/s, 201x: >500 TFs/s • Architettura dedicata: Grape (Japan/Europe) Priorita’ tematiche per HPC in Europa (Scientific Case HET Task Force) High-Energy Physics (LQCD) • Oggi: 10-50 TF/s, stime per il 201x: 500-1000 TFs/s • Architettura dedicata: APE , QCDOC(USA/UK) Climatologia, Earth sciences • Oggi: 10-30 TF/s, 201x: alcuni progetti per 200-300 TF/s di potenza aggregata • Earth Simulator (Japan) Life Sciences (molecular dynamics, protein folding, in silico drug design,…) • N*Petaflops • IBM Blue/Gene (USA) ......... Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 3 Architetture di calcolo – Sfortunatamente: • Non esiste il supercomputer “one-size-fit-all” : sostanziali differenze nelle “dimensioni” del problema • Non esiste il supercomputer “one-architecture-fit-all”: differenze nei requisiti di architettura di memoria, bilanciamento, interconnessione – “Capability computer architectures”, due classi complementari: Massively Parallel Processor (MPP) e Computer Cluster • MPP sono sistemi paralleli “dedicati”, scalabili, realizzati con HW custom, per simulazione di problemi di taglia grande. Due sotto-classi: • Grande numero di processori con performances limitate (economici) • Modesto numero di processori ad alte performances • Connessi da una rete efficente www.top500.org • Cluster: tecnologia “commodity”, relativamente scalabili ma con costi e tempi di sviluppo limitati; si usano per simulazioni di problemi di taglia medio-piccola – Diffusione: • 20% dei top 500 supercomputer sono MPP; 80% sono Cluster • MPP mostrano una potenza di calcolo aggregata del 40% del totale; l’insieme dei Cluster equivale al rimanente 60% Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 4 HPC e simulazioni scientifiche: alcuni fatti…(2) – Emergono nuovi “constraints” e nuove metriche: • La misura di performances “sustained vs peak” non e’ piu’ sufficente • “Ultra large systems magnify small problems…”. Con la crescita delle dimensioni dei sistemi di calcolo bisogna tenere conto di: – #flops/W , #flops/m3(rack), #flops/$ (costi di procurement e costi operativi). – – Per una macchina di classe Pflops: – Ogni extra Euro per GFlops costa MEuro – Ogni extra Watt per Gflops costa MW-> MEuro Reliability (Affidabilita’). – Macchina da 1 Pflops con 105 processori. Se ho un single node HW failure ogni 5 anni -> 1 HW failure ogni 25 minuti!!! – • software tools innovativi per semplificare la programmabilita’ e far crescere l’efficenza computazionale Si realizza la convergenza tra embedded computing e HPC • Sistemi low power , alta efficenza, “ruggedized” ,… • Good news!!! Per i sistemi embedded Europa mantiene la leadership Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 5 INFN e Calcolo ad alte prestazioni • Due classi di applicazioni: • Calcolo per gli esperimenti di alta energia (LHC) • • PC Farms e Infrastruttura Grid Calcolo per la fisica teorica • Prevalentemente simulazioni numeriche su reticolo • • • • • Teoria di campo, QCD computazionale Fenomenologia delle particelle elementari Sistemi complessi, Turbolenza, Biologia computazionale Applicazioni “Small (medium) scale” con PC cluster Applicazioni “Large scale” con macchine dedicate APE, JANUS,… Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 6 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 7 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 8 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 9 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 10 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 11 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 12 Calcolo per gli esperimenti Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 13 Calcolo (non-APE) per la fisica teorica Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 14 Calcolo (non-APE) per la fisica teorica Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 15 Calcolo (non-APE) per la fisica teorica Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 16 LQCD (Lattice Quantum Chromo Dynamics) • • • QCD studies the Physics of nucleons particles. QCD is the relativistic (4-dim) quantum field theory of Strong (non-perturbative) Interactions (6 “quark flavours” and their “messengers” gluons). QCD defines • Fields: fermions (quarks) with 4 spin x 3 colors = 12 components vector ((x)) • • Gauge forces (gluons) U(x,m) SU(3) matrix : Action (dynamic of the problem) • Unfortunately, due to the complexity of the problem no paper & pencil (analytic) solutions are available • but: • we can trasform QCD in a discrete statistical problem and solve it with Monte Carlo methods on powerful computers -> LQCD (Lattice QCD) Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 17 LQCD: una applicazione “killer” per sistemi HPC • LQCD is a killer application for parallel computers • Requires small lattice spacing to avoid UV problems scaling down to the continuum • Requires large lattice size to include all the physical problem • Scaling law for computational costs goes with the 7th power of lattice size (!!) Norman Christ’s plot showing how many flops have been used in the last 20 years Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 18 Mapping della LQCD su architetture parallele • Discretizzazione dello spazio-tempo continuo: – – – • Dimensione del reticolo (L) grande abbastanza Passo del reticolo (a) piccolo Scala con la 7th potenza della dimensione del reticolo!!! • #flops ~ (L)5..6 * (1/a)6..7 * (1/mq)1..2 P00 P01 Partizione del reticolo in sotto reticoli da assegnare a differenti processori → LQCD espone un parallelismo “imbarazzante” L • Per ogni punto del reticolo si calcola l’inverso dell’operatore di Dirac (matrice complessa sparsa con elementi non-zero vicino alla diagonale) → Architettura SIMD (SPMD) → Supporto per aritmetica dei complessi • Per ogni punto del reticolo il calcolo necessita di informazioni provenienti solo dal reticolo locale e dai reticoli “vicini” spaziali → Network di connessione a “primi vicini” (3D mesh) (a bassa latenza ed alte performances) Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 a P10 P11 19 Progetto APE e IPs – Progetto APE – MPP per simulazioni di teorie di gauge su reticolo – APE1, APE100, APEmille, apeNEXT – Network d’interconnessione per PC Cluster – ApeNet – Le nostre “Intellectual Properties”: – Processori VLIW con Floating Point unit efficenti per calcoli su dataset complessi/reali (1 MAC per ciclo di macchina) – Rete d’interconnessione “3D torus”, ad alta efficenza e bassa latenza – Sistemi densi caratterizzati da elevato parallelismo e bassa frequenza di clock, elevato rapporto flops/m3 , flops/W, flops/$ – Compilatori ottimizzanti per linguaggi di programmazione standard e dedicati Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 20 Le quattro generazioni di APE APE APE100 APEmille apeNEXT (1988) (1993) (1999) (2004) Architettura SIMD SIMD SIMD SIMD++ # nodi 16 2048 2048 4096 Topologia flexible 1D rigid 3D flexible 3D flexible 3D Memoria 256 MB 8 GB 64 GB 1 TB # registri (w.size) 64 (x32) 128 (x32) 512 (x32) 512 (x64) frequenza 8 MHz 25 MHz 66 MHz 200 MHz Potenza aggregata 1 GFlops 100 GFlops 1 TFlops 7 TFlops • Note: • Con APE100 sviluppo VLSI del processore • Da APEmille la collaborazione diventa internazionale (IT + DE + FR) • Low clock -> Low Power -> Many processor per volume • Architettura SIMD(++) e 3D Mesh network motivate dall’applicazione Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 21 Da APE1 ad apeNEXT (a+ib)*(A+iB)+(C+iD) =(Aa-Bb+C)+i(Ab+Ba+D) C,A + * Aa a b B,D * Ab * Ba * Bb - + + APE1 (1988) 1GF APEmille (1999) 128GF, SP, Complex APE100 (1992) 25GF, SP, REAL Piero Vicini – INFN Roma apeNEXT (2004) 800GF, DP, Complex Corso Formazione HPC – Ott. 08 22 Architettura di apeNEXT •Reticolo 3D di nodi computazionali X+(cables) • Processore Custom VLSI - 200 MHz (J&T) •12 • 1.6 GFlops per node (complex “normal”) • 256 MB (1 GB) memoria per nodo •Network di comunicazione a primo vicini “debolmente sincrona” •13 •15 •8 •10 •9 •11 •4 •YZ su backplane e board, X su cavi •Locale/remoto = 8/16 => 200 MB/s per canale •Scalable 25 GFlops -> 6 Tflops • • • • Processing Board, 16 nodi Crate (16 PB), 256 nodi Rack (32 PB), 512 nodi Large systems, 4 x 2 x 2 ~ 26 GF 4 x 8 x 8 ~ 0.5 TF 8 x 8 x 8 ~ 1 TF (8*n) x 8 x 8 •14 •5 •7 •0 •1 Z+(bp) •6 •2 Y+(bp) •3 •DDR-MEM •J&T •Host system basato su PC Linux Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 23 •X+ •… •… •Z- MicroArchitettura della FPU del J&T •Pipelined “normal” complessa a*b+c (8 flop) per cycle 4 multiplier 4 adder/sub Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 24 Assembling apeNEXT… J&T Asic J&T module PB BackPlane Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 Rack 25 Ape1000 ed apeNEXT Apemille (2000): Italy Germany UK France Totale 1365 GF 650 GF 65 GF 16 GF 2 TF apeNEXT (2005): Costi di sviluppo = 2000 k€uro 1100 k€uro VLSI NRE 250 k€uro non-VLSI NRE 650 k€uro per acquisizione prototipo Manpower = 20 man/year Mass production cost ~ 0.5 €uro/Mflops Installazione: Italy 10.6 TF Germany 8.0 TF France 1.6 TF Totale 20.2 TF Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 26 apeNEXT computing centre • “Laboratorio di Calcolo apeNEXT” – Sito d’installazione centralizzato per sistemi apeNEXT – 10 Tflops di peak performances aggregata. • 13 Sistemi “Torre” INFN • 2 Sistemi “Torre” Orsay – ~30 TB disk storage – 5+1 technical support staff – Operativo da Febbraio 2006 – Occupazione media maggiore del 90% delle risorse Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 27 apeNET: 3D torus per PC Cluster • Network d’interconnessione per PC cluster con topologia 3D toroidale per cluster di PC – apeLINK: PCI-X (133MHz) board • 6 link LVDS, bidirezionali e full-duplex • 700 MB/s per link per direzione (-> 8.4GByte/s) • Link basati su National Instr. SERDES – Capacita’ di routing e switching integrata – Alta banda passante e bassa latenza grazie all’adozione di un protocollo “leggero” Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 28 apeNET: risultati •Sviluppi SW: •RDMA, Network Driver, LAM/MPI •Codici di LQCD e BioComputing •128 nodes 1U PC assemblati a Roma •128 blade nodes assemblati a Trento Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 29 Progetto SHAPES e DNP (Distributed Network Processor) 2006-2009: EU funded (1ME) INFN Roma to design & develop a novel network interconnect for the FP6 Shapes project: Based on APENet 3D Torus topology 6 links 10 ports crossbar switch multi-hop packet routing RDMA HW support Custom SERDES A library of customizable components for ASIC and FPGA integration Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 30 What’s next after apeNEXT?: scenario (1) • Oggi (www.top500.org): • • IBM Blue/Gene (“simile” ad APE), N*100TFlops • 2005: Versione L • Fine 2007: Versione P, 1 Petaflops/290K processori Clusters: N*10TFlops BlueGeneL : 65000 Nodi dual-core, 280 TF sust. • Futuro (2011 e oltre): • • USA: IBM, Blue/Gene evolution (Q), N*Petaflops Japan: NEC/Hitachi/University e FuJitsu: • due progetti, 3 Petaflops per biotech e nanotech, silicio custom, rete di interconnessione dedicata (anche ottica) BlueGeneP : 32 nodi quad-core, 460 GF/board. Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 31 What’s next after apeNEXT?: scenario (2) • I limiti tecnologici fanno emergere nuove architetture di processori: • • • • 2004/2005 Intel: “no more 4GHz P4” i.e. non piu’ processori monolitici ad altissima frequenza L’alternativa e’ “parallel processors” multi-core, multi-tile • integrazione su singolo chip di piu’ (molte!) unita’ di calcolo, a limitata frequenza e minore complessita’ con effort tecnologico sulla connettivita’ Oggi: IBM Cell BE (Sony+Toshiba) per PS3 Futuro: approccio estremo al multi-core/multi-tile (INTEL 80 Core processor) Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 32 IBM Cell BE •Progetto IBM/Sony/Toshiba per PS3 • 400 M$ d’investimento (!!!) •Controllore e’ “powerPC “(PPE) •8 unita’ vettoriali SIMD (SPE) •SPE 4x2x4Ghz=32 GFs •256 GFs single precision •25 GFs double precision •Interfaccia di memoria XDR RAM (25 GB/s) •I/O ad alta velocita’ (76 GB/s) •200-250 W a 4GHz •Pros: • Esiste… • Peak perfomances impressionanti • Approccio estremo alla computazione vettoriale SIMD Piero Vicini – INFN Roma •Cons (“la volpe e l’uva”…): •Processore Stand-alone • sistemi difficilmente scalabili • Interfaccia di memoria “esotica” e non bilanciata per applicazioni scientifiche • Centinaia di Watt!!! • Programmabilita’ molto difficile, nessun supporto software per il parallelismo Corso Formazione HPC – Ott. 08 33 MPP Infn vs “concorrenza”: analisi del gap tecnologico i.e. “When I’ll grow up I will be the IBM…” • Blue Gene e’ molto simile ad apeNEXT/QCDOC • Esempio di trasferimento tecnologico accademia-industria • E’ marginalmente piu’ veloce, rete 3D Torus “enhanced” • Mostra (ovviamente!) valori dei parametri di sistema (Flops/W) simili ad APE • Investimento enorme in application codes porting • Quanto siamo indietro i.e il gap tecnologico e’ recuperabile? • N. Proc Rpeak(TFs) Rsust(TFs) GF/proc(P) GF/Proc(S) Blue/Gene L 65536 367 73 5.6 1.12 apeNEXT 8192 13.2 8.0 1.6 0.97 Un fattore 3.5 di picco ma…praticamente uguali per LQCD sustained Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 34 Brainstorming • Silicon shrink – apeNEXT: 0.18 um – oggi: 0.13 - 0.90 um – Nei prossimi anni: 0.65 – 0.45 um 90 80 78 Die Area (mm2) 70 Die area per FP Node 60 50 40 39 30 20 19 13 10 10 0 180 130 90 65 45 Silicon Process (nm) Caso peggiore: 8 nodi computazionali per chip (Tiled architecture) Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 35 Brainstorming(2) • Performance scaling – La frequenza di clock cresce con il processo di silicio – Il consumo di potenza decresce con il processo di silicio – Multi-Tiles versus Single-Tile 35.0 31.2 Multi-Tiles Perf (GFs) Single-Tile perf (GFs) 30.0 25.0 20.4 GFs 20.0 15.0 11.5 10.0 5.0 1.6 0.0 180 Piero Vicini – INFN Roma 4.4 2.2 2.8 3.4 130 90 65 Silicon Process (um) Corso Formazione HPC – Ott. 08 4.0 45 36 Brainstorming Processori mlti-tile, “Smart memory hierarchy”, nuova ingegneria di sistema “3D – Integrazione di molti core/tile per singolo chip – Grandi buffer di memoria on-chip -> riduzione dei componenti per board – Tecnologia “stacked” per integrazione di sistemi multi-board – 256-512 FP Nodes per board, 32 board per rack 100.0 36.0 26.2 45.9 55.7 65.5 1.4 1.7 2.0 10.0 apeNEXT rack TFs • 1.0 0.8 1.1 "3D Eng Rack Comp. Power" "apeNEXT Eq. Rack Comp. Power" 0.1 180 Piero Vicini – INFN Roma 130 90 65 Silicon Process Corso Formazione HPC – Ott. 08 45 37 PetAPE: la nuova generazione Objective: provide adequate computational resources to INFN theoretical groups in 2009-2012 (and beyond) 2 projects but synergic deliveries, unified research line (interconnection network) ApeNet+: Buy addresses 2009-2010 LQCD requirements best cluster on market Add custom 3D Torus network (based on DNP components) PCIexpress card, based on APENet design Update PHY if needed Pet-Ape: Custom addresses >2011 LQCD requirements VLSI processor 3D Torus network (based on DNP components) Custom system engineering Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 38 Why apeNET+ Feasibility proven (previous generation) “Natural” DNP test-bed It's scalable, modular and cost effective interconnection technology Minimal cost and restricted “time to market” for system update PC update (procurement) APENet+ Firmware update (man power...) APENet+ HW update (minimal cost, reduced development effort) 3D Torus fits with the requirements of many scientific applications (DD-HMC, GROMACS, Gadget2) 3d torus is even better exploited in a multi-core environment,where a 4th dimension coordinate is assigned to each core Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 39 Custom vs PC Clusters PC Cluste r 1U twin 2008 2011 DP Pet-Ape 2011 SP 2011 GFlops Peak/Proc TFlop s Peak/Rack TFlop s Sust/Rack k€/Rack k€/TFlops Sust kW/Rack kW/TFlops Sust 51.20 6.50 1.30 250.00 192.31 32.00 24.62 200.00 24.00 4.80 250.00 52.08 32.00 6.67 400.00 48.00 7.20 250.00 34.72 32.00 4.44 40.00 40.96 20.48 160.00 9.77 12.00 0.59 QCD sustain ratio 0.20 0.20 0.15 0.50 6666.67 416.67 52.08 4444.44 277.78 34.72 585.94 97.66 9.77 1 PFlops Sust Machine (kW) 2 1 PFlops Sust Machine area (m ) 1 PFlops Sust Machine (M€) • PetApe - apeNEXT: • APE-PC: Piero Vicini – INFN Roma Fattore 100 sul sustained Fattore 4-10 sul sustained. Corso Formazione HPC – Ott. 08 40 ApOtto ApOtto Multi-tile (8+1) processor (@45 nm) RISC + 8 VLIW FP Core Complex MAC single Precision Real MAC Double precision Hierchical network with DNP-based network controller On-chip, high bandwidth, NOC Off-chip 3D Torus, point-to-point Hierarchical memory On-chip – on-tile buffers: Multiport RF 128 KB mem (DDM) 1 (up to 4) Gb of local mem bank per tile (DXM) Shared on-chip mem (scratch pad) Design re-use Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 apeNEXT J&T, ATMEL MagicV 41 ApOtto key numbers APOTTO Tile Microarchitecture: Complex SP &Real DP for high efficiency, very low power, and dense systems Target clock frequency 0.5 GHz 32(40)/8 GFlops (SP/DP) aggregated perf. DXM aggregated peak bandwidth: 18(36) GB/s Tile to tile peak bandwidth (NoC): 18 GB/s 3DT aggregated peak bandwidth: 6 GB/s 3DT Chan. size: 20 wires (5(lines) *2 (bidir)*2 (diff.)) Die size preliminary estimation (45 nm)< 40mm2 Each tile less than 4 mm2 Power consumption estimation ~ 8W Pinout: 600 functional pins + 300 power pins 360 pins for memories interface, 120 pins for 3DT, 100 pins for I/O and peripheral Processor package: ~ 3.5*3.5 cm2 Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 42 Modul8+: APOTTO integration Modul8+ is the elementary building block hosting 1 multi-tile processor + DXM memory chips + glue logic Ltot Spare area for future enhancement Double-side board 12cm x 4cm (L x H) Procs + glue + “spare area”“ on upper side Mems + connectors on the motherboard side 6 full-bidir, differential, LVDS-based channels Total of 60 diff. pairs @ 1Gb/s (120 pins) Feasibility demonstrated using SAMTEC connectors QTE family 70 diff. pairs (140 pins) on 10 cm connectors Tested up to 8.5 GHz Glue Logic Multi-tile Processor Spare area for modul8+ customization Htot Modul8+ upper side Off-module,on-motherboards connectors area DXM DXM DXM DXM RXM DXM DXM DXM DXM Off-module,on-motherboards connectors area Modul8+ motherboard side 2 lanes allows to host 3DT + General I/O Estimated power consumption less than 13 W ApOtto ~ 8 W DDRx 1-4Gb(x16/32) @600Mhz -> 400 mW Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 43 System integration: TeraMotherboard+ TeraMotherboard+: 32 Modul8+, 1 TFlops of peak performances Board size 50cm x 48cm, 32 Modul8+ “Simple” system: DC/DC converter + modules “Regular” system: very effective 3D signals routing on a limited number of layers (estimated 6-7 layers for LVDS routing) System integration “Motherboard stacking” assembly Single face (Modul8+ placed only on one side, female stacking connectors on other side, vertical or horizontal stacking) Topology: TB+: 1x8x4; System: 32x8x4 X “off-board” connections placed on TB+: total of 32 X+ and 32 X- channels @20 -> 1280 wire/TB+ SAMTEC HD-MEZZ: 50 pins for linear cm (@8GHz) -> stacking connector < 30 cm “Traditional” APE way: backplane + front cables Backplane connector density to be verified Piero Vicini – INFN Roma Y+ X+ Back connectors area (Power Supply) M8+ (0,7) DC/DC DC/DC M8+ (0,6) M8+ (0,5) DC/DC DC/DC M8+ (0,4) M8+ (1,7) DC/DC DC/DC M8+ (1,6) M8+ (1,5) DC/DC DC/DC M8+ (1,4) M8+ (2,7) DC/DC DC/DC M8+ (2,6) M8+ (2,5) DC/DC DC/DC M8+ (2,4) M8+ (3,7) DC/DC M8+ (0,3) DC/DC M8+ (1,3) DC/DC DC/DC M8+ (2,3) DC/DC DC/DC M8+ (3,6) DC/DC DC/DC M8+ (3,2) M8+ (0,1) M8+ (1,1) M8+ (2,1) M8+ (3,1) DC/DC DC/DC M8+ (1,0) DC/DC DC/DC M8+ (2,0) (3,7) (0,6) (1,6) (2,6) (3,6) (0,5) (1,5) (2,5) (3,5) (0,4) (1,4) (2,4) (3,4) (0,3) (1,3) (2,3) (3,3) (0,2) (1,2) (2,2) (3,2) (0,1) (1,1) (2,1) (3,1) (0,7) (1,0) (2,0) (3,0) M8+ (3,3) DC/DC M8+ (2,2) DC/DC (2,7) M8+ (3,4) M8+ (1,2) M8+ (0,0) (1,7) M8+ (3,5) DC/DC M8+ (0,2) DC/DC (0,7) DC/DC 3DT connectors area for TeraMotherBoard stacking DC/DC Z+ DC/DC DC/DC M8+ (3,0) Front connectors area (I/O) Corso Formazione HPC – Ott. 08 44 System power consumption Power Consumption TB+ Power consumption 0.4 KW Multi Tile Power (W) 32 TB+ system -> 13KW. MultiTile Module Power (inc. Memory banks and DC/DC Efficiency) (W) (Relatively) High but System Parameters many low power devices rather than a few Rack Performances SP(DP) (TFlops) high power devices (no HOT SPOT!!) Rack Consumption (kW) W/GFlops main heat sources (Modul8+ and DC/DC converters) are homogenously distributed on the whole surface of the motherboard Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 7.27 7.91 14.00 11.59 12.38 22.00 32 (-) 11.87 0.36 32 (8) 12.68 0.39 32 (32) 22.53 0.69 45 System Cooling Analysis PetAPE system: 32 TeraMotherboard+ arranged in parallel with a pitch of 35.0mm. i.e. TeraMotherboard+ hosts a “mid-plane” of 32 Modul8+ and 32 DC/DC converters for Modul8+ power supply Analysis of cooling requirements (Ellison Equation) using simplified profile of TB+ (3 air-flow channels) with real dimensions : HP: only components with significant volume (DC/DC and connectors), low profile components (height < 1.5mm) “merged” into the board, total dissipation by air-flow convection TeraMotherboard+ Channel 1 (under Modul8+) Channel 2 (over Modul8+) Channel 3 (over DC/DC) Power Consumption (W) 704 115 448 141 Channel Airflow Resistance 14100 447000 38000 313000 Power Dissipation Percentage Airflow Percentage 16.36% 63.64% 20.00% 17.76% 60.91% 21.22% Perfect matching between percentage of Air-flow and Power dissipations 0.5-1 m3/s total air-flow required Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 46 PetApe SW Development Environment Single Program Multiple Data C/C++ & MPI programming environment Painless recompilation of legacy code Programmer Code annotation to manage 2 level memory hierarchy Pipelines Explicit Use can focus on the optimization of critical computational kernels friendly coding of computational loops usage of predication statement of intrinsics (compiler should support auto-vectorization but...) Libraries Blas, Lapack QCD Libraries: DD-HMC, QDP++?, FermiQCD?, Chroma? Advanced Tools (from EU Shapes project): Optimizing Parallel task scheduler platform simulator Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 47 PetAPE Collaboration INFN Roma 1, INFN Roma 2 APE group apeNET development collaboration, technological and scientific staff SHAPES Partnership ATMEL Roma, shares with INFN interests and people… RISC+DSP architectures, Industrial applications UniRoma1, Dipartimento Ing. Elettronica, Prof. Olivieri e Trifiletti Silicon BackEnd (Floorplan, Synthesys and P&R) Chip testability experts ST (Grenoble)+ Universita’ di Cagliari, Dip. Ingegneria Elettronica Prof. Raffo SPIDERGON NoC Architecture + Silicon Foundry access ETHZ Zurich, Prof. Thiele coarse grain parallelism and automatic mapping /scheduling TIMA and THALES HDS (Hardware dependant software) e RTOS integration TARGET Compiler Tech. Retargetable Compilers: fine grain parallelism RWTH Aachen Univ. Fast Simulation of Heterogeneous Multi Proc. Systems (SystemC) Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 48 PetApe cost (NRE + Mass Production) Previsione di spesa per NRE macchina custom (cifre in KEuro) Anno 1 Anno 2 Anno 3 Totale Totale progetto per classe attivita' Sviluppo ASIC Acquisizione Tools (HW + SW ) ASIC MASK Supporto di fonderia Produzione e test ASIC (40 protos) Front_End Senior Engineer (3 anni uomo) Backend Senior Eng. (2 anni uomo) Totale NRE ASIC Sviluppo sistema NRE Elettronica (PB, Module) 100 150 50 50 70 70 70 70 75 70 100 150 100 75 210 ST 45 nm shuttle cost = 10 KEuro/mm2 Senior engineer chip RTL design e test 140 775 NRE Rack (+ P roto) 100 100 200 100 50 150 Engineering (outsourcing…) Totale sviluppo sistema 350 Software Acquisizione SW tools Costi per personale aggiuntivo (5 anni uomo) Totale Software INFN Ricercatori junior 6 ricercatori * 3 anni 50 100 180 50 100 200 50 50 220 CAD/Simulator Licenses 150 250 620 740 Piero Vicini – INFN Roma 600 VHDL and HW/SW and SYSTEM design 2125 Costo sistema in produzione (1024 nodi, 32 TF lops) Nume rosita' Costo unitario (Euro) Totale Processore 1024 10 Memo ria , 4 Gb c hip 9216 2 Modulo processore 1024 40 PB 32 1600 Rac k 1 36000 Costo per GF lops (Euro) Compiler, OS, libraries etc (NO outsourcing) 765 Totale progetto Costo Totale sistema (Euro) 400 600 Totale personale aggiuntivo INFN Totale progetto per anno 1 back-end expert (chipdesign phase only) (Euro) 10240 18432 40960 51200 36000 156832 4.79 Corso Formazione HPC – Ott. 08 49 PetaFlop computing centre operating cost QuickTime™ and a decompressor are needed to see this picture. Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 50 Only a joke… Prof. Bachem (spokesman of PRACE project..) Petaflops Computing Center: 120 60 ME Infrastructure i.e. 50% of machine cost ApeNEXT Computing Center 6 ME HW investment less ME HW investment than 1 ME for infrastructure (15%) Pet-Ape Petaflops Center 6 ME HW investment According to “Experts” you have to pay 3ME for infrastructure According to APE experience you can do it with 1.0-1.5 ME You “gain” 1.5 ME (to spend for NRE) NRE ALMOST FOR FREE!!!! Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 51 Conclusioni(1) • APE – 4 generazioni di supercomputer paralleli; architettura valida per una ampia classe di simulazioni scientifiche; know-how scientifico/tecnologico/ingegneristico – Nonostante le limitate risorse di sviluppo APE mostra alte prestazioni per volume e costo (le idee contano…). • L’esigenza scientifica… – Necessita’ di nuove architetture di calcolo (ed interesse ad usarle) in campi di ricerca che hanno problemi di simulazione di taglia grande • … e il framework corrente – Europa ha la leadership nella tecnologia “embedded” che si dimostra utile, e ad oggi necessaria, per realizzare sistemi HPC – Iniziative Europee di successo (APE-INFN-Desy-Orsay) – Sinergie costruttive con Progetti Europei (SHAPES,…) Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 52 Conclusioni(2) • Nell’immediato futuro il limite tecnologico “rinormalizza” la competizione… – – – – non e’ piu’ possibile spingere sull’accelleratore della frequenza di clock… nuove idee architetturali (multi-tile) e nuovi approcci ingegneristici; nuovi modelli di programmazione e strumenti software adeguati; expertise di programmazione efficente di architetture parallele • … almeno per un breve periodo, le “buone idee” possono prevalere sull’eccellenza tecnologica • Con la prossima generazione si potrebbe colmare il gap con gli attuali “wordclass” supercomputers. Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 53 Referenze • Ape papers – “Computing for LQCD: apeNEXT”, Computing in Science and Engineering, vol. 8, no. 1, pp. 18-29, Jan/Feb, 2006 – “APENet: LQCD clusters a la APE”, Nuclear Physics B Supplement, Volume 140, p. 826-828, hep-lat/0409071 • Websites APE – http://apegate.roma1.infn.it/APE/ Portale APE di Roma (sito d’installazione) – http://www-zeuthen.desy.de/ape/html Portale APE di DESY Zeuthen • Progetto Europeo SHAPES – www.shapes-p.org • IBM Blue Gene e Cell Processor – http://www.research.ibm.com/bluegene/ – http://www.research.ibm.com/cell/ Piero Vicini – INFN Roma Corso Formazione HPC – Ott. 08 54