The APE experience Piero Vicini INFN - Rome

Istituto Nazionale di
Fisica Nucleare
Italian National Institute
for Nuclear Physics
Progetto APE: supercomputer dedicati per
applicazioni scientifiche
APE Group Development Team
INFN - Roma
HPC e simulazioni scientifiche: alcuni fatti…(1)
–
Computer e problemi di fisica (teorica, applicata,…)
•
Eccezionale rilevanza scientifica
•
Formidabile “technology driver”
•
I risultati ottenibili possono giustificare corposi investimenti economici e tecnologici
•
Purtroppo non ovunque…
Research 18%, Finance 7%, Geophysics 5%
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
2
Applicazioni numeriche “large scale”
–
–
–
–
–
–
Applicazioni numeriche “large-scale”
•
Richieste non-comuni di potenza computazionale e memoria (I/O, storage,…)
•
Necessitano di architetture di calcolo parallele, “scalabili” ad alte prestazioni e che mostrino alta
efficenza computazionale su classi di applicazioni specifiche: spesso piattaforme “dedicate”
Astrofisica e Fisica del plasma
•
Oggi: 70-100 TF/s, 201x: >500 TFs/s
•
Architettura dedicata: Grape (Japan/Europe)
Priorita’ tematiche per HPC in Europa
(Scientific Case HET Task Force)
High-Energy Physics (LQCD)
•
Oggi: 10-50 TF/s, stime per il 201x: 500-1000 TFs/s
•
Architettura dedicata: APE , QCDOC(USA/UK)
Climatologia, Earth sciences
•
Oggi: 10-30 TF/s, 201x: alcuni progetti per 200-300 TF/s di potenza aggregata
•
Earth Simulator (Japan)
Life Sciences (molecular dynamics, protein folding, in silico drug design,…)
•
N*Petaflops
•
IBM Blue/Gene (USA)
.........
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
3
Architetture di calcolo
–
Sfortunatamente:
•
Non esiste il supercomputer “one-size-fit-all” : sostanziali differenze nelle “dimensioni” del problema
•
Non esiste il supercomputer “one-architecture-fit-all”: differenze nei requisiti di architettura di memoria,
bilanciamento, interconnessione
– “Capability computer architectures”, due classi complementari:
Massively Parallel Processor (MPP) e Computer Cluster
• MPP sono sistemi paralleli “dedicati”, scalabili, realizzati con HW custom,
per simulazione di problemi di taglia grande. Due sotto-classi:
• Grande numero di processori con performances limitate (economici)
• Modesto numero di processori ad alte performances
• Connessi da una rete efficente
www.top500.org
• Cluster: tecnologia “commodity”, relativamente scalabili ma con costi e
tempi di sviluppo limitati; si usano per simulazioni di problemi di taglia
medio-piccola
– Diffusione:
• 20% dei top 500 supercomputer sono MPP; 80% sono Cluster
• MPP mostrano una potenza di calcolo aggregata del 40% del totale;
l’insieme dei Cluster equivale al rimanente 60%
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
4
HPC e simulazioni scientifiche: alcuni fatti…(2)
–
Emergono nuovi “constraints” e nuove metriche:
•
La misura di performances “sustained vs peak” non e’ piu’ sufficente
•
“Ultra large systems magnify small problems…”. Con la crescita delle dimensioni dei sistemi di calcolo bisogna
tenere conto di:
–
#flops/W , #flops/m3(rack), #flops/$ (costi di procurement e costi operativi).
–
–
Per una macchina di classe Pflops:
–
Ogni extra Euro per GFlops costa MEuro
–
Ogni extra Watt per Gflops costa MW-> MEuro
Reliability (Affidabilita’).
–
Macchina da 1 Pflops con 105 processori.
Se ho un single node HW failure ogni 5 anni -> 1 HW failure ogni 25 minuti!!!
–
•
software tools innovativi per semplificare la programmabilita’ e far crescere l’efficenza computazionale
Si realizza la convergenza tra embedded computing e HPC
•
Sistemi low power , alta efficenza, “ruggedized” ,…
•
Good news!!! Per i sistemi embedded Europa mantiene la leadership
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
5
INFN e Calcolo ad alte prestazioni
•
Due classi di applicazioni:
•
Calcolo per gli esperimenti di alta energia (LHC)
•
•
PC Farms e Infrastruttura Grid
Calcolo per la fisica teorica
•
Prevalentemente simulazioni numeriche su reticolo
•
•
•
•
•
Teoria di campo, QCD computazionale
Fenomenologia delle particelle elementari
Sistemi complessi, Turbolenza, Biologia computazionale
Applicazioni “Small (medium) scale” con PC cluster
Applicazioni “Large scale” con macchine dedicate APE, JANUS,…
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
6
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
7
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
8
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
9
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
10
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
11
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
12
Calcolo per gli esperimenti
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
13
Calcolo (non-APE) per la fisica teorica
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
14
Calcolo (non-APE) per la fisica teorica
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
15
Calcolo (non-APE) per la fisica teorica
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
16
LQCD (Lattice Quantum Chromo Dynamics)
•
•
•
QCD studies the Physics of nucleons particles.
QCD is the relativistic (4-dim) quantum field theory of
Strong (non-perturbative) Interactions (6 “quark flavours”
and their “messengers” gluons).
QCD defines
•
Fields: fermions (quarks) with 4 spin x 3 colors = 12
components vector ((x))
•
•
Gauge forces (gluons) U(x,m) SU(3) matrix :
Action (dynamic of the problem)
•
Unfortunately, due to the complexity of the problem no
paper & pencil (analytic) solutions are available
•
but:
•
we can trasform QCD in a discrete statistical problem
and solve it with Monte Carlo methods on powerful
computers -> LQCD (Lattice QCD)
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
17
LQCD: una applicazione “killer” per sistemi HPC
•
LQCD is a killer application for parallel
computers
•
Requires small lattice spacing to avoid
UV problems scaling down to the
continuum
•
Requires large lattice size to include all
the physical problem
•
Scaling law for computational costs goes
with the 7th power of lattice size (!!)
Norman Christ’s plot showing how many flops
have been used in the last 20 years
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
18
Mapping della LQCD su architetture parallele
•
Discretizzazione dello spazio-tempo continuo:
–
–
–
•
Dimensione del reticolo (L) grande abbastanza
Passo del reticolo (a) piccolo
Scala con la 7th potenza della dimensione del reticolo!!!
• #flops ~ (L)5..6 * (1/a)6..7 * (1/mq)1..2
P00
P01
Partizione del reticolo in sotto reticoli da assegnare a
differenti processori
→ LQCD espone un parallelismo “imbarazzante”
L
•
Per ogni punto del reticolo si calcola l’inverso dell’operatore di
Dirac (matrice complessa sparsa con elementi non-zero vicino
alla diagonale)
→ Architettura SIMD (SPMD)
→ Supporto per aritmetica dei complessi
•
Per ogni punto del reticolo il calcolo necessita di informazioni
provenienti solo dal reticolo locale e dai reticoli “vicini”
spaziali
→ Network di connessione a “primi vicini” (3D mesh) (a
bassa latenza ed alte performances)
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
a
P10
P11
19
Progetto APE e IPs
– Progetto APE
– MPP per simulazioni di teorie di gauge su reticolo
– APE1, APE100, APEmille, apeNEXT
– Network d’interconnessione per PC Cluster
– ApeNet
– Le nostre “Intellectual Properties”:
– Processori VLIW con Floating Point unit efficenti per calcoli
su dataset complessi/reali (1 MAC per ciclo di macchina)
– Rete d’interconnessione “3D torus”, ad alta efficenza e
bassa latenza
– Sistemi densi caratterizzati da elevato parallelismo e bassa
frequenza di clock, elevato rapporto flops/m3 , flops/W,
flops/$
– Compilatori ottimizzanti per linguaggi di programmazione
standard e dedicati
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
20
Le quattro generazioni di APE
APE
APE100
APEmille
apeNEXT
(1988)
(1993)
(1999)
(2004)
Architettura
SIMD
SIMD
SIMD
SIMD++
# nodi
16
2048
2048
4096
Topologia
flexible 1D
rigid 3D
flexible 3D
flexible 3D
Memoria
256 MB
8 GB
64 GB
1 TB
# registri
(w.size)
64 (x32)
128 (x32)
512 (x32)
512 (x64)
frequenza
8 MHz
25 MHz
66 MHz
200 MHz
Potenza
aggregata
1 GFlops
100 GFlops
1 TFlops
7 TFlops
• Note:
• Con APE100 sviluppo VLSI del processore
• Da APEmille la collaborazione diventa internazionale (IT + DE + FR)
• Low clock -> Low Power -> Many processor per volume
• Architettura SIMD(++) e 3D Mesh network motivate dall’applicazione
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
21
Da APE1 ad apeNEXT
(a+ib)*(A+iB)+(C+iD)
=(Aa-Bb+C)+i(Ab+Ba+D)
C,A
+
*
Aa
a
b
B,D
*
Ab
*
Ba
*
Bb
-
+
+
APE1 (1988) 1GF
APEmille (1999) 128GF, SP, Complex
APE100 (1992) 25GF, SP, REAL
Piero Vicini – INFN Roma
apeNEXT (2004) 800GF, DP, Complex
Corso Formazione HPC – Ott. 08
22
Architettura di apeNEXT
•Reticolo 3D di nodi computazionali
X+(cables)
• Processore Custom VLSI - 200 MHz (J&T)
•12
• 1.6 GFlops per node (complex “normal”)
• 256 MB (1 GB) memoria per nodo
•Network di comunicazione a primo vicini “debolmente sincrona”
•13
•15
•8
•10
•9
•11
•4
•YZ su backplane e board, X su cavi
•Locale/remoto = 8/16 => 200 MB/s per canale
•Scalable 25 GFlops -> 6 Tflops
•
•
•
•
Processing Board, 16 nodi
Crate (16 PB), 256 nodi
Rack (32 PB), 512 nodi
Large systems,
4 x 2 x 2 ~ 26 GF
4 x 8 x 8 ~ 0.5 TF
8 x 8 x 8 ~ 1 TF
(8*n) x 8 x 8
•14
•5
•7
•0
•1
Z+(bp)
•6
•2
Y+(bp)
•3
•DDR-MEM
•J&T
•Host system basato su PC Linux
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
23
•X+
•…
•…
•Z-
MicroArchitettura della FPU del J&T
•Pipelined “normal” complessa a*b+c (8 flop) per cycle
4 multiplier
4 adder/sub
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
24
Assembling apeNEXT…
J&T Asic
J&T module
PB
BackPlane
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
Rack
25
Ape1000 ed apeNEXT
Apemille (2000):
Italy
Germany
UK
France
Totale
1365 GF
650 GF
65 GF
16 GF
2 TF
apeNEXT (2005):
Costi di sviluppo = 2000 k€uro
1100 k€uro VLSI NRE
250 k€uro non-VLSI NRE
650 k€uro per acquisizione prototipo
Manpower = 20 man/year
Mass production cost ~ 0.5 €uro/Mflops
Installazione:
Italy
10.6 TF
Germany 8.0 TF
France
1.6 TF
Totale
20.2 TF
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
26
apeNEXT computing centre
• “Laboratorio di Calcolo apeNEXT”
– Sito d’installazione centralizzato per
sistemi apeNEXT
– 10 Tflops di peak performances
aggregata.
• 13 Sistemi “Torre” INFN
• 2 Sistemi “Torre” Orsay
– ~30 TB disk storage
– 5+1 technical support staff
– Operativo da Febbraio 2006
– Occupazione media maggiore del 90%
delle risorse
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
27
apeNET: 3D torus per PC Cluster
•
Network d’interconnessione per PC cluster con
topologia 3D toroidale per cluster di PC
– apeLINK: PCI-X (133MHz) board
• 6 link LVDS, bidirezionali e full-duplex
• 700 MB/s per link per direzione (->
8.4GByte/s)
• Link basati su National Instr. SERDES
– Capacita’ di routing e switching integrata
– Alta banda passante e bassa latenza grazie
all’adozione di un protocollo “leggero”
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
28
apeNET: risultati
•Sviluppi SW:
•RDMA, Network Driver, LAM/MPI
•Codici di LQCD e BioComputing
•128 nodes 1U PC assemblati a Roma
•128 blade nodes assemblati a Trento
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
29
Progetto SHAPES e DNP (Distributed Network Processor)
2006-2009: EU funded (1ME) INFN Roma to design & develop a novel network interconnect
for the FP6 Shapes project:
Based on APENet
3D Torus topology
6 links
10 ports crossbar switch
multi-hop packet routing
RDMA HW support
Custom SERDES
A library of customizable
components for ASIC and
FPGA integration
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
30
What’s next after apeNEXT?: scenario (1)
•
Oggi (www.top500.org):
•
•
IBM Blue/Gene (“simile” ad APE), N*100TFlops
• 2005: Versione L
• Fine 2007: Versione P, 1 Petaflops/290K
processori
Clusters: N*10TFlops
BlueGeneL : 65000 Nodi dual-core, 280 TF sust.
•
Futuro (2011 e oltre):
•
•
USA: IBM, Blue/Gene evolution (Q), N*Petaflops
Japan: NEC/Hitachi/University e FuJitsu:
• due progetti, 3 Petaflops per biotech e
nanotech, silicio custom, rete di
interconnessione dedicata (anche ottica)
BlueGeneP : 32 nodi quad-core, 460 GF/board.
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
31
What’s next after apeNEXT?: scenario (2)
•
I limiti tecnologici fanno emergere nuove architetture di processori:
•
•
•
•
2004/2005 Intel: “no more 4GHz P4” i.e. non piu’ processori monolitici ad altissima frequenza
L’alternativa e’ “parallel processors” multi-core, multi-tile
• integrazione su singolo chip di piu’ (molte!) unita’ di calcolo, a limitata frequenza e minore
complessita’ con effort tecnologico sulla connettivita’
Oggi: IBM Cell BE (Sony+Toshiba) per PS3
Futuro: approccio estremo al multi-core/multi-tile (INTEL 80 Core processor)
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
32
IBM Cell BE
•Progetto IBM/Sony/Toshiba per PS3
• 400 M$ d’investimento (!!!)
•Controllore e’ “powerPC “(PPE)
•8 unita’ vettoriali SIMD (SPE)
•SPE 4x2x4Ghz=32 GFs
•256 GFs single precision
•25 GFs double precision
•Interfaccia di memoria XDR RAM (25 GB/s)
•I/O ad alta velocita’ (76 GB/s)
•200-250 W a 4GHz
•Pros:
• Esiste…
• Peak perfomances impressionanti
• Approccio estremo alla
computazione vettoriale SIMD
Piero Vicini – INFN Roma
•Cons (“la volpe e l’uva”…):
•Processore Stand-alone
• sistemi difficilmente scalabili
• Interfaccia di memoria “esotica” e non
bilanciata per applicazioni scientifiche
• Centinaia di Watt!!!
• Programmabilita’ molto difficile, nessun
supporto software per il parallelismo
Corso Formazione HPC – Ott. 08
33
MPP Infn vs “concorrenza”: analisi del gap tecnologico
i.e. “When I’ll grow up I will be the IBM…”
•
Blue Gene e’ molto simile ad apeNEXT/QCDOC
•
Esempio di trasferimento tecnologico
accademia-industria
•
E’ marginalmente piu’ veloce, rete 3D
Torus “enhanced”
•
Mostra (ovviamente!) valori dei parametri
di sistema (Flops/W) simili ad APE
•
Investimento enorme in application codes
porting
• Quanto siamo indietro i.e il gap tecnologico e’ recuperabile?
•
N. Proc
Rpeak(TFs)
Rsust(TFs)
GF/proc(P)
GF/Proc(S)
Blue/Gene L
65536
367
73
5.6
1.12
apeNEXT
8192
13.2
8.0
1.6
0.97
Un fattore 3.5 di picco ma…praticamente uguali per LQCD sustained
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
34
Brainstorming
• Silicon shrink
– apeNEXT: 0.18 um
– oggi: 0.13 - 0.90 um
– Nei prossimi anni: 0.65 – 0.45 um
90
80
78
Die Area (mm2)
70
Die area per FP Node
60
50
40
39
30
20
19
13
10
10
0
180
130
90
65
45
Silicon Process (nm)
Caso peggiore: 8 nodi computazionali per chip (Tiled architecture)
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
35
Brainstorming(2)
• Performance scaling
– La frequenza di clock cresce con il processo di silicio
– Il consumo di potenza decresce con il processo di silicio
– Multi-Tiles versus Single-Tile
35.0
31.2
Multi-Tiles Perf (GFs)
Single-Tile perf (GFs)
30.0
25.0
20.4
GFs
20.0
15.0
11.5
10.0
5.0
1.6
0.0
180
Piero Vicini – INFN Roma
4.4
2.2
2.8
3.4
130
90
65
Silicon Process (um)
Corso Formazione HPC – Ott. 08
4.0
45
36
Brainstorming
Processori mlti-tile, “Smart memory hierarchy”, nuova ingegneria di sistema “3D
– Integrazione di molti core/tile per singolo chip
– Grandi buffer di memoria on-chip -> riduzione dei componenti per board
– Tecnologia “stacked” per integrazione di sistemi multi-board
– 256-512 FP Nodes per board, 32 board per rack
100.0
36.0
26.2
45.9
55.7
65.5
1.4
1.7
2.0
10.0
apeNEXT rack
TFs
•
1.0
0.8
1.1
"3D Eng Rack Comp. Power"
"apeNEXT Eq. Rack Comp.
Power"
0.1
180
Piero Vicini – INFN Roma
130
90
65
Silicon Process
Corso Formazione HPC – Ott. 08
45
37
PetAPE: la nuova generazione


Objective: provide adequate computational resources to INFN
theoretical groups in 2009-2012 (and beyond)
2 projects but synergic deliveries, unified research line
(interconnection network)
ApeNet+:
Buy
addresses 2009-2010 LQCD requirements
best cluster on market
Add custom 3D Torus network (based on DNP components)
PCIexpress card, based on APENet design
Update PHY if needed
Pet-Ape:
Custom
addresses >2011 LQCD requirements
VLSI processor
3D Torus network (based on DNP components)
Custom system engineering
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
38
Why apeNET+
Feasibility proven (previous generation)
 “Natural” DNP test-bed
 It's scalable, modular and cost effective
interconnection technology
 Minimal cost and restricted “time to market” for
system update
 PC update (procurement)
 APENet+ Firmware update (man power...)
 APENet+ HW update (minimal cost, reduced
development effort)
 3D Torus fits with the requirements of many
scientific applications (DD-HMC, GROMACS,
Gadget2)
 3d torus is even better exploited in a multi-core
environment,where a 4th dimension coordinate
is assigned to each core

Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
39
Custom vs PC Clusters
PC Cluste r 1U twin
2008
2011 DP
Pet-Ape
2011 SP
2011
GFlops Peak/Proc
TFlop s Peak/Rack
TFlop s Sust/Rack
k€/Rack
k€/TFlops Sust
kW/Rack
kW/TFlops Sust
51.20
6.50
1.30
250.00
192.31
32.00
24.62
200.00
24.00
4.80
250.00
52.08
32.00
6.67
400.00
48.00
7.20
250.00
34.72
32.00
4.44
40.00
40.96
20.48
160.00
9.77
12.00
0.59
QCD sustain ratio
0.20
0.20
0.15
0.50
6666.67
416.67
52.08
4444.44
277.78
34.72
585.94
97.66
9.77
1 PFlops Sust Machine (kW)
2
1 PFlops Sust Machine area (m )
1 PFlops Sust Machine (M€)
• PetApe - apeNEXT:
• APE-PC:
Piero Vicini – INFN Roma
Fattore 100 sul sustained
Fattore 4-10 sul sustained.
Corso Formazione HPC – Ott. 08
40
ApOtto
ApOtto Multi-tile (8+1) processor (@45 nm)



RISC + 8 VLIW FP Core

Complex MAC single Precision

Real MAC Double precision
Hierchical network with DNP-based network
controller

On-chip, high bandwidth, NOC

Off-chip 3D Torus, point-to-point

Hierarchical memory

On-chip – on-tile buffers:


Multiport RF

128 KB mem (DDM)
1 (up to 4) Gb of local mem bank per tile
(DXM)

Shared on-chip mem (scratch pad)

Design re-use

Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
apeNEXT J&T, ATMEL MagicV
41
ApOtto key numbers
APOTTO Tile Microarchitecture: Complex SP &Real
DP for high efficiency, very low power, and
dense systems
 Target clock frequency 0.5 GHz
 32(40)/8 GFlops (SP/DP) aggregated perf.







DXM aggregated peak bandwidth: 18(36) GB/s
Tile to tile peak bandwidth (NoC): 18 GB/s
3DT aggregated peak bandwidth: 6 GB/s
 3DT Chan. size: 20 wires (5(lines) *2
(bidir)*2 (diff.))
Die size preliminary estimation (45 nm)< 40mm2
 Each tile less than 4 mm2
Power consumption estimation ~ 8W
Pinout: 600 functional pins + 300 power pins
 360 pins for memories interface, 120 pins for
3DT, 100 pins for I/O and peripheral
Processor package: ~ 3.5*3.5 cm2
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
42
Modul8+: APOTTO integration

Modul8+ is the elementary building block hosting 1 multi-tile processor + DXM memory chips + glue
logic
Ltot
 Spare area for future enhancement

Double-side board 12cm x 4cm (L x H)

Procs + glue + “spare area”“ on upper side

Mems + connectors on the motherboard side

6 full-bidir, differential, LVDS-based channels


Total of 60 diff. pairs @ 1Gb/s (120 pins)
Feasibility demonstrated using SAMTEC
connectors QTE family




70 diff. pairs (140 pins) on 10 cm
connectors
Tested up to 8.5 GHz
Glue Logic
Multi-tile
Processor
Spare area
for modul8+
customization
Htot
Modul8+ upper side
Off-module,on-motherboards connectors area
DXM DXM DXM DXM RXM DXM DXM DXM DXM
Off-module,on-motherboards connectors area
Modul8+ motherboard side
2 lanes allows to host 3DT + General I/O
Estimated power consumption less than 13 W

ApOtto ~ 8 W

DDRx 1-4Gb(x16/32) @600Mhz -> 400 mW
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
43
System integration: TeraMotherboard+





TeraMotherboard+: 32 Modul8+, 1 TFlops of peak
performances
Board size 50cm x 48cm, 32 Modul8+
“Simple” system: DC/DC converter + modules
“Regular” system: very effective 3D signals routing
on a limited number of layers (estimated 6-7 layers
for LVDS routing)
System integration

“Motherboard stacking” assembly

Single face (Modul8+ placed only on
one side, female stacking connectors on
other side, vertical or horizontal
stacking)

Topology: TB+: 1x8x4; System: 32x8x4

X “off-board” connections placed on
TB+: total of 32 X+ and 32 X- channels
@20 -> 1280 wire/TB+

SAMTEC HD-MEZZ: 50 pins for linear cm
(@8GHz) -> stacking connector < 30
cm

“Traditional” APE way: backplane + front
cables

Backplane connector density to be
verified
Piero Vicini – INFN Roma
Y+
X+
Back connectors area (Power Supply)
M8+ (0,7)
DC/DC
DC/DC
M8+ (0,6)
M8+ (0,5)
DC/DC
DC/DC
M8+ (0,4)
M8+ (1,7)
DC/DC
DC/DC
M8+ (1,6)
M8+ (1,5)
DC/DC
DC/DC
M8+ (1,4)
M8+ (2,7)
DC/DC
DC/DC
M8+ (2,6)
M8+ (2,5)
DC/DC
DC/DC
M8+ (2,4)
M8+ (3,7)
DC/DC
M8+ (0,3)
DC/DC
M8+ (1,3)
DC/DC
DC/DC
M8+ (2,3)
DC/DC
DC/DC
M8+ (3,6)
DC/DC
DC/DC
M8+ (3,2)
M8+ (0,1)
M8+ (1,1)
M8+ (2,1)
M8+ (3,1)
DC/DC
DC/DC
M8+ (1,0)
DC/DC
DC/DC
M8+ (2,0)
(3,7)
(0,6)
(1,6)
(2,6)
(3,6)
(0,5)
(1,5)
(2,5)
(3,5)
(0,4)
(1,4)
(2,4)
(3,4)
(0,3)
(1,3)
(2,3)
(3,3)
(0,2)
(1,2)
(2,2)
(3,2)
(0,1)
(1,1)
(2,1)
(3,1)
(0,7)
(1,0)
(2,0)
(3,0)
M8+ (3,3)
DC/DC
M8+ (2,2)
DC/DC
(2,7)
M8+ (3,4)
M8+ (1,2)
M8+ (0,0)
(1,7)
M8+ (3,5)
DC/DC
M8+ (0,2)
DC/DC
(0,7)
DC/DC
3DT connectors area for TeraMotherBoard stacking
DC/DC
Z+
DC/DC
DC/DC
M8+ (3,0)
Front connectors area (I/O)
Corso Formazione HPC – Ott. 08
44
System power consumption
Power Consumption
TB+ Power consumption 0.4 KW
Multi Tile Power (W)
32 TB+ system -> 13KW.
MultiTile Module Power (inc. Memory
banks and DC/DC Efficiency) (W)
(Relatively) High but
System Parameters
 many low power devices rather than a few
Rack Performances SP(DP) (TFlops)
high power devices (no HOT SPOT!!)
Rack Consumption (kW)
W/GFlops
 main heat sources (Modul8+ and DC/DC
converters) are homogenously distributed on
the whole surface of the motherboard
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
7.27
7.91
14.00
11.59
12.38
22.00
32 (-)
11.87
0.36
32 (8)
12.68
0.39
32 (32)
22.53
0.69
45
System Cooling Analysis


PetAPE system:

32 TeraMotherboard+ arranged in parallel with a pitch of 35.0mm.

i.e. TeraMotherboard+ hosts a “mid-plane” of 32 Modul8+ and 32
DC/DC converters for Modul8+ power supply
Analysis of cooling requirements (Ellison Equation) using simplified
profile of TB+ (3 air-flow channels) with real dimensions :

HP: only components with significant volume (DC/DC and connectors), low
profile components (height < 1.5mm) “merged” into the board, total dissipation
by air-flow convection
TeraMotherboard+
Channel 1 (under Modul8+)
Channel 2 (over Modul8+)
Channel 3 (over DC/DC)


Power
Consumption
(W)
704
115
448
141
Channel
Airflow
Resistance
14100
447000
38000
313000
Power
Dissipation
Percentage
Airflow
Percentage
16.36%
63.64%
20.00%
17.76%
60.91%
21.22%
Perfect matching between percentage of Air-flow and Power
dissipations
0.5-1 m3/s total air-flow required
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
46
PetApe SW Development Environment

Single Program Multiple Data

C/C++ & MPI programming environment
Painless
recompilation of legacy code
Programmer
Code
annotation to manage 2 level memory hierarchy
Pipelines
Explicit
Use


can focus on the optimization of critical computational kernels
friendly coding of computational loops
usage of predication statement
of intrinsics (compiler should support auto-vectorization but...)
Libraries
Blas,
Lapack
QCD
Libraries: DD-HMC, QDP++?, FermiQCD?, Chroma?
Advanced Tools (from EU Shapes project):
Optimizing
Parallel
task scheduler
platform simulator
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
47
PetAPE Collaboration


INFN Roma 1, INFN Roma 2 APE group
 apeNET development collaboration, technological and scientific staff
SHAPES Partnership
 ATMEL Roma, shares with INFN interests and people…
 RISC+DSP architectures, Industrial applications
 UniRoma1, Dipartimento Ing. Elettronica, Prof. Olivieri e Trifiletti
 Silicon BackEnd (Floorplan, Synthesys and P&R) Chip testability experts
 ST (Grenoble)+ Universita’ di Cagliari, Dip. Ingegneria Elettronica Prof. Raffo
 SPIDERGON NoC Architecture + Silicon Foundry access
 ETHZ Zurich, Prof. Thiele
 coarse grain parallelism and automatic mapping /scheduling
 TIMA and THALES
 HDS (Hardware dependant software) e RTOS integration
 TARGET Compiler Tech.
 Retargetable Compilers: fine grain parallelism
 RWTH Aachen Univ.
 Fast Simulation of Heterogeneous Multi Proc. Systems (SystemC)
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
48
PetApe cost (NRE + Mass Production)
Previsione di spesa per NRE macchina custom (cifre in KEuro)
Anno 1
Anno 2
Anno 3
Totale
Totale
progetto
per classe
attivita'
Sviluppo ASIC
Acquisizione Tools (HW + SW )
ASIC MASK
Supporto di fonderia
Produzione e test ASIC (40 protos)
Front_End Senior Engineer (3 anni uomo)
Backend Senior Eng. (2 anni uomo)
Totale NRE ASIC
Sviluppo sistema
NRE Elettronica (PB, Module)
100
150
50
50
70
70
70
70
75
70
100
150
100
75
210
ST 45 nm shuttle cost = 10 KEuro/mm2
Senior engineer chip RTL design e test
140
775
NRE Rack (+ P roto)
100
100
200
100
50
150
Engineering (outsourcing…)
Totale sviluppo sistema
350
Software
Acquisizione SW tools
Costi per personale aggiuntivo (5 anni uomo)
Totale Software
INFN Ricercatori junior
6 ricercatori * 3 anni
50
100
180
50
100
200
50
50
220
CAD/Simulator Licenses
150
250
620
740
Piero Vicini – INFN Roma
600
VHDL and HW/SW and SYSTEM design
2125
Costo sistema in produzione (1024 nodi, 32 TF lops)
Nume rosita'
Costo unitario (Euro)
Totale
Processore
1024
10
Memo ria , 4 Gb c hip
9216
2
Modulo processore
1024
40
PB
32
1600
Rac k
1
36000
Costo per GF lops (Euro)
Compiler, OS, libraries etc (NO outsourcing)
765
Totale progetto
Costo Totale sistema (Euro)
400
600
Totale personale aggiuntivo INFN
Totale progetto per anno
1 back-end expert (chipdesign phase only)
(Euro)
10240
18432
40960
51200
36000
156832
4.79
Corso Formazione HPC – Ott. 08
49
PetaFlop computing centre operating cost
QuickTime™ and a
decompressor
are needed to see this picture.
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
50
Only a joke…

Prof. Bachem (spokesman of PRACE project..) Petaflops Computing Center:
120
60

ME Infrastructure i.e. 50% of machine cost
ApeNEXT Computing Center
6
ME HW investment
less

ME HW investment
than 1 ME for infrastructure (15%)
Pet-Ape Petaflops Center
6
ME HW investment
According
to “Experts” you have to pay 3ME for infrastructure
According
to APE experience you can do it with 1.0-1.5 ME
You
“gain” 1.5 ME (to spend for NRE)
NRE ALMOST FOR FREE!!!!
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
51
Conclusioni(1)
• APE
– 4 generazioni di supercomputer paralleli; architettura valida per una ampia classe
di simulazioni scientifiche; know-how scientifico/tecnologico/ingegneristico
– Nonostante le limitate risorse di sviluppo APE mostra alte prestazioni per volume e
costo (le idee contano…).
• L’esigenza scientifica…
– Necessita’ di nuove architetture di calcolo (ed interesse ad usarle) in campi di
ricerca che hanno problemi di simulazione di taglia grande
•
… e il framework corrente
– Europa ha la leadership nella tecnologia “embedded” che si dimostra utile, e ad
oggi necessaria, per realizzare sistemi HPC
– Iniziative Europee di successo (APE-INFN-Desy-Orsay)
– Sinergie costruttive con Progetti Europei (SHAPES,…)
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
52
Conclusioni(2)
• Nell’immediato futuro il limite tecnologico “rinormalizza” la competizione…
–
–
–
–
non e’ piu’ possibile spingere sull’accelleratore della frequenza di clock…
nuove idee architetturali (multi-tile) e nuovi approcci ingegneristici;
nuovi modelli di programmazione e strumenti software adeguati;
expertise di programmazione efficente di architetture parallele
•
… almeno per un breve periodo, le “buone idee” possono prevalere
sull’eccellenza tecnologica
•
Con la prossima generazione si potrebbe colmare il gap con gli attuali “wordclass” supercomputers.
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
53
Referenze
• Ape papers
– “Computing for LQCD: apeNEXT”, Computing in Science and Engineering, vol.
8, no. 1, pp. 18-29, Jan/Feb, 2006
– “APENet: LQCD clusters a la APE”, Nuclear Physics B Supplement, Volume 140,
p. 826-828, hep-lat/0409071
• Websites APE
– http://apegate.roma1.infn.it/APE/
Portale APE di Roma (sito d’installazione)
– http://www-zeuthen.desy.de/ape/html Portale APE di DESY Zeuthen
• Progetto Europeo SHAPES
– www.shapes-p.org
• IBM Blue Gene e Cell Processor
– http://www.research.ibm.com/bluegene/
– http://www.research.ibm.com/cell/
Piero Vicini – INFN Roma
Corso Formazione HPC – Ott. 08
54