Convegno
LE IDEE DELLA RICERCA A LAVORO
Napoli, 26-2-2008
IL GRID COMPUTING:
OLTRE INTERNET
Leonardo MEROLA
Dip. Scienze Fisiche Univ. Napoli Federico II e INFN Sezione di Napoli
“ Il Grid computing “
È una soluzione su scala mondiale per
a) Calcolo distribuito intensivo
b) Accesso flessibile a grandi moli di dati
Nato in ambito scientifico,
si sta estendendo anche verso il mondo
industriale, commerciale, finanziario,
amministrativo, governativo
WORLD WIDE WEB
INTERNET
WORLD WIDE
GRID
2
Analogia con la “rete elettrica” (“power grid”)
Collegamento di una qualunque
apparecchiatura alla presa elettrica
in modo “trasparente” all’utente
Accesso a Computers e Dati
in modo “trasparente” all’utente
Centrali elettriche
Risorse distribuite
+ reti di distribuzione
+ software di gestione
3
GRID consente a Organizzazioni
Virtuali (VO)
(Istituti di ricerca, Università, Industrie, Aziende, Privati)
di condividere risorse distribuite
su scala regionale, sovra-regionale, mondiale
4
Dall’
I d e a
Alessandro Volta mostra a Parigi nel 1801
la “pila” alla presenza di Napoleone I
. . . alle
. . .
Thomas A. Edison e la “Lampada elettrica”
Infrastrutture
e alle
Applicazioni
5
Nel 1969 nasce negli USA in ambito
militare ARPANET, la prima rete di
trasmissione dati di larga diffusione.
Nel 1989 nasce al CERN
(Centro Europeo per la Fisica
delle Particelle – Ginevra) il
World Wide WEB come
protocollo per la trasmissione
dell’informazione multimediale
attraverso Internet per
facilitare la collaborazione dei
fisici delle particelle.
Tim Berners-Lee
6
Dall’
I d e a
. . .
Nel 1999 I. Foster & C. Kesselman introdussero
il paradigma del Grid computing:“The Grid for a
New Computing Infrastructure”:
•Distributed Computing
•High-Throughput Computing
•On-Demand Computing
•Data-Intensive Computing
•Collaborative Computing
. . . alle
W
W
G
Infrastrutture
LHC Computing Grid
7
. . . e alle Applicazioni “scientifiche”
FISICA DELLE PARTICELLE
Simulazioni Montecarlo Ricostruzione di eventi
Analisi dati distribuita
Large
Hadron Collider
CERN
Centro Europeo per la Fisica delle Particelle
LEP/
LEP/ LHC
LHC
SPS
SPS
CERN
CERN
GINEVRA
GINEVRA
LHC: Large Hadron Collider (2008-2020)
Interazioni protone-protone a 14 TeV
Esperimenti: ALICE, ATLAS, CMS, LHCb
8
VASTE COLLABORAZIONI
INTERNAZIONALI
migliaia di fisici,
ingegneri, tecnici
INGENTI RISORSE
DI CALCOLO:
~ milioni
di PC equivalenti
GRANDE MOLE DI DATI:
~ 10 PBytes/anno
(1PB = 1015 Bytes)
migliaia di particelle prodotte in ogni collisione
9
ASTROFISICA
Virtual observatory.
Studio di oggetti astrofisici
(stelle, galassie, ecc.)
Archivi e cataloghi astronomici
BIOLOGIA - BIOINFORMATICA
Esplorazione del Genoma umano
Parassitologia
Data-mining su DNA
Analisi di genomi e proteine,
Rappresentazione di strutture,
Visualizzazione remota e distribuita,
Applicazioni in neurologia
OSSERVAZIONE DELLA TERRA
Monitoraggio dell’ozono atmosferico
10
CHIMICA - SCIENZA DEI MATERIALI
Studio delle strutture e delle
dinamiche molecolari
e delle nanostrutture (es. nanocristalli)
AERONAUTICA - FLUIDODINAMICA
Computer-aided Engineering per
l’industria aeronautica
Applicazioni di Fluidodinamica e Meccanica
computazionale.
METEOROLOGIA - GEOFISICA
Monitoraggio e Previsioni del tempo
Simulazioni climatiche
11
simulation
AMBIENTE E TERRITORIO
Monitoraggio ambientale
(campi e.m.in ambiente urbano,
qualità dell’aria,ecc.)
Protezione civile
(inondazioni, terremoti, ecc.)
forecasting
monitoring
MEDICINA
Diagnostica
Supporto all’indagine clinica
Simulazioni per PET/SPECT
Screening mammografie
12
Possono servire le Grid
oltre alla Scienza ?
Sì,
soprattutto alle organizzazioni e alle comunità a cui serve
modellizzare, simulare, prevedere
progettare, controllare,
analizzare, interpretare, visualizzare dati e fenomeni
prendere decisioni in tempo reale
utilizzando quando ne hanno bisogno
ingenti risorse di calcolo e banche dati
distribuite su larga scala
in modo trasparente all’utente
con qualità di servizio garantita
13
Un esempio: il DATA MINING
Tipiche operazioni di Data Mining sono:
il Clustering (ricerca di gruppi di dati statisticamente simili),
la Classificazione (riconoscimento e l’ordinamento di tipologie di oggetti)
la Ricerca di pattern comuni in sequenze di dati, ecc.
 Sviluppo di modelli e algoritmi in grado di affrontare problemi
complessi e comuni
sia alle applicazioni scientifiche:
astrofisica, fisica delle particelle, bioinformatica, ecc.
sia alle applicazioni economiche e sociali:
analisi sociale, monitoraggio del territorio e dell’ambiente,
gestione di processi complessi, finanza, marketing, ecc.
in cui si deve analizzare l’informazione contenuta in basi dati
massicce e di alta dimensionalità ed in cui occorre correlare dati
con le previsioni di modelli teorici (sia analitici che numerici).
14











Marketing e finanza
Previsione dei trend del mercato azionario
Identificazione di classi di clientela particolarmente predisposta
all’acquisto di un certo prodotto
Ottimizzazione delle strategie di vendita
Proiezioni a medio lungo termine
Analisi della qualità dei servizi
Risk management / portfolio evaluation
Analisi e gestione del territorio e della società
Analisi in tempo reale di immagini di telerilevamento, registri catastali,
registri anagrafici, reti di impianti, reti di sensori
Valutazione di impatto ambientale:monitoraggio dell’inquinamento acustico,
chimico e luminoso.
Protezione civile: valutazione del rischio sismico e di quello vulcanico.
Analisi dei comportamenti e delle tendenze sociali: exit polls, analisi
demografica e di sviluppo demografico, previsione dei flussi migratori.
Trasporti e viabilità
Gestione e sfruttamento dell’informazione contenuta nei database
relativi ai trasporto e alla viabilità, utilizzata ad es. per il monitoraggio
del flusso del traffico, la gestione real-time dell’emergenza.
15
Industria Aeronautica - Automobilistica
 Design e testing distribuito
 Gestione subcomponenti / subcontrattori
Trasporto aereo
Gestione / validazione dei livelli di servizio
Spazio
Distributed Concurrent Design Facility
Estensione dei concetti di concurrent engineering a fasi successive di
sviluppo
Sanità
 Analisi delle cartelle cliniche dei pazienti
 Analisi di immagini biomedicali
16
Telecomunicazioni

Gestione e sfruttamento dell’informazione contenuta nei
database delle compagnie telefoniche, utilizzate ad es. per
l’ottimizzazione dell’uso delle reti telefoniche e per la
definizione delle tariffe.
Sistemi mobili

Accesso ai servizi multimediali GRID attraverso sistemi di
comunicazione mobili.
e-government, e-Learning
Gestione e sfruttamento di archivi digitali
di testi e di immagini



Archivi di documenti di Enti statali e locali
Beni Culturali, Biblioteche, Musei
Agenzie turistiche
Media, Intrattenimento, Spettacolo

Rendering, animazione 3D
17
Come si realizza tutto questo ?
18
10,00
1,00
100
0,10
MHz
SI2000
€/SI2000
Capacity/Tape (GB)
100,00
1000
10000
1000,00
1000
100,00
100
10,00
10
1,00
1
0,10
€/GB
1000
2000
2001
2002
2003
2004
2005
2006
10000
€/SPECint2000
Processori
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
100000
GB/Drive
1ge
n1- 200
ge
0
n1- 200
ge
1
n2
0
1ge 02
n1- 200
ge
3
n1- 200
ge
4
n2
0
1ge 05
n20
06
MHz & SPECint2000
Nastri
10
10,00
1,00
100
0,10
0,01
Price/Capacity (€/GB)
L’hardware è sempre più potente
e costa sempre meno . . .
Cap
€/GB
GB/Drive
€/GB
Dischi
19
Le reti telematiche sempre più veloci . . .
Primi anni ’80:
prime connessioni in rete
INFNET a 4800/9600 b/s
GEANT
110100 Gb/s
GARR
20
. . . Il problema è il software !
Utente
M
I
D
L
E
W
A
R
E
Experiment
Analisi
Computing
Dati
Dati
Analisi
Experiment
Computing
Computing
Dati
L’utente non deve vedere le differenze
degli ambienti di calcolo a cui accede.
Il “Middleware”, una via di mezzo tra
hardware e software, deve assicurare la
compatibilità fra i vari ambienti.
21
L’ Architettura GRID
Si tratta di un modello a strati (layers).
Il modello di riferimento è la clessidra (hourglass)
Applicazioni d’utente
Coordinamento di collezioni
di risorse
Definisce i protocolli base per la
comunicazione e l’autenticazione
e la condivisione di risorse singole
Fornisce le risorse per l’accesso
condiviso da parte della Grid
22
ESEMPIO DI JOB SUBMISSION
User Interface
Information System
Resource Broker
submit
query
retrieve
R-GMA
update
credential
query
Replica Location
Service
submit
retrieve
publish
state
Site X
Computing
Element
Storage
Element
VOMS
Virtual Organization Membership Service
23
Quale futuro ?
24
Il futuro di Grid: Internet dei Servizi
World Wide Web: accesso interattivo a documenti e ad applicazioni
Servizi Web:
comunicazione fra le applicazioni
Servizi Grid:
risorse di calcolo e banche dati
25
Oltre l’e-Science verso . . .
e-Infrastructure
“ La luce della scienza cerco e ‘l beneficio “ (Galileo Galilei)
26