Convegno LE IDEE DELLA RICERCA A LAVORO Napoli, 26-2-2008 IL GRID COMPUTING: OLTRE INTERNET Leonardo MEROLA Dip. Scienze Fisiche Univ. Napoli Federico II e INFN Sezione di Napoli “ Il Grid computing “ È una soluzione su scala mondiale per a) Calcolo distribuito intensivo b) Accesso flessibile a grandi moli di dati Nato in ambito scientifico, si sta estendendo anche verso il mondo industriale, commerciale, finanziario, amministrativo, governativo WORLD WIDE WEB INTERNET WORLD WIDE GRID 2 Analogia con la “rete elettrica” (“power grid”) Collegamento di una qualunque apparecchiatura alla presa elettrica in modo “trasparente” all’utente Accesso a Computers e Dati in modo “trasparente” all’utente Centrali elettriche Risorse distribuite + reti di distribuzione + software di gestione 3 GRID consente a Organizzazioni Virtuali (VO) (Istituti di ricerca, Università, Industrie, Aziende, Privati) di condividere risorse distribuite su scala regionale, sovra-regionale, mondiale 4 Dall’ I d e a Alessandro Volta mostra a Parigi nel 1801 la “pila” alla presenza di Napoleone I . . . alle . . . Thomas A. Edison e la “Lampada elettrica” Infrastrutture e alle Applicazioni 5 Nel 1969 nasce negli USA in ambito militare ARPANET, la prima rete di trasmissione dati di larga diffusione. Nel 1989 nasce al CERN (Centro Europeo per la Fisica delle Particelle – Ginevra) il World Wide WEB come protocollo per la trasmissione dell’informazione multimediale attraverso Internet per facilitare la collaborazione dei fisici delle particelle. Tim Berners-Lee 6 Dall’ I d e a . . . Nel 1999 I. Foster & C. Kesselman introdussero il paradigma del Grid computing:“The Grid for a New Computing Infrastructure”: •Distributed Computing •High-Throughput Computing •On-Demand Computing •Data-Intensive Computing •Collaborative Computing . . . alle W W G Infrastrutture LHC Computing Grid 7 . . . e alle Applicazioni “scientifiche” FISICA DELLE PARTICELLE Simulazioni Montecarlo Ricostruzione di eventi Analisi dati distribuita Large Hadron Collider CERN Centro Europeo per la Fisica delle Particelle LEP/ LEP/ LHC LHC SPS SPS CERN CERN GINEVRA GINEVRA LHC: Large Hadron Collider (2008-2020) Interazioni protone-protone a 14 TeV Esperimenti: ALICE, ATLAS, CMS, LHCb 8 VASTE COLLABORAZIONI INTERNAZIONALI migliaia di fisici, ingegneri, tecnici INGENTI RISORSE DI CALCOLO: ~ milioni di PC equivalenti GRANDE MOLE DI DATI: ~ 10 PBytes/anno (1PB = 1015 Bytes) migliaia di particelle prodotte in ogni collisione 9 ASTROFISICA Virtual observatory. Studio di oggetti astrofisici (stelle, galassie, ecc.) Archivi e cataloghi astronomici BIOLOGIA - BIOINFORMATICA Esplorazione del Genoma umano Parassitologia Data-mining su DNA Analisi di genomi e proteine, Rappresentazione di strutture, Visualizzazione remota e distribuita, Applicazioni in neurologia OSSERVAZIONE DELLA TERRA Monitoraggio dell’ozono atmosferico 10 CHIMICA - SCIENZA DEI MATERIALI Studio delle strutture e delle dinamiche molecolari e delle nanostrutture (es. nanocristalli) AERONAUTICA - FLUIDODINAMICA Computer-aided Engineering per l’industria aeronautica Applicazioni di Fluidodinamica e Meccanica computazionale. METEOROLOGIA - GEOFISICA Monitoraggio e Previsioni del tempo Simulazioni climatiche 11 simulation AMBIENTE E TERRITORIO Monitoraggio ambientale (campi e.m.in ambiente urbano, qualità dell’aria,ecc.) Protezione civile (inondazioni, terremoti, ecc.) forecasting monitoring MEDICINA Diagnostica Supporto all’indagine clinica Simulazioni per PET/SPECT Screening mammografie 12 Possono servire le Grid oltre alla Scienza ? Sì, soprattutto alle organizzazioni e alle comunità a cui serve modellizzare, simulare, prevedere progettare, controllare, analizzare, interpretare, visualizzare dati e fenomeni prendere decisioni in tempo reale utilizzando quando ne hanno bisogno ingenti risorse di calcolo e banche dati distribuite su larga scala in modo trasparente all’utente con qualità di servizio garantita 13 Un esempio: il DATA MINING Tipiche operazioni di Data Mining sono: il Clustering (ricerca di gruppi di dati statisticamente simili), la Classificazione (riconoscimento e l’ordinamento di tipologie di oggetti) la Ricerca di pattern comuni in sequenze di dati, ecc. Sviluppo di modelli e algoritmi in grado di affrontare problemi complessi e comuni sia alle applicazioni scientifiche: astrofisica, fisica delle particelle, bioinformatica, ecc. sia alle applicazioni economiche e sociali: analisi sociale, monitoraggio del territorio e dell’ambiente, gestione di processi complessi, finanza, marketing, ecc. in cui si deve analizzare l’informazione contenuta in basi dati massicce e di alta dimensionalità ed in cui occorre correlare dati con le previsioni di modelli teorici (sia analitici che numerici). 14 Marketing e finanza Previsione dei trend del mercato azionario Identificazione di classi di clientela particolarmente predisposta all’acquisto di un certo prodotto Ottimizzazione delle strategie di vendita Proiezioni a medio lungo termine Analisi della qualità dei servizi Risk management / portfolio evaluation Analisi e gestione del territorio e della società Analisi in tempo reale di immagini di telerilevamento, registri catastali, registri anagrafici, reti di impianti, reti di sensori Valutazione di impatto ambientale:monitoraggio dell’inquinamento acustico, chimico e luminoso. Protezione civile: valutazione del rischio sismico e di quello vulcanico. Analisi dei comportamenti e delle tendenze sociali: exit polls, analisi demografica e di sviluppo demografico, previsione dei flussi migratori. Trasporti e viabilità Gestione e sfruttamento dell’informazione contenuta nei database relativi ai trasporto e alla viabilità, utilizzata ad es. per il monitoraggio del flusso del traffico, la gestione real-time dell’emergenza. 15 Industria Aeronautica - Automobilistica Design e testing distribuito Gestione subcomponenti / subcontrattori Trasporto aereo Gestione / validazione dei livelli di servizio Spazio Distributed Concurrent Design Facility Estensione dei concetti di concurrent engineering a fasi successive di sviluppo Sanità Analisi delle cartelle cliniche dei pazienti Analisi di immagini biomedicali 16 Telecomunicazioni Gestione e sfruttamento dell’informazione contenuta nei database delle compagnie telefoniche, utilizzate ad es. per l’ottimizzazione dell’uso delle reti telefoniche e per la definizione delle tariffe. Sistemi mobili Accesso ai servizi multimediali GRID attraverso sistemi di comunicazione mobili. e-government, e-Learning Gestione e sfruttamento di archivi digitali di testi e di immagini Archivi di documenti di Enti statali e locali Beni Culturali, Biblioteche, Musei Agenzie turistiche Media, Intrattenimento, Spettacolo Rendering, animazione 3D 17 Come si realizza tutto questo ? 18 10,00 1,00 100 0,10 MHz SI2000 €/SI2000 Capacity/Tape (GB) 100,00 1000 10000 1000,00 1000 100,00 100 10,00 10 1,00 1 0,10 €/GB 1000 2000 2001 2002 2003 2004 2005 2006 10000 €/SPECint2000 Processori 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 100000 GB/Drive 1ge n1- 200 ge 0 n1- 200 ge 1 n2 0 1ge 02 n1- 200 ge 3 n1- 200 ge 4 n2 0 1ge 05 n20 06 MHz & SPECint2000 Nastri 10 10,00 1,00 100 0,10 0,01 Price/Capacity (€/GB) L’hardware è sempre più potente e costa sempre meno . . . Cap €/GB GB/Drive €/GB Dischi 19 Le reti telematiche sempre più veloci . . . Primi anni ’80: prime connessioni in rete INFNET a 4800/9600 b/s GEANT 110100 Gb/s GARR 20 . . . Il problema è il software ! Utente M I D L E W A R E Experiment Analisi Computing Dati Dati Analisi Experiment Computing Computing Dati L’utente non deve vedere le differenze degli ambienti di calcolo a cui accede. Il “Middleware”, una via di mezzo tra hardware e software, deve assicurare la compatibilità fra i vari ambienti. 21 L’ Architettura GRID Si tratta di un modello a strati (layers). Il modello di riferimento è la clessidra (hourglass) Applicazioni d’utente Coordinamento di collezioni di risorse Definisce i protocolli base per la comunicazione e l’autenticazione e la condivisione di risorse singole Fornisce le risorse per l’accesso condiviso da parte della Grid 22 ESEMPIO DI JOB SUBMISSION User Interface Information System Resource Broker submit query retrieve R-GMA update credential query Replica Location Service submit retrieve publish state Site X Computing Element Storage Element VOMS Virtual Organization Membership Service 23 Quale futuro ? 24 Il futuro di Grid: Internet dei Servizi World Wide Web: accesso interattivo a documenti e ad applicazioni Servizi Web: comunicazione fra le applicazioni Servizi Grid: risorse di calcolo e banche dati 25 Oltre l’e-Science verso . . . e-Infrastructure “ La luce della scienza cerco e ‘l beneficio “ (Galileo Galilei) 26