Il ruolo di un centro HPC nel supporto delle Scienze

centro HPC
nel supporto delle Scienze
della Vita
Il ruolo di un
CAPI ’06 – Elda Rossi
Il Cineca
CINECA, fondato nel 1969, è un Consorzio Universitario. Al
momento 25 Università italiane costituiscono il Consorzio,
insieme con il CNR e il MUR (Ministero dell’Università e Ricerca).
La sua missione è di promuovere l’utilizzo dei sistemi di
Supercalcolo più innovativi presso la comunità tecnica e
scientifica Italiana, sia pubblica che privata.
IBM SP Power 5
IBM CLX/1024
IBM BCC/1024
IBM SP Cluster 1600 - AIX
512 IBM Power5 1.9GHz
3.9 TFLOPS
1.2 TByte Memory - HPS Federation
IBM Linux Cluster 1350 - Linux
1024 Intel Xeon Pentium V 3GHz
6.1 TFLOPS
1 TByte Memory - Myricon
IBM Blade Center Cluster - Linux
512 Opteron 2core 2.2GHz –
6 TFLOPS
2 TByte Memory - TopSpin Inifiniband
1969
CAPI ’06 – Elda Rossi
1980
1990
1995
2000
2003
2006
Cosa facciamo
L’interesse nasce nel 2001 (Sequenziamento genoma
umano)
Noi siamo chimici (originariamente), ora abbiamo con
noi un biologo e un ctf (e una comunità di informatici)
Ci interessano le applicazioni Life Science che
richiedono HPC.
HPC in senso ampio: grande calcolo, grande
memoria, grande disco, …. tecnologia innovativa
L’approccio e’ basato sull’attivazione di progetti e
l’attenzione a riciclare competenze tecnologiche
interne.
CAPI ’06 – Elda Rossi
Linee applicative
Calcolo ad alte prestazioni – applicazioni
System Biology (sistema immunitario)
Dinamica Molecolare
Analisi filogenetiche
Dati distribuiti
microarray
Calcolo ad alte prestazioni – tecnologie
Ottimizzazione/parallelizzazione
Grid computing
Portali/Web Services/Data federation
CAPI ’06 – Elda Rossi
http://intranet.dalton.org/
I progetti
Gebba.lab (regione Emilia-Romagna) – www.gebbalab.it
Laboratorio distribuito per la gestione dei dati da microarray e correlazione dati clinici. Il progetto si
propone di individuare e fornire servizi innovativi ad Aziende Ospedaliere ed Enti per la sanità.
LIBi (FIRB – nazionale) – www.libi.it
Laboratorio nazionale per la bioinformatica. I partner del progetto, sia in ambito Scientifico che
Tecnologico, sono tra gli attori preminenti in Italia.
EMBRACE (Europeo) – www.embracegrid.org
Laboratorio Europeo per la Bioinformatica. Lo scopo è simile a quello di Libi, ma a livello Europeo.
Un ambiente distribuito, efficace e potente per la ricerca Bioinformatica e, più in generale,
per le Scienze della Vita.
ImmunoGrid (Europeo) – www.immunogrid.org
Simulazione del sistema immunitario umano. Questo risultato estremamente ambizioso verrà
raggiunto per passi, integrando modelli già esistenti a livelli diversi quali quello molecolare e
sistemico.
CAPI ’06 – Elda Rossi
GeBBA Lab
Creating a “virtual laboratory" with
contributions from both scientific and
technological/industrial partners.
The overall goal of the laboratory is to
provide technological solutions for the
clinical community, with the creation of
services and products.
GebbaLab will be available beyond the
formal end of the project.
The project has identified two key areas:
Microarraydata
data infrastructure
infrastructure and analysis
Microarray
and analysis
Integration of patient and clinical data with
genomics information
CAPI ’06 – Elda Rossi
Current approach
Single workstation approach
PC based spreadsheet
PC based analysis tools
This method is becoming inconvenient
NO systematic recording of experimental info
NO enough power systems
NO easy way for comparison
Data security and privacy
• Some users happy for trusted party to manage their data,
• Others will not release data before publication
CAPI ’06 – Elda Rossi
Data comparison, an
example
100 patients
Disorder: Chronic Myeloid Leukaemia
Treated with Gleevec
(50 respondent, 50 non responded)
50 patients
Disorder: GIST
Treated with Geevec
(30 respondent, 20 non responded)
150 patients
Disorder: different
Treated with Gleevec
(90CAPI
respondent,
70 non responded)
’06 – Elda Rossi
What kind of leukaemia
is Gleevec sensitive??
What kind of GIST
is Gleevec sensitive??
What kind of patient
is Gleevec sensitive??
The Gebba.lab organisation
A Central Node / Satellite Nodes
Satellite-lab, Public-lab, Hosted-labs”
Satellite-node
Central-node
Public-lab
Satellite-lab
Tools
Tools
customers
data
data
customers
INTERNET
Satellite-node
Satellite-lab
Tools
data
customers
CAPI ’06 – Elda Rossi
Hosted-lab
Hosted-lab
Tools
Hosted-lab
data
data
data
Tools
customers
Tools
customers
customers
The technology for
Data federation: SRB
Storage Resource Broker (common interface
and access to distributed data sources)
Includes user authentication and levels of
access priviliges, data security and privacy
Developed at SDSC
- Operational for 7+ years;
- Under continual development since 1997;
- Customer-driven
CAPI ’06 – Elda Rossi
An alternative we are
evaluating: Alfresco
Una web application: Content
Management e Workflow
open-source, aderente a standard
internazionali per lo sviluppo di applicazioni
Java;
Relativamente giovane ma costantemente
aggiornato
CAPI ’06 – Elda Rossi
Perchè questa
sperimentazione
Buona gestione dati (file) e metadati;
Metadati: estrazione automatica e ricerca
Diverse modalità di upload/download dei file (dragand-drop)
Web-client
Web-dav / FTP / Network folder
Interfaccia WEB-Services per l’interoperabilità
Procedure event-driven
Buona gestione di utenti e permessi
Interfaccia e interazioni ad alto livello gia’ predisposti
Federazione dei dati prevista a dic 2006
CAPI ’06 – Elda Rossi
Interoperability
for accessing analysis tools
Built on top of the data storage level
Selection of data, selection of tool: a
client program invokes the data
manager to fetch data for analysis
Tools are distributed and available on
different nodes (initially only on the
central node) as WEB services
A first prototype uses Taverna and
Soaplab on Bioconductor
CAPI ’06 – Elda Rossi
Luca
LucaSangiorgi
Sangiorgi
Genetics
GeneticsUnit,
Unit,Rizzoli
RizzoliOrthopedic
OrthopedicInstitute
Institute(IOR)
(IOR)- -Bologna;
Bologna;
Stefano
StefanoVolinia
Volinia
Telethon
TelethonDAMA
DAMA- -Ferrara
FerraraUniversity;
University;
Giuseppe
GiuseppeFrangiamone
Frangiamone
NSI
NSI––Nier
NierITC
ITCSolutions
Solutionssrlsrl- -Bologna
Bologna
CAPI ’06 – Elda Rossi
LIBi:
Laboratorio Internazionale di Bioinformatica
Integrazione di varie tipologie di infrastrutture ed
approcci tecnologici per rispondere a vari problemi
ed esigenze scientifiche.
quattro differenti “classi” di problemi bioinformatici e
quattro piattaforme tecnologiche
Problemi HPC (high performance computing)
Problemi HTC (high throughput computing)
Problemi Soft Real Time (On-Demand)
Problemi Proprietari
I partner del progetto hanno segnalato gli applicativi
d’interesse per ognuna delle 4 classi
CAPI ’06 – Elda Rossi
I gruppi di lavoro
Sono stati selezionati quattro applicativi che, insieme
con l’attivita’ tecnologica costituiscono i gruppi di
lavoro
1. Programmi di dinamica molecolare in ambiente DEISA:
GROMACS e NAMD
2. MrBayes, RaxML: analisi filogenetiche Bayesiana di
allineamnenti di sequenze proteiche/nucleotidiche
3. PsiBlast: cerca in database di proteine sequenze simili alle
sequenze date
4. ArrayLAB: applicativi avanzati per l'analisi di molteplici
piattaforme di microarray. Tool iniziali: suite R-Bioconductor per
l'analisi quantitativa e statistica e Cluster (Eisen lab) per la
clusterizzazione su grandi dataset di microarray.
5. DNAfan: interfaccia di vari programmi di analisi. Utilizza come
motori di calcolo PatSearch
CAPI ’06 – Elda Rossi
Proposta di piattaforma LIBI
EGEE
INFNgrid
DEISA
Proprietary
servers
LIBi infrastructure
Special
Hardware
LITBIO
LiBI Portal
HPC
HTC
Propr
DEISA
LoadLeveler
gLite
(Genius)
Web
WebPortal
Portal
CAPI ’06 – Elda Rossi
EnginFrame
Portal Logic
Technology
EGEE
Resources
Responsabile
Responsabiledel
delprogetto:
progetto:Prof.
Prof.Cecilia
CeciliaSaccone
Saccone
CAPI ’06 – Elda Rossi
44UR
CINECA,
SPACI/CACT-ISUFI,
IBM
tecnologiche
URtecnologiche:
tecnologiche:
CINECA,laINFN,
INFN,
SPACI/CACT-ISUFI,
tecnologiche
Obiettivo:
Progettare e realizzare
piattaforma
tecnologica del LIBI IBM
44UR
CNRBA,
UNIMI,
scientifiche
URscientifiche:
scientifiche:
CNRBA,UNIBO,
UNIMI,CBMTS
CBMTS
scientifiche
Obiettivo:
Indirizzare i contenuti
eUNIBO,
le funzionalità
Obiettivo: Progettare e realizzare la piattaforma tecnologica del LIBI
Obiettivo: Indirizzare i contenuti e le funzionalità
Andrew Emerson
Francesco Falciano
Giuseppe Fiameni
Silvia Giuliani
CAPI ’06 – Elda Rossi