centro HPC nel supporto delle Scienze della Vita Il ruolo di un CAPI ’06 – Elda Rossi Il Cineca CINECA, fondato nel 1969, è un Consorzio Universitario. Al momento 25 Università italiane costituiscono il Consorzio, insieme con il CNR e il MUR (Ministero dell’Università e Ricerca). La sua missione è di promuovere l’utilizzo dei sistemi di Supercalcolo più innovativi presso la comunità tecnica e scientifica Italiana, sia pubblica che privata. IBM SP Power 5 IBM CLX/1024 IBM BCC/1024 IBM SP Cluster 1600 - AIX 512 IBM Power5 1.9GHz 3.9 TFLOPS 1.2 TByte Memory - HPS Federation IBM Linux Cluster 1350 - Linux 1024 Intel Xeon Pentium V 3GHz 6.1 TFLOPS 1 TByte Memory - Myricon IBM Blade Center Cluster - Linux 512 Opteron 2core 2.2GHz – 6 TFLOPS 2 TByte Memory - TopSpin Inifiniband 1969 CAPI ’06 – Elda Rossi 1980 1990 1995 2000 2003 2006 Cosa facciamo L’interesse nasce nel 2001 (Sequenziamento genoma umano) Noi siamo chimici (originariamente), ora abbiamo con noi un biologo e un ctf (e una comunità di informatici) Ci interessano le applicazioni Life Science che richiedono HPC. HPC in senso ampio: grande calcolo, grande memoria, grande disco, …. tecnologia innovativa L’approccio e’ basato sull’attivazione di progetti e l’attenzione a riciclare competenze tecnologiche interne. CAPI ’06 – Elda Rossi Linee applicative Calcolo ad alte prestazioni – applicazioni System Biology (sistema immunitario) Dinamica Molecolare Analisi filogenetiche Dati distribuiti microarray Calcolo ad alte prestazioni – tecnologie Ottimizzazione/parallelizzazione Grid computing Portali/Web Services/Data federation CAPI ’06 – Elda Rossi http://intranet.dalton.org/ I progetti Gebba.lab (regione Emilia-Romagna) – www.gebbalab.it Laboratorio distribuito per la gestione dei dati da microarray e correlazione dati clinici. Il progetto si propone di individuare e fornire servizi innovativi ad Aziende Ospedaliere ed Enti per la sanità. LIBi (FIRB – nazionale) – www.libi.it Laboratorio nazionale per la bioinformatica. I partner del progetto, sia in ambito Scientifico che Tecnologico, sono tra gli attori preminenti in Italia. EMBRACE (Europeo) – www.embracegrid.org Laboratorio Europeo per la Bioinformatica. Lo scopo è simile a quello di Libi, ma a livello Europeo. Un ambiente distribuito, efficace e potente per la ricerca Bioinformatica e, più in generale, per le Scienze della Vita. ImmunoGrid (Europeo) – www.immunogrid.org Simulazione del sistema immunitario umano. Questo risultato estremamente ambizioso verrà raggiunto per passi, integrando modelli già esistenti a livelli diversi quali quello molecolare e sistemico. CAPI ’06 – Elda Rossi GeBBA Lab Creating a “virtual laboratory" with contributions from both scientific and technological/industrial partners. The overall goal of the laboratory is to provide technological solutions for the clinical community, with the creation of services and products. GebbaLab will be available beyond the formal end of the project. The project has identified two key areas: Microarraydata data infrastructure infrastructure and analysis Microarray and analysis Integration of patient and clinical data with genomics information CAPI ’06 – Elda Rossi Current approach Single workstation approach PC based spreadsheet PC based analysis tools This method is becoming inconvenient NO systematic recording of experimental info NO enough power systems NO easy way for comparison Data security and privacy • Some users happy for trusted party to manage their data, • Others will not release data before publication CAPI ’06 – Elda Rossi Data comparison, an example 100 patients Disorder: Chronic Myeloid Leukaemia Treated with Gleevec (50 respondent, 50 non responded) 50 patients Disorder: GIST Treated with Geevec (30 respondent, 20 non responded) 150 patients Disorder: different Treated with Gleevec (90CAPI respondent, 70 non responded) ’06 – Elda Rossi What kind of leukaemia is Gleevec sensitive?? What kind of GIST is Gleevec sensitive?? What kind of patient is Gleevec sensitive?? The Gebba.lab organisation A Central Node / Satellite Nodes Satellite-lab, Public-lab, Hosted-labs” Satellite-node Central-node Public-lab Satellite-lab Tools Tools customers data data customers INTERNET Satellite-node Satellite-lab Tools data customers CAPI ’06 – Elda Rossi Hosted-lab Hosted-lab Tools Hosted-lab data data data Tools customers Tools customers customers The technology for Data federation: SRB Storage Resource Broker (common interface and access to distributed data sources) Includes user authentication and levels of access priviliges, data security and privacy Developed at SDSC - Operational for 7+ years; - Under continual development since 1997; - Customer-driven CAPI ’06 – Elda Rossi An alternative we are evaluating: Alfresco Una web application: Content Management e Workflow open-source, aderente a standard internazionali per lo sviluppo di applicazioni Java; Relativamente giovane ma costantemente aggiornato CAPI ’06 – Elda Rossi Perchè questa sperimentazione Buona gestione dati (file) e metadati; Metadati: estrazione automatica e ricerca Diverse modalità di upload/download dei file (dragand-drop) Web-client Web-dav / FTP / Network folder Interfaccia WEB-Services per l’interoperabilità Procedure event-driven Buona gestione di utenti e permessi Interfaccia e interazioni ad alto livello gia’ predisposti Federazione dei dati prevista a dic 2006 CAPI ’06 – Elda Rossi Interoperability for accessing analysis tools Built on top of the data storage level Selection of data, selection of tool: a client program invokes the data manager to fetch data for analysis Tools are distributed and available on different nodes (initially only on the central node) as WEB services A first prototype uses Taverna and Soaplab on Bioconductor CAPI ’06 – Elda Rossi Luca LucaSangiorgi Sangiorgi Genetics GeneticsUnit, Unit,Rizzoli RizzoliOrthopedic OrthopedicInstitute Institute(IOR) (IOR)- -Bologna; Bologna; Stefano StefanoVolinia Volinia Telethon TelethonDAMA DAMA- -Ferrara FerraraUniversity; University; Giuseppe GiuseppeFrangiamone Frangiamone NSI NSI––Nier NierITC ITCSolutions Solutionssrlsrl- -Bologna Bologna CAPI ’06 – Elda Rossi LIBi: Laboratorio Internazionale di Bioinformatica Integrazione di varie tipologie di infrastrutture ed approcci tecnologici per rispondere a vari problemi ed esigenze scientifiche. quattro differenti “classi” di problemi bioinformatici e quattro piattaforme tecnologiche Problemi HPC (high performance computing) Problemi HTC (high throughput computing) Problemi Soft Real Time (On-Demand) Problemi Proprietari I partner del progetto hanno segnalato gli applicativi d’interesse per ognuna delle 4 classi CAPI ’06 – Elda Rossi I gruppi di lavoro Sono stati selezionati quattro applicativi che, insieme con l’attivita’ tecnologica costituiscono i gruppi di lavoro 1. Programmi di dinamica molecolare in ambiente DEISA: GROMACS e NAMD 2. MrBayes, RaxML: analisi filogenetiche Bayesiana di allineamnenti di sequenze proteiche/nucleotidiche 3. PsiBlast: cerca in database di proteine sequenze simili alle sequenze date 4. ArrayLAB: applicativi avanzati per l'analisi di molteplici piattaforme di microarray. Tool iniziali: suite R-Bioconductor per l'analisi quantitativa e statistica e Cluster (Eisen lab) per la clusterizzazione su grandi dataset di microarray. 5. DNAfan: interfaccia di vari programmi di analisi. Utilizza come motori di calcolo PatSearch CAPI ’06 – Elda Rossi Proposta di piattaforma LIBI EGEE INFNgrid DEISA Proprietary servers LIBi infrastructure Special Hardware LITBIO LiBI Portal HPC HTC Propr DEISA LoadLeveler gLite (Genius) Web WebPortal Portal CAPI ’06 – Elda Rossi EnginFrame Portal Logic Technology EGEE Resources Responsabile Responsabiledel delprogetto: progetto:Prof. Prof.Cecilia CeciliaSaccone Saccone CAPI ’06 – Elda Rossi 44UR CINECA, SPACI/CACT-ISUFI, IBM tecnologiche URtecnologiche: tecnologiche: CINECA,laINFN, INFN, SPACI/CACT-ISUFI, tecnologiche Obiettivo: Progettare e realizzare piattaforma tecnologica del LIBI IBM 44UR CNRBA, UNIMI, scientifiche URscientifiche: scientifiche: CNRBA,UNIBO, UNIMI,CBMTS CBMTS scientifiche Obiettivo: Indirizzare i contenuti eUNIBO, le funzionalità Obiettivo: Progettare e realizzare la piattaforma tecnologica del LIBI Obiettivo: Indirizzare i contenuti e le funzionalità Andrew Emerson Francesco Falciano Giuseppe Fiameni Silvia Giuliani CAPI ’06 – Elda Rossi