Big & Open Data Innovation Laboratory Progetto operativo – settembre 2015 Referenti Devis Bianchini Stefano Calza Raffaele Miniaci Paola Zuccolotto 1. Linee guida seguite per la definizione dei requisiti di base I referenti del progetto operativo hanno definito i requisiti di base di cui il Laboratorio dovrebbe essere dotato, al fine di essere idoneo agli scopi per cui viene allestito. L’obiettivo principale è stato quello di creare una infrastruttura con metodi e strumenti per la gestione dei dati in maniera multidisciplinare e multimediale, con tecniche per condivisione e cooperazione, quali tecniche Linked Data (http://lod-­‐cloud.net/) e social networking e sono state considerate prioritarie le seguenti finalità generali: a) sostenere e potenziare il sistema della ricerca e dello sviluppo di soluzioni innovative all’interno dell’Ateneo e il trasferimento tecnologico verso la PA e il mondo produttivo, consentendo gestione efficace di grandi volumi di dati digitali di qualità, informazioni, conoscenza utilizzabili dai gruppi di ricerca attivi negli ambiti delle tecnologie mediche, ingegneristiche, economiche, finanziarie, aziendali, sociali e giuridiche di Health & Wealth; b) sviluppare una infrastruttura federata, basata su tecnologie Semantic e Social Web, con modelli, metodi e strumenti innovativi utili per l’organizzazione, la classificazione, l’integrazione, la ricerca, l’analisi e la presentazione di enormi, eterogenee e complesse collezioni di dati digitali (big data), anche in formato aperto (open data), prodotti da enti privati e pubblici – al fine di consentire, nel rispetto delle norme etiche e legali che il loro utilizzo comporta, l’estrazione e la generazione di conoscenza, favorire i processi decisionali privati e le politiche pubbliche, secondo il moderno paradigma di “innovazione guidata dai dati”. Nell’ambito delle finalità generali complessive, sono state valutate le seguenti attività caratterizzanti, la cui definizione è derivata dal confronto con i vari gruppi di ricerca operanti all’interno dell’Ateneo: •
•
•
•
•
definizione di un’architettura di infrastruttura federata, basata su tecnologie Semantic Web e Social Web, con tecniche e strumenti avanzati per classificare e raggruppare, sulla base della semantica dei contenuti informativi, big&open data provenienti da fonti diverse sviluppo di modelli e metodi avanzati di modellazione della conoscenza, processing semantico basato su ontologie, ragionamento in condizioni di incompletezza e di incertezza, inferenza logica, pianificazione, ragionamento automatico e, in generale, elaborazione efficiente orientata al problem-­‐solving sviluppo di modelli matematici e statistici dei dati, metodi e strumenti di indagine statistica, data mining, knowledge discovery e machine learning, analisi e valutazione, simulazione avanzata e ottimizzazione progetto di modelli, metodi e strumenti evoluti per la condivisione e cooperazione in contesti caratterizzati da un background informativo di grandi dimensioni (big&open data) integrazione del Lab con piattaforme big data e open data esistenti. 2 2. Progetto operativo Nel definire le dotazioni di base da assicurare al Laboratorio si è tenuto conto che esso potrà disporre di alcune risorse già disponibili, ma il cui utilizzo è comune anche ad altre attività dell’Ateneo. E’ stata quindi valutata la presenza in Ateneo di: •
•
•
risorse documentali: il patrimonio del sistema bibliotecario è tale soddisfare le necessità del Laboratorio senza integrazioni rilevanti; banche dati: l’Università già fornisce accesso alle maggiori banche dati necessarie per coprire i temi in oggetto, ma sono comunque stati previsti alcuni investimenti di adeguamento in banche dati non attualmente disponibili, in accordo con il Sistema Bibliotecario di Ateneo, di interesse per progetti afferenti al laboratorio; risorse informatiche: le attività del laboratorio possono in parte beneficiare della struttura informatica dell'Ateneo, ma anche in questo ambito si ritengono necessari alcuni ulteriori investimenti. Nel laboratorio restano dunque da pianificare investimenti relativi a: 1. HW e servizi di storage ad alta capacità ed elevati throughput; HW e servizi di super-­‐
calcolo (e.g., cluster e High Performance PC multiprocessore con acceleratori GPU) 2. Reti ad alta velocità 3. SW e relative licenze specifiche per i temi in oggetto 4. Personale 5. Banche dati specifiche per i temi in oggetto 6. Gestione ordinaria Di seguito, verrà fornita una stima dei costi per ciascuno degli investimenti ipotizzati e una valutazione finale in relazione al budget assegnato al laboratorio. 2.1 Hardware, servizi di storage e super-­‐calcolo, reti ad alta velocità (punti 1 e 2) Di seguito il dettaglio degli investimenti in HW e servizi di storage e super-­‐calcolo previsti per il laboratorio. È richiesto uno spazio presso il CSMT dove installare le postazioni (circa mq 30), con prese di rete a muro e accesso alla rete WiFi di ateneo. I server verranno installati in apposite sale server già esistenti nell’Ateneo. Descrizione HPC 2x Intel Xeon 8-­‐Core, 2.4 GHz, 128GB RAM, HDD 18TB, Linux OS PC Intel Core i7, 3.6GHz, display 24” LED, DRAM DDR3 a doppio canale 8GB, HDD 1TB SATA3, Scheda Grafica Nvidia GeForce GTx745 2GB, Windows 7/8.1, kit tastiera, mouse wireless TOTALE Unità Costo stimato (IVA inclusa) 2 € 17.000,00 circa 3 € 4.000,00 circa € 21.000,00 circa Si prevede l’utilizzo di servizi di data storage e di calcolo in outsourcing presso CINECA definita da una convenzione che parta da una base fissa definita come di seguito, ma che contempli la possibilità di cofinanziamento al 50% delle risorse sia di calcolo che di storage da parte di CINECA su specifici progetti di comune interesse (ad esempio 3 bioinformatica/genomica) con possibilità quindi di aumentare considerevolmente le risorse disponibili senza incidere sul budget a carico dell’Ateneo. La convenzione potrà prevedere una struttura modulare tale da permettere una certa flessibilità nell’arco del biennio sull’allocazione delle risorse: spazio vs calcolo. Saranno altresì messe a disposizione della convenzione le nuove macchine TIER-­‐0 in via di installazione presso il CINECA (previste per 2016), con ulteriori evoluzioni previste circa ogni 9 mesi. Descrizione Storage Big Data CINECA -­‐ 300€ a TB/anno per storage su area WORK, 200€ a TB/anno per storage DRES, 80€ a TB/anno per storage su nastro, per archiviazione a medio/lungo termine Super-­‐calcolo CINECA -­‐ 15.000€ per 300.000 ore standard CPU/anno Periodo Costo stimato 2 anni € 90.000,00 circa 2 anni € 30.000,00 circa TOTALE € 120.000,00 circa 2.2 Software (punto 3) Di seguito viene elencato il software da installare nel laboratorio. Visti i limiti di budget, per il momento si è deciso di prediligere, nel caso di software con licenze non gratuite, prodotti a maggiore diffusione, capaci di soddisfare le richieste di più gruppi di ricerca all’interno dell’Ateneo. Nel caso invece di software con licenze non gratuite, ma per i quali esiste un’alternativa open source o gratuita, la scelta verte su quest’ultima. Tipologia Software di analisi statistica Software generico per il calcolo Software per la gestione di basi di dati relazionali Descrizione STATA 14 MP6 – 5 nuove licenze di tipo Educational Network (6 core) Periodo Costo stimato (IVA inclusa) one time € 6.000,00 circa R one time Licenza open source GNU general Public License PostgreSQL one time Licenza libera (licenza BSD) MySQL one time Licenza open source GNU general Public License one time Licenza open source (Apache License 2.0) one time Licenze libere one time Licenze libere one time Licenze libere one time Licenze libere Hadoop 2.0 (common libraries, HDFS, YARN, MapReduce) Document-­‐oriented NoSQL DBMS (e.g., Software per la MongoDB, CouchDB, gestione di dati OrientDB) non/semi-­‐
Graph-­‐based NoSQL strutturati (NoSQL, DBMS (e.g., MapGraph, NewSQL) Neo4j, OrientDB) Key-­‐value store NoSQL DBMS (e.g., REDIS) Altri NoSQL DBMS (e.g., column-­‐oriented DBMS, 4 MonetDB) Software GIS Software per simulazioni del traffico Software per la simulazione del routing Altro software GRASS GIS – Usato soprattutto per modellistica e analisi QUANTUM GIS – Applicazione desktop con interfaccia grafica molto intuitiva SAGA GIS – Usato per editare dati spaziali MATSim (the Multi-­‐
Agent Transport Simulation Toolkit) Diverse soluzioni open source disponibili (e.g., GNU – General Network Simulator, NetKit) Gaussian – Licenza site level TOTALE one time Licenza open source GNU general Public License one time Licenza open source GNU general Public License one time Licenza open source GNU general Public License one time Licenza libera open source one time Licenze libere one time € 6.000,00 circa € 12.000,00 circa 2.3 Personale (punto 4) Si prevede il finanziamento di 3 assegni di ricerca biennali (che possono essere utilizzati anche come cofinanziamento di borse di dottorato), per un totale di circa € 150.000,00. I profili degli assegnisti di ricerca sono dettagliati di seguito. N.1 assegno di ricerca biennale (area scienze ingegneristiche) Competenze professionali ritenute preferenziali: competenze informatiche nell’utilizzo di metodi e strumenti per la gestione, organizzazione, analisi, classificazione e integrazione di dati, nello sviluppo di applicazioni con DBMS relazionali e NoSQL/NewSQL, conoscenza di tecnologie Semantic Web e Social Web. N.1 assegno di ricerca biennale (area medica) Competenze richieste: Competenze informatiche di gestione di basi dati e di programmazione, conoscenza di metodi e modelli per analisi statistiche multivariate e relativi software anche open source, con applicazioni in ambito medico e biologico, competenza informatica nell'accesso a basi di dati online di natura biomedica, conoscenza di metodi di simulazione e ottimizzazione e relativi software, conoscenze almeno basilari di concetti di biologia e genetica.
N.1 assegno di ricerca biennale (area economia e management) Competenze richieste: Competenze informatiche di gestione di basi dati e di programmazione, conoscenza di metodi per analisi statistiche, di simulazione e ottimizzazione, e relativi software per applicazioni nell'ambito dell'economia e del management . 5 Nell’ambito del Laboratorio, gli assegnisti saranno impegnati nella realizzazione di strumenti per la gestione e organizzazione di dati, creazione delle basi documentali e statistiche dei progetti, nonché nell'individuazione delle metodologie necessarie, nella creazione della modellistica e nella stesura dei rapporti di ricerca. Agli assegnisti sarà richiesta l’interazione e la collaborazione con ricercatori e docenti in ambiti disciplinari eterogenei, nonché l’interazione e la collaborazione con gli altri Laboratori, data la possibile eterogeneità dei progetti di interesse per il Laboratorio e il carattere profondamente trasversale delle competenze portate dal Laboratorio stesso. A titolo di esempio, si riportano alcuni contesti applicativi: •
•
•
•
•
•
•
•
•
•
•
valutazione economica delle tecnologie sanitarie, agro-­‐alimentari e farmaceutiche; sviluppo di un modello di valutazione per la gestione dei flussi, la generazione di report sullo stato del sistema e la valutazione periodica e attesa (nel lungo periodo) degli impatti in termini di sicurezza alimentare e di salute nelle popolazioni target; analisi di accessibilità ed equità dei servizi sanitari; progettazione e valutazione delle riforme del sistema sanitario; studio delle preferenze, delle scelte e dei comportamenti dei consumatori, dei pazienti, delle imprese e dei fornitori di servizi socio-­‐sanitari; progettazione e valutazione degli incentivi, dei sistemi di rimborso e dei modelli organizzativi; progettazione e valutazione dei sistemi di assicurazione sociale, dei contratti assicurativi privati e delle modalità alternative di finanziamento di progetti; studio degli aspetti legali su questioni di discriminazione, di privacy, procurement, sicurezza alimentare, ambientale e dei dati; life insurance, healthcare management; sviluppo di strumenti per pianificazione e gestione delle attività diagnostiche in reparti ospedalieri; sviluppo di strumenti informatici avanzati (basati su tecniche di intelligenza artificiale e ingegneria della conoscenza) a supporto della qualità della prassi clinica. 2.4 Banche dati (punto 5) A integrazione delle banche dati già gestite dal Servizio Bibliotecario di Ateneo (SBA), € 97.000,00 circa saranno da destinarsi all'acquisizione, in accordo con lo SBA, di nuove banche dati, da decidersi a fronte delle tematiche di interesse nell'ambito di progetti afferenti al laboratorio. A titolo di esempio, di seguito si fornisce un possibile elenco di banche dati (non esaustivo) tra cui scegliere. Descrizione Periodo HGMD and Genome Trax 2 anni Bloomberg professional 2 anni Bankscope -­‐ Ver. World + Ownership 2 anni Zephyr 2 anni Medtrack 2 anni 6 2.5 Gestione ordinaria (punto 6) Fuori budget vanno considerati i costi di manutenzione ordinaria. 3. Valutazione finale degli investimenti proposti Il preventivo di spesa relativo ai punti 1-­‐5 si attesta intorno a circa € 400.000 ed è coerente con il budget stanziato per il Laboratorio. Di seguito viene fornito un prospetto riassuntivo degli investimenti da pianificare. Descrizione Costo stimato (IVA inclusa) Punto1) HW e servizi di super-­‐calcolo (cluster e High € 21.000,00 circa Performance PC multiprocessore con acceleratori GPU) Punto 2) Servizi di storage e super-­‐calcolo ad alta capacità ed elevati throughput (per 2 anni) € 120.000,00 circa Punto 3) Licenze software (per 2 anni) € 12.000,00 circa Punto 4) Personale (n.3 assegni di ricerca biennali) € 150.000,00 circa Punto 5) Banche dati (da acquisire nell'ambito di progetti afferenti al laboratorio) € 97.000,00 circa TOTALE € 400.000,00 BUDGET PREVISTO € 400.000,00 7