Abstract del Progetto Applications) DaSSIA (Data Scalable Solutions for Industrial Di seguito viene riportato l’abstract del Progetto DaSSIA come inserito nel Progetto Presentato . 1.5 Sintesi (Abstract) della Proposta di Progetto Quadro di riferimento Negli ultimi anni, il rapido declino del costo di produzione e memorizzazione dei dati si è affiancato ad una crescente consapevolezza del loro valore da parte delle aziende. L'analisi simultanea di un grande volume di dati consente infatti di stabilire correlazioni e tendenze in grado di fornire un supporto fondamentale alla gestione e pianificazione strategica aziendale. Studi recenti [1,2], oltre a indicare chiaramente come la produzione di grosse quantità di dati sia diventata pervasiva nell'industria e nelle istituzioni pubbliche, prevedono che l'uso intelligente (analisi ed estrapolazione di conoscenza) di tali risorse diventerà nel prossimo futuro una delle principali basi di competizione e crescita. Gran parte delle informazioni utili per le analisi di mercato è oggi fornita da sistemi di social networking e microblogging. Facebook, ad esempio, già nel 2008 ospitava ben dieci miliardi di immagini [3], per un totale di circa 1 Petabyte (un milione di miliardi di byte); il volume di traffico generato da Twitter ha recentemente raggiunto i 400 milioni di tweetal giorno [4]. Si stima [5] che la dimensione totale dei dati memorizzati a livello mondiale sia dell'ordine di alcuni Zettabyte (mille miliardi di miliardi di byte), un numero confrontabile con quello delle stelle nell'universo osservabile. A questi ci si aspetta [5,6] che si aggiungeranno miriadi di altre sorgenti di dati legate, ad esempio, a sistemi distribuiti per l’acquisizione di dati per la gestione e controllo di infrastrutture cittadine. Collezioni di dati di tali dimensioni rendono particolarmente difficoltosa, se non addirittura impossibile, la loro memorizzazione ed elaborazione tramite sistemi tradizionali quali, ad esempio, i database relazionali. Nell'ambito della tecnologia dell'informazione è recentemente diventato d'uso comune riferirsi a tale classe di problemi con la locuzione “big data”[6], che per esteso viene applicata all'intero insieme di tecnologie hardware e software di nuova generazione progettate per risolverli efficacemente. Elemento comune a gran parte delle suddette tecnologie è la capacità di adattarsi dinamicamente al crescere delle dimensioni del problema, tramite l'impiego di modelli di calcolo parallelo progettati per garantire un funzionamento robusto e scalabile (da poche unità a migliaia di macchine) anche su hardware di basso costo (COTS). Tra le varie infrastrutture di calcolo con tali caratteristiche, una delle più importanti è senza dubbio Hadoop[7], una infrastruttura open source ampiamente utilizzata ed il cui sviluppo è direttamente supportato da aziende quali Facebook, Twitter, EBay ed Amazon. La competenza nel campo del big data è oggi vista come uno dei più importanti fattori competitivi da parte di numerose aziende[8], non necessariamente afferenti al settore dell'informatica. È pertanto fondamentale sia l'acquisizione di nuove risorse in possesso di tali competenze, che la formazione di quelle già disponibili allo scopo di accrescere la consapevolezza del fenomeno e di fornire solide basi per affrontarlo efficacemente. Un’altro aspetto interessante di queste tecnologie è che, essendo esse open source e basate sull’uso intelligente di hardware COTS, rendono accessibili anche a piccole imprese infrastrutture computazionali specializzate, finora appannaggio esclusivo della grande industria. In questo progetto cluster, proponiamo di trasferire parte della conoscenza ed esperienza del CRS4 nel campo del Big Data ad un cluster di imprese a forte spinta innovativa. Nello specifico, intendiamo portare avanti la progettazione e lo sviluppo di un sistema scalabile di back-office per la gestione ed analisi integrata di dati digitali testuali (documenti, posta elettronica, ...) come esempio paradigmatico e di diretto interesse industriale dell’uso di tecnologie Big Data. Il sistema utilizzerà tecnologie scalabili ETL come hadoop per il processamento dei documenti e la costruzione dei grafi di interrelazioni, tecnologie di database no-sql per la gestione e l’accesso ai dati e tecnologie di scalable analytics come impala per l’analisi. La realizzazione di questo obiettivo concreto farà da filo conduttore ad una attività di trasferimento tecnologico che, partendo dalla descrizione generale delle tematiche legate al Cloud Computing e al trattamento dei Big Data, porterà alla presentazione e conoscenza degli strumenti attualmente disponibili. L’interazione con le aziende sarà strutturata come un processo dinamico volto a raffinare le specifiche del sistema in modo da poter esplorare gli aspetti tecnologici ritenuti da esse di maggior interesse. Durata Il progetto avrà una durata di 18 mesi a partire dalla data di stipula del contratto Progetti Cluster Top Down Formulario per la presentazione delle domande Pag. 1 di 2 Il Raggruppamento di imprese e attività di animazione Le imprese coinvolte nel progetto sono caratterizzate da una forte propensione all’innovazione ed alla collaborazione. Le attività di animazione (es. giornate di informazione/formazione, incontri, seminari, tavole rotonde) saranno progettate e realizzate con lo scopo di favorire l’interazione tra produttori e consumatori di servizi. Tali attività saranno inoltre fortemente orientate all’allargamento progressivo del numero di aziende coinvolte/interessate (e in questo si chiederà la collaborazione delle aziende stesse) con l’obiettivo di massimizzare l’esposizione del tessuto tecnologico e produttivo della Sardegna a questo tipo di tecnologie. Le caratteristiche del Cloud Computing in generale e delle tecnologie legate al Big Data nello specifico costituiscono peraltro, per via della frenetica evoluzione di cui sono oggetto, un terreno fertile per la nascita di nuove imprese e di reti di imprese rivolte al mercato globale con la possibilità quindi di accendere meccanismi di emulazione/competizione che dovrebbero portare ad un veloce allineamento della capacità tecnologiche locali allo stato dell’arte. La principale ricaduta attesa per le imprese coinvolte è di crescita professionale. Al termine delle attività le imprese avranno un panorama chiaro dell'offerta tecnologica disponibile e delle potenzialità correlate, una conoscenza approfondita delle tecnologie più adatte a soddisfare le loro esigenze. A questo, ci si auspica, si aggiungerà la nascita di sinergie tra produttori e consumatori di servizi, con conseguente creazione dei presupposti per future collaborazioni. [1] McKinsey Global Institute, Big Data: The next frontier for innovation, competition and productivity http://goo.gl/vfVwA [2] Center for Economics and Business Research, Data Equity – Unlocking the value of big data http://goo.gl/tZEcW [3] Facebook, 10 billion photos http://www.facebook.com/note.php?note_id=30695603919 [4] http://news.cnet.com/8301-1023_3-57448388-93/twitter-hits-400-million-tweets-per-day-mostly-mobile/ [5] The Economist, Drowning in numbers http://www.economist.com/blogs/dailychart/2011/11/big-data-0 [6] Computerworld, Why big data is a big deal http://www.computerworld.com/s/article/357092/Why_Big_Data_Is_a_Big_Deal [7] Apache Hadoop http://hadoop.apache.org [8] Computerworld, Big data, big jobs? http://www.computerworld.com/s/article/9231445/Big_data_big_jobs_ Attività di competenza delle aziende partecipanti al CLUSTER L'abstract del Progetto esprime in dettaglio le potenzialità del Progetto stesso e le attività che verranno portate avanti dal CRS4. Questo paragrafo riepiloga le attività di competenza delle Aziende partecipanti al CLUSTER, che si focalizzano su due linee principali: - supporto decisionale in fase di definizione dei requisiti ed in fase di valutazione delle attività di ingegnerizzazione svolte; - partecipazione alle attività di formazione e trasferimento tecnologico quando di interesse e competenza della singola Azienda. Per le attività di supporto decisionale verrà richiesto alle Aziende: - la registrazione alla community virtuale (Hadoop User Group) che verrà creata dal CRS4 per consentire ai partecipanti di interagire e contribuire al Progetto; - la partecipazione, su base volontaria, ad una o più liste di discussione. Per le attività di formazione e trasferimento tecnologico verrà richiesto alle Aziende: - di esprimere la loro preferenza (mediante questionari/form online) riguardo alle tematiche proprie del Progetto che saranno oggetto degli eventi formativi e di trasferimento tecnologico che il CRS4 proporrà ed organizzerà; - di partecipare, su base volontaria, agli eventi organizzati qualora le tematiche fossero di proprio interesse e di proprio dominio. Progetti Cluster Top Down Formulario per la presentazione delle domande Pag. 2 di 2