1.5 Sintesi (Abstract) della Proposta di Progetto - DaSSIA

Abstract del Progetto
Applications)
DaSSIA
(Data
Scalable Solutions
for Industrial
Di seguito viene riportato l’abstract del Progetto DaSSIA come inserito nel Progetto Presentato .
1.5 Sintesi (Abstract) della Proposta di Progetto
Quadro di riferimento
Negli ultimi anni, il rapido declino del costo di produzione e memorizzazione dei dati si è affiancato ad una crescente
consapevolezza del loro valore da parte delle aziende. L'analisi simultanea di un grande volume di dati consente infatti
di stabilire correlazioni e tendenze in grado di fornire un supporto fondamentale alla gestione e pianificazione
strategica aziendale. Studi recenti [1,2], oltre a indicare chiaramente come la produzione di grosse quantità di dati sia
diventata pervasiva nell'industria e nelle istituzioni pubbliche, prevedono che l'uso intelligente (analisi ed
estrapolazione di conoscenza) di tali risorse diventerà nel prossimo futuro una delle principali basi di competizione e
crescita. Gran parte delle informazioni utili per le analisi di mercato è oggi fornita da sistemi di social networking e
microblogging. Facebook, ad esempio, già nel 2008 ospitava ben dieci miliardi di immagini [3], per un totale di circa 1
Petabyte (un milione di miliardi di byte); il volume di traffico generato da Twitter ha recentemente raggiunto i 400
milioni di tweetal giorno [4]. Si stima [5] che la dimensione totale dei dati memorizzati a livello mondiale sia
dell'ordine di alcuni Zettabyte (mille miliardi di miliardi di byte), un numero confrontabile con quello delle stelle
nell'universo osservabile. A questi ci si aspetta [5,6] che si aggiungeranno miriadi di altre sorgenti di dati legate, ad
esempio, a sistemi distribuiti per l’acquisizione di dati per la gestione e controllo di infrastrutture cittadine.
Collezioni di dati di tali dimensioni rendono particolarmente difficoltosa, se non addirittura impossibile, la loro
memorizzazione ed elaborazione tramite sistemi tradizionali quali, ad esempio, i database relazionali. Nell'ambito
della tecnologia dell'informazione è recentemente diventato d'uso comune riferirsi a tale classe di problemi con la
locuzione “big data”[6], che per esteso viene applicata all'intero insieme di tecnologie hardware e software di nuova
generazione progettate per risolverli efficacemente. Elemento comune a gran parte delle suddette tecnologie è la
capacità di adattarsi dinamicamente al crescere delle dimensioni del problema, tramite l'impiego di modelli di calcolo
parallelo progettati per garantire un funzionamento robusto e scalabile (da poche unità a migliaia di macchine) anche
su hardware di basso costo (COTS). Tra le varie infrastrutture di calcolo con tali caratteristiche, una delle più
importanti è senza dubbio Hadoop[7], una infrastruttura open source ampiamente utilizzata ed il cui sviluppo è
direttamente supportato da aziende quali Facebook, Twitter, EBay ed Amazon.
La competenza nel campo del big data è oggi vista come uno dei più importanti fattori competitivi da parte di
numerose aziende[8], non necessariamente afferenti al settore dell'informatica. È pertanto fondamentale sia
l'acquisizione di nuove risorse in possesso di tali competenze, che la formazione di quelle già disponibili allo scopo di
accrescere la consapevolezza del fenomeno e di fornire solide basi per affrontarlo efficacemente. Un’altro aspetto
interessante di queste tecnologie è che, essendo esse open source e basate sull’uso intelligente di hardware COTS,
rendono accessibili anche a piccole imprese infrastrutture computazionali specializzate, finora appannaggio esclusivo
della grande industria.
In questo progetto cluster, proponiamo di trasferire parte della conoscenza ed esperienza del CRS4 nel campo del Big
Data ad un cluster di imprese a forte spinta innovativa.
Nello specifico, intendiamo portare avanti la progettazione e lo sviluppo di un sistema scalabile di back-office per la
gestione ed analisi integrata di dati digitali testuali (documenti, posta elettronica, ...) come esempio paradigmatico e
di diretto interesse industriale dell’uso di tecnologie Big Data. Il sistema utilizzerà tecnologie scalabili ETL come
hadoop per il processamento dei documenti e la costruzione dei grafi di interrelazioni, tecnologie di database no-sql
per la gestione e l’accesso ai dati e tecnologie di scalable analytics come impala per l’analisi. La realizzazione di questo
obiettivo concreto farà da filo conduttore ad una attività di trasferimento tecnologico che, partendo dalla descrizione
generale delle tematiche legate al Cloud Computing e al trattamento dei Big Data, porterà alla presentazione e
conoscenza degli strumenti attualmente disponibili. L’interazione con le aziende sarà strutturata come un processo
dinamico volto a raffinare le specifiche del sistema in modo da poter esplorare gli aspetti tecnologici ritenuti da esse di
maggior interesse.
Durata Il progetto avrà una durata di 18 mesi a partire dalla data di stipula del contratto
Progetti Cluster Top Down
Formulario per la presentazione delle domande
Pag. 1 di 2
Il Raggruppamento di imprese e attività di animazione
Le imprese coinvolte nel progetto sono caratterizzate da una forte propensione all’innovazione ed alla collaborazione.
Le attività di animazione (es. giornate di informazione/formazione, incontri, seminari, tavole rotonde) saranno
progettate e realizzate con lo scopo di favorire l’interazione tra produttori e consumatori di servizi.
Tali attività saranno inoltre fortemente orientate all’allargamento progressivo del numero di aziende
coinvolte/interessate (e in questo si chiederà la collaborazione delle aziende stesse) con l’obiettivo di massimizzare
l’esposizione del tessuto tecnologico e produttivo della Sardegna a questo tipo di tecnologie. Le caratteristiche del
Cloud Computing in generale e delle tecnologie legate al Big Data nello specifico costituiscono peraltro, per via della
frenetica evoluzione di cui sono oggetto, un terreno fertile per la nascita di nuove imprese e di reti di imprese rivolte
al mercato globale con la possibilità quindi di accendere meccanismi di emulazione/competizione che dovrebbero
portare ad un veloce allineamento della capacità tecnologiche locali allo stato dell’arte.
La principale ricaduta attesa per le imprese coinvolte è di crescita professionale. Al termine delle attività le imprese
avranno un panorama chiaro dell'offerta tecnologica disponibile e delle potenzialità correlate, una conoscenza
approfondita delle tecnologie più adatte a soddisfare le loro esigenze. A questo, ci si auspica, si aggiungerà la nascita
di sinergie tra produttori e consumatori di servizi, con conseguente creazione dei presupposti per future
collaborazioni.
[1] McKinsey Global Institute, Big Data: The next frontier for innovation, competition and productivity http://goo.gl/vfVwA
[2] Center for Economics and Business Research, Data Equity – Unlocking the value of big data http://goo.gl/tZEcW
[3] Facebook, 10 billion photos http://www.facebook.com/note.php?note_id=30695603919
[4] http://news.cnet.com/8301-1023_3-57448388-93/twitter-hits-400-million-tweets-per-day-mostly-mobile/
[5] The Economist, Drowning in numbers http://www.economist.com/blogs/dailychart/2011/11/big-data-0
[6] Computerworld, Why big data is a big deal http://www.computerworld.com/s/article/357092/Why_Big_Data_Is_a_Big_Deal
[7] Apache Hadoop http://hadoop.apache.org
[8] Computerworld, Big data, big jobs? http://www.computerworld.com/s/article/9231445/Big_data_big_jobs_
Attività di competenza delle aziende partecipanti al CLUSTER
L'abstract del Progetto esprime in dettaglio le potenzialità del Progetto stesso e le attività che
verranno portate avanti dal CRS4. Questo paragrafo riepiloga le attività di competenza delle
Aziende partecipanti al CLUSTER, che si focalizzano su due linee principali:
- supporto decisionale in fase di definizione dei requisiti ed in fase di valutazione delle attività di
ingegnerizzazione svolte;
- partecipazione alle attività di formazione e trasferimento tecnologico quando di interesse e
competenza della singola Azienda.
Per le attività di supporto decisionale verrà richiesto alle Aziende:
- la registrazione alla community virtuale (Hadoop User Group) che verrà creata dal CRS4 per
consentire ai partecipanti di interagire e contribuire al Progetto;
- la partecipazione, su base volontaria, ad una o più liste di discussione.
Per le attività di formazione e trasferimento tecnologico verrà richiesto alle Aziende:
- di esprimere la loro preferenza (mediante questionari/form online) riguardo alle tematiche
proprie del Progetto che saranno oggetto degli eventi formativi e di trasferimento tecnologico che
il CRS4 proporrà ed organizzerà;
- di partecipare, su base volontaria, agli eventi organizzati qualora le tematiche fossero di proprio
interesse e di proprio dominio.
Progetti Cluster Top Down
Formulario per la presentazione delle domande
Pag. 2 di 2