Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati BUSINESS INTELLIGENCE E BIG DATA ANALYTICS Anno Accademico 2014/2015 Candidato: Umberto Fattore matr. N46 / 1248 Ai Nonni Antonietta, Elisa, Giovanni e Umberto. Alcuni oggi lontani; tutti per sempre vicini. Indice Introduzione ....................................................................................................................................... 4 Capitolo 1: Business Intelligence ...................................................................................................... 7 1.1 Un semplice esempio di Business Intelligence .......................................................................... 8 1.2 Architettura di un sistema di Business Intelligence ................................................................. 12 1.3 Le applicazioni di supporto alle decisioni................................................................................ 17 1.4 Confronto tra i fornitori: il Magic Quadrant di Gartner ........................................................... 19 Capitolo 2: Big Data Analytics........................................................................................................ 22 2.1 Il modello di crescita tridimensionale: Volume, Velocità, Varietà .......................................... 23 2.2 Utilizzi di Big Data: alcuni esempi .......................................................................................... 25 2.4 Il ciclo di vita dei Big Data ...................................................................................................... 27 2.4.1 Acquisizione...................................................................................................................... 27 2.4.2 Immagazzinamento ed Organizzazione ............................................................................ 28 2.4.3 Integrazione ....................................................................................................................... 29 2.4.4 Analisi ............................................................................................................................... 29 Capitolo 3: Il fenomeno “dati” in Italia ......................................................................................... 32 Conclusioni ....................................................................................................................................... 34 Bibliografia ....................................................................................................................................... 36 Introduzione Immaginiamo due bambini che, durante le vacanze estive, mettono su un piccolo banchetto per vendere biscotti al cioccolato ai passanti. Hanno l'opportunità di scegliere se posizionarsi fuori casa di Marco oppure di Matteo. Marco sa che la maggior parte dei suoi vicini sono anziani e di rado escono di casa e inoltre, causa l'età e un gran numero di acciacchi, non possono mangiare troppo cioccolato. Dove sceglieranno ragionevolmente di posizionarsi Marco e Matteo? Supponiamo che i bambini siano furbi e dunque decidano di posizionarsi fuori casa di Matteo. In sostanza, i due bambini hanno raccolto informazioni dalla realtà che li circonda e le hanno usate per ottenere risultati migliori nel loro piccolo marketing: venderanno probabilmente più biscotti, otterranno probabilmente più soldi. Nella realtà aziendale, ancora più di Marco e Matteo, il filo conduttore sono i profitti. A seconda del tipo di azienda alla quale ci si riferisca, tali profitti possono derivare dalla vendita di prodotti o di servizi di vario genere; ma in tutte le aziende serve un capitale iniziale da investire, ed è di vitale importanza gestirlo in maniera appropriata per ottenere da esso quanto più margine di guadagno. Gestire in maniera appropriata un investimento significa prendere le giuste decisioni per il suo utilizzo, così come (nel loro piccolo) i due bambini prendono una giusta decisione vendendo fuori casa di Matteo. 4 L'azienda prende queste decisioni sulla base delle informazioni che accumula. Ma il mercato di un'azienda è, come si può ben immaginare, infinitamente più grande di quello dei due bambini; i dati e le variabili da tenere in considerazione sono sicuramente molte di più. Non possono i soli responsabili delle vendite, con carta e penna, riuscire a tener conto di tutti i possibili scenari e di tutte le possibili informazioni a disposizione. Servono allora degli strumenti automatici che possano aiutare i manager ed i responsabili dell'azienda a prendere le decisioni giuste per massimizzare i profitti ed evitare gli sprechi dovuti alle scelte sbagliate, soprattutto negli ultimi anni in cui la crisi economica lascia ancora meno margini per gli errori. Serve, cioè, la Business Intelligence. In questa tecnologia, molte aziende hanno investito negli ultimi anni, analizzando i dati per ottenere informazioni preziose per le scelte aziendali. Ma la mole dei possibili dati da analizzare, complici le nuove tecnologie dirompenti, i social network e la conseguente possibilità di “condividere tutto in un secondo con un click”, è aumentata a dismisura negli ultimi anni, causando un nuovo boom: quello dei Big Data Analytics, l'analisi dei grandi dataset di informazioni reperibili ovunque. E così, con strumenti opportuni, analizzando anche solo il profilo Facebook e i post di un ragazzo è possibile capirne interessi, ambizioni, sogni. Se si è un azienda di scommesse sportive, si può capire se è un appassionato di sport analizzando i suoi post; se si è un sito di e-commerce, si può capire quali prodotti probabilmente gli interesseranno di più analizzando la cronologia pregressa, le pagine visualizzate, i cookie; se si è un partito politico, si può capire se quel ragazzo è un potenziale nuovo elettore e che tipo di scelte del partito potrebbero attirarlo maggiormente. Insomma, un mondo di possibilità apertosi negli ultimi anni, che grandi colossi (si pensi a Google, Facebook) stanno già sfruttando da tempo e che presto molte altre aziende e enti di ogni tipo potrebbero sfruttare. Questa tesi tratta nella prima parte il fenomeno della Business Intelligence. Ne introduce brevemente la terminologia, fornisce un semplice esempio e presenta poi sia l'architettura 5 generale della Business Intelligence e sia i vari tools che vengono usati nella parte finale di analisi dei dati (quella solitamente definita di Front End), introducendo il Magic Quadrant di Gartner come strumento di confronto tra le varie tecnologie. Nella seconda fase, viene invece introdotto il mondo dei Big Data e le metodologie per la loro analisi, con alcuni esempi dei numerosi campi applicativi che questa tecnologia ha già avuto nei suoi primi anni di vita. Viene, inoltre, presentato il ciclo di vita dei Big Data, con accenni a diversi possibili strumenti per l'organizzazione e le analisi di queste grandi moli di dati. Infine, vi è un breve capitolo finale che fotografa la situazione attuale della Business Intelligence e dei Big Data in Italia. 6 Capitolo 1: Business Intelligence Il termine Business Intelligence viene utilizzato per la prima volta da un ricercatore tedesco dell'IBM, Hans Peter Luhn, che in un articolo1 la definisce “an automatic method to provide current awareness services to scientists and engineers”, ossia “un metodo automatico per fornire servizi di consapevolezza per scienziati e ingegneri”. Successivamente, nel 1989, Howard Dresder del Gartner Group, la ridefinisce come “the ability to access and explore […] and analyze information to develop insights and understanding, which leads to improved and informed decision making”; cioè Dresder definisce la Business Intelligence come l'abilità di accedere ed analizzare informazioni, ottenendo da queste un migliore processo decisionale. La Business Intelligence è dunque un termine abbastanza ampio, che comprende tutti i modelli, metodi e processi per raccogliere, conservare e trasformare opportunamente i dati di un'azienda, per poi presentarli in una forma semplice e flessibile, tale che permetta l'utilizzo di questi dati come supporto alle decisioni aziendali. Per questo, spesso ci si riferisce alla Business Intelligence semplicemente con l’acronimo DSS (Decision Support Systems). Sempre più aziende oggi si orientano all'utilizzo dei sistemi di Business Intelligence, apprezzati sia per la loro semplicità, che per la loro rapidità e soprattutto flessibilità. Infatti, con questi sistemi, è possibile monitorare tanto l'andamento globale dell'azienda, quanto concentrarsi nei vari settori specifici (es. marketing, commerciale, logistica); ed è possibile, 1 A Business Intelligence System”, Hans Peter Luhn, IBM Jornal – Ottobre 1958 7 inoltre, analizzare sia l'andamento passato dei dati, che fare previsioni sulle possibili performance future dell'azienda, sulla base di scelte presenti (si parla di funzionalità what if). È possibile, dunque, suddividere il sistema informativo di un azienda in un modello a due categorie: un sistema direzionale e un sistema operazionale. - Il sistema direzionale (o anche decisionale) si occupa di definire gli obiettivi da raggiungere e controllare i risultati ottenuti. Tramite esso, si mettono in pratica eventuali decisioni correttive per eliminare (o almeno limitare) il gap tra obiettivi attesi e risultati ottenuti. - Figura 1 – Divisione del sistema informativo aziendale Il sistema operazionale, invece, comprende le attività esecutive che riguardano i servizi veri e propri offerti dall'azienda. Queste due macro-categorie sono interconnesse tra loro e scambiano continuamente informazioni e dati. Naturalmente, la Business Intelligence è da collocarsi nel sistema direzionale, di cui costituisce il fulcro; tuttavia, visto il suo ruolo sempre più importante anche nelle normali attività giornaliere dell'azienda, essa è collocabile in parte anche nel sistema operazionale. 1.1 Un semplice esempio di Business Intelligence Si consideri una realtà aziendale molto diffusa, come quella di una catena di librerie. La catena è formata da tanti negozi, sparsi su tutto il territorio nazionale; compra i libri dai 8 fornitori (le case editrici) e li rivende poi alla clientela nei vari punti vendita, con un certo margine ovviamente, al fine di ottenere dei guadagni. Il responsabile delle vendite dell'azienda consulta il report2 con l'andamento settimanale delle vendite a livello nazionale e scopre un improvviso calo di vendite nella seconda settimana di maggio. Tabella settimanale delle vendite a livello nazionale Settimana Vendite Variazione3 (migliaia di euro) Marzo – 4° sett. 200 -- Aprile – 1° sett. 220 +10% Aprile – 2° sett. 215 -2.3% Aprile – 3° sett. 220 +2.3% Aprile – 4° sett. 221 0% Maggio – 1° sett. 218 -1.3% Maggio – 2° sett. 196 -10.1% Maggio – 3° sett. 190 -3.1% Maggio – 4° sett. 188 -1% Vendite 230000 220000 210000 200000 190000 180000 170000 M ar zo – Ap ril e 4° – 3° M ag gi o – 2° Figura 2 – Grafico delle vendite in migliaia di euro. Il responsabile avvia allora un analisi approfondita. Utilizzando i vari strumenti tipici della Business Intelligence, scompone il dato in più Dimensioni. Verifica poi le vendite per le varie categorie di libri (narrativa, romanzi, ecc…) ma non nota anomalie (supponiamo che il calo di vendite si riveli uniformemente distribuito su tutte le categorie); scompone allora le vendite sulla base dell'area geografica e qui scopre che il calo ha riguardato la regione Campania e più precisamente il punto vendita di Fuorigrotta, a Napoli. 2 3 È uno dei tanti strumenti di Business Intelligence. Si intende variazione percentuale rispetto alla settimana precedente 9 Analizzando altre informazioni messe a disposizione dal sistema di BI, ma reperite da banche dati esterne Vendite settimanli per il solo punto vendita di Fuorigrotta Settimana all'azienda, il responsabile scopre che proprio a Vendite (in euro) Variazione Marzo – 4° sett. 2 000 -- Aprile – 1° sett. 2 200 +10% Aprile – 2° sett. 2 175 -1% Aprile – 3° sett. 2 200 +1% Aprile – 4° sett. 2 210 0% Maggio – 1° sett. 1 210 -45% Maggio – 2° sett. 1 000 -17% esempio, il responsabile delle vendite può decidere Maggio – 3° sett. 900 -10% di applicare degli sconti sui libri del punto vendita. Maggio – 4° sett. 900 0% Fuorigrotta, nel mese di Maggio, è stata aperta una nuova libreria, esterna al suo gruppo, che sta offrendo numerosi sconti per attrarre nuovi clienti. Il problema è dunque un tipico problema di competizione. Bisogna allora agire per recuperare nuovamente la clientela persa, mettendo in atto delle azioni correttive sulle proprie scelte di vendita: ad Ma come accertarsi che tali azioni possano davvero essere efficaci? Se le provassimo direttamente nel punto vendita e non dessero i risultati sperati, si avrebbe una conseguente ulteriore perdita di utile! Anche qui, ci vengono in aiuto sistemi di Business Intelligence e in particolare quelli per la simulazione. Tramite questi scenari di what if (letteralmente “cosa accade se…”) il responsabile può fare un simulazione in cui abbassa i prezzi dei prodotti: così facendo ci sarà un margine di guadagno ridotto ma sarà possibile magari riattrarre clientela, vendere più copie e di conseguenza tornare a guadagni più alti. Il sistema di BI tiene conto di questo fattore (minori prezzi dovrebbero corrispondere a più copie vendute) nonché di altri fattori (ad esempio, acquistare un numero di libri maggiore da un fornitore, permette di risparmiare rispetto all'acquisto di un minor numero di copie) e fa allora delle predizioni di quali potrebbero essere i risultati finali, date le azioni correttive introdotte. Supponiamo, nel nostro esempio, due possibili scenari che emergono dalle simulazioni. Nel primo il responsabile delle vendite decide di vendere tutti i libri nel mese di giugno con il 10% di sconto. Nel secondo, il responsabile decide di applicare addirittura uno sconto del 20%. 10 Supponiamo che per ogni prodotto, senza sconti, sia previsto un 20% di guadagno. Un libro comprato da un fornitore a 10 euro viene quindi venduto a 12 euro ai clienti. Si ottiene: Scenario 1 – vendere al 10% in meno nel mese di giugno Mese Vendite Variazione Sconto Margine di guadagno (in euro) Aprile 8 785 -- 0% 17 54 Maggio 4 010 -55% 0% 802 Giugno 7 000 +74% 10% 700 Luglio 7 000 0% 0% 1 400 ← Si noti che i mesi di Giugno e Luglio contengono dati simulati! Dalla prima simulazione, emerge un aumento delle vendite nel mese di giugno, che porterà ad un aumento delle vendite ed un guadagno effettivo del punto vendita di 2100 euro nei due mesi di Giugno e Luglio. Scenario 2 – vendere al 20% in meno nel mese di giugno Mese Vendite Variazione Sconto Margine guadagno 8 785 -- 0% 1 754 Maggio 4 010 -55% 0% 802 Giugno 10 000 +126% 20% 0 Luglio 10 000 0% 0% 2 000 (+5 000) Aprile ← Anche qui i dati di Giugno e Luglio si riferiscono a simulazioni Applicando uno sconto maggiore è previsto un ulteriore aumento delle vendite. Il primo mese non ci sono margini di guadagno (per via del basso prezzo di vendita dei libri), ma il secondo mese si ottiene un guadagno di 2500 euro (contando anche un bonus da parte dei fornitori di 5000 euro, vista la grande mole di libri acquistati). Il responsabile delle vendite allora, dati i due scenari, sceglie quale preferisce applicare e lo mette in pratica. Il secondo scenario dà guadagni maggiori, ma implica il dover avere 11 guadagni nulli per tutto il mese di giugno, quindi sarà compito del responsabile valutare se questo scenario sarà applicabile (magari il punto vendita ha bisogno di introiti immediati!). Naturalmente, l'esempio proposto è un estrema semplificazione di possibili casi reali, ma evidenzia in maniera chiara un concetto basilare: gli strumenti di Business Intelligence sono utilissimi per automatizzare la raccolta dei dati e la loro trasformazione in informazioni per avere una chiara descrizione della situazione e possibili predizioni dei casi futuri (si può ben immaginare come sarebbe stato difficile per il responsabile dover reperire manualmente, o da basi di dati differenti, tutte le informazioni sopra esposte). Allo stesso tempo, però, si noti che gli strumenti di Business Intelligence non possono agire in autonomia, ma sono solo di supporto alle decisioni (appunto da qui deriva il suddetto acronimo DSS) che vengono fisicamente prese dalle figure professionali dell'azienda (responsabile vendite, manager, ecc). 1.2 Architettura di un sistema di Business Intelligence L'architettura generale di un sistema di Business Intelligence è articolata su tre livelli: - I sistemi che contengono dati elementari (detti sistemi alimentanti poiché alimentano il sistema di Business Intelligence); - I sistemi per l'archiviazione dei dati integrati e semilavorati (in questo livello si collocano i Data warehouse); - I sistemi per la produzione di informazioni finite tramite l'applicazione delle metodologie di Business Intelligence. Si parte dunque dai dati elementari, che si trovano su numerose sorgente di dati differenti: database, fogli di calcolo elettronici, documenti XML, ecc. I dati sono estratti da questi sistemi e ripuliti da eventuali errori di inserimento o valori inconsistenti. Tutti i dati vengono infine convertiti secondo un unico standard, passaggio 12 fondamentale in quanto dati provenienti da fonti diverse potrebbero usare diverse rappresentazioni. Figura 3 – Esempio di una fase di staging Questa prima fase viene chiamata di staging. Successivamente, avviene la fase di caricamento dei dati. Questi vengono inseriti nel Data warehouse (DWH), un grande archivio informatico contenente i dati dell'organizzazione. Qualora i dati siano già presenti nel DWH, in questa fase ci si limita al loro aggiornamento, che può avvenire secondo una modalità refresh (i dati sono riscritti integralmente) oppure update (sono aggiornati soltanto i dati modificati). Queste operazioni vengono effettuate con l'aiuto di specifici strumenti di estrazione, trasformazione e caricamento dei dati, chiamati con l'acronimo ETL (Extract, Transform and Load). Il secondo livello dell'architettura è costituito dai sistemi di Data warehouse, che possono essere considerati come il collegamento tra i classici sistemi transazionali e quelli invece manageriali. Come già esposto sopra, il DWH è un grande archivio informatico che raccoglie tutti i dati di un organizzazione. In dettaglio, esso ha quattro importanti caratteristiche: Integrato, poiché appunto integra tutti i dati aziendali provenienti da diverse fonti (e quindi con diverse rappresentazioni) in un unico ambiente di analisi. Subject-oriented, ossia orientato al soggetto e non più alle operazioni. Questo significa che le scelte implementative ora sono fatte non per semplificare le operazioni, bensì per semplificare la lettura all'utente. 13 Storicizzato, poiché contiene dati che si riferiscono non solo al presente ma soprattutto alla storia passata dell’azienda. I vecchi dati allora non sono mai sovrascritti, ma viene tenuta traccia di ogni versione (frequente è l'uso del metodo di storiciazzione Slowly Changing di secondo tipo, in cui a ciascun dato è associato un flag che vale 0 o 1 a seconda di se il dato è ancora valido o vecchio). Non volatile, cioè il dato è caricato in sola lettura e può essere acceduto ma non modificato. I Data warehouse spesso vengono articolati su più livelli. In questo caso, non si accede direttamente ai DWH, bensì ai Data Mart, che costituiscono semplicemente un estratto del DWH. I vantaggi dei Data Mart sono numerosi: Sono più personalizzati alle esigenze, in quanto ciascun Data Mart contiene dati riguardanti una precisa area aziendale, mentre il DWH è molto più generico; Migliorano le performance, potendo eventualmente distribuire i Data Mart su macchine diverse e dunque avere hardware dedicato per ciascuno di essi; Migliorano la sicurezza, poiché sarà più semplice gestire l'autorizzazione ad un sottoinsieme più ristretto di dati. Tipicamente si tende a creare un Data Mart per ciascuna area aziendale (Data Mart per Logistica, Finanza, Acquisti, ecc). I Data warehouse (e di conseguenza i Data Mart) si basano sul cosiddetto modello multidimensionale. In questo modello l'informazione è espressa in termini di dimensioni e misure. Le misure (o fatti) sono informazioni numeriche che rappresentano in modo quantitativo i fenomeni di interesse aziendale. Sono espresse secondo determinate unità di misura e possono essere elementari (ricavate direttamente dai sistemi alimentanti) oppure derivate (calcolate dal sistema direzionale). 14 Le dimensioni di analisi, invece, rappresentano una prospettiva rispetto alla quale effettuare l'analisi. E' possibile rappresentare dati multidimensionali tramite uno schema a stella. Questo è formato da una tabella principale, la tabella dei fatti, che memorizza i fatti misurabili tramite funzioni matematiche. Questa tabella, inoltre, contiene un collegamento alle varie tabelle delle dimensioni, che di fatto forniscono dei contesti al contenuto della tabella dei fatti. Ad esempio, con riferimento alla catena di librerie (par. 1.1), se si vogliono modellare i dati delle vendite di prodotti in un certo numero di negozi del corso del tempo, si ottiene il seguente schema: ← Figura 4 - Schema a stella per modellare i dati delle vendite di libri (prodotto) dei vari punti vendita (negozio) nel corso del tempo. In rosso la tabella dei fatti, collegata tramite chiavi esterne alle tre tabelle delle dimensioni. La tabella dei fatti contiene due funzioni, aventi come dominio quello descritto dal prodotto delle tre dimensioni. Ovvero: vendite_euro : NEGOZIO x TEMPO x PRODOTTO → R ; vendite_prodotti : NEGOZIO x TEMPO x PRODOTTO → N ; 15 Tutta la parte prima descritta viene chiamata di Back End; ad essa segue la parte di Front End, che riguarda la vera e propria parte di Business Intelligence. In questa fase è possibile analizzare i dati secondo sistemi di analisi e previsione diversi, tra i quali sistemi di Reporting, OLAP, Simulazioni e Data Mining.4 Figura 5 – Rappresentazione grafica dell’architettura tipica di un sistema di Business Intelligence 4 Tutte queste tecniche sono trattate nel paragrafo successivo. 16 1.3 Le applicazioni di supporto alle decisioni Numerosissime e anche molto eterogenee sono le applicazioni di Business Intelligence che possono essere utilizzate nella fase finale (di Front End) dei vari processi decisionali. Si propongono le principali di seguito: Reporting → Danno un informazione statica di una determinata situazione aziendale, tramite grafici di vario tipo. OLAP → Acronimo di On Line Analytical Processing; offrono analisi simili al reporting, ma che danno anche un'ampia possibilità di personalizzazione all'utente finale. L'informazione è infatti contenuta in cubi analizzabili secondo più dimensioni, in accordo col sistema multidimensionale. Nel caso di più di tre dimensioni, si parla nella fattispecie di ipercubi. ← Figura 6 – Un esempio di analisi OLAP con riferimento alla catena di librerie (par 1.1). Nell'esempio vengono esaminate le quantità vendute rispetto alle tre dimensioni temporali, del negozio e del tipo di prodotto. Per ciascuna dimensione ci si sofferma su un attributo, in accordo con quanto contenuto nella tabella di figura 4. In questi sistemi vengono offerte varie operazioni per personalizzare l'analisi. In particolare operazioni di drill up e drill down (per scendere nel dettaglio o viceversa; ad esempio, un operazione di drill down applicata sulla dimensione Tempo nell'esempio di figura 6, può passare da un analisi riferita ai giorni ad una riferita ai 17 mesi); operazioni di slicing (riduzione del numero di dimensioni) e dicing (filtraggio dei dati secondo un determinato criterio). Data Mining → Le analisi OLAP descritte sono molto potenti, ma sono utili per limitarsi ad una visione storica dei dati. A partire dal duemila, sono invece nate le tecniche di data mining, atte a fornire delle analisi previsionali sul futuro, semplicemente analizzando le relazioni e le tendenze tra i dati a disposizione. Il data mining fa largo uso di tecniche matematiche e statistiche per raggiungere il suo scopo. Esempi di queste tecniche sono l'analisi cluster (consistente nel raggruppamento degli oggetti in insiemi in modo da meglio classificare la popolazione), l'analisi fattoriale (tramite la quale si ottiene un numero ristretto di variabili, minore del numero complessivo della variabili di partenza, che possano spiegare un fenomeno), gli alberi decisionali (permettono di comprendere un determinato fenomeno classificando, in ordine di importanza, le cause che conducono ad esso) e così via. Simulazioni what if → Tecnica predittiva che permette di eseguire semplici simulazioni sulle tendenze future, in base alle scelte attuali dell'utente. Dashboards → in italiano cruscotti; sono degli applicativi grafici che permettono di visualizzare con facilità le informazioni d'interesse dell'azienda, in tempo reale, tramite numerose rappresentazioni ed eventualmente applicare allarmi grafici e cromatici per indicare subito scostamenti significativi dai valori di soglia. Sono solitamente indirizzati ai vertici aziendali, al fine di avere una visione d'insieme dell'azienda. 18 Un esempio di cruscotto è dato dal software Xcelsius, prodotto da SAP, azienda considerata leader nel mercato della Business Intelligence.5 Ne esistono ovviamente numerosi altri. ← Figura 7 - L'immagine ritrae un esempio di utilizzo di Xcelsius; lo screenshot si riferisce ad un'applicazione di Kalyan Verma, che simula le elezioni presidenziali americane del 2008. Cliccando sui vari stati, per ciascuno di essi, si può assegnare la vittoria al partito repubblicano o a quello democratico e, di conseguenza, il sistema calcola dinamicamente il punteggio ottenuto dai due candidati presidenti. 1.4 Confronto tra i fornitori: il Magic Quadrant di Gartner Il mercato della Business Intelligence è pieno di diversi marchi, che a loro volta possono contare su strumenti di vario genere. Secondo Gartner,6 il mercato per le piattaforme di Business Intelligence è uno dei più dinamici nel mondo del software e, nonostante la crisi economica, è destinato a una continua crescita nell'immediato futuro. Anzi, proprio la crisi economica dovrebbe spingere maggiormente le azienda a trovare metodi decisionali quanto più efficaci possibili, in modo da ottimizzare tutte le varie area aziendali, evitando sprechi di investimenti. 5 6 Secondo il Magic Quadrant di Gartner (febbraio 2014) Resoconto 2014 sulla BI: http://www.gartner.com/technology/reprints.do?id=1-1QLGACN&ct=140210&st=sb 19 Proprio Gartner dà la possibilità ai vari acquirenti di valutare i numerosi fornitori sul mercato, tramite un particolare grafico: il Magic Quadrant. Questo grafico si sviluppa lungo due criteri di valutazione, che ne costituiscono anche gli assi: Capacità di esecuzione → Valuta i fornitori nella capacità di rendere la propria visione una realtà sul mercato. Riguarda quindi la salute finanziaria dell'azienda, la sua efficienza, la sua capacità in tutte le attività di pre-vendita e post-vendita, nonché in quella di assistenza. Completezza della visione → Valuta i fornitori nella capacità di sfruttare le forze di mercato per creare opportunità per se stessi e per creare valori per i clienti. Riguarda allora la capacità di comprendere le esigenze degli acquirenti, una buona strategia di marketing e di avere uno sguardo sempre rivolto alle innovazioni. Sulla base dei due criteri sopra descritti, il Magic Quadrant si suddivide in quattro aree: Niche Players → E' l'area che racchiude i giocatori di nicchia, ossia quei fornitori che hanno avuto buoni risultati in un solo segmento specifico del mercato dei BI (ad esempio, per le dashboard), ma hanno limitata capacità di innovare la propria offerta. Visionaries → riguarda i fornitori che hanno un grande occhio all'innovazione della loro piattaforma, ma offrono almeno per il momento limitate funzionalità. Si potrebbe dire che visionario è un fornitore dal grande pensiero innovatore, che per il momento non ha parò avuto ancora la possibilità di crescere completamente. Challengers → raccoglie i fornitori che offrono una buona ampiezza di funzionalità e hanno un ottima posizione sul mercato; peccano, tuttavia, in una vera e propria strategia e su una coordinazione tra i propri prodotti. Leader → è l'area riguardante i fornitori forti sul mercato, che offrono ampie funzionalità nei prodotti e un'ampia strategia. 20 Figura 8 - Il Magic Quadrant di Gartner, aggiornato a Febbraio 2014. Le aziende classificate come leader sono Tableau (che ha avuto una rapida crescita negli ultimissimi anni), Qlik, IBM, Microsoft, SAP, ecc. Si noti che Tableau è, sì, largamente considerata la miglior azienda nella capacità di esecuzione, ma è superata da IBM e molte altre sulla completezza della visione. 21 Capitolo 2: Big Data Analytics Con il termine Big Data si intende una raccolta di dati di grande dimensione, la cui dimensione e la cui complessità è tale da non poter essere trattata con i classici strumenti della Business Intelligence e di tradizionale analisi dei dati. Big Data Analytics si riferisce allora al processo di raccolta, organizzazione e analisi di queste grandi moli di dati, al fine di ricavare da essi delle informazioni utili per i vari domini di applicazione della tecnologia. La nascita dei Big Data è dovuta all'evoluzione esponenziale delle informazioni negli ultimi anni. Sempre in più campi, infatti, è necessario reperire e analizzare tantissime informazioni eterogenee in pochissimo tempo. Un esempio classico è quello dato dal settore industriale, in cui migliaia di sensori raccolgono dati ogni piccolo intervallo di tempo; tali dati vanno poi ovviamente conservati e analizzati, magari in tempo reale per prendere eventuali decisioni tempestive (si immagini se sono dati che controllano la temperatura di un reattore nucleare!). Nessuno di questi dati può essere eliminato, poiché in futuro potrebbe essere di grande importanza. Questo contribuisce senz’altro ad aumentare a dismisura la mole dei dati. Ma i Big Data si stanno diffondendo oggi in ogni ambito della vita quotidiana: per ricerche di mercato sempre più efficienti delle aziende; per tenere sotto controllo le minacce esterne e interne ad uno Stato, tramite le agenzie di intelligence (si pensi al caso dell’NSA americana7); per effettuare studi sulle abitudine e le tendenze degli utenti e così via. Nel giugno 2013 è diventata di pubblico dominio la notizia che l’NSA, agenzia di intelligence americana, aveva raccolto dati di ogni tipo su migliaia di utenti, non solo americani: chiamate, tweet, messaggi, profili, cronologie, ecc. 7 22 2.1 Il modello di crescita tridimensionale: Volume, Velocità, Varietà Sono tre le caratteristiche fondamentali che distinguono i Big Data: Volume → Come suggerisce lo stesso aggettivo “big”, una delle caratteristiche principale è il volume dei dati. Si pensi, ad esempio, ad un processo industriale con 100 sensori, ciascuno dei quali legge un dato valore ogni millisecondo. Così facendo, si otterranno ben 100*1000*3600 = 360 milioni di record acquisiti ogni ora! E non si può pensare di eliminare a mano a mano questi dati, poiché potrebbero essere utili in futuro; tutti i dati vanno quindi conservati. Ma questo non vale solamente nel contesto industriale, ma anche in numerosissimi altri contesti. Ad esempio, si consideri un social network famoso quanto Facebook: solo nel 2012 contava una mole di dati pari a 100 petabytes!8 Secondo IDC,9 è verosimile stimare per il 2020 che l'insieme di tutti i dati digitali prodotti e consumati in un solo anno sarà circa pari a 44 zettabyte, ossia 44 biliardi di gigabyte! In realtà, grandi moli di dati si potrebbero gestire anche con semplici sistemi relazionali, ma servirebbero investimenti enormi per le componenti hardware al fine di ottenere buone performance nella gestione e nell'analisi dei dati. Varietà → Un'importante caratteristica risiede anche nella forte eterogeneità dei dati: su Facebook, ad esempio, milioni di utenti ogni giorno non pubblicano solo semplice testo, ma fotografie, video e documenti di ogni sorta. C'è poi la differenza tra dati generati dagli utenti (come appunto quelli dei social network) e dati invece generati automaticamente (come nei processi industriali). un petabyte corrisponde a mille terabytes, ossia ad un milione di gigabytes. IDC è un azienda di ricerche di mercato, specializzata in particolar modo nell’Information Tecnology. Notizia tratta da http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm (link consultato il 11/02/15) 8 9 23 Si parla allora di dati non strutturati, ossia dati che non possono essere salvati (o per meglio dire che è difficile salvare) nei classici record dei sistemi tradizionali. Ci si basa spesso allora su database NoSQL. Velocità → I dati vengono prodotti in maniera sempre più rapida e chi li gestisce deve essere in grado di immagazzinarli e sfruttarli con altrettanta prontezza e rapidità. Nel corso del tempo, proprio in virtù della richiesta di maggiore velocità, anche i vendors dei sistemi relazionali si sono mossi in questa direzione, creando sistemi “ad alta velocità” (vengono solitamente riconosciuti con il termine Streaming Data). Ma in questo caso, per avere le performance migliori, le soluzioni ideali sono particolari tipologie di database NoSQL (database colonnari, chiave/valore, ecc). ← Figura 9 – Rappresentazione del modello tridimensionale dei Big Data. La Varietà implica l’associazione ai dati strutturati di quelli non strutturati; il volume è passato da dimensioni Terabyte a Zettabyte; la velocità implica la necessità anche dell’utilizzo di particolari sistemi di Streaming Data. Queste tre caratteristiche hanno avuto un costante (ed esponenziale) incremento nel corso degli anni, in accordo con quanto predetto già nel 2001 dall'analista Doug Laney, che aveva definito il modello di crescita dei Big Data come un modello di crescita tridimensionale.10 10 Douglas Laney, 3D Data Management: Controlling Data Volume, Velocity and Variety, Gartner. 24 In realtà, negli ultimi anni si è iniziato a parlare di un modello con quattro fattori: per molti si aggiunge infatti una quarta “V”, la veridicità delle informazioni. Con questo termine si vuole intendere la quantità di valore informativo che è possibile estrarre dal dato (avere tanti dati su un certo soggetto non implica necessariamente che quei dati siano utili e dunque carichi di significato, anzi spesso si incontra molto “rumore” nelle informazioni che si analizzano). 2.2 Utilizzi di Big Data: alcuni esempi Numerosi e vari sono i campi di applicazione dei Big Dati. Uno dei principali è sicuramente quello aziendale, dove è possibile ampliare il concetto di Business Intelligence per offrire ai clienti campagne pubblicitarie e prodotti strettamente mirati. Ad esempio, analizzando blog, tweet e commenti presenti sui social network, l'azienda può farsi un'idea molto chiara di quelle che sono le idee e le percezioni dei clienti sui vari prodotti. Basandosi su questi feedback, l'azienda può poi operare di conseguenza. Utili sono anche gli strumenti di recommandation engine, che le aziende possono usare sui propri portali di vendita online per suggerire ai clienti prodotti vicino ai loro interessi, analizzando gli acquisti passati e altre informazioni di navigazione sul web dell’utente. Ma le potenzialità dei Big Data non si limitano a questo. Ad esempio, durante la campagna presidenziale americana del 2012, entrambi i candidati sfruttarono tecnologie di analisi del web. In particolare, Obama e i suoi collaboratori puntarono alla creazione di un singolo grande database che potesse raccogliere dati attraverso i sondaggi, i volontari, i contenuti dei social network, ecc. Con questi dati, è stato possibile sia trovare potenziali votanti (gli “indecisi” da poter convincere all'ultimo minuto) e sia effettuare simulazioni predittive per capire quali tecniche potessero attirare un determinato target di elettori. Alla fine, di pochi voti, vinse Obama e probabilmente un contributo significativo venne anche dalle tecnologie utilizzate. Il sistema progettato dai sostenitori del suo avversario 25 Romney,11 tra l'altro, andò in crash proprio il giorno dell'elezione e non fu in grado di dare il suo contributo finale. Sempre in America, l'analisi dei Big Data non si limita solo all'esempio sopra, ma viene da anni usato in tutto il settore pubblico. Sicuramente, lo utilizzano i già citati servizi di intelligence, per scandagliare milioni di dati al giorno alla ricerca di potenziali pericoli per la nazione. Ma vengono raccolti anche dati da tutti i Ministeri e gli enti pubblici, in modo da poter identificare subito sprechi e inefficienze e prendere provvedimenti. Oppure, per gestire i soccorsi nelle catastrofi naturali, analizzando i dati e integrandoli con informazioni sulla localizzazione degli utenti, i cosiddetti GIS Data (Geographic Information System). Durante l'uragano Irene12, queste tecniche sono state ampiamente utilizzate per analizzare foto, tweet e video in tempo reale e, potendo capire ciascun dato da quale posizione geografica era estratto, aiutare a direzionare i soccorsi in maniera efficiente. Il sito FloridaDisaster.org, per citarne uno, offre una mappa interattiva della Florida a cui sono aggiunti dati metereologici, incendi, catastrofi varie, integrati con i tweet dei vari utenti: un modo immediato per capire subito quali zone sono a rischio e se vi sono persone isolate che necessitano di soccorso. Figura 10 – Una immagine tratta dal sistema GATOR del sito FloridaDisaster.org sopra citato. 11 12 Il sistema fu chiamato ORCA Uragano atlantico che ha colpito il nord America e in particolare gli Stati Uniti nell’agosto 2011. 26 2.4 Il ciclo di vita dei Big Data Si può suddividere il ciclo di vita di un sistema di Big Data nelle seguenti fasi: Acquisizione Immagazzinamento Organizzazione Integrazione Analisi Queste fasi si susseguono in maniera ciclica, perché vi è un continuo aggiornamento del processo. In queste fasi, interviene in particolare la figura dell'analista che ha il compito di organizzare i dati nel modo più consono alle proprie esigenze, di integrali e estrapolarne le informazioni utili. Figura 11 – Ciclo di vita dei Big Data 2.4.1 Acquisizione Può avvenire tramite diversi mezzi: API messe a disposizione dalle fonti dati: ad esempio Twitter mette a disposizione le Twitter API; Facebook invece le Graph API. Utilizzandole, è possibile interfacciarsi con le due piattaforme e esaminare tutti i contenuti che corrispondono a determinate chiavi di interesse. Web scraping: per raccogliere in maniera automatica informazioni dal web, leggendo pagine HTML tramire l'utilizzo di parser. 27 Lettura di stream data: cioè gestire il trasferimento continuo dei dati, come può ad esempio succedere nei processi industriali. Import nel sistema tramite strumenti ETL magari a partire da altri database di tipo operazionle/transazionale. 2.4.2 Immagazzinamento ed Organizzazione Si tratta di riuscire ad organizzare una grandissima mole di dati, molti dei quali non strutturati. Servono allora degli strumenti di calcolo distribuiti tra reti di computer. Un esempio di un software che si basa su questo principio è la piattaforma Handoop, che mette a disposizione un file system distribuito (HDFS) dal quale vengono gestiti su più nodi tutti i dati. L'organizzazione logica dei dati, come già più volte detto, non si basa ovviamente sul modello relazionale; sono invece usati database NoSQL. Questi sono definiti come basi di dati non relazionali, distribuite, open source e scalabili.13 La loro prima caratteristica è di non fare alcun uso del SQL e in particolare del DDL (Data Defintion Layer) con il quale il quale si definisce la struttura dei classici database relazionali. Si hanno così dei database più “elastici”, definiti come schemaless database. Esistono diversi tipi di sistemi NoSQL: uno dei più usati è il database a grafo, che consente di gestire in maniera efficiente i collegamenti tra dati, anche se in quantità molto grandi. È utilizzato per rappresentare i dati dei social network oppure i già citati reccomandation engine. 13 Così viene definito da un sito nato negli ultimi anni appositamente per descrivere i modelli NoSQL e farne una classificazione nelle diverse tipologie. Il sito è consultabile all’url: www.nosql-database.org. Consultato il 30 gennaio 2015. 28 ← Figura 12 – Un esempio di modello del database a grafo. In realtà, nel modello più specifico (chiamato property graph), si indica per ciascuna entità il ruolo (es. Umberto è nome, Cucina è attività) e per ciascuna relazione eventuali attributi (es. fidanzato da marzo 2012). 2.4.3 Integrazione Una volta che i dati sono organizzati in strutture del tipo Hadoop/NoSQL, si rende spesso necessaria una fase di preparazione, in cui i avvengono alcune trasformazioni per preparare i dati alla fase di analisi. Una delle trasformazioni più frequenti riguarda l'estrazione dei contenuti in formato di testo. Tra i tanti programmi utili a tale scopo, vi è Apache Tika14, che consente di trattare formati anche molto differenti tra loro con una modalità uniforme. 2.4.4 Analisi L'analisi dei dati può essere ottenuta con applicativi facenti parte della piattaforma Hadoop. Vi è la componente MapReduce, sistema di parallel processing di grandi quantità di dati, che lavora secondo il principio del divide et impera: si divide il problema complesso, con tutta la sua mole di dati, su problemi più piccoli con minori quantità di dati; su di esse MapReduce opera separatamente. La scrittura di funzioni di MapReduce è piuttosto complessa, per questo viene messo a disposizione Pig, un tool che ha il suo linguaggio 14 http://tika.apache.org/. Consultato il 12 febbraio 2015. 29 (chiamato Pig Latin) con il quale si scrivono sequenze di operazioni; sarà poi Pig a tradurre le istruzioni negli opportuni comandi di MapReduce. Figura 13 – Esempio di codice scritto nel linguaggio Pig Latin. Nella fattispecie, il codice sopra serve ad effettuare il conteggio delle diverse parole all’interno di un file. Per analisi più complesse, ad esempio applicare tecniche di data mining sui dati, occorre utilizzare strumenti più potenti come ad esempio Mahout, una piattaforma di machine learning.15 Infine, nel caso di grandi moli di dati strutturati, è possibile anche usare soluzioni hardware come le architetture MPP (Massive Parallel Processing). Queste architetture sono caratterizzate dalla presenza di unità elaborative completamente dedicate: non solo processori, ma anche una RAM e un bus dedicato per ciascuna unità. Così facendo, non si creano i tipici problemi da “collo di bottiglia” che si causano sui sistemi SMP (Symmetric MultiProcessing), in cui i processori sono sì separati, ma le restanti risorse (bus e memoria) sono invece condivise. Per machine learning si intendono sistemi capaci di imparare dai dati, senza essere stati esplicitamente programmati. Si basa sul principio della generalizzazione di un problema per lavorare anche su situazioni nuove ma in qualche modo simili a esperienze precedenti (è lo stesso principio sul quale si basano gli esseri umani). 15 30 ← Figura 14 – Modello di architettura SMP. I processori sono separati ma la RAM è unica e soprattutto è unico il bus. Per questo il sistema è solitamente detto di tipo Shared everything. → Figura 15 Architettura MPP. In questo caso è fisicamente separato anche il bus, in modo da avere un sistema che non condivida nulla (Shared Nothing). Questi tipi di sistemi sono ottimi per il trattamento di grandi moli di dati, date le forti capacità di calcolo (ovviamente costano di più, in quanto si rende necessario un maggior numero di componenti hardware). Nelle architetture MPP, la comunicazione tra più unità avviene solitamente tramite scambio di messaggi. 31 Capitolo 3: Il fenomeno “dati” in Italia Secondo diverse ricerche, anche il mercato italiano sta iniziando a comprendere le potenzialità dei sistemi di analisi dei dati. La situazione viene ben fotografata da una ricerca condotta nel novembre 2013 da EMC, promossa dall’Osservatorio Big Data Analytics & Business Intelligence del Politecnico di Milano. L’indagine16 ha coinvolto 184 entità, tra imprese e Pubblica Amministrazione. Da questa ricerca è stato confermato il boom dei Big Data e della Business Intelligence anche in Italia. In particolare, si attesta una forte crescita per quanto riguarda il volume dei dati utilizzati sia per i sistemi di Big Data Analytics che anche di Business Intelligence, dove si attesta una crescita media del 24% circa. È però possibile notare che almeno per il momento questa crescita si riferisce soprattutto ai dati strutturati (per ben l’84%) e solo per la restante parte a quelli non strutturati (immagini, GIS, social network, ecc). Quindi, soffermandosi particolarmente al solo fenomeno dei Big Data, intesi come dati caratterizzati da volume, velocità e soprattutto varietà, la crescita è molto più attenuata. Infatti, solo il 19% delle aziende dichiara di farne espressamente uso. Un dato interessante è quello che sottolinea, in particolare, come le aziende italiane hanno ben chiare le opportunità offerte da queste tecnologie, ma al momento non hanno avuto la possibilità (magari economica o organizzativa) per sfruttarle appieno. Sono comunque in forte ascesa le richieste per le figure professionali di data scientist, che sappiano combinare 16 URL: http://www.lastampa.it/2013/12/18/tecnologia/crescono-i-big-data-in-italia-ma-scarseggiano-ancoragovernance-e-competenze-7UdU4ot77HmmmI1KXT8VCK/pagina.html. Consultato il 3 febbraio 2013. 32 competenze informatiche e statistiche con quelle di analisi e interpretazione dei dati. Lo stesso Osservatorio elenca alcuni esempi di aziende che hanno negli ultimi tempi avviato sistemi di report direzionali. Si cita ad esempio l’esempio dell’azienda italiana Amadori,17 che ha avviato il progetto per un sistema direzionale integrato con dashboards visualizzabili da vari dispositivi mobili. Buona anche l’immagine che riguarda le startup italiane, che dimostrano di concentrarsi molto su questo nuovo fenomeno ed, inoltre, associano ad esso le tecnologie mobili e cloud. In particolare, quest’ultima permette all’azienda di investire quantità minori (i risparmi derivano dal non dover spendere soldi per l’acquisto di sistemi hardware dedicati, grazie alla possibilità di usare appunto appositi servizi remoti, pagabili tra l’altro in maniera proporzionale rispetto al reale utilizzo). Molto ancora si può comunque fare in Italia, soprattutto per quanto concerne l’utilizzo dei Big Data per trovare soluzioni a problemi comuni del nostro paese, magari prendendo spunto da quanto già fatto in altri. Ad esempio, l’Italia è un paese fortemente soggetto a terremoti e catastrofi idrogeologiche; un sistema come quello usato in Florida (si veda paragrafo 2.2) sarebbe di indubbia utilità per la gestione di eventuali future emergenze. Oppure, molto può la Big Data Analysis anche nel rendere più efficiente la Pubblica Amministrazione italiana e le spese dei diversi ministeri (secondo ultimi dati ogni anno in Italia si sprecano 1,5 miliardi nella cattiva amministrazione della sanità!)18. Sempre negli Stati Uniti, vengono usati numerosi sistemi di ausilio al trattamento dei dati per prendere decisioni nelle varie sfere dell’organizzazione pubblica, in modo da ottenere la massima efficienza possibile. Articolo tratto dall’Osservatorio sopra citato. Consultabile all’url: http://www.osservatori.net/business-case/dettaglio/ journal_content/56_INSTANCE_dhni/10402/1616706. Consultato il 2 dicembre 2014. 18 http://www.quotidianosanita.it/eventi.php?evento_id=3630. Consultato il 3 febbraio 2015. 17 33 Conclusioni La Business Intelligence e la Big Data Analytics costituiscono dunque due importantissimi strumenti che, prima l’una e poi l’altra, sono negli ultimi anni emersi con prepotenza nel mercato globale. La Business Intelligence fa largo uso della statistica descrittiva, analizzando dati con un alta densità di informazioni per ottenere misurazioni (somma, medie, ecc), rilevare tendenze e così via. Utilizza dunque dataset di limitate dimensioni, dati puliti e modelli semplici. Non è dunque applicata a moli troppo grandi di dati. La Big Data Analytics, invece, si basa su tecniche di statistica inferenziale per dedurre leggi (effetti causali, relazioni non lineari) studiando invece grandi insieme di dati, prevenendo risultati e comportamenti. I Big Data sono dataset eterogenei, con una minore densità di informazioni: il quantitativo informativo deve dunque essere estratto in maniera più complessa. Non è comunque giusto affermare che le due tecnologie siano distinte l’una dall’altra o che la Big Data Analytics sostituisca quella che prima era la Business Intelligence o possa sostituire i database tradizionali! Tutt’altro: per la maggior parte delle esigenze analitiche, i database di tipo relazionali sono più che sufficienti. Quello a cui si punta (e si sta puntando) è l’integrazione assieme alle tecnologie riguardanti il mondo Big Data. Di solito, infatti, il corretto utilizzo dei Big Data insieme alla Business Intelligence è quello di acquisire e organizzare le grandi moli di dati (secondo quanto visto nel ciclo di vita). Da 34 questi poi l’analista ha il compito di estrapolare le giuste informazioni che può poi andare ad inserire nel Data warehouse aziendale, grazie ai tradizionali ETL. Tanto i Big Data quanto la Business Intelligence, dunque, sembrano destinate a far parlare di se ancora per molti anni, a ritagliarsi una fetta sempre più ampia nel mondo dell’Information Technologies ed ad offrire numerose possibilità alle aziende (sempre più numerose) e alle figure professionali (la sempre più richiesta figura di analista, ad esempio) che decideranno di affidarsi ad esse. 35 Bibliografia [1] Hans Peter Luhn, “A Business Intelligence System”, IBM Journal, Ottobre 1958 [2] Kopàckovà-Skrobàckova, “Decision Support Systems or Business Intelligence: what can help in decision making”, https://dspace.upce.cz/bitstream/10195/32436/1/CL585.pdf [3] Scattolaro, “Tecnologie di Business Intelligence per il Retail: il caso non solo NonSoloSport”, Università di Padova, pag. 2-10. [4] Rezzani, “Business Intelligence”, Apogeo Editore, 2012. [5] Rezzani, “Big Data: architetture, tecnologie e metodi per l’utilizzo di grandi basi di dati”, Maggioli Editore, 2013 [6] Sallam – Tapadinhas – Parenteau – Yuen – Hostmann, “Magic Quadrant for Business Intelligence and Analytic Platforms”, www.gartner.com. Consultato il 12 febbraio 2015. [7] http://www.nosql-database.org/. Consultato il 18 febbraio 2015. [8] Luca Indemini, “Crescono I Big Data in Italia ma scarseggiano ancora governance e competenze”, La Stampa, 18 dicembre 2013. [9] www.wikipedia.it : “Big Data Analytics”, “Business Intelligence”, “Decision Support System”. Tutte le figure presenti sono state prodotte su Paint (o simili) dall’autore della tesi, tranne: [Fig. 7] dall’applicazione di Kalyan Verma. Presa da http://myxcelsius.com/2008/09/15/2008electoral-college-calculator-using-crystal-xcelsius/ [Fig. 8] da http://www.gartner.com/technology/reprints.do?id=1-1QLGACN&ct=140210&st=sb [Fig. 9] da http://www.weboptimeez.com/wp-content/uploads/2012/11/IBM-Big-Data.jpg [Fig. 10] screenshot sul sito FloridaDisaster.org [Fig. 13] dal libro di Rezzani, “Big Data” (rif. [5]), pag. 48. 36