Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati Piattaforme di Gestione per Big Data Anno Accademico 2013/2014 Candidato: Carmen Clemente matr. N46000655 Ai miei genitori, A mia sorella, A Stefano e Sofia, A me stessa. Indice Indice……………………………………………………………………………………………….III Introduzione………………………………………………………………………………………….4 Capitolo 1 : Big Data ………………………………………………………………………………...5 1.1 Le quattro V dei Big Data……………………………………………………………………...6 1.2 L’origine dei Big Data…………………………………………………………………………6 1.3 Il potere dei Big Data…………………………………………………………………………..7 1.4 Critiche e rischi dei Big Data ………………………………………………………………….8 Capitolo 2 : Hadoop e Cloudera……………………………………………………………………...9 2.1 La nascita di Hadoop…………………………………………………………………………11 2.2 Le componenti di Hadoop……………………………………………………………………12 2.3 Le proprietà “chiavi” di Hadoop……………………..………………………………………14 2.4 La distribuzione Cloudera ..….….….….….….….…..………………………………………15 2.5 Cloudera e Intel : l’alleanza perfetta…………………..………...……………………………16 Capitolo 3 : Big Data Analytics e le migliori piattaforme….……………………………………….18 3.1 Le piattaforme di gestione dei Big Data...……………………………………………………19 3.2 SAP-HANA e TERADATA…....….….….….….….….….….….….….……………………21 Conclusioni………………………………………………………………………………………….25 Bibliografia………………………………………………………………………………………….30 3 Introduzione Il presente elaborato intitolato “Piattaforme di Gestione per Big Data” ha ad oggetto l’analisi delle problematiche relative ai cd “Big Data”, oltre che all’individuazione delle piattaforme di gestione dati, da cui trae origine il titolo del presente lavoro. Nel primo capitolo verrà infatti illustrata l’origine dei Big Data e utilizzo di quest’ultimi sia da parte dell’aziende sia nel settore privato. Gli stessi sono nati con l’obiettivo di fornire da un lato: uno strumento alle imprese per soddisfare le proprie esigenze economiche e di mercato e dall’altro ai privati cittadini e alle PA, uno strumento che consente mediate l’organizzazione, l’analisi e la condivisione di una grande quantità di dati, il soddisfacimento di uno scopo comune. Sono state inoltre evidenziate le caratteristiche dei Big Data, note come le “Quattro V", nonché le eventuali criticità e problematiche ad essi connessi. La gestione di una mole ingente di dati, indubbiamente mette a rischio la privacy di ogni utente, tanto da spingere nell’ottobre del 2013 al varo delle linee guida volte alla salvaguardia del diritto alla riservatezza e dei dati personali. Il secondo capitolo sarà dedicato alla nascita del sistema Hadoop e Cloudera. Infatti la necessità di smaltire un corpus cospicuo di dati, ha spinto gli ingegneri di Google a creare un’infrastruttura di elaborazione per la risoluzione di tale problematica, non superabile con gli strumenti tradizionali: ovvero GFS e MapReduce. Stessa difficoltà è stata riscontrata da D. Cutting nel 2004 tanto da indurlo a sostituire la raccolta e l’elaborazione dei dati, basando la sua implementazione su MapReduce, da qui la nascita di Hadoop. 4 Sono state inoltre descritte le sue componenti ovvero HDFS e MapReduce. Gli ultimi paragrafi del capitolo secondo sono dedicati da una parte: alla nascita d Cloudera nel 2008, la più grande società che ha proposto una distribuzione Hadoop open-source e che ha permesso alle imprese, grazie ad alcune sue peculiarità, una maggiore competitività di mercato e dall’altra alla storica collaborazione tra Cloudera e Intel Corporation, divenendo quest’ultima il più grande azionista e membro del CDA di Cloudera. I due colossi mondiali offrendo il loro impegno a vantaggio della comunità open source, sono giunti alla conclusione che lavorando in modo congiunto ed utilizzando in modo corretto un ingente quantità di dati si potrà consentire alle aziende di individuare le soluzioni più consone ai loro problemi, ottenendo un vantaggio competitivo rispetto alle loro concorrenti. Il terzo ed ultimo capitolo, rappresenta il cuore dell’elaborato, poiché l’attenzione è stata incentrata sul concetto di Big Data Analytics, e sulla nascita delle diverse piattaforme di gestione. In effetti dopo Hadoop e il suo HDFS sono state individuate altre piattaforme che hanno contribuito in maniera efficiente alla gestione dei “grandi dati”. In particolar modo sono stati tracciati i tratti salienti di due grandi piattaforme ovvero SAP-HANA e TERADATA, le quali hanno consentito alle società di offrire una nuova prospettiva di business, attraverso un’analisi e una gestione, in real-time dei dati in loro possesso. 5 Capitolo 1: Big Data Nella seconda metà del Novecento, i computer hanno consentito di analizzare una serie di informazioni, ma solo con l’avvento di internet è stato possibile una loro condivisione da parte di utenti collocati in qualsiasi parte del mondo. Ma l’aspetto più innovativo, può essere individuato nella capacità da parte dei motori di ricerca, di raccogliere milioni di dati in database1 consultabili da chiunque. L’evolversi della tecnologia, infatti, oggi, ci permette di catturare realtà invisibili, consentendoci di analizzare e mettere a confronto enormi quantità di dati, non eterogenei, dinamici....i cd ”Big Data” Ma cosa sono realmente i Big Data? E soprattutto perché negli ultimi anni la maggior 1 Database: I database o banche dati sono collezioni (archivi) di dati, tra loro correlati, utilizzati per rappresentare una porzione del mondo reale. Sono strutturati in modo tale da consentire la gestione dei dati stessi in termini di inserimento, aggiornamento, ricerca e cancellazione delle informazioni in modo da costituire una base di lavoro per utenti diversi con programmi diversi. 6 parte delle aziende ne fanno sempre più ricorso? Il termine Big Data si usa quando le informazioni che si vogliono gestire sono tante, o quando la dimensione dei dati stessa costituisce parte del problema. Al di là della problematica dimensionale, i Big Data costituiscono l’occasione per trovare spunti a nuovi tipi di dati e contenuti, garantendo alle aziende, e non solo, di rispondere in modo più celere ed efficiente a tutte quelle esigenze che prima non potevano trovare un riscontro. Essi, infatti, possono essere definiti come il nuovo “microscopio che rende misurabile la società”, poiché spingono verso una nuova scienza di dati in grado di diffondere opinioni, distribuire risorse economiche od energetiche, prevedere crisi economiche e soddisfare bisogni di mobilità. 1.1 Le quattro V dei Big Data I Big Data hanno delle caratteristiche peculiari note anche come “le Quattro V”: -Volume: fa riferimento alla capacità di acquisire, memorizzare ed accedere a grandi volumi di dati, non gestibili con i database tradizionali; -Velocità: è riferita al fatto che l’analisi dei dati deve essere effettuata a ritmo sostenuto o addirittura in tempo reale. Ottenere un vantaggio significa identificare una tendenza o un’opportunità qualche secondo prima del concorrente. -Varietà: rappresenta un cambiamento nel modo in cui i dati vengono analizzati e 7 memorizzati, ovvero di diversa natura e non strutturati, come per esempio: audio, video,email, social media ecc..; -Veridicità: tutti i dati raccolti rappresentano un valore per le aziende, da essi è possibile trarne un’opportunità con un grande impatto sulle attività. La veridicità dei dati rappresenta un requisito fondamentale per alimentare nuove intuizioni ed idee. 1.2 L’origine dei Big Data Le fonti da cui traggono origine i Big Data sono molteplici, ma tutte possono essere ricondotte a tre grandi categorie: informazioni persona-macchina: si tratta della fonte da cui traggono origine la maggior parte dei dati raccolti, anche molto tempo prima della formulazione del concetto di Big Data ; sono dati di tipo transazionali, che se prima venivano conservati esclusivamente per finalità contabili,ora permettono di individuare il “cliente-tipo”,adeguando l’offerta alla sua esigenza; informazioni da persona a persona:si tratta di informazioni che nascono dalle intenzioni umane e che sono scambiate attraverso reti sociali, ad esempio i social network che possono essere considerati come piazze virtuali; informazioni macchina a macchina:si tratta di informazioni raccolte da sensori e trasmessi per diversi motivi ad altri dispositivi elettronici, ad esempio un sensore collocato all’interno di una calzatura sportiva che invia al nostro smartphone una serie di informazioni, che analizzate ed elaborate, consentono di individuare un allenamento adeguato alle caratteristiche personali dell'atleta. 1.3 Il potere dei Big Data I dati che provengono dal web ricoprono una grande importanza nel mondo dei Big Data, non solo perché posseggono le quattro caratteristiche peculiari ma anche perché includono in sé un potenziale informativo particolarmente elevato. 8 Ovvero si fa riferimento ad alcune tipologie di dato, quali pagine HTML, contenuti Facebook, tweet ecc. In effetti, l’interesse per l’analisi dei dati della clientela ha assunto particolare importanza in ambito aziendale, poichè attraverso la gestione e l’analisi delle informazioni provenienti dall’esterno: social network, smartphone ecc.., le grandi società hanno la possibilità di migliorare alcuni aspetti importanti del proprio di agire. Affinché le informazioni assumono “valore” occorrono chiavi interpretative in grado di selezionare i dati, organizzarli ed inserirli in contesti tesi a superare le complessità. In effetti, tali operazioni permettono alle aziende di: -analizzare i rischi e le opportunità che il mercato offre, grazie all’individuazione di frode e di minacce; -soddisfare le esigenze del cliente, attraverso un’analisi in tempo reale della domanda e dell’offerta di beni e servizi. In effetti ricerche di mercato mirate, osservazioni del comportamento spontaneo dei consumatori rappresentano uno strumento di analisi potentissimo per le aziende. Un esempio emblematico è dato dall’acquisto da parte della società Wall-Mart, gigante mondiale della distribuzione, della Kosmix, una società di monitoraggio dei social media,che è stata trasformata nella WallMartLabs. Attraverso questa acquisizione la Wall-Mart analizza i Big Data del consumo online, cercando di anticipare le tendenze e soddisfare le esigenze dei consumatori sia nei punti vendita sia online. L’utilizzo dei Big Data,infine, negli ultimi anni sta occupando un ruolo primario non solo nel settore “privato-aziendale”, ma anche in quello pubblico qualora la parola “cliente” venga sostituita con quella di cittadino. Infatti, l’analisi e l’organizzazione di una grande quantità di dati garantisce dei benefici per la pubblica amministrazione e di riflesso anche per la cittadinanza. Tra i possibili effetti positivi potrebbero rientrare: la razionalizzazione della spesa pubblica, il miglioramento dei servizi, riduzione degli sprechi, ottimizzazione delle risorse. Tali risultati sono stati messi a punto da un team di ricercatori della Columbia University nel 2010, quando un violento terremoto si abbatté sulla città di Haiti, determinando la 9 fuga di milioni di persone. Gli studiosi riuscirono a tracciare tutti gli spostamenti della popolazione grazie alle sim card dei loro cellulari. In seguito, allo scoppiare del colera, utilizzarono la stessa tecnica per identificare il luogo dove servivano appropriati medicinali, evitando così la diffusione dell’epidemia. 1.4 Critiche e rischi dei Big Data I Big Data non posseggono, però, solo caratteristiche positive, ma presentano alcune criticità che potrebbero vanificare i vantaggi che se ne traggono. Esse riguardano in primo luogo la qualità, ovvero l’insieme di caratteristiche che ciascun Big Data deve possedere: -completezza:la presenza di tutti i dati necessari per descrivere un’entità, in assenza dei quali potrebbe risultare incompleta; -consistenza:assenza di contraddizione nei dati; -accuratezza:riguarda la conformità ai valori reali; -assenza di duplicazioni:campi, record e tabelle devono presentarsi all’interno dello stesso sistema oppure in sistemi diversi una sola volta, evitando dunque duplicazioni. In secondo luogo, alcune perplessità possono essere sollevate in relazione alla privacy. La raccolta e l’analisi dei dati in enorme banche dati, da parte di più soggetti, può mettere in serio pericolo la privacy, intesa come “il diritto alla tutela dei dati personali e alla riservatezza”, che nell’epoca di internet è sempre più difficile far rispettare. Purtroppo, navigando in rete, talvolta, si corre il rischio di non comprendere il significato delle nostre condivisioni, accettando con leggerezza condizioni poco chiare che permettono a terzi di accedere alle nostre informazioni. A tal fine il 9 settembre 2013 sono state ufficialmente pubblicate le Linee guida Privacy OCSE. Nel preambolo si evidenziano i cambiamenti più significativi del nostro attuale contesto 10 sociale e tecnologico, tra questi sicuramente assume chiaro rilievo il fenomeno dei Big Data. Le operazioni su grandi moli di dati, come già evidenziato, senza che siano chiari a priori i loro molteplici utilizzi, comportano una compressione del diritto alla protezione dei dati personali così come oggi concepito. In effetti l’assenza da parte dell’interessato di una conoscenza circa le finalità del trattamento delle informazioni raccolte, talvolta compromette sin dall’origine la sua liceità, rendendo impossibile sia un’adeguata informativa, sia uno specifico, consapevole e valido utilizzo dei dati da parte dei soggetti che ne sono interessati. 11 Capitolo 2: Hadoop e Cloudera Con la crescente mole di dati che devono essere catturati , archiviati e utilizzati ai fini di business, si ha la problematica di come e dove memorizzarli. Una sfida molto importante è dettata anche dalla natura di questi, che cambia di volta in volta, arricchendosi sempre di più di dati di varia provenienza. Il problema che si riscontra è dovuto principalmente alla difficoltà di gestirli con database tradizionali, sia in termini di costi, sia dalla rapidità con cui crescono di volume e velocità. L’insieme di questi elementi ha portato allo sviluppo di nuovi modelli di elaborazione, che ha permesso alle aziende di diventare più competitive, sia attraverso una riduzione dei costi, sia perché i nuovi sistemi, sono in grado di archiviare, spostare e combinare i dati con maggiore velocità e in maniera agile. Uno dei sistemi più diffusi e conosciuti nel mondo è Hadoop. 2.1 La nascita di Hadoop All’inizio del 2000 il motore di ricerca Google iniziava ad affrontare una sfida molto seria, ovvero organizzare a livello mondiale tutte le informazioni. 12 Con il passare del tempo il numero e le dimensioni dei siti web è cresciuto in maniera esponenziale ed il servizio Google è diventato ancora più popolare, costringendo la società a smaltire sempre più rapidamente un corpus cospicuo di dati. In effetti, nessun software a disposizione era in grado di poter gestire tale ingente mole di dati, tanto che gli ingegneri di Google progettarono e costruirono un’infrastruttura di elaborazione per la risoluzione della problematica, ovvero Google File System - GFS e MapReduce. Simile problematica fu riscontrata nel 2004 anche da Doug Cutting che, sviluppando la prima versione di Nutch2, aveva incontrato problemi di scalabilità, ovvero il crawler3 ed il generatore di indici funzionavano bene solo per piccole quantità di dati, ma non riusciva a gestire quelli relativi all’intera struttura del web. Fu così che Cutting decise di sostituire la raccolta e l’elaborazione dei dati, basando la sua implementazione su MapReduce. Tale nuovo sistema fu chiamato Hadoop, da un elefante giocattolo appartenente a suo figlio, e rappresenta il framework open souce più diffuso nel mondo per la gestione dei dati strutturati, semi-strutturati e non strutturati. 2.2 Le componenti di Hadoop Il sistema Hadoop presenta due componenti principali4: Sistema di gestione distribuita dei dati – Hadoop Distributed File System (HDFS), Sistema di elaborazione parallela dei dati – MapReduce. HDFS è stato creato con l’obiettivo principale di memorizzare enormi quantità di dati, 2 Nutch: si tratta di un motore di ricerca open source basato su Java creato da Doug Cutting. I crawler sono componenti dei motori di ricerca che si occupano di navigare il web in modo sistematico recuperando i contenuti delle pagine e fornendoli al motore di ricerca per l’indicizzazione. 4 Accanto a tali componenti fondamentali se ne collocano altre che aggiungono ulteriori funzionalità alla piattaforma Hadoop come Hbase:un database utilizzato per la gestione strutturata dei dati sottoforma di tabelle di grandi dimensioni. 3 13 distribuendone il contenuto su una rete di server, realizzati con hardware standard di mercato. In particolare, il file system distribuito chiamato HDFS permette di creare, cancellare, spostare file ma non modificarli. Questa caratteristica consente di ottenere ottime prestazioni, senza avere problemi di implementazione dei consueti file system distribuiti. Infatti, nell’HDFS i file vengono scomposti in blocchi e ogni blocco viene distribuito in uno o più nodi del cluster. Ciò garantisce sia la tolleranza degli errori (la perdita di un singolo disco o server non determina la perdita del file), sia delle prestazioni (qualsiasi dato bloccato può essere letto dai diversi server). Il cuore del sistema Hadoop è rappresentato però da MapReduce ovvero un framework per la creazione di applicazioni, in grado di elaborare una grande quantità di dati in parallelo basate sul concetto di functional programming. Il modello di calcolo MapReduce deve il suo nome a due celebri funzioni della programmazione funzionale: Map e Reduce: Map: il nodo principale prende i dati di ingresso, li suddivide in piccoli sottoproblemi e li distribuisce agli altri nodi. Ognuno di essi produce il risultato intermedio della funzione Map sottoforma di coppia, memorizzate su un file distribuito la cui posizione è notificata al nodo principale alla fine della sua fase. Reduce: il nodo principale collezione le risposte, combina le coppie con la stessa chiave e li ordina, terminando l’esecuzione. 14 MapReduce lavora secondo il principio divide et impera ovvero prevede che un problema complesso, che utilizza una grande quantità di dati, venga suddiviso, insieme ai dati stessi, in piccole parti processate in modo autonomo, e una volta che ciascuna parte del problema è stata calcolata, i diversi risultati parziali sono “ridotti” ad un unico risultato finale. È infatti lo stesso MapReduce che si occupa dei vari task di calcolo, del loro monitoraggio, della loro esecuzione, nell’ipotesi in cui si verifichino problemi. 2.3 Le proprietà “chiavi” di Hadoop La creazione di Hadoop e MapReduce ha consentito alle grandi proprietarie del Web di risolvere un problema di dati, che nessun sistema commerciale o di ricerca era in grado di superare, in particolare Hadoop offre tre proprietà chiavi : E’ una piattaforma di archiviazione per tutti i tipi di dati, in quanto offre un nuovo repository dove tutti i dati strutturati e complessi, si possono facilmente combinare; Consente un più ampio stoccaggio di dati, ad un costo inferiore rispetto ai sistemi ad oggi disponibili; E congiuntamente a MapReduce, sfrutta la distributed storage architecture in HDFS per fornire servizi scalabili ed affidabili di elaborazione parallela per algoritmi. Gli utenti in effetti, non si limitano ad utilizzare un piccolo insieme di algoritmi consegnato da un RDBMS, ma usano i dati attraverso processori collegati direttamente ai dischi in cui risiedono. 15 2.4 La distribuzione Cloudera Il progetto di Apache Hadoop ha attirato a se una particolare attenzione, divenendo il punto di riferimento del fenomeno chiamato Big Data. Nel versante commerciale, il più importante rivenditore di Hadoop è rappresentato da Cloudera. Nata nel 2008, è stata la prima grande società a proporre una distribuzione Hadoop (CDH)5 completa, testata e popolare al mondo essendo open-source, ed acquisendo clienti del calibro di eBay, Expedia, Nokia e Samsung. CDH possiede al di là delle caratteristiche fondamentali di Hadoop, ossia lo storagescalabile e calcolo distribuito, anche un insieme di componenti aggiuntive: ad esempio un’interfaccia utente. Inoltre, CDH permette alle imprese una maggior competitività di mercato, grazie ad alcune caratteristiche peculiari quali la sicurezza e l’integrazione con una vasta gamma di soluzioni Hardware e Software. Difatti, CDH possiede alcuni elementi propri: Flessibile: consente di memorizzare qualsiasi tipo di dato ed eseguire una serie di operazioni di calcolo quali: elaborazioni di bacht, SQL interattivo, ect; Integrato: si combina in maniera rapida e celere con la piattaforma Hadoop; Sicuro: poiché permette di processare e controllare i dati sensibili; Scalabile ed estensibile: ovvero attivare una vasta gamma di applicazioni; Alta disponibilità: da la possibilità di eseguire carichi di lavoro di particolare criticità con la massima sicurezza: 5 CDH è l’acronimo di Cloudera’s Distribution Including Apache Hadoop 16 Aperto: in quanto è possibile beneficiare di una rapida innovazione senza costi elevanti. essendo al 100% Apache-licenza open source. Le distribuzioni CDH contengono connettori per database di terze parti (Oracle, Teradata ect) oltre un tool di gestione del sistema (Cloudera Manager6 ). La distribuzione Cloudera è disponibile sia nella versione gratuita che enterprise (ovvero in abbonamento). Nella versione gratuita non sono incluse alcune funzionalità ad esempio: backup, mentre quella enterprise, è più completa poiché oltre ad offrire Cloudera Manager, dispone anche di una funzionalità di audit e di gestione degli accessi ed un supporto tecnico su tutta la piattaforma Hadoop. 2.5 Cloudera e Intel : l’alleanza perfetta Intel Corporation7 e Cloudera agli inizi del 2014 hanno annunciato una collaborazione strategica in ambito tecnologico e commerciale, oltre ad un importante investimento azionario di Intel in Cloudera8, divenendo in questo modo Intel il più grande azionista di Cloudera e membro del consiglio di amministrazione. 6 Cloudera Manager è la piattaforma di gestione leader di mercato per Cloudera’s Distribution Including Apache Hadoop.Essa stabilisce lo standard per la distribuzione aziendale, offrendo visibilità granulare e controllo su ogni parte del CDH; abilita gli operatori a migliorare le prestazioni del cluster, la qualità del servizio, la conformità e soprattutto a ridurre i costi amministrativi. 7 Intel Corporation ,fondata nel 1968, è la più grande azienda multinazionale produttrice di dispositivi a semiconduttore (microprocessori, dispositivi di memoria, circuiti di supporto alle telecomunicazioni e alle applicazioni informatiche) con sede a Santa Clara, California. 8 Intel investirà in Cloudera circa 740 milioni di euro, acquisendo un pacchetto azionario del 18%. 17 Si tratta dell’investimento più importante finora realizzato da Intel nella tecnologia per data center che permetterà al software Cloudera di essere abbinato all’architettura all’avanguardia per data center basata sulla tecnologia dei processori Intel. L’obiettivo principale è quello di individuare soluzioni celeri per i Big Data, consentendo alle imprese, di qualsiasi dimensione, di ottenere un vantaggio competitivo dai dati implementando soluzioni Apache Hadoop open-source. Cloudera intende sviluppare e ottimizzare Cloudera distribution, che include CDH, considerando Intel come piattaforma preferenziale, oltre all’individuazione di una vasta gamma di tecnologie di nuova generazione, ad esempio: Intel Fabric. A sua volta, Intel si impegna a commercializzare e promuovere CDH e Cloudera Enterprice presso i propri clienti, considerando Hadoop come piattaforma di riferimento. Le due aziende confermano, in ogni caso, il loro impegno a vantaggio della comunità open-source, che è stato il fattore trainante di Hadoop. L’obiettivo centrale sarà quello di adottare strategie congiunte di mercato che consentiranno un rapido aumento dei carichi di lavoro. Infatti, la conclusione a cui sono giunte questi due colossi, è che utilizzando in modo corretto i dati a disposizione, un’azienda potrà individuare degli spunti che le consentano di ottenere un vantaggio competitivo , farle risparmiare denaro e ottimizzare il lavoro. La combinazione di tutti questi dati (e qui si ritorna ai big data), potrà permettere ad esempio: ad un negoziante di migliorare le proprie offerte in determinate fasce orarie, offrendo sconti e promozioni. Quindi tutto è collegato, poiché un buon risultato può essere raggiunto attraverso l’utilizzo di sistema all’altezza della problematica, ed è per questo che l’analisi dei Big Data, è divenuto uno dei punti cardini nell’azione promossa da Intel, che l’ha portato ad investire in Cloudera. 18 Capitolo 3: Big Data Analytics e le migliori piattaforme Big Data Analytics è un concetto di cui si parla da molti anni e che nasce dall’unione di due parole, da un lato i “big data” con tutte le problematiche connesse (come abbiamo già avuto modo di vedere), e dall’altro la“ Business Analytics”. Del modello dimensionale dei dati e delle nuove applicazioni si parla da più di vent’anni, infatti la Business Intelligence e la Performance Management sono tra le aree IT che negli ultimi anni hanno ricevuto particolare attenzione ed investimenti, il Data Minig e le analisi predittive sono state l’ultima frontiera che ha portato all’affermazione della Business Analytics. Ad oggi, è molto difficile trovare un’azienda che nella sua vita non abbia almeno una volta affrontato uno dei termini sopra indicati, ciò che è davvero innovativo è il concetto di Big Data Analytics. Un’unione di non semplice accostamento poiché Big Data Analytics implica non solo un’analisi su un grosso volume di dati, ma anche su una varietà di dati che necessitano di essere trasformati più velocemente possibile. Gli aspetti più critici in assoluto nell’area dei Big Data Analytics non sono le tecnologie che hanno comunque un ruolo fondamentale, ma la loro capacità di utilizzarle, soprattutto nelle attività di analisi predittive, ove occorrono delle competenze multidisciplinari che spaziano dall’informatica, matematica e marketing. In effetti, la scelta non si può limitare alla sola piattaforma di gestione, ma all’intero ecosistema fatto di varie figure professionali che, dotati di particolari competenze, danno il loro contributo alle aziende. In particolare, occorre avvalersi di un supporto tecnico specialistico di elevate qualità e a costi ragionevoli per non compromettere il risultato economico dei progetti. 19 È dunque inutile raccogliere enormi quantità di dati ed effettuarvi analisi sofisticate se la loro qualità non è eccellente, ciò vuol dire che prima di avviare progetti di analisi dei big data occorre rivedere le basi di dati, i processi di aggiornamento, responsabilizzare gli utenti ed assicurarsi che i sistemi di alimentazione siano affidabili ed efficienti. 3.1 Le piattaforme di gestione dei Big Data Dopo Hadoop ed il suo file system HDFS, sono stati individuate altre piattaforme di gestione dati tra le quali è possibile annoverare: 1. Il Database di 1010data : società di New York attiva dal 2000 nel settore dei servizi Cloud (al momento non presente in Italia), istallato in vari settori merceologici: P.A., Banche, Grande distribuzione, sanità ecc. 2. Actian: nata nel 2011 dalla Ingres Corportation, è la prima piattaforma end-toend di analisi, costruita per funzionare al 100% in modo nativo in Hadoop. Tale piattaforma fornisce agli utenti altre prestazioni, nonché un accesso interattivo SQL. 3. Amazon: oltre ad aver allargato la sua gamma di prodotti ad ogni genere di settore (per chi pensa che sia solo un fornitore di libri è giunta l’ora di aggiornarsi!) con i suoi servizi Cloud-Amazon ha conquistato una posizione di 20 primo piano nell’area delle piattaforma per big data e big data analytics. Infatti, offre servizi chiamati Redshift basati sul motore di ParAccel, mentre nell’area Hadoop dispone di una propria soluzione integrata con Cloudera e MapR. 4. Pivotal: nata nel 2000 all’interno del gruppo CDM9, ha al suo attivo più di cento progetti realizzati nel settore della media impresa, acquisendo sin dalla nascita competenze sulle piattaforme Pivotal CRM, ENOVIA e COMBINUM ed unificandole con l’obiettivo di soddisfare le esigenze proposte dalle aziende italiane. In particolare Pivotal Italia ha sviluppato un know-how volto a guidare le aziende italiane sia all’ottimizzazione dei processi di marketing, sia nell’ambito dei processi legati al ciclo di vita del prodotto. 5. InfiniDB: è il nuovo nome assunto dall’azienda texana operante nel settore dei database verticali, ovvero Calpont,che offre una serie di soluzioni open-source scaricabili direttamente dal sito di “infinidb10”. In particolare, Calpont opera nel mondo dei big data analytic mediante dei propri tool basati su Hadoop e MySQL. 6. Hortonworks: propone la distribuzione Hortonworks Data Platform completamente open-source che include componenti come Hadoop, Pig, Hive, Ambari… La gestione e il monitoraggio del cluster sono effettuati con ApacheAmbari. Hortonworks presenta alcune caratteristiche come un’alta disponibilità del sistema sia con Hadoop 1.0 sia con Hadoop 2.0., migliorando le performance delle query eseguite con HiveQL. 7. MapR: è un punto di riferimento per le piattaforme di gestione Big data ed analisi predittive, ma come altre non è ancora attiva in Italia, sebbene abbia delle filiali in Europa. MapR si differenzia sia da Cloudera che da Hortonworks in quanto per le sue distribuzioni non utilizza il file system distribuito, ma un’apposita implementazione chiamata MapR-FS. Anche per MapR esiste una distribuzione gratuita, ovvero M3 ed altre due commerciali come M5 ed M7; quest’ultima si 9 CDM: è una delle principali realtà nel mercato europeo dell’Information Tecnology , che fornisce da oltre 25 anni soluzioni integrate e servizi di consulenza, implementazioni e supporto dei Sistemi Informativi alle Aziende Italiane e internazionali. 10 Vedi www.infinitidb.org 21 differenzia dalle altre per la gestione automatizzata di HBase. 3.2 SAP-HANA e TERADATA SAP : fondata nel 1972 è una multinazionale tedesca che si occupa della produzione di software, HANA è l’acronimo di “High-Performance Analytic Appliance” ed è uno strumento creato per svolgere analisi in tempo reale e processi transazionali mediante tecnologie sviluppate o acquisite. SAP-HANA offre alle aziende un nuovo modo per sfruttare il valore dei dati strutturati e non. In particolare Hana consente la ridondanza dei dati, fenomeno che velocizza il caricamento degli stessi nel database. Infatti, gli utenti hanno una visione dei dati in tempo reale consentendo di pianificare gli strumenti attraverso, i quali si cerca di ottenere un determinato risultato di mercato. Hana è un DBMS basato su un hardware innovativo, classificato come: in-memory, ovvero i dati sono caricati in memoria centrale anziché in memoria di massa, in modo da rendere più veloci le operazioni, anche se con l’utilizzo di una mole di dati inferiori; column-oriented, cioè i dati sono registrati in modo tabellare facilitando l’aggregazione di dati simili tra loro; relational database management system, ovvero basati sul sistema relazionale. La piattaforma SAP-HANA fornisce librerie avanzate per predittività, pianificazione, elaborazione testi e business analytics, in modo da garantire lo sviluppo di ulteriori applicazioni tra le diverse fonti dei Big Data. In definitiva, SAP-HANA fornisce un’interfaccia SQL classica, con l’uso di linguaggio specifico, consentendo alle aziende di trasformare il loro business sfruttando al meglio le informazioni in loro possesso in real-time, in quanto tale piattaforma consente di prendere decisioni intelligenti e rapide, accelerare i principali processi aziendali con funzionalità di analisi e reporting, creare nuovi modelli e processi di business facendo leva su soluzioni innovative,nonché ridurre il “Total Cost Ownership” con meno hardware, manutenzione e 22 controllo. TERADATA Corporation è stata fondata nel 1979, ed è leader nelle piattaforme per l’analisi dei dati, mediante le sue soluzioni di integrated data warehousing, big data analytics e business applications. La necessità di gestire dati strutturati e non, ha spinto le principali aziende ad integrare Hadoop, di fatti Teradata, con l’acquisizione di Aster Data Systems, ha introdotto degli strumenti di gestione e di analisi dei dati non strutturati. In particolare, Teradata offre due tipi di applicazioni: uno contiene l’ecosistema Hadoop, ovvero l’integrazione con la parte relazionale avviene attraverso SQL-H che consente di interrogare i dati presenti in quest’ultimo ,ed uno in RDBMS, che consente di gestire carichi di lavoro di diverse entità. Quanto al software, l’attuale versione del database è il Teradata Database 14, che presenta alcune caratteristiche peculiari; infatti, la crescente pervasività dei big data richiede ai database un’intelligenza sufficiente per riconoscere e processare automaticamente i dati caldi o freddi, pertanto il Teradata Database 14, è l’unica soluzione sul mercato che comprime e decomprime in modo automatico i dati più freddi o meno utilizzati, riducendo lo spazio di memorizzazione sui dischi, ed offrendo prestazioni ottimali. Il database Teradata è stato creato per sfruttare a massimo il parallelismo,in quanto processa un determinato work-load spezzando in piccoli parti distribuiti su processori virtuali chiamati Acces Module Processor(AMP). Più AMP risiedono su un nodo ed ognuno di essi è legato ad una parte del database. Quindi, Teradata permette di accedere ad una nuova prospettiva di business dove tutte le informazioni di cui si necessita si trovano in un solo posto, consentendo alle aziende attraverso tecnologie, esperienza, processo e passione per l’innovazione, di prendere decisioni migliori e veloci rispetto alle concorrenti. 23 Conclusioni In questo elaborato di tesi, abbiamo visto come i Big Data assumono un’importanza vitale nella vita di tutti i giorni, e soprattutto come il corretto utilizzo di ingenti quantità di dati diversi tra loto per volume, varietà ect, consente non solo ai cittadini ma anche alle imprese di ottenere vantaggi competitivi. I dati provenienti dal Web assumono una particolare rilevanza nel modo dei Big Data, non solo per le caratteristiche che posseggono ma perché hanno in sé un potenziale informativo particolarmente levato. In effetti la gestione di ingenti quantitativi di dati, talvolta molto diversi tra loro, ha da sempre costituito una grossa problematica non superabile con gli strumenti tradizionali, ma attraverso nuove frontiere, quale Hadoop: sistema open source in grado di archiviare, spostare e combinare una mole di dati in maniera rapida e agile. Il rivenditore commerciale più diffuso al mondo di Hadoop è senza dubbio Cloudera, che al di là delle caratteristiche proprie del sistema stesso, possiede componenti aggiuntive in grado di fornire un supporto ultroneo. La sfida lanciata da Hadoop, ovvero creare uno strumento in grado di gestire “Big Data” è stata negli anni recepita anche da altre grandi società, che con le loro sedi in tutto il mondo, hanno offerto agli utenti una vasta gamma di servizi, utenti che sono stati individuati non solo nei cittadini comuni, ma anche nelle grandi imprese, che quotidianamente si trovano ad affrontare il problema di come e dove gestire la mole di dati che le pervade. Indubbiamente l’esperienza, la tecnologia, la condivisione e un pizzico di passione per l’innovazione, consentirà di intraprendere le strade giuste. 24 Bibliografia [1] Dr. AMR Awadallah, Introducing Apache Hadoop, The Modern Data Opening System; [2] Rivista Diritto dell’informazione e dell’informatica, 2012, pp. 135-144. [3] Mike Olson, Hadoop scalable flexible data storage analysis; [4] Perego A, Pasini P, Big Data Live: casi di eccellenza, SDA Bocconi 2013; [5] Perego A, Pasini P, Nuove fonti di conoscenza Aziendale e nuovi modelli di management, SDA Bocconi, Dicembre 2012; [6] http://emcgeek.blogspot.it/2013/11/hadoop-di-cosa-si-tratta.html; [7] http://www.xenialab.it/meo/web/white/internet/cloudera.htm; [8] http://www.wired.it; [9] http://www.ilsole24ore.com; [10] http://www.lescienze.it; [11] http://www.cloudera.com; [12] http://www.saphana.com; [13] http://www.teradata.com; [14] http:// www.hadoop.com. 25 Ringraziamenti < < I sogni veri si costruiscono con gli ostacoli. Altrimenti non si trasformano in progetti, ma restano sogni. La differenza fra un sogno e un progetto è proprio questa: le bastonate. > > A. D’Avenia E bene si! Eccomi finalmente giunta al mio primo e vero traguardo. Sudato, sperato e sognato da sempre. Tra alti e bassi alla fine mi sono decisa a scrivere queste “poche righe” di ringraziamenti. Le uniche vere persone che devo ringraziare sono la mia Mamma e il mio Papà, unico punto di forza, uniche mie certezze, uniche persone che mi amino per quella che sono, che mi proteggono, che mi guidano e che mi hanno dato la possibilità, la grinta e l’energia di combattere e vincere questa piccola sfida. Tanti sono stati i momenti che sono caduta e altrettanti che mi sono rialzata solo ed esclusivamente grazie a loro. Un altro grazie speciale va a mia sorella Pina, cuore, anima e mio modello di vita, sempre presente, la mia migliore e unica amica , che mi ha sempre dato buoni consigli e mi ha sempre spronato a fare di più, a non abbattermi per le varie difficoltà universitarie e della vita che ho incontrato. Ma soprattutto grazie per avermi regalato due gioie infinite, Stefano e Sofia, unici amori della mia vita. E ovviamente grazie anche a mio cognato, che nonostante a volte siamo come cani e gatti, è il fratello che non ho mai avuto…. Grazie al mio relatore di tesi , Ing. Vincenzo Moscato, per la sua professionalità e disponibilità che mi ha dimostrato nella stesura di questo elaborato. Un Grazie va anche all’Ing. Roberto Natella , che il suo prezioso aiuto sono riuscita a superare il mio ultimo esame. Credo che persone gentili e disponibili come lui ce ne siano davvero poche. Grazie alle mie zie, seconde mamme, pronte a supportarmi e sopportarmi in ogni circostanza. Grazie ai miei nonni, che da lassù spero che siano fieri di me e che continueranno a proteggermi e guidarmi così come fatto fin’ora. Grazie anche a tutte quelle persone le cui strade hanno attraversato anche solo per un attimo il cammino della mia vita, ma che sono riuscite ugualmente ad ottenere un posto nel mio cuore. Un grazie va soprattutto a tutte quelle persone che nel corso della vita sono “sparite”, perché anche questi modi di fare ti fanno crescere e capire cosa non vuoi diventare. Infine un ultimo ringraziamento va a me stessa, perché se sono arrivata a questo punto infondo è anche merito mio. ………………..Carmen 26