Scuola Politecnica e delle Scienze di Base
Corso di Laurea in Ingegneria Informatica
Elaborato finale in Basi di Dati
Piattaforme di Gestione per Big Data
Anno Accademico 2013/2014
Candidato:
Carmen Clemente
matr. N46000655
Ai miei genitori,
A mia sorella,
A Stefano e Sofia,
A me stessa.
Indice
Indice……………………………………………………………………………………………….III
Introduzione………………………………………………………………………………………….4
Capitolo 1 : Big Data ………………………………………………………………………………...5
1.1 Le quattro V dei Big Data……………………………………………………………………...6
1.2 L’origine dei Big Data…………………………………………………………………………6
1.3 Il potere dei Big Data…………………………………………………………………………..7
1.4 Critiche e rischi dei Big Data ………………………………………………………………….8
Capitolo 2 : Hadoop e Cloudera……………………………………………………………………...9
2.1 La nascita di Hadoop…………………………………………………………………………11
2.2 Le componenti di Hadoop……………………………………………………………………12
2.3 Le proprietà “chiavi” di Hadoop……………………..………………………………………14
2.4 La distribuzione Cloudera ..….….….….….….….…..………………………………………15
2.5 Cloudera e Intel : l’alleanza perfetta…………………..………...……………………………16
Capitolo 3 : Big Data Analytics e le migliori piattaforme….……………………………………….18
3.1 Le piattaforme di gestione dei Big Data...……………………………………………………19
3.2 SAP-HANA e TERADATA…....….….….….….….….….….….….….……………………21
Conclusioni………………………………………………………………………………………….25
Bibliografia………………………………………………………………………………………….30
3
Introduzione
Il presente elaborato intitolato “Piattaforme di Gestione per Big Data” ha ad oggetto
l’analisi delle problematiche relative ai cd “Big Data”, oltre che all’individuazione delle
piattaforme di gestione dati, da cui trae origine il titolo del presente lavoro.
Nel primo capitolo verrà infatti illustrata l’origine dei Big Data e utilizzo di quest’ultimi
sia da parte dell’aziende sia nel settore privato. Gli stessi sono nati con l’obiettivo di
fornire da un lato: uno strumento alle imprese per soddisfare le proprie esigenze
economiche e di mercato e dall’altro ai privati cittadini e alle PA, uno strumento che
consente mediate l’organizzazione, l’analisi e la condivisione di una grande quantità di
dati, il soddisfacimento di uno scopo comune. Sono state inoltre evidenziate le
caratteristiche dei Big Data, note come le “Quattro V", nonché le eventuali criticità e
problematiche ad essi connessi. La gestione di una mole ingente di dati, indubbiamente
mette a rischio la privacy di ogni utente, tanto da spingere nell’ottobre del 2013 al varo
delle linee guida volte alla salvaguardia del diritto alla riservatezza e dei dati personali.
Il secondo capitolo sarà dedicato alla nascita del sistema Hadoop e Cloudera. Infatti la
necessità di smaltire un corpus cospicuo di dati, ha spinto gli ingegneri di Google a creare
un’infrastruttura di elaborazione per la risoluzione di tale problematica, non superabile
con gli strumenti tradizionali: ovvero GFS e MapReduce. Stessa difficoltà è stata
riscontrata da D. Cutting nel 2004 tanto da indurlo a sostituire la raccolta e l’elaborazione
dei dati, basando la sua implementazione su MapReduce, da qui la nascita di Hadoop.
4
Sono state inoltre descritte le sue componenti ovvero HDFS e MapReduce. Gli ultimi
paragrafi del capitolo secondo sono dedicati da una parte: alla nascita d Cloudera nel
2008, la più grande società che ha proposto una distribuzione Hadoop open-source e che
ha permesso alle imprese, grazie ad alcune sue peculiarità, una maggiore competitività di
mercato e dall’altra alla storica collaborazione tra Cloudera e Intel Corporation,
divenendo quest’ultima il più grande azionista e membro del CDA di Cloudera. I due
colossi mondiali offrendo il loro impegno a vantaggio della comunità open source, sono
giunti alla conclusione che lavorando in modo congiunto ed utilizzando in modo corretto
un ingente quantità di dati si potrà consentire alle aziende di individuare le soluzioni più
consone ai loro problemi, ottenendo un vantaggio competitivo rispetto alle loro
concorrenti.
Il terzo ed ultimo capitolo, rappresenta il cuore dell’elaborato, poiché l’attenzione è stata
incentrata sul concetto di Big Data Analytics, e sulla nascita delle diverse piattaforme di
gestione. In effetti dopo Hadoop e il suo HDFS sono state individuate altre piattaforme
che hanno contribuito in maniera efficiente alla gestione dei “grandi dati”. In particolar
modo sono stati tracciati i tratti salienti di due grandi piattaforme ovvero SAP-HANA e
TERADATA, le quali hanno consentito alle società di offrire una nuova prospettiva di
business, attraverso un’analisi e una gestione, in real-time dei dati in loro possesso.
5
Capitolo 1: Big Data
Nella seconda metà del Novecento, i computer hanno consentito di analizzare una serie
di informazioni, ma solo con l’avvento di internet è stato possibile una loro condivisione
da parte di utenti collocati in qualsiasi parte del mondo. Ma l’aspetto più innovativo, può
essere individuato nella capacità da parte dei motori di ricerca, di raccogliere milioni di
dati in database1 consultabili da chiunque. L’evolversi della tecnologia, infatti, oggi, ci
permette di catturare realtà invisibili, consentendoci di analizzare e mettere a confronto
enormi quantità di dati, non eterogenei, dinamici....i cd ”Big Data”
Ma cosa sono realmente i Big Data? E soprattutto perché negli ultimi anni la maggior
1
Database: I database o banche dati sono collezioni (archivi) di dati, tra loro correlati, utilizzati per rappresentare una
porzione del mondo reale. Sono strutturati in modo tale da consentire la gestione dei dati stessi in termini di
inserimento, aggiornamento, ricerca e cancellazione delle informazioni in modo da costituire una base di lavoro per
utenti diversi con programmi diversi.
6
parte delle aziende ne fanno sempre più ricorso?
Il termine Big Data si usa quando le informazioni che si vogliono gestire sono tante, o
quando la dimensione dei dati stessa costituisce parte del problema. Al di là della
problematica dimensionale, i Big Data costituiscono l’occasione per trovare spunti a
nuovi tipi di dati e contenuti, garantendo alle aziende, e non solo, di rispondere in modo
più celere ed efficiente a tutte quelle esigenze che prima non potevano trovare un
riscontro.
Essi, infatti, possono essere definiti come il nuovo “microscopio che rende misurabile la
società”, poiché spingono verso una nuova scienza di dati in grado di diffondere opinioni,
distribuire risorse economiche od energetiche, prevedere crisi economiche e soddisfare
bisogni di mobilità.
1.1 Le quattro V dei Big Data
I Big Data hanno delle caratteristiche peculiari note anche come “le Quattro V”:
-Volume: fa riferimento alla capacità di acquisire, memorizzare ed accedere a grandi
volumi di dati, non gestibili con i database tradizionali;
-Velocità: è riferita al fatto che l’analisi dei dati deve essere effettuata a ritmo sostenuto o
addirittura in tempo reale. Ottenere un vantaggio significa identificare una tendenza o
un’opportunità qualche secondo prima del concorrente.
-Varietà: rappresenta un cambiamento nel modo in cui i dati vengono analizzati e
7
memorizzati, ovvero di diversa natura e non strutturati, come per esempio: audio, video,email, social media ecc..;
-Veridicità: tutti i dati raccolti rappresentano un valore per le aziende, da essi è possibile
trarne un’opportunità con un grande impatto sulle attività. La veridicità dei dati
rappresenta un requisito fondamentale per alimentare nuove intuizioni ed idee.
1.2 L’origine dei Big Data
Le fonti da cui traggono origine i Big Data sono molteplici, ma tutte possono essere
ricondotte a tre grandi categorie:
informazioni persona-macchina: si tratta della fonte da cui traggono origine la maggior
parte dei dati raccolti, anche molto tempo prima della formulazione del concetto di Big
Data ; sono dati di tipo transazionali, che se prima venivano conservati esclusivamente
per finalità contabili,ora permettono di individuare il “cliente-tipo”,adeguando l’offerta
alla sua esigenza;
informazioni da persona a persona:si tratta di informazioni che nascono dalle intenzioni
umane e che sono scambiate attraverso reti sociali, ad esempio i social network che
possono essere considerati come piazze virtuali;
informazioni macchina a macchina:si tratta di informazioni raccolte da sensori e
trasmessi per diversi motivi ad altri dispositivi elettronici, ad esempio un sensore
collocato all’interno di una calzatura sportiva che invia al nostro smartphone una serie di
informazioni, che analizzate ed elaborate, consentono di individuare un allenamento
adeguato alle caratteristiche personali dell'atleta.
1.3 Il potere dei Big Data
I dati che provengono dal web ricoprono una grande importanza nel mondo dei Big Data,
non solo perché posseggono le quattro caratteristiche peculiari ma anche perché
includono in sé un potenziale informativo particolarmente elevato.
8
Ovvero si fa riferimento ad alcune tipologie di dato, quali pagine HTML, contenuti
Facebook, tweet ecc. In effetti, l’interesse per l’analisi dei dati della clientela ha assunto
particolare importanza in ambito aziendale, poichè attraverso la gestione e l’analisi delle
informazioni provenienti dall’esterno: social network, smartphone ecc.., le grandi società
hanno la possibilità di migliorare alcuni aspetti importanti del proprio di agire.
Affinché le informazioni assumono “valore” occorrono chiavi interpretative in grado di
selezionare i dati, organizzarli ed inserirli in contesti tesi a superare le complessità. In
effetti, tali operazioni permettono alle aziende di:
-analizzare i rischi e le opportunità che il mercato offre, grazie all’individuazione di frode
e di minacce;
-soddisfare le esigenze del cliente, attraverso un’analisi in tempo reale della domanda e
dell’offerta di beni e servizi. In effetti ricerche di mercato mirate, osservazioni del
comportamento spontaneo dei consumatori rappresentano uno strumento di analisi
potentissimo per le aziende. Un esempio emblematico è dato dall’acquisto da parte della
società Wall-Mart, gigante mondiale della distribuzione, della Kosmix, una società di
monitoraggio dei social media,che è stata trasformata nella WallMartLabs. Attraverso
questa acquisizione la Wall-Mart analizza i Big Data del consumo online, cercando di
anticipare le tendenze e soddisfare le esigenze dei consumatori sia nei punti vendita sia
online.
L’utilizzo dei Big Data,infine, negli ultimi anni sta occupando un ruolo primario non solo
nel settore “privato-aziendale”, ma anche in quello pubblico qualora la parola “cliente”
venga sostituita con quella di cittadino. Infatti, l’analisi e l’organizzazione di una grande
quantità di dati garantisce dei benefici per la pubblica amministrazione e di riflesso anche
per la cittadinanza.
Tra i possibili effetti positivi potrebbero rientrare: la razionalizzazione della spesa
pubblica, il miglioramento dei servizi, riduzione degli sprechi, ottimizzazione delle
risorse.
Tali risultati sono stati messi a punto da un team di ricercatori della Columbia University
nel 2010, quando un violento terremoto si abbatté sulla città di Haiti, determinando la
9
fuga di milioni di persone.
Gli studiosi riuscirono a tracciare tutti gli spostamenti della popolazione grazie alle sim
card dei loro cellulari. In seguito, allo scoppiare del colera, utilizzarono la stessa tecnica
per identificare il luogo dove servivano appropriati medicinali, evitando così la diffusione
dell’epidemia.
1.4 Critiche e rischi dei Big Data
I Big Data non posseggono, però, solo caratteristiche positive, ma presentano alcune
criticità che potrebbero vanificare i vantaggi che se ne traggono.
Esse riguardano in primo luogo la qualità, ovvero l’insieme di caratteristiche che ciascun
Big Data deve possedere:
-completezza:la presenza di tutti i dati necessari per descrivere un’entità, in assenza dei
quali potrebbe risultare incompleta;
-consistenza:assenza di contraddizione nei dati;
-accuratezza:riguarda la conformità ai valori reali;
-assenza di duplicazioni:campi, record e tabelle devono presentarsi all’interno dello
stesso sistema oppure in sistemi diversi una sola volta, evitando dunque duplicazioni.
In secondo luogo, alcune perplessità possono essere sollevate in relazione alla privacy.
La raccolta e l’analisi dei dati in enorme banche dati, da parte di più soggetti, può mettere
in serio pericolo la privacy, intesa come “il diritto alla tutela dei dati personali e alla
riservatezza”, che nell’epoca di internet è sempre più difficile far rispettare.
Purtroppo, navigando in rete, talvolta, si corre il rischio di non comprendere il significato
delle nostre condivisioni, accettando con leggerezza condizioni poco chiare che
permettono a terzi di accedere alle nostre informazioni. A tal fine il 9 settembre 2013
sono state ufficialmente pubblicate le Linee guida Privacy OCSE.
Nel preambolo si evidenziano i cambiamenti più significativi del nostro attuale contesto
10
sociale e tecnologico, tra questi sicuramente assume chiaro rilievo il fenomeno dei Big
Data.
Le operazioni su grandi moli di dati, come già evidenziato, senza che siano chiari a priori
i loro molteplici utilizzi, comportano una compressione del diritto alla protezione dei dati
personali così come oggi concepito. In effetti l’assenza da parte dell’interessato di una
conoscenza circa le finalità del trattamento delle informazioni raccolte, talvolta
compromette sin dall’origine la sua liceità,
rendendo impossibile sia un’adeguata
informativa, sia uno specifico, consapevole e valido utilizzo dei dati da parte dei soggetti
che ne sono interessati.
11
Capitolo 2: Hadoop e Cloudera
Con la crescente mole di dati che devono essere catturati , archiviati e utilizzati ai fini di
business, si ha la problematica di come e dove memorizzarli. Una sfida molto importante
è dettata anche dalla natura di questi, che cambia di volta in volta, arricchendosi sempre
di più di dati di varia provenienza. Il problema che si riscontra è dovuto principalmente
alla difficoltà di gestirli con database tradizionali, sia in termini di costi, sia dalla
rapidità con cui crescono di volume e velocità.
L’insieme di questi elementi ha portato allo sviluppo di nuovi modelli di elaborazione,
che ha permesso alle aziende di diventare più competitive, sia attraverso una riduzione dei
costi, sia perché i nuovi sistemi, sono in grado di archiviare, spostare e combinare i dati
con maggiore velocità e in maniera agile. Uno dei sistemi più diffusi e conosciuti nel
mondo è Hadoop.
2.1
La nascita di Hadoop
All’inizio del 2000 il motore di ricerca Google iniziava ad affrontare una sfida molto
seria, ovvero organizzare a livello mondiale tutte le informazioni.
12
Con il passare del tempo il numero e le dimensioni dei siti web è cresciuto in maniera
esponenziale ed il servizio Google è diventato ancora più popolare, costringendo la
società a smaltire sempre più rapidamente un corpus cospicuo di dati.
In effetti, nessun software a disposizione era in grado di poter gestire tale ingente mole di
dati, tanto che gli ingegneri di Google progettarono e costruirono un’infrastruttura di
elaborazione per la risoluzione della problematica, ovvero Google File System - GFS e
MapReduce.
Simile problematica fu riscontrata nel 2004 anche da Doug Cutting che, sviluppando la
prima versione di Nutch2, aveva incontrato problemi di scalabilità, ovvero il crawler3 ed
il generatore di indici funzionavano bene solo per piccole quantità di dati, ma non
riusciva a gestire quelli relativi all’intera struttura del web. Fu così che Cutting decise di
sostituire la raccolta e l’elaborazione dei dati, basando la sua implementazione su
MapReduce.
Tale nuovo sistema fu chiamato Hadoop, da un elefante giocattolo appartenente a suo
figlio, e rappresenta il framework open souce più diffuso nel mondo per la gestione dei
dati strutturati, semi-strutturati e non strutturati.
2.2
Le componenti di Hadoop
Il sistema Hadoop presenta due componenti principali4:
Sistema di gestione distribuita dei dati – Hadoop Distributed File System (HDFS),
Sistema di elaborazione parallela dei dati – MapReduce.
HDFS è stato creato con l’obiettivo principale di memorizzare enormi quantità di dati,
2
Nutch: si tratta di un motore di ricerca open source basato su Java creato da Doug Cutting.
I crawler sono componenti dei motori di ricerca che si occupano di navigare il web in modo sistematico recuperando i
contenuti delle pagine e fornendoli al motore di ricerca per l’indicizzazione.
4
Accanto a tali componenti fondamentali se ne collocano altre che aggiungono ulteriori funzionalità alla piattaforma
Hadoop come Hbase:un database utilizzato per la gestione strutturata dei dati sottoforma di tabelle di grandi
dimensioni.
3
13
distribuendone il contenuto su una rete di server, realizzati con hardware standard di
mercato. In particolare, il file system distribuito chiamato HDFS permette di creare,
cancellare, spostare file ma non modificarli. Questa caratteristica consente di ottenere
ottime prestazioni, senza avere problemi di implementazione dei consueti file system
distribuiti. Infatti, nell’HDFS i file vengono scomposti in blocchi e ogni blocco viene
distribuito in uno o più nodi del cluster. Ciò garantisce sia la tolleranza degli errori (la
perdita di un singolo disco o server non determina la perdita del file), sia delle prestazioni
(qualsiasi dato bloccato può essere letto dai diversi server).
Il cuore del sistema Hadoop è rappresentato però da MapReduce ovvero un framework
per la creazione di applicazioni, in grado di elaborare una grande quantità di dati in
parallelo basate sul concetto di functional programming.
Il modello di calcolo MapReduce deve il suo nome a due celebri funzioni della
programmazione funzionale: Map e Reduce:
Map: il nodo principale prende i dati di ingresso, li suddivide in piccoli sottoproblemi e li
distribuisce agli altri nodi. Ognuno di essi produce il risultato intermedio della funzione
Map sottoforma di coppia, memorizzate su un file distribuito la cui posizione è notificata
al nodo principale alla fine della sua fase.
Reduce: il nodo principale collezione le risposte, combina le coppie con la stessa chiave
e li ordina, terminando l’esecuzione.
14
MapReduce lavora secondo il principio divide et impera ovvero prevede che un problema
complesso, che utilizza una grande quantità di dati, venga suddiviso, insieme ai dati
stessi, in piccole parti processate in modo autonomo, e una volta che ciascuna parte del
problema è stata calcolata, i diversi risultati parziali sono “ridotti” ad un unico risultato
finale. È infatti lo stesso MapReduce che si occupa dei vari task di calcolo, del loro
monitoraggio, della loro esecuzione, nell’ipotesi in cui si verifichino problemi.
2.3
Le proprietà “chiavi” di Hadoop
La creazione di Hadoop e MapReduce ha consentito alle grandi proprietarie del Web di
risolvere un problema di dati, che nessun sistema commerciale o di ricerca era in grado di
superare, in particolare Hadoop offre tre proprietà chiavi :
E’ una piattaforma di archiviazione per tutti i tipi di dati, in quanto offre un nuovo
repository dove tutti i dati strutturati e complessi, si possono facilmente combinare;
Consente un più ampio stoccaggio di dati, ad un costo inferiore rispetto ai sistemi ad oggi
disponibili;
E congiuntamente a MapReduce, sfrutta la distributed storage architecture in HDFS per
fornire servizi scalabili ed affidabili di elaborazione parallela per algoritmi. Gli utenti in
effetti, non si limitano ad utilizzare un piccolo insieme di algoritmi consegnato da un
RDBMS, ma usano i dati attraverso processori collegati direttamente ai dischi in cui
risiedono.
15
2.4
La distribuzione Cloudera
Il progetto di Apache Hadoop ha attirato a se una particolare attenzione, divenendo il
punto di riferimento del fenomeno chiamato Big Data. Nel versante commerciale, il più
importante rivenditore di Hadoop è rappresentato da Cloudera.
Nata nel 2008, è stata la prima grande società a proporre una distribuzione Hadoop
(CDH)5 completa, testata e popolare al mondo essendo open-source, ed acquisendo
clienti del calibro di eBay, Expedia, Nokia e Samsung.
CDH possiede al di là delle caratteristiche fondamentali di Hadoop, ossia lo storagescalabile e calcolo distribuito, anche un insieme di componenti aggiuntive: ad esempio
un’interfaccia utente.
Inoltre, CDH permette alle imprese una maggior competitività di mercato, grazie ad
alcune caratteristiche peculiari quali la sicurezza e l’integrazione con una vasta gamma di
soluzioni Hardware e Software. Difatti, CDH possiede alcuni elementi propri:
Flessibile: consente di memorizzare qualsiasi tipo di dato ed eseguire una serie di
operazioni di calcolo quali: elaborazioni di bacht, SQL interattivo, ect;
Integrato: si combina in maniera rapida e celere con la piattaforma Hadoop;
Sicuro: poiché permette di processare e controllare i dati sensibili;
Scalabile ed estensibile: ovvero attivare una vasta gamma di applicazioni;
Alta disponibilità: da la possibilità di eseguire carichi di lavoro di particolare criticità con
la massima sicurezza:
5
CDH è l’acronimo di Cloudera’s Distribution Including Apache Hadoop
16
Aperto: in quanto è possibile beneficiare di una rapida innovazione senza costi elevanti.
essendo al 100% Apache-licenza open source.
Le distribuzioni CDH contengono connettori per database di terze parti (Oracle, Teradata
ect) oltre un tool di gestione del sistema (Cloudera Manager6 ). La distribuzione Cloudera
è disponibile sia nella versione gratuita che enterprise (ovvero in abbonamento). Nella
versione gratuita non sono incluse alcune funzionalità ad esempio: backup, mentre quella
enterprise, è più completa poiché oltre ad offrire Cloudera Manager, dispone anche di
una funzionalità di audit e di gestione degli accessi ed un supporto tecnico su tutta la
piattaforma Hadoop.
2.5
Cloudera e Intel : l’alleanza perfetta
Intel Corporation7 e Cloudera agli inizi del 2014 hanno annunciato una collaborazione
strategica in ambito tecnologico e commerciale, oltre ad un importante investimento
azionario di Intel in Cloudera8, divenendo in questo modo Intel il più grande azionista di
Cloudera e membro del consiglio di amministrazione.
6
Cloudera Manager è la piattaforma di gestione leader di mercato per Cloudera’s Distribution Including Apache
Hadoop.Essa stabilisce lo standard per la distribuzione aziendale, offrendo visibilità granulare e controllo su ogni parte
del CDH; abilita gli operatori a migliorare le prestazioni del cluster, la qualità del servizio, la conformità e soprattutto a
ridurre i costi amministrativi.
7
Intel Corporation ,fondata nel 1968, è la più grande azienda multinazionale produttrice di dispositivi a
semiconduttore (microprocessori, dispositivi di memoria, circuiti di supporto alle telecomunicazioni e alle applicazioni
informatiche) con sede a Santa Clara, California.
8
Intel investirà in Cloudera circa 740 milioni di euro, acquisendo un pacchetto azionario del 18%.
17
Si tratta dell’investimento più importante finora realizzato da Intel nella tecnologia per
data center che permetterà al software Cloudera di essere abbinato all’architettura
all’avanguardia per data center basata sulla tecnologia dei processori Intel.
L’obiettivo principale è quello di individuare soluzioni celeri per i Big Data, consentendo
alle imprese, di qualsiasi dimensione, di ottenere un vantaggio competitivo dai dati
implementando soluzioni Apache Hadoop open-source.
Cloudera intende sviluppare e ottimizzare Cloudera distribution, che include CDH,
considerando Intel come piattaforma preferenziale, oltre all’individuazione di una vasta
gamma di tecnologie di nuova generazione, ad esempio: Intel Fabric.
A sua volta, Intel si impegna a commercializzare e promuovere CDH e Cloudera
Enterprice presso i propri clienti, considerando Hadoop come piattaforma di riferimento.
Le due aziende confermano, in ogni caso, il loro impegno a vantaggio della comunità
open-source, che è stato il fattore trainante di Hadoop. L’obiettivo centrale sarà quello di
adottare strategie congiunte di mercato che consentiranno un rapido aumento dei carichi
di lavoro. Infatti, la conclusione a cui sono giunte questi due colossi, è che utilizzando in
modo corretto i dati a disposizione, un’azienda potrà individuare degli spunti che le
consentano di ottenere un vantaggio competitivo , farle risparmiare denaro e ottimizzare il
lavoro. La combinazione di tutti questi dati (e qui si ritorna ai big data), potrà permettere
ad esempio: ad un negoziante di migliorare le proprie offerte in determinate fasce orarie,
offrendo sconti e promozioni. Quindi tutto è collegato, poiché un buon risultato può
essere raggiunto attraverso l’utilizzo di sistema all’altezza della problematica, ed è per
questo che l’analisi dei Big Data, è divenuto uno dei punti cardini nell’azione promossa
da Intel, che l’ha portato ad investire in Cloudera.
18
Capitolo 3: Big Data Analytics e le migliori piattaforme
Big Data Analytics è un concetto di cui si parla da molti anni e che nasce dall’unione di
due parole, da un lato i “big data” con tutte le problematiche connesse (come abbiamo
già avuto modo di vedere), e dall’altro la“ Business Analytics”. Del modello dimensionale
dei dati e delle nuove applicazioni si parla da più di vent’anni, infatti la Business
Intelligence e la Performance Management sono tra le aree IT che negli ultimi anni
hanno ricevuto particolare attenzione ed investimenti, il Data Minig e le analisi predittive
sono state l’ultima frontiera che ha portato all’affermazione della Business Analytics.
Ad oggi, è molto difficile trovare un’azienda che nella sua vita non abbia almeno una
volta affrontato uno dei termini sopra indicati, ciò che è davvero innovativo è il concetto
di Big Data Analytics. Un’unione di non semplice accostamento poiché Big Data
Analytics implica non solo un’analisi su un grosso volume di dati, ma anche su una
varietà di dati che necessitano di essere trasformati più velocemente possibile.
Gli aspetti più critici in assoluto nell’area dei Big Data Analytics non sono le tecnologie
che hanno comunque un ruolo fondamentale, ma la loro capacità di utilizzarle, soprattutto
nelle attività di analisi predittive, ove occorrono delle competenze multidisciplinari che
spaziano dall’informatica, matematica e marketing.
In effetti, la scelta non si può limitare alla sola piattaforma di gestione, ma all’intero ecosistema fatto di varie figure professionali che, dotati di particolari competenze, danno il
loro contributo alle aziende.
In particolare, occorre avvalersi di un supporto tecnico specialistico di elevate qualità e a
costi ragionevoli per non compromettere il risultato economico dei progetti.
19
È dunque inutile raccogliere enormi quantità di dati ed effettuarvi analisi sofisticate se la
loro qualità non è eccellente, ciò vuol dire che prima di avviare progetti di analisi dei big
data occorre rivedere le basi di dati, i processi di aggiornamento, responsabilizzare gli
utenti ed assicurarsi che i sistemi di alimentazione siano affidabili ed efficienti.
3.1 Le piattaforme di gestione dei Big Data
Dopo Hadoop ed il suo file system HDFS, sono stati individuate altre piattaforme di
gestione dati tra le quali è possibile annoverare:
1. Il Database di 1010data : società di New York attiva dal 2000 nel settore dei
servizi Cloud (al momento non presente in Italia), istallato in vari settori
merceologici: P.A., Banche, Grande distribuzione, sanità ecc.
2. Actian: nata nel 2011 dalla Ingres Corportation, è la prima piattaforma end-toend di analisi, costruita per funzionare al 100% in modo nativo in Hadoop. Tale
piattaforma fornisce agli utenti altre prestazioni, nonché un accesso interattivo
SQL.
3. Amazon: oltre ad aver allargato la sua gamma di prodotti ad ogni genere di
settore (per chi pensa che sia solo un fornitore di libri è giunta l’ora di
aggiornarsi!) con i suoi servizi Cloud-Amazon ha conquistato una posizione di
20
primo piano nell’area delle piattaforma per big data e big data analytics. Infatti,
offre servizi chiamati Redshift basati sul motore di ParAccel, mentre nell’area
Hadoop dispone di una propria soluzione integrata con Cloudera e MapR.
4. Pivotal: nata nel 2000 all’interno del gruppo CDM9, ha al suo attivo più di cento
progetti realizzati nel settore della media impresa, acquisendo sin dalla nascita
competenze sulle piattaforme Pivotal CRM, ENOVIA e COMBINUM ed
unificandole con l’obiettivo di soddisfare le esigenze proposte dalle aziende
italiane. In particolare Pivotal Italia ha sviluppato un know-how volto a guidare le
aziende italiane sia all’ottimizzazione dei processi di marketing, sia nell’ambito
dei processi legati al ciclo di vita del prodotto.
5. InfiniDB: è il nuovo nome assunto dall’azienda texana operante nel settore dei
database verticali, ovvero Calpont,che offre una serie di soluzioni open-source
scaricabili direttamente dal sito di “infinidb10”. In particolare, Calpont opera nel
mondo dei big data analytic mediante dei propri tool basati su Hadoop e MySQL.
6. Hortonworks:
propone
la
distribuzione
Hortonworks
Data
Platform
completamente open-source che include componenti come Hadoop, Pig, Hive,
Ambari… La gestione e il monitoraggio del cluster sono effettuati con ApacheAmbari. Hortonworks presenta alcune caratteristiche come un’alta disponibilità
del sistema sia con Hadoop 1.0 sia con Hadoop 2.0., migliorando le performance
delle query eseguite con HiveQL.
7. MapR: è un punto di riferimento per le piattaforme di gestione Big data ed analisi
predittive, ma come altre non è ancora attiva in Italia, sebbene abbia delle filiali in
Europa. MapR si differenzia sia da Cloudera che da Hortonworks in quanto per le
sue distribuzioni non utilizza il file system distribuito, ma un’apposita
implementazione chiamata MapR-FS. Anche per MapR esiste una distribuzione
gratuita, ovvero M3 ed altre due commerciali come M5 ed M7; quest’ultima si
9
CDM: è una delle principali realtà nel mercato europeo dell’Information Tecnology , che fornisce da oltre 25 anni
soluzioni integrate e servizi di consulenza, implementazioni e supporto dei Sistemi Informativi alle Aziende Italiane e
internazionali.
10
Vedi www.infinitidb.org
21
differenzia dalle altre per la gestione automatizzata di HBase.
3.2 SAP-HANA e TERADATA
SAP : fondata nel 1972 è una multinazionale tedesca che si occupa della produzione di
software, HANA è l’acronimo di “High-Performance Analytic Appliance” ed è uno
strumento creato per svolgere analisi in tempo reale e processi transazionali mediante
tecnologie sviluppate o acquisite.
SAP-HANA offre alle aziende un nuovo modo per sfruttare il valore dei dati strutturati e
non. In particolare Hana consente la ridondanza dei dati, fenomeno che velocizza il
caricamento degli stessi nel database. Infatti, gli utenti hanno una visione dei dati in
tempo reale consentendo di pianificare gli strumenti attraverso, i quali si cerca di ottenere
un determinato risultato di mercato.
Hana è un DBMS basato su un hardware innovativo, classificato come: in-memory,
ovvero i dati sono caricati in memoria centrale anziché in memoria di massa, in modo da
rendere più veloci le operazioni, anche se con l’utilizzo di una mole di dati inferiori;
column-oriented, cioè i dati sono registrati in modo tabellare facilitando l’aggregazione
di dati simili tra loro; relational database management system, ovvero basati sul sistema
relazionale.
La piattaforma SAP-HANA fornisce librerie avanzate per predittività, pianificazione,
elaborazione testi e business analytics, in modo da garantire lo sviluppo di ulteriori
applicazioni tra le diverse fonti dei Big Data.
In definitiva, SAP-HANA fornisce un’interfaccia SQL classica, con l’uso di linguaggio
specifico, consentendo alle aziende di trasformare il loro business sfruttando al meglio le
informazioni in loro possesso in real-time, in quanto tale piattaforma consente di prendere
decisioni intelligenti e rapide, accelerare i principali processi aziendali con funzionalità di
analisi e reporting, creare nuovi modelli e processi di business facendo leva su soluzioni
innovative,nonché ridurre il “Total Cost Ownership” con meno hardware, manutenzione e
22
controllo.
TERADATA Corporation è stata fondata nel 1979, ed è leader nelle piattaforme per
l’analisi dei dati, mediante le sue soluzioni di integrated data warehousing, big data
analytics e business applications.
La necessità di gestire dati strutturati e non, ha spinto le principali aziende ad integrare
Hadoop, di fatti Teradata, con l’acquisizione di Aster Data Systems, ha introdotto degli
strumenti di gestione e di analisi dei dati non strutturati. In particolare, Teradata offre due
tipi di applicazioni: uno contiene l’ecosistema Hadoop, ovvero l’integrazione con la parte
relazionale avviene attraverso SQL-H che consente di interrogare i dati presenti in
quest’ultimo ,ed uno in RDBMS, che consente di gestire carichi di lavoro di diverse
entità.
Quanto al software, l’attuale versione del database è il Teradata Database 14, che presenta
alcune caratteristiche peculiari; infatti, la crescente pervasività dei big data richiede ai
database un’intelligenza sufficiente per riconoscere e processare automaticamente i dati
caldi o freddi, pertanto il Teradata Database 14, è l’unica soluzione sul mercato che
comprime e decomprime in modo automatico i dati più freddi o meno utilizzati,
riducendo lo spazio di memorizzazione sui dischi, ed offrendo prestazioni ottimali.
Il database Teradata è stato creato per sfruttare a massimo il parallelismo,in quanto
processa un determinato work-load spezzando in piccoli parti distribuiti su processori
virtuali chiamati Acces Module Processor(AMP). Più AMP risiedono su un nodo ed
ognuno di essi è legato ad una parte del database.
Quindi, Teradata permette di accedere ad una nuova prospettiva di business dove tutte le
informazioni di cui si necessita si trovano in un solo posto, consentendo alle aziende
attraverso tecnologie, esperienza, processo e passione per l’innovazione, di prendere
decisioni migliori e veloci rispetto alle concorrenti.
23
Conclusioni
In questo elaborato di tesi, abbiamo visto come i Big Data assumono un’importanza vitale
nella vita di tutti i giorni, e soprattutto come il corretto utilizzo di ingenti quantità di dati
diversi tra loto per volume, varietà ect, consente non solo ai cittadini ma anche alle
imprese di ottenere vantaggi competitivi. I dati provenienti dal Web assumono una
particolare rilevanza nel modo dei Big Data, non solo per le caratteristiche che
posseggono ma perché hanno in sé un potenziale informativo particolarmente levato. In
effetti la gestione di ingenti quantitativi di dati, talvolta molto diversi tra loro, ha da
sempre costituito una grossa problematica non superabile con gli strumenti tradizionali,
ma attraverso nuove frontiere, quale Hadoop: sistema open source in grado di archiviare,
spostare e combinare una mole di dati in maniera rapida e agile. Il rivenditore
commerciale più diffuso al mondo di Hadoop è senza dubbio Cloudera, che al di là delle
caratteristiche proprie del sistema stesso, possiede componenti aggiuntive in grado di
fornire un supporto ultroneo. La sfida lanciata da Hadoop, ovvero creare uno strumento in
grado di gestire “Big Data” è stata negli anni recepita anche da altre grandi società, che
con le loro sedi in tutto il mondo, hanno offerto agli utenti una vasta gamma di servizi,
utenti che sono stati individuati non solo nei cittadini comuni, ma anche nelle grandi
imprese, che quotidianamente si trovano ad affrontare il problema di come e dove gestire
la mole di dati che le pervade. Indubbiamente l’esperienza, la tecnologia, la condivisione
e un pizzico di passione per l’innovazione, consentirà di intraprendere le strade giuste.
24
Bibliografia
[1] Dr. AMR Awadallah, Introducing Apache Hadoop, The Modern Data Opening
System;
[2] Rivista Diritto dell’informazione e dell’informatica, 2012, pp. 135-144.
[3] Mike Olson, Hadoop scalable flexible data storage analysis;
[4] Perego A, Pasini P, Big Data Live: casi di eccellenza, SDA Bocconi 2013;
[5] Perego A, Pasini P, Nuove fonti di conoscenza Aziendale e nuovi modelli di
management, SDA Bocconi, Dicembre 2012;
[6] http://emcgeek.blogspot.it/2013/11/hadoop-di-cosa-si-tratta.html;
[7] http://www.xenialab.it/meo/web/white/internet/cloudera.htm;
[8] http://www.wired.it;
[9] http://www.ilsole24ore.com;
[10] http://www.lescienze.it;
[11] http://www.cloudera.com;
[12] http://www.saphana.com;
[13] http://www.teradata.com;
[14] http:// www.hadoop.com.
25
Ringraziamenti
< < I sogni veri si costruiscono con gli ostacoli. Altrimenti non si trasformano in progetti, ma
restano sogni. La differenza fra un sogno e un progetto è proprio questa: le bastonate. > >
A. D’Avenia
E bene si! Eccomi finalmente giunta al mio primo e vero traguardo. Sudato, sperato e sognato da
sempre. Tra alti e bassi alla fine mi sono decisa a scrivere queste “poche righe” di ringraziamenti.
Le uniche vere persone che devo ringraziare sono la mia Mamma e il mio Papà, unico punto di
forza, uniche mie certezze, uniche persone che mi amino per quella che sono, che mi proteggono,
che mi guidano e che mi hanno dato la possibilità, la grinta e l’energia di combattere e vincere
questa piccola sfida. Tanti sono stati i momenti che sono caduta e altrettanti che mi sono rialzata
solo ed esclusivamente grazie a loro.
Un altro grazie speciale va a mia sorella Pina, cuore, anima e mio modello di vita, sempre
presente, la mia migliore e unica amica , che mi ha sempre dato buoni consigli e mi ha sempre
spronato a fare di più, a non abbattermi per le varie difficoltà universitarie e della vita che ho
incontrato. Ma soprattutto grazie per avermi regalato due gioie infinite, Stefano e Sofia, unici
amori della mia vita. E ovviamente grazie anche a mio cognato, che nonostante a volte siamo come
cani e gatti, è il fratello che non ho mai avuto….
Grazie al mio relatore di tesi , Ing. Vincenzo Moscato, per la sua professionalità e disponibilità
che mi ha dimostrato nella stesura di questo elaborato.
Un Grazie va anche all’Ing. Roberto Natella , che il suo prezioso aiuto sono riuscita a superare il
mio ultimo esame. Credo che persone gentili e disponibili come lui ce ne siano davvero poche.
Grazie alle mie zie, seconde mamme, pronte a supportarmi e sopportarmi in ogni circostanza.
Grazie ai miei nonni, che da lassù spero che siano fieri di me e che continueranno a proteggermi e
guidarmi così come fatto fin’ora.
Grazie anche a tutte quelle persone le cui strade hanno attraversato anche solo per un attimo il
cammino della mia vita, ma che sono riuscite ugualmente ad ottenere un posto nel mio cuore.
Un grazie va soprattutto a tutte quelle persone che nel corso della vita sono “sparite”, perché
anche questi modi di fare ti fanno crescere e capire cosa non vuoi diventare.
Infine un ultimo ringraziamento va a me stessa, perché se sono arrivata a questo punto infondo è
anche merito mio.
………………..Carmen
26