Big Data
Con il termine Big Data si fa riferimento a grandi aggregazioni di dati che, per quantità, rapidità di
cambiamento ed eterogeneità di struttura, vanno oltre la capacità di elaborazione dei database
tradizionali, richiedendo strumenti di gestione più avanzati in tutte le fasi del processo
(trattamento del dato, caricamento negli archivi, analisi e visualizzazione). E’ un ambito
usualmente definito come il mondo delle 3Vs dei dati (Varietà, Velocità, Volumi).
Il progressivo aumento della quantità di dati da trattare ed analizzare è legato a vari fattori:
•
•
la necessità di operare su un unico insieme di dati correlati (“Repository Unico”), che
permette di ottenere informazioni non ricavabili dall’analisi separata dei singoli archivi;
la necessità di studiare le interrelazioni tra informazioni provenienti da fonti
completamente differenti, non solo di tipo tradizionale, ma anche di tipo innovativo (la
rete, i Social Media, ecc.).
Le tecnologie in ambito Big Data rendono possibile estrarre dai dati, sia nuove informazioni di
natura gestionale, sia indicazioni utili sulle tendenze e sugli "umori" dei mercati e del commercio e
quindi anche sui trend complessivi della Società e della Rete.
Con i Big Data, si arriva a parlare di una mole di dati dell'ordine di 10^21 Byte, il cosidetto
Zettabyte, pari al miliardo di Terabyte (già 10^12).
Parallel Business Intelligence
Le evoluzioni tecnologiche sul fronte del Big Data (e più in generale del NoSQL – Not Only SQL)
stanno rendendo possibile l’analisi di enormi quantità di dati con livelli di performance fino a poco
tempo fa inimmaginabili.
Il trend più attuale nel settore prevede l’utilizzo di cluster costituiti da un numero elevato di nodi
(unità elaborative e storage) di basso valore unitario, che utilizzano massivamente meccanismi di
elaborazione parallela per la gestione dei dati.
I sistemi sviluppati secondo il nuovo paradigma della Parallel Business Intelligence forniscono agli
utenti strumenti molto potenti per estrarre valore dalle enormi quantità di dati contenuti negli
archivi “operational” dei sistemi informativi delle aziende, evitando i colli di bottiglia che
normalmente rallentano i processi. In particolare:
•
•
Estrazione, Trasformazione e Caricamento dei dati vengono effettuati con esteso utilizzo di
tecniche di elaborazione parallela che sfruttano le potenzialità di I/O e di calcolo dei nodi
del cluster;
Analisi complesse e operazioni di Business Intelligence molto articolate vengono
parallelizzate ed eseguite sfruttando la capacità elaborativa dell’intero cluster.
Hadoop
Nel contesto descritto, Hadoop,
Hadoop un framework di sviluppo Open Source basato su Java,
rappresenta uno degli strumenti di riferimento per la realizzazione di applicazioni orientate alla
gestione di archivi di grandi dimensioni in ambiente distribuito.
Hadoop, consente di realizzare applicazioni che utilizzano al meglio le risorse di migliaia di nodi per
elaborare migliaia di TeraBytes di dati. Il file system distribuito che
che lo caratterizza consente un
rapido trasferimento dei dati tra i nodi, garantendo continuità di esercizio in caso di
malfunzionamento di alcuni nodi e minimizzando,
minimizzando in tale evenienza, il rischio di “caduta.
Hadoop è un progetto Apache sponsorizzato dalla Apache Software Foundation.
HNavigator
HNavigatior è il prodotto proposto da IT Euro Consulting e da Eligotech, che supporta le attività di
ricerca e analisi nell’ambito di grandi
grandi quantità di dati strutturati o semi strutturati.
E’ costituito da un insieme di componenti che forniscono all’utente funzionalità di:
di
•
•
•
Data Discovery:: un engine di ricerca con interfaccia web molto intuitiva consente di
eseguire ricerche per valore tra archivi diversi. L’idea di base è molto semplice: dato un
valore (o un range
nge di valori) l’utente può scoprire molto rapidamente quali
database/tabelle/colonne contengono quel valore.
Parallel ETL: attraverso l’interfaccia Web,
Web l’utente può importare e manipolare nuovi dati
Parallel Business Intelligence: potenti funzioni di drillll down e di analisi possono essere
lanciate dal browser. I risultati delle interrogazioni sono resi fruibili in modo ergonomico
attraverso un’interfaccia grafica basata su HTML5