A N ALYTI CS & I N T E LLI G E N C E
ne consegue che occorre seguire approcci
nuovi e diversi. Se i dati in questione sono
creati e aggregati molto velocemente e
devono essere utilizzati rapidamente per
scoprire schemi e problemi, maggiore è la
velocità e più probabile è il fatto che si abbia a che fare con un’opportunità Big Data.
2) Big Data significa Hadoop
Hadoop è il framework software open
source di Apache disegnato per operare
con i Big Data. È stato realizzato a partire
da tecnologia Google e messo in pratica da
Yahoo e altri. Ma i Big Data sono troppo
complessi e variabili per una soluzione “a
taglia unica”. Anche se Hadoop è sicuramente il marchio più noto, rappresenta
solo una delle tre classi di tecnologie adatte
a memorizzare e a gestire i Big Data. Le
altre due classi sono NoSQL e gli archivi
dati MPP (Massively Parallel Processing,
Elaborazione parallela intensiva); si veda
il Mito numero 5 nel seguito per ulteriori
informazioni su NoSQL. Esempi di archivi
dati MPP comprendono Greenplum di
EMC, Netezza di IBM e Vertica di HP.
Inoltre, Hadoop è un framework software,
il che significa che include diversi moduli
che sono stati progettati specificamente
per eseguire compiti di storage, analisi e recupero di dati distribuiti su larga scala. Non
tutte le componenti di Hadoop sono necessarie per una soluzione Big Data e alcune
possono essere sostituite con altre tecnologie che sono più adeguate alle esigenze
di un particolare utente. Un esempio di ciò
è costituito dalla distribuzione Hadoop di
MapR, che include NFS come alternativa
ad HDFS e offre un file system ad accesso
casuale completo in lettura/scrittura.
3) Big Data significa dati non strutturati
Il termine “non strutturato” è impreciso
e non tiene conto delle molte strutture
variabili e ingegnose tipicamente as-
sociate ai tipi di Big Data. Inoltre, i Big
Data possono benissimo avere tipi di dati
differenti all’interno dello stesso insieme,
e che non contengono la stessa struttura.
Perciò, sarebbe meglio definire i Big Data
“multistrutturati”, dal momento che possono
comprendere stringhe di testo, documenti di
ogni tipo, file audio e video, metadati, pagine
web, messaggi email, feed di social media,
dati su moduli e così via. Il tratto comune di
questi vari tipi di dati è che lo schema dei dati
stessi non è noto o non è definito quando
questi vengono catturati e memorizzati. Al
contrario, spesso si applica un modello solo
nel momento in cui si utilizzano i dati.
4) I Big Data servono per i feed di social
media e la Sentiment Analysis
Detto in modo semplice, se la propria
organizzazione necessita di analizzare a
grandi linee il traffico web, i log dei sistemi
IT, il sentiment dei clienti o qualsiasi altro
tipo di “ombre digitali” che vengono create
in volumi enormi ogni giorno, i Big Data offrono un sistema per farlo. Anche se i primi
pionieri dei Big Data sono stati le aziende
di social media più grandi, basate sul web
– Google, Yahoo, Facebook – in realtà sono
stati il volume, la varietà e la velocità dei
dati generati dai loro servizi a richiedere
una soluzione radicalmente nuova, piuttosto che la necessità di analizzare i social
feed o monitorare il sentiment del pubblico. Oggi, grazie alla potenza dei computer
in rapida crescita (spesso basata su cloud),
al software open source (come per esempio
la già citata distribuzione Apache Hadoop)
e al moderno "assalto ai dati", che potrebbero generare valore economico se utilizzati nel
modo giusto, si è creato un flusso ininterrotto
di usi e applicazioni Big Data.
5) NoSQL significa No SQL
NoSQL significa “non solo” SQL, poiché
questo tipo di data store (magazzino
di dati) offre un accesso specifico per
dominio e tecniche di query in aggiunta a
interfacce SQL o simil - SQL. Le tecnologie
in questa categoria NoSQL comprendono archivi di valori chiave, database
orientati ai documenti, database grafici,
grandi strutture tabellari e archivi dati per
caching. I metodi di accesso nativi specifici
ai dati memorizzati offrono un approccio
ricco, a bassa latenza, tipicamente attraverso un’interfaccia proprietaria. L’accesso
SQL ha il vantaggio della familiarità e
della compatibilità con molti strumenti già
esistenti, sebbene questo avvenga di solito
a spese della latenza (cioè della velocità di
esecuzione), a causa dell’interpretazione
della query verso il linguaggio “nativo” del
sistema sottostante. Per esempio, Cassandra, il popolare archivio di valori chiave
open source offerto su base commerciale
da DataStax, non solo include API native
per l’accesso diretto a dati Cassandra,
ma anche CQL (la sua interfaccia simile
a SQL), come meccanismo preferenziale emergente di accesso. È importante
scegliere la tecnologia NoSQL corretta,
che vada bene sia per soddisfare l’esigenza
di business sia per adattarsi ai tipi di dati:
a questo proposito, le numerose categorie
di tecnologie NoSQL disponibili offrono
un’ampia scelta.
CONCLUSIONI
In definitiva, Big Data è un concetto complesso, che va analizzato sotto diversi punti
di vista e sfaccettature per comprenderne
la reale portata e i vantaggi che può portare
alla propria organizzazione. Sicuramente, la
capacità di gestire Big Data fa parte ormai
di qualsiasi strumento di analisi moderno e
proiettato al futuro, in particolare quando si
tratta di dover prendere decisioni basandosi su quanto emerge dalla fase analitica:
in altri termini, quando si parla di Business
Intelligence. Una lezione che Jaspersoft,
nella sua posizione di azienda dinamica leader di mercato, ha imparato e intende rendere
immediatamente disponibile ai propri clienti.
AdV | strategie di comunicazione | advertiser.it
79