A N ALYTI CS & I N T E LLI G E N C E ne consegue che occorre seguire approcci nuovi e diversi. Se i dati in questione sono creati e aggregati molto velocemente e devono essere utilizzati rapidamente per scoprire schemi e problemi, maggiore è la velocità e più probabile è il fatto che si abbia a che fare con un’opportunità Big Data. 2) Big Data significa Hadoop Hadoop è il framework software open source di Apache disegnato per operare con i Big Data. È stato realizzato a partire da tecnologia Google e messo in pratica da Yahoo e altri. Ma i Big Data sono troppo complessi e variabili per una soluzione “a taglia unica”. Anche se Hadoop è sicuramente il marchio più noto, rappresenta solo una delle tre classi di tecnologie adatte a memorizzare e a gestire i Big Data. Le altre due classi sono NoSQL e gli archivi dati MPP (Massively Parallel Processing, Elaborazione parallela intensiva); si veda il Mito numero 5 nel seguito per ulteriori informazioni su NoSQL. Esempi di archivi dati MPP comprendono Greenplum di EMC, Netezza di IBM e Vertica di HP. Inoltre, Hadoop è un framework software, il che significa che include diversi moduli che sono stati progettati specificamente per eseguire compiti di storage, analisi e recupero di dati distribuiti su larga scala. Non tutte le componenti di Hadoop sono necessarie per una soluzione Big Data e alcune possono essere sostituite con altre tecnologie che sono più adeguate alle esigenze di un particolare utente. Un esempio di ciò è costituito dalla distribuzione Hadoop di MapR, che include NFS come alternativa ad HDFS e offre un file system ad accesso casuale completo in lettura/scrittura. 3) Big Data significa dati non strutturati Il termine “non strutturato” è impreciso e non tiene conto delle molte strutture variabili e ingegnose tipicamente as- sociate ai tipi di Big Data. Inoltre, i Big Data possono benissimo avere tipi di dati differenti all’interno dello stesso insieme, e che non contengono la stessa struttura. Perciò, sarebbe meglio definire i Big Data “multistrutturati”, dal momento che possono comprendere stringhe di testo, documenti di ogni tipo, file audio e video, metadati, pagine web, messaggi email, feed di social media, dati su moduli e così via. Il tratto comune di questi vari tipi di dati è che lo schema dei dati stessi non è noto o non è definito quando questi vengono catturati e memorizzati. Al contrario, spesso si applica un modello solo nel momento in cui si utilizzano i dati. 4) I Big Data servono per i feed di social media e la Sentiment Analysis Detto in modo semplice, se la propria organizzazione necessita di analizzare a grandi linee il traffico web, i log dei sistemi IT, il sentiment dei clienti o qualsiasi altro tipo di “ombre digitali” che vengono create in volumi enormi ogni giorno, i Big Data offrono un sistema per farlo. Anche se i primi pionieri dei Big Data sono stati le aziende di social media più grandi, basate sul web – Google, Yahoo, Facebook – in realtà sono stati il volume, la varietà e la velocità dei dati generati dai loro servizi a richiedere una soluzione radicalmente nuova, piuttosto che la necessità di analizzare i social feed o monitorare il sentiment del pubblico. Oggi, grazie alla potenza dei computer in rapida crescita (spesso basata su cloud), al software open source (come per esempio la già citata distribuzione Apache Hadoop) e al moderno "assalto ai dati", che potrebbero generare valore economico se utilizzati nel modo giusto, si è creato un flusso ininterrotto di usi e applicazioni Big Data. 5) NoSQL significa No SQL NoSQL significa “non solo” SQL, poiché questo tipo di data store (magazzino di dati) offre un accesso specifico per dominio e tecniche di query in aggiunta a interfacce SQL o simil - SQL. Le tecnologie in questa categoria NoSQL comprendono archivi di valori chiave, database orientati ai documenti, database grafici, grandi strutture tabellari e archivi dati per caching. I metodi di accesso nativi specifici ai dati memorizzati offrono un approccio ricco, a bassa latenza, tipicamente attraverso un’interfaccia proprietaria. L’accesso SQL ha il vantaggio della familiarità e della compatibilità con molti strumenti già esistenti, sebbene questo avvenga di solito a spese della latenza (cioè della velocità di esecuzione), a causa dell’interpretazione della query verso il linguaggio “nativo” del sistema sottostante. Per esempio, Cassandra, il popolare archivio di valori chiave open source offerto su base commerciale da DataStax, non solo include API native per l’accesso diretto a dati Cassandra, ma anche CQL (la sua interfaccia simile a SQL), come meccanismo preferenziale emergente di accesso. È importante scegliere la tecnologia NoSQL corretta, che vada bene sia per soddisfare l’esigenza di business sia per adattarsi ai tipi di dati: a questo proposito, le numerose categorie di tecnologie NoSQL disponibili offrono un’ampia scelta. CONCLUSIONI In definitiva, Big Data è un concetto complesso, che va analizzato sotto diversi punti di vista e sfaccettature per comprenderne la reale portata e i vantaggi che può portare alla propria organizzazione. Sicuramente, la capacità di gestire Big Data fa parte ormai di qualsiasi strumento di analisi moderno e proiettato al futuro, in particolare quando si tratta di dover prendere decisioni basandosi su quanto emerge dalla fase analitica: in altri termini, quando si parla di Business Intelligence. Una lezione che Jaspersoft, nella sua posizione di azienda dinamica leader di mercato, ha imparato e intende rendere immediatamente disponibile ai propri clienti. AdV | strategie di comunicazione | advertiser.it 79