Big Data Con il termine Big Data si fa riferimento a grandi aggregazioni di dati che, per quantità, rapidità di cambiamento ed eterogeneità di struttura, vanno oltre la capacità di elaborazione dei database tradizionali, richiedendo strumenti di gestione più avanzati in tutte le fasi del processo (trattamento del dato, caricamento negli archivi, analisi e visualizzazione). E’ un ambito usualmente definito come il mondo delle 3Vs dei dati (Varietà, Velocità, Volumi). Il progressivo aumento della quantità di dati da trattare ed analizzare è legato a vari fattori: • • la necessità di operare su un unico insieme di dati correlati (“Repository Unico”), che permette di ottenere informazioni non ricavabili dall’analisi separata dei singoli archivi; la necessità di studiare le interrelazioni tra informazioni provenienti da fonti completamente differenti, non solo di tipo tradizionale, ma anche di tipo innovativo (la rete, i Social Media, ecc.). Le tecnologie in ambito Big Data rendono possibile estrarre dai dati, sia nuove informazioni di natura gestionale, sia indicazioni utili sulle tendenze e sugli "umori" dei mercati e del commercio e quindi anche sui trend complessivi della Società e della Rete. Con i Big Data, si arriva a parlare di una mole di dati dell'ordine di 10^21 Byte, il cosidetto Zettabyte, pari al miliardo di Terabyte (già 10^12). Parallel Business Intelligence Le evoluzioni tecnologiche sul fronte del Big Data (e più in generale del NoSQL – Not Only SQL) stanno rendendo possibile l’analisi di enormi quantità di dati con livelli di performance fino a poco tempo fa inimmaginabili. Il trend più attuale nel settore prevede l’utilizzo di cluster costituiti da un numero elevato di nodi (unità elaborative e storage) di basso valore unitario, che utilizzano massivamente meccanismi di elaborazione parallela per la gestione dei dati. I sistemi sviluppati secondo il nuovo paradigma della Parallel Business Intelligence forniscono agli utenti strumenti molto potenti per estrarre valore dalle enormi quantità di dati contenuti negli archivi “operational” dei sistemi informativi delle aziende, evitando i colli di bottiglia che normalmente rallentano i processi. In particolare: • • Estrazione, Trasformazione e Caricamento dei dati vengono effettuati con esteso utilizzo di tecniche di elaborazione parallela che sfruttano le potenzialità di I/O e di calcolo dei nodi del cluster; Analisi complesse e operazioni di Business Intelligence molto articolate vengono parallelizzate ed eseguite sfruttando la capacità elaborativa dell’intero cluster. Hadoop Nel contesto descritto, Hadoop, Hadoop un framework di sviluppo Open Source basato su Java, rappresenta uno degli strumenti di riferimento per la realizzazione di applicazioni orientate alla gestione di archivi di grandi dimensioni in ambiente distribuito. Hadoop, consente di realizzare applicazioni che utilizzano al meglio le risorse di migliaia di nodi per elaborare migliaia di TeraBytes di dati. Il file system distribuito che che lo caratterizza consente un rapido trasferimento dei dati tra i nodi, garantendo continuità di esercizio in caso di malfunzionamento di alcuni nodi e minimizzando, minimizzando in tale evenienza, il rischio di “caduta. Hadoop è un progetto Apache sponsorizzato dalla Apache Software Foundation. HNavigator HNavigatior è il prodotto proposto da IT Euro Consulting e da Eligotech, che supporta le attività di ricerca e analisi nell’ambito di grandi grandi quantità di dati strutturati o semi strutturati. E’ costituito da un insieme di componenti che forniscono all’utente funzionalità di: di • • • Data Discovery:: un engine di ricerca con interfaccia web molto intuitiva consente di eseguire ricerche per valore tra archivi diversi. L’idea di base è molto semplice: dato un valore (o un range nge di valori) l’utente può scoprire molto rapidamente quali database/tabelle/colonne contengono quel valore. Parallel ETL: attraverso l’interfaccia Web, Web l’utente può importare e manipolare nuovi dati Parallel Business Intelligence: potenti funzioni di drillll down e di analisi possono essere lanciate dal browser. I risultati delle interrogazioni sono resi fruibili in modo ergonomico attraverso un’interfaccia grafica basata su HTML5