Architettura dati moderna con Apache™ Hadoop® Architettura dati moderna con Apache™ Hadoop® Presentato da Hortonworks® e Talend Architettura dati moderna con Apache™ Hadoop® Sintesi Il data center non è stato trasformato da Apache™ Hadoop®, ma dai dati stessi. Subito dopo che le funzioni IT aziendali all’interno delle organizzazioni hanno adottato sistemi di gestione dei dati su larga scala, le strutture EDW (Enterprise Data Warehouse) si sono affermate come ambiente logico da utilizzare per tutti i dati aziendali. Attualmente ogni azienda dispone di un data warehouse che consente di modellare e acquisire l’essenza delle attività aziendali direttamente dai propri sistemi. L’esplosione di nuovi tipi di dati negli anni recenti, da fonti quali il Web e i dispositivi connessi o semplicemente da grandi volumi di record, ha esercitato una notevole pressione sui sistemi EDW. In risposta a questa trasformazione, un numero sempre crescente di aziende ha adottato Apache Hadoop per gestire l’enorme aumento di dati mantenendo nel contempo la coesione del data warehouse. Nel presente documento vengono illustrati Apache Hadoop e le funzionalità di cui dispone come piattaforma dati, nonché il modo in cui è in grado di integrarsi con Talend Big Data per offrire progetti di integrazione 10 volte più rapidi rispetto all’esecuzione manuale di MapReduce. Talend semplifica l’integrazione dei Big Data in modo che siate in grado di rispondere alle esigenze aziendali senza dover scrivere o gestire codice Apache Hadoop complesso. Grazie a Talend Big Data, potete integrare facilmente tutte le origini dati per casi di utilizzo diversi, ad esempio l’ottimizzazione del data warehouse, la sentiment analysis, l’analisi dei file di log dei siti Web, l’analisi predittiva, il rilevamento delle frodi o la creazione di un data lake aziendale. Per un’organizzazione, un data lake è caratterizzato dai vantaggi di base seguenti: Nuove efficienze per l’architettura dati grazie a costi di archiviazione notevolmente ridotti e all’ottimizzazione dei carichi di lavoro di elaborazione dei dati, quali trasformazione e integrazione. Nuove opportunità per le aziende grazie a un accesso flessibile di tipo “schema in lettura” a tutti i dati aziendali e a un’elaborazione per più usi e più carichi di lavoro degli stessi set di dati, dall’elaborazione in batch a quella in tempo reale. La tecnologia alla base di Apache Hadoop è costituita dai componenti seguenti: Hadoop Distributed File System. Il file system HDFS, basato su Java, è un sistema di archiviazione dei dati scalabile e affidabile concepito appositamente per essere utilizzato su cluster di commodity server di grandi dimensioni. Apache Hadoop YARN. YARN è un sistema modulare e di gestione delle risorse per motori di elaborazione dati in grado di interagire con dati archiviati in HDFS. www.talend.com 1 Per un’analisi indipendente di Hortonworks® Data Platform, scaricare il documento Forrester Wave™: Big Data Hadoop Solutions, Q1 2014 di Forrester Research. Architettura dati moderna con Apache™ Hadoop® Trasformazione dei dati Le funzioni IT aziendali all’interno delle organizzazioni affrontano ormai da anni le problematiche legate ai dati su larga scala. La maggior parte dei dati all’interno delle organizzazioni deriva da sistemi ERP (Enterprise Resource Planning), sistemi CRM (Customer Relationship Management) e altri sistemi di grandi dimensioni che supportano una funzione aziendale specifica. Subito dopo che questi sistemi di record sono diventati lo strumento per svolgere le attività aziendali, il data warehouse si è affermato come l’ambiente logico per i dati estratti da tali sistemi al fine di sfruttare le applicazioni di business intelligence, favorendo la nascita di un nuovo settore. Attualmente ogni azienda dispone di un data warehouse per modellare e acquisire l’essenza delle attività aziendali direttamente dai propri sistemi. Hortonworks.com • Clickstream • Social media • File log di server La sfida dei nuovi tipi di dati La comparsa e l’esplosione di nuovi tipi di dati negli ultimi anni hanno esercitato una notevole pressione su tutti i sistemi di dati all’interno dell’organizzazione. Questi nuovi tipi di dati nascono da sistemi di coinvolgimento, ad esempio siti Web, o dalla crescita dei dispositivi connessi. I dati che derivano da tali fonti sono dotati di un certo numero di caratteristiche che ne rendono problematica la gestione in un data warehouse: Crescita esponenziale. Si prevede che il valore stimato pari a 2,8 ZB di dati nel 2012 crescerà fino al valore di 40 ZB entro il 2020. Si prevede inoltre che una percentuale pari all’85% di tale crescita derivi da nuovi tipi, con un aumento dei dati generati dal computer stimato intorno a 15 volte entro il 2020. (Fonte: IDC) Natura diversa. I dati in ingresso possono essere poco strutturati o non esserlo affatto o possono comunque essere caratterizzati da una struttura che cambia troppo frequentemente per la creazione di uno schema affidabile al momento dell’inserimento. Valore nei volumi elevati. Se considerati come gruppi di record singoli o di dimensioni ridotte, i dati in ingresso possono avere un valore minimo o addirittura inesistente, mentre nei volumi elevati o nel caso di prospettive più a lungo termine, i dati possono essere ispezionati per ricavarne schemi e utilizzati per applicazioni avanzate di analisi. Crescita di Apache Hadoop Problematiche di acquisizione e archiviazione a parte, la combinazione di dati aziendali esistenti con il valore contenuto nei nuovi tipi di dati è ormai collaudata da numerose aziende in molti settori, dalla vendita al dettaglio al settore sanitario, dalla pubblicità al settore energetico. La tecnologia che si è affermata come strumento per affrontare la sfida e concretizzare il valore dei Big Data è Apache Hadoop, il cui slancio è stato descritto come inarrestabile da Forrester Research in Forrester Wave™: Big Data Hadoop Solutions, Q1 2014. La crescita di Apache Hadoop negli ultimi anni ha ampliato le sue funzionalità, trasformandola da semplice soluzione di elaborazione dati per set di dati di grandi dimensioni a una piattaforma dati completamente sviluppata e dotata dei servizi necessari per l’organizzazione, dalla sicurezza alla gestione delle operazioni e così via. www.talend.com Per ulteriori informazioni su questi nuovi tipi di dati, visitate il sito Web all’indirizzo 2 • Georilevazione • Computer e sensori Informazioni su Hadoop Apache Hadoop è una tecnologia open source nata dall’esperienza di società con utenti in ambito Web, ad esempio Yahoo, Facebook e altre, che sono state le prime a confrontarsi con l’esigenza di archiviare ed elaborare enormi quantità di dati digitali. Architettura dati moderna con Apache™ Hadoop® Hadoop e i sistemi di dati esistenti: un’architettura dati moderna Da un punto di vista architetturale, l’utilizzo di Hadoop come complemento ai sistemi di dati esistenti è estremamente interessante, trattandosi di una tecnologia open source pensata per essere eseguita su numeri elevati di commodity server. Caratterizzato da un approccio all’archiviazione e all’elaborazione dei dati con scalabilità orizzontale e di costo ridotto, Hadoop è in grado di adeguarsi alle esigenze delle proprietà Web di maggiori dimensioni nel mondo. Fig. 1 Architettura dati moderna con Apache Hadoop integrato in sistemi di dati esistenti con soluzioni Talend Big Data Hortonworks è particolarmente impegnata nella realizzazione di Hadoop come componente chiave del data center e, grazie alla stretta collaborazione con alcuni dei maggiori fornitori di data warehouse, abbiamo osservato numerose opportunità ed efficienze rilevanti che Hadoop riserva alle aziende. www.talend.com 3 Architettura dati moderna con Apache™ Hadoop® Nuove opportunità per l’analisi Nuove efficienze per l’architettura dati L’architettura di Hadoop comporta nuove opportunità per l’analisi dei dati: Oltre alle opportunità per l’analisi dei Big Data, Hadoop offre numerose efficienze in un’architettura dati: Schema in lettura. A differenza dei sistemi EDW, in cui i dati vengono trasformati in uno schema specificato al momento del caricamento nel data warehouse, con la necessità di applicare uno schema in scrittura, Hadoop vi consente di archiviare i dati non elaborati in modo che gli analisti possano creare lo schema più adatto alle esigenze delle proprie applicazioni nel momento in cui scelgono di analizzare i dati, realizzando pertanto uno schema in lettura. In questo modo vengono risolti i problemi correlati alla mancanza di struttura ed è possibile procedere all’elaborazione dei dati quando il valore iniziale dei dati in ingresso è opinabile. Costi di archiviazione ridotti. Per progettazione, Hadoop viene eseguito su commodity server di costo ridotto e su sistemi di archiviazione collegati direttamente, consentendo in tal modo una significativa diminuzione dei costi complessivi. In particolare, se si fa un confronto con reti SAN (Storage Area Network) di fascia alta di fornitori diversi, ad esempio EMC, la possibilità di utilizzare Hadoop per eseguire calcolo e archiviazione di tipo commodity con scalabilità orizzontale rappresenta un’alternativa estremamente valida, che consente di aumentare le risorse hardware solo in base alle esigenze di crescita dei dati. Questa flessibilità nei costi permette di archiviare, elaborare, analizzare e accedere a una quantità di dati più elevata rispetto a quelle precedenti. Elaborazione dati per più usi e più carichi di lavoro. Grazie al supporto di più metodi di accesso (batch, real-time, streaming, in memory e così via) a un set di dati comune, Hadoop consente agli analisti di trasformare e visualizzare i dati in numerosi modi e con schemi diversi, al fine di ottenere analisi a ciclo chiuso ottimizzando il time-to-insight. Ottimizzazione dei carichi di lavoro di un data warehouse. L’ambito delle attività da eseguire in un sistema EDW è aumentato in modo considerevole tra funzioni di estrazione, trasformazione e carico (ETL, Extract, Transform, Load), analisi e altre operazioni. La funzione ETL rappresenta un carico di lavoro di calcolo a valore relativamente basso che può essere eseguito con costi ancora più ridotti. Molti utenti affidano questa funzione a Hadoop, in cui i dati vengono estratti, trasformati e successivamente caricati Elementi critici, come i cicli della CPU e lo spazio di archiviazione, vengono di conseguenza resi disponibili e possono essere dedicati all’esecuzione di funzioni effettivamente importanti, ad esempio analisi e operazioni, che sfruttano meglio le funzionalità avanzate di Hadoop www.talend.com 4 Architettura dati moderna con Apache™ Hadoop® Enterprise Hadoop con Hortonworks Data Platform Per realizzare appieno il valore del vostro investimento in Big Data, potete utilizzare il progetto per integrare Enterprise Hadoop con il sistema EDW e i sistemi di dati correlati. La creazione di un’architettura dati moderna consente alla vostra organizzazione di archiviare e analizzare su larga scala i dati aziendali più rilevanti, di estrarre informazioni approfondite di importanza critica per l’azienda da tutti i tipi di dati e da qualsiasi fonte e, in definitiva, di migliorare il vostro vantaggio competitivo sul mercato e di ottimizzare ricavi e fidelizzazione dei clienti. Per ulteriori informazioni, visitate il sito Web all’indirizzo http://hortonworks.com/hdp. Hortonworks Data Platform è la base per un’architettura dati moderna La soluzione Hortonworks Data Platform (HDP™) è supportata dal sistema Apache Hadoop completamente open source. HDP fornisce tutti i progetti correlati ad Apache Hadoop necessari per integrare Hadoop con un sistema EDW come parte di un’architettura dati moderna. Fig. 12 Gestione dei dati. Il sistema HDFS (Hadoop Distributed File System) rappresenta la tecnologia di base per un’archiviazione con scalabilità orizzontale efficiente ed è progettato per essere eseguito su commodity hardware di costo ridotto. Apache Hadoop YARN costituisce il prerequisito per Enterprise Hadoop poiché fornisce le funzioni di gestione delle risorse, nonché un’architettura modulare in grado di abilitare una vasta gamma di metodi di accesso per operare sui dati archiviati in Hadoop con prestazioni e livelli di servizi prevedibili. Accesso ai dati. Apache Hive è la tecnologia di accesso ai dati più largamente adottata, sebbene siano disponibili sul mercato numerosi motori specializzati. Tra le soluzioni offerte, sono disponibili funzionalità di script in Apache Pig, elaborazione in tempo reale in Apache Storm, archiviazione non SQL a colonne in Apache HBase e controllo degli accessi a livello di cella in Apache Accumulo. Grazie a YARN, potete utilizzare tutti questi motori in un unico set di dati e di risorse. YARN è inoltre caratterizzato dalla flessibilità necessaria per i metodi di accesso ai dati nuovi ed emergenti, ad esempio framework di ricerca e programmazione come Cascading. www.talend.com 5 Architettura dati moderna con Apache™ Hadoop® Governance e integrazione dei dati. Apache Falcon fornisce flussi di lavoro basati su criteri per la governance, mentre Apache Flume e Sqoop consentono una semplice acquisizione dei dati, in modo analogo alle interfacce NFS e WebHDFS per HDFS. Sicurezza. A ogni livello della struttura Hadoop, la sicurezza viene fornita da HDFS, YARN, Hive e dagli altri componenti di accesso ai dati,fino all’intero perimetro del cluster tramite Apache Knox. Operazioni. Apache Ambari offre l’interfaccia e le API necessarie per il provisioning, la gestione e il monitoraggio dei cluster Hadoop e l’integrazione con altro software per le console di gestione. Opzioni di distribuzione per Hadoop Di seguito vengono indicate le numerose opzioni di distribuzione disponibili in HDP. In locale: HDP è l’unica piattaforma Hadoop che funziona in Linux e Windows. Cloud: HDP può essere eseguito come parte di un servizio IaaS (Infrastructure as a Service) e supporta inoltre Big Data Cloud di Rackspace, il servizio HDInsight di Microsoft, CSC e molti altri. Componenti: HDP viene eseguito su commodity hardware per impostazione predefinita e può inoltre essere acquistato come componente daTeradata. www.talend.com 6 Architettura dati moderna con Apache™ Hadoop® Talend ed Enterprise Hadoop Talend Big Data genera codice Hadoop nativo e ottimizzato e può caricare, trasformare, ampliare e rifinire i dati in Hadoop per ottenere la massima scalabilità. L’ambiente di sviluppo grafico di cui dispone è di semplice utilizzo e consente di accelerare le attività di progettazione, distribuzione e gestione. È disponibile il supporto per eseguire trasformazioni semplici, avanzate e personalizzate. Talend Big Data è l’unica soluzione che applica regole sulla qualità dei dati in modalità nativa e su larga scala in Hadoop per analizzare e rifinire tutti i dati e metterli in corrispondenza tra loro. Funzionalità e vantaggi di Talend: • Oltre 800 componenti e connettori a tutte le fonti dati e applicazioni, ad esempio Big Data e non SQ • Supporto per ETL ed ELT, nonché per distribuzione in tempo reale e basata su eventi • Supporto YARN e Hadoop 2.0 per una migliore ottimizzazione delle risorse • Generazione di codice Talend per scalabilità e portabilità avanzate • Ottimizzazione visiva dei processi MapReduce prima della produzione per uno sviluppo più rapido • Community estremamente collaborativa per il supporto Da zero ai Big Data in dieci minuti Talend Big Data Sandbox è un ambiente virtuale di utilizzo immediato che include Talend Big Data Platform, Hortonworks Data Platform e altri esempi di Big Data. Per scaricare l’ambiente sandbox gratuito, visitate il sito Web all’indirizzo http://www.talend.com/talend-big-data-sandbox www.talend.com 7 Architettura dati moderna con Apache™ Hadoop® Case study 1 Aumentare i ricavi online con Talend Un rivenditore globale con un fatturato annuo di 12 miliardi di euro desiderava aumentare i ricavi. La società stava assistendo a un elevato tasso di abbandono del carrello e non era in grado di modificare rapidamente i prezzi in base a richiesta, disponibilità di magazzino e concorrenza. Nel settore della vendita online altamente competitivo, gli acquirenti possono facilmente confrontare i prezzi e rivolgersi immediatamente alla concorrenza. Per il rivenditore si presentava pertanto l’esigenza di comprendere meglio l’attività online dei consumatori e di mettere in relazione il loro comportamento con i modelli di acquisto storici. A tale scopo, era necessario analizzare terabyte di dati in tempo reale con la capacità di agire prima che l’acquirente abbandonasse il sito Web. Il rivenditore ha selezionato Talend Big Data e Hadoop per unire tutte le applicazioni e i silo e i formati di dati relativi al fine di ottenere nuove informazioni approfondite sulle aziende e sul comportamento online degli acquirenti. Grazie a Talend, il rivenditore è ora in grado di analizzare dati reali e dati clickstream storici (oltre 5 terabyte) e di fornire risposte estremamente tempestive, ad esempio annunci pubblicitari o modifiche dinamiche di prezzo, mentre i clienti sono ancora in fase di acquisto online. Il rivenditore è in grado inoltre di prevedere con una percentuale pari al 90% di certezza se un acquirente abbandonerà il carrello, nonché di ridurre del 20% la quantità di merce avanzata grazie a un’analisi dei dati più approfondita e a tecniche di previsione migliori. Con Talend e Hadoop, il rivenditore online può prevedere con una percentuale pari al 90% di certezza se un acquirente abbandonerà il carrello www.talend.com 8 Architettura dati moderna con Apache™ Hadoop® Informazioni su Talend In Talend la nostra missione è quella di connettere le organizzazioni basate sui dati, in modo che i nostri clienti siano in grado di operare a loro volta in tempo reale con nuove informazioni su clienti, mercati e attività aziendali. Creato nel 2006, il nostro team globale di esperti di integrazione si basa su tecnologie di innovazione open source per realizzare soluzioni di livello Enterprise che consentano di far emergere più rapidamente il valore aziendale. Per progettazione, il software di integrazione Talend semplifica il processo di sviluppo, riduce la curva di apprendimento e diminuisce il costo totale di proprietà grazie a una piattaforma unificata, aperta e prevedibile. Con il supporto nativo di piattaforme di Big Data moderne, Talend riduce sensibilmente la complessità dei processi di integrazione. Per ulteriori informazioni, visitate il sito Web all’indirizzo http://www.talend.com Informazioni su Hortonworks Hortonworks sviluppa, distribuisce e supporta l’unica piattaforma dati completamente open source. Il nostro team è composto dal gruppo maggiore di sviluppatori e architetti dell’ecosistema Hadoop, che rappresentano e gestiscono i requisiti aziendali più ampi in queste community. La soluzione Hortonworks Data Platform fornisce una piattaforma aperta che si integra perfettamente con gli investimenti IT esistenti e sulla cui base le organizzazioni possono creare e sviluppare applicazioni supportate da Hadoop. Hortonworks mantiene strette relazioni con i partner più strategici di gestione di data center per consentire ai nostri clienti di sfruttare le opportunità più ampie rese disponibili da Hadoop. Per ulteriori informazioni, visitate il sito Web all’indirizzo http://www.hortonworks.com. www.talend.com 9 WP195-IT