Architettura dati moderna con Apache™ Hadoop

Architettura dati
moderna con Apache™ Hadoop®
Architettura dati moderna con
Apache™ Hadoop®
Presentato da Hortonworks® e Talend
Architettura dati moderna
con Apache™ Hadoop®
Sintesi
Il data center non è stato trasformato da Apache™ Hadoop®, ma dai dati stessi.
Subito dopo che le funzioni IT aziendali all’interno delle organizzazioni hanno adottato sistemi
di gestione dei dati su larga scala, le strutture EDW (Enterprise Data Warehouse) si sono
affermate come ambiente logico da utilizzare per tutti i dati aziendali. Attualmente ogni azienda
dispone di un data warehouse che consente di modellare e acquisire l’essenza delle attività
aziendali direttamente dai propri sistemi.
L’esplosione di nuovi tipi di dati negli anni recenti, da fonti quali il Web e i dispositivi connessi o
semplicemente da grandi volumi di record, ha esercitato una notevole pressione sui
sistemi EDW.
In risposta a questa trasformazione, un numero sempre crescente di aziende ha adottato
Apache Hadoop per gestire l’enorme aumento di dati mantenendo nel contempo la coesione
del data warehouse.
Nel presente documento vengono illustrati Apache Hadoop e le funzionalità di cui dispone
come piattaforma dati, nonché il modo in cui è in grado di integrarsi con Talend Big Data
per offrire progetti di integrazione 10 volte più rapidi rispetto all’esecuzione manuale di
MapReduce.
Talend semplifica l’integrazione dei Big Data in modo che siate in grado di rispondere alle
esigenze aziendali senza dover scrivere o gestire codice Apache Hadoop complesso. Grazie a
Talend Big Data, potete integrare facilmente tutte le origini dati per casi di utilizzo diversi, ad
esempio l’ottimizzazione del data warehouse, la sentiment analysis, l’analisi dei file di log dei
siti Web, l’analisi predittiva, il rilevamento delle frodi o la creazione di un data lake aziendale.
Per un’organizzazione, un data lake è caratterizzato dai vantaggi di base seguenti:
Nuove efficienze per l’architettura dati grazie a costi di archiviazione notevolmente
ridotti e all’ottimizzazione dei carichi di lavoro di elaborazione dei dati, quali
trasformazione e integrazione.
Nuove opportunità per le aziende grazie a un accesso flessibile di tipo “schema in
lettura” a tutti i dati aziendali e a un’elaborazione per più usi e più carichi di lavoro
degli stessi set di dati, dall’elaborazione in batch a quella in tempo reale.
La tecnologia alla base di Apache Hadoop è costituita dai componenti seguenti:
Hadoop Distributed File System. Il file system HDFS, basato su Java, è un sistema
di archiviazione dei dati scalabile e affidabile concepito appositamente per essere
utilizzato su cluster di commodity server di grandi dimensioni.
Apache Hadoop YARN. YARN è un sistema modulare e di gestione delle risorse per
motori di elaborazione dati in grado di interagire con dati archiviati in HDFS.
www.talend.com
1
Per un’analisi
indipendente di
Hortonworks® Data
Platform, scaricare il
documento Forrester
Wave™: Big Data
Hadoop Solutions,
Q1 2014 di Forrester
Research.
Architettura dati moderna
con Apache™ Hadoop®
Trasformazione dei dati
Le funzioni IT aziendali all’interno delle organizzazioni affrontano ormai da anni le problematiche
legate ai dati su larga scala. La maggior parte dei dati all’interno delle organizzazioni deriva da
sistemi ERP (Enterprise Resource Planning), sistemi CRM (Customer Relationship Management)
e altri sistemi di grandi dimensioni che supportano una funzione aziendale specifica. Subito
dopo che questi sistemi di record sono diventati lo strumento per svolgere le attività aziendali,
il data warehouse si è affermato come l’ambiente logico per i dati estratti da tali sistemi al fine
di sfruttare le applicazioni di business intelligence, favorendo la nascita di un nuovo settore.
Attualmente ogni azienda dispone di un data warehouse per modellare e acquisire l’essenza
delle attività aziendali direttamente dai propri sistemi.
Hortonworks.com
• Clickstream
• Social media
• File log di server
La sfida dei nuovi tipi di dati
La comparsa e l’esplosione di nuovi tipi di dati negli ultimi anni hanno esercitato una notevole
pressione su tutti i sistemi di dati all’interno dell’organizzazione. Questi nuovi tipi di dati nascono
da sistemi di coinvolgimento, ad esempio siti Web, o dalla crescita dei dispositivi connessi.
I dati che derivano da tali fonti sono dotati di un certo numero di caratteristiche che ne rendono
problematica la gestione in un data warehouse:
Crescita esponenziale. Si prevede che il valore stimato pari a 2,8 ZB di dati nel 2012
crescerà fino al valore di 40 ZB entro il 2020. Si prevede inoltre che una percentuale
pari all’85% di tale crescita derivi da nuovi tipi, con un aumento dei dati generati dal
computer stimato intorno a 15 volte entro il 2020. (Fonte: IDC)
Natura diversa. I dati in ingresso possono essere poco strutturati o non esserlo
affatto o possono comunque essere caratterizzati da una struttura che cambia troppo
frequentemente per la creazione di uno schema affidabile al momento dell’inserimento.
Valore nei volumi elevati. Se considerati come gruppi di record singoli o di dimensioni
ridotte, i dati in ingresso possono avere un valore minimo o addirittura inesistente,
mentre nei volumi elevati o nel caso di prospettive più a lungo termine, i dati possono
essere ispezionati per ricavarne schemi e utilizzati per applicazioni avanzate di analisi.
Crescita di Apache Hadoop
Problematiche di acquisizione e archiviazione a parte, la combinazione di dati aziendali esistenti
con il valore contenuto nei nuovi tipi di dati è ormai collaudata da numerose aziende in molti
settori, dalla vendita al dettaglio al settore sanitario, dalla pubblicità al settore energetico.
La tecnologia che si è affermata come strumento per affrontare la sfida e concretizzare il valore
dei Big Data è Apache Hadoop, il cui slancio è stato descritto come inarrestabile da Forrester
Research in Forrester Wave™: Big Data Hadoop Solutions, Q1 2014.
La crescita di Apache Hadoop negli ultimi anni ha ampliato le sue funzionalità, trasformandola
da semplice soluzione di elaborazione dati per set di dati di grandi dimensioni a una piattaforma
dati completamente sviluppata e dotata dei servizi necessari per l’organizzazione, dalla sicurezza
alla gestione delle operazioni e così via.
www.talend.com
Per ulteriori
informazioni su questi
nuovi tipi di dati,
visitate il sito Web
all’indirizzo
2
• Georilevazione
• Computer e sensori
Informazioni su Hadoop
Apache Hadoop è una
tecnologia open source
nata dall’esperienza
di società con utenti
in ambito Web, ad
esempio Yahoo,
Facebook e altre, che
sono state le prime
a confrontarsi con
l’esigenza di archiviare
ed elaborare
enormi quantità di
dati digitali.
Architettura dati moderna
con Apache™ Hadoop®
Hadoop e i sistemi di dati esistenti: un’architettura dati moderna
Da un punto di vista architetturale, l’utilizzo di Hadoop come complemento ai sistemi di dati esistenti è estremamente interessante,
trattandosi di una tecnologia open source pensata per essere eseguita su numeri elevati di commodity server. Caratterizzato da un
approccio all’archiviazione e all’elaborazione dei dati con scalabilità orizzontale e di costo ridotto, Hadoop è in grado di adeguarsi alle
esigenze delle proprietà Web di maggiori dimensioni nel mondo.
Fig. 1 Architettura dati moderna con Apache Hadoop integrato in sistemi di dati esistenti con soluzioni Talend Big Data
Hortonworks è particolarmente impegnata nella realizzazione di Hadoop come componente chiave del data center e, grazie alla
stretta collaborazione con alcuni dei maggiori fornitori di data warehouse, abbiamo osservato numerose opportunità ed efficienze
rilevanti che Hadoop riserva alle aziende.
www.talend.com
3
Architettura dati moderna
con Apache™ Hadoop®
Nuove opportunità per l’analisi
Nuove efficienze per l’architettura dati
L’architettura di Hadoop comporta nuove opportunità per
l’analisi dei dati:
Oltre alle opportunità per l’analisi dei Big Data, Hadoop offre
numerose efficienze in un’architettura dati:
Schema in lettura. A differenza dei sistemi EDW, in cui i dati
vengono trasformati in uno schema specificato al momento
del caricamento nel data warehouse, con la necessità di
applicare uno schema in scrittura, Hadoop vi consente di
archiviare i dati non elaborati in modo che gli analisti possano
creare lo schema più adatto alle esigenze delle proprie
applicazioni nel momento in cui scelgono di analizzare i dati,
realizzando pertanto uno schema in lettura. In questo modo
vengono risolti i problemi correlati alla mancanza di struttura
ed è possibile procedere all’elaborazione dei dati quando il
valore iniziale dei dati in ingresso è opinabile.
Costi di archiviazione ridotti. Per progettazione, Hadoop
viene eseguito su commodity server di costo ridotto e su
sistemi di archiviazione collegati direttamente, consentendo
in tal modo una significativa diminuzione dei costi
complessivi. In particolare, se si fa un confronto con reti SAN
(Storage Area Network) di fascia alta di fornitori diversi, ad
esempio EMC, la possibilità di utilizzare Hadoop per eseguire
calcolo e archiviazione di tipo commodity con scalabilità
orizzontale rappresenta un’alternativa estremamente valida,
che consente di aumentare le risorse hardware solo in base
alle esigenze di crescita dei dati. Questa flessibilità nei costi
permette di archiviare, elaborare, analizzare e accedere a
una quantità di dati più elevata rispetto a quelle precedenti.
Elaborazione dati per più usi e più carichi di lavoro. Grazie
al supporto di più metodi di accesso (batch, real-time,
streaming, in memory e così via) a un set di dati comune,
Hadoop consente agli analisti di trasformare e visualizzare i
dati in numerosi modi e con schemi diversi, al fine di ottenere
analisi a ciclo chiuso ottimizzando il time-to-insight.
Ottimizzazione dei carichi di lavoro di un data warehouse.
L’ambito delle attività da eseguire in un sistema EDW è
aumentato in modo considerevole tra funzioni di estrazione,
trasformazione e carico (ETL, Extract, Transform, Load),
analisi e altre operazioni. La funzione ETL rappresenta un
carico di lavoro di calcolo a valore relativamente basso che
può essere eseguito con costi ancora più ridotti. Molti utenti
affidano questa funzione a Hadoop, in cui i dati vengono
estratti, trasformati e successivamente caricati
Elementi critici, come i cicli della CPU e lo spazio di archiviazione, vengono di conseguenza resi disponibili e possono essere dedicati
all’esecuzione di funzioni effettivamente importanti, ad esempio analisi e operazioni, che sfruttano meglio le funzionalità avanzate
di Hadoop
www.talend.com
4
Architettura dati moderna
con Apache™ Hadoop®
Enterprise Hadoop con Hortonworks Data Platform
Per realizzare appieno il valore del vostro investimento in Big Data, potete utilizzare il progetto per integrare Enterprise Hadoop con il
sistema EDW e i sistemi di dati correlati. La creazione di un’architettura dati moderna consente alla vostra organizzazione di archiviare
e analizzare su larga scala i dati aziendali più rilevanti, di estrarre informazioni approfondite di importanza critica per l’azienda da
tutti i tipi di dati e da qualsiasi fonte e, in definitiva, di migliorare il vostro vantaggio competitivo sul mercato e di ottimizzare ricavi e
fidelizzazione dei clienti. Per ulteriori informazioni, visitate il sito Web all’indirizzo http://hortonworks.com/hdp.
Hortonworks Data Platform è la base per un’architettura dati moderna
La soluzione Hortonworks Data Platform (HDP™) è supportata dal sistema Apache Hadoop completamente open source.
HDP fornisce tutti i progetti correlati ad Apache Hadoop necessari per integrare Hadoop con un sistema EDW come parte di
un’architettura dati moderna.
Fig. 12
Gestione dei dati. Il sistema HDFS (Hadoop Distributed File System) rappresenta la tecnologia di base per un’archiviazione con
scalabilità orizzontale efficiente ed è progettato per essere eseguito su commodity hardware di costo ridotto. Apache Hadoop
YARN costituisce il prerequisito per Enterprise Hadoop poiché fornisce le funzioni di gestione delle risorse, nonché un’architettura
modulare in grado di abilitare una vasta gamma di metodi di accesso per operare sui dati archiviati in Hadoop con prestazioni e livelli
di servizi prevedibili.
Accesso ai dati. Apache Hive è la tecnologia di accesso ai dati più largamente adottata, sebbene siano disponibili sul mercato
numerosi motori specializzati. Tra le soluzioni offerte, sono disponibili funzionalità di script in Apache Pig, elaborazione in tempo
reale in Apache Storm, archiviazione non SQL a colonne in Apache HBase e controllo degli accessi a livello di cella in Apache
Accumulo. Grazie a YARN, potete utilizzare tutti questi motori in un unico set di dati e di risorse. YARN è inoltre caratterizzato dalla
flessibilità necessaria per i metodi di accesso ai dati nuovi ed emergenti, ad esempio framework di ricerca e programmazione
come Cascading.
www.talend.com
5
Architettura dati moderna
con Apache™ Hadoop®
Governance e integrazione dei dati. Apache Falcon fornisce flussi di lavoro basati su criteri per la governance, mentre Apache Flume
e Sqoop consentono una semplice acquisizione dei dati, in modo analogo alle interfacce NFS e WebHDFS per HDFS. Sicurezza. A ogni
livello della struttura Hadoop, la sicurezza viene fornita da HDFS, YARN, Hive e dagli altri componenti di accesso ai dati,fino all’intero
perimetro del cluster tramite Apache Knox.
Operazioni. Apache Ambari offre l’interfaccia e le API necessarie per il provisioning, la gestione e il monitoraggio dei cluster Hadoop e
l’integrazione con altro software per le console di gestione.
Opzioni di distribuzione per Hadoop
Di seguito vengono indicate le numerose opzioni di distribuzione disponibili in HDP.
In locale: HDP è l’unica piattaforma Hadoop che funziona in Linux e Windows.
Cloud: HDP può essere eseguito come parte di un servizio IaaS (Infrastructure as a Service) e supporta inoltre Big Data Cloud di
Rackspace, il servizio HDInsight di Microsoft, CSC e molti altri.
Componenti: HDP viene eseguito su commodity hardware per impostazione predefinita e può inoltre essere acquistato come
componente daTeradata.
www.talend.com
6
Architettura dati moderna
con Apache™ Hadoop®
Talend ed Enterprise Hadoop
Talend Big Data genera codice Hadoop nativo e ottimizzato e può caricare, trasformare, ampliare e rifinire i dati in Hadoop per
ottenere la massima scalabilità. L’ambiente di sviluppo grafico di cui dispone è di semplice utilizzo e consente di accelerare le attività
di progettazione, distribuzione e gestione. È disponibile il supporto per eseguire trasformazioni semplici, avanzate e personalizzate.
Talend Big Data è l’unica soluzione che applica regole sulla qualità dei dati in modalità nativa e su larga scala in Hadoop per analizzare
e rifinire tutti i dati e metterli in corrispondenza tra loro.
Funzionalità e vantaggi di Talend:
•
Oltre 800 componenti e connettori a tutte le fonti dati e applicazioni, ad esempio Big Data e non SQ
•
Supporto per ETL ed ELT, nonché per distribuzione in tempo reale e basata su eventi
•
Supporto YARN e Hadoop 2.0 per una migliore ottimizzazione delle risorse
•
Generazione di codice Talend per scalabilità e portabilità avanzate
•
Ottimizzazione visiva dei processi MapReduce prima della produzione per uno sviluppo più rapido
•
Community estremamente collaborativa per il supporto
Da zero ai Big Data in dieci minuti
Talend Big Data Sandbox è un ambiente virtuale di utilizzo immediato che include Talend Big Data Platform, Hortonworks Data
Platform e altri esempi di Big Data. Per scaricare l’ambiente sandbox gratuito, visitate il sito Web all’indirizzo
http://www.talend.com/talend-big-data-sandbox
www.talend.com
7
Architettura dati moderna
con Apache™ Hadoop®
Case study 1
Aumentare i ricavi online con Talend
Un rivenditore globale con un fatturato annuo di 12 miliardi di euro desiderava aumentare i ricavi. La società stava assistendo a un
elevato tasso di abbandono del carrello e non era in grado di modificare rapidamente i prezzi in base a richiesta, disponibilità di
magazzino e concorrenza. Nel settore della vendita online altamente competitivo, gli acquirenti possono facilmente confrontare i
prezzi e rivolgersi immediatamente alla concorrenza.
Per il rivenditore si presentava pertanto l’esigenza di comprendere meglio l’attività online dei consumatori e di mettere in relazione
il loro comportamento con i modelli di acquisto storici. A tale scopo, era necessario analizzare terabyte di dati in tempo reale con la
capacità di agire prima che l’acquirente abbandonasse il sito Web.
Il rivenditore ha selezionato Talend Big Data e Hadoop per unire tutte le applicazioni e i silo e i formati di dati relativi al fine di
ottenere nuove informazioni approfondite sulle aziende e sul comportamento online degli acquirenti.
Grazie a Talend, il rivenditore è ora in grado di analizzare dati reali e dati clickstream storici (oltre 5 terabyte) e di fornire risposte
estremamente tempestive, ad esempio annunci pubblicitari o modifiche dinamiche di prezzo, mentre i clienti sono ancora in
fase di acquisto online. Il rivenditore è in grado inoltre di prevedere con una percentuale pari al 90% di certezza se un acquirente
abbandonerà il carrello, nonché di ridurre del 20% la quantità di merce avanzata grazie a un’analisi dei dati più approfondita e a
tecniche di previsione migliori.
Con Talend e Hadoop,
il rivenditore online può
prevedere con una
percentuale pari al 90%
di certezza se un
acquirente abbandonerà
il carrello
www.talend.com
8
Architettura dati moderna
con Apache™ Hadoop®
Informazioni su Talend
In Talend la nostra missione è quella di connettere le organizzazioni basate sui dati, in modo che i nostri clienti siano in grado di
operare a loro volta in tempo reale con nuove informazioni su clienti, mercati e attività aziendali. Creato nel 2006, il nostro team
globale di esperti di integrazione si basa su tecnologie di innovazione open source per realizzare soluzioni di livello Enterprise che
consentano di far emergere più rapidamente il valore aziendale. Per progettazione, il software di integrazione Talend semplifica il
processo di sviluppo, riduce la curva di apprendimento e diminuisce il costo totale di proprietà grazie a una piattaforma unificata,
aperta e prevedibile. Con il supporto nativo di piattaforme di Big Data moderne, Talend riduce sensibilmente la complessità dei
processi di integrazione. Per ulteriori informazioni, visitate il sito Web all’indirizzo http://www.talend.com
Informazioni su Hortonworks
Hortonworks sviluppa, distribuisce e supporta l’unica piattaforma dati completamente open source. Il nostro team è composto
dal gruppo maggiore di sviluppatori e architetti dell’ecosistema Hadoop, che rappresentano e gestiscono i requisiti aziendali più
ampi in queste community. La soluzione Hortonworks Data Platform fornisce una piattaforma aperta che si integra perfettamente
con gli investimenti IT esistenti e sulla cui base le organizzazioni possono creare e sviluppare applicazioni supportate da Hadoop.
Hortonworks mantiene strette relazioni con i partner più strategici di gestione di data center per consentire ai nostri clienti di
sfruttare le opportunità più ampie rese disponibili da Hadoop. Per ulteriori informazioni, visitate il sito Web all’indirizzo
http://www.hortonworks.com.
www.talend.com
9
WP195-IT