EMC GREENPLUM DATA COMPUTING APPLIANCE Verso il futuro del data warehousing PUNTI ESSENZIALI • Hardware e software specifici per data warehousing altamente scalabili che integrano Greenplum Database, Greenplum HD e applicazioni di terze parti a livello di architettura, nonché elaborazione, storage e rete in un sistema di livello enterprise semplice da implementare • Ottimizzazione per l'esecuzione rapida di query, caricamento dei dati ineguagliabile e scalabilità lineare • Soluzione completa di analisi modulare avanzata per la gestione di dati strutturati e non strutturati e processi ETL o di Business Intelligence • Un'unica piattaforma per data warehousing, data mart, text mining ed elaborazione statistica • Analisi più approfondite e maggiore valore dei dati grazie a funzionalità analitiche avanzate e accesso ai dati unificato • High Availability, storage e disaster recovery di livello enterprise con le soluzioni EMC esistenti RISOLVERE LE PROBLEMATICHE DI UN MONDO BASATO SUI DATI Costi IT in aumento, crescita esponenziale dei volumi di dati e sfide competitive in continua evoluzione hanno rivoluzionato il modo di concepire sistemi efficaci per l'analisi dei dati. Tutti questi sviluppi hanno prodotto radicali modifiche nella tecnologia dei database e generato un nuovo approccio per l'utilizzo dei dati. Le architetture legacy per l'analisi e la gestione dei dati prodotte più di dieci anni fa sono intrinsecamente inadeguate per il dimensionamento dei volumi di Big Data odierni. EMC® Greenplum® Data Computing Appliance (DCA) fornisce tutta la potenza di un'architettura MPP (Massively Parallel Processing), offrendo al contempo la maggiore velocità di caricamento dati e il migliore rapporto prezzo/prestazioni del settore, senza la complessità e i limiti dell'hardware proprietario. Si tratta di un appliance specifico per l'analisi dei dati parallelo e altamente scalabile, che integra a livello di architettura database, elaborazione, storage e rete in un sistema di livello enterprise semplice da implementare. EMC Greenplum DCA è un appliance di analisi dei Big Data unificato, ovvero una soluzione modulare per dati strutturati e non strutturati e per le applicazioni dei partner Greenplum relative, ad esempio, a processi di Business Intelligence ed ETL (Extract/Transform/Load). Le aziende possono partire dall'implementazione di un singolo rack primario, che include un modulo Greenplum Database (Standard o High-Capacity), e, quando la domanda di capacità di elaborazione cresce, espandere l'appliance in incrementi di un quarto di rack, utilizzando i moduli Greenplum Database Standard, Greenplum Database High Capacity, Greenplum HD e Greenplum Data Integration Accelerator in qualsiasi ordine e numero fino ad un massimo di sei rack. Tutti i moduli sono collegati mediante un'interconnessione ad alta velocità, bassa latenza e prestazioni elevate. Con Greenplum DCA le organizzazioni possono eseguire l'analisi di Big Data in modo semplice e veloce. L'utilizzo di un appliance integrato, che offre prestazioni ottimizzate, facilità di implementazione, maggiore monitoraggio e gestibilità del sistema e minore ingombro, permette di ottenere i risultati desiderati in tempi più brevi. I moduli Greenplum DCA semplificano notevolmente l'espansione della capacità e delle prestazioni di Greenplum Database (database analitico) e Greenplum HD (Hadoop) nei sistemi. Questo appliance per la gestione dei dati assicura le massime flessibilità e scalabilità alle organizzazioni che intendono sfruttare le possibilità di passare da capacità di terabyte a capacità di petabyte. FUNZIONALITÀ DI DATA COMPUTING APPLIANCE PRESTAZIONI ESTREME E PREVEDIBILI CON SCALABILITÀ ELASTICA Greenplum Data Computing Appliance (DCA) è basato su EMC Greenplum Database, dotato di un'architettura MPP di tipo shared-nothing progettata per supportare la Business Intelligence e l'elaborazione analitica. Il principio essenziale di Greenplum Database è l'estremo avvicinamento dell'elaborazione ai dati e agli utenti. Ciò consente efficacemente D ATA S H E E T alle risorse computazionali di elaborare qualsiasi query in modo completamente parallelo, di utilizzare tutte le connessioni di storage simultaneamente e di spostare il flusso dei dati in maniera efficiente tra le risorse, come previsto dal piano di query. Ne risulta la possibilità di collocare una grande varietà di elaborazioni complesse il più vicino possibile ai dati, per garantire la massima efficienza di elaborazione e un'eccezionale versatilità. STREAMING SCATTER/GATHER PER IL CARICAMENTO DEI DATI Greenplum DCA gestisce il flusso dei dati in tutti i nodi dell'appliance utilizzando la tecnologia EMC Greenplum MPP Scatter/Gather Streaming™ (SG Streaming). Il sistema utilizza per il caricamento un approccio "ovunque in parallelo", grazie al quale i dati passano da uno o più sistemi di origine a tutti i nodi del database senza incontrare punti di ostruzione nella sequenza. Greenplum DCA raggiunge velocità di caricamento superiori a 10 terabyte all'ora per rack ed è quindi da due a cinque volte più veloce delle altre soluzioni appliance. La soluzione EMC Greenplum DCA offre la combinazione ideale di flessibilità, prezzo e prestazioni, che consente alle aziende di eliminare i ritardi nell'implementazione di applicazioni pratiche e intelligenti per l'analisi dei Big Data. CONFIGURAZIONE, MASTER SERVER E SEGMENT SERVER È possibile espandere il cluster Greenplum DCA connettendo fino ad un massimo di sei cabinet con distribuzione automatica dei dati e prestazioni migliorate per le query di analisi. Ogni rack primario contiene due master server e quattro segment server. In caso di configurazioni a più rack, nei rack di espansione non sono presenti master server. Nell'ambito del sistema Greenplum Database, i master server si occupano dell'autenticazione, dell'ottimizzazione della query, del bilanciamento del carico di lavoro tra i vari segment server e della gestione del meccanismo di fault tolerance dei dati. HIGH AVAILABILITY DI LIVELLO ENTERPRISE Greenplum DCA è un sistema in grado di soddisfare i requisiti di affidabilità della maggior parte delle aziende mission critical che utilizzano la fault tolerance con self-healing multilivello, tra cui failover automatizzato e risincronizzazione self-healing completamente online nonché livelli multipli di ridondanza e controllo di integrità. La disponibilità dei dati è costituita dalla protezione RAID hardware a livello di disco nonché dal mirroring dei dati tra i diversi segment server. L'affidabilità del sistema garantisce che non si verifichino perdite di dati se un disco o un server diventa inutilizzabile. IMPLEMENTAZIONE RAPIDA E PRESTAZIONI PREVEDIBILI Greenplum DCA è un appliance di dati specifico open system che integra a livello di architettura database, server e storage in un unico sistema di facile implementazione che è possibile espandere in pochi giorni, anziché in settimane o mesi. Il sistema può essere espanso in incrementi di modulo fino a più rack. L'integrazione e il tuning preliminare dell'appliance garantiscono prestazioni prevedibili e semplificano notevolmente il data warehouse e l'infrastruttura di analisi dei dati, con conseguente riduzione delle spese amministrative. BACKUP E DISASTER RECOVERY AFFIDABILI Greenplum DCA utilizza EMC Data Domain® ed EMC Symmetrix® per assicurare la protezione solida e affidabile di dati in remoto per l'ambiente di analisi dei dati. Grazie alla tecnologia di backup e deduplicazione EMC Data Domain, Greenplum DCA è in grado di eseguire ripristini di dati affidabili e rapidi con velocità di throughput di backup fino a 14 TB all'ora. La replica estesa Data Domain è inoltre qualificata per la replica remota dei sistemi Greenplum Database. La soluzione Greenplum DCA SAN Mirror utilizza EMC Symmetrix VMAX™, EMC TimeFinder®/Snap e Symmetrix Remote Data Facility (SRDF®) per eseguire lo storage avanzato e la replica dei dati tra due siti in modalità sincrona. STRUTTURA DI SUPPORTO PROATTIVA EMC ONE I servizi di Assistenza clienti EMC forniscono risorse e servizi per risolvere in maniera rapida e proattiva i problemi correlati alla soluzione, in modo da garantire la business continuity e un ambiente dati ad high availability. I servizi globali EMC di assistenza e manutenzione sono disponibili 24x7 mediante strumenti di supporto online, tra cui la live chat e la gestione online di service request, il supporto telefonico live e il supporto on-site, grazie all'organizzazione globale di assistenza sul campo leader del settore. MODULO GREENPLUM DB STANDARD • Migliore rapporto prezzo/prestazioni del settore • Supporta la scalabilità lineare MODULO GREENPLUM DB HIGH CAPACITY • Possibilità di contenere più petabyte di dati senza occupare spazio aggiuntivo e senza aumentare il consumo energetico o i costi MODULO GREENPLUM HD • Il primo appliance Hadoop per l'elaborazione congiunta di dati a prestazioni elevate del settore Greenplum DCA è inoltre abilitato con la funzionalità Secure Remote Support (dial-home), che prevede la risoluzione dei problemi remota e preventiva 24 ore su 24 attraverso l'invio al Centro Assistenza EMC di alert automatici relativi agli errori hardware e software critici. Il Centro Assistenza EMC effettua la diagnosi del problema in remoto per impedire o ridurre i tempi di inattività dei sistemi e invia automaticamente tecnici dell'assistenza per accelerare la risoluzione dei problemi hardware. • Consente l'elaborazione congiunta di dati strutturati e non strutturati MODULI DATA COMPUTING APPLIANCE • Modulo per data warehouse con il miglior prezzo per unità MODULO GREENPLUM DIA • Consente di contenere e integrare velocemente applicazioni analitiche di partner a Greenplum Data Computing I moduli Greenplum Data Computing Appliance (DCA) comprendono: • Greenplum Database Standard: un appliance specifico per l'analisi dei dati altamente scalabile, che integra a livello di architettura database, elaborazione, storage e rete in un sistema di livello enterprise semplice da implementare. Rappresenta il prodotto leader del settore per prezzo e prestazioni. • Greenplum Database High Capacity: un modulo progettato per contenere più petabyte di dati senza occupare spazio aggiuntivo e senza aumentare il consumo energetico o i costi. Alle aziende che richiedono un'analisi dettagliata di ingenti volumi di dati o a quelle che cercano un archivio a lungo termine, questo modello offre un data warehouse con il più basso costo per unità. • Greenplum HD: il primo modulo al mondo di appliance Hadoop per l'elaborazione congiunta di dati a prestazioni elevate. La soluzione DCA abbina Hadoop con Greenplum Database, consentendo l'elaborazione congiunta di dati strutturati e non strutturati in un'unica soluzione. • Greenplum Data Integration Accelerator (DIA): un modulo progettato per contenere e integrare velocemente applicazioni analitiche di partner alla soluzione Greenplum Data Computing Appliance. È, ad esempio, utilizzato per risolvere le sfide poste dal caricamento dei dati in un modello parallelo e scalabile per accorciare i carichi di batch o implementare il caricamento di micro-batch. Nella seguente tabella sono riepilogati i dettagli tecnici dei quattro moduli Greenplum DCA: Tipo di modulo Modulo Greenplum DB Standard Modulo Greenplum DB High Capacity Modulo Greenplum HD Modulo Greenplum DIA Software Greenplum Database Greenplum Database Greenplum HD CE Software di partner certificato Segment server 2 socket/12 core Memoria totale 192 GB Tipo di storage 600 GB 2 TB Numero totale di unità di storage 2 TB 2 TB 48 Capacità utilizzabile (non compressa) 9 TB 31 TB 28 TB 70 TB Capacità utilizzabile (compressa) 36 TB 124 TB 112 TB Non applicabile Configurazioni campione di cluster Greenplum DCA con moduli Greenplum Database e Greenplum Database High Capacity: Tipo di modulo Modulo GP DB Standard Modulo GP DB High Capacity Numero di moduli 4 24 4 24 Numero di rack 1 6 1 6 Capacità utilizzabile (non compressa) 36 TB 216 TB 124 TB 744 TB Capacità utilizzabile (compressa) 144 TB 864 TB 496 TB 2.976 TB Velocità di scansione 24 GB/sec 144 GB/sec 14 GB/sec 84 GB/sec Velocità di caricamento dati 10 TB/ora 60 TB/ora 10 TB/ora 60 TB/ora OTTIMIZZAZIONE DEI VANTAGGI OFFERTI DA EMC GREENPLUM DCA CON EMC GLOBAL SERVICES EMC Global Services fornisce una gamma completa di attività di assistenza e servizi per l'hardware e il software EMC Greenplum allo scopo di garantire prestazioni di sistema nell'ambiente conformi alle aspettative, riducendo al contempo i rischi per il business e il budget. I servizi professionali di pianificazione, progettazione e implementazione consentono alle aziende di realizzare velocemente il valore dell'hardware e del software, indipendentemente dal grado di complessità dell'ambiente. Dopo l'implementazione, i servizi EMC di migrazione dei dati supportano il cliente nelle fasi di pianificazione, progettazione e migrazione sicura dei dati critici al nuovo sistema, indipendentemente dalla distanza. EMC aiuta inoltre ad integrare nel nuovo sistema l'architettura delle informazioni e le applicazioni Business Intelligence e di analisi, quali SAS, Informatica, Micro Strategy, Business Objects e Tableau, e a gestire il nuovo ambiente una volta completato. Utilizzando al meglio le estese best practice EMC per l'implementazione delle soluzioni di data warehousing/Business Intelligence e con l'ausilio di una metodologia collaudata, il personale dei servizi professionali altamente qualificato collabora con i team di Project Management per accelerare il raggiungimento dei risultati aziendali senza sovraccaricare le risorse disponibili. EMC GREENPLUM DATA COMPUTING PRODUCTS DIVISION CONTATTI Per saperne di più sulle possibilità offerte dai prodotti, i servizi e le soluzioni EMC per superare le sfide aziendali e IT, contattare EMC Italia o un rivenditore autorizzato, oppure visitare il sito web www.italy.emc.com. EMC Data Computing Products Division rappresenta la forza trainante del futuro del data warehousing e dell'analisi dei dati, grazie a prodotti all'avanguardia quali EMC Greenplum HD, EMC Greenplum Data Computing Appliance, EMC Greenplum Database ed EMC Greenplum Chorus, la prima piattaforma di Enterprise Data Cloud del settore. I prodotti della divisione esprimono la potenza degli open system, del cloud computing, della virtualizzazione e della social collaboration, consentendo alle organizzazioni di ottenere analisi più approfondite e di sfruttare il valore dei dati come mai prima d'ora. EMC2, EMC, Data Domain, EMC Greenplum, EMC Greenplum MPP Scatter/Gather Streaming, SRDF, Symmetrix, TimeFinder, VMAX e il logo EMC sono marchi registrati o marchi di EMC Corporation negli Stati Uniti e in altri paesi. Tutti gli altri marchi citati nel presente documento appartengono ai rispettivi proprietari. © Copyright 2011 EMC Corporation. Tutti i diritti riservati. Pubblicato negli Stati Uniti. 9/11 Solution Overview H7419.5 EMC Computer Systems Italia S.p.A. Direzione e Filiale di Milano Via Giovanni Spadolini, 5 - Edificio A 20141 Milano tel. +39 02 409081 fax +39 02 48204686 www.italy.emc.com [email protected]