L A T E C H N O L O G Y Roma, 3-4 Dicembre 2015 Residenza di Ripetta Via di Ripetta, 231 T R A N S F E R P R E S E N T A INTERNATIONAL CONFERENCE 2 0 1 5 BIG DATA D E S C R I Z I O N Gli ultimi 12 mesi possono essere descritti come un turbine di nuovi avanzamenti tecnologici nel mercato dei Big Data. Forse una delle novità più importanti è stata l’esplosione di interesse nei confronti di Apache Spark. L’interesse sembra inarrestabile con un numero sempre crescente di vendors che lo supportano e la possibilità di avere Spark sia on-premises che nel Cloud. Questo nuovo ambiente di esecuzione in-memory ha diverse componenti tra cui Spark Streaming, Spark SQL, MLlib, GraphX, SparkR e il file system in-memory Tachyon. In aggiunta, sia Hadoop MapReduce, Hive e Pig stanno andando verso Spark. Oggi i Data Scientists possono fare uso di numerosi nuovi tools che girano su Spark per preparare e analizzare dati e/o sviluppare applicazioni analitiche nei linguaggi Scala, Java, Python e R. Molte altre cose stanno accadendo nel mondo dei Big Data. Per esempio il problema dell’Information Management e della Governance in un ambiente di Big Data è molto complicato perché ci sono tante nuove sorgenti dati e molti tools disponibili di data integration. Si dice: “creare un “Data Lake” centralizzato su Hadoop”. È una buona strategia? Cosa si può dire della data governance? E sulla sicurezza in ambiente Big Data? E come organizzare la Vostra Information Architecture con i Big Data? Cosa dire sui dati ad alta velocità come i dati di sensori da un Internet of Things? E dell’Analitica? Come è possibile dare un senso a tutti gli algoritmi? Come si usano e dove? Quali algoritmi sono utili e per quale scopo? Questa Conferenza fornisce un aggiornamento sui Big Data e Analytic, mostra gli ultimi sviluppi della tecnologia e indirizza importanti aree come Apache Spark, Analitica avanzata, SQL su Hadoop, IoT (Internet of Things). Si sofferma su importanti aspetti di management come la sicurezza in ambiente Big Data, l’esplosione delle sorgenti dati, l’impatto del self-service data integration e su come organizzare e governare i dati in un Data Lake. Lo scopo è quello di migliorare la Vostra conoscenza e aiutarVi a integrare queste nuove tecnologie nel Vostro ambiente esistente. E D E S C R I Z I O Gli argomenti trattati includeranno: • Apache Spark 101 • L’ecosistema Spark • Data Management e Tools analitici disponibili su Spark e Hadoop • IoT (Internet of Things) e Big Data: Problemi, Soluzioni e Sfide • Analitica: un intero nuovo mondo da esplorare • SQL su Hadoop: andare al di là delle nozioni base • Avere successo con i Big Data • Organizzare il Data Lake: Information Management in un mondo di Big Data • Gestire la Sicurezza in un ambiente Big Data N E P R O G R A M M A Prima Giornata ponente importante di Spark è SparkSQL che permette agli utenti di eseguire istruzioni SQL sui propri dati distribuiti. In questa sessione verranno spiegati i concetti che stanno Sessione 1 dietro ciascuna di queste quattro componenti. Apache Spark 101 Andy Petrella Molte grandi aziende sentono il bisogno di confrontarsi con le Sessione 3 tecnologie dei Big Data per far fronte alla incredibile quantità Data Management e Tools analitici disponibili su Spark e Hadoop di dati che devono elaborare per rimanere competitive. Mike Ferguson Apache Hadoop ha solo 10 anni ed è la più importante e famosa implementazione di HDFS (Distributed File System) e il paradigma di computing distribuito Map Reduce. Oggi, senza compromettere i pilastri di Hadoop, il progetto Apache Spark incrementa la performance sia in fase di produzione che in fase di esecuzione. Il suo stile di programmazione funzionale è particolarmente adatto al computing distribuito, il modo interattivo, caching in-memory per modelli iterativi ecc. In questa sessione verranno illustrati i principali concetti di Spark e i modi per utilizzarlo attraverso una dimostrazione live usando un toll interattivo analitico: The Spark Notebook. In aggiunta allo sviluppo di applicazioni analitiche su Spark e Hadoop ci sono altre opzioni disponibili per il Data Scientist che vuole ridurre drasticamente il time to value negli ambienti Big Data. Queste opzioni includono tools di self-service data integration, tools di sviluppo applicazioni analitiche real-time, tools di offline analytical workflow, tools di sviluppo del modello che sfruttano Spark e/o Hadoop. Questa sessione esamina il numero sempre crescente di tecnologie disponibili che permettono di sfruttare la scalabilità di Hadoop e Spark e che non richiedono la scrittura di programmi. • Velocizzare la Data Science: perché la non programmazio- Sessione 2 L’ecosistema Spark Andy Petrella Apache Spark offre uno stile di programmazione funzionale e una lenta valutazione runtime che porta espressività ed estensibilità all’API. Questa è la ragione per cui Spark sta attirando una grande attenzione producendo un ecosistema molto vasto e una grande comunità. L’ecosistema contiene molti importanti componenti come ne è un’opzione valida • Requisiti chiave per tools se si vuole migliorare la produttività • Preparare dati per analisi senza programmare, usando tools di Data Wrangling • Tools del modello di sviluppo che sfruttano Spark e analitica in-Hadoop • Costruire applicazioni analitiche basate su workflow senza programmare • Costruire applicazioni analitiche Apache Storm senza programmare Spark Streaming per micro batching, GraphX per analitica • Text Analytics e la potenza del Search grafica e MLlib per modelli di machine learning. Un’altra com- • Data Discovery interattivo e tools di visualizzazione dei dati Sessione 4 • Analitica 3.0 IoT (Internet of Things) e Big Data: Problemi, Soluzioni e Sfide • Machine Learning Vladimir Bacvanski • Clustering Le applicazioni IoT generano una quantità incredibile di dati che hanno bisogno di essere elaborati. Le tecnologie Big Data sembrano essere adatte per gestire questo problema. In questa sessione verranno indirizzati i problemi legati alla gestione di grandi volumi di dati, accessi differenti e processing pattern e aspetti inerenti al real-time delle applicazioni IoT. Verranno esplorate diverse soluzioni che vanno da Hadoop, varie archi- • Algoritmi • Categorization • Reccomendation • Regression • Capire i casi d’uso dell’analitica • Storie di implementazioni di successo • Visualizzazione • Tecnologie: R, Spark, Giraph, Neo4J e altre tetture NoSQL e architettura streaming e Lambda. • Applicazioni IoT: cosa c’è di diverso? • Gestire grandi volumi di dati • Architetture NoSQL per differenti access patterns Sessione 6 SQL su Hadoop: andare al di là delle nozioni base • Streaming processing e risposta real-time Krish Krishnan • Architettura Lamda: integrare real-time con Big Data L’evoluzione e l’accettazione di Hadoop all’interno dell’azienda per creare Data Foundations o Data Lake o Data Hub. Il Seconda Giornata problema che si è venuto a creare è relativo alla struttura dei dati che sono multi-strutturati, multi-formattati e gerarchie complesse basate su files. Come si fa a esplorare questi Sessione 5 Analitica: un intero nuovo mondo da esplorare Krish Krishnan dati? Abbiamo bisogno di andare oltre Python o Hive o MapReduce per ottenere una maggiore partecipazione del business. Questo richiede l’esecuzione di SQL su Hadoop. Quali sono le opzioni disponibili e quali gli avanzamenti tecnologici Il fenomeno dei Big Data ha cambiato il mondo del business che sono stati fatti per ACID like execution su una architettu- come nessuna altra cosa prima. La parte più importante di ra BASE? Questa sessione dscute di SQL su Hadoop. questa trasformazione consiste nell’evoluzione dell’analitica e nella sua adozione all’interno delle aziende. In questo nuovo • Un nuovo tipo di database distribuito analitico mondo abbiamo visto nuove tecniche di clustering, tecniche di • Motivazione modeling con R, in-memory computing con Spark e molte al- • Google File System tre tecnologie. Ma le aziende come fanno a fare lo shift dalla • Buono e cattivo su Hadoop BI all’Analitica? Perché l’Analitica? Seguite questa sessione • Apache Hive per saperne dei più. • Esempi di nuova architettura • MPP Database + Hadoop Connector • Complessità dell’integrazione dei dati • Google Dremel • L’approccio a silos per gestire e governare i dati • Apache Drill • Un nuovo approccio inclusivo per governare e gestire i dati • Cloudera Impala • Introdurre il Data Reservoir e la Data Refinery • Citus Data • Obiettivi di una Data Reservoir • Treasure Data • Come lavorano la Data Reservoir e la Data Refinery? • Actian • Tasks e servizi per gestire e preparare dati • L’importanza cruciale di un catalogo dell’informazione in un panorama di dati distribuiti Sessione 7 Avere successo con i Big Data Panel con Speakers e Vendors • Fare il mapping dei nuovi dati nel Vostro vocabolario di business condiviso • Integrare Data Reservoirs e Data Refineries nel Vostro ambiente esistente Sessione 8 Sessione 9 Organizzare il Data Lake: Information Management nel mondo dei Big Data Gestire la Sicurezza in un ambiente Big Data Mike Ferguson Vladimir Bacvanski L’integrazione dei dati sta avvenendo dappertutto all’interno I problemi di sicurezza negli ambienti Big Data sono amplifi- delle organizzazione sia che si tratti di Master Data Manage- cati non solo dal volume ma anche da una varietà di formati ment, Data Warehousing, costruzione di Data Marts, progetti di dati e di sorgenti dati, la velocità di acquisizione dei dati e di Data Science, real-time Analytics e molto altro. In aggiun- la complessità dell’infrastruttura Big Data. Le tradizionali so- ta, il numero delle nuove sorgenti dati che il business vuole luzioni di Data Security non risolvono il problema. In questa analizzare sta crescendo rapidamente. Il risultato di tutte sessione vengono discussi gli aspetti di sicurezza negli am- queste attività è che il costo dell’interazione di dati sta cre- bienti Big Data come Hadoop. Si discuteranno inoltre le solu- scendo molto rapidamente, stanno emergendo silos e si cor- zioni a questi problemi e le Best Practices in questo contesto. re il rischio di perdere il controllo della gestione e della governance dei dati. Di conseguenza molti stanno dicendo di crea- • Vulnerabilità nei sistemi Big Data re un “Data Lake”. Mettere tutti i dati in un posto dove si pos- • Sicurezza e Privacy sono pulire e integrare per qualsiasi scopo. Questa è una • Elaborazioni sicure buona strategia? Con tutti questi dati il Data Lake non po- • Mettere in sicurezza il Data Storage trebbe diventare un Data Swamp? Questa sessione esami- • Sicurezza in real-time na il problema e propone una nuova Information Architecture • Big Data e crittografia per organizzare, governare e gestire i dati e fornirli là dove • Auditing e Governance essi servono. • 7 modi di mettere in sicurezza gli ambienti Big Data SPEAKERS Mike Ferguson È Managing Director di Intelligent Business Andy Petrella Mike Ferguson Krish Krishnan Strategies Limited. Come consulente è specializzato Vladimir Bacvanski in Business Intelligence, Analytics, Big Data e Data Management. Ha più di 33 anni di esperienza di IT, stato frequentemente speaker in molti eventi e seminari in tutto il mondo. È stato Principal e cofondatore della Codd & Date UK e Chief Architect alla Teradata su DBMS Teradata e Managing Director Europeo di Database Associates. Andy Petrella È un matematico che si è dedicato al distributed computing engineering. È un trainer certificato di Scala/Spark ed è autore del libro The Learning Play! Framework 2. Ha partecipato a molti progetti costruiti su Spark, Cassandra e altre tecnologie distribuite in vari settori di mercato dal Geospaziale, a IoT, ad Automotive e Smart Cities. È il creatore di uno dei progetti più importanti su GitHub correlato ad Apache Spark e Scala, the Spark-notebook. (https://github.com/andypetrella/ spark-notebook/). Con Xavier Tordoir ha fondato la Data Fellas, una società dedicata alla Data Science e al computing distribuito. S C H E DA D ’ I S C R I Z I O N E ha operato consulenze per importanti aziende ed è Da restituire compilata a: Technology Transfer Piazza Cavour, 3 - 00193 Roma Tel. 06-6832227 Fax 06-6871102 www.technologytransfer.it [email protected] Partecipanti Direttori IT, CIO, IT Managers, Architetti IT, Business Intelligence Managers, Professionisti di Data Warehousing, Data Scientists, Enterprise Architects, Data Architects Krish Krishnan È un autorevolissimo esperto di fama internazionale sulla strategia, architettura e implementazione di soluzioni ad alte prestazioni di Big Data Analytics, Data Warehousing, Analytics e Business Intelligence. È considerato uno dei più autorevoli e influenti esperti di Data Warehousing nel mondo. È un analista indipendente, speaker e autore di 3 libri, 4 ebook, QUOTA DI PARTECIPAZIONE Euro 1400 (+IVA) La quota di partecipazione comprende documentazione, colazioni di lavoro e coffee breaks. MODALITÀ DI ISCRIZIONE Il pagamento della quota, IVA inclusa, dovrà essere effettuato tramite bonifico, codice Iban: IT 03 W 06230 03202 000057031348 Banca: Cariparma Agenzia 1 di Roma intestato alla Technology Transfer S.r.l. e la ricevuta di versamento inviata insieme alla scheda di iscrizione a: TECHNOLOGY TRANSFER S.r.l. Piazza Cavour, 3 - 00193 ROMA (Tel. 06.6832227 - Fax 06. 6871102) CONDIZIONI GENERALI In caso di rinuncia con preavviso inferiore a 15 giorni verrà addebitato il 50% della quota di partecipazione, in caso di rinuncia con preavviso inferiore ad una settimana verrà addebitata l’intera quota. In caso di cancellazione del seminario, per qualsiasi causa, la responsabilità della Technology Transfer si intende limitata al rimborso delle quote di iscrizione già pervenute. SCONTI DI GRUPPO Se un’azienda iscrive allo stesso evento 5 partecipanti, pagherà solo 4 partecipazioni. Chi usufruisce di questa agevolazione non ha diritto ad altri sconti per lo stesso evento. ISCRIZIONI IN ANTICIPO I partecipanti che si iscriveranno al seminario 30 giorni prima avranno uno sconto del 5%. entro il 18 Novembre 2015 ROMA 3-4 Dicembre 2015 Residenza di Ripetta Via di Ripetta, 231 In caso di rinuncia o di cancellazione dei seminari valgono le condizioni generali riportate sopra. Quota di iscrizione Euro 1400 (+IVA) più di 395 whitepapers, articoli e case studies nei settori di Big Data, Analytics, Business Intelligence, Data Warehousing, Data Warehouse Appliances e Architectures. È una indiscussa autorità sui Dati non strutturati, Social Analytics, Big Data, Text Mining e Text Analytics. Un innovatore ed esperto di soluzioni sulle architetture di Data Warehousing ad alte prestazioni e performance tuning di database complessi e piattaforme di Data Warehouse. Ha più di DURATA ED ORARIO 2 giorni: 9.30 - 13.00 14.00 - 17.00 24 anni di esperienza e fra i suoi clienti citiamo Bank of Australia, HBO, Bank of America, Target, Tesco, JP Morgan Chase, Allstate, Boeing e tanti altri. International Conference 2015 Nome Cognome Funzione aziendale Azienda Vladimir Bacvanski Partita IVA Codice fiscale Indirizzo Fondatore di SciSpike. È un consulente e mentore su CAP Città software avanzato, tecnologie dati, specializzato in Provincia tecnologie NoSQL e Big Data. Ha più di 20 anni di Telefono Fax esperienza nelle aree di architettura e design di E-mail sistemi enterprise distribuiti e mission critical, sistemi Timbro e firma isto È prevvizio il ser zione u di tradltanea simu Tutela dati personali Ai sensi dell’art. 13 della legge n. 196/2003, il partecipante è informato che i suoi dati personali acquisiti tramite la scheda di partecipazione al seminario saranno trattati da Technology Transfer anche con l’ausilio di mezzi elettronici, con finalità riguardanti l’esecuzione degli obblighi derivati dalla Sua partecipazione al seminario, per finalità statistiche e per l’invio di materiale promozionale dell’attività di Technology Transfer. Il conferimento dei dati è facoltativo ma necessario per la partecipazione al seminario. Il titolare del trattamento dei dati è Technology Transfer, Piazza Cavour, 3 - 00193 Roma, nei cui confronti il partecipante può esercitare i diritti di cui all’art. 13 della legge n. 196/2003. e linguaggi rule-based, tools di modeling, sistemi real-time, agent systems e tecnologie database. Ha inoltre una notevole esperienza in software architecture e analisi dei requisiti. TECHNOLOGY TRANSFER Piazza Cavour, 3 - 00193 Roma Tel. 06.6832227 - Fax 06.6871102 www.technologytransfer.it [email protected]