L A
T E C H N O L O G Y
Roma, 3-4 Dicembre 2015
Residenza di Ripetta
Via di Ripetta, 231
T R A N S F E R
P R E S E N T A
INTERNATIONAL
CONFERENCE
2 0 1 5
BIG DATA
D
E
S
C
R
I
Z
I
O
N
Gli ultimi 12 mesi possono essere descritti come un turbine di nuovi avanzamenti tecnologici
nel mercato dei Big Data. Forse una delle novità più importanti è stata l’esplosione di interesse
nei confronti di Apache Spark. L’interesse sembra inarrestabile con un numero sempre crescente di vendors che lo supportano e la possibilità di avere Spark sia on-premises che nel Cloud.
Questo nuovo ambiente di esecuzione in-memory ha diverse componenti tra cui Spark Streaming, Spark SQL, MLlib, GraphX, SparkR e il file system in-memory Tachyon. In aggiunta, sia
Hadoop MapReduce, Hive e Pig stanno andando verso Spark. Oggi i Data Scientists possono
fare uso di numerosi nuovi tools che girano su Spark per preparare e analizzare dati e/o sviluppare applicazioni analitiche nei linguaggi Scala, Java, Python e R.
Molte altre cose stanno accadendo nel mondo dei Big Data. Per esempio il problema dell’Information Management e della Governance in un ambiente di Big Data è molto complicato
perché ci sono tante nuove sorgenti dati e molti tools disponibili di data integration. Si dice: “creare un “Data Lake” centralizzato su Hadoop”. È una buona strategia? Cosa si può dire della data
governance? E sulla sicurezza in ambiente Big Data? E come organizzare la Vostra Information
Architecture con i Big Data? Cosa dire sui dati ad alta velocità come i dati di sensori da un Internet of Things? E dell’Analitica? Come è possibile dare un senso a tutti gli algoritmi? Come si usano e dove? Quali algoritmi sono utili e per quale scopo?
Questa Conferenza fornisce un aggiornamento sui Big Data e Analytic, mostra gli ultimi sviluppi della tecnologia e indirizza importanti aree come Apache Spark, Analitica avanzata, SQL su
Hadoop, IoT (Internet of Things). Si sofferma su importanti aspetti di management come la sicurezza in ambiente Big Data, l’esplosione delle sorgenti dati, l’impatto del self-service data integration e su come organizzare e governare i dati in un Data Lake. Lo scopo è quello di migliorare la Vostra conoscenza e aiutarVi a integrare queste nuove tecnologie nel Vostro ambiente esistente.
E
D
E
S
C
R
I
Z
I
O
Gli argomenti trattati includeranno:
• Apache Spark 101
• L’ecosistema Spark
• Data Management e Tools analitici disponibili su Spark e Hadoop
• IoT (Internet of Things) e Big Data: Problemi, Soluzioni e Sfide
• Analitica: un intero nuovo mondo da esplorare
• SQL su Hadoop: andare al di là delle nozioni base
• Avere successo con i Big Data
• Organizzare il Data Lake: Information Management in un mondo di Big Data
• Gestire la Sicurezza in un ambiente Big Data
N
E
P R O G R A M M A
Prima Giornata
ponente importante di Spark è SparkSQL che permette agli
utenti di eseguire istruzioni SQL sui propri dati distribuiti.
In questa sessione verranno spiegati i concetti che stanno
Sessione 1
dietro ciascuna di queste quattro componenti.
Apache Spark 101
Andy Petrella
Molte grandi aziende sentono il bisogno di confrontarsi con le
Sessione 3
tecnologie dei Big Data per far fronte alla incredibile quantità
Data Management e Tools analitici
disponibili su Spark e Hadoop
di dati che devono elaborare per rimanere competitive.
Mike Ferguson
Apache Hadoop ha solo 10 anni ed è la più importante e famosa implementazione di HDFS (Distributed File System) e il
paradigma di computing distribuito Map Reduce.
Oggi, senza compromettere i pilastri di Hadoop, il progetto
Apache Spark incrementa la performance sia in fase di produzione che in fase di esecuzione. Il suo stile di programmazione funzionale è particolarmente adatto al computing distribuito, il modo interattivo, caching in-memory per modelli iterativi ecc.
In questa sessione verranno illustrati i principali concetti di
Spark e i modi per utilizzarlo attraverso una dimostrazione
live usando un toll interattivo analitico: The Spark Notebook.
In aggiunta allo sviluppo di applicazioni analitiche su Spark e
Hadoop ci sono altre opzioni disponibili per il Data Scientist
che vuole ridurre drasticamente il time to value negli ambienti
Big Data. Queste opzioni includono tools di self-service data
integration, tools di sviluppo applicazioni analitiche real-time,
tools di offline analytical workflow, tools di sviluppo del modello che sfruttano Spark e/o Hadoop.
Questa sessione esamina il numero sempre crescente di
tecnologie disponibili che permettono di sfruttare la scalabilità di Hadoop e Spark e che non richiedono la scrittura di
programmi.
• Velocizzare la Data Science: perché la non programmazio-
Sessione 2
L’ecosistema Spark
Andy Petrella
Apache Spark offre uno stile di programmazione funzionale e
una lenta valutazione runtime che porta espressività ed
estensibilità all’API. Questa è la ragione per cui Spark sta attirando una grande attenzione producendo un ecosistema
molto vasto e una grande comunità.
L’ecosistema contiene molti importanti componenti come
ne è un’opzione valida
• Requisiti chiave per tools se si vuole migliorare la produttività
• Preparare dati per analisi senza programmare, usando
tools di Data Wrangling
• Tools del modello di sviluppo che sfruttano Spark e analitica
in-Hadoop
• Costruire applicazioni analitiche basate su workflow senza
programmare
• Costruire applicazioni analitiche Apache Storm senza programmare
Spark Streaming per micro batching, GraphX per analitica
• Text Analytics e la potenza del Search
grafica e MLlib per modelli di machine learning. Un’altra com-
• Data Discovery interattivo e tools di visualizzazione dei dati
Sessione 4
• Analitica 3.0
IoT (Internet of Things) e Big Data: Problemi,
Soluzioni e Sfide
• Machine Learning
Vladimir Bacvanski
• Clustering
Le applicazioni IoT generano una quantità incredibile di dati
che hanno bisogno di essere elaborati. Le tecnologie Big Data
sembrano essere adatte per gestire questo problema. In questa sessione verranno indirizzati i problemi legati alla gestione
di grandi volumi di dati, accessi differenti e processing pattern
e aspetti inerenti al real-time delle applicazioni IoT. Verranno
esplorate diverse soluzioni che vanno da Hadoop, varie archi-
• Algoritmi
• Categorization
• Reccomendation
• Regression
• Capire i casi d’uso dell’analitica
• Storie di implementazioni di successo
• Visualizzazione
• Tecnologie: R, Spark, Giraph, Neo4J e altre
tetture NoSQL e architettura streaming e Lambda.
• Applicazioni IoT: cosa c’è di diverso?
• Gestire grandi volumi di dati
• Architetture NoSQL per differenti access patterns
Sessione 6
SQL su Hadoop: andare al di là delle nozioni
base
• Streaming processing e risposta real-time
Krish Krishnan
• Architettura Lamda: integrare real-time con Big Data
L’evoluzione e l’accettazione di Hadoop all’interno dell’azienda per creare Data Foundations o Data Lake o Data Hub. Il
Seconda Giornata
problema che si è venuto a creare è relativo alla struttura dei
dati che sono multi-strutturati, multi-formattati e gerarchie
complesse basate su files. Come si fa a esplorare questi
Sessione 5
Analitica: un intero nuovo mondo da esplorare
Krish Krishnan
dati? Abbiamo bisogno di andare oltre Python o Hive o MapReduce per ottenere una maggiore partecipazione del business. Questo richiede l’esecuzione di SQL su Hadoop. Quali
sono le opzioni disponibili e quali gli avanzamenti tecnologici
Il fenomeno dei Big Data ha cambiato il mondo del business
che sono stati fatti per ACID like execution su una architettu-
come nessuna altra cosa prima. La parte più importante di
ra BASE? Questa sessione dscute di SQL su Hadoop.
questa trasformazione consiste nell’evoluzione dell’analitica e
nella sua adozione all’interno delle aziende. In questo nuovo
• Un nuovo tipo di database distribuito analitico
mondo abbiamo visto nuove tecniche di clustering, tecniche di
• Motivazione
modeling con R, in-memory computing con Spark e molte al-
• Google File System
tre tecnologie. Ma le aziende come fanno a fare lo shift dalla
• Buono e cattivo su Hadoop
BI all’Analitica? Perché l’Analitica? Seguite questa sessione
• Apache Hive
per saperne dei più.
• Esempi di nuova architettura
• MPP Database + Hadoop Connector
• Complessità dell’integrazione dei dati
• Google Dremel
• L’approccio a silos per gestire e governare i dati
• Apache Drill
• Un nuovo approccio inclusivo per governare e gestire i dati
• Cloudera Impala
• Introdurre il Data Reservoir e la Data Refinery
• Citus Data
• Obiettivi di una Data Reservoir
• Treasure Data
• Come lavorano la Data Reservoir e la Data Refinery?
• Actian
• Tasks e servizi per gestire e preparare dati
• L’importanza cruciale di un catalogo dell’informazione in un
panorama di dati distribuiti
Sessione 7
Avere successo con i Big Data
Panel con Speakers e Vendors
• Fare il mapping dei nuovi dati nel Vostro vocabolario di business condiviso
• Integrare Data Reservoirs e Data Refineries nel Vostro ambiente esistente
Sessione 8
Sessione 9
Organizzare il Data Lake: Information
Management nel mondo dei Big Data
Gestire la Sicurezza in un ambiente Big Data
Mike Ferguson
Vladimir Bacvanski
L’integrazione dei dati sta avvenendo dappertutto all’interno
I problemi di sicurezza negli ambienti Big Data sono amplifi-
delle organizzazione sia che si tratti di Master Data Manage-
cati non solo dal volume ma anche da una varietà di formati
ment, Data Warehousing, costruzione di Data Marts, progetti
di dati e di sorgenti dati, la velocità di acquisizione dei dati e
di Data Science, real-time Analytics e molto altro. In aggiun-
la complessità dell’infrastruttura Big Data. Le tradizionali so-
ta, il numero delle nuove sorgenti dati che il business vuole
luzioni di Data Security non risolvono il problema. In questa
analizzare sta crescendo rapidamente. Il risultato di tutte
sessione vengono discussi gli aspetti di sicurezza negli am-
queste attività è che il costo dell’interazione di dati sta cre-
bienti Big Data come Hadoop. Si discuteranno inoltre le solu-
scendo molto rapidamente, stanno emergendo silos e si cor-
zioni a questi problemi e le Best Practices in questo contesto.
re il rischio di perdere il controllo della gestione e della governance dei dati. Di conseguenza molti stanno dicendo di crea-
• Vulnerabilità nei sistemi Big Data
re un “Data Lake”. Mettere tutti i dati in un posto dove si pos-
• Sicurezza e Privacy
sono pulire e integrare per qualsiasi scopo. Questa è una
• Elaborazioni sicure
buona strategia? Con tutti questi dati il Data Lake non po-
• Mettere in sicurezza il Data Storage
trebbe diventare un Data Swamp? Questa sessione esami-
• Sicurezza in real-time
na il problema e propone una nuova Information Architecture
• Big Data e crittografia
per organizzare, governare e gestire i dati e fornirli là dove
• Auditing e Governance
essi servono.
• 7 modi di mettere in sicurezza gli ambienti Big Data
SPEAKERS
Mike
Ferguson
È Managing Director di Intelligent Business
Andy
Petrella
Mike
Ferguson
Krish
Krishnan
Strategies Limited. Come consulente è specializzato
Vladimir
Bacvanski
in Business Intelligence, Analytics, Big Data e Data
Management. Ha più di 33 anni di esperienza di IT,
stato frequentemente speaker in molti eventi e
seminari in tutto il mondo. È stato Principal e cofondatore della Codd & Date UK e Chief Architect
alla Teradata su DBMS Teradata e Managing
Director Europeo di Database Associates.
Andy
Petrella
È un matematico che si è dedicato al distributed
computing engineering. È un trainer certificato di
Scala/Spark ed è autore del libro The Learning
Play! Framework 2. Ha partecipato a molti
progetti costruiti su Spark, Cassandra e altre
tecnologie distribuite in vari settori di mercato dal
Geospaziale, a IoT, ad Automotive e Smart Cities.
È il creatore di uno dei progetti più importanti su
GitHub correlato ad Apache Spark e Scala, the
Spark-notebook. (https://github.com/andypetrella/
spark-notebook/). Con Xavier Tordoir ha fondato la
Data Fellas, una società dedicata alla Data Science
e al computing distribuito.
S C H E DA D ’ I S C R I Z I O N E
ha operato consulenze per importanti aziende ed è
Da restituire compilata a:
Technology Transfer
Piazza Cavour, 3 - 00193 Roma
Tel. 06-6832227
Fax 06-6871102
www.technologytransfer.it
[email protected]
Partecipanti
Direttori IT, CIO, IT Managers,
Architetti IT, Business
Intelligence Managers,
Professionisti di Data
Warehousing, Data Scientists,
Enterprise Architects,
Data Architects
Krish
Krishnan
È un autorevolissimo esperto di fama internazionale
sulla strategia, architettura e implementazione di
soluzioni ad alte prestazioni di Big Data Analytics,
Data Warehousing, Analytics e Business Intelligence.
È considerato uno dei più autorevoli e influenti esperti
di Data Warehousing nel mondo. È un analista
indipendente, speaker e autore di 3 libri, 4 ebook,
QUOTA DI PARTECIPAZIONE
Euro 1400 (+IVA)
La quota di partecipazione comprende documentazione, colazioni di lavoro e coffee breaks.
MODALITÀ DI ISCRIZIONE
Il pagamento della quota, IVA inclusa, dovrà
essere effettuato tramite bonifico, codice Iban:
IT 03 W 06230 03202 000057031348
Banca: Cariparma
Agenzia 1 di Roma
intestato alla Technology Transfer S.r.l.
e la ricevuta di versamento inviata insieme
alla scheda di iscrizione a:
TECHNOLOGY TRANSFER S.r.l.
Piazza Cavour, 3 - 00193 ROMA
(Tel. 06.6832227 - Fax 06. 6871102)
CONDIZIONI GENERALI
In caso di rinuncia con preavviso inferiore a 15
giorni verrà addebitato il 50% della quota di partecipazione, in caso di rinuncia con preavviso
inferiore ad una settimana verrà addebitata l’intera quota.
In caso di cancellazione del seminario, per qualsiasi causa, la responsabilità della Technology
Transfer si intende limitata al rimborso delle
quote di iscrizione già pervenute.
SCONTI DI GRUPPO
Se un’azienda iscrive allo stesso evento 5 partecipanti, pagherà solo 4 partecipazioni. Chi
usufruisce di questa agevolazione non ha diritto
ad altri sconti per lo stesso evento.
ISCRIZIONI IN ANTICIPO
I partecipanti che si iscriveranno al seminario 30
giorni prima avranno uno sconto del 5%.
entro il 18 Novembre 2015
ROMA
3-4 Dicembre 2015
Residenza di Ripetta
Via di Ripetta, 231
In caso di rinuncia o di cancellazione dei
seminari valgono le condizioni generali
riportate sopra.
Quota di iscrizione
Euro 1400 (+IVA)
più di 395 whitepapers, articoli e case studies nei
settori di Big Data, Analytics, Business Intelligence,
Data Warehousing, Data Warehouse Appliances e
Architectures. È una indiscussa autorità sui Dati non
strutturati, Social Analytics, Big Data, Text Mining e
Text Analytics. Un innovatore ed esperto di soluzioni
sulle architetture di Data Warehousing ad alte
prestazioni e performance tuning di database
complessi e piattaforme di Data Warehouse. Ha più di
DURATA ED ORARIO
2 giorni: 9.30 - 13.00
14.00 - 17.00
24 anni di esperienza e fra i suoi clienti citiamo Bank
of Australia, HBO, Bank of America, Target, Tesco, JP
Morgan Chase, Allstate, Boeing e tanti altri.
International
Conference
2015
Nome
Cognome
Funzione aziendale
Azienda
Vladimir
Bacvanski
Partita IVA
Codice fiscale
Indirizzo
Fondatore di SciSpike. È un consulente e mentore su
CAP
Città
software avanzato, tecnologie dati, specializzato in
Provincia
tecnologie NoSQL e Big Data. Ha più di 20 anni di
Telefono
Fax
esperienza nelle aree di architettura e design di
E-mail
sistemi enterprise distribuiti e mission critical, sistemi
Timbro e firma
isto
È prevvizio
il ser zione
u
di tradltanea
simu
Tutela dati personali Ai sensi dell’art. 13 della legge n. 196/2003, il partecipante è informato che i
suoi dati personali acquisiti tramite la scheda di partecipazione al seminario saranno trattati da
Technology Transfer anche con l’ausilio di mezzi elettronici, con finalità riguardanti l’esecuzione
degli obblighi derivati dalla Sua partecipazione al seminario, per finalità statistiche e per l’invio di
materiale promozionale dell’attività di Technology Transfer. Il conferimento dei dati è facoltativo
ma necessario per la partecipazione al seminario. Il titolare del trattamento dei dati è Technology
Transfer, Piazza Cavour, 3 - 00193 Roma, nei cui confronti il partecipante può esercitare i diritti
di cui all’art. 13 della legge n. 196/2003.
e linguaggi rule-based, tools di modeling, sistemi
real-time, agent systems e tecnologie database. Ha
inoltre una notevole esperienza in software
architecture e analisi dei requisiti.
TECHNOLOGY TRANSFER
Piazza Cavour, 3 - 00193 Roma
Tel. 06.6832227 - Fax 06.6871102
www.technologytransfer.it
[email protected]