LA TECHNOLOGY TRANSFER PRESENTA SHAKU ATRE I 10 SKILL NECESSARI PER OTTENERE IL MASSIMO DAI BIG DATA ROMA 4-5 APRILE 2016 RESIDENZA DI RIPETTA - VIA DI RIPETTA, 231 [email protected] www.technologytransfer.it I 10 SKILL NECESSARI PER OTTENERE IL MASSIMO DAI BIG DATA DESCRIZIONE La tecnologia dei Big Data è nuova per la maggior parte delle organizzazioni così come la consapevolezza delle competenze necessarie per ottenere il massimo dai Big Data. Avere questi skill dall’oggi al domani è una pura illusione. Di conseguenza, nella maggior parte delle organizzazioni, una grande percentuale di skill sui Big Data ha bisogno di essere imparata o recuperata all’esterno, o un po’ entrambe le cose. Grandi volumi di dati sono necessari per scoprire correlazioni e per convalidare o confutare ipotesi. Questi metodi puntano dritti alla Data Science. In passato la Data Science veniva praticata solo nel mondo accademico, oggi, per essere e rimanere competitivi nel mercato, tutte le aziende hanno bisogno di avere questi skill accademici ma con una grande differenza: nel mondo accademico i risultati non vengono richiesti velocemente e, per problemi e dati molto complessi, viene preso tutto il tempo necessario, ma ci sono dei business che non se lo possono permettere. Ottenere i risultati in tempo è di fondamentale importanza per il successo del business. Questo per dire che, al di là dei grandi volumi di dati, il più grande problema è la velocità con cui i dati arrivano, vengono lavorati e in quanto tempo si forniscono i risultati ai decision makers. Questo seminario indica i principali 10 skill che bisogna avere per ottenere il massimo dai Big Data. I dati passano principalmente attraverso 4 fasi, i principali problemi con i Big Data accadono nelle fasi 2, 3 e 4. • Fase 1: I dati sono generati da transazioni, interazioni e osservazioni • Fase 2: I dati sono ricevuti da varie sorgenti - i sistemi riceventi sono abbastanza veloci per gestire l’output dei sistemi che generano i dati? • Fase 3: I dati sono memorizzati e elaborati – la capacità di memoria è sufficiente e la velocità del processing? • Fase 4: Viene creato il valore dei dati – ma viene fatto abbastanza velocemente per poter dare dei benefici alla bottom line del business? In particolare i partecipanti impareranno: Gli Analisti di Big Data dovrebbero avere i seguenti punti di forza: • Una familiarità con i più recenti linguaggi statistici come R • Capire e usare tecniche analitiche di modeling • Una familiarità con i dati che devono essere analizzati • Una mentalità risk-taking per sperimentare con i dati Alcuni Skill tecnici che sono necessari: • Una buona conoscenza ed esperienza con il software Open Source • Architettare i dati in databases con terabytes di dati • Gestire framework software come Hadoop e avere conoscenza di databases come noSQL, Cassandra e HBase • Esperienza con linguaggi analitici di programmazione come R o Pig • Abilità nel gestire hardware con migliaia di “piccole” CPU per multipli terabytes di dati Soft Skill che non sono direttamente correlati con il Big Data ma sono necessari: • Capire gli in e gli out del business • Capire la “bottom line” del business • Capire quali sono le domande analitiche che rispondono alle domande “bottom-line” • Skill di comunicazione per spiegare i risultati analitici • Capire non solo transazioni ma anche interazioni e osservazioni PARTECIPANTI CEO, CFO, CIO, CTO, Middle Management, Project Managers, Analisti di sistema, Sviluppatori, Programmatori di sistema, Database Administrators, Utenti a vari livelli e Professionisti. PROGRAMMA 1. Open Source: Apache Hadoop Un software processing di Big Data deve essere in grado di spargere i dati in porzioni da destinare a un certo numero di processori e di riassembarli senza perdere niente in questo processo. La piattaforma Hadoop è potente ma richiede skill tecnici in grado di maneggiare la memoria distribuita e l’architettura del processing. Skills sullo stack Hadoop come HDFS, MapReduce, Flume, Oozie, Hive, Pig, HBase e YARN sono altamente richiesti. 2. Open Source: Apache Spark – un’alternativa a MapReduce A differenza del paradigma MapReduce a 2 stadi basato su disco di Hadoop, Spark usa primitive in-memory a più stadi così da fornire per certe applicazioni una performance fino a 100 volte più veloce permettendo ai programmi utente di caricare dati in una memoria di cluster e di interrogarli ripetutamente. Spark potrebbe essere usato sia all’interno della Framework Hadoop che all’esterno. Spark richiede conoscenze tecniche per programmare ed eseguire. 3. Altre tecnologie: Python, Data Lake, NoSQL Python È un linguaggio di programmazione ad alto livello molto usato. La sua filosofia enfatizza la leggibilità del codice e la sua sintassi permette ai programmatori di esprimere concetti in poche linee di codice rispetto ai linguaggi C++ o Java. Supporta diversi paradigmi di programmazione incluso object-oriented, imperative, programmazione funzionale o procedurale. Data Lake Un Data Lake è un grande repository che “mantiene i dati fino a quando sono necessari”. Il termine è stato coniato dallo Chief Technology Officer di Pentaho. NoSQL Un database NoSQL fornisce un meccanismo di memorizzazione e recupero dei dati che viene modellato con altri mezzi e non solo con le relazioni tabellari usate nei database relazionali. Le motivazioni per questo approccio includono: semplicità di design, un più semplice scaling “orizzontale” ai cluster delle macchine, che è un problema per i database relazionali, e un miglior controllo sulla disponibilità 4. SQL Un linguaggio di programmazione che vive da oltre 40 anni. È stato resuscitato dopo un ristagno del mondo relazionale. Se NoSQL è usato in ambienti complessi e dati eterogenei, SQL è usato per applicazioni più semplici. A causa dell’impeto di organizzazioni come Impala di Cloudera, SQL sta quasi diventando la lingua franca per la nuova generazione di Hadoop-scale Data Warehouse. 5. Linguaggi di programmazione general purpose: Java, C, Python, Scala Linguaggi di programmazione general purpose come Java, C, Python e Scala potrebbero essere molto utili alle persone con un background sull’analitica. I programmatori con background sull’analitica sono altamente richiesti. 6. Data Mining e Machine Learning Data Mining È un processo computazionale per individuare patterns in grandi insiemi di dati (Big Data) che utlilizza metodi che si intersecano con intelligenza artificiale, machine learning, statistica e databases. È un’analisi di dati che ha lo scopo di trovare delle gemme di informazione nascosta in mezzo a una vasta quantità di dati che sono stati catturati durante il normale svolgimento del business. Machine Learning Si è evoluta dallo studio di pattern recognition e teoria di computational learning nell’intelligenza artificiale. Machine Learning approfondisce lo studio e la costruzione di algoritmi che possono imparare e fare previsioni sui dati. 7. Analisi statistica e Quantitativa Questo è il nocciolo di cosa sono i Big Data e del loro scopo principale. Se una persona ha un background in ragionamenti quantitativi e una laurea in matematica o statistica è già a metà strada. Se avete lavorato con il linguaggio R o avete usato software statistico avete fatto un certo numero di passi avanti. 8. Visualizzazione dei dati I Big Data possono essere molto complicati da comprendere se uno si sofferma solo su numeri e lettere. Non ci sono paragoni in termini di comprensibilità per il nostro cervello rispetto ai nostri occhi che vedono la forma dei nostri dati. La rappresentazione visualizzata è una interfaccia che presenta informazioni in un modo facile da capire e da correlare, spesso in modo grafico, e che fornisce agli utenti una grande quantità di informazioni utili al primo sguardo. 9. Creatività La creatività è un fenomeno che crea qualcosa di nuovo e in qualche modo di valore. Non importa quale software o hardware usate, in qualsiasi settore dell’industria, il Vostro cervello è inestimabile. I tools che abbiamo descritto in questo seminario in pochi anni verranno rimpiazzati da altri tools, ma il nostro cervello è stato sviluppato in milioni di anni. La potenziale creatività delle nostre cellule cerebrali è enorme. La curiosità è la chiave della creatività che ci porta a nuovi modi di guardare i Big Data. Puoi raccontare storie sui dati e comunicarle alle persone appropriate? Ti piacciono i dati e ti piace giocare con loro? 10. Problem solving Se sei esperto in un settore come salute, finanze, telecomunicazioni, retail, ecc. e hai la capacità di pensare senza condizionamenti (guardi i dati in maniera differente dal modo in cui vengono generalmente guardati dagli altri), se non hai paura di remare controcorrente e di non scegliere il cammino più facile per convenienza, allora sei il miglior candidato per i progetti sui Big Data. Avete mai pensato di spostare la Business Analytics dall’IT ai dipartimenti di business? È completamente irrealistico pensare che una persona abbia tutti gli skill necessari per gestire i Big Data, di conseguenza le persone richieste devono essere diverse. Un manager dovrebbe avere un bilanciamento “Yin Yang”. Per esempio, dovreste avere 2 persone: una con maggiore conoscenza dell’area Hadoop e una minore conoscenza dell’area Spark, l’altra dovrebbe avere una maggiore conoscenza sull’area Spark e una minore conoscenza sull’area Hadoop. In questo modo, se una dei due lascia il team, l’azienda non è completamente disarmata. INFORMAZIONI € 1300 (+iva) La quota di partecipazione comprende documentazione, colazioni di lavoro e coffee breaks. LUOGO Roma, Residenza di Ripetta Via di Ripetta, 231 DURATA ED ORARIO 2 giorni: 9.30-13.00 14.00-17.00 MODALITÀ D’ISCRIZIONE Il pagamento della quota, IVA inclusa, dovrà essere effettuato tramite bonifico, codice IBAN: IT 03 W 06230 03202 000057031348 Banca: Cariparma Agenzia 1 di Roma intestato alla Technology Transfer S.r.l. e la ricevuta di versamento inviata insieme alla scheda di iscrizione a: TECHNOLOGY TRANSFER S.r.l. Piazza Cavour, 3 00193 ROMA (Tel. 06-6832227 Fax 06-6871102) entro il 21 Marzo 2016 È previsto il servizio di traduzione simultanea Vi consigliamo di far precedere la scheda d’iscrizione da una prenotazione telefonica. SHAKU ATRE I 10 SKILL NECESSARI PER OTTENERE IL MASSIMO DAI BIG DATA Roma 4-5 Aprile 2016 Residenza di Ripetta Via di Ripetta, 231 Quota di iscrizione: € 1300 (+iva) In caso di rinuncia o di cancellazione dei seminari valgono le condizioni generali riportate sopra. CONDIZIONI GENERALI In caso di rinuncia con preavviso inferiore a 15 giorni verrà addebitato il 50% della quota di partecipazione, in caso di rinuncia con preavviso inferiore ad una settimana verrà addebitata l’intera quota. In caso di cancellazione del seminario, per qualsiasi causa, la responsabilità della Technology Transfer si intende limitata al rimborso delle quote di iscrizione già pervenute. SCONTI I partecipanti che si iscriveranno al seminario 30 giorni prima avranno uno sconto del 5%. Se un’azienda iscrive allo stesso evento 5 partecipanti, pagherà solo 4 partecipazioni. Gli sconti per lo stesso evento non sono cumulabili fra di loro. Ai sensi dell’art. 13 della legge n. 196/2003, il partecipante è informato che i suoi dati personali acquisiti tramite la scheda di partecipazione al seminario saranno trattati da Technology Transfer anche con l’ausilio di mezzi elettronici, con finalità riguardanti l’esecuzione degli obblighi derivati dalla Sua partecipazione al seminario, per finalità statistiche e per l’invio di materiale promozionale dell’attività di Technology Transfer. Il conferimento dei dati è facoltativo ma necessario per la partecipazione al seminario. Il titolare del trattamento dei dati è Technology Transfer, Piazza Cavour, 3 - 00193 Roma, nei cui confronti il partecipante può esercitare i diritti di cui all’art. 13 della legge n. 196/2003. nome ...................................................................... cognome ................................................................ funzione aziendale ................................................. azienda .................................................................. Timbro e firma partita iva ............................................................... codice fiscale ......................................................... indirizzo .................................................................. città ........................................................................ cap ......................................................................... provincia ................................................................ telefono .................................................................. È previsto il servizio di traduzione simultanea TUTELA DATI PERSONALI ✂ QUOTA DI PARTECIPAZIONE fax .......................................................................... e-mail ..................................................................... Da restituire compilato a: Technology Transfer S.r.l. Piazza Cavour, 3 - 00193 Roma Tel. 06-6832227 - Fax 06-6871102 [email protected] www.technologytransfer.it DOCENTE Shaku Atre è una speaker eccezionale che ha la reputazione di catturare l’attenzione dei partecipanti e di mantenere vivo l’interesse anche in presenza di argomenti complessi. È presidente di Atre Group Inc. una società di consulenza, training e publishing nel settore della Business Intelligence. È stata Partner in Price Waterhouse e 14 anni in IBM. I suoi articoli sono frequentemente pubblicati in Computerworld, Information Week, Information Management, Tech Web e altre importanti pubblicazioni di computer. Ha scritto numerosi libri fra i quali ricordiamo il best seller Database: Structured Techniques for Design, Performance and Management pubblicato da John Wiley and Sons, che ha venduto più di 250.000 copie ed è stato adottato da molte importanti Università tra cui Harvard, Columbia, Cornell, MIT, New York University, Stanford and U.C. Berkeley. Il suo ultimo libro pubblicato è Business Intelligence Roadmap: The Complete Project Lifecycle for Decision-Support Applications.