0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 106 NUMBERS a cura di emanuele borgonovo Data Scientist focus and trends è direttore di Metodi Quantitativi del Competence Center, SDA Bocconi School of Management. [email protected] In questo numero, i colleghi Elena Coffetti e Paolo Pasini ci propongono un’accattivante analisi sulla figura del data scientist, con un’analisi approfondita sulle competenze di quella che si viene a delineare come una professione del futuro. Buona lettura! “Data scientists are the people who understand how to fish out answers to important business questions from today’s tsunami of unstructured information” Paolo Pasini è direttore Unit Sistemi Informativi, SDA Bocconi School of Management. (da T.H. Davenport, D.J. Patil, “Data Scientist: The sexiest job of the 21st century”, Harvard Business Review, Oct. 2012) [email protected] I l data scientist è una figura professionale composita, multiforme, che raggruppa in sé molteplici competenze, ma con intensità differenti a seconda degli obiettivi e dei ruoli che deve assumere in azienda. La figura professionale del data scientist non è di nuova concezione, ma l’attenzione rivolta a tale figura dagli attori di mercato certamente sì. L’elevata dinamicità del business, l’esigenza di monitorare e migliorare i risultati aziendali e la forza dirompente dell’enorme disponibilità di dati prodotta dalla grande varietà e velocità di generazione delle fonti hanno messo in luce un nuovo fabbisogno di competenze. Già nel 2011 McKinsey, nel noto studio sui Big Data, rileva un trend costante di interesse verso competenze nel campo dei “deep analytical talent” nel mercato statunitense. Nello studio si afferma che nel 2018 il gap tra domanda (delle aziende) e offerta (da parte delle università, delle business school e del mercato del lavoro) potrebbe arrivare al 50-60% (figura 1) e 106 che tale gap si manifesterà anche in altri mercati. Occorre tuttavia rilevare che le università, le business school, le società di consulenza, gli IT vendor e le aziende in genere, quando citano la figura del data scientist, non fanno riferimento a una figura professionale delineata sempre nel medesimo modo. Se si osservano i percorsi di formazione relativi alla data science più in generale, e, più in particolare, i percorsi relativi alla business intelligence, alla managerial data analysis, alle business analytics; se si analizzano le esperienze e le skill richieste per l’inserimento o la riconversione professionale nel mondo del lavoro; se si rilevano i ruoli e le posizioni che ricoprono o andranno a ricoprire tali figure nell’organizzazione aziendale, il quadro risulta senza dubbio articolato, ricco di colori e di sfumature differenti. Interessante al riguardo è l’analisi presentata da Data Science Central1 in merito alla rilevazione su 7500 contatti Linkedin operanti per la grande maggioranza nell’ambito della data science e in ambito analytics a vario titolo. Da tale analisi risultano 105 job title differenti direttamente collegati a data science o analytics (il primo per frequenza è data scientist; seguono: business 1. Cfr. www.datasciencecentral.com/profiles/blogs/ job-titles-for-data-scientists. © RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI Elena Coffetti 0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 107 e&m 1-2015 figura 1 offerta e domanda di “deep analytical talent” nel 2018 (migliaia di persone) 140-190 180 440-490 30 300 50-60% gap relative to 2018 supply 150 2008 employment Graduates with deep analytical talent Others1 2018 supply Talent gap 2018 projected demand analyst, analyst, data analyst, statistician, business intelligence manager o analytics specialist, manager, architect, consultant, director, chief officer ecc.), 70 titoli indirettamente collegati a data science o analytics e, infine, sono stati rilevati 577 job title di carattere manageriale contenenti la parola analytics combinata con Chief, Director, Head, Principal. Il data scientist non è un IT manager, non è uno statistico, non è un matematico, non è un programmatore, non è un analista di processi e dati per le decisioni aziendali e funzionali, non è un esperto di modelling, non è un risk manager: è una figura manageriale che combina queste professionalità in differenti forme. Deve possedere competenze di base di questi domini di conoscenza, ma al contempo deve aver maturato competenze su alcuni di questi in modo più significativo rispetto agli altri, in funzione di ciò che le aziende si attendono in termini di obiettivi e risultati e in funzione del ruolo che dovrà assumere nell’organizzazione. La figura del data scientist può far riferimento a differenti profili che si basano su un mix armonico di domini di conoscenze e competenze che presentano gradi di intensità diversi, oltre a una base comune di soft skill che riguardano, da un lato, le capacità creative di problem solving, la curiosità e l’originalità nella ricerca (interna ed esterna) e nell’uso dei dati, la capacità di ricercare l’inaspettato, il pensiero laterale, il teamworking, la gestione del cambiamento (soprattutto di natura cognitiva) e, dall’altro, con pari rilevanza, le capacità di comunicazione e di relazione per narrare in modo intelligibile cosa suggeriscono i dati e fornire risposte coerenti con i fabbisogni informativi espressi. I domini di conoscenze e competenze che danno origine ai differenti profili possono essere identificati nei seguenti. 1. Il data scientist con un profilo da Advanced Business Intelligence (BI) Specialist ha tipicamente competenze in progetti (dall’analisi dei requisiti al go-live dell’applicazione) di business intelligence, datawarehousing, business analytics (software suite di IBM, Oracle, SAP/ BO, SAS, Qliktech, Teradata ecc.), e in molti casi, avendo raggiunto una buo- 107 © RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI 1 other supply drivers include attrition (-), immigration (+), and reemploying previously unemployed deep analytical talent (+). source: us bureau of labor of statistics; us census; dun & bradstreet; company interviews; mckinsey global institute analysis fonte: mckinsey global institute, big data: the next frontier for innovation, competition and productivity, maggio 2011 0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 108 NUMBERS e. coffetti - p. pasini figura 2 i differenti profili del data scientist Sistemi IT per l’analisi dei dati (BI systems, Datawarehouse, Business Analytics portfolio, Big Data systems); BI Governance 5 4 3 Software tools (linguaggi e ambienti di sviluppo per la gestione dati, per l’analisi statistica, per la modellizzazione matematica…) Quantitative Methods/ Operation Research (Statistica, Tecniche di ottimizzazione, Data mining, Financial Modelling, Tecniche di simulazione, Risk Modelling…) 2 1 0 © RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI Business Decision Making Processes (Marketing, Supply Chain, Costing, Risk…) Adv. Business Intelligence Specialist Adv. Developer Adv. Quantitative Analyst Adv. Business Data Analyst na capacità nell’impostare e integrare sistemi e architetture per la raccolta, l’archiviazione, la pulizia, la modellizzazione, l’analisi e la presentazione dei dati a livello aziendale (o divisionale), possiede un’elevata capacità di BI governance, costituita da un’ottima conoscenza dei processi di demand e di valutazione/prioritizzazione delle richieste a livello aziendale, di sourcing e di budgeting delle risorse umane, dati e IT necessarie, soprattutto delle nuove tecnologie per i Big Data (per es. Hadoop, InMemory Computing, Advanced Analytics ecc.). Conosce le basi della statistica nonché le varie tipologie di tool usabili per l’analisi (tradizionale e avanzata) dei dati, in special modo per l’analisi in realtime dei dati (generati da transazioni, sensori o eventi online, 108 anche su web), ma ha soprattutto una buona conoscenza dei processi di analisi e di decisione della propria azienda (di marketing intelligence, di pricing, di risk management, di cost analysis ecc.), sviluppata sul campo o con una formazione manageriale specifica. 2. La figura manageriale del data scientist con un profilo da Advanced Quantitative Analyst, possiede solide e ampie competenze di statistica, di ricerca operativa, di modellizzazione matematica, affiancate naturalmente da un’ottima conoscenza dei tool di pulizia, modellizzazione, simulazione e di analisi statistica dei dati (per es. SPSS, SAS, R, Mathlab ecc.); ha una buona conoscenza dei processi decisionali relativi al business ai quali è di supporto, unita a una capacità di comunicare analisi e 0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 109 e&m 1-2015 logie e le tecniche quantitative utilizzabili e sulle varie tipologie di tools impiegabili (anche in termini di valutazione e scelta delle risorse dedicate); detiene inoltre una buona conoscenza di general management per lo sviluppo di temi e problemi di natura interfunzionale. È consapevole della frequente necessità di integrare fonti e dati molto differenti, a volte di proprietà di altre funzioni aziendali e spesso di natura esterna, per cui è interessato a comprendere almeno le problematiche di integrazione aziendale dei sistemi, delle basi dati utilizzate, nonché i processi di demand e di valutazione/prioritizzazione delle richieste della propria funzione aziendale, di sourcing e di budgeting delle risorse umane, IT e dati (anche esterni) necessarie. Le declinazioni del data scientist sono tutte presenti sul mercato, con livelli di intensità differenti perché provenienti da attori diversi, che contribuiscono a creare l’offerta e la domanda di data scientist; fra questi le università, le business school, le imprese di consulting e di system integration, gli IT vendor, le aziende, la pubblica amministrazione e le organizzazioni più in generale. Solo con queste declinazioni in mente è possibile quindi un veloce commento di alcuni dati di trend disponibili sul mercato. I dati proxy più rilevanti sull’interesse da parte delle aziende circa la figura del data scientist, che non sono necessariamente da intendere come orientamento alla ricerca e assunzione di personale qualificato, provengono da Indeed.com e da Linkedin.com (figure 3 e 4). La prima fonte mostra come da gennaio 2011 la ricerca di lavoro che presenti le due parole chiave data e scientist sia cresciuta esponenzialmente fino a metà 2013 per poi avere una sensibile riduzione fino ai primi mesi del 2014. 109 © RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI modelli in linguaggio fruibile per i propri interlocutori manageriali con sistemi di reporting quantitativo adeguatamente costruiti. A volte la conoscenza del business richiesta è di natura trasversale in quanto supporta processi decisionali non esclusivamente di natura funzionale. Riveste meno interesse per questo profilo la capacità di avere una visione “enterprise” e integrata dei sistemi, dei dati, delle applicazioni e delle piattaforme impiegabili, essendo maggiormente focalizzato di volta in volta sulla soluzione di specifici fabbisogni aziendali. 3. La figura manageriale del data scientist con un profilo da Advanced Developer possiede conoscenze e competenze focalizzate sulla computer science, sugli strumenti IT e sui linguaggi di programmazione, con maggiore o minore orientamento alla modellizzazione dei dati (per es. PHP, Python ecc.), sul machine learning (per es. Apache Mahout), sulla più recente organizzazione dei dati non strutturati (per es. Hadoop), a cui affianca conoscenza dei problemi decisionali aziendali, che affronta con lo sviluppo di applicazioni custom di analisi, oltre a una conoscenza base dei metodi di analisi statistica. Anche questo profilo è meno interessato a comprendere le architetture e le problematiche di integrazione aziendale dei sistemi e delle basi dati utilizzati, di cui è sufficiente una conoscenza basica. 4. La figura manageriale del data scientist con un profilo da Advanced Business Data Analyst si origina generalmente in una funzione aziendale ove ha sviluppato una profonda conoscenza dei problemi operativi e decisionali tipici del dominio (per es. il marketing, la finanza ecc.), che sa analizzare, modellizzare e affrontare in modo creativo con una buona competenza sulle metodo- 0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 110 NUMBERS e. coffetti - p. pasini figura 3 riscontro della job description con parole chiave: data e scientist PERCENTAGE OF MATCHING JOB POSTINGS 0,03 0,02 0,01 0 Jan 2006 Jan 2007 Jan 2008 Jan 2009 Jan 2010 Jan 2011 Jan 2012 Jan 2013 Jan 2014 Data scientist Data-scientist fonte: indeed.com Considerando che HBR pubblicò il primo articolo che rilanciò la figura del data scientist nell’ottobre del 2012 e che le prime ricerche worldwide focalizzate su questi temi furono presentate tra la fine del 2012 e i primi mesi del 2013 (da HBR, MIT Sloan Management Review, McKinsey Quarterly, BCG.Perspectives, SDA Bocconi), i numeri mostrano che l’interesse sul web decollò almeno un anno prima, per poi essere di fatto sostenuto dal dibattito che si veniva a creare osservando i risultati e le provocazioni di queste ricerche. Interessante è anche la fonte interna di Linkedin Analytics che ha analizzato l’an- © RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI figura 4 Media Statistician interesse nel tempo con parole chiave: statistician e data scientist 2005 2007 Data scientist fonte: linkedin analytics, 2014 110 damento dei due termini di ricerca statistician e data scientist all’interno della sua rete sociale di manager e professional. Mentre si osserva un trend decrescente della ricerca della parola chiave statistician fino al 2009 e una sua successiva stabilizzazione, la parola chiave data scientist si manifesta come interesse a partire dal 2008-2009 per poi crescere negli anni successivi e aumentare esponenzialmente a partire dal 2012. EMC, in uno studio condotto sulla Data Science Community relativo alla figura del data scientist, rileva che gli ostacoli alla diffusione della data science nelle aziende, in 2009 2011 2013 0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 111 e&m 1-2015 figura 5 gli ostacoli alla diffusione della data science nelle organizzazioni THE BIGGEST OBSTACLE TO DATA SCIENCE ADOPTION IN OUR ORGANIZATION IS: 32% 32% 14% 10% 9% 3% Employees don’t have the right skills or training Lack budget or resouces The wrong organizational structure Lack of necessary tools or technology Insufficient executive support Other 2. Bureau of Labor Statistics, U.S. Department of Labor, Occupational Outlook Handbook, 2014-15 Edition, Computer and Information Research Scientists. 3. CNNMoney, Best Jobs in America, PayScale’s top 100 careers with big growth, great pay and satisfying work, 2013. termini di sviluppo sia del settore sia della professione del data scientist, sono da ricondursi per il 32% alla mancanza di competenze e formazione e, in pari misura (32%), alla mancanza di risorse aziendali. Nello stesso studio si riporta che, nonostante la data science stia generando nuove opportunità, i 2/3 dei rispondenti prevedono che nei prossimi nove anni la domanda di data scientist supererà significativamente l’offerta. Il Bureau of Labor Statistics2 prevede per i prossimi dieci anni un tasso di crescita della figura del Computer and Information Research Scientist del 15%; CNNMoney,3 tra i lavori più attrattivi e meglio retribuiti, prevede un tasso di crescita della figura dell’IT Data Scientist del 18,8% per i prossimi dieci anni. Entrambi rilevano nel mercato del lavoro US già 26-28.000 posizioni attive nel 2013 presso le aziende finali o società di consulting o system integrator (circa lo 0,02% della forza lavoro US 2013). I trend relativi alla figura del data scientist mostrano una domanda in crescita e più ricerche rilevano che sul mercato il numero di figure manageriali con i profili descritti sarà insufficiente a soddisfare la crescente richiesta. Il gap fra domanda e offerta è previsto in ulteriore aumento nel corso dei prossimi anni. Non è pensabile che questa carenza possa essere colmata solo con un ripensamento e una rimodulazione dei percorsi universitari, e quindi attendendo che le persone con lauree caratterizzate da domini di conoscenza di partenza sapientemente ricombinati maturino poi le competenze manageriali necessarie nelle direzioni richieste. Si tratta di un’azione importante da porre in atto nel breve, ma non sufficiente a rispondere alla crescente domanda dei profili di data scientist del futuro. Risulta necessario formare un numero significativo di figure e di talenti già presenti nelle aziende tramite percorsi formativi dedicati che consentano di associare ai propri domini di conoscenza, maturati in anni di esperienza, le competenze ancillari e complementari che caratterizzano il profilo specifico di data scientist per i fabbisogni richiesti. È questo il compito affidato alla formazione post-experience e quindi alle business school, le quali, cogliendo questo fabbisogno e questa sfida con la realizzazione di nuovi progetti formativi (corsi executive, percorsi profilati, academy, master, progetti su misura per le aziende ecc.) per i differenti profili del data scientist, possono contribuire fattivamente allo sviluppo delle competenze di questa complessa figura professionale in fieri. π 111 © RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI fonte: emc, “data scientist study.infographics”