Il data scientist - SDA Bocconi School of Management

0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 106
NUMBERS
a cura di emanuele borgonovo
Data Scientist
focus and trends
è direttore di Metodi
Quantitativi del Competence
Center, SDA Bocconi
School of Management.
[email protected]
In questo numero, i colleghi Elena Coffetti e Paolo Pasini ci propongono un’accattivante analisi sulla figura del data scientist, con
un’analisi approfondita sulle competenze di quella che si viene a delineare come una professione del futuro. Buona lettura!
“Data scientists are the people
who understand how to fish out answers
to important business questions
from today’s tsunami of unstructured
information”
Paolo Pasini
è direttore
Unit Sistemi Informativi,
SDA Bocconi
School of Management.
(da T.H. Davenport, D.J. Patil,
“Data Scientist: The sexiest job of the 21st century”,
Harvard Business Review, Oct. 2012)
[email protected]
I
l data scientist è una figura professionale
composita, multiforme, che raggruppa
in sé molteplici competenze, ma con intensità differenti a seconda degli obiettivi
e dei ruoli che deve assumere in azienda.
La figura professionale del data scientist
non è di nuova concezione, ma l’attenzione rivolta a tale figura dagli attori di mercato certamente sì. L’elevata dinamicità
del business, l’esigenza di monitorare e
migliorare i risultati aziendali e la forza dirompente dell’enorme disponibilità di dati
prodotta dalla grande varietà e velocità di
generazione delle fonti hanno messo in
luce un nuovo fabbisogno di competenze.
Già nel 2011 McKinsey, nel noto studio sui
Big Data, rileva un trend costante di interesse verso competenze nel campo dei
“deep analytical talent” nel mercato statunitense. Nello studio si afferma che nel
2018 il gap tra domanda (delle aziende) e
offerta (da parte delle università, delle business school e del mercato del lavoro)
potrebbe arrivare al 50-60% (figura 1) e
106
che tale gap si manifesterà anche in altri
mercati.
Occorre tuttavia rilevare che le università,
le business school, le società di consulenza, gli IT vendor e le aziende in genere,
quando citano la figura del data scientist,
non fanno riferimento a una figura professionale delineata sempre nel medesimo
modo. Se si osservano i percorsi di formazione relativi alla data science più in generale, e, più in particolare, i percorsi relativi
alla business intelligence, alla managerial
data analysis, alle business analytics; se si
analizzano le esperienze e le skill richieste
per l’inserimento o la riconversione professionale nel mondo del lavoro; se si rilevano i ruoli e le posizioni che ricoprono o
andranno a ricoprire tali figure nell’organizzazione aziendale, il quadro risulta
senza dubbio articolato, ricco di colori e di
sfumature differenti.
Interessante al riguardo è l’analisi presentata da Data Science Central1 in merito alla
rilevazione su 7500 contatti Linkedin operanti per la grande maggioranza nell’ambito della data science e in ambito analytics a
vario titolo. Da tale analisi risultano 105
job title differenti direttamente collegati a
data science o analytics (il primo per frequenza è data scientist; seguono: business
1. Cfr. www.datasciencecentral.com/profiles/blogs/
job-titles-for-data-scientists.
© RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI
Elena Coffetti
0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 107
e&m 1-2015
figura 1
offerta e domanda di “deep analytical talent” nel 2018
(migliaia di persone)
140-190
180
440-490
30
300
50-60% gap
relative to
2018 supply
150
2008
employment
Graduates with
deep analytical
talent
Others1
2018 supply
Talent gap
2018 projected
demand
analyst, analyst, data analyst, statistician,
business intelligence manager o analytics
specialist, manager, architect, consultant, director, chief officer ecc.), 70 titoli indirettamente collegati a data science o analytics e,
infine, sono stati rilevati 577 job title di carattere manageriale contenenti la parola
analytics combinata con Chief, Director,
Head, Principal.
Il data scientist non è un IT manager, non
è uno statistico, non è un matematico,
non è un programmatore, non è un analista di processi e dati per le decisioni aziendali e funzionali, non è un esperto di modelling, non è un risk manager: è una figura manageriale che combina queste professionalità in differenti forme. Deve possedere competenze di base di questi domini di conoscenza, ma al contempo deve
aver maturato competenze su alcuni di
questi in modo più significativo rispetto
agli altri, in funzione di ciò che le aziende
si attendono in termini di obiettivi e risultati e in funzione del ruolo che dovrà assumere nell’organizzazione.
La figura del data scientist può far riferimento a differenti profili che si basano su
un mix armonico di domini di conoscenze e
competenze che presentano gradi di intensità diversi, oltre a una base comune di soft
skill che riguardano, da un lato, le capacità creative di problem solving, la curiosità
e l’originalità nella ricerca (interna ed
esterna) e nell’uso dei dati, la capacità di
ricercare l’inaspettato, il pensiero laterale,
il teamworking, la gestione del cambiamento (soprattutto di natura cognitiva) e,
dall’altro, con pari rilevanza, le capacità di
comunicazione e di relazione per narrare
in modo intelligibile cosa suggeriscono i
dati e fornire risposte coerenti con i fabbisogni informativi espressi. I domini di conoscenze e competenze che danno origine ai differenti profili possono essere
identificati nei seguenti.
1. Il data scientist con un profilo da Advanced Business Intelligence (BI) Specialist ha
tipicamente competenze in progetti
(dall’analisi dei requisiti al go-live dell’applicazione) di business intelligence,
datawarehousing, business analytics
(software suite di IBM, Oracle, SAP/
BO, SAS, Qliktech, Teradata ecc.), e in
molti casi, avendo raggiunto una buo-
107
© RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI
1 other supply drivers include attrition (-), immigration (+), and reemploying previously
unemployed deep analytical talent (+).
source: us bureau of labor of statistics; us census; dun & bradstreet; company interviews;
mckinsey global institute analysis
fonte: mckinsey global institute, big data: the next frontier for innovation, competition
and productivity, maggio 2011
0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 108
NUMBERS
e. coffetti - p. pasini
figura 2
i differenti profili del data scientist
Sistemi IT per l’analisi dei dati
(BI systems, Datawarehouse,
Business Analytics portfolio,
Big Data systems);
BI Governance
5
4
3
Software tools
(linguaggi e ambienti di
sviluppo per la gestione dati,
per l’analisi statistica,
per la modellizzazione
matematica…)
Quantitative Methods/
Operation Research
(Statistica, Tecniche di
ottimizzazione, Data mining,
Financial Modelling,
Tecniche di simulazione,
Risk Modelling…)
2
1
0
© RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI
Business Decision Making
Processes
(Marketing, Supply Chain,
Costing, Risk…)
Adv. Business Intelligence Specialist
Adv. Developer
Adv. Quantitative Analyst
Adv. Business Data Analyst
na capacità nell’impostare e integrare
sistemi e architetture per la raccolta,
l’archiviazione, la pulizia, la modellizzazione, l’analisi e la presentazione dei
dati a livello aziendale (o divisionale),
possiede un’elevata capacità di BI governance, costituita da un’ottima conoscenza dei processi di demand e di valutazione/prioritizzazione delle richieste a livello aziendale, di sourcing e di
budgeting delle risorse umane, dati e IT
necessarie, soprattutto delle nuove tecnologie per i Big Data (per es. Hadoop,
InMemory Computing, Advanced Analytics ecc.). Conosce le basi della statistica nonché le varie tipologie di tool
usabili per l’analisi (tradizionale e avanzata) dei dati, in special modo per
l’analisi in realtime dei dati (generati da
transazioni, sensori o eventi online,
108
anche su web), ma ha soprattutto una
buona conoscenza dei processi di analisi e di decisione della propria azienda
(di marketing intelligence, di pricing, di
risk management, di cost analysis ecc.),
sviluppata sul campo o con una formazione manageriale specifica.
2. La figura manageriale del data scientist
con un profilo da Advanced Quantitative
Analyst, possiede solide e ampie competenze di statistica, di ricerca operativa, di modellizzazione matematica, affiancate naturalmente da un’ottima conoscenza dei tool di pulizia, modellizzazione, simulazione e di analisi statistica dei dati (per es. SPSS, SAS, R,
Mathlab ecc.); ha una buona conoscenza dei processi decisionali relativi al business ai quali è di supporto, unita a
una capacità di comunicare analisi e
0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 109
e&m 1-2015
logie e le tecniche quantitative utilizzabili e sulle varie tipologie di tools impiegabili (anche in termini di valutazione e
scelta delle risorse dedicate); detiene
inoltre una buona conoscenza di general management per lo sviluppo di temi
e problemi di natura interfunzionale. È
consapevole della frequente necessità
di integrare fonti e dati molto differenti, a volte di proprietà di altre funzioni
aziendali e spesso di natura esterna,
per cui è interessato a comprendere almeno le problematiche di integrazione
aziendale dei sistemi, delle basi dati
utilizzate, nonché i processi di demand
e di valutazione/prioritizzazione delle
richieste della propria funzione aziendale, di sourcing e di budgeting delle risorse umane, IT e dati (anche esterni)
necessarie.
Le declinazioni del data scientist sono tutte
presenti sul mercato, con livelli di intensità differenti perché provenienti da attori
diversi, che contribuiscono a creare l’offerta e la domanda di data scientist; fra questi
le università, le business school, le imprese di consulting e di system integration, gli
IT vendor, le aziende, la pubblica amministrazione e le organizzazioni più in generale. Solo con queste declinazioni in
mente è possibile quindi un veloce commento di alcuni dati di trend disponibili
sul mercato.
I dati proxy più rilevanti sull’interesse da
parte delle aziende circa la figura del data
scientist, che non sono necessariamente
da intendere come orientamento alla ricerca e assunzione di personale qualificato, provengono da Indeed.com e da Linkedin.com (figure 3 e 4). La prima fonte mostra come da gennaio 2011 la ricerca di lavoro che presenti le due parole chiave data
e scientist sia cresciuta esponenzialmente
fino a metà 2013 per poi avere una sensibile riduzione fino ai primi mesi del 2014.
109
© RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI
modelli in linguaggio fruibile per i propri interlocutori manageriali con sistemi di reporting quantitativo adeguatamente costruiti. A volte la conoscenza
del business richiesta è di natura trasversale in quanto supporta processi
decisionali non esclusivamente di natura funzionale. Riveste meno interesse
per questo profilo la capacità di avere
una visione “enterprise” e integrata dei
sistemi, dei dati, delle applicazioni e
delle piattaforme impiegabili, essendo
maggiormente focalizzato di volta in
volta sulla soluzione di specifici fabbisogni aziendali.
3. La figura manageriale del data scientist
con un profilo da Advanced Developer
possiede conoscenze e competenze focalizzate sulla computer science, sugli
strumenti IT e sui linguaggi di programmazione, con maggiore o minore
orientamento alla modellizzazione dei
dati (per es. PHP, Python ecc.), sul machine learning (per es. Apache Mahout),
sulla più recente organizzazione dei
dati non strutturati (per es. Hadoop), a
cui affianca conoscenza dei problemi
decisionali aziendali, che affronta con
lo sviluppo di applicazioni custom di
analisi, oltre a una conoscenza base dei
metodi di analisi statistica. Anche questo profilo è meno interessato a comprendere le architetture e le problematiche di integrazione aziendale dei sistemi e delle basi dati utilizzati, di cui è
sufficiente una conoscenza basica.
4. La figura manageriale del data scientist
con un profilo da Advanced Business
Data Analyst si origina generalmente in
una funzione aziendale ove ha sviluppato una profonda conoscenza dei problemi operativi e decisionali tipici del
dominio (per es. il marketing, la finanza ecc.), che sa analizzare, modellizzare e affrontare in modo creativo con
una buona competenza sulle metodo-
0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 110
NUMBERS
e. coffetti - p. pasini
figura 3
riscontro della job description con parole chiave:
data e scientist
PERCENTAGE OF MATCHING
JOB POSTINGS
0,03
0,02
0,01
0
Jan
2006
Jan
2007
Jan
2008
Jan
2009
Jan
2010
Jan
2011
Jan
2012
Jan
2013
Jan
2014
Data scientist
Data-scientist
fonte: indeed.com
Considerando che HBR pubblicò il primo
articolo che rilanciò la figura del data scientist nell’ottobre del 2012 e che le prime ricerche worldwide focalizzate su questi
temi furono presentate tra la fine del 2012
e i primi mesi del 2013 (da HBR, MIT
Sloan Management Review, McKinsey
Quarterly, BCG.Perspectives, SDA Bocconi), i numeri mostrano che l’interesse sul
web decollò almeno un anno prima, per
poi essere di fatto sostenuto dal dibattito
che si veniva a creare osservando i risultati e le provocazioni di queste ricerche.
Interessante è anche la fonte interna di
Linkedin Analytics che ha analizzato l’an-
© RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI
figura 4
Media
Statistician
interesse nel tempo con parole chiave: statistician
e data scientist
2005
2007
Data scientist
fonte: linkedin analytics, 2014
110
damento dei due termini di ricerca statistician e data scientist all’interno della sua
rete sociale di manager e professional.
Mentre si osserva un trend decrescente
della ricerca della parola chiave statistician
fino al 2009 e una sua successiva stabilizzazione, la parola chiave data scientist si
manifesta come interesse a partire dal
2008-2009 per poi crescere negli anni
successivi e aumentare esponenzialmente
a partire dal 2012.
EMC, in uno studio condotto sulla Data
Science Community relativo alla figura del
data scientist, rileva che gli ostacoli alla diffusione della data science nelle aziende, in
2009
2011
2013
0110.numbers_115_0110.numbers_115.qxd 26/01/15 16.07 Pagina 111
e&m 1-2015
figura 5
gli ostacoli alla diffusione della data science nelle
organizzazioni
THE BIGGEST OBSTACLE TO DATA SCIENCE ADOPTION IN OUR ORGANIZATION IS:
32% 32% 14% 10% 9% 3%
Employees
don’t have the
right skills or
training
Lack budget or
resouces
The wrong
organizational
structure
Lack of
necessary tools
or technology
Insufficient
executive
support
Other
2. Bureau of Labor Statistics,
U.S. Department of Labor, Occupational Outlook Handbook,
2014-15 Edition, Computer and
Information Research Scientists.
3. CNNMoney, Best Jobs in
America, PayScale’s top 100 careers with big growth, great pay
and satisfying work, 2013.
termini di sviluppo sia del settore sia della
professione del data scientist, sono da ricondursi per il 32% alla mancanza di competenze e formazione e, in pari misura
(32%), alla mancanza di risorse aziendali.
Nello stesso studio si riporta che, nonostante la data science stia generando
nuove opportunità, i 2/3 dei rispondenti
prevedono che nei prossimi nove anni la
domanda di data scientist supererà significativamente l’offerta.
Il Bureau of Labor Statistics2 prevede per i
prossimi dieci anni un tasso di crescita
della figura del Computer and Information
Research Scientist del 15%; CNNMoney,3
tra i lavori più attrattivi e meglio retribuiti,
prevede un tasso di crescita della figura
dell’IT Data Scientist del 18,8% per i prossimi dieci anni. Entrambi rilevano nel mercato del lavoro US già 26-28.000 posizioni
attive nel 2013 presso le aziende finali o società di consulting o system integrator
(circa lo 0,02% della forza lavoro US 2013).
I trend relativi alla figura del data scientist
mostrano una domanda in crescita e più
ricerche rilevano che sul mercato il numero di figure manageriali con i profili descritti sarà insufficiente a soddisfare la
crescente richiesta. Il gap fra domanda e
offerta è previsto in ulteriore aumento nel
corso dei prossimi anni. Non è pensabile
che questa carenza possa essere colmata
solo con un ripensamento e una rimodulazione dei percorsi universitari, e quindi
attendendo che le persone con lauree caratterizzate da domini di conoscenza di
partenza sapientemente ricombinati maturino poi le competenze manageriali necessarie nelle direzioni richieste. Si tratta
di un’azione importante da porre in atto
nel breve, ma non sufficiente a rispondere
alla crescente domanda dei profili di data
scientist del futuro. Risulta necessario formare un numero significativo di figure e di
talenti già presenti nelle aziende tramite
percorsi formativi dedicati che consentano di associare ai propri domini di conoscenza, maturati in anni di esperienza, le
competenze ancillari e complementari
che caratterizzano il profilo specifico di
data scientist per i fabbisogni richiesti. È
questo il compito affidato alla formazione
post-experience e quindi alle business
school, le quali, cogliendo questo fabbisogno e questa sfida con la realizzazione di
nuovi progetti formativi (corsi executive,
percorsi profilati, academy, master, progetti su misura per le aziende ecc.) per i
differenti profili del data scientist, possono
contribuire fattivamente allo sviluppo
delle competenze di questa complessa figura professionale in fieri. π
111
© RCS Libri SpA - TUTTI I DIRITTI SONO RISERVATI
fonte: emc, “data scientist study.infographics”