Job description e costruzione di profili professionali. Una sperimentazione di tecniche di data mining applicate agli annunci di lavoro online. Saverio Lovergine, Achille Pierre Paliotta ISFOL Corso Italia, 33, 00198 Roma (RM) [email protected] [email protected] Obiettivi del presente lavoro sono la sperimentazione della costruzione di un profilo professionale (Business Analyst) ricavato dalla domanda, ossia dall’analisi delle job vacancies, estratte con tecniche di data mining dal principale motore di ricerca verticale (Indeed.com), mediante software (Iramuteq, Python e R), il quale sarà confrontato con lo stesso profilo presente in sistemi di classificazione ufficiali, nonché l’individuazione dei titoli alternativi, ottenuti dalle suddette vacancies, da comparare con altre fonti (AICA). 1. Metodologia Cinque sono state le fasi per raggiungere i suddetti obiettivi. La prima, ha riguardato la scelta del sito web dal quale estrarre i dati per costruire il profilo professionale. Tra i vertical job search engine la scelta è caduta sul principale sito di ricerca di lavoro al mondo “Indeed.com” (www.it.indeed.com). La seconda fase è stata quella della raccolta delle informazioni contenute nelle inserzioni del “Business Analyst”. Dal sito italiano di Indeed.com, il 18 febbraio 2016 sono state estratte 232 inserzioni (168 in italiano e 64 redatte in inglese). La terza fase, di data cleaning, ha avuto l’obiettivo di ridurre l’eterogeneità dei contenuti e il basso livello di strutturazione degli annunci prevedendo l’applicazione di tecniche quali: la tokenization (la rimozione degli spazi bianchi in eccesso, dei caratteri speciali e dei segni di punteggiatura); l’eliminazione delle stopwords (parti del discorso presenti frequentemente nei testi, quali articoli, pronomi, ecc. ma non utili nell’analisi testuale e negli algoritmi di classificazione) e la riscrittura degli errori di battitura (spell-errors). La quarta fase è stata quella del trattamento del dato mediante vari software di analisi open source. Mediante il programma R si sono ottenuti diversi n-grams – una sottosequenza di n elementi di una data sequenza – ovvero delle catene di Markov di ordine n-1: bigram (un n-gram di lunghezza 2), trigram (3), “quadrigram (4). La quinta fase è servita a definire il profilo di Business Analyst (vedi Fig. 1), i titoli alternativi, che sono stati confrontati con altre fonti (vedi Tab. 1) e la localizzazione delle inserzioni (vedi Fig. 2). 2. Conclusioni Dalla costruzione della figura Business Analyst, facendo uso delle inserzioni pubblicate in rete, sulla base di conoscenze, competenze e skills (hard e soft), emerge DIDAMATICA 2016, ISBN: 9788898091447 DIDAMATICA 2016 che le competenze linguistiche (lingua inglese, scritta e parlata), l’utilizzo di pacchetti applicativi (suite per l’ufficio e di gestione e analisi dati) sono fondamentali così come il livello di istruzione richiesto (laurea in ingegneria, economia e informatica). Le problematiche riscontrate in questa prima sperimentazione sono derivate dall’estrazione dei dati in modo “non guidato” (fase 2 – raccolta delle informazioni); obiettivo della prossima sperimentazione sarà, dunque, l’uso di tecniche di machine learning e di algoritmi in maniera “guidata”. Per motivi di spazio non è stato possibile riportare il profilo professionale ricavato dalle 64 inserzioni in lingua inglese, le elaborazioni e i grafici ottenuti con i programmi Iramuteq, Python e R e il confronto esaustivo con le classificazioni delle professioni ufficiali. Figura 1 – Profilo di Business Analyst ricavato dalle inserzioni di lavoro* COMPETENZE DIGITALI (PACCHETTI APPLICATIVI) pacchetto office, 20 (+ office in particolare excel, 9) sql server, 15 sap business, 12 database oracle, 11 dbms sql database, 9 SOFT SKILLS problem solving, 53 capacità di analisi, 42 capacità relazionali, 33 orientamento al risultato, 15 lavorare in team, 13 COMPETENZE LINGUISTICHE lingua inglese, 104 conoscenza lingua, 99 lingua inglese scritta, 25 inglese scritto e parlato, 9 BUSINESS ANALYST ESPERIENZA anni esperienza, 50 esperienza minima, 26 ISTRUZIONE E FORMAZIONE (LAUREA) ingegneria gestionale, 59 ingegneria, 41 laurea specialistica, 35 ingegneria informatica, 24 economia e ingegneria,18 laurea breve, 15 ingegneria gestionale/fisica/matematica/ informatica, 7 HARD SKILLS project management, 30 analisi dati, 23 disegno processi aziendali, 13 business analyst project management, 9 sviluppo piattaforme middleware, 9 progetti integrazione sap dbms, 9 *I numeri rappresentano le frequenze degli n-grams negli annunci. Figura 2 – Localizzazione degli annunci Tabella 1 - Titoli Alternativi Database “Indeed” Business Analyst, 70 IT Business Analyst, 8 System Integration Specialist, 6 Credit & Business Analyst, 3 Marketing Business Analyst, 2 AICA Business Analyst Business Development Manager (ICT Role, CS) Business Intelligence Developer (Microsoft) Business/Systems Analyst (ICT Role) Nomenclatura Unità Professionali ISFOL-ISTAT Analista di business Analista di sistemi informativi Progettista di sistemi informativi Responsabile di sistemi informativi Revisore di sistemi informativi Global Application Maintenance Specialist, 2 IT SAP Business Analyst, 2 SAP CRM Functional Analyst, 2 Supply Chain Business Analyst, 2 2