Novembre 2015 Il valore dei Big Data a servizio del Business Dal presente al futuro Stefano Gatti – Innovation & Data Sources Manager Indice Overview Cerved e i suoi Big data I nostri dati “Volume, Velocity & Variety” Big Data Non solo tecnologia Big Data: dalla tecnologia alla pratica Il valore Il futuro non è più quello di una volta … Il valore dell’esperienza 2 Overview Aree Business & Numeri CREDIT INFORMATION Tutelarsi dal rischio di credito 1000 report/min Documenti 50 milioni Linee di codice SW MARKETING SOLUTIONS 34,000 Crescere con nuove opportunità di business 59 milioni Clienti Dati di Pagamenti 1,800 CREDIT MANAGEMENT Gestire e recuperare i crediti in sofferenza Persone 332 milioni Euro (2014) Ricavi 4 L’infrastruttura di erogazione Erogazione Prodotti > 500 prodotti Più di 2000 business-rules Business Rules 600 milioni di eventi dati di monitoraggio all’anno Piattaforma Operations > 200 progetti B2B Sourcing 800 TB dati 5 I nostri dati Lo scheletro dei nostri “big data” 5.930.000 aziende attive Oltre 17 milioni di aziende presenti per più di 20 milioni di localizzazioni 1.309.000 attività economiche non iscritte Anagrafiche “qualificate” 8.080.000 persone attive Oltre 16 milioni di persone distinte connesse ad aziende 7 I muscoli dei nostri “big data” Web Data A c c u r a c y Open Data Dati proprietari Dato ufficiale non camerale C o m p l e s s i t à Dato ufficiale camerale 8 L’universo dei nostri “Big Data” La base Visure Camerali 13.000.000 visure camerali «valide» (ultima fotografia aziende operative e cessate) Dato Camerale Procedure da visura 2.000.000 eventi rilevati (fallimenti, procedure, liquidazioni ecc.) Addetti Impresa 3.800.000 aziende operative con addetti rilevati trimestralmente a livello comunale Elenchi Soci 8.200.000 elenchi soci in banca dati validi (24.000.000 di relazioni di proprietà) Dato Camerale Dato Inps Dato Camerale 9 L’universo dei nostri “Big Data” La base Protesti Pregiudizievoli Banca dati Cigs Bilanci 1.415.000 anagrafiche «protestate» valide per 5.500.000 di effetti che con un’attività automatica e manuale sono associati al 100% a 760.000 privati e imprese 1.200.000 atti validi (non annotati) associati a 900.000 imprese e privati 52.000 Decreti presenti: associati a 22.000 aziende che sono o sono state coinvolte Serie storica bilanci dal 1984 con arricchimenti di dettagli di voci di bilancio nel 100% dei bilanci depositati. Esplorazione “semantica” della nota integrativa dal 2009 Dato Camerale Dato Conservatoria Dato Ministero Lavoro Dato Camerale 10 L’universo dei nostri “Big Data” Le unicità Payline Dati Immobiliari 3.000.000 aziende italiane operative con esperienze di pagamento Dati immobiliari su tutte le aziende italiane con “monitoraggio attivo del dato” Dato Proprietario Dato Catasto Titolare effettivo & Gruppi News 3.617.000 titolari effettivi e più di 160.000 gruppi italiani Una banca dati di oltre 1.700.000 news provenienti da media tradizionali. web-news: key-data project in corso Dato Proprietario Dato Proprietario 11 L’universo dei nostri “Big Data” Le unicità Attività economiche non iscritte Pubblica Amministrazione 1,3 milioni di attività economiche non iscritte in camera di commercio con anagrafiche “qualificate” e arricchimenti strategici (pagamenti, dati catastali, web-data ecc.) Circa 21.000 Enti e 10.000 partecipate. Più di 10 Fonti dati OpenData e proprietarie arricchite (Rating e integrate con le altri basi dati Cerved) Dato Proprietario Dato Proprietario Italian Corporate Web & Social Data 160 milioni di pagine web “italiane” sotto monitoraggio settimanale per alimentare il Corporate Web Database. Oltre 800.000 siti accoppiati ad aziende italiane. Più di 1.000.000 indirizzi mail validi & 150.000 referenze social. Dato Proprietario Open Data Oltre 4.000.000 di dati “puliti ed accoppiati” relativi ad aziende iscritte o non iscritte prelevati e monitorati da archivi “opendata” Dato Proprietario 12 Innovazione Il nostro motore Agile Spaziodati Minimum viable product, Scrum , Kanban Data Exploration Big Data Technologies Open Innovation Per scoprire nuovo valore nei nostri dati e per monitorarci al meglio Data Visualization Per mostrare e valorizzare le nostre unicità 13 Big Data: Non solo tecnologia … La Big Data Economy Cosa accomuna questi unicorni? Dati e tecnologia … 15 L’arrivo della Algorithmic Economy? L’evoluzione della Big data economy … 16 Big data & algorithms Per cosa? Sandy Pentland «Co-fondatore del MIT Media Lab, pioniere della human-machine interaction e fra i data scientist più importanti del mondo» Fonte: http://www.betterdecisions.it 17 Big Data Volume Le nostre 6 V V alue V a V r eracity i e V t y iable Velocity Le 3 V della “definizione” Le nostre 3 V più importanti 18 Big Data: dalla teoria alla pratica Big Data: dalla teoria alla pratica Qualche caso d’uso Cerved Il titolare effettivo di un’azienda. Graph database e network analysis per rivoluzionare un prodotto esistente Gruppi Cerved. Un’evoluzione al traguardo con algoritmi e graph database Graph4You. Integrazioni dati e nuovi algoritmi self-service su grafo. DBForYou. Analitycs big data self-service OpenData e non iscritte. Il dato aumentato … Atoka. Oltre l’ateco ma non solo … 20 The italian business network Il progetto Aracne La mappa dei soggetti economici e le relative interconnessioni • Ogni nodo del grafo identifica un soggetto (Società, Ditta, Azienda Estera, Persona, Ente, Non Iscritta, ecc…) • Ogni arco del grafo identifica un legame fra i nodi/soggetti: • legami di tipo POSITION (Esponente) • legami di tipo SHARE (Partecipazione fonte bilanci e fonte elenco soci) sia attivi che storici • Dimensioni del grafo: • 44.707.203 nodi • 44.798.256 relazioni • 305.887.075 proprietà • 22 GB di spazio occupato 21 Il titolare effettivo Un caso reale Willy (40%) Soc. A1 (40%) Duffy (60%) Soc. A (40%) Soc. A2 (60%) ACME spa Willy (40%) Willy (90%) Soc. B (50%) Soc. B1.1 (60%) Soc. B1 (40%) Bunny (10%) Soc. B2.1 (50%) Willy (10%) Livello 1: 10% • Soc. B2 (60%) Livello 2: 10% Speedy (50%) Livello 3: 24.4% Livello 4: 34.2% Fino al livello n° 3, nessuno penserebbe che Willy esercita un controllo effettivo di maggioranza sulla ACME. Willy sembra un socio minoritario di ACME 22 22 La situazione usando tecnologia «Big Data» Su tecnologia a grafo Database relazionale Tempi medi totali • Calcolato real time su 2.200.000 aziende per 3.617.00 titolari effettivi calcolati • Ricalcolo di 150.000 titolari effettivi all’ora 369 ms (fino al 5° livello) > 12 sec (dal 5° livello) Neo4J 39 ms (fino al 15° livello) Neo4J su un server con caratteristiche «standard» (8 core con 12GB di RAM) con uso di alcune funzionalità avanzate come il Traversal Framework e l’In-Memory Caching • Negli ultimi 6 mesi abbiamo inviato ai nostri clienti 350.000 notifiche real-time di variazione 23 Gruppi italiani Cerved Un prodotto esistente Il prodotto già oggi consente la ricostruzione dei gruppi di grandi, medie e piccole dimensioni che operano in tutti i settori economici 24 Nuovi gruppi italiani Cerved Un prodotto rivoluzionato Il risultato Il progetto • Da batch mensile a near real time Algoritmo • + 22 % recall (nuovi gruppi) • + 30 % precision (variazioni su gruppi esistenti per grafo più esteso, migliore gestione cicli di controllo e unione di cicli) Aracne • Prodotto facilmente personalizzabile per altre esigenze/clienti 25 Graph4You: innovation for business Un modo diverso di «analizzare i dati» Siamo partiti da: • • • 10% Esponente Italian Business Network (dati ufficiali) Esigenze di integrazione di nuovi dati da parte di alcuni Clienti Nuovi dati provenienti da progetti Cerved/Spaziodati di “data enrichment” 25% CERVEDGROUP 320 mln 43% SPAZIODATI 0,4 mln Payment Transaction Ateco Payment Transaction Produzione di software non connesso all'edizione Abbiamo pensato di: • • • Industrializzare la possibilità di creare grafi adhoc Capire a fondo le esigenze specifiche dei nostri Clienti (di processo e di uso dei nostri dati) Costruire in maniera agile ambienti dove consentire network-data exploration ai datascientist Web Link 90% Socio XIAOMI ltd 2.320 mln Property Position Payline Web Link Sector 26 Graph4You: la tecnologia che semplifica … Permette di connettere real time ed integrare i propri dati con tutte le informazioni economiche del tessuto economico italiano Filtri su : • Tipologia di nodi • Livello di connessione • Tipologia di connessione • Proprietà delle connessioni Dati: • Società iscritte e non, Enti • Soci ed esponenti • Titolari effettivi • Dati economici e finanziari • Dati interni cliente 27 DB For You: veloce, semplice e grande a piacere … Gli analitycs Big data 28 DB For You: analisi self-service real time Powered by Tableau 29 Attività economiche non iscritte Un puzzle di dati … • Quasi 500.000 sotto “monitoraggio” da qualche nostro Cliente • Di quasi 300.000 abbiamo esperienze payline significative nell’ultimo anno • Dati catastali del 100% del universo qualificato • Controllo protesti e pregiudizievoli (conservatoria) al 100% • Il 65% geo-localizzato a livello stradale (Comune, via e numero civico) • Arricchimento al 100% dei finanziamenti europei, nazionali e regionali ricevuti su progetti di coesione territoriale (OpenCoesione) • Monitoraggio siti e web e relativa estrazione dati (mail, telefoni, social ecc.) • Arricchimento da fonti OpenData già in essere. In progressione continua … 30 Attività economiche non iscritte Un arricchimento Open data 31 Atoka: Big data & machine learning per cosa? Trovare più facilmente i miei possibili Clienti in settori anche molto specifici aiutandomi a conoscerli meglio 160.000.000 Pagine web analizzate ogni settimana 6 milioni di aziende con tutti i loro dati 800.000 Siti web aziendali 90.000 Social Feed Social Media 32 Atoka: casi d’uso www.atoka.io 33 Atoka: casi d’uso www.atoka.io 34 Atoka: il dato aumentato www.atoka.io 35 Il futuro non è più quello di una volta … Cerved big data journey: «lessons learned» Estrarre valore dai dati esistenti con la tecnologia Estrarre nuovi dati con la tecnologia Il dato «aumentato» 37 Cerved big data journey: «lessons learned» «Data-telling»: saper raccontare il dato per estrarne il valore «Poliglottismo tecnologico»: un valore! Saper creare il contesto … 38 Il futuro non è più quello di una volta … "L'analfabeta del ventunesimo secolo non sarà colui che non è in grado di leggere e scrivere, ma colui che non è in grado di imparare, disimparare e imparare di nuovo" Alvin Toffler 39 Immagini non Cerved della presentazione © Jurgen Appelo, Creative Commons 3.0 BY http://www.management30.com/ Grazie! Stefano Gatti mailto: [email protected] Twitter: @micio1970