Novembre 2015
Il valore dei Big Data a servizio del Business
Dal presente al futuro
Stefano Gatti – Innovation & Data Sources Manager
Indice
Overview
Cerved e i suoi Big data
I nostri dati
“Volume, Velocity & Variety”
Big Data
Non solo tecnologia
Big Data: dalla tecnologia alla pratica
Il valore
Il futuro non è più quello di una volta …
Il valore dell’esperienza
2
Overview
Aree Business & Numeri
CREDIT INFORMATION
Tutelarsi dal rischio di credito
1000 report/min
 Documenti
50 milioni
 Linee di codice SW
MARKETING SOLUTIONS
34,000
Crescere con nuove opportunità di business
59 milioni
Clienti
Dati di Pagamenti
1,800
CREDIT MANAGEMENT
Gestire e recuperare i crediti in sofferenza
 Persone
332 milioni Euro (2014)
Ricavi
4
L’infrastruttura di erogazione
Erogazione
Prodotti
> 500 prodotti
Più di 2000
business-rules
Business Rules
600 milioni
di eventi dati di
monitoraggio
all’anno
Piattaforma
Operations
> 200 progetti B2B
Sourcing
800 TB dati
5
I nostri dati
Lo scheletro dei nostri “big data”
5.930.000 aziende attive
Oltre 17 milioni di aziende
presenti per più di 20 milioni
di localizzazioni
1.309.000 attività
economiche non iscritte
Anagrafiche “qualificate”
8.080.000 persone attive
Oltre 16 milioni di persone
distinte connesse ad aziende
7
I muscoli dei nostri “big data”
Web Data
A
c
c
u
r
a
c
y
Open Data
Dati proprietari
Dato ufficiale non
camerale
C
o
m
p
l
e
s
s
i
t
à
Dato ufficiale
camerale
8
L’universo dei nostri “Big Data”
La base
Visure Camerali
13.000.000 visure
camerali «valide»
(ultima fotografia
aziende operative e
cessate)
Dato Camerale
Procedure da
visura
2.000.000 eventi
rilevati (fallimenti,
procedure,
liquidazioni ecc.)
Addetti Impresa
3.800.000 aziende
operative con
addetti rilevati
trimestralmente a
livello comunale
Elenchi Soci
8.200.000 elenchi
soci in banca dati
validi (24.000.000 di
relazioni di
proprietà)
Dato Camerale
Dato Inps
Dato Camerale
9
L’universo dei nostri “Big Data”
La base
Protesti
Pregiudizievoli
Banca dati Cigs
Bilanci
1.415.000 anagrafiche
«protestate» valide per
5.500.000 di effetti che
con un’attività automatica
e manuale sono associati
al 100% a 760.000 privati e
imprese
1.200.000 atti validi (non
annotati) associati a
900.000 imprese e privati
52.000 Decreti presenti:
associati a 22.000 aziende
che sono o sono state
coinvolte
Serie storica bilanci dal
1984 con arricchimenti di
dettagli di voci di bilancio
nel 100% dei bilanci
depositati. Esplorazione
“semantica” della nota
integrativa dal 2009
Dato Camerale
Dato Conservatoria
Dato Ministero Lavoro
Dato Camerale
10
L’universo dei nostri “Big Data”
Le unicità
Payline
Dati Immobiliari
3.000.000 aziende
italiane operative
con esperienze di
pagamento
Dati immobiliari su
tutte le aziende
italiane con
“monitoraggio
attivo del dato”
Dato Proprietario
Dato Catasto
Titolare effettivo
& Gruppi
News
3.617.000 titolari
effettivi e più di
160.000 gruppi
italiani
Una banca dati di oltre
1.700.000 news
provenienti da media
tradizionali.
web-news: key-data
project in corso
Dato Proprietario
Dato Proprietario
11
L’universo dei nostri “Big Data”
Le unicità
Attività economiche
non iscritte
Pubblica
Amministrazione
1,3 milioni di attività
economiche non iscritte in
camera di
commercio con
anagrafiche “qualificate” e
arricchimenti strategici
(pagamenti, dati catastali,
web-data ecc.)
Circa 21.000 Enti e 10.000
partecipate.
Più di 10 Fonti dati
OpenData e proprietarie
arricchite (Rating e
integrate con le altri basi
dati Cerved)
Dato Proprietario
Dato Proprietario
Italian Corporate
Web & Social Data
160 milioni di pagine web
“italiane” sotto monitoraggio
settimanale per alimentare il
Corporate Web Database. Oltre
800.000 siti accoppiati ad
aziende italiane. Più di
1.000.000 indirizzi mail validi
& 150.000 referenze social.
Dato Proprietario
Open Data
Oltre 4.000.000 di dati
“puliti ed accoppiati”
relativi ad aziende
iscritte o non iscritte
prelevati e monitorati
da archivi “opendata”
Dato Proprietario
12
Innovazione
Il nostro motore
Agile
Spaziodati
Minimum viable product,
Scrum , Kanban
Data Exploration
Big Data Technologies
Open Innovation
Per scoprire nuovo valore nei
nostri dati e per monitorarci al
meglio
Data Visualization
Per mostrare e valorizzare le
nostre unicità
13
Big Data: Non solo tecnologia …
La Big Data Economy
Cosa accomuna questi unicorni? Dati e tecnologia …
15
L’arrivo della Algorithmic Economy?
L’evoluzione della Big data economy …
16
Big data & algorithms
Per cosa?
Sandy Pentland
«Co-fondatore del MIT Media Lab,
pioniere della human-machine
interaction e fra i data scientist più
importanti del mondo»
Fonte: http://www.betterdecisions.it
17
Big Data
Volume
Le nostre 6 V
V
alue
V
a
V
r
eracity
i
e
V
t
y
iable
Velocity
Le 3 V della
“definizione”
Le nostre 3 V
più importanti
18
Big Data: dalla teoria alla pratica
Big Data: dalla teoria alla pratica
Qualche caso d’uso Cerved
Il titolare effettivo di un’azienda. Graph database e network analysis per rivoluzionare un prodotto
esistente
Gruppi Cerved. Un’evoluzione al traguardo con algoritmi e graph database
Graph4You. Integrazioni dati e nuovi algoritmi self-service su grafo.
DBForYou. Analitycs big data self-service
OpenData e non iscritte. Il dato aumentato …
Atoka. Oltre l’ateco ma non solo …
20
The italian business network
Il progetto Aracne
La mappa dei soggetti economici e le relative
interconnessioni
• Ogni nodo del grafo identifica un soggetto (Società, Ditta, Azienda
Estera, Persona, Ente, Non Iscritta, ecc…)
• Ogni arco del grafo identifica un legame fra i nodi/soggetti:
• legami di tipo POSITION (Esponente)
• legami di tipo SHARE (Partecipazione fonte bilanci
e fonte elenco soci) sia attivi che storici
• Dimensioni del grafo:
• 44.707.203 nodi
• 44.798.256 relazioni
• 305.887.075 proprietà
• 22 GB di spazio occupato
21
Il titolare effettivo
Un caso reale
Willy
(40%)
Soc. A1 (40%)
Duffy
(60%)
Soc. A (40%)
Soc. A2 (60%)
ACME spa
Willy
(40%)
Willy
(90%)
Soc. B (50%)
Soc. B1.1 (60%)
Soc. B1 (40%)
Bunny
(10%)
Soc. B2.1 (50%)
Willy (10%)
Livello 1: 10%
•
Soc. B2 (60%)
Livello 2: 10%
Speedy
(50%)
Livello 3: 24.4%
Livello 4: 34.2%
Fino al livello n° 3, nessuno penserebbe che Willy esercita un controllo effettivo di
maggioranza sulla ACME. Willy sembra un socio minoritario di ACME
22
22
La situazione usando tecnologia «Big Data»
Su tecnologia a grafo
Database relazionale
Tempi medi totali
• Calcolato real time su 2.200.000
aziende per 3.617.00 titolari
effettivi calcolati
• Ricalcolo di 150.000 titolari
effettivi all’ora
369 ms (fino al 5° livello)
> 12 sec (dal 5° livello)
Neo4J
39 ms (fino al 15° livello)
Neo4J su un server con caratteristiche
«standard» (8 core con 12GB di RAM) con uso di
alcune funzionalità avanzate come il Traversal
Framework e l’In-Memory Caching
• Negli ultimi 6 mesi abbiamo
inviato ai nostri clienti 350.000
notifiche real-time di variazione
23
Gruppi italiani Cerved
Un prodotto esistente
Il prodotto già oggi consente la ricostruzione dei gruppi di grandi,
medie e piccole dimensioni che operano in tutti i settori economici
24
Nuovi gruppi italiani Cerved
Un prodotto rivoluzionato
Il risultato
Il progetto
• Da batch mensile a near real time
Algoritmo
• + 22 % recall (nuovi gruppi)
• + 30 % precision (variazioni su gruppi
esistenti per grafo più esteso,
migliore gestione cicli di controllo
e unione di cicli)
Aracne
• Prodotto facilmente personalizzabile
per altre esigenze/clienti
25
Graph4You: innovation for business
Un modo diverso di «analizzare i dati»
Siamo partiti da:
•
•
•
10%
Esponente
Italian Business Network (dati ufficiali)
Esigenze di integrazione di nuovi dati da parte di
alcuni Clienti
Nuovi dati provenienti da progetti
Cerved/Spaziodati di “data enrichment”
25%
CERVEDGROUP
320 mln
43%
SPAZIODATI
0,4 mln
Payment
Transaction
Ateco
Payment
Transaction
Produzione di
software non
connesso
all'edizione
Abbiamo pensato di:
•
•
•
Industrializzare la possibilità di creare grafi adhoc
Capire a fondo le esigenze specifiche dei nostri
Clienti (di processo e di uso dei nostri dati)
Costruire in maniera agile ambienti dove
consentire network-data exploration ai
datascientist
Web Link
90%
Socio
XIAOMI ltd
2.320 mln
Property
Position
Payline
Web Link
Sector
26
Graph4You: la tecnologia che semplifica …
Permette di connettere real time ed integrare i propri dati con tutte le informazioni economiche del tessuto economico italiano
Filtri su :
• Tipologia di nodi
• Livello di connessione
• Tipologia di connessione
• Proprietà delle connessioni
Dati:
• Società iscritte e non, Enti
• Soci ed esponenti
• Titolari effettivi
• Dati economici e finanziari
• Dati interni cliente
27
DB For You: veloce, semplice e grande a piacere …
Gli analitycs Big data
28
DB For You: analisi self-service real time
Powered by Tableau
29
Attività economiche non iscritte
Un puzzle di dati …
• Quasi 500.000 sotto “monitoraggio” da qualche nostro Cliente
• Di quasi 300.000 abbiamo esperienze payline significative nell’ultimo anno
• Dati catastali del 100% del universo qualificato
• Controllo protesti e pregiudizievoli (conservatoria) al 100%
• Il 65% geo-localizzato a livello stradale (Comune, via e numero civico)
• Arricchimento al 100% dei finanziamenti europei, nazionali e regionali ricevuti su progetti di
coesione territoriale (OpenCoesione)
• Monitoraggio siti e web e relativa estrazione dati (mail, telefoni, social ecc.)
• Arricchimento da fonti OpenData già in essere. In progressione continua …
30
Attività economiche non iscritte
Un arricchimento Open data
31
Atoka: Big data & machine learning per cosa?
Trovare più facilmente i miei possibili Clienti in settori anche molto specifici aiutandomi a conoscerli meglio
160.000.000
Pagine web analizzate ogni settimana
6 milioni di aziende con tutti i loro dati
800.000
Siti web aziendali
90.000
Social Feed Social
Media
32
Atoka: casi d’uso
www.atoka.io
33
Atoka: casi d’uso
www.atoka.io
34
Atoka: il dato aumentato
www.atoka.io
35
Il futuro non è più quello di una volta …
Cerved big data journey: «lessons learned»
Estrarre valore dai dati
esistenti con la tecnologia
Estrarre nuovi dati
con la tecnologia
Il dato «aumentato»
37
Cerved big data journey: «lessons learned»
«Data-telling»: saper raccontare
il dato per estrarne il valore
«Poliglottismo tecnologico»:
un valore!
Saper creare il
contesto …
38
Il futuro non è più quello di una volta …
"L'analfabeta del ventunesimo secolo non
sarà colui che non è in grado di leggere e
scrivere, ma colui che non è in grado di
imparare, disimparare e imparare di
nuovo"
Alvin Toffler
39
Immagini non Cerved della presentazione © Jurgen Appelo, Creative Commons 3.0 BY http://www.management30.com/
Grazie!
Stefano Gatti
mailto: [email protected]
Twitter: @micio1970