Data Mining
Definizione
“Il Data Mining è un processo atto a scoprire correlazioni,
relazioni e tendenze nuove e significative, setacciando grandi
quantità di dati immagazzinati nei repository, usando tecniche di
riconoscimento delle relazioni e tecniche statistiche e
matematiche.” (Gartner Group)
– Convergenza di diverse discipline:
•
•
•
•
•
1. Statistica
2. Intelligenza Artificiale, in particolare Machine Learning
3. Ricerca su algoritmi di Clustering
4. Ricerca su tecniche di Visualizazzione
5. Database In sintesi il data mining può essere visto come la
definizione e l’utilizzo di algoritmi per eseguire
query molto complesse su grandi quantità di dati
Knowledge Discovery in Databases (KDD)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Domini Applicativi
• Business
– marketing, CRM (Customer Relationship Management),
telecomunicazioni, sanità, risorse umane, finanza (investimenti),
crediti…
• Pubblica amministrazione e P. sicurezza
– profilazione evasori fiscali, anti-terrororismo, archivi legali,
antiphishing
• Scienza
– bioinformatica, ricerca sui farmaci, astronomia, …
• Web
– e-commerce, motori di ricerca,…
• Text Mining
– Gestione documentale, ricerca semantica, gestione compliance…
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
1
Analisi dei Dati/Data Mining
Metodologie
• Metodologie Passive: Analisi dei Dati
– L’utente determina le regole per la ricerca di nuove
informazioni, riservando per sè un ruolo importante ed
assegnando alla macchina un ruolo secondario (passivo)
– L’utente può
• manipolare, navigare (OLAP) e visualizzare dati e
informazioni usando tabelle e grafici
• usare metodi statistici (es. regressione lineare,
regressione logistica) e test di ipotesi per indagare
sulle relazioni tra i dati.
“In statistical analysis, you’ll never find what you ain’t lookin for.”
Dr Poebus Rymes, Professor of Econometrics, University of Pennsylvania
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Analisi dei Dati/Data Mining
Metodologie
• Metodologie Attive: Data Mining e KDD
– L’utente guida le ipotesi iniziali per la ricerca di pattern,
lasciando alla macchina il ruolo (attivo) di scoprire nuove
regole e relazioni tra i dati.
– Si dividono in base al grado di intervento da parte
dell’utente in metodi
• Supervised
A.I. : machine learning
• Unsupervised
“The history of technology shows us that we overestimate what a
technology can do for us in a few years and underestimate what
it can do in a decade or two.”
Edward Feigenbaum et al.
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
2
Data Mining
• Supervised (modelli predittivi o di classificazione)
– Implicano la predeterminazione di un modello
che può essere utilizzato per prevedere il
risultato di casi che si presenteranno in futuro.
– Esempi:
• Reti Neurali (Back Propagation)
• Alberi Decisionali
• Sistemi Esperti
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
• Unsupervised (modelli esplorativi)
– L’algoritmo per la determinazione del modello
non viene fornito di un risultato da ottenere, ma
esplora i dati alla ricerca di relazioni per
individuarne la struttura
– Esempi:
• Clustering
• Regole di associazione
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
3
Data Mining
Dall’approccio Statistico all’approccio Induttivo
Modelli di
KDD e
Data Mining
Metodo
Supervised
Unsupervised
Predittivi
Descrittivi
sif
ica
zio
ne
– Lineare
– Logistica
Deduttivo
Sistemi Esperti
K-Nearest Neighbour
Induttivo
Naive Bayes
Alberi Decisionali/Regole
Reti Neurali (Back-Prop)
Cl
as
Approccio
Regressione
Statistico
K-means
g
Two-Stepsterin
lu
C
Reti Kohonen (SOM)
Regole di Associazione
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Classificazione
“Imparare” un metodo per prevedere la classe di un
istanza a partire da istanze pre-classificate
Dati due insiemi di punti per le classi
qual’è la classe del punto
?
Molti approcci:
Regressione,
Naïve Bayes,
Alberi Decisionali,
Reti Neurali,
...
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
4
Data Mining
Classificazione
Regressione Lineare
• Calcola parametri che
minimizzano distanza
dei punti da una
funzione lineare nei
parametri
• Poco flessibile
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Classificazione
Alberi Decisionali
Y
se X > 5 allora blu
altrimenti se Y > 3 allora blu
altrimenti se X > 2 then verde
altrimenti blu
3
2
5
X
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
5
Data Mining
Classificazione
Reti Neurali
• Possono selezionare regioni
più complesse (non lineari)
• Spesso metodo più accurato,
ma attenzione ad overfitting
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Unsupervised Data Mining
• Clustering (classificazione)
– Cerca di segmentare i dati in gruppi di individui
che presentano analoghe relazioni nei dati di
input
• Reti Neurali SOM (self-organizing maps): Kohonen
• K-means: n° di cluster definito dall’utente, medie dal
modello
• Two Step: intervallo di n° di cluster (min, max)
definito dall’utente, n° preciso scelto dal modello
– Esempio: ricerca di classi omogenee di clienti in
un database di marketing
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
6
Unsupervised Data Mining
• Regole di associazione (modelli predittivi generalizzati)
– Cerca di associare una particolare conclusione ad
1.
Quante volte compare la
un insieme di premesse
premessa nel campione?
Quante volte
comapiono sia
premessa che
conclusione
nel campione?
queste, quante volte
• Association {X1;X2; … ;Xn} Y 2. Su
compare anche la
conclusione
• Confidenza: prob (Y∈A) dato
({X1;X2; … ;Xn} ∈A)
• Supporto: prob ( (Y∈A) e
({X1;X2; … ;Xn} ∈A) )
– Esempio:
• Analisi clientela di supermercati: se cliente compra
pannolini compra birra (e anche patatine)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Unsupervised Data Mining
• Regole di associazione (modelli predittivi generalizzati)
– Cerca di associare una particolare conclusione ad
1.
Quante volte compare la
un insieme di premesse
premessa nel campione?
Quante volte
comapiono sia
premessa che
conclusione
nel campione?
queste, quante volte
• Association {X1;X2; … ;Xn} Y 2. Su
compare anche la
conclusione
• Confidenza: prob (Y∈A) dato
({X1;X2; … ;Xn} ∈A)
• Supporto: prob ( (Y∈A) e
({X1;X2; … ;Xn} ∈A) )
– Esempio:
• Analisi clientela di supermercati: se cliente compra
pannolini compra birra …e anche patatine
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
7
Data Mining
Concatenazione
•
Clustering può essere un primo modello a
cui concatenare l’applicazione di un altro
modello (tipicamente Supervised) perchè
– problema di interpretazione
•
i cluster creati dai modelli possono essere molto
difficili da interpretare
– problema di dimensione
•
la dimensione del problema può essere ridotta in
sottoinsiemi a ciascuno dei quali applicare poi
metodi diversi
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Data Mining
Clustering: Esempi di Applicazioni
• Marketing: scoprire gruppi di clienti per effettuare
marketing mirato o per riorganizzare approccio
• Astronomia: trovare gruppi simili di oggetti stellari
• Terremoti: Epicentri osservati dovrebbere
raggrupparsi lungo falde continentali
• Genetica: trovare gruppi di geni con caratteristiche
simili
• Text Mining: Analisi dei testi
(Knowledge/Content Management)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
8
Data Mining
Il Processo
CRISP-DM
Cross Industry Standard Process for Data Mining
•
Processo
– Comprensione del dominio
– Preparazione dei dati
– Scoperta dei pattern
– Valutazione dei modelli
– Utilizzo dei risultati
80%
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Tecniche di Visualizzazione
Multidimensionale
• Riciclaggio di denaro rilevato dall’Ufficio
Italiano Cambi (UIC) nel 1994
Ogni flusso rappresenta il
trasferimento di denaro da
un comune ad un altro:
• il colore rappresenta
l’ammontare complessivo
• blu basso
• rosso alto
• l’altezza rappresenta il
numero di transazioni
coinvolte
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
9
Tecniche di Visualizzazione
Multidimensionale
• Riciclaggio di denaro rilevato dall’Ufficio
Italiano Cambi (UIC) nel 1994
Il flusso giallo evidenziato
dalla freccia (grosso importo
poche transazioni), è
avvenuto tra Palermo ed un
comune molto piccolo!
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
• Un esempio importante di applicazione di metodi
di Data Mining su dati e informazioni trasversali
del sistema informativo aziendale è il CRM
• Obiettivi del CRM
–
–
–
–
–
–
Fidelizzare il cliente
Cross Selling
Marketing one to one (121)
Credit Scoring
Scoring Promozionale
Profilazione Cliente
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
10
Customer Relationship Management
• La gestione personalizzata del cliente si
basa su tre attività fondamentali
– Operational CRM
– Analytical CRM
– Collaborative CRM
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
– Operational CRM (raccolta dei dati e delle informazioni)
• Raccolta dei dati da tutte le fonti disponibili:
– Datawarehouse
» System Integration:
Client Data
Procedure bancarie
Web Services
Prezzi di Mercato (per personal finance)
– Marketing Database
– Contact History
– Workflow di vendita
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
11
Customer Relationship Management
– Analytical CRM (scoperta della conoscenza Knowledge Discovery and Data Mining - KDD)
• Analisi dei dati e delle informazioni
– Ricerca del modello
» Query
» Mining
Web Mining
Data Mining
– Comprensione dei modelli
– Utilizzo del modelli
» Client Analysis
Profiling
Segmentazione comportamentale
Clustering…
– Reporting
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Customer Relationship Management
– Collaborative CRM (comunicazione col cliente)
• Gestione dell campagne di marketing
– Determinare tipologia della campagna (ROI)
– Action planning
– Workflow di composizione dei messaggi promozionali
» Composizione
» Revisione
» Autorizzazione
» Invio
SMS
Web
Portale
Posta
E-mail
Call center
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
12
Data Mining Applicato
Customer Relationship Management
Dove si spende a livello mondiale per il Crm?
Secondo Gartner Group:
o22% dai servizi finanziari
o19% dalle telecomunicazioni
o16% dall'hi-tech
o15% dalle manifatture di prodotto
o7% dalle manifatture di processo
o3% dall'energia e utility
o3% dalla sanità
o3% dalla PA
o12% da altri settori.
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management
Fonte: Nonaka, Takeuchi – “The
Knowledge-Creating
Company”,
New York, Oxford University
Press, 1995.
processi
persone
Conoscenza
“Knowledge Management
is the capability of a
company as a whole to
create new knowledge,
disseminate it throughout
the
organization
and
embody it in products,
services and systems”
KM
Tecnologia
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
13
Knowledge Management
1998
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
concetti chiave
Conoscenza Esplicita
(Documentata)
Conoscenza Tacita
(Know-how delle persone)
Facilmente codificabile
Immagazzinabile
Trasferibile
Facilmente esprimibile e
condivisibile
Personale
Legata al contesto
Difficile da formalizzare
Difficile da catturare/
comunicare/condividere
Fonti:
Politiche e procedure
aziendali
Manuali
Database e resoconti
Processi aziendali e
comunicazioni informali
Esperienze personali
Comprensione storica
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
14
Knowledge Management:
definizioni formali di Fonti
Fonti strutturate:
fonti che collezionano un insieme di dati organizzati secondo uno
schema esplicito per la definizione univoca della semantica ad essi
associata.
Fonti non strutturate:
fonti che collezionano informazioni contestualizzate (conoscenza)
tipicamente espresse mediante l’uso del linguaggio naturale e non
organizzate secondo uno schema esplicito ed univoco che ne
definisca la semantica.
Fonti semi strutturate:
fonti che raccolgono nel loro insieme dati strutturati ed informazioni
contestualizzate.
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
il ruolo della tecnologia
BEP Precisione/Copertura
Strumenti specifici per
la contestualizzazione
delle informazioni:
Tecnologie abilitanti:
•
•
•
•
Natural Language
Processing - NLP
Motori di ricerca per keyword
Groupware
Digitalizzazione documenti
…
Infrastruttura IT:
• Intranet/Internet
• DBMS
• …
Dipendenza dal contesto
Dati
Informazioni
Conoscenza
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
15
Chiave del KM: NLP
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
NLP: esempio (1/2)
Fonte:
“La gestione del rischio deve
comprendere parametri
espressivi della struttura
organizzativa ed informatica
(rischio operativo). La priorità è
quindi quella di determinare il
rischio incrociando informazioni
sui mercati, sui prodotti finanziari
e sui segmenti di clientela, anche
a causa della minore possibilità
di assorbire le perdite,
determinata dalla riduzione del
margine d'intermediazione.”
Rappresentazione concettuale:
gestione
specializza
gestione del rischio
comprende
parametri
specializza
della struttura
organizzativa
NLP
specializza
della struttura
informatica
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
16
NLP: esempio (2/2)
Fonte A:
“Tale gestione si esplica
principalmente nella
valutazione dei parametri
caratteristici della struttura
organizzativa e di quella
informatica.”
Fonte B:
“Gestione e controllo degli accessi
Gestione integrata controllo
accessi fisici-logici
Gestione sistema di Single
Sign On.”
Ricerca per parola chiave:
Ricerca per concetto (NLP):
Fonte B
Fonte A
(3 occorrenze di “gestione”)
Fonte A
(1 occorrenza di “gestione”)
gestione
parametri
della struttura organizzativa
della struttura informatica
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Knowledge Management:
tassonomia di discipline/strumenti
•
•
•
•
•
•
•
•
•
•
Business Intelligence
Knowledge Base
Collaboration
Portals
Customer Relationship Management
Data Mining
Workflow Management
E-Learning
Search
Content and Document Management
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
17
Enterprise Content Management
The 'Building Blocks' of Enterprise Content Management
ECM systems are comprised of an integrated suite of content-focused modules that provide the
following functionality:
• Document Management - for library services such as check-in and checkout, version
control, and user and document-level security for business documents
• Document Imaging - for capturing (scanning), profiling, and archiving paper-based
content, including forms, facsimiles, engineering drawings, and graphics.
• Records Management - for classifying documents and other content as business
records in support of legal or regulatory compliance, archival, and automation of
retention policies.
• Web Content Management - for collecting, assembling, and staging content (both
graphic and textual) for the purpose of publishing to Web sites or intranets. Content
delivery is automated to streamline the process, ensure traceability, and eliminate
bottlenecks.
• Document-Centric Team Collaboration - for sharing, organizing, and controlling
document-based collaborative processes. Typically, this functionality supports both
internal and external team members with a high level of user and document-level
security.
• Content Workflow - for routing of content and support of business processes.
Capabilities typically include task assignment, automated tracking (audit trail
generation), work state communication (in process, completed, bottleneck, etc.), and
graphic representation of the workflow itself.
(tratto da http://www.hummingbird.com)
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
Modello ICT di Knowledge Management
Tiered Knowledge Management Model (TKMM)
Livelli:
NLP
Fondamentale per
la buona riuscita di
un progetto di
Knowledge
Management è la
comprensione di
questi quattro
livelli…
quattro
Data/Text
Mining
tre
OLAP
Data Warehouse
due
Middleware
Enterprise Resource Planning (ERP)
uno
…a partire
dall’estrazione
dei dati nel
livello uno
Conoscenza Esplicita
Sistemi di Elaborazione dell’Informazione
Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese
Hadley C. Taylor
18