DATA MINING
http://open.cineca.it/datamining/dmCineca/
1. Introduzione
Il data mining è una delle attività cruciali per la
comprensione, la navigazione e lo sfruttamento dei dati
nella nuova era digitale (Ushama Fayyad). Si tratta del
processo automatico di scoperta ed individuazione di
strutture all’interno dei dati, dove per struttura si
intendono patterns, modelli e relazioni. Questo
processo, noto anche col nome KDD (Knowledge
Discovery in Databases), consente di estrarre
conoscenza, in termini di informazioni significative ed
immediatamente utilizzabili, da grandi moli di dati,
tramite l’applicazione di particolari tecniche ed
algoritmi.
Le tecniche maggiormente utilizzate, in questo ambito,
sono: clustering, reti neurali, alberi di decisione ed
analisi delle associazioni. Ciascuna comprende un
vasto insieme di metodi e di algoritmi che hanno
l’obiettivo comune di fare emergere patterns (sequenze
ripetute, omogeneità, regole, …) dai dati, che, utilizzati
a scopo descrittivo e/o previsivo, costituiscono un
valido strumento di supporto alle decisioni.
2. Ambiti applicativi
In campo economico-finanziario, le principali
applicazioni sono:
• segmentazione della clientela (database
marketing) applicazione di tecniche di
clustering per individuare i raggruppamenti
impliciti nei dati, omogenei in termini di
comportamento d’acquisto e di caratteristiche
socio-demografiche
• customer retention applicazione di tecniche
previsive per individuare i clienti a rischio di
abbandono
• fraud
detection
individuazione
di
comportamenti fraudolenti
• analisi delle associazioni (market basket
analysis) individuazione dei prodotti acquistati
congiuntamente
•
sequential patterns
individuazione di
comportamenti ricorrenti in sequenze temporali
di eventi
• competitive intelligence applicazione di
tecniche di clustering a documenti estratti da
banche dati internazionali di tipo tecnicoscientifico volte ad individuare le tecnologie
emergenti, le loro relazioni, l’evoluzione
temporale e le aziende coinvolte
• analisi testuale (text mining) individuazione
degli argomenti trattati da un set di documenti e
delle relazioni tra argomenti
Applicazioni già sviluppate, al CINECA, riguardano la
grande distribuzione, compagnie assicurative, aziende
farmaceutiche, compagnie di telecomunicazione,
società di ricerche di mercato, società di servizi
Internet, aziende di produzione industriale.
3. Le fasi di un progetto
Si intende per progetto, in questo contesto,
l’applicazione di tecniche di data mining in un ambito
specifico e circoscritto, per il raggiungimento di uno
specifico obiettivo.
Ogni progetto si articola nelle seguenti fasi:
•
•
•
•
•
•
Individuazione delle fonti di dati
Estrazione / acquisizione dei dati (ed
integrazione, se provenienti da fonti o data bases
diversi)
Pre-processing (Pulizia dei dati - Analisi
esplorative - Selezione - Trasformazione Formattazione)
Data
Mining
(Scelta
dell'algoritmo
Individuazione dei parametri - Elaborazione Valutazione del modello)
Interpretazione / valutazione dei risultati
Rappresentazione dei risultati
CINECA - Servizio Gestione ed Analisi dell'Informazione
L’analisi
della
metainformazione
(data
di
pubblicazione delle notizie, fonte, nazione e nomi delle
aziende) ha consentito di estrarre informazioni
strategiche sulla concorrenza.
Il processo ora descritto è di tipo iterativo: la fase di
valutazione dei risultati può infatti portare a
ripercorrere alcune delle fasi precedenti.
4. Text mining
Il text mining è una particolare applicazione che
consente di individuare sequenze di parole (pattern)
che accomunano e caratterizzano un insieme di
documenti e che consentono perciò il raggruppamento
tematico. Questo tipo di applicazione è particolarmente
utile quando si deve analizzare il contenuto di una
collezione di documenti (anche provenienti da fonti
eterogenee). L’individuazione di gruppi tematici
consente di dare un’organizzazione all’informazione
disponibile e di individuare argomenti minori, che
anche ad una lettura attenta potrebbero sfuggire. Le
relazioni, inoltre, mettono in evidenza legami tra
argomenti apparentemente separati ma che hanno una
terminologia comune.
L’esempio che segue è tratto da un caso concreto
sviluppato per la Ferrari, dove oggetto di analisi era
una collezione di documenti provenienti da SAE
NEWS. All’interno della macro area dei sensori, sono
stati identificati e separati, in modo automatico, i
documenti che trattavano di sensori per il sistema di
sospensioni (sensori di peso), sensori di posizione,
sensori di velocità e sensori per la misurazione
angolare (rotazione).
Il text mining può configurarsi come servizio
disponibile on-line, anziché come singolo progetto (o
applicazione specifica). In questo caso, l’esperto di
settore ha a disposizione tutti gli strumenti per
effettuare autonomamente analisi specifiche volte al
raggiungimento di obiettivi aziendali specifici,
utilizzando le fonti opportune.
5. Conclusioni
L’applicazione di tecniche di data mining,
sfruttando appieno la ricchezza informativa insita nel
patrimonio di dati disponibili, consente di acquisire un
effettivo vantaggio competitivo.
La conoscenza delle diverse tipologie di
comportamento presenti all’interno della propria
clientela, delle regole che governano l’acquisto di un
prodotto, delle strategie della concorrenza, così come
l’individuazione tempestiva di nuove nicchie di
mercato, di nuovi potenziali concorrenti, di innovazioni
tecnologiche che avranno un impatto nel proprio
campo di attività, sono elementi irrinunciabili per la
sopravvivenza in mercati altamente competitivi e in
rapida evoluzione.
Il servizio offerto da CINECA va dallo sviluppo della
singola applicazione alla realizzazione di servizi di
monitoraggio su ambiti specifici.
In particolare l’offerta CINECA riguarda l’attività di:
• Consulting
• Progettazione e realizzazione di applicazioni in
outsourcing
• Realizzazione di servizi on-line
Per studi pilota, il CINECA mette a disposizione la
propria potenza di calcolo, gli strumenti e il know-how
specifico nel campo del data mining, i sistemi di
sicurezza e di protezione della riservatezza dei dati e
dei risultati e l’accesso alle fonti dati internazionali.
http://open.cineca.it/datamining/
CINECA - Servizio Gestione ed Analisi dell'Informazione