DATA MINING http://open.cineca.it/datamining/dmCineca/ 1. Introduzione Il data mining è una delle attività cruciali per la comprensione, la navigazione e lo sfruttamento dei dati nella nuova era digitale (Ushama Fayyad). Si tratta del processo automatico di scoperta ed individuazione di strutture all’interno dei dati, dove per struttura si intendono patterns, modelli e relazioni. Questo processo, noto anche col nome KDD (Knowledge Discovery in Databases), consente di estrarre conoscenza, in termini di informazioni significative ed immediatamente utilizzabili, da grandi moli di dati, tramite l’applicazione di particolari tecniche ed algoritmi. Le tecniche maggiormente utilizzate, in questo ambito, sono: clustering, reti neurali, alberi di decisione ed analisi delle associazioni. Ciascuna comprende un vasto insieme di metodi e di algoritmi che hanno l’obiettivo comune di fare emergere patterns (sequenze ripetute, omogeneità, regole, …) dai dati, che, utilizzati a scopo descrittivo e/o previsivo, costituiscono un valido strumento di supporto alle decisioni. 2. Ambiti applicativi In campo economico-finanziario, le principali applicazioni sono: • segmentazione della clientela (database marketing) applicazione di tecniche di clustering per individuare i raggruppamenti impliciti nei dati, omogenei in termini di comportamento d’acquisto e di caratteristiche socio-demografiche • customer retention applicazione di tecniche previsive per individuare i clienti a rischio di abbandono • fraud detection individuazione di comportamenti fraudolenti • analisi delle associazioni (market basket analysis) individuazione dei prodotti acquistati congiuntamente • sequential patterns individuazione di comportamenti ricorrenti in sequenze temporali di eventi • competitive intelligence applicazione di tecniche di clustering a documenti estratti da banche dati internazionali di tipo tecnicoscientifico volte ad individuare le tecnologie emergenti, le loro relazioni, l’evoluzione temporale e le aziende coinvolte • analisi testuale (text mining) individuazione degli argomenti trattati da un set di documenti e delle relazioni tra argomenti Applicazioni già sviluppate, al CINECA, riguardano la grande distribuzione, compagnie assicurative, aziende farmaceutiche, compagnie di telecomunicazione, società di ricerche di mercato, società di servizi Internet, aziende di produzione industriale. 3. Le fasi di un progetto Si intende per progetto, in questo contesto, l’applicazione di tecniche di data mining in un ambito specifico e circoscritto, per il raggiungimento di uno specifico obiettivo. Ogni progetto si articola nelle seguenti fasi: • • • • • • Individuazione delle fonti di dati Estrazione / acquisizione dei dati (ed integrazione, se provenienti da fonti o data bases diversi) Pre-processing (Pulizia dei dati - Analisi esplorative - Selezione - Trasformazione Formattazione) Data Mining (Scelta dell'algoritmo Individuazione dei parametri - Elaborazione Valutazione del modello) Interpretazione / valutazione dei risultati Rappresentazione dei risultati CINECA - Servizio Gestione ed Analisi dell'Informazione L’analisi della metainformazione (data di pubblicazione delle notizie, fonte, nazione e nomi delle aziende) ha consentito di estrarre informazioni strategiche sulla concorrenza. Il processo ora descritto è di tipo iterativo: la fase di valutazione dei risultati può infatti portare a ripercorrere alcune delle fasi precedenti. 4. Text mining Il text mining è una particolare applicazione che consente di individuare sequenze di parole (pattern) che accomunano e caratterizzano un insieme di documenti e che consentono perciò il raggruppamento tematico. Questo tipo di applicazione è particolarmente utile quando si deve analizzare il contenuto di una collezione di documenti (anche provenienti da fonti eterogenee). L’individuazione di gruppi tematici consente di dare un’organizzazione all’informazione disponibile e di individuare argomenti minori, che anche ad una lettura attenta potrebbero sfuggire. Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati ma che hanno una terminologia comune. L’esempio che segue è tratto da un caso concreto sviluppato per la Ferrari, dove oggetto di analisi era una collezione di documenti provenienti da SAE NEWS. All’interno della macro area dei sensori, sono stati identificati e separati, in modo automatico, i documenti che trattavano di sensori per il sistema di sospensioni (sensori di peso), sensori di posizione, sensori di velocità e sensori per la misurazione angolare (rotazione). Il text mining può configurarsi come servizio disponibile on-line, anziché come singolo progetto (o applicazione specifica). In questo caso, l’esperto di settore ha a disposizione tutti gli strumenti per effettuare autonomamente analisi specifiche volte al raggiungimento di obiettivi aziendali specifici, utilizzando le fonti opportune. 5. Conclusioni L’applicazione di tecniche di data mining, sfruttando appieno la ricchezza informativa insita nel patrimonio di dati disponibili, consente di acquisire un effettivo vantaggio competitivo. La conoscenza delle diverse tipologie di comportamento presenti all’interno della propria clientela, delle regole che governano l’acquisto di un prodotto, delle strategie della concorrenza, così come l’individuazione tempestiva di nuove nicchie di mercato, di nuovi potenziali concorrenti, di innovazioni tecnologiche che avranno un impatto nel proprio campo di attività, sono elementi irrinunciabili per la sopravvivenza in mercati altamente competitivi e in rapida evoluzione. Il servizio offerto da CINECA va dallo sviluppo della singola applicazione alla realizzazione di servizi di monitoraggio su ambiti specifici. In particolare l’offerta CINECA riguarda l’attività di: • Consulting • Progettazione e realizzazione di applicazioni in outsourcing • Realizzazione di servizi on-line Per studi pilota, il CINECA mette a disposizione la propria potenza di calcolo, gli strumenti e il know-how specifico nel campo del data mining, i sistemi di sicurezza e di protezione della riservatezza dei dati e dei risultati e l’accesso alle fonti dati internazionali. http://open.cineca.it/datamining/ CINECA - Servizio Gestione ed Analisi dell'Informazione