Introduzione Aree applicative del Data Mining Sistemi Informativi Data Mining: Applicazioni Yari Melzani Universitá degli Studi di Milano Facoltá di Scienze Matematiche, Fisiche e Naturali Dipartimento di Tecnologie dell’Informazione 1 Giugno 2007 Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Data Mining Perché il Data Mining Il Data Mining come strumento di Business Accrescere la conoscenza su cui basare le decisioni Produzione di risultati interpretabili e usufruibili per il supporto alle decisioni aziendali (DSS). Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Casi reali di studio Data Mining Perche Ora? Enormi quantitá di dati fra i quali ci sono informazioni utili Costi, ricavi, stipendi, resoconti, inventari, ecc.. Dati economici, andamenti e previsioni, metadati (Logical Databases). Software di calcolo economici e potenti Strumenti presenti in commercio e aperti agli standard (Oracle, Ingres, Informix, Sybase, Microsoft o IBM) Possibilitá di utilizzare le potenti funzioni di replicazione dei dati comprese in questi prodotti Costo relativamente contenuto delle licenze software di prodotti commerciali Performance elevate dei prodotti RDBMS (Relational DataBase Management System) Fondamenti teorici e matematici robusti Machine learning, Ricerca operativa, intelligenza artificiale, inferenza logica, tecniche statistiche Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Data Mining La catena del valore dell’informazione Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Applicazioni Il Data Mining come supporto alle decisioni Analisi dei dati & supporto alle decisioni Analisi di mercato Analisi del rischio Fraud detection Altre applicazioni Text Mining (Newsgroup, documenti,...) Web Mining e Web analysis Intelligent query answering Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Casi reali di studio Applicazioni Analisi di mercato & Management Quali sono le sorgenti di dati per l’analisi? Transazioni di carte di credito, carte fedeltá, coupons di sconti, chiamate a clienti accondiscendenti, studi su stili di vita. Target marketing: Trova raggruppamenti che modellino gli acquirenti con stesse caratteristiche: interessi, abitudini di spesa. Determina i pattern degli acquirenti nel tempo: Conversione da un conto singolo a un conto congiunto, es. matrimonio. Analisi incrociate Associazioni/Correlazioni tra vendite di prodotti Predizione basata sulle associazioni. Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Applicazioni Analisi di mercato & Management (2) Customer profiling quali acquirenti comprano cosa (clustering o classificazione) Identificazione delle richieste dei clienti identificare i migliori prodotti per acquirenti differenti usa la predizione per capire quali fattori attraggono nuovi clienti Informazioni generalizzate summary reports multidimensionali informazioni statistiche aggregate (tendenze e variazioni) Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Applicazioni Analisi del rischio Pianificazione finanziaria: Analisi e predizione dei flussi di cassa Valutazione dei profitti e analisi delle richieste contingenti Analisi di serie temporali (financial-ratio, trend analysis,...) Competitivitá Monitoraggio dei competitori e delle direzioni di mercato (CI: competitive intelligence). Segmentazione dei clienti per classi di prezzi Selezione di una strategia in un mercato competitivo Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Casi reali di studio Applicazioni Fraud Detection & Management Ambiti di interesse: Servizi legati a istituti di credito (Carte di credito, prestiti, assicurazioni), telecomunicazioni Approccio: Utilizza i dati storici per costruire un modello del comportamento fraudolento e utilizza il data mining per facilitare l’identificazione di istanze simili. Example Assicurazioni auto: individua un gruppo di persone che creano (artificialmente) incidenti per ricevere il risarcimento dalle assicurazioni. Money Laundering: individua movimenti di denaro sospetti. Assicurazioni mediche: individua pazienti che si fingono malati. Individuazione di frodi telefoniche (es. addebito di chiamate) Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Casi reali di studio Text Mining Text Mining Cosa é il Text Mining? Si tratta di un processo automatico di estrazione di informazione utile, espressiva, da un repository testuale. Dati Una sorgente di documenti testuali Query testuale ben definita Otteniamo Frasi contenenti informazione rilevante Estrazione dell’informazione ignorando quella non importante Aggregazione l’informazione trovata per essere mostrata in un formato predeterminato. Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Text Mining Un esempio di Text Mining Input Un annuncio Un template con le informazioni interessate Output Una parte del documento che che aderisce al template fornito Yari Melzani Data Mining: Applicazioni Casi reali di studio Introduzione Aree applicative del Data Mining Casi reali di studio Text Mining Applicazioni reali Text Mining Example Page Rank di Google Ordina il risultato delle ricerche rispetto alla prioritá L’importanza di un risultato dipende (in parte) dalle pagine che vi puntano (Backlinks) Il peso dei Backlinks dipende dalla pagina da cui provviene il link. Example ECHELON Rete informatica, segreta fino al 1997, capace di controllare l’intero globo e di intercettare, selezionare e registrare ogni forma di comunicazione elettronica. Ogni stazione raccoglie informazioni in modo automatico. Le stazioni utilizzano tecniche avanzate di intelligenza artificiale per il riconoscere ed estrarre le informazioni interessanti Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Casi reali di studio Casi reali di studio La catena WalMart Il DM per ottimizzare il rapporto con i fornitori La catena di vendita al dettaglio WalMart si appoggia ad una gigantesca data warehouse per ottimizzare i rapporti con i propri fornitori. Data Warehouse WalMart colleziona le transazioni provenienti dagli oltre 2900 punti vendita sparsi in 6 paesi in una Data Warehouse di 7.5 terabyte. Il beneficio dei fornitori Gli oltre 3500 fornitori che cooperano nella gestione degli ordini hanno la possibilitá di estrapolare conoscenza dalla base di dati per ottimizzare l’efficienza nella distribuzione dei prodotti nei magazzini ed eventualmente studiare la disposizione dei propri magazzini sul territorio. Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Casi reali di studio Casi reali di studio Advanced Scout NBA Advanced Scout NBA L’allenatore dell’associazione NBA (National Basketball Association) utilizza tecniche di DM per orchestrare il gioco e stabilire le strategie durante le partite di basketball. Il DM si concretizza in un programma software in grado di elaborare l’acquisizione video delle partite per analizzare i movimenti dei giocatori al fine di estrapolare informazione utile all’allenatore della squadra. I risultati Si é scoperto analizzando la partita disputata tra i New York Knicks e Cleveland Cavaliers nel Gennaio 1995 che mentre il giocatore Mark Price copriva il ruolo di difensore, John Williams é riuscito a realizzare 4 salti, tutti conclusi con la messa a segno. Il software Advanced Scout non solo é stato in grado di riconoscere questo pattern di gioco ma ha riconosciuto che il comportamento rilevato si discosta significativamente dalla media dei tiri con successo messi a segno dalla squadra Cleveland Cavaliers. Yari Melzani Data Mining: Applicazioni Introduzione Aree applicative del Data Mining Casi reali di studio Casi reali di studio Midwest chain La catena commerciale Midwest ha fruttato tecniche di DM offerte dalla piattaforma Oracle per analizzare pattern di acquisto nei singoli negozi di vendita al dettaglio. Sulla base dei comportamenti osservati durante l’acquisto settimanale é stato possibile delineare alcune strategie di vendita . Cosa si è scoperto? Le tecniche di DM utilizzate hanno evidenziato che quando i clienti (in prevalenza uomini) acquistavano pannolini il giovedì e il sabato erano propensi ad acquistare anche birra. Un’analisi piú accurata mostró che questi acquirenti concentravano i loro acquisti maggiormente il sabato e marginalmente il giovedí. Si concluse che la birra veniva probabilmente acquistata per il weekend che stava per arrivare. Come sfruttare il risultato? La catena Midwest ha sfruttato scoperte di questo tipo, per attuare alcune strategie di vendita, al fine di aumentare l’incasso. Nel caso precedente la decisione ha comportato lo spostamento del cartello delle birre vicino a quello dei pannolini assicurandosi di non applicare sconti su quei prodotti il giovedì e il sabato. Yari Melzani Data Mining: Applicazioni