Data Mining Definizione “Il Data Mining è un processo atto a scoprire correlazioni, relazioni e tendenze nuove e significative, setacciando grandi quantità di dati immagazzinati nei repository, usando tecniche di riconoscimento delle relazioni e tecniche statistiche e matematiche.” (Gartner Group) – Convergenza di diverse discipline: • • • • • 1. Statistica 2. Intelligenza Artificiale, in particolare Machine Learning 3. Ricerca su algoritmi di Clustering 4. Ricerca su tecniche di Visualizazzione 5. Database In sintesi il data mining può essere visto come la definizione e l’utilizzo di algoritmi per eseguire query molto complesse su grandi quantità di dati Knowledge Discovery in Databases (KDD) Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining Domini Applicativi • Business – marketing, CRM (Customer Relationship Management), telecomunicazioni, sanità, risorse umane, finanza (investimenti), crediti… • Pubblica amministrazione e P. sicurezza – profilazione evasori fiscali, anti-terrororismo, archivi legali, antiphishing • Scienza – bioinformatica, ricerca sui farmaci, astronomia, … • Web – e-commerce, motori di ricerca,… • Text Mining – Gestione documentale, ricerca semantica, gestione compliance… Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 1 Analisi dei Dati/Data Mining Metodologie • Metodologie Passive: Analisi dei Dati – L’utente determina le regole per la ricerca di nuove informazioni, riservando per sè un ruolo importante ed assegnando alla macchina un ruolo secondario (passivo) – L’utente può • manipolare, navigare (OLAP) e visualizzare dati e informazioni usando tabelle e grafici • usare metodi statistici (es. regressione lineare, regressione logistica) e test di ipotesi per indagare sulle relazioni tra i dati. “In statistical analysis, you’ll never find what you ain’t lookin for.” Dr Poebus Rymes, Professor of Econometrics, University of Pennsylvania Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Analisi dei Dati/Data Mining Metodologie • Metodologie Attive: Data Mining e KDD – L’utente guida le ipotesi iniziali per la ricerca di pattern, lasciando alla macchina il ruolo (attivo) di scoprire nuove regole e relazioni tra i dati. – Si dividono in base al grado di intervento da parte dell’utente in metodi • Supervised A.I. : machine learning • Unsupervised “The history of technology shows us that we overestimate what a technology can do for us in a few years and underestimate what it can do in a decade or two.” Edward Feigenbaum et al. Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 2 Data Mining • Supervised (modelli predittivi o di classificazione) – Implicano la predeterminazione di un modello che può essere utilizzato per prevedere il risultato di casi che si presenteranno in futuro. – Esempi: • Reti Neurali (Back Propagation) • Alberi Decisionali • Sistemi Esperti Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining • Unsupervised (modelli esplorativi) – L’algoritmo per la determinazione del modello non viene fornito di un risultato da ottenere, ma esplora i dati alla ricerca di relazioni per individuarne la struttura – Esempi: • Clustering • Regole di associazione Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 3 Data Mining Dall’approccio Statistico all’approccio Induttivo Modelli di KDD e Data Mining Metodo Supervised Unsupervised Predittivi Descrittivi sif ica zio ne – Lineare – Logistica Deduttivo Sistemi Esperti K-Nearest Neighbour Induttivo Naive Bayes Alberi Decisionali/Regole Reti Neurali (Back-Prop) Cl as Approccio Regressione Statistico K-means g Two-Stepsterin lu C Reti Kohonen (SOM) Regole di Associazione Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining Classificazione “Imparare” un metodo per prevedere la classe di un istanza a partire da istanze pre-classificate Dati due insiemi di punti per le classi qual’è la classe del punto ? Molti approcci: Regressione, Naïve Bayes, Alberi Decisionali, Reti Neurali, ... Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 4 Data Mining Classificazione Regressione Lineare • Calcola parametri che minimizzano distanza dei punti da una funzione lineare nei parametri • Poco flessibile Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining Classificazione Alberi Decisionali Y se X > 5 allora blu altrimenti se Y > 3 allora blu altrimenti se X > 2 then verde altrimenti blu 3 2 5 X Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 5 Data Mining Classificazione Reti Neurali • Possono selezionare regioni più complesse (non lineari) • Spesso metodo più accurato, ma attenzione ad overfitting Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Unsupervised Data Mining • Clustering (classificazione) – Cerca di segmentare i dati in gruppi di individui che presentano analoghe relazioni nei dati di input • Reti Neurali SOM (self-organizing maps): Kohonen • K-means: n° di cluster definito dall’utente, medie dal modello • Two Step: intervallo di n° di cluster (min, max) definito dall’utente, n° preciso scelto dal modello – Esempio: ricerca di classi omogenee di clienti in un database di marketing Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 6 Unsupervised Data Mining • Regole di associazione (modelli predittivi generalizzati) – Cerca di associare una particolare conclusione ad 1. Quante volte compare la un insieme di premesse premessa nel campione? Quante volte comapiono sia premessa che conclusione nel campione? queste, quante volte • Association {X1;X2; … ;Xn} Y 2. Su compare anche la conclusione • Confidenza: prob (Y∈A) dato ({X1;X2; … ;Xn} ∈A) • Supporto: prob ( (Y∈A) e ({X1;X2; … ;Xn} ∈A) ) – Esempio: • Analisi clientela di supermercati: se cliente compra pannolini compra birra (e anche patatine) Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Unsupervised Data Mining • Regole di associazione (modelli predittivi generalizzati) – Cerca di associare una particolare conclusione ad 1. Quante volte compare la un insieme di premesse premessa nel campione? Quante volte comapiono sia premessa che conclusione nel campione? queste, quante volte • Association {X1;X2; … ;Xn} Y 2. Su compare anche la conclusione • Confidenza: prob (Y∈A) dato ({X1;X2; … ;Xn} ∈A) • Supporto: prob ( (Y∈A) e ({X1;X2; … ;Xn} ∈A) ) – Esempio: • Analisi clientela di supermercati: se cliente compra pannolini compra birra …e anche patatine Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 7 Data Mining Concatenazione • Clustering può essere un primo modello a cui concatenare l’applicazione di un altro modello (tipicamente Supervised) perchè – problema di interpretazione • i cluster creati dai modelli possono essere molto difficili da interpretare – problema di dimensione • la dimensione del problema può essere ridotta in sottoinsiemi a ciascuno dei quali applicare poi metodi diversi Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Data Mining Clustering: Esempi di Applicazioni • Marketing: scoprire gruppi di clienti per effettuare marketing mirato o per riorganizzare approccio • Astronomia: trovare gruppi simili di oggetti stellari • Terremoti: Epicentri osservati dovrebbere raggrupparsi lungo falde continentali • Genetica: trovare gruppi di geni con caratteristiche simili • Text Mining: Analisi dei testi (Knowledge/Content Management) Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 8 Data Mining Il Processo CRISP-DM Cross Industry Standard Process for Data Mining • Processo – Comprensione del dominio – Preparazione dei dati – Scoperta dei pattern – Valutazione dei modelli – Utilizzo dei risultati 80% Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Tecniche di Visualizzazione Multidimensionale • Riciclaggio di denaro rilevato dall’Ufficio Italiano Cambi (UIC) nel 1994 Ogni flusso rappresenta il trasferimento di denaro da un comune ad un altro: • il colore rappresenta l’ammontare complessivo • blu basso • rosso alto • l’altezza rappresenta il numero di transazioni coinvolte Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 9 Tecniche di Visualizzazione Multidimensionale • Riciclaggio di denaro rilevato dall’Ufficio Italiano Cambi (UIC) nel 1994 Il flusso giallo evidenziato dalla freccia (grosso importo poche transazioni), è avvenuto tra Palermo ed un comune molto piccolo! Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Customer Relationship Management • Un esempio importante di applicazione di metodi di Data Mining su dati e informazioni trasversali del sistema informativo aziendale è il CRM • Obiettivi del CRM – – – – – – Fidelizzare il cliente Cross Selling Marketing one to one (121) Credit Scoring Scoring Promozionale Profilazione Cliente Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 10 Customer Relationship Management • La gestione personalizzata del cliente si basa su tre attività fondamentali – Operational CRM – Analytical CRM – Collaborative CRM Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Customer Relationship Management – Operational CRM (raccolta dei dati e delle informazioni) • Raccolta dei dati da tutte le fonti disponibili: – Datawarehouse » System Integration: Client Data Procedure bancarie Web Services Prezzi di Mercato (per personal finance) – Marketing Database – Contact History – Workflow di vendita Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 11 Customer Relationship Management – Analytical CRM (scoperta della conoscenza Knowledge Discovery and Data Mining - KDD) • Analisi dei dati e delle informazioni – Ricerca del modello » Query » Mining Web Mining Data Mining – Comprensione dei modelli – Utilizzo del modelli » Client Analysis Profiling Segmentazione comportamentale Clustering… – Reporting Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Customer Relationship Management – Collaborative CRM (comunicazione col cliente) • Gestione dell campagne di marketing – Determinare tipologia della campagna (ROI) – Action planning – Workflow di composizione dei messaggi promozionali » Composizione » Revisione » Autorizzazione » Invio SMS Web Portale Posta E-mail Call center Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 12 Data Mining Applicato Customer Relationship Management Dove si spende a livello mondiale per il Crm? Secondo Gartner Group: o22% dai servizi finanziari o19% dalle telecomunicazioni o16% dall'hi-tech o15% dalle manifatture di prodotto o7% dalle manifatture di processo o3% dall'energia e utility o3% dalla sanità o3% dalla PA o12% da altri settori. Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Knowledge Management Fonte: Nonaka, Takeuchi – “The Knowledge-Creating Company”, New York, Oxford University Press, 1995. processi persone Conoscenza “Knowledge Management is the capability of a company as a whole to create new knowledge, disseminate it throughout the organization and embody it in products, services and systems” KM Tecnologia Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 13 Knowledge Management 1998 Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Knowledge Management: concetti chiave Conoscenza Esplicita (Documentata) Conoscenza Tacita (Know-how delle persone) Facilmente codificabile Immagazzinabile Trasferibile Facilmente esprimibile e condivisibile Personale Legata al contesto Difficile da formalizzare Difficile da catturare/ comunicare/condividere Fonti: Politiche e procedure aziendali Manuali Database e resoconti Processi aziendali e comunicazioni informali Esperienze personali Comprensione storica Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 14 Knowledge Management: definizioni formali di Fonti Fonti strutturate: fonti che collezionano un insieme di dati organizzati secondo uno schema esplicito per la definizione univoca della semantica ad essi associata. Fonti non strutturate: fonti che collezionano informazioni contestualizzate (conoscenza) tipicamente espresse mediante l’uso del linguaggio naturale e non organizzate secondo uno schema esplicito ed univoco che ne definisca la semantica. Fonti semi strutturate: fonti che raccolgono nel loro insieme dati strutturati ed informazioni contestualizzate. Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Knowledge Management: il ruolo della tecnologia BEP Precisione/Copertura Strumenti specifici per la contestualizzazione delle informazioni: Tecnologie abilitanti: • • • • Natural Language Processing - NLP Motori di ricerca per keyword Groupware Digitalizzazione documenti … Infrastruttura IT: • Intranet/Internet • DBMS • … Dipendenza dal contesto Dati Informazioni Conoscenza Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 15 Chiave del KM: NLP Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor NLP: esempio (1/2) Fonte: “La gestione del rischio deve comprendere parametri espressivi della struttura organizzativa ed informatica (rischio operativo). La priorità è quindi quella di determinare il rischio incrociando informazioni sui mercati, sui prodotti finanziari e sui segmenti di clientela, anche a causa della minore possibilità di assorbire le perdite, determinata dalla riduzione del margine d'intermediazione.” Rappresentazione concettuale: gestione specializza gestione del rischio comprende parametri specializza della struttura organizzativa NLP specializza della struttura informatica Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 16 NLP: esempio (2/2) Fonte A: “Tale gestione si esplica principalmente nella valutazione dei parametri caratteristici della struttura organizzativa e di quella informatica.” Fonte B: “Gestione e controllo degli accessi Gestione integrata controllo accessi fisici-logici Gestione sistema di Single Sign On.” Ricerca per parola chiave: Ricerca per concetto (NLP): Fonte B Fonte A (3 occorrenze di “gestione”) Fonte A (1 occorrenza di “gestione”) gestione parametri della struttura organizzativa della struttura informatica Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Knowledge Management: tassonomia di discipline/strumenti • • • • • • • • • • Business Intelligence Knowledge Base Collaboration Portals Customer Relationship Management Data Mining Workflow Management E-Learning Search Content and Document Management Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 17 Enterprise Content Management The 'Building Blocks' of Enterprise Content Management ECM systems are comprised of an integrated suite of content-focused modules that provide the following functionality: • Document Management - for library services such as check-in and checkout, version control, and user and document-level security for business documents • Document Imaging - for capturing (scanning), profiling, and archiving paper-based content, including forms, facsimiles, engineering drawings, and graphics. • Records Management - for classifying documents and other content as business records in support of legal or regulatory compliance, archival, and automation of retention policies. • Web Content Management - for collecting, assembling, and staging content (both graphic and textual) for the purpose of publishing to Web sites or intranets. Content delivery is automated to streamline the process, ensure traceability, and eliminate bottlenecks. • Document-Centric Team Collaboration - for sharing, organizing, and controlling document-based collaborative processes. Typically, this functionality supports both internal and external team members with a high level of user and document-level security. • Content Workflow - for routing of content and support of business processes. Capabilities typically include task assignment, automated tracking (audit trail generation), work state communication (in process, completed, bottleneck, etc.), and graphic representation of the workflow itself. (tratto da http://www.hummingbird.com) Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor Modello ICT di Knowledge Management Tiered Knowledge Management Model (TKMM) Livelli: NLP Fondamentale per la buona riuscita di un progetto di Knowledge Management è la comprensione di questi quattro livelli… quattro Data/Text Mining tre OLAP Data Warehouse due Middleware Enterprise Resource Planning (ERP) uno …a partire dall’estrazione dei dati nel livello uno Conoscenza Esplicita Sistemi di Elaborazione dell’Informazione Economia del Commercio Internazionale - Economia e Amministrazione delle Imprese Hadley C. Taylor 18