Data mining e rischi aziendali Antonella Ferrari Università Università degli Studi di Verona © A. Ferrari La piramide delle componenti di un ambiente di Bi Decision maker La decisione migliore Decisioni Ottimizzazione Scelta tra alternative Modelli di apprendimento Data Mining Esplorazione dei dati Analisi statistica e visualizzazione Data warehouse e data mart Analisi dei cubi multidimensionali Analisi attive di Bi Estrazione di informazioni e conoscenze a partire dai dati Analisi passive di Bi Metodi statistici, sistemi di interrogazioni e reporting Fonti di dati Dati operazionali, documenti e dati esterni Fonte: Business Intelligence. Modelli matematici e sistemi per le decisioni decisioni,, C. Vercellis, McGraw Hill, Hill, 2006. Università Università degli Studi di Verona 2 © A. Ferrari Il data mining è … Il processo di esplorazione e analisi di grandi quantità di dati avente lo scopo di scoprire conoscenza, nuovi fatti, correlazioni, regolarità utili nella presa di decisioni 3 Università Università degli Studi di Verona © A. Ferrari Il data mining, la statistica classica e gli strumenti Olap Olap Statistica Data mining Estrazione di dettagli e totali aggregati dai dati Verifica di ipotesi formulate da analisti Identificazione di regolarità e ricorrenze nei dati Informazione Validazione Conoscenza Distribuzione dei redditi di chi richiede mutui Analisi di varianza dei redditi di chi richiede mutui Caratterizzazione di chi richiede mutui e predizione di chi li richiederà in futuro Fonte: Business Intelligence. Modelli matematici e sistemi per le decisioni decisioni,, C. Vercellis, McGraw Hill, Hill, 2006. Università Università degli Studi di Verona 4 © A. Ferrari Il data mining, la statistica classica e gli strumenti Olap Analisi statistiche Preventiva formulazione di un’ipotesi che in seguito si cerca di confermare in base all’evidenza campionaria Analisi Olap Criteri di estrazione, reporting e visualizzazione basati su ipotesi formulate Entrambi forniscono elementi a conferma o a smentita delle ipotesi formulate Approccio di analisi di tipo top-down 5 Università Università degli Studi di Verona © A. Ferrari Il data mining, la statistica classica e gli strumenti Olap Modelli di data mining Predizioni e interpretazioni che costituiscono nuova conoscenza Approccio di analisi di tipo bottom-up Apprendimento dai dati 6 Università Università degli Studi di Verona © A. Ferrari Apprendimento dai dati Gli algoritmi imparano dai dati, sono quindi adattabili, cioè possono essere impiegati anche quando le condizioni cambiano Inoltre sono in grado di fornire buone risposte a fronte di dati rumorosi (errori o anomalie per eventi straordinari, …) 7 Università Università degli Studi di Verona © A. Ferrari Obiettivo del data mining Capire il fenomeno (Apprendere dall’esperienza passata) Ieri Oggi Prevedere il fenomeno (Ampliare l’orizzonte) Domani Un ponte tra il passato e il futuro 8 Università Università degli Studi di Verona © A. Ferrari Dal dato alla conoscenza Dati Dati di target Selezione Dati trasformati Preparazione Patterns Data mining Interpretazione/ Valutazione Università Università degli Studi di Verona Fonte: Advances in knowledge discovery and data mining, mining, U. M.Fayyad, M.Fayyad, G.PiatetskyG.Piatetsky-Shapiro, Shapiro, P. Smyth, Smyth, R. R.Uthurusamy, R.Uthurusamy, AAAAI Press / The MIT Press, 1996. Conoscenza 9 © A. Ferrari Dal dato alla conoscenza Processo interattivo e iterativo, strutturato in diverse fasi: 1. Identificazione del problema, tenendo conto della relativa conoscenza già acquisita in precedenza e degli obiettivi che si vogliono perseguire 2. Selezione dell’insieme dei dati, oggetto del processo di estrazione (scoperta) della conoscenza 3. “Pulizia” e normalizzazione dei dati attraverso, ad esempio, l’eliminazione dei dati rumorosi (noise) e dei valori estremi (outlier), la gestione dei campi vuoti (missing values field) … 10 Università Università degli Studi di Verona © A. Ferrari Dal dato alla conoscenza Processo interattivo e iterativo, strutturato in diverse fasi: 4. Individuazione delle caratteristiche salienti per rappresentare il fenomeno che si sta analizzando in funzione dell’obiettivo definito 5. Scelta del cosiddetto “data mining task”, cioè il tipo di analisi sui dati da effettuare (classificazione, previsione, …) 6. Scelta delle tecniche di data mining da impiegare per ricercare i pattern nei dati 11 Università Università degli Studi di Verona © A. Ferrari Dal dato alla conoscenza Processo interattivo e iterativo, strutturato in diverse fasi: 7. Svolgimento del data mining, cioè si compie la ricerca dei pattern d’interesse 8. Interpretazione dei pattern “scoperti” con la possibilità di ritornare alle fasi precedenti per ulteriori iterazioni 9. Consolidamento e formalizzazione della conoscenza acquisita (realizzazione/integrazione di un sistema applicativo, redazione di documentazione, presentazione alle parti interessate, …) 12 Università Università degli Studi di Verona © A. Ferrari Tipologia di problemi • Classificazione/Valutazione • Paziente A t0 • Paziente B • Previsione • Paziente A t1 • Paziente B • Segmentazione • Cluster A • Cluster B • Cluster C 13 Università Università degli Studi di Verona © A. Ferrari Tipologia di apprendimento Apprendimento supervisionato Input Output Info Cliente XXX Cliente Classe A Info Cliente YYY Cliente Classe B Apprendimento non supervisionato Solo Input Cluster A Clienti Cluster B Cluster C 14 Università Università degli Studi di Verona © A. Ferrari Alcune tecniche Apprendimento supervisionato • Alberi decisionali • Reti neurali * Apprendimento non supervisionato • Regole associative • Algoritmi di clustering 15 Università Università degli Studi di Verona © A. Ferrari Reti neurali Tecnica di apprendimento che vuole essere il tentativo di imitare il cervello umano nella sua struttura di miliardi di neuroni interconnessi attraverso le sinapsi e nel suo funzionamento Essa è impiegata per la risoluzione di problemi in cui sono richieste capacità di riconoscimento, di classificazione o di previsione 16 Università Università degli Studi di Verona © A. Ferrari Alberi decisionali Tecnica di apprendimento per la risoluzione di problemi di classificazione e di previsione Essa genera regole del tipo se … allora che consentono di capire il processo che ha portato a un certo risultato 17 Università Università degli Studi di Verona © A. Ferrari Regole associative Tecnica che consente di estrarre informazioni sulla base della concomitanza del verificarsi di certi eventi Essa è spesso associata alla market basket analysis, una tecnica impiegata per scoprire le relazioni o le correlazioni tra un insieme di prodotti (paniere o basket) 18 Università Università degli Studi di Verona © A. Ferrari Algoritmi di clustering Gli algoritmi di clustering esplorano i dati al fine di individuare caratteristiche comuni che consentano di suddividerli in gruppi omogenei (cluster) I dati vengono raggruppati sulla base delle somiglianze e affinità che presentano 19 Università Università degli Studi di Verona © A. Ferrari Differenze nelle tecniche Accuratezza versus comprensibilità Alto Alberi decisionali Livello di facilità di comprensione Algoritmi di clustering Regole associative Reti neurali Basso 20 Università Università degli Studi di Verona © A. Ferrari Ambiti applicativi • Rischio frodi perpetrate attraverso l’uso di carte di credito o Sim telefoniche • Rischio frodi assicurative • Rischio di credito • Rischio di abbandono • Rischi legati alla diagnostica medica • Rischi legati a processi produttivi di diversa natura • Rischi legati all’It Governance (controllo, sicurezza, integrità dei dati, …) • … Università Università degli Studi di Verona 21 © A. Ferrari Scelta tecnica Raccolta Addestramento Valutazione modelli Scelta miglior modello Altre variabili derivate Verifica, analisi e pulizia Altri campioni (set) Quali Nuovi dati Dati scorretti o incongruenti Dati Preelaborazione Università Università degli Studi di Verona Definizione set/modelli Altre tecniche Se non disponibili L’ambiente ad hoc di data mining 22 © A. Ferrari Flusso operativo Codice CLIENTE Database X Caratteristiche individuate dal modello Cluster di appartenenza Database X Codice CLIENTE Cluster di appartenenza da definire Datamart X Datamart X Modello di clustering DWH X DWH X Tabella CLIENTI Tabella CLIENTI Report ….. 23 Università Università degli Studi di Verona © A. Ferrari Data mining e Edp auditing Il data mining come strumento a supporto dell’attività di Edp Auditing Il data mining come “sistema informativo” oggetto di attività di Edp Auditing 24 Università Università degli Studi di Verona Grazie! [email protected] 25 Università Università degli Studi di Verona