SISTEMI INFORMATIVI AZIENDALI Prof. Andrea Borghesan venus.unive.it/borg [email protected] Ricevimento: Alla fine di ogni lezione Modalità esame: scritto 1 Data Mining. Introduzione La crescente popolarità dei sistemi di data mining all’interno dei sistemi informativi aziendali è giustificata dalla grande disponibilità di enormi quantità di dati generati dai vari processi aziendali informatizzati. Questi dati contengono sicuramente informazioni potenzialmente utili al processo decisionali ma spesso tali informazioni non sono facilmente identificabili (es. complessità delle relazioni). Per evitare che una decisione venga presa solo sulla base dell’esperienza o dell’intuito dell’imprenditore si utilizzano strumenti di data mining al fine di elevare il grado di obiettività e di precisione dell’analisi inglobando magari anche aspetti che potrebbero addirittura non valutati 2 Cosa sono i sistemi Data Mining. Il data mining è l’attività volta a riconoscere automaticamente ed estrarre informazione da base di dati di grandi dimensioni. Il data mining è spesso definito anche come il processo di scoperta della conoscenza da basi di dati (Knowledge Discovery in Databases, KDD). Il processo di scoperta della conoscenza si articola nei seguenti passaggi: Pulizia dei dati, significa eliminare le inconsistenze e correggere gli eventuali errori Integrazione dei dati, integrare fonti diverse in un unico modello 3 … Selezione dei dati, significa selezionare solo i dati che servono 4 all’analisi Trasformazione dei dati, significa riorganizzare o aggregare i dati in base al tipo di elaborazione Data mining, il processo vero e proprio di analisi Valutazione dei pattern, significa che spesso le tecniche di data mining portano alla luce informazioni che possono essere classificate come non rilevanti per l’indagine Presentazione della conoscenza, le informazioni devono essere presentate all’utente tramite opportune rappresentazioni grafiche (a colpo d’occhio l’utente deve comprendere la conoscenza che scaturisce dalle informazioni) Architetture dei sistemi di data mining Data Warehouse Motore di data mining Base di conoscenza Valutazione delle condizioni Presentazione 5 Componenti dell’archittetura 6 L’archichettura della slide precedente, si fonda sui seguenti componenti: DataWarehouse, è la base di dati di analisi Base di conoscenza (Knowledge Base), contiene l’insieme di regole e conoscenze “date per note” che verranno utilizzate per guidare la ricerca e per filtrare i risultati valutando l’effettivo interesse dei pattern rilevati Motore di data mining (Data Mining Engine), è composto dall’intero insieme di funzioni di analisi dei dati provenienti da discipline diverse come la statistica, l’intelligenza artificiale, reti neurali, l’analisi dei segnali… Sistema di valutazione delle condizioni (Pattern Evaluation), focalizza la ricerca sui pattern (condizioni) interessanti Sistema di presentazione, è l’interfaccia tramite la quale l’utente può specificare le tecniche di data mining, formulare nuove ipotesi o semplicemente visualizzare i risultati ottenuti Data Mining e Data Warehouse 7 Un sistema di data mining può non essere integrato nel sistema di data warehousing, allora il sistema di data mining deve mantenere una copia propria dei dati informazionali e periodicamente aggiornarla. Oppure integrarsi “perfettamente”, il sistema data mining viene visto come una componente funzionale del sistema informazionale, il vantaggio sta in una facilità di implementazione delle funzioni di data mining e in prestazioni elevate. Altre 2 caratteristiche sono: Scalabilità, capacità di elaborare le funzioni di analisi con tempi di risposta lineari rispetto alla numerosità dei dati. Requisito non sempre soddisfatto in quanto le informazioni superano una soglia critica il sistema rallenta in modo evidente (soluzione: calcolo parallelo) Interpretabilità, facilità con cui l’utente interagisce con l’interfaccia del sistema per l’attivazione delle funzioni di analisi e rappresentazione dei dati Funzioni di mining 1/3 In generale le funzioni di mining possono essere ripartite in 2 macro classi: Il mining descrittivo, descrive le proprietà generali dei dati. Il mining predittivo, che analizzando i dati presenti, determina delle regole e crea modelli per predire il futuro. Tipologie di analisi: Descrizione di classi e concetti Concetto: è una astrazione dei fatti (clienti e vendite) Classe: raggruppamento di elementi aventi stesse caratteristiche Analisi associativa, scopre le regole associative identificando nella massa dei dati i valori di attributi che si presentano insieme con elevata frequenza (importanti nei piani di marketing, campagne prodotti) 8 Funzioni di mining 2/3 Tecniche di classificazione e predizione, utilizzate per costruire modelli a partire dall’analisi dei dati di un campione (es. analisi rischio-clienti). Tali modelli permettono di ricondurre ad una classe nota qualsiasi elemento in base alle caratteristiche di suoi attributi. Analisi cluster, i dati vengono raggruppati in classi (cluster) sulla base della similitudine; elementi che appartengono alla stessa classe hanno caratteristiche comuni che li rendono simili. Le regole di similitudine non sono date a priori ma sono determinate dal sistema sulla base dell’osservazione dei valori assunti dai dati 9 Funzioni di mining 2/3 Analisi degli outlier, gli outlier sono gli elementi che si discostano dal modello generale dei dati, quelli che presentano qualche anomalia rispetto al profilo generale, esempio: La ricerca di frodi (operazioni o importi sospetti) La ricerca di intrusioni non autorizzate nei sistemi elettronici Valutazione efficienza impianti (individuazione macchine con guasti superiori alla media) Analisi evolutiva dei dati, descrive il comportamento nel tempo degli elementi sottoposti ad analisi, sottolineandone regolarità (comportamenti stagionali o ciclici) e tendenze. Analisi utilizzata per predire comportamenti futuri e quindi guidare le decisioni sulle politiche aziendali. 10 Processo di mining dei dati Ogni analisi di mining dei dati richiede, da parte dell’utente, l’indicazione dei parametri elencati di seguito: Insieme dei dati di analisi Tipo di informazioni da ricercare Misure di interesse Base di conoscenza Presentazione dei pattern 11 Insieme dei dati di analisi L’insieme dei dati di analisi definisce la porzione dei dati da fornire in ingresso alle funzioni di data mining. Esempio, un’analisi delle abitudini di acquisto dei propri clienti ha come base i fatti di vendita e non avrebbe alcun senso lanciare l’analisi comprendendo fatti di produzione o fatti legati alla logistica. Circoscrivere l’insieme dei dati di partenza migliora le prestazioni. È possibile che questa attività sia fatta da un utente che non ha una idea precisa ne consegue che potrebbe vanificare l’attività di mining sui dati 12 Tipo di informazioni da ricercare L’utente può/deve indicare quali informazioni ricercare scegliendo tra le funzioni disponibili quella che si presta meglio al suo obiettivo di conoscenza (descrittivo, di classificazione, predittivo o di analisi delle eccezioni). 13 Misure di interesse dei pattern Le analisi di mining possono produrre un insieme assai numeroso di elementi in uscita. È necessario un passaggio di post-processing per focalizzare l’attenzione, un pattern interessante si caratterizza per: • Novità, si intende informazione nuova, non ancora conosciuta (non duplicata) • Semplicità, facilmente comprensibile da chi conduce l’analisi • Certezza, la regola definita dal pattern deve essere valida anche su dati nuovi o diversi • Utilità, la regola identificata deve avere una qualche utilità potenziale per il decisore 14 Base di conoscenza Alcuni parametri che potrebbero essere utili per discriminare i pattern significativi dipendono dalla struttura dei dati, dalle regole aziendali e dall’esperienza di chi conduce l’analisi. Tali parametri devono essere descritti all’interno di una base di dati dedicata, la base di conoscenza, sotto forma di regole, di relazioni tra elementi. Per esempio, la base di conoscenza potrebbe descrivere le varie gerarchie (strutturali, di raggruppamento) all’interno del sistema. 15 Visualizzazione dei pattern La visualizzazione dei risultati ottenuti non è un elemento da sottovalutare, si può considerare come uno dei fattori di successo di qualsiasi sistema di analisi dei dati. Nei sistemi di data mining alcuni tipi di visualizzazione sono particolarmente utili. Esempio, gli alberi di decisione si utilizzano prevalentemente nelle analisi di classificazione, i diagrammi di dispersione nelle analisi di clustering. 16 Statistiche elementari e analisi relative Un primo insieme di funzioni di mining dei dati è costituito dagli strumenti che permettono di descrivere in modo sintetico ma preciso le informazioni contenuti nel database. Gli strumenti descrittivi operano tramite: Generalizzazione, attività che permette di ripartire i dati elementari in gruppi caratterizzati da attributi comuni Caratterizzazione, descrive le particolarità Discriminazione, che marca le differenze tra gruppo e gruppo 17 Caratterizzazione Si utilizzano misure di tendenza al fine di capire come i dati si dispongono attorno ad un determinato valore: Media,media pesata, “centro numerico” di un insieme di valori Mediana, valore/modalità che si trova nel mezzo della distribuzione Moda, valore che ha la massima frequenza 18 Oppure misure di dispersione: Varianza, come i dati si distribuiscono attorno al valore medio Confidenza, identifica l’intervallo di valori intorno alla media che si distribuiscono come una Gaussiana all’interno di una probabilità data (intervallo di confidenza pari al 98%) Percentili, rappresentano, dato un insieme ordinato di misure, il limite al di sotto del quale ricade una certa percentuale dei dati (quartili) Discriminazione Nella discriminazione le caratteristiche di una classe vengono messe a confronto con quelle di classi diverse ma ovviamente paragonabili. Rappresentazione grafica 19 I principali sono: • Istogramma di frequenza • Plot quantile • Scatter plot • Uno degli strumenti grafici più efficace per vedere a colpo d’occhio se è presente una relazione di qualsiasi genere tra 2 misure descrittive della stessa classe. La coppia di valori è vista come una coppia di coordinate. Si evidenziano blocchi di aggregazione o tendenze o punti isolati Analisi associative 20 I meccanismi di associazione permettono di identificare le condizioni che tendenzialmente si verificano contemporaneamente. Nati principalmente per l’analisi delle vendite, tracciano le propensioni d’acquisto legate alle caratteristiche dei clienti. Le informazioni che scaturiscono permettono di pianificare campagne promozionali efficaci, strutturare i listini o addirittura identificare clienti potenzialmente a rischio di insoluti. In sostanza si cerca di individuare dei pattern che si ripetono in determinate condizioni e che consentono di derivare delle regole di implicazione del tipo A => B (se si verifica A allora è probabile si verifichi anche B). Le condizioni vengono rappresentate nella forma: Attributo(soggetto, valore) Attributo1(soggetto, valore1) AND Attributo2(soggetto, valore2) Significatività delle associazioni 1/2 La significatività di un’associazione viene principalmente valutata in base a 2 misure particolari: confidenza e supporto. Confidenza, è una misura della certezza del pattern. Definita come la probabilità condizionata P(A|B), cioè la probabilità che un elemento che contenga A contenga anche B. Calcolato come P(A|B) = P(AB)/P(B) Supporto, è una misura della frequenza con cui il pattern è stato identificato sulla base di dati. È calcolato come (elementi che soddisfano la regola)/(totale elementi dell’insieme dati di analisi) 21 Significatività delle associazioni 2/2 Esempio, la regola: Compra(X, “divano a 2 posti”) => Compra(X, “poltrona”) Ha una misura di confidenza dell’85% e una di supporto del 30%. Come si legge? Significa che tutti coloro che hanno comprato un divano a 2 posti erano all’85% intenzionati a comprare anche una poltrona ma solo nel 30% delle vendite il cliente ha comprato sia un divano a 2 posti che una poltrona Le associazioni forti sono quelle che il supporto è significativo (oltre una certa soglia) e la confidenza è elevata. 22 Classificazione Le tecniche di classificazione sono anche definite tecniche di apprendimento assistito: i parametri per la creazione del modello sono infatti forniti dall’utente che specifica le classi, i dati per il modello e a che classe appartiene il dato. Nella creazione del modello l’utente divide i dati in 2 sottoinsiemi, il training set (per l’apprendimento) e il testing set (per la validazione del modello). Le tecniche usate sono molteplici: Alberi di decisione Reti neurali e algoritmi genetici Reti bayesiane 23 Alberi di decisione 1/3 Titolo di studio 24 Zona Età Acquista divano Laurea Nord < 40 Sì Laurea Sud 41-50 No Laurea Nord >50 Sì Diploma Sud < 40 Sì Diploma Nord 41-50 Sì Laurea Sud 41-50 No Diploma Nord < 40 Sì Laurea Sud >50 No Laurea Nord >50 Sì Diploma Nord >50 No Alberi di decisione 2/3 Data la tabella slide precedente, costruiamo l’albero delle decisioni. Prima di iniziare definiamo la struttura: I nodi interni sono attributi del soggetto da classificare Gli archi in uscita da un nodo sono etichettati con i valori che l’attributo può assumere I nodi foglia sono le classi La tecnica di costruzione usa raffinamenti successivi: sceglie un attributo come radice, divide gli elementi in sottoinsiemi sulla base dei valori assunti dall’attributo e crea gli archi, uno per ogni possibile valore dell’attributo, che portano a nuovi nodi. Se tutti gli elementi di un sottoinsieme appartengono alla stessa classe, il nodo corrente è una foglia, altrimenti sceglie un nuovo attributo per etichettare il nodo e riprende la divisione. 25 Alberi di decisione 3/3 L’albero avrà la seguente forma: Età >50 41-50 <40 Titolo di studio Sì diploma Sì laurea No Zona nord sud Titolo di studio No diploma Sì 26 laurea No Caratteristiche dei classificatori Accuratezza della previsione Velocità, tempo impiegato sia per costruire il modello sia che per classificare gli elementi Scalabilità Robustezza, capacità del modello di classificare correttamente elementi anche in presenza di dati errati o mancanti Interpretabilità, modello di facile comprensione (vedi l’albero delle decisioni) a differenza delle reti neurali o quelle bayesiane 27