Il processo di estrazione di conoscenza Data Mining - Analisi dei dati Indipendentemente dal tipo di applicazione specifica, un processo di estrazione di conoscenza percorre alcune fasi che possono essere schematizzate in: 1. 2. 3. 4. 5. Definizione dell'obiettivo Individuazione delle fonti di dati Estrazione / acquisizione dei dati (ed integrazione, se provenienti da fonti o data bases diversi) Pre-processing (Pulizia dei dati - Analisi esplorative - Selezione - Trasformazione - Formattazione) Data Mining (Scelta dell'algoritmo - Individuazione dei parametri - Elaborazione - Valutazione del modello) 6. Interpretazione / valutazione dei risultati 7. Rappresentazione dei risultati Indipendentemente Lo schema seguente mette in luce la natura iterativa del processo. La fase di valutazione può infatti portare da una semplice ridefinizione dei parametri di analisi utilizzati, ad una ridefinizione dell'intero processo (a partire dai dati estratti). Mentre l'individuazione di "patterns" avviene automaticamente, l'intero processo di estrazione della conoscenza è difficilmente automatizzabile e richiede il coinvolgimento di varie professionalità (esperti del dominio applicativo, specialisti in analisi dati, informatici). La fase più impegnativa è, generalmente, quella del pre-processing. Una descrizione più dettagliata delle varie fasi è fornita dal progetto CRISP-DM ("CRoss-Industry Standard Process for Data Mining") che ha elaborato un modello di processo di data mining indipendente dall'ambito applicativo e dallo strumento di analisi.