Il processo di estrazione di conoscenza

Il processo di estrazione di conoscenza
Data Mining - Analisi dei dati
Indipendentemente dal tipo di applicazione specifica, un processo di estrazione di conoscenza percorre
alcune fasi che possono essere schematizzate in:
1.
2.
3.
4.
5.
Definizione dell'obiettivo
Individuazione delle fonti di dati
Estrazione / acquisizione dei dati (ed integrazione, se provenienti da fonti o data bases diversi)
Pre-processing (Pulizia dei dati - Analisi esplorative - Selezione - Trasformazione - Formattazione)
Data Mining (Scelta dell'algoritmo - Individuazione dei parametri - Elaborazione - Valutazione del
modello)
6. Interpretazione / valutazione dei risultati
7. Rappresentazione dei risultati
Indipendentemente Lo schema seguente mette in luce la natura iterativa del processo. La fase di
valutazione può infatti portare da una semplice ridefinizione dei parametri di analisi utilizzati, ad una
ridefinizione dell'intero processo (a partire dai dati estratti).
Mentre l'individuazione di "patterns" avviene automaticamente, l'intero processo di estrazione della
conoscenza è difficilmente automatizzabile e richiede il coinvolgimento di varie professionalità (esperti del
dominio applicativo, specialisti in analisi dati, informatici). La fase più impegnativa è, generalmente, quella
del pre-processing.
Una descrizione più dettagliata delle varie fasi è fornita dal progetto CRISP-DM ("CRoss-Industry Standard
Process for Data Mining") che ha elaborato un modello di processo di data mining indipendente dall'ambito
applicativo e dallo strumento di analisi.