D2I - Tema 3: Data Mining
Stato di avanzamento
Roma 11/10/2002
Prodotti - fase 3
D3.P1
Algoritmi di clustering incrementale di dati (BO)
D3.P2
Risoluzione di query approssimate (BO)
D3.P3
Prototipo per il meta-querying (CS)
D3.P4
Sistema integrato di data mining e visualizzazione
(RM)
D2I - Tema 3
2
Obiettivi - fase 3
Implementazione
Raffinamento delle tecniche specifiche sviluppate
nelle fasi precedenti e implementazione dei
prototipi
Visualizzazione
Studio di tecniche di visualizzazione dei risultati
dei vari algoritmi di data mining
Integrazione
Studio e raffinamento dell’architettura del sistema
integrato di mining e visualizzazione
D2I - Tema 3
3
Clustering di dati metrici
Data mining engine per clustering
Implementazione di algoritmi originali e
da letteratura
Delphi
Librerie acquisite esternamente e integrate
Architettura per integrazione con
visualizzazione
Aperto all’inserimento di altri algoritmi
D2I - Tema 3
4
Stato di avanzamento
Integrazione
Definiti i dettagli dell’architettura
API
XML
Clustering incrementale
Algoritmo implementato in fase di collaudo
D2I - Tema 3
5
Ricerche di similarità approssimate
Problema di base: trovare efficientemente oggetti “simili” a uno dato
Essenziale per DM interattivo/esplorativo
ricerche esatte spesso troppo costose
…e/o non necessarie (qual è la “giusta” query?)
Idea generale: rilassare uno o più vincoli del problema
Utilizzo dell’approccio PAC (rif. D3.R3)
Possibilità, in fase di interrogazione, di:
Controllare in maniera probabilistica l’approssimazione del risultato
Ottenere un compromesso tra velocità di risoluzione della query e
qualità del risultato.
Scenario generale: spazi metrici
D2I - Tema 3
6
Implementazione del prototipo
Interrogazioni considerate:
range query (tutti i punti aventi una distanza dalla query minore di una
soglia)
k nearest neighbor query (i k punti più vicini alla query)
Definizione di un errore ERR sul risultato dell’interrogazione
Informazione di base: distribuzione delle distanze dei query point:
F(x) = Pr{d(q,p) ≤ x}
Tipicamente, query point distribuiti come i data point (ma non sempre)
Implementazione degli algoritmi PAC
Sequenziali
Basati su M-tree
D2I - Tema 3
7
Risoluzione di PAC range query
Input:
q: Punto query
r: Raggio di ricerca
: Valore di errore ( 0)
d: Valore di confidenza ( [0, 1[ )
Output:
Insieme di oggetti RES
RES può non contenere tutti gli oggetti che hanno distanza da q r
L’errore è pertanto definito sulla cardinalità dell’insieme dei risultati
ERR = 1 – card(RES)/card(R)
dove R è il risultato della query esatta
In pratica, l’algoritmo si ferma non appena la probabilità di trovare altri
punti che soddisfano la query è inferiore a d
D2I - Tema 3
8
Risoluzione di PAC k nearest neighbor
Input:
q: Punto query
k: Cardinalità del risultato
: Valore di errore ( 0)
d: Valore di confidenza ( [0, 1[ )
Output:
Lista ordinata (per distanza crescente) di k oggetti RES
RES può non contenere i primi k oggetti a minor distanza da q
L’errore è pertanto definito sulla distanza da q dei punti inclusi in RES
ERR = maxi {d(q, pi*)/d(q, pi) – 1}
dove pi* è ciascun punto incluso in RES e pi è il corrispondente punto nel
risultato esatto
In pratica, l’algoritmo si ferma non appena la probabilità di trovare punti
più vicini a q di quelli in RES è inferiore a d
D2I - Tema 3
9
Meta querying - stato di avanzamento
Metaquerying
Valutatore implementato in Java
Integrazione
Rilasciato package Java per
integrazione con tool di
visualizzazione
D2I - Tema 3
10
Data Mining visual environment
Design
Test di usabilità
Semantica formale dell’ambiente di input
Semantica operazionale
D2I - Tema 3
11