Tema 1: Integrazione di dati provenienti da sorgenti eterogenee

D2I
Integrazione, Warehousing e Mining
di sorgenti eterogenee
Tema 1: Integrazione di dati provenienti da
sorgenti eterogenee
Unità di ricerca – Università di Roma La Sapienza (RM)
Prototipo per gli algoritmi di query rewriting e query
answering using views e per la riconciliazione dei dati
IBIS
Andrea Calì, Giuseppe De Giacomo, Diego Calvanese,
Domenico Lembo, Maurizio Lenzerini
Rapporti precedenti
D2I
 D1.R1: metodi e tecniche per la rappresentazione e l’integrazione di sorgenti
eterogenee

Framework: schema sorgente, schema globale, mapping (LAV\GAV)
 D1.R5: Rassegna sui metodi di answering a rewriting
 D1.R11: Descrizione della metodologia e degli strumenti per la
riconciliazione dei dati.

Confronto LAV-GAV

Metodologia per la riconciliazione dei dati in LAV ed in GAV

Presenza di vincoli sullo schema globale

Riconciliazione di sorgenti di dati incomplete ed inconsistenti
D2I
IBIS: Internet-Based Information System
 Sviluppato nell’ambito del progetto D2I e nel contesto di una collaborazione
fra il DIS dell’Università La Sapienza e la CM sistemi.
 IBIS è un sistema per l’integrazione di dati che supporta tutti gli aspetti di
un contesto complesso di data integration, come il wrapping delle sorgenti,
query answering in presenza di vincoli di integrità, limitazione nell’accesso
alle sorgenti.
 IBIS offre una efficace interazione con l’utente ed un’ architettura scalabile
ed estendibile.
 IBIS supporta RDBMS, risorse Web, sistemi legacy.
D2I
Aspetti principali
 IBIS è progettato per supportare la specifica di mapping GAV e
LAV, e per il processamento di query in entrambi gli approcci;
 Il framework di integrazione su cui è basato consente
l’integrazione di sorgenti di dati incomplete ed inconsistenti;
 Capacità di trattare i vincoli sullo schema globale
 Capacità di trattare sorgenti con limitazioni d’accesso
D2I
Attuale implementazione
• Global As View: lo schema globale è definito in termini
delle sorgenti
• Schema Globale: relazionale con vincoli di chiave e di
integrità referenziale
• Linguaggio per il mapping e per le query sullo schema
globale: unione di query congiuntive
• Schemi sorgenti: relazionali con limitazioni d’accesso
• Integrazione di sorgenti incomplete
Query processing
D2I
Formulazione
Archiviazione
Espansione
Unfolding
Esecuzione
D2I
Estrazione dei dati
 Il modulo di estrazione estrae dalle sorgenti tutte le
tuple che possono essere usate per rispondere alla
query, trattando opportunamente le limitazioni di
accesso.
 IBIS parte da un insieme di valori iniziali specificati
nella query.
 Estrae tuple dalle sorgenti accessibili allo scopo di
ottenere nuovi valori per accedere alle altre sorgenti.
 Le tuple estratte sono mantenute in un apposito data
store.
Estrazione dei dati - ottimizzazioni
D2I
Il processo di estrazione è dispendioso ma IBIS supporta
le seguenti soluzioni:

Ottimizzazioni


Statica: applicata prima dell’estrazione esclude le sorgenti
inutili
Dinamica: applicata durante l’estrazione esclude gli accessi
inutili

Estrazione basata su un criterio di prossimità

Implementazione “Anytime” dell’algoritmo

Sfruttamento della conoscenza utente del dominio

Caching su richiesta
Architettura di IBIS
D2I
D2I
User Interface
WEB Server
IBIS Application Interface
Configuration
CORE
Expander
Core Session
Conf iguration
Manager
Static
Optimizer
Unf older
Dy namic
Optimizer
Metadata
Repository
Plan
Executor
Extractor
Wrapper
Manager
Wrapping
Ty pe Specif ic
Wrapper Source Specif ic
Wrapper
DataStore
D2I
Tool di Configurazione
D2I
Catalogo delle interrogazioni
D2I
Attivazione di una interrogazione
D2I
Risposta ad una interrogazione