Tema 1: Integrazione di dati provenienti da sorgenti eterogenee

D2I
Integrazione, Warehousing e Mining
di sorgenti eterogenee
Tema 1: Integrazione di dati
provenienti da sorgenti
eterogenee
Responsabile del tema di ricerca
Sonia Bergamaschi
Unita' coinvolte nel tema
Univ. di Bologna
Univ. della Calabria
Univ. di Milano
Univ. di Modena e Reggio Emilia
Univ. di Roma "La Sapienza"
Obiettivo Fase 2
Quadro metodologico per l’integrazione di
dati provenienti da sorgenti fortemente
eterogenee
 Metodologia per la costruzione di viste riconciliate di
dati semi-strutturati provenienti da sorgenti
eterogenee basata su tecniche intelligenti
 Metodi e tecniche per il trattamento di interrogazioni
formulate sulla vista integrata
Prodotti Fase 2
Prodotti Previsti
D1.R6
Descrizione della metodologia di integrazione di sorgenti
fortemente eterogenee (MI,BO,MO)
D1.R7
Architettura funzionale di un ambiente di ausilio al progettista
per la costruzione di viste riconciliate di sorgenti fortemente
eterogenee basato sulle tecniche sviluppate (CS,MI,MO)
D1.R8
Specifiche funzionali del Query Manager (MO)
D1.R9
Algoritmi per la traduzione di informazioni da modelli di dati
sorgente a modelli di dati target (CS)
D1.R10
Descrizione del linguaggio fuzzy per l' interrogazione di viste
riconciliate(MI)
D1.R11
Descrizione della metodologia e degli strumenti per la
riconciliazione dei dati (RM)
Unità di Modena (MO)
D1.R8: Specifiche funzionali del Query Manager
Unità di Milano (MI)
D1.R6: Descrizione della metodologia …
D1.R10: Descrizione del linguaggio fuzzy …


D1.R6: Descrizione della metodologia di integrazione di
sorgenti fortemente eterogenee (MI,BO,MO)
 metodologia generale articolata in fasi che integra i
contributi delle tre UO coinvolte (ARTEMIS/MOMIS + BO)
 sezioni dedicate ai contributi delle singole unita’: proprieta’
inter-schema e ontologie (MO), integrazione di sorgenti
Web (MI), integrazione con proprieta’ estensionali
(MI+MO), aspetti di integrazione di BO
D1.R10:Descrizione del linguaggio fuzzy per
l'interrogazione di viste riconciliate (MI)
 uso di un linguaggio fuzzy per il popolamento semiautomatico di classi globali in presenza di dati imprecisi
(eterogeneita’ semantica) nelle sorgenti da integrare
 applicazione nell’approccio global-as-view
D1.R6: articolazione proposta
1. Introduction (MI - all)
2. Overview of the integration methodology (MI+MO+BO)
3. Interschema property specification and ontologies
(MO)
4. Schema integration for Web data (MI)
5. Data integration with extensional properties (MI+MO)
6. T.B.D. (BO)
7. Concluding remarks (MI - all)
Unità di Roma – La Sapienza (RM)
D1.R11: Descrizione della metodologia e degli strumenti
per la riconciliazione dei dati

Rapporti precedenti




Framework: schema sorgente, schema globale, mapping (LAV\GAV)
Nuovo rapporto D1.R11



D1.R1: Approccio DLR per la rappresentazione e l’integrazione di sorgenti
eterogenee
D1.R5: Rassegna sui metodi di answering a rewriting
Confronto LAV-GAV
Metodologia per la riconciliazione dei dati in LAV ed in GAV
Riconciliazione in LAV

Approccio DLR :
sorgenti relazionali a cui associamo viste sul livello concettuale
corrispondenze di riconciliazione (convert, match, merge)
algoritmo di query rewriting

Riconciliazione in GAV


Vincoli sullo schema globale e Viste Sound: Unfolding non e’ sufficiente
Caso di schemi relazionali con vincoli di chiave e vincoli di foreign key sullo
schema globale
Unità della Calabria (CS)
D1.R9: Algoritmi per la traduzione di informazioni
da modelli di dati sorgente a modelli dei dati target
 Approfondimento dei metodi ed degli algoritmi di
traduzione presentati nel rapporto tecnico precedente.
In particolare:



Analisi volta a dimostrare l’omogeneità delle traduzioni
Approfondimento delle analogie e differenze del nostro
modello con i modelli proposti in letteratura per gestire le
medesime problematiche
Definizione, a livello logico, di un modello capace di
rappresentare i dati provenienti da sorgenti informative
eterogenee (E-SDR-Network). La E-SDR-Network è il modello
logico corrispondente al modello concettuale SDR-Network
introdotto nel precedente rapporto
Unità della Calabria (CS)
D1.R7: Architettura funzionale di un ambiente di ausilio al
progettista per la costruzione di viste riconciliate…
 Le architetture per la costruzione di viste necessitano
di una fase di Integrazione ed, eventualmente, di una
fase di Astrazione degli schemi e dei dati
 Sono stati sviluppati due approcci per la realizzazione
di questi processi (MOMIS e DIKE)
 Nel rapporto tecnico vengono analizzate le
caratteristiche dei due approcci
 Successivamente viene definito un framework che, ad
un livello di astrazione maggiore, rappresenti i due
approcci e consenta di catturare le caratteristiche
migliori di entrambi