Sergio Greco

D2I: Integrazione, warehousing e
mining di sorgenti eterogenee di dati
Tema2:
Progettazione e interrogazione di
data warehouse
Unità: Bologna, Cosenza
Obiettivi
Progettazione e interrogazione efficiente di DW, con
particolare riferimento al livello dei dati derivati, sia dal
punto di vista logico che fisico
•
•
•
•
tecniche efficaci per la materializzazione di viste,
indici per l'accesso veloce ai dati,
riscrittura di interrogazioni su viste materializzate,
definizione di tecniche di ottimizzazione, basate sulla
struttura delle interrogazioni.
Risultati Fase 1
Survey su “Architetture DW “(rapp. D2.R1 BO-CS)
Survey su “Principali aspetti riguardanti la
progettazione logica e fisica di DW” (D2.R2 - BO)
Survey su “Ottimizzazione di interrogazioni e
identificazioni di classi trattabili” (D2.R3 - CS)
Obiettivi Fase 2
Progettazione logica di DW:




materializzazione di viste sulla base del carico,
tecniche di frammentazione di viste materializzate,
stima dimensioni viste,
scelta degli indici (euristiche)
Interrogazione di DW:

tecniche innovative di interrogazione basate sull’uso
di viste materializzate (casi trattabili),
Risultati Fase 2
Definizione di tecniche per

scelta ottimale di indici in sistemi di data
warehouse (BO)

interrogazione efficiente di data warehouse:
casi trattabili di query rewriting and query
containment (CS)
Risultati Fase 2
Query rewriting:
Tecniche per dedurre anche informazione
negativa (oltre a quella positiva)
Query containment and Hypertree decomposition:
Acyclic queries
Risultati Fase 2
Deduzione di Informazione negativa
Viste e interrogazioni contenenti negazione
V1:
Q1:
assigned(E,P,D) :- works(E,P), project(P,D)
assign(E,P) :- emp(E), proj(P), not works(E,P)
V2:
Q2:
not_assigned(E,P) :- emp(E), proj(P), not works(E,P)
? Emp(E), proj(P), works(E,P)
Risultati su classi trattabili e complete
Complexity of CQs

NP-complete in the general case
(Chandra and Merlin ’77)
NP-hard even for fixed database

Polynomial if Q has an acyclic hypergraph
(Yannakakis ’81)
LOGCFL-complete (in NC2)
(G.L.S. ’98)
Interest in larger tractable classes of CQS
Is this query hard?
ans  a( S , X , X ' , C , F )  b( S , Y , Y ' , C ' , F ' )  c(C , C ' , Z )  d ( X , Z ) 
e(Y , Z )  f ( F , F ' , Z ' )  g ( X ' , Z ' )  h(Y ' , Z ' ) 
j ( J , X , Y , X ' , Y ' )  p ( B, X ' , F )  q ( B ' , X ' , F )
n
m
size of the database
number of atoms in the query
• Classical methods worst-case complexity:
m = 11 !
O(n m)
• Despite its apparence, this query is nearly acyclic
It can be evaluated in O(m·n 2· logn)
Work in progress

Answering queries and hypertree
decompositions:



A query-planner based on hypertree
decompositions
Choosing the best query plan (i.e., the best
decomposition) exploiting data on tables,
attibute selectivity, indices, etc.
Further possible applications:

Answering queries using views
Rapporti Tecnici
D2.R4: Tecniche di progettazione logica e di
interrogazione efficiente di data warehouse
(CS,BO)
D2.R5: Scelta ottimale di indici in sistemi di data
warehouse (BO)
Obiettivi Fase 1
Stato dell’arte su:
 progettazione logica e fisica di DW
 interrogazione efficiente di DW (query
containment, query rewriting, ecc.)