D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati Tema2: Progettazione e interrogazione di data warehouse Unità: Bologna, Cosenza Obiettivi Progettazione e interrogazione efficiente di DW, con particolare riferimento al livello dei dati derivati, sia dal punto di vista logico che fisico • • • • tecniche efficaci per la materializzazione di viste, indici per l'accesso veloce ai dati, riscrittura di interrogazioni su viste materializzate, definizione di tecniche di ottimizzazione, basate sulla struttura delle interrogazioni. Risultati Fase 1 Survey su “Architetture DW “(rapp. D2.R1 BO-CS) Survey su “Principali aspetti riguardanti la progettazione logica e fisica di DW” (D2.R2 - BO) Survey su “Ottimizzazione di interrogazioni e identificazioni di classi trattabili” (D2.R3 - CS) Obiettivi Fase 2 Progettazione logica di DW: materializzazione di viste sulla base del carico, tecniche di frammentazione di viste materializzate, stima dimensioni viste, scelta degli indici (euristiche) Interrogazione di DW: tecniche innovative di interrogazione basate sull’uso di viste materializzate (casi trattabili), Risultati Fase 2 Definizione di tecniche per scelta ottimale di indici in sistemi di data warehouse (BO) interrogazione efficiente di data warehouse: casi trattabili di query rewriting and query containment (CS) Risultati Fase 2 Query rewriting: Tecniche per dedurre anche informazione negativa (oltre a quella positiva) Query containment and Hypertree decomposition: Acyclic queries Risultati Fase 2 Deduzione di Informazione negativa Viste e interrogazioni contenenti negazione V1: Q1: assigned(E,P,D) :- works(E,P), project(P,D) assign(E,P) :- emp(E), proj(P), not works(E,P) V2: Q2: not_assigned(E,P) :- emp(E), proj(P), not works(E,P) ? Emp(E), proj(P), works(E,P) Risultati su classi trattabili e complete Complexity of CQs NP-complete in the general case (Chandra and Merlin ’77) NP-hard even for fixed database Polynomial if Q has an acyclic hypergraph (Yannakakis ’81) LOGCFL-complete (in NC2) (G.L.S. ’98) Interest in larger tractable classes of CQS Is this query hard? ans a( S , X , X ' , C , F ) b( S , Y , Y ' , C ' , F ' ) c(C , C ' , Z ) d ( X , Z ) e(Y , Z ) f ( F , F ' , Z ' ) g ( X ' , Z ' ) h(Y ' , Z ' ) j ( J , X , Y , X ' , Y ' ) p ( B, X ' , F ) q ( B ' , X ' , F ) n m size of the database number of atoms in the query • Classical methods worst-case complexity: m = 11 ! O(n m) • Despite its apparence, this query is nearly acyclic It can be evaluated in O(m·n 2· logn) Work in progress Answering queries and hypertree decompositions: A query-planner based on hypertree decompositions Choosing the best query plan (i.e., the best decomposition) exploiting data on tables, attibute selectivity, indices, etc. Further possible applications: Answering queries using views Rapporti Tecnici D2.R4: Tecniche di progettazione logica e di interrogazione efficiente di data warehouse (CS,BO) D2.R5: Scelta ottimale di indici in sistemi di data warehouse (BO) Obiettivi Fase 1 Stato dell’arte su: progettazione logica e fisica di DW interrogazione efficiente di DW (query containment, query rewriting, ecc.)