RIASSUNTO ATTIVITA` POLITECNICO DI MILANO

RIASSUNTO ATTIVITA’ POLITECNICO DI MILANO
Principali attività svolte dall’UO Politecnico di Milano
Le attività di ricerca svolte dall’UO Politecnico di Milano si sono concentrate principalmente
sullo studio di un linguaggio visuale e sulla conseguente realizzazione di una interfaccia grafica
per interrogare la biblioteca digitale in modo al tempo stesso flessibile, semplice e intuitivo. La
disponibilità di XQuery come linguaggio di interrogazione “general purpose” e di una descrizione
XML di ogni documento catalogato suggerisce di affiancare alle maschere di ricerca standard una
modalità ibrida di interrogazione ed esplorazione dei documenti e dei loro schemi, basata su una
rappresentazione visuale della struttura e del contenuto. Tale rappresentazione permette all'utente
di specificare sotto forma di grafo la struttura e i contenuti dei documenti cui è interessato; da tale
grafo si deriva poi automaticamente la query XQuery da sottomettere al motore di interrogazione.
Il paradigma di interrogazione prevede che nell’area di sinistra l’utente rappresenti graficamente
la struttura e le proprietà dei documenti che sono rilevanti per la sua ricerca, specificando
eventualmente dei criteri di selezione di tipo comparativo o imponendo dei vincoli sul contenuto
di alcune parti; la parte destra è invece deputata a rappresentare la struttura del risultato atteso. Il
legame tra le due parti è rappresentato da archi che collegano gli elementi selezionati con quelli
da costruire.
Inoltre è stata studiata un’estensione di XQuery, chiamata Active XQuery, per il supporto di
regole attive, che hanno dimostrato le loro potenzialità nell'ambito delle basi di dati relazionali e
possono diventare uno strumento efficace per realizzare nuovi servizi nel contesto di XML.
Nell’ambito delle biblioteche digitali, esempi di applicazione immediata sono la costruzione
automatica di metainformazione sui documenti, la loro classificazione automatica, la
presentazione dei dati in modo personalizzato, il controllo e il mantenimento dell’integrità
dell’informazione, e la notifica agli utenti di eventi rilevanti, quali ad esempio la presenza di un
nuovo documento relativo ad un campo di interesse predefinito.
Un'altra importante attività di ricerca si è concentrata sull'estensione di XQuery al supporto di
interrogazioni fuzzy. In questo contesto, un’interrogazione può imporre, oltre ai vincoli
tradizionali sui dati, anche vincoli topologici e strutturali sul documento da recuperare, per
incrementare la potenziale precisione dei risultati delle interrogazioni. Infatti, richiedendo
un’esatta corrispondenza con la struttura specificata si potrebbero perdere tutti i documenti anche
molto simili ma non identici a quelli richiesti. Per esprimere compiutamente una query, quindi,
imponendo vincoli topologici esatti, un utente dovrebbe essere consapevole dell’esatta
organizzazione del documento, ma tale condizione si verifica raramente in pratica.
Un ulteriore contributo volto al fine di ottimizzare il processo di interrogazione della collezione di
documenti si è concentrato sull'uso di raccolte di dati statistiche. Questa tecnica permette di
realizzare delle interrogazioni di tipo aggregato in modo rapido e computazionalmente
vantaggioso al prezzo di un (trascurabile) errore di approssimazione. Il metodo si è dimostrato
utile anche all'analisi qualitativa della collezione di dati, per capire come è composta ed
eventualmente prendere decisioni strategiche circa il suo ampliamento e la sua ristrutturazione (ad
esempio capire quali sezioni o argomenti sono sottodimensionati rispetto al resto può aiutare una
politica di acquisizione di risorse).
Infine le attività legate al controllo degli accessi e della sicurezza relativamente al linguaggio
XQuery si sono invece orientate al problema della verifica e mantenimento dell’integrità di
documenti XML. Partendo da Active XQuery è stata definita un'estensione di XMLSchema per
esprimere vincoli di integrità simili alle asserzioni in SQL3. Questo risultato è stato ottenuto
inserendo interrogazioni XQuery nelle definizioni XML Schema. A questo punto si è mostrato
come sia i vincoli nativi di XMLSchema, sia i vincoli generici, possono essere gestiti con un
insieme di trigger capaci di intercettare a correggere ogni tipo di violazione di vincolo.
Quest’insieme di trigger può essere generato in modo automatico partendo dalla definizione dello
schema. L’approccio proposto ha dimostrato di essere molto utile in diversi casi pratici, perché
permette di prevenire le modifiche non corrette prima che vengano applicate al documento.
Prodotti realizzati dall’UO Politecnico di Milano
L’UO Politecnico di Milano ha realizzato due prodotti software:
Il primo prodotto è un prototipo che consente di specificare interrogazioni su documenti XML
attraverso il linguaggio visuale XQBE e di tradurle in modo automatico in XQuery e XSLT.
Quanto realizzato permette la formulazione visuale di un’ampia classe di query, partendo
eventualmente dalla conoscenza dello schema del documento.
Il software realizzato propone all’utente un’area dello schermo divisa in due porzioni (destra e
sinistra) dove l’utente può disegnare le interrogazioni servendosi di una toolbar che mostra i
costrutti visuali del linguaggio di interrogazione, che rappresentano i componenti fondamentali
del modello dei dati di XML (elementi, attributi e porzioni di testo sono rappresentati come i nodi
di un grafo, mentre gli archi che collegano i nodi rappresentano e relazioni tra le varie
componenti).
Il paradigma di interrogazione prevede che nell’area di sinistra l’utente rappresenti graficamente
la struttura e le proprietà dei documenti che sono rilevanti per la sua ricerca, specificando
eventualmente dei criteri di selezione di tipo comparativo o imponendo dei vincoli sul contenuto
di alcune parti; la parte destra è invece deputata a rappresentare la struttura del risultato atteso. Il
legame tra le due parti è rappresentato da archi che collegano gli elementi selezionati con quelli
da costruire.
Il software realizzato mostra poi il risultato delle interrogazioni nella modalità scelta dall’utente.
Il secondo prodotto è un prototipo per l’uso di regole di associazione per estrarre informazione
intensionale dai documenti XML. Il prototipo e' realizzato in Java ed è composto di due moduli
attualmente non integrati:
1) il primo modulo riceve in ingresso un documento XML e il suo DTD e genera una
rappresentazione ad albero del documento. Tale rappresentazione viene visualizzata in formato
grafico per consentire all'utente di scegliere il tipo di regole di associazione da estrarre. In
particolare l'utente deve selezionare gli elementi di interesse da includere nell'estrazione delle
regole indicando eventuali metodi di ottimizzazione da applicare (ad esempio
stemming, stopword e discretizzazione).Il modulo converte le porzioni del file XML di interesse
nel formato richiesto dall'algoritmo A-priori. Tale algoritmo estrare le regole di associazione
rilevanti che vengono memorizzate in una base di dati MySQL.
2) il secondo modulo propone un'interfaccia che consente la sottomissione di query utili ad
ottenere informazioni approssimate; tali interrogazioni vengono alla base di dati MySQL generata
dal primo modulo.
L'interfaccia di interrogazione permette all'utente di scegliere il tipo di interrogazione da
effettuare tra un insieme di classi di interrogazioni e permette di rilevare il tempo di esecuzione di
ciascuna richiesta.
-
Intero insieme delle pubblicazioni dal 2002 (inizio del progetto) (suddivise in a.
inserite su riviste indicizzate; b. riviste non indicizzate, capitoli su libri,...):
a. Riviste internazionali
2002
O1.2.2

Barbara Oliboni and Letizia Tanca
A visual language should be easy to use: a step forward for XML-GL
Information Systems Volume 27, Issue 7 , November 2002, Pages 459-486
2005
O1.2.2


D. Braga, A. Campi, S. Ceri
XQBE (XQuery By Example): a visual interface to the standard XML query
language
ACM-TODS (Transactions on Database Systems), Vol. 30 (2), June 2005
D. Braga, A. Campi
XQBE: A Graphical Environment to Query XML Data
SPRINGER - World Wide Web: Internet and Web Information Systems, Vol. 8
(3),
Sept. '05
b. Conferenze e workshop internazionali
2002
O1.2.1



A. Bonifati, D. Braga, A. Campi, S. Ceri
Active XQuery
Research Paper in Proceedings of IEEE-ICDE 2002, San José, California – USA,
Feb. 2002
D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi
Mining Association Rules from XML Data
Research paper in Proceedings of DEXA 2002 (DaWaK), LNCS 2454, Aix-enProvence, France, Sep. 2002
D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi
A Tool for Extracting XML Association Rules from XML Documents
Research paper in Proceedings of IEEE-ICTAI 2002, Washington DC, USA,
Nov. 2002

D. Braga, A. Campi, E. Damiani, G. Pasi, PL. Lanzi
FXPath: Flexible Querying of XML Documents
Research paper in Proceedings of EuroFuse 2002, Varenna, Italy, Sep. 2002
O1.2.3


E. Damiani, S. De Capitani di Vimercati, E. Fernandez-Medina, P. Samarati
An Access Control System for SVG Documents
Research paper in Proc. of the 16th Annual IFIP WG 11.3 Working
Conference on Data and Application Security, King's College, University of
Cambridge, UK, July 29-31, 2002.
E. Damiani, S. De Capitani di Vimercati
Securing XML-based Multimedia Content
Research paper in Proc. of the 18th IFIP International Information Security
Conference, Athens, Greece, May 26-28, 2003.
2003
O1.2.2




D. Braga, A. Campi, S. Ceri, E. Augurusa
XQBE: XQuery By Example
Poster at ACM-WWW 2003, (in the elecronic proceedings) Budapest, Hungary,
May 2003
Vincitore del premio per il miglior poster presentato da studenti
E. Augurusa, D. Braga, A. Campi, S. Ceri
Design and Implementation of a Graphical Interface to XQuery
Research paper in Proceedings of ACM-SAC 2003, Melbourne, USA, Mar. 2003
D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi
Discovering Interesting Information in XML Data with Association Rules
Research paper in Proceedings of ACM-SAC 2003, Melbourne, USA, Mar. 2003
D. Braga, A. CAMPI
A Graphical Environment to Query XML Data with XQuery
Research paper IEEE-WISE 2003 (International Conference on Web Information
Systems Engineering), Rome, Italy, December 2003
2004
O1.2.2

E. Baralis, P. Garza, E. Quintarelli, L. Tanca.
Answering Queries on XML Data by means of Association Rules
nel Volume 3868 di LNCS, 2004.

D. Braga, A. CAMPI, S. Ceri
XQBE: A Graphical Interface for XQuery Engines
Demo Presentation EDBT 2004 (Extending Database Technology), Heraklion, Greece,
March 2004

D. Braga, A. CAMPI, S. Ceri
XML Challenges for the Database Community: Past, Present, and Future
Invited talk DataX'04 (International Workshop on Database Technologies for Handling
XML information on the Web), Heraklion, Greece, March 2004
2005
O1.2.2

D. Braga, A. Campi, R. Cappa, D. Salvi
Generating XSL Transformations with XQBE
ACM-WWW 2005 (Poster Track), Chiba, Japan, May 2005

D. Braga, A. Campi, S. Ceri, A. Raffio
XQBE: a Visual Environment for Learning XML Query Languages
ACM-SIGMOD 2005 (Demo Session), Baltimore, Maryland (USA), June 2005

D. Braga, A. Campi, D. Martinenghi, A. Raffio, D. Salvi
XQBE: the Swiss Army Knife for Semi-structured Data
SEBD 2005, Bressanone-Brixen, Italy, June 2005

Simone, Gasparini, Elisa Quintarelli
Intensional Query Answering to XQuery Expressions
Proceedings of Database and Expert Systems Applications, 16th International
Conference, DEXA 2005. Volume 3588 LNCS, pp. 544-553