RIASSUNTO ATTIVITA’ POLITECNICO DI MILANO Principali attività svolte dall’UO Politecnico di Milano Le attività di ricerca svolte dall’UO Politecnico di Milano si sono concentrate principalmente sullo studio di un linguaggio visuale e sulla conseguente realizzazione di una interfaccia grafica per interrogare la biblioteca digitale in modo al tempo stesso flessibile, semplice e intuitivo. La disponibilità di XQuery come linguaggio di interrogazione “general purpose” e di una descrizione XML di ogni documento catalogato suggerisce di affiancare alle maschere di ricerca standard una modalità ibrida di interrogazione ed esplorazione dei documenti e dei loro schemi, basata su una rappresentazione visuale della struttura e del contenuto. Tale rappresentazione permette all'utente di specificare sotto forma di grafo la struttura e i contenuti dei documenti cui è interessato; da tale grafo si deriva poi automaticamente la query XQuery da sottomettere al motore di interrogazione. Il paradigma di interrogazione prevede che nell’area di sinistra l’utente rappresenti graficamente la struttura e le proprietà dei documenti che sono rilevanti per la sua ricerca, specificando eventualmente dei criteri di selezione di tipo comparativo o imponendo dei vincoli sul contenuto di alcune parti; la parte destra è invece deputata a rappresentare la struttura del risultato atteso. Il legame tra le due parti è rappresentato da archi che collegano gli elementi selezionati con quelli da costruire. Inoltre è stata studiata un’estensione di XQuery, chiamata Active XQuery, per il supporto di regole attive, che hanno dimostrato le loro potenzialità nell'ambito delle basi di dati relazionali e possono diventare uno strumento efficace per realizzare nuovi servizi nel contesto di XML. Nell’ambito delle biblioteche digitali, esempi di applicazione immediata sono la costruzione automatica di metainformazione sui documenti, la loro classificazione automatica, la presentazione dei dati in modo personalizzato, il controllo e il mantenimento dell’integrità dell’informazione, e la notifica agli utenti di eventi rilevanti, quali ad esempio la presenza di un nuovo documento relativo ad un campo di interesse predefinito. Un'altra importante attività di ricerca si è concentrata sull'estensione di XQuery al supporto di interrogazioni fuzzy. In questo contesto, un’interrogazione può imporre, oltre ai vincoli tradizionali sui dati, anche vincoli topologici e strutturali sul documento da recuperare, per incrementare la potenziale precisione dei risultati delle interrogazioni. Infatti, richiedendo un’esatta corrispondenza con la struttura specificata si potrebbero perdere tutti i documenti anche molto simili ma non identici a quelli richiesti. Per esprimere compiutamente una query, quindi, imponendo vincoli topologici esatti, un utente dovrebbe essere consapevole dell’esatta organizzazione del documento, ma tale condizione si verifica raramente in pratica. Un ulteriore contributo volto al fine di ottimizzare il processo di interrogazione della collezione di documenti si è concentrato sull'uso di raccolte di dati statistiche. Questa tecnica permette di realizzare delle interrogazioni di tipo aggregato in modo rapido e computazionalmente vantaggioso al prezzo di un (trascurabile) errore di approssimazione. Il metodo si è dimostrato utile anche all'analisi qualitativa della collezione di dati, per capire come è composta ed eventualmente prendere decisioni strategiche circa il suo ampliamento e la sua ristrutturazione (ad esempio capire quali sezioni o argomenti sono sottodimensionati rispetto al resto può aiutare una politica di acquisizione di risorse). Infine le attività legate al controllo degli accessi e della sicurezza relativamente al linguaggio XQuery si sono invece orientate al problema della verifica e mantenimento dell’integrità di documenti XML. Partendo da Active XQuery è stata definita un'estensione di XMLSchema per esprimere vincoli di integrità simili alle asserzioni in SQL3. Questo risultato è stato ottenuto inserendo interrogazioni XQuery nelle definizioni XML Schema. A questo punto si è mostrato come sia i vincoli nativi di XMLSchema, sia i vincoli generici, possono essere gestiti con un insieme di trigger capaci di intercettare a correggere ogni tipo di violazione di vincolo. Quest’insieme di trigger può essere generato in modo automatico partendo dalla definizione dello schema. L’approccio proposto ha dimostrato di essere molto utile in diversi casi pratici, perché permette di prevenire le modifiche non corrette prima che vengano applicate al documento. Prodotti realizzati dall’UO Politecnico di Milano L’UO Politecnico di Milano ha realizzato due prodotti software: Il primo prodotto è un prototipo che consente di specificare interrogazioni su documenti XML attraverso il linguaggio visuale XQBE e di tradurle in modo automatico in XQuery e XSLT. Quanto realizzato permette la formulazione visuale di un’ampia classe di query, partendo eventualmente dalla conoscenza dello schema del documento. Il software realizzato propone all’utente un’area dello schermo divisa in due porzioni (destra e sinistra) dove l’utente può disegnare le interrogazioni servendosi di una toolbar che mostra i costrutti visuali del linguaggio di interrogazione, che rappresentano i componenti fondamentali del modello dei dati di XML (elementi, attributi e porzioni di testo sono rappresentati come i nodi di un grafo, mentre gli archi che collegano i nodi rappresentano e relazioni tra le varie componenti). Il paradigma di interrogazione prevede che nell’area di sinistra l’utente rappresenti graficamente la struttura e le proprietà dei documenti che sono rilevanti per la sua ricerca, specificando eventualmente dei criteri di selezione di tipo comparativo o imponendo dei vincoli sul contenuto di alcune parti; la parte destra è invece deputata a rappresentare la struttura del risultato atteso. Il legame tra le due parti è rappresentato da archi che collegano gli elementi selezionati con quelli da costruire. Il software realizzato mostra poi il risultato delle interrogazioni nella modalità scelta dall’utente. Il secondo prodotto è un prototipo per l’uso di regole di associazione per estrarre informazione intensionale dai documenti XML. Il prototipo e' realizzato in Java ed è composto di due moduli attualmente non integrati: 1) il primo modulo riceve in ingresso un documento XML e il suo DTD e genera una rappresentazione ad albero del documento. Tale rappresentazione viene visualizzata in formato grafico per consentire all'utente di scegliere il tipo di regole di associazione da estrarre. In particolare l'utente deve selezionare gli elementi di interesse da includere nell'estrazione delle regole indicando eventuali metodi di ottimizzazione da applicare (ad esempio stemming, stopword e discretizzazione).Il modulo converte le porzioni del file XML di interesse nel formato richiesto dall'algoritmo A-priori. Tale algoritmo estrare le regole di associazione rilevanti che vengono memorizzate in una base di dati MySQL. 2) il secondo modulo propone un'interfaccia che consente la sottomissione di query utili ad ottenere informazioni approssimate; tali interrogazioni vengono alla base di dati MySQL generata dal primo modulo. L'interfaccia di interrogazione permette all'utente di scegliere il tipo di interrogazione da effettuare tra un insieme di classi di interrogazioni e permette di rilevare il tempo di esecuzione di ciascuna richiesta. - Intero insieme delle pubblicazioni dal 2002 (inizio del progetto) (suddivise in a. inserite su riviste indicizzate; b. riviste non indicizzate, capitoli su libri,...): a. Riviste internazionali 2002 O1.2.2 Barbara Oliboni and Letizia Tanca A visual language should be easy to use: a step forward for XML-GL Information Systems Volume 27, Issue 7 , November 2002, Pages 459-486 2005 O1.2.2 D. Braga, A. Campi, S. Ceri XQBE (XQuery By Example): a visual interface to the standard XML query language ACM-TODS (Transactions on Database Systems), Vol. 30 (2), June 2005 D. Braga, A. Campi XQBE: A Graphical Environment to Query XML Data SPRINGER - World Wide Web: Internet and Web Information Systems, Vol. 8 (3), Sept. '05 b. Conferenze e workshop internazionali 2002 O1.2.1 A. Bonifati, D. Braga, A. Campi, S. Ceri Active XQuery Research Paper in Proceedings of IEEE-ICDE 2002, San José, California – USA, Feb. 2002 D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi Mining Association Rules from XML Data Research paper in Proceedings of DEXA 2002 (DaWaK), LNCS 2454, Aix-enProvence, France, Sep. 2002 D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi A Tool for Extracting XML Association Rules from XML Documents Research paper in Proceedings of IEEE-ICTAI 2002, Washington DC, USA, Nov. 2002 D. Braga, A. Campi, E. Damiani, G. Pasi, PL. Lanzi FXPath: Flexible Querying of XML Documents Research paper in Proceedings of EuroFuse 2002, Varenna, Italy, Sep. 2002 O1.2.3 E. Damiani, S. De Capitani di Vimercati, E. Fernandez-Medina, P. Samarati An Access Control System for SVG Documents Research paper in Proc. of the 16th Annual IFIP WG 11.3 Working Conference on Data and Application Security, King's College, University of Cambridge, UK, July 29-31, 2002. E. Damiani, S. De Capitani di Vimercati Securing XML-based Multimedia Content Research paper in Proc. of the 18th IFIP International Information Security Conference, Athens, Greece, May 26-28, 2003. 2003 O1.2.2 D. Braga, A. Campi, S. Ceri, E. Augurusa XQBE: XQuery By Example Poster at ACM-WWW 2003, (in the elecronic proceedings) Budapest, Hungary, May 2003 Vincitore del premio per il miglior poster presentato da studenti E. Augurusa, D. Braga, A. Campi, S. Ceri Design and Implementation of a Graphical Interface to XQuery Research paper in Proceedings of ACM-SAC 2003, Melbourne, USA, Mar. 2003 D. Braga, A. Campi, S. Ceri, M. Klemettinen, PL. Lanzi Discovering Interesting Information in XML Data with Association Rules Research paper in Proceedings of ACM-SAC 2003, Melbourne, USA, Mar. 2003 D. Braga, A. CAMPI A Graphical Environment to Query XML Data with XQuery Research paper IEEE-WISE 2003 (International Conference on Web Information Systems Engineering), Rome, Italy, December 2003 2004 O1.2.2 E. Baralis, P. Garza, E. Quintarelli, L. Tanca. Answering Queries on XML Data by means of Association Rules nel Volume 3868 di LNCS, 2004. D. Braga, A. CAMPI, S. Ceri XQBE: A Graphical Interface for XQuery Engines Demo Presentation EDBT 2004 (Extending Database Technology), Heraklion, Greece, March 2004 D. Braga, A. CAMPI, S. Ceri XML Challenges for the Database Community: Past, Present, and Future Invited talk DataX'04 (International Workshop on Database Technologies for Handling XML information on the Web), Heraklion, Greece, March 2004 2005 O1.2.2 D. Braga, A. Campi, R. Cappa, D. Salvi Generating XSL Transformations with XQBE ACM-WWW 2005 (Poster Track), Chiba, Japan, May 2005 D. Braga, A. Campi, S. Ceri, A. Raffio XQBE: a Visual Environment for Learning XML Query Languages ACM-SIGMOD 2005 (Demo Session), Baltimore, Maryland (USA), June 2005 D. Braga, A. Campi, D. Martinenghi, A. Raffio, D. Salvi XQBE: the Swiss Army Knife for Semi-structured Data SEBD 2005, Bressanone-Brixen, Italy, June 2005 Simone, Gasparini, Elisa Quintarelli Intensional Query Answering to XQuery Expressions Proceedings of Database and Expert Systems Applications, 16th International Conference, DEXA 2005. Volume 3588 LNCS, pp. 544-553