Dottorato di Ricerca in Ingegneria dell’Informazione XX Ciclo RONCHETTI ENRICO Curriculum: Informatica Titolo della Ricerca da svolgere: Tecniche per la gestione Efficace ed Efficiente di Dati XML Efficient and Effective Techniques for the management of XML Data Tutor: Tiberio Paolo Breve descrizione dell’attività di ricerca svolta: Nel corso di questo primo anno di attività si sono affrontate le problematiche dell’accesso e dell’elaborazione di dati semi-strutturati sia in riferimento a repository contenenti grandi quantità di documenti XML sia al loro utilizzo nelle applicazioni relative al Semantic Web. Per quanto riguardo la gestione e la ricerca in dati semi-strutturati all’interno di repository è stato affrontato il problema della gestione e interrogazione di documenti XML multiversione, con versioning sia di tipo temporale che semantico. Nell’ambito del progetto E-GOV, in collaborazione con Fabio Grandi (Università di Bologna), sono state affrontate problematiche di gestione e interrogazione di documenti XML multi-versione. Per quanto riguarda il versioning temporale, fornire un supporto efficiente a query che includono aspetti temporali ha richiesto lo studio di tecniche efficienti per il time-slicing dei dati. In particolare è stata affrontata e portata a termine la sfida di progettare e realizzare un XML query processor nativo ed efficiente che supporti tali requisiti applicativi non convenzionali, pur continuando a garantire una buona performance in scenari tradizionali (cioè non temporali); è stato inoltre proposto un nuovo schema di temporal indexing. Abbiamo proposto un’implementazione delle tecniche studiate in un ambito concreto: un repository multiversione di documenti legali (rappresentati in XML) in uno scenario applicativo di eGovernment, utilizzando le suddette tecnologie per la gestione degli aspetti temporali, e studiandone di nuove per quanto riguarda gli aspetti di versioning semantico. Tale versioning è basato sull’applicabilità di diverse porzioni di norme a differenti classi di cittadini; il sistema ottenuto offre al cittadino una fruizione personalizzata delle norme, permettendo di recuperarne, con un’elevata efficienza, le sole porzioni di suo interesse. Sono state utilizzate tecniche di information retrieval su dati semi-strutturati per applicazioni relative al Semantic Web nell’ambito del progetto WISDOM. In particolare sono state studiate tecniche di word sense disambiguation strutturale che possono essere un utilissimo supporto ad applicazioni per il Semantic Web come ad esempio la riscrittura di interrogazioni, l’annotazione semantica di pagine web basata su ontologie ed espansione della query. Tale tecnica può essere utilizzata per esplicitare il significato di informazione semi-strutturata quali schemi XML, strutture di documenti XML, web directory, ontologie. L’efficacia dei risultati è stata provata sperimentalmente ed è fondata sull’utilizzo sia del contesto strutturale, estratto in maniera flessibile e configurabile a seconda del tipo di documento semi-strutturato, sia delle informazioni fornite da WordNet. Questa tecnica è stata implementata nel sistema STRIDER, dimostrandone anche sperimentalmente la validità in casi applicativi reali. Attività prevista per il 2006 Per l’anno 2006 si ha intenzione di continuare l’attività di ricerca per quel che riguarda l’accesso personalizzato a documenti XML in multiversione. In particolare, si approfondiranno le tecniche di versioning semantico per una personalizzazione delle ricerche, in pieno accordo con le esigenze del Semantic Web. In particolare si pensa di utilizzare ontologie più complete di quelle impiegate fino ad ora. Nell'ambito del progetto WISDOM si affineranno le tecniche di riscrittura automatica delle query e di schema matching. Si ideeranno anche Web service per l'integrazione dei risultati delle ricerche in architetture aperte e si perfezioneranno le tecniche di word sense disambiguation di informazioni strutturali. Infine, per quanto riguarda il progetto IST-DELOS si ideeranno algoritmi e strutture dati che permettano un accesso flessibile ed efficiente a dati organizzati in una struttura ad albero (come un documento XML) su documenti multimediali (ad esempio MPEG-7). Partecipazioni a progetti nazionali ed internazionali: progetto PRIN: WISDOM: Ricerca Intelligente su Web basata su Ontologie di Dominio (2005-); progetto PRIN: E-GOV, Tecniche di Semantic Web per la gestione dell’identità digitale e l’accesso alle norme, come componente dell’Unità di Ricerca di Modena (2004-2005); progetto IST-2002-2.3.1.12: DELOS - a Network of Excellence on Digital Libraries (2004-); Partecipazioni a congressi e workshop internazionali e nazionali (per presentazione lavori): 2nd Italian Semantic Web Workshop (SWAP 2005), Trento, Italia, Dicembre 2005; 14th ACM International Conference on Information and Knowledge Management (CIKM 05), Brema, Germania, Novembre 2005; Annuale AICA 2005, Udine, Italy, Novembre 2005; Tredicesimo Convegno su Sistemi Evoluti per Basi di Dati (SEBD'05), Bressanone , Italia Giugno 2005; Partecipazioni a congressi e scuole internazionali e nazionali (per studio-approfondimento): 5-9 Settembre 2005: partecipazione alla Summer School ESSIR 2005 (5th European Summer School in Information Retrieval) che si è tenuta a Dublino. 1st ImageLab Short Course on Computer Vision, Pattern Recognition and Multimedia, Modena, Italia (Luglio 2005); Attività didattica: Anno accademico 2005/2006 – lezioni introduttive all’uso del computer, al linguaggio C e all’uso di ambienti di programmazione integrati per il corso di Fondamenti di Informatica A Anno accademico 2004/2005 – lezioni di supplenza per il corso di Sistemi Informativi, C.d.L. specialistica in Ingegneria Informatica, e per corso di Basi di Dati per il C.d.L. in Scienze dell’Informazione (Facoltà di Scienze Matematiche, Fisiche e Naturali) Seminari Tenuti: o o Interrogazione efficiente di documenti XML temporali, all’interno del corso di Sistemi Informativi (Ingegneria Informatica – C.d.L. specialistica – NOD), docente del corso: Tiberio. Supporti Software per Ricerche Full-Text, all’interno del corso di Sistemi Informativi (Ingegneria Informatica – C.d.L. specialistica – NOD), docente del corso: Mandreoli. Pubblicazioni scientifiche (suddivise per riviste internazionali, capitoli di libri, conferenze e workshop nazionali ed internazionali, rapporti tecnici): Conferenze e workshop internazionali [MMR06a] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. Supporting temporal slicing in XML databases. In Proc. of the 10th International Conference on Extending Database Technology (EDBT 2006), Munich, Germany, Marzo 2006. [MMR06b] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. STRIDER: a Versatile System for Structural Disambiguation. In Proc. of the 10th International Conference on Extending Database Technology (EDBT 2006), Munich, Germany, Marzo 2006. [MMT06a] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita Scalas, Enrico Ronchetti. An eGovernment system for temporal- and semantic-aware access to norm. In Proc. of the Semantic Web meets eGovernment Conference (SWEG 2006), Stanford University, California, USA, Marzo 2006. [MMR05a] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. Versatile Structural Disambiguation for Semantic-aware Applications. In Proc. of the 14th ACM International Conference on Information Knowledge and Management (ACM CIKM 2005), Bremen, Germany, Novembre 2005. [MMT05c] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita Scalas, Enrico Ronchetti. Personalized Access to Multi-version Norm Texts in an eGovernment Scenario. In Proc. of the International Conference on E-Government (DEXA EGOV 2005), Copenhagen, Denmark, Agosto 2005. Conferenze e workshop nazionali [MMR05b] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. Improving Semantic Awareness of Knowledge-based Applications through Structural Disambiguation. In Proc. of the 2nd Italian Semantic Web Workshop (SWAP 2005), Trento, Italia, Dicembre 2005. [MMT05e] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita Scalas, Enrico Ronchetti. Enhanced access to eGovernment services: temporal and semantics-aware retrieval of norms. In Proc. of the 2nd Italian Semantic Web Workshop (SWAP 2005), Trento, Italia, Dicembre 2005. [MMT05d] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita Scalas, Enrico Ronchetti. Accesso Personalizzato a Documenti Multiversione per Applicazioni nel Settore dell’E-Government. In Atti del Congresso Nazionale AICA 2005, Udine, Italia, Ottobre 2005. [MMT05b] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita Scalas, Enrico Ronchetti. Personalized access to multi-version XML documents in an eGovernment scenario. In Proc. of the 13th Italian Symposium on Advanced Database Technologies (SEBD 2005), Bressanone, Giugno 2005. Indirizzo di e-mail: [email protected] Indirizzo sito web: http://www.isgroup.unimo.it/enrico.asp