Dottorato di Ricerca in Ingegneria dell’Informazione
XX Ciclo
RONCHETTI ENRICO
Curriculum:
Informatica
Titolo della Ricerca da svolgere:
Tecniche per la gestione Efficace ed Efficiente di Dati XML
Efficient and Effective Techniques for the management of XML Data
Tutor:
Tiberio Paolo
Breve descrizione dell’attività di ricerca svolta:
Nel corso di questo primo anno di attività si sono affrontate le problematiche dell’accesso e
dell’elaborazione di dati semi-strutturati sia in riferimento a repository contenenti grandi
quantità di documenti XML sia al loro utilizzo nelle applicazioni relative al Semantic Web.
Per quanto riguardo la gestione e la ricerca in dati semi-strutturati all’interno di repository è
stato affrontato il problema della gestione e interrogazione di documenti XML multiversione,
con versioning sia di tipo temporale che semantico. Nell’ambito del progetto E-GOV, in
collaborazione con Fabio Grandi (Università di Bologna), sono state affrontate
problematiche di gestione e interrogazione di documenti XML multi-versione. Per quanto
riguarda il versioning temporale, fornire un supporto efficiente a query che includono aspetti
temporali ha richiesto lo studio di tecniche efficienti per il time-slicing dei dati. In particolare
è stata affrontata e portata a termine la sfida di progettare e realizzare un XML query
processor nativo ed efficiente che supporti tali requisiti applicativi non convenzionali, pur
continuando a garantire una buona performance in scenari tradizionali (cioè non temporali);
è stato inoltre proposto un nuovo schema di temporal indexing. Abbiamo proposto
un’implementazione delle tecniche studiate in un ambito concreto: un repository
multiversione di documenti legali (rappresentati in XML) in uno scenario applicativo di
eGovernment, utilizzando le suddette tecnologie per la gestione degli aspetti temporali, e
studiandone di nuove per quanto riguarda gli aspetti di versioning semantico. Tale
versioning è basato sull’applicabilità di diverse porzioni di norme a differenti classi di
cittadini; il sistema ottenuto offre al cittadino una fruizione personalizzata delle norme,
permettendo di recuperarne, con un’elevata efficienza, le sole porzioni di suo interesse.
Sono state utilizzate tecniche di information retrieval su dati semi-strutturati per applicazioni
relative al Semantic Web nell’ambito del progetto WISDOM. In particolare sono state
studiate tecniche di word sense disambiguation strutturale che possono essere un
utilissimo supporto ad applicazioni per il Semantic Web come ad esempio la riscrittura di
interrogazioni, l’annotazione semantica di pagine web basata su ontologie ed espansione
della query. Tale tecnica può essere utilizzata per esplicitare il significato di informazione
semi-strutturata quali schemi XML, strutture di documenti XML, web directory, ontologie.
L’efficacia dei risultati è stata provata sperimentalmente ed è fondata sull’utilizzo sia del
contesto strutturale, estratto in maniera flessibile e configurabile a seconda del tipo di
documento semi-strutturato, sia delle informazioni fornite da WordNet. Questa tecnica è
stata implementata nel sistema STRIDER, dimostrandone anche sperimentalmente la
validità in casi applicativi reali.
Attività prevista per il 2006
Per l’anno 2006 si ha intenzione di continuare l’attività di ricerca per quel che riguarda
l’accesso personalizzato a documenti XML in multiversione. In particolare, si
approfondiranno le tecniche di versioning semantico per una personalizzazione delle
ricerche, in pieno accordo con le esigenze del Semantic Web. In particolare si pensa di
utilizzare ontologie più complete di quelle impiegate fino ad ora.
Nell'ambito del progetto WISDOM si affineranno le tecniche di riscrittura automatica delle
query e di schema matching. Si ideeranno anche Web service per l'integrazione dei risultati
delle ricerche in architetture aperte e si perfezioneranno le tecniche di word sense
disambiguation di informazioni strutturali.
Infine, per quanto riguarda il progetto IST-DELOS si ideeranno algoritmi e strutture dati che
permettano un accesso flessibile ed efficiente a dati organizzati in una struttura ad albero
(come un documento XML) su documenti multimediali (ad esempio MPEG-7).
Partecipazioni a progetti nazionali ed internazionali:
 progetto PRIN: WISDOM: Ricerca Intelligente su Web basata su Ontologie di Dominio
(2005-);
 progetto PRIN: E-GOV, Tecniche di Semantic Web per la gestione dell’identità digitale e
l’accesso alle norme, come componente dell’Unità di Ricerca di Modena (2004-2005);
 progetto IST-2002-2.3.1.12: DELOS - a Network of Excellence on Digital Libraries (2004-);
Partecipazioni a congressi e workshop internazionali e nazionali (per presentazione lavori):
 2nd Italian Semantic Web Workshop (SWAP 2005), Trento, Italia, Dicembre 2005;
 14th ACM International Conference on Information and Knowledge Management (CIKM 05),
Brema, Germania, Novembre 2005;
 Annuale AICA 2005, Udine, Italy, Novembre 2005;
 Tredicesimo Convegno su Sistemi Evoluti per Basi di Dati (SEBD'05), Bressanone , Italia
Giugno 2005;
Partecipazioni a congressi e scuole internazionali e nazionali (per studio-approfondimento):
 5-9 Settembre 2005: partecipazione alla Summer School ESSIR 2005 (5th European
Summer School in Information Retrieval) che si è tenuta a Dublino.
 1st ImageLab Short Course on Computer Vision, Pattern Recognition and Multimedia,
Modena, Italia (Luglio 2005);
Attività didattica:
 Anno accademico 2005/2006 – lezioni introduttive all’uso del computer, al linguaggio C e
all’uso di ambienti di programmazione integrati per il corso di Fondamenti di Informatica A
 Anno accademico 2004/2005 – lezioni di supplenza per il corso di Sistemi Informativi,
C.d.L. specialistica in Ingegneria Informatica, e per corso di Basi di Dati per il C.d.L. in
Scienze dell’Informazione (Facoltà di Scienze Matematiche, Fisiche e Naturali)
Seminari Tenuti:
o
o
Interrogazione efficiente di documenti XML temporali, all’interno del corso di Sistemi
Informativi (Ingegneria Informatica – C.d.L. specialistica – NOD), docente del corso:
Tiberio.
Supporti Software per Ricerche Full-Text, all’interno del corso di Sistemi Informativi
(Ingegneria Informatica – C.d.L. specialistica – NOD), docente del corso: Mandreoli.
Pubblicazioni scientifiche (suddivise per riviste internazionali, capitoli di libri, conferenze e
workshop nazionali ed internazionali, rapporti tecnici):
Conferenze e workshop internazionali
[MMR06a] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. Supporting temporal slicing
in XML databases. In Proc. of the 10th International Conference on Extending
Database Technology (EDBT 2006), Munich, Germany, Marzo 2006.
[MMR06b] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. STRIDER: a Versatile
System for Structural Disambiguation. In Proc. of the 10th International Conference on
Extending Database Technology (EDBT 2006), Munich, Germany, Marzo 2006.
[MMT06a] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita
Scalas, Enrico Ronchetti. An eGovernment system for temporal- and semantic-aware
access to norm. In Proc. of the Semantic Web meets eGovernment Conference (SWEG
2006), Stanford University, California, USA, Marzo 2006.
[MMR05a] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. Versatile Structural
Disambiguation for Semantic-aware Applications. In Proc. of the 14th ACM International
Conference on Information Knowledge and Management (ACM CIKM 2005), Bremen,
Germany, Novembre 2005.
[MMT05c] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita
Scalas, Enrico Ronchetti. Personalized Access to Multi-version Norm Texts in an
eGovernment Scenario. In Proc. of the International Conference on E-Government
(DEXA EGOV 2005), Copenhagen, Denmark, Agosto 2005.
Conferenze e workshop nazionali
[MMR05b] Federica Mandreoli, Riccardo Martoglia, Enrico Ronchetti. Improving Semantic
Awareness of Knowledge-based Applications through Structural Disambiguation. In
Proc. of the 2nd Italian Semantic Web Workshop (SWAP 2005), Trento, Italia,
Dicembre 2005.
[MMT05e] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita
Scalas, Enrico Ronchetti. Enhanced access to eGovernment services: temporal and
semantics-aware retrieval of norms. In Proc. of the 2nd Italian Semantic Web Workshop
(SWAP 2005), Trento, Italia, Dicembre 2005.
[MMT05d] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita
Scalas, Enrico Ronchetti. Accesso Personalizzato a Documenti Multiversione per
Applicazioni nel Settore dell’E-Government. In Atti del Congresso Nazionale AICA
2005, Udine, Italia, Ottobre 2005.
[MMT05b] Federica Mandreoli, Riccardo Martoglia, Paolo Tiberio, Fabio Grandi, Maria Rita
Scalas, Enrico Ronchetti. Personalized access to multi-version XML documents in an
eGovernment scenario. In Proc. of the 13th Italian Symposium on Advanced Database
Technologies (SEBD 2005), Bressanone, Giugno 2005.
Indirizzo di e-mail: [email protected]
Indirizzo sito web:
http://www.isgroup.unimo.it/enrico.asp