Technologies and Services for Enhanced Contents Delivery Tecnologie per arricchire e fornire accesso a contenuti Fondo Speciale Innovazione 2000 “I concetti di accesso e di rete stanno acquisendo un’importanza crescente, proprio come era accaduto con la nozione di proprietà e mercato agli albori dell’età moderna. Sino alla fine degli anni Novanta, la parola accesso era usata solo occasionalmente, e, in genere, era riferita a questioni attinenti l’ammissione a spazi fisici determinati. Oggi, accesso è uno dei termini più usati nella vita sociale: quando lo sentiamo, probabilmente siamo portati a pensare a nuovi universi di possibilità e oppportunità. È diventato il titolo per accedere al progresso e alla soddisfazione personale e possiede una potenza evocativa pari a quella che, per le passate generazioni, ha avuto la visione democratica. È un vocabolo denso di suggestioni e carico di significati politici. Parlare di accesso, dopotutto, significa parlare di distinzioni e divisioni, di chi sarà incluso e chi sarà escluso. L’accesso sta diventando un potente strumento concettuale per riformulare una visione del mondo e dell’economia, ed è destinato a diventare la metafora più efficace della nuova era.” da Jeremy Rifkin, L’era dell’accesso. Mondadori, 2000. ISTI Fondo Speciale Innovazione 1. Summary The project will focus on developing tools and technologies for delivering enhanced contents to final users. This entails identifying relevant material from various sources, transforming it, adding to it metadata and other useful distinguishing information, organizing it and delivering the most relevant material to interested users in a timely fashion. Digital and network technologies provide new means for content delivery, in particular: Digital Libraries Web search and delivery A number of services are provided to user for accessing the content in Digital Libaries and on the Web including: search engines, thematic catalogues, media collections (audio, video, WAP, ecc.) and advanced digital library services. The project aims at developing or improving the technologies required for providing these services. This goal entails meeting a number of stimulating research challenges: Developing new algorithms for indexing and for searching compressed indexes Exploiting high performance techniques for fast response to huge number of queries on vast amount of data Deploying Web Mining techniques for determining: Ranking or authority of documents Improving spidering and caching performance Document classification Developing participatory search services Developing an open architecture for distributed Digital Libraries Exploiting XML as notation for document structuring and metadata Providing access to multimedia documents in Digital Libraries Expressing and processing queries on XML schemas Advanced user services: like document annotations, notification, group work support. Putting these technologies together for building the next generation of content delivery systems is an ambitious goal but vital to avoid that this new raising field be dominated by non European companies, as it has happened for the field of data bases. 2 Enhanced Content Delivery 2. Sommario Il progetto si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti arricchiti (enhanced contents delivery) agli utenti finali. Ciò consiste nell’identificare materiale digitale presente su fonti diverse, trasformarlo, organizzarlo, aggiungervi metadati e informazioni utili a qualificarlo e fare giungere agli utenti il materiale più rilevante per i loro interessi. Le tecnologie di rete e digitali offrono nuovi mezzi di distribuzione di contenuti, in particolare: Biblioteche digitali Ricerca ed accesso sul Web. I servizi di accesso offerti agli utenti di questi mezzi includono i motori di ricerca, i cataloghi tematici, le collezioni a soggetto (audio, video, WAP, ecc.) e i servizi avanzati delle biblioteche digitali. In questo progetto ci si propone di sviluppare o migliorare le tecnologie necessarie per mettere in funzione questi servizi. Questo obiettivo richiede di affrontare stimolanti problemi di ricerca: Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso Sfruttare tecniche di High Performance Computing per fronteggiare le moli dei dati e il numero di utenti dei servizi Sviluppo di tecniche di Web Mining per determinare: rank o autorevolezza delle fonti come migliorare le prestazioni di spidering e caching come classificare i documenti Sviluppo di servizi di ricerca partecipativa e decentralizzata Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite Utilizzo di XML per strutturare documenti ed esprimere metadati Fornire accesso a documenti multimediali nelle Digital Libraries Formulare e rispondere a interrogazioni su schemi XML Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica, supporto al lavoro di gruppo. Combinare queste tecnologie per costruire i sistemi di prossima genernazione per arricchire e fornire accesso a contenuti è un obiettivo ambizioso ma strategico per evitare che questo settore emergente sia dominato da aziende non europee, come è avvenuto per un settore altrettanto vitale quale quello dei database. 3 Fondo Speciale Innovazione 2. Oggetto Il progetto si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti arricchiti (enhanced contents delivery) agli utenti finali. Ciò consiste nell’identificare materiale digitale presente su fonti diverse, trasformarlo, organizzarlo, aggiungervi metadati e informazioni utili a qualificarlo e fare giungere agli utenti il materiale più rilevante per i loro interessi. Le tecnologie di rete e digitali offrono nuovi mezzi di distribuzione di contenuti, in particolare: Biblioteche digitali Ricerca ed accesso sul Web. Le biblioteche digitali contengono materiali in vari media, tradizionalmente raccolti ed organizzati da esperti bibliotecari che li rendono disponibili tramite strumenti sofisticati di recupero di informazioni. Le biblioteche digitali sono spesso orientate ad una utenza professionale, che richiede strumenti di ricerca avanzati o di compiere operazioni speciali sul materiale (ad esempio trasformazioni di digital imaging o estrazioni di testo da sorgenti audio). La ricerca sulle biblioteche digitali deve affrontare il compito di gestire e rendere coerenti, usabili ed accessibili grandi quantità di materiali. La ricerca si sta orientando quindi su strumenti per la ricerca intelligente, il recupero, l’organizzazione e la presentazione; su nuovi tipi e strutture informative, su codifiche di documenti e metadati atti ad arricchirne il contesto informativo. Il Web fornisce una struttura informativa distribuita, caratterizzata da flessibilità, evoluzione rapida e decentralizzazione. I documenti Web mostrano un’ampia variabilità nei tipi, nel formato e nella qualità; al Web manca un’organizzazione generale anche se a volte emergono forme di auto-organizzazione (ad es. cataloghi Web o raccolte tematiche). I motori di ricerca sul Web sono orientati ad utenti comuni senza particolari competenze. Sia le biblioteche digitali sia il Web tendono a fornire interfacce e infrastrutture per agevolare il lavoro intellettuale (trovare, creare e disseminare conoscenze), inserendo il materiale in un contesto complessivo persistente e strutturato, nonostante la rete sottostante sia in continua evoluzione. Per entrambe le infrastrutture si possono immaginare forme simili di servizi avanzati: selezione per categorie, filtraggio in base agli interessi, annotazioni di gruppo o personali, avvisi o filtri basati su profili personali degli utenti. Tuttavia, mentre le biblioteche digitali trattano materiale già ben organizzato e strutturato, la ricerca su Web deve trattare una varietà di materiali spesso caoticamente organizzati. Perciò ai materiali Web occorre applicare una fase di scoperta ed analisi in grado di estrarre proprietà e struttura dai documenti, rendendo possibili gli stessi servizi avanzati disponibili su collezioni di documenti meglio strutturati. Il Web mining consiste nello svolgere questo compito applicando le tecniche sviluppate nei settori del data mining e dell’estrazione di conoscenze. Le informazioni estratte dai documenti Web potranno essere espresse con opportune ontologie descritte in notazione XML, in modo da facilitarne l’interscambio, anche con le biblioteche digitali. Tuttavia, anche se XML e gli schemi XML sono una soluzione adatta per esprimere la struttura ed il significato dei documenti Web, per la natura decentralizzata ed autonoma del Web sarà improbabile che i documenti vengano creati direttamente con la struttura adatta. Pertanto sarà sempre necessario l’utilizzo di tecniche di Web mining per fornire coerenza a questi materiali. 4 Enhanced Content Delivery I passi di scoperta e analisi costituiscono una fase intermedia tra le fonti ed i servizi di accesso forniti agli utenti, come indicato in questa figura: Discovery/ fetching Digital collection Delivery/ query Digital Library/ Web search Web search Im age search Audio search Intranet material News search Price search Extranet material Classification WAP search Web Mining Inform. extraction Raw material Context analysis Indexing Contents Access & Delivery Services Enhanced Contents Compression Figura 1. Contents delivery. I servizi di accesso offerti agli utenti includono i motori di ricerca, i cataloghi tematici, le collezioni a soggetto (audio, video, WAP, ecc.) e i servizi avanzati delle biblioteche digitali. In questo progetto ci concentriamo sulle tecnologie necessarie per mettere in funzione questi servizi. Le tecnologie di spidering servono ad identificare e prelevare il materiale di interesse. Le tecnologie di information extraction e di Web mining vengono applicate per trasformare il materiale originale, estraendo e selezionando le parti rilevanti, generando metadati, sommari e classificando il materiale. Infine il materiale arricchito viene reso in una forma che ne agevola l’accesso, ad esempio utilizzando tecniche di indicizzazione e compressione per costruire indici che ne consentano la ricerca o presentandolo con opportune interfacce sul Web. La pura mole del materiale presente nelle collezioni Web e l’elevato numero di utenti del Web richiede progressi in tecnologie di base, dagli algoritmi alle strutture dati per l’indicizzazione e la ricca su indici compressi, dall’ottimizzazione delle query alla loro distribuzione su server farm. Combinare tutte queste tecnologie per costruire la prossima generazione di sistemi di accesso ai contenuti è un obiettivo ambizioso, ma necessario per mantenere una presenza competitiva dell’industria europea in questo nuovo emergente settore. 5 Fondo Speciale Innovazione 4. Obiettivi specifici Il progetto si articola in due azioni, una orientata ai servizi per le bilbioteche digitali, e una orientata ai servizi per l’accesso a materiale Web. Nella Azione 1 si studiano le questioni legate al trattamento di materiale strutturato e organizzato o da organizzare in una Biblioteca Digitiale. In questa azione si affrontano i seguenti problemi: Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite Utilizzo di XML per strutturare documenti ed esprimere metadati Fornire accesso a documenti multimediali nelle Biblioteche Digitali Formulare e rispondere a interrogazioni su schemi XML Sviluppo di ontologie per i contenuti delle Biblioteche Digitali Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica, supporto al lavoro di gruppo. Nella Azione 2 si affrontano le questioni legate al trattamento di materiale Web, ed in particolare all’indicizzazione ed alla ricerca, all’analisi e alll’estrazione di informazioni che arricchiscono i documenti migliorano la qualità dei servizi. In questa azione si affrontano i seguenti problemi: Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso Sfruttare tecniche di High Performance Computing per fronteggiare le moli dei dati e il numero di utenti dei servizi Sviluppo di tecniche di Web Mining per determinare: rank o autorevolezza delle fonti come migliorare le prestazioni di spidering e caching come classificare i documenti Sviluppo di servizi di ricerca partecipativa e decentralizzata Le due azioni sono collegate in più punti: ad esempio le tecniche di indicizzazione e ricerca possono essere applicate alle biblioteche digitali, le tecniche di accesso a documenti multimediali possono essere applicate a collezioni di media presenti sul Web, la classificazione di documenti utilizza gerarchie di concetti derivate da ontologie. Pertanto si prevede che le due azioni si coordinino e tra loro si sviluppino proficue sinergie. 6 Enhanced Content Delivery Azione 1. Biblioteche Digitali XML L’integrazione e l’utilizzo di risorse di calcolo, telecomunicazioni e informazione digitale, in presenza di una costante diminuzione dei costi di digitalizzazione e di una sempre maggiore convergenza/integrazione di tipi di media precedentemente separati hanno creato le condizioni per lo sviluppo di nuove infrastrutture e ambienti in grado di permettere attività, individuali o collettive, basate su informazioni distribuite accessibili in rete. Il concetto di “biblioteca digitale” nasce dalla sua analogia con la biblioteca tradizionale: uno spazio fisico, o deposito, contenente una collezione organizzata di documenti, insieme a sistemi e servizi atti a facilitare l’accesso fisico ed intellettuale ai documenti e la loro conservazione. Inizialmente l’enfasi è stata data alla conversione retrospettiva dei documenti cartacei in documenti digitali. Queste versioni digitali offrono: accesso indipendente da distanza, ricerca full text, metodi più potenti per il recupero tempestivo di informazioni rilevanti. Gli investimenti nella conversione retrospettiva dal supporto cartaceo alla forma digitale sono in continua crescita. In parallelo, l’emergere delle tecnologie Internet e Web ha contribuito ad accrescere la consapevolezza che possono essere creati nuovi tipi di documenti che non hanno un equivalente cartaceo ma che esistono soltanto in un mondo digitale. Le tecnologie necessarie alla creazione di biblioteche digitali sono molto diverse da quelle relative alle biblioteche tradizionali. Infatti, l’informazione digitale si trasferisce con una velocità incomparabilmente maggiore, può essere archiviata su scale di densità molto più elevata e può integrarsi in nuovi tipi di documenti che includono testo, immagini, grafica, video, audio, ecc. In sostanza, le biblioteche digitali includono le prestazioni offerte dalle biblioteche tradizionali ma vanno ben oltre in termini di funzionalità, portata e significato. Possiamo, quindi, definire una Biblioteca Digitale come un ambiente dove si mettono in relazione collezioni, servizi e persone lungo l’intero ciclo di vita della informazione, dalla creazione, disseminazione, utilizzo, fino alla conservazione. Le tecnologie delle biblioteche digitali hanno il potenziale di influenzare profondamente alcuni aspetti che riguardano il modo di lavorare con l’informazione sotto forma di documento. L’impatto dei cambiamenti previsti sarà vasto, ma in alcuni settori sarà anche profondo. Un settore particolarmente interessato a questi cambiamenti è quello che riguarda i nuovi modelli della diffusione/disseminazione dell’informazione scientifica. Le Bibioteche Digitali, considerando anche il loro contenuto multimediale, costituiscono un importante segmento della gamma di informazioni più organizzate che sono e saranno disponibili su Web. In quest’ottica, un ulteriore fattore che sicuramente avrà un impatto crescente sulla tecnologia delle Bibioteche Digitali, sia in termini di documenti gestiti che di metadati descrittivi del loro contenuto, è il crescente affermarsi dello standard XML. XML (eXstensible Markup Language), proposto dal World Wide Consortium (W3C), recentemente si è manifestato come nuovo standard per la rappresentazione di dati e lo scambio di documenti sia nella comunità Web che nella comunità sociale. XML è un linguaggio per la marcatura di documenti ideato per rendere le informazioni "self-describing". A differenza di HTML, l’attuale standard su Web, XML non si preoccupa dello stile di presentazione del documento (XML Style Sheet), ma della descrizione del contenuto. I marcatori usati in XML possono essere decisi dal creatore del documento e quindi possono essere usati per spiegare il significato delle informazioni (es. prezzo, quantità, colore e così 7 Fondo Speciale Innovazione via). Questo apre nuove prospettive nell’area di accesso a biblioteche digitali tramite Web, dato che diventerà lo standard di interoperabilità per molte di queste. L’obiettivo finale di questo progetto è di sviluppare le tecnologie necessarie per abilitare lo sviluppo di una nuova generazione di Biblioteche Digitali basate su XML. Le attività di ricerca porteranno sviluppi nelle seguenti direzioni: L’utilizzo di XML come strumento per la definizione dei metadati e eventualmente dei documenti digitali, nonché per la specifica delle caratteristiche della biblioteca digitale e della sua interfaccia con il mondo esterno, costituiscono un’importante premessa per garantire l’interoperabilità tra le diverse componenti funzionali (i.e., servizi) di un sistema per biblioteche digitali. La definizione di un linguaggio di interrogazione per XML aprirà nuove ed importanti direzioni di ricerca applicata rispetto alle esigenze delle bibioteche digitali. Infatti, supponendo che i documenti multimediali siano descritti in XML, sarà possibile accedere a queste sorgenti per mezzo di interrogazioni semanticamente espressive, sfruttando a pieno la struttura del documento. La costruzione di un’ontologia di Biblioteche Digitale, che sia capace di rappresentare una vista virtuale di ogni singola Biblioteca Digitali locale e che definisca le regole di mapping tra le viste delle singole Biblioteche Digitali locali, può essere di grande ausilio agli utenti nel capire il contenuto delle varie Biblioteche Digitali e quindi nel formulare e indirizzare le interrogazioni. La possibilità per diverse classi di utenti di annotare (soprattutto sfruttando la struttura XML del documento) i documenti di una Biblioteca digitale, e la possibilità di generare in modo automatico collegamenti tra documenti e annotazioni, può consentire di ottenere una descrizione sintetica del contenuto semantico del documento e di reperire altri documenti con un contenuto pertinente agli interessi dell'utente. La generazione automatica di wrapper XML può essere utilizzata per integrare documentazione elettronica disponibile in formati diversi da XML (com’è nella gran parte dei casi attuali di Biblioteche Digitali disponibili) in Biblioteche Digitali basate su XML. 8 Enhanced Content Delivery Work Package 1.1. Architettura aperta per Biblioteche Digitali XML 1.1.1 Stato dell’arte Una biblioteca digitale è stata definita come “un’istituzione che realizza e/o supporta, almeno, i servizi di una biblioteca tradizionale nel contesto di collezioni di documenti digitali distribuite e accessibili attraverso la rete - (N. Belkin) ”. Diverse sperimentazioni sono state portate a termine ed altre sono attualmente in corso per far si che le biblioteche digitali garantiscano un completo servizio di gestione degli oggetti digitali che vada ben oltre la semplice funzionalità di ricerca remota e distribuita. Tale servizio, infatti, deve necessariamente includere le funzionalità per l’organizzazione e la preservazione degli oggetti digitali, il controllo del copyright, il controllo delle versioni e l’aggiornamento delle stesse, l’accesso facilitato e personalizzabile alle collezioni di documenti. A fronte di questo enorme lavoro per il supporto di funzionalità che permettono una completa gestione delle biblioteche digitali, poco è stato fatto nel campo dell’interoperabilità tra diverse biblioteche, anche se un’importante iniziativa in questo senso (The Open Archives Initiative) è iniziata alla fine del 1999. L’istituto ISTI è stato particolarmente attivo in questi ultimi anni nelle attività di ricerca, sviluppo e gestione dei servizi connessi alle tematiche delle biblioteche digitali. In particolare, questa attività ha portato alla realizzazione della biblioteca digitale di informatica e matematica del consorzio ERCIM (the European Research Consortium for Informatics and Mathematics). Tale biblioteca digitale (denominata ETRDL – Ercim Technical Reference Digital Library) consente la condivisione dei risultati di ricerca fra i ricercatori operanti nelle istituzioni appartenenti al consorzio, ed è una specializzazione di NCSTRL (Networked Computer Science Technical Reference Library) che raccoglie più di 130 enti di ricerca ed università in tutto il mondo. 1.1.2 Obiettivi Strategici Un’architettura per biblioteche digitali viene detta aperta quando la funzionalità complessiva viene partizionata in un insieme di servizi autonomi ben definiti ed interoperanti fra loro; servizi che possono essere distribuiti o replicati. In questo particolare contesto l’utilizzo di XML come strumento per la definizione dei metadati e eventualmente dei documenti digitali nonché per la specifica delle caratteristiche della biblioteca digitale e della sua interfaccia con il mondo esterno, costituiscono un importante premessa che può garantire l’interoperabilità tra le diverse realizzazioni di biblioteche. Ciascuno di questi servizi sarà accessibile mediante un protocollo ben definito che definisce l’interfaccia pubblica per quel servizio. Il protocollo consisterà di un insieme di richieste di servizio, ognuna delle quali sarà definita in termini del formato della richiesta, del formato della possibile risposta, delle eccezioni e della semantica della richiesta. Un servizio sarà istanziato da un modulo software, chiamato server, la cui effettiva implementazione sarà trasparente ed irrilevante per quanto riguarda l’aspetto dell’interoperabilità. Per interoperabilità di un servizio s’intende la sua capacità di comunicare attraverso un protocollo predefinito con altri servizi. Un’architettura aperta così concepita consente un’estensibilità dei servizi forniti dalla biblioteca digitale teoricamente illimitata. Il nucleo di servizi che sono necessari per fornire una funzionalità basilare sono: 9 Fondo Speciale Innovazione Servizio di naming. Gli oggetti digitali contenuti in una biblioteca digitale sono identificabili attraverso dei nomi persistenti e unici in tutta la biblioteca. Il servizio di naming avrà lo scopo di gestire la creazione, registrazione dei nomi unici e la loro risoluzione negli indirizzi fisici dei server di archiviazione. Servizio di archiviazione. Questo servizio fornisce i meccanismi per l’archiviazione e l’accesso degli oggetti, nonché la presentazione della loro struttura. Servizio di indicizzazione. Questo servizio consente la ricerca di oggetti digitali (sia testuali sia multimediali) attraverso indici estratti automaticamente dagli oggetti contenuti negli archivi. Interfaccia Utente. Questo servizio costituisce il punto di accesso dell’utente alla biblioteca digitale. Servizio di collezione. Questo servizio fornisce i meccanismi per aggregare dinamicamente insiemi di oggetti digitali contenuti nella biblioteca digitale in collezioni che sono significative dal punto di vista di una certa comunità. Per collezione intendiamo un insieme di oggetti digitali, un insieme di servizi che possono essere utilizzati su tali oggetti e un insieme di politiche di accesso agli stessi. 1.1.3 Approccio ed obiettivi specifici L’obiettivo di questo work package è di sviluppare un’architettura aperta per un sistema di biblioteca digitale. Tale attività si concentrerà sulla definizione di un sistema di biblioteca digitale sia dal punto di vista funzionale che da quello architetturale, specificando il flusso informativo interno ed i protocolli di comunicazione fra i vari servizi. Il sistema verrà realizzato estendendo ed arricchendo l’architettura per biblioteche digitali DIENST. Tale sistema verrà in particolare esteso in modo da garantire l’interoperabilità dei servizi di cui è costituito, e verrà modificato in modo da supportare documenti e metadati scritti in XML. Gli obiettivi tecnici specifici del lavoro condotto in questo work package saranno quindi: 1. estensione del servizio di archiviazione in modo da supportare oggetti digitali complessi. In particolare ogni istanza di un oggetto avrà una struttura logica i cui componenti sono le viste e i segmenti. Le viste sono la rappresentazione strutturale del contenuto degli oggetti. Ad esempio un oggetto rappresentante un brano musicale può avere come vista lo spartito musicale e la sua riproduzione sonora. Le viste costituiscono una rappresentazione alternativa del contenuto e non sono correlate tra loro. Ogni vista sarà organizzata in segmenti strutturati gerarchicamente. Ad esempio la vista che rappresenta un libro può contenere una struttura gerarchica i cui elementi sono i segmenti “capitolo” costituiti a loro volta dai segmenti “paragrafo”. In tale contesto si esplorerà la possibilità di rappresentare tali oggetti digitali utilizzando il linguaggio XML. 2. estensione del servizio di indicizzazione: verranno sviluppate e sperimentate nuove strutture efficienti che consentano di effettuare la ricerca per similitudine su oggetti multimediali. Queste strutture di accesso saranno usate durante la fase di esecuzione delle interrogazioni, determinando strategie efficienti per l'esecuzione di interrogazioni complesse. 3. studio di una interfaccia grafica che sfrutti le potenzialità di XML per offrire interfacce personalizzabili dal punto di vista della lingua parlata dell’utente, del contenuto delle informazioni da disseminare, etc. 4. estensione del servizio di collezione in modo da supportare la definizione dinamica di collezione. L’obiettivo di questa ricerca sarà in particolare quello di permettere la 10 Enhanced Content Delivery definizione di una collezione attraverso un criterio formale per la sua caratterizzazione. Ad esempio una collezione potrà essere definita come l’insieme di tutti i documenti che trattano di medicina, che costano meno di € 5 e sui quali sia consentita una ricerca libera sul testo. Questi obbiettivi tecnici saranno dimostrati in un prototipo di sistema per Biblioteche Digitali XML, basato su di un’architettura aperta di servizi, distribuiti in rete, e tra loro interoperabili tramite in protocollo enbedded in http, secondo quanto illustrato nella figura seguente. Questo prototipo sarà un’estensione del sistema Dienst-6, realizzato in PEARL, in collaborazione con la Cornell University. I prototipi realizzati negli altri workpackages, per implementare nuove funzionalità basate su XML, interopereranno con i servizi costituenti questa architettura tramite un protocollo enbedded in http (vedi figura seguente). search & retrieve Collection scan ry sito repo lve reso e nam dis ret se rie m ve ina tio n repository naming service Index tra inf ct i or nd m ex at ion ing get c oll inform ection ation n sca xes e d in ex UI WP 1.2 XML-Client lts u ery res get qu File ps, pdf, html, XML WP 1.1 Interoperable Infrastucture WP 1.4 Annotation WP 1.3 XMLOntology WP 1.5 XMLStructure Extraction Figura 2. Architettura aperta per Bibioteche Digitali basate su XML 1.1.4 Unità coinvolte L'unità principalmente coinvolta in questa ricerca è quella dell’ISTI del CNR di Pisa, composta dalle seguenti persone: Fausto Rabitti, Donatella Castelli, Claudio Gennaro, Pasquale Pagano, Serena Pisani. L'unità ha partecipato a diversi progetti europei e nazionali su temi affini a quelli che saranno argomento di questa iniziativa (progetti europei: ETRDL, EuroGatherer, Echo, Scholnet). 11 Fondo Speciale Innovazione Dato che l'attività sull'architettura aperta interoperabile per Biblioteche Digitali XML svolge un ruolo centrale nel progetto, collaboreranno a questa ricerca tutte le altre unità operative e le unità associate(queste ultime per i requisiti applicativi richiesti dai vari tipi di utenti). 12 Enhanced Content Delivery Work Package 1.2. Linguaggi di interrogazione XML 1.2.1 Stato dell’arte XML sta diventando il linguaggio più utilizzato per l'interscambio di informazioni. L'uso di XML nel contesto delle biblioteche digitali si inserisce in modo naturale in questo quadro. Una direzione di ricerca molto promettente è quella che fa tesoro dell'esperienza nei sistemi di gestione di basi di dati per definire meccanismi di gestione di informazioni XML di livello più sofisticato rispetto a quelli attualmente disponibili. Attualmente, la manipolazione di dati XML avviene normalmente tramite l'interfaccia DOM, che definisce un modello ad oggetti facilmente utilizzabile all'interno di un normale linguaggio di programmazione, ma non sono ancora disponibili soluzioni che permettano di accedere in modo dichiarativo a dati XML; specifiche W3C come XSL, XPath, XLink e XFragment si caratterizzano tutte per una maggiore dichiaratività e flessibilità nell'accesso a informazioni XML, ma molto rimane ancora da fare; varie proposte di linguaggi di interrogazione per XML sono state introdotte durante l’anno corrente, ed il W3C ha costituito uno speciale gruppo di standardizzazione che dovrebbe produrre un’algebra per XML entro fine 2000 ed un linguaggio di interrogazione standard entro la primavera del 2001. 1.2.2 Obiettivi Strategici Una volta definito (dal W3C) un linguaggio di interrogazione standard, vari temi di ricerca verranno affrontati in questo work package per adattarlo alle esigenze delle biblioteche digitali. La definizione di un linguaggio di interrogazione per XML aprirà nuove ed importanti direzioni di ricerca applicata, soprattutto considerando le esigenze delle biblioteche digitali. Infatti, supponendo che i documenti multimediali siano descritti in XML, sarà possibile accedere a queste sorgenti per mezzo di interrogazioni semanticamente espressive, sfruttando a pieno la struttura del documento. In questo contesto, un’interrogazione potrà imporre non solo vincoli lessicali, ma anche vincoli topologici sul documento che deve essere recuperato, in modo ad esempio che l’annidamento dei marcatori venga rispettato. Tutto ciò potrà incrementare in maniera significativa la potenziale precisione dei risultati delle interrogazioni. D’altro canto, per imporre vincoli topologici esatti, un utente dovrebbe essere pienamente consapevole dell’esatta organizzazione del documento, e spesso questa non è la realtà. Richiedendo una stretta corrispondenza del documento con la struttura topologica richiesta, si potrebbero perdere alcuni documenti che sono simili alle nostre richieste. Potenzialmente questo potrebbe diminuire l’insieme dei risultati di un’interrogazione. Per evitare questo effetto indesiderato, verrà studiato come rendere flessibile il linguaggio di interrogazione, consentendo all’utente di non dover conoscere a priori la struttura sintattica del documento XML voluto. Altre ricerche che verranno rese possibili dalla presenza di un linguaggio di interrogazione per XML sono la definizione di regole attive e la specifica di un modello per il controllo dell'accesso. Le regole attive hanno dimostrato le loro potenzialità nell'ambito delle basi di dati relazionali e potranno diventare uno strumento molto efficace per realizzare nuovi servizi nel contesto di XML. Nell’ambito delle biblioteche digitali, è possibile pensare ad applicazioni immediate per le regole attive, ad esempio per la costruzione automatica di metainformazione sui documenti, la loro classificazione automatica, la presentazione dei dati in modo personalizzato, e la notifica agli utenti di eventi rilevanti, quali ad esempio la presenza di un nuovo documento relativo ad un campo di interesse predefinito. 13 Fondo Speciale Innovazione La definizione delle regole parte da una definizione di eventi, già definibile nel contesto dello standard DOM2, e utilizza il linguaggio di interrogazione, con il quale esprimere le condizioni di interesse per ciascuna regola; la realizzazione prototipale di un sistema di regole attive per XML sembra pertanto essere di facile realizzazione. Un altro settore che beneficierà della presenza di un linguaggio di interrogazione è la realizzazione di un modello di controllo dell'accesso a risorse XML; in tal caso, il linguaggio di definizione consente di definire quali sono le porzioni della biblioteca digitale cui possono fare accesso i diversi utenti in base alle loro differenti autorizzazioni d’accesso; un modello così definito estende sensibilmente gli attuali meccanismi di definizione dei diritti d’accesso. 1.2.3 Approccio ed obiettivi specifici L’attività di questo work package si concentrerà sulla definizione di linguaggi e tecniche per l’interrogazione di documenti XML senza la conoscenza anticipata della loro struttura sintattica, cioè quali marcatori sono disponibili nel documento, in quale ordine e come sono annidati tra loro. La ricerca proposta si adatta ad un contesto in cui documenti multimediali vengono estratti da biblioteche digitali eterogenee e non aderiscono perfettamente alle regole del DTD o schema XML, come ci si può aspettare quando una collezione di dati si ottiene accedendo ad un grande volume di sorgenti eterogenee largamente distribuite sul Web. Si dovrà poi tenere conto di altri aspetti che assumono particolare rilievo in questo contesto, come ad esempio la disponibilità di un'interfaccia grafica per la descrizione di una interrogazione, che permetta agli utenti del sistema di formulare le interrogazioni senza dover scrivere delle frasi in una sintassi rigida. In questo ambito, si potrà partire dall'esperienza fatta nella definizione del linguaggio XML-GL, arricchendolo con gli strumenti concettuali richiesti per la formulazione di interrogazioni fuzzy. A fianco a questo filone di ricerca, verrà proseguita l’attività, già documentata in alcuni lavori, relativa alla realizzazione di linguaggi e meccanismi per regole attive in XML e alla definizione di un modello per il controllo degli accessi a documenti XML e dei relativi algoritmi di validazione degli accessi. Tali ricerche verranno finalizzate al contesto delle biblioteche digitali. Gli obiettivi tecnici specifici del lavoro condotto in questo work package saranno realizzati in uno specifico prototipo e saranno: 1. Studio della similarità topologica di documenti e dell’uso di logiche fuzzy e somiglianza tra grafi come meccanismi per esprimere questa similarità. 2. Sviluppo di un nuovo e flessibile linguaggio per documenti XML per il recupero di dati multimediali. La flessibilità sarà inclusa in modo da essere facilmente controllata dall’utente. 3. Studio di un'interfaccia grafica per la specifica delle interrogazioni 4. Definizione di un meccanismo basato su regole attive per modellare nuovi servizi di supporto alle biblioteche digitali 5. Integrazione del modello di controllo dell'accesso per dati XML, in modo tale da fornire un supporto alla creazione di diversi profili di utente con diversi privilegi di accesso ai dati. 1.2.4 Unità coinvolte L'unità principalmente coinvolta in questa ricerca è quella del Politecnico di Milano, composta dalle seguenti persone: Stefano Ceri, Letizia Tanca, Piero Fraternali, Stefano Paraboschi, Giuseppe Pozzi, Sara Comai, Angela Bonifati, Andrea Maurino, Pierangela Samarati (UNIMICrema), Ernesto Damiani (UNIMI-Crema). L'unità ha partecipato a diversi progetti europei e 14 Enhanced Content Delivery nazionali su temi affini a quelli che saranno argomento di questa iniziativa (progetti europei IDEA, WIDE, W3I3, FASTER; progetti nazionali Interdata, Data-X). Il filo conduttore della ricerca che viene attualmente svolta è l'integrazione tra la tecnologia delle basi di dati e il mondo Internet. In questo ambito, le tecnologie legate a XML rivestono un ruolo centrale. Collaboreranno a questa ricerca anche l’unità operativa di Pisa (CNR-ISTI 1), che fornirà la base dei documenti in XML e l'interoperabilità con il sistema di Biblioteca Digitale XML, e l’unità operativa di Modena, che fornirà la base di meta-informazione relativa agli stessi documenti. Riferimenti WWW8: S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, L. Tanca. XML-GL: A Graphical Language for Querying and Restructuring XML Documents. WWW 8, Toronto, maggio 1999, pp. 1171-1187. VLDB99: S. Ceri, P. Fraternali, S. Paraboschi. Data-Driven, One-To-One Web Site Generation for Data-Intensive Applications. VLDB 1999, Edimburgo, settembre 1999, pp. 615-626 EDBT00a: S. Ceri, P. Fraternali, S. Paraboschi. XML: Current Developments and Future Challenges for the Database Community. EDBT 2000, Costanza, marzo 2000, pp. 3-17. EDBT00b: E. Damiani, S. De Capitani, S. Paraboschi, P. Samarati. Securing XML Documents. EDBT 2000, Costanza, marzo 2000, pp. 121-135. WWW9: S. Ceri, P. Fraternali, A. Bongio. Web Modeling Language (WebML): A Modeling Language for Designing Web Sites. WWW 9, Amsterdam, maggio 2000. VLDB00: S. Ceri, R. Cochrane, J. Widom. Practical Applications of Triggers and Constraints: Success Stories and Lingering Issues. VLDB 2000, Il Cairo, settembre 2000. 15 Fondo Speciale Innovazione Work Package 1.3. Ontologie XML 1.3.1 Stato dell'arte La ricerca sulle ontologie sta acquisendo un ruolo di primaria importanza nella comunità scientifica. La sua rilevanza è stata riconosciuta in molteplici settori tra i quali l'e-commerce, lo sviluppo e integrazione di informazioni, la modellazione di sistemi fisici, i sistemi che utilizzano il linguaggio naturale, l'ingegnerizzazione dei processi legati alla conoscenza, la progettazione di database, le Biblioteche Digitali e l’accesso alle informazioni di tipo intelligente. Tale tema è fortemente interdisciplinare e coinvolge in particolare, oltre a ricercatori in informatica, studiosi di filosofia e di linguaggio, (si veda per avere un’idea della eterogeneità di contributi la bibliografia in: http://www.ladseb.pd.cnr.it/infor/ontology/Papers/Ontobiblio/TOC.html). Un aspetto fondamentale nella costruzione di una Biblioteca Digitale è la modalità di organizzazione dell'enorme quantità di informazione relativa al suo contenuto. A tale scopo, sono stati sviluppati sofisticati schemi di classificazione e regole di catalogazione per creare meta-dati che descrivono il contenuto di una Biblioteca Digitale. Una recente proposta (sviluppata nell'ambito della University of Michigan Digital Library http://www.si.umich.edu/UMDL) per rappresentare la conoscenza sia del contenuto che dei servizi offerti da una Biblioteca Digitale è stata quella di utilizzare meta-dati basati su ontologie; in tale proposta, l'uso di ontologie fornisce anche il supporto per tecniche di ragionamento, basate sulle logiche descrittive, utili per sviluppare servizi automatici. L’eterogeneità nella rappresentazione e memorizzazione dei dati è un’altra delle caratteristiche peculiari nelle Biblioteche Digitali. Molto spesso i documenti sono memorizzati in formati diversi, le collezioni sono interrogate utilizzando i linguaggi di interrogazione più disparati, i servizi di ricerca (search services) utilizzano protocolli tra loro incompatibili, i criteri di accesso ai dati e di gestione dei diritti d'autore sono diversi ed infine le modalità di rappresentazione dei risultati sono inconsistenti per sistemi diversi. Di fronte a questi problemi un'area di ricerca promettente per migliorare l'integrabilità delle Biblioteche Digitali riguarda lo sviluppo di architetture a mediatore, le quali hanno come obiettivo quello di accedere a informazioni presenti su sorgenti multiple. In generale un mediatore riceve una richiesta (e.g. query) da parte dell'utente, invia diverse traduzioni della richiesta alle varie Biblioteche Digitali, raccoglie e integra le risposte per presentarle in forma omogenea all'utente. L’uso di ontologie e di tecniche di ragionamento rappresenta, a nostro parere, un obiettivo strategico nel contesto delle Biblioteche Digitali in quanto può fornire uno strumento efficace di accesso più selettivo e quindi più efficiente alla grandissima quantità di documenti distribuiti in rete. Nel contesto delle ontologie, inoltre, la scelta del linguaggio di rappresentazione è un elemento discriminante. Tale linguaggio deve, a nostro parere, essere sviluppato a partire dal nucleo di primitive di modellazione definite (ed in corso di estensione) nel linguaggio XML, in quanto l'XML sta diventando di fatto un formato universale di scambio dati per l'ambiente Web. Il punto di partenza per questo tema di ricerca è il sistema MOMIS (Mediating system Environment for Multiple Information Sources), la cui progettazione e realizzazione è iniziata presso l’Università di Modena e Reggio Emilia nell’ ambito del progetto MURST INTERDATA 97/98, e che permette la costruzione di una vista globale virtuale di sorgenti di informazione eterogenee e distribuite. Un prototipo di tale sistema è stato recentemente presentato al congresso VLDB 2000 ed è stato accettato alla Bourse Européenne de Transferts & de Partenariats Technologiques Technologies de l'Information & de la Communication che si terrà a Toulouse il 18/20 Ottobre 2000. 16 Enhanced Content Delivery 1.3.2 Obiettivi Strategici L'obiettivo che ci si pone in questo WP è la costruzione di una ontologia di Biblioteca Digitale che sia capace di rappresentare una Vista Globale Virtuale GVV delle singole Biblioteche Digitali locali e che definisca le regole di mapping tra la vista globale e le biblioteche locali. In altre parole, l'intenzione è quella di costruire un "Common Thesaurus" delle relazioni intensionali ed estensionali sia di tipo intra-schema sia di tipo inter-schema in modo da riconciliare viste e rappresentazioni differenti di concetti simili, cioè meta-dati diversi delle varie Biblioteche Digitali locali nella vista globale. Le Biblioteche Digitali locali forniranno il loro schema strutturale per mezzo di una DTD/XML e la vista globale virtuale sarà anch'essa esportata come una sorgente di dati XML. La GVV dovrà essere un oggetto dinamico che potrà essere arricchito e dinamicamente aggiornato aggiungendo nuove Biblioteche Digitali o modificando i meta-dati di una Biblioteca Digitale. 1.3.3 Approccio ed obiettivi specifici L'attività di questo WP sarà focalizzata sulla definizione di una metodologia di creazione di un’ontologia per Biblioteca Digitale, che utilizzi il linguaggio XML, e che sia atta a rappresentare una GVV delle singole Biblioteche Digitali locali. Sarà inoltre realizzato un prototipo software per l’ausilio all’integrazione delle Biblioteche Digitali Locali. Saranno estesi la teoria e la metodologia relativa all'integrazione di sorgenti proposta in MOMIS in modo da superare le nuove problematiche introdotte dal contesto delle Biblioteche Digitali e dall’adozione del linguaggio di riferimento XML. I requisiti per lo sviluppo di tale metodologia verranno raccolti sulla base delle Biblioteche integrate già esistenti e sulle nuove proposte di standardizzazione ed interoperabilità dell’Open Archives Initiative. Lo studio teorico trova i propri fondamenti su un approccio semantico che usa tecniche basate sulle logiche descrittive, il sistema lessicale WordNet, l'uso di tecniche di clustering ed una estensione del linguaggio ODL-ODMG, denominata ODLi3, progettata per rispondere ai requisiti di integrazione. Verrà inoltre prodotto un prototipo software, dotato di un interfaccia grafica, che assisterà il progettista durante le fasi di costruzione dell’ontologia per le Biblioteche Digitali. Partendo dalla descrizione degli schemi delle Biblioteche Digitali locali eterogenee (che potrà essere fornita sia utilizzando XML sia altri formati), i wrapper permetteranno di ottenere in maniera semi-automatica la descrizione nel formato comune ODLi3 degli schemi locali. Successivamente, il progettista sarà assistito dal tool nella creazione della GVV rappresentativa di tutte le sorgenti che verrà espressa in ODLi3 e che verrà esportata come una sorgente di dati XML. La creazione della GVV sarà ottenuta utilizzando un approccio semantico e perseguendo i seguenti obiettivi: 1. Estrazione semi-automatica delle descrizioni ODLi3 delle Biblioteche Digitali locali e della relativa semantica: keyword, contesto, ... 2. Estrazione semi-automatica delle relazioni terminologiche e generazione del "Common Thesaurus. Le relazioni terminologiche esprimono conoscenza di tipo intensionale inter e intra-schema. 3. Inclusione nel "Common Thesaurus" di relazioni esplicite fornite dal progettista dell’ontologia (sia di tipo intensionale che di tipo estensionale) e di relazioni inferite 4. Clustering basati sull'affinità tra classi che descrivono i meta-dati delle diverse Biblioteche Digitali. Le relazioni terminologiche nel Thesaurus saranno utilizzate per valutare il livello di affinità tra le classi delle diverse Biblioteche Digitali; a questo 17 Fondo Speciale Innovazione scopo, saranno definiti degli opportuni coefficienti che misurano il livello di affinità tra classi 5. Generazione dei cluster: le classi affini saranno raggruppate insieme utilizzando tecniche di clustering gerarchico 6. Costruzione della vista virtuale globale: una classe globale integrata, che sia rappresentativa di tutte le classi che afferiscono al cluster, sarà definita per ogni cluster. L'insieme delle classi globali definito costituisce la GVV. 7. la GVV che verrà esportata come una sorgente di dati XML. In particolare, con riferimento al punto 2, l'approccio adottato è quello di sfruttare un sistema lessicale che valuti l'esistenza di relazioni terminologiche a priori. Il sistema maggiormente utilizzato per questi scopi è WordNet, un tesauro lessicale che rappresenta la più importante risorsa utilizzabile sia nel campo della linguistica computazionale sia nel campo dell'analisi testuale. WordNet è stato sviluppato dal "Cognitive Science Laboratory" della Università di Princeton, dal prof. George A. Miller. WordNet si ispira alle recenti teorie di psicolinguistica lessicale umana. Parole, verbi, aggettivi e avverbi del linguaggio inglese sono catalogate in insiemi di sinonimi (synset), ognuno rappresentante uno specifico concetto lessicale. Differenti generi di relazioni collegano gli uni agli altri synset. Il punto di partenza della semantica lessicale è il riconoscere che esiste una corrispondenza convenzionale tra “le parola usate” ed i loro significati, tale corrispondenza è nel caso generale molti a molti, dando origine alla “polisemia” (la proprietà di una parola di avere piu` significati) e “sinonimia” (la proprietà di un significato di essere esprimibile con parole diverse). Inoltre tra le relazioni individuate da WordNet possiamo elencare: “ipernimia” : un concetto è ipernimo di un altro se il secondo è piu` specializzato (la relazione duale tra concetti è ”iponimia”); “meronimia” , relazione semantica che sussiste tra due concetti di cui il primo è parte del secondo (la relazione duale è “olonimia”); “correlazione” che lega due synset che condividono lo stesso ipernimo. L’interazione con WordNet permetterà di proporre le relazioni terminologiche individuate al progettista; tali relazioni, se confermate, verranno aggiunte al Common Thesaurus come relazioni intensionali. Con riferimento al punto 3), l'approccio che sarà adottato è basato sulla teoria dell’analisi formale di contesto il cui scopo è quello di produrre una gerarchia di generalizzazione nella quale vengono organizzate tutte le classi che appartengono a sorgenti diverse. Questo approccio teorico è basato sulla definizione di “assiomi estensionali”: tali assiomi definiscono relazioni insiemistiche tra le estensioni delle classi appartenenti a sorgenti diverse; in particolare, date due classi C1 e C2 considereremo le seguenti relazioni: disgiunzione, equivalenza, inclusione e sovrapposizione. L’idea è che il progettista possa inserire, oltre a relazioni intensionali esplicite, assiomi estensionali. 1.3.4 Unità coinvolte L'unità di ricerca principalmente coinvolta in questo progetto è il Dipartimento di Scienze dell'Ingegneria (DSI) dell'Università di Modena e Reggio Emilia, composto dalle seguenti persone: Paolo Tiberio, Sonia Bergamaschi, Paolo Ciaccia (UNIBO), Luca Pazzi, Domenico Beneventano, Alberto Corni, Francesco Guerra, Ilario Benetti. L'unità ha una vasta esperienza nel campo dei sistemi di database intelligenti e nell'integrazione intelligente di informazioni. Collaboreranno a questo WP anche l'unità operativa di Pisa, che fornirà la base dei documenti in XML e l'interoperabilità con il sistema di Biblioteca Digitale XML, l'unità operativa di Milano, che sperimenterà la base di meta-informazione relativa agli stessi 18 Enhanced Content Delivery documenti, rappresentata nell'ontologia XML, e l'unità di Roma Tre, che fornirà strumenti per la conversione in XML di documenti disponibili solo in altri formati." 19 Fondo Speciale Innovazione Work Package 1.4. Annotazioni 1.4.1 Stato dell’arte Le attività di ricerca e sviluppo nella pubblicazione di documenti a testo pieno in formato elettronico come, ad esempio, libri o rapporti tecnici di ricerca, precorrono l'avvento di Internet e del Web; per esempio, il progetto Gutenberg iniziò nel 1971 (http://www.gutenberg.net). Lo sviluppo delle risorse di calcolo e di rete permettono oggi di realizzare dispositivi e software per documenti elettronici che sono delle copie delle versioni cartacee e che possono essere rese eventualmente disponibili attraverso un Web browser. Un documento elettronico può essere arricchito in modo manuale di collegamenti, sfruttando l'informazione fornita dalla struttura logica e di presentazione, decisa dall'autore del documento. Sono stati proposti diversi prodotti e sono state intraprese iniziative di standardizzazione; solo per citare alcuni esempi, si segnalano eBook (http://www.nuvomedia.com), Glassbook (http://www.glassbook.com), Open Ebook Initiative (http://www.openEBook.org). Il caso dei libri di testo elettronici è particolare perché investe un mercato di notevoli dimensioni, quello scolastico e universitario, e perché l'annotazione è particolarmente utilizzata con un libro di testo; si noti che ci sono alcune iniziative collegate come, ad esempio, NetLibrary (http://www.netlibrary.com). L'utilizzo di un libro di testo elettronico è diverso da un qualsiasi libro cartaceo o elettronico: l'editore può pensare a diverse strategie di vendita di un libro di testo elettronico per risolvere il problema dei costi e del peso dei libri cartacei; il docente può organizzare i contenuti in modo flessibile integrando, ad esempio, il libro elettronico con altre risorse, e viceversa. L'annotazione è legata all'utilizzo di un documento elettronico e, in particolare, di un libro di testo elettronico perché l'annotazione rappresenta un modo di utilizzo di questo strumento di studio. Infatti, l'utente finale come, ad esempio, lo studente di un libro di testo elettronico, può annotare e navigare il libro a scopo di riferimento, ossia per cercare risposte a domande. Gli aspetti peculiari delle annotazioni sono: personalizzazione: l'utente descrive il contenuto semantico del documento utilizzando un proprio linguaggio che integra quello utilizzato dall'autore del documento; condivisione: per ogni documento, ci possono essere diverse annotazioni di diversi utenti finali che possono essere così condivise. Per queste peculiarità, la rilevanza delle annotazioni è data dal loro ruolo nelle fasi di: descrizione personale e condivisa del contenuto semantico dei documenti elettronici: giacché un'annotazione è personale, è anche personale la descrizione del documento in termini di parole chiave o dei sommari, rispettivamente, estratte e costruiti dalle annotazioni stesse; dato che è possibile condividere le annotazioni, allora è anche possibile condividere le parole chiave e i sommari; accesso mediante navigazione ai documenti elettronici di una biblioteca digitale: l'annotazione può costituire un ancora o un punto di arrivo di un collegamento; per esempio, la ricerca a scopo di riferimento inter- o intra-libro di testo è naturalmente legata alla navigazione perché essa consente di attraversare un collegamento da domande a risposte realizzate come annotazione. È importante sottolineare che le annotazioni sono ortogonali alla struttura logica e di presentazione introdotte dall'autore perché esse sono evidenziazioni o strutturazioni del documento introdotte dall'utente sul contenuto semantico del documento in punti non evidenziati dall'autore. 20 Enhanced Content Delivery L'utente può, quindi, stabilire collegamenti di navigazione sulla base del contenuto semantico allo scopo di sviluppare percorsi di fruizione personale dell'informazione. Come per le annotazioni, questi percorsi di fruizione possono essere condivisi con altri utenti. Il problema è dovuto alla dimensione dei singoli documenti e dell'intera biblioteca che rende impossibile la costruzione manuale di collegamenti tra le annotazioni sulla base del contenuto semantico. È necessario e utile lo sviluppo di strumenti automatici che costruiscono collegamenti per la navigazione tra annotazioni di uno o più documenti. 1.4.2 Obiettivi Strategici Il work package si prefigge di definire algoritmi e metodi efficienti per generare in modo automatico sommari e collegamenti tra documenti e annotazioni. I sommari e i collegamenti così generati consentono di ottenere una descrizione sintetica del contenuto semantico del documento e di reperire altri documenti con un contenuto pertinente agli interessi dell'utente. Le collezioni di documenti digitali gestite risulterebbero, allora, coordinate e collegate, in modo tale che l'utente possa trovare già disponibili dei percorsi di fruizione delle raccolte dei documenti digitali e delle annotazioni. Gli algoritmi e i metodi che verranno sviluppati permetteranno di gestire e accedere in modo innovativo e secondo il paradigma di navigazione le annotazioni di grandi raccolte di documenti digitali. In questo modo sarà possibile affiancare ad una costruzione e utilizzazione delle annotazioni mediante interrogazione, una costruzione della raccolta delle annotazioni in strutture simili a collezioni di documenti Web in relazione e collegamento fra loro. Si ipotizzi uno scenario in cui un utente accede ad una biblioteca digitale alla ricerca di informazioni pertinenti ai propri interessi. L'utente consulta un documento digitale, trovato mediante uno strumento di ricerca come, ad esempio, un sistema di information retrieval e/o di gestione di basi di dati. L'utente desidera, spesso, avere un sommario del documento che sta consultando, allo scopo di usare tale sintesi nella redazione di un proprio documento. A tal fine, egli potrebbe annotare le pagine del documento evidenziando, sottolineando o apponendo dei commenti. Durante la consultazione di un documento, l'utente necessita, spesso, di consultare altri documenti dai quali estrarre altre informazioni utili per rispondere, ad esempio, a domande. La ricerca di altri documenti può quindi avvenire mediante navigazione di collegamenti tra i documenti. L'utente seleziona le annotazioni, che possono essere, per esempio, parti di documento appositamente selezionate, e utilizza tali annotazioni come ancore di collegamenti verso altri documenti o annotazioni. I documenti così collegati possono essere, ad esempio, documenti con un contenuto simile a quello di partenza; le annotazioni collegate possono essere, ad esempio, annotazioni apposte da altri utenti, anche su altri documenti. I possibili percorsi di navigazione possono essere eccessivamente numerosi e solo alcuni di essi sono effettivamente di interesse per l'utente; in effetti, le annotazioni apposte dall'utente sono una fonte per comprendere gli interessi dell'utente. Questi dati possono essere combinati con dei profili d'utente. Metodi e tecniche di text mining verranno studiate per arrivare a costruire automaticamente percorsi di lettura e consultazione personalizzati nelle diverse raccolte di documenti digitali. In particolare si intende esplorare la possibilità di costruzione automatica di profili d'utente e di percorsi di fruizione delle raccolte digitali. 1.4.3 Approccio ed obiettivi specifici Si condurrà un'attività di studio e di investigazione delle tecnologie esistenti e dei risultati ottenuti, sia a livello di ricerca che a livello industriale, per la gestione delle annotazioni di documenti digitali. Particolare attenzione sarà rivolta a XML e ad altre tecnologie standard del World Wide Web Consortium per studiare l'integrazione della gestione delle annotazioni con i linguaggi di interrogazione e le ontologie basati su XML. 21 Fondo Speciale Innovazione Si condurrà un'analisi dei requisiti degli utenti di una biblioteca digitale in cui i documenti possono essere annotati e in cui le annotazioni possono essere usate per operazioni di navigazione, come descritto sopra. Si definiranno le caratteristiche del prototipo, si investigherà l'esistenza di prodotti, strumenti o tecnologie che possono essere incorporate nel prototipo e, quindi, si individueranno i componenti software da acquisire e quelli da sviluppare durante il progetto. Si progetteranno algoritmi e metodi efficienti di costruzione automatica, a partire dalle raccolte delle diverse tipologie di annotazioni che si deciderà di prendere in considerazione nell'ambito del progetto, di raccolte nelle quali sono stati costruiti automaticamente collegamenti fra documenti e annotazioni simili. L'obiettivo è quindi di progettare e realizzare un prototipo che supporti l'utente a gestire annotazioni sui documenti che consulta, generi automaticamente dei collegamenti tra annotazioni, tra documenti e tra annotazioni e documenti, recuperi (parti di) documenti utilizzando le informazioni contenute nelle annotazioni, generi un sommario sulla base delle annotazioni, permetta la personalizzazione e la condivisione delle annotazioni tra i diversi utenti della biblioteca digitale. 1.4.4 Unità coinvolte Le attività di questo Work Package saranno svolte principalmente dall'Unità Operativa dell'Università di Padova che è composta dalle seguenti persone: Maristella Agosti, Franco Crivellari, Massimo Melucci, Luca Pretto. L'unità ha partecipato a progetti europei e nazionali su tematiche vicine a quelle che saranno argomento di questa iniziativa (progetto europeo IRIDES di IDOMENEUS-ESPRIT Network of Excellence No.6606; Mira, ESPRIT Working Group No.20039; progetto finanziato dalla European Space Agency (ESA) su "Semantic Network Inter-Operations"; progetto nazionale ADMV: Archivio Digitale della Musica Veneta del settecento; progetto nazionale Interdata). Data la stretta correlazione funzionale fra le attività di questo Work Package con le attività concernenti la definizione di una architettura aperta per Biblioteche Digitali XML, nella attività di questo Work Package sarà coinvolta in modo sistematico anche l'Unità Operativa CNRISTI di Pisa. L'attività relativa alla definizione di regole attive che verrà condotta dall'Unità Operativa del Politecnico di Milano nel WP 1.2 può permettere di esplorare la definizione di un modello di autorizzazioni in funzione anche delle autorizzazioni alle annotazioni. 22 Enhanced Content Delivery Work Package 1.5. Conversione Automatica in XML di Documentazione Elettronica per Biblioteche Digitali 1.5.1 Stato dell’arte XML è stato introdotto per superare alcuni dei limiti associati all'uso altri formati (ad esempio HTML, o SGML), e il suo utilizzo sembra particolarmente appropriato nel contesto delle biblioteche digitali. In particolare, è pensabile che le biblioteche digitali (DL) di prossima generazione saranno sviluppate avvalendosi di XML e della tecnologia ad esso correlata. Tuttavia, fino ad oggi pochi documenti sono stati prodotti in XML. La carenza di uno standard universalmente accettato, come sembra essere XML, ha fatto sì che l’informazione elettronica fosse organizzata attraverso una pletora di formati diversi. Integrare in una DL di nuova generazione informazioni elettroniche disponibili in formati diversi da XML può essere un'attività estremamente complessa e costosa. Infatti, molti tra i formati utilizzati fino ad oggi sono stati pensati principalmente per definire aspetti relativi alla presentazione dell’informazione, e offrono uno scarso supporto alla descrizione dell’organizzazione logica delle informazioni. L’esempio più significativo è costituito da HTML: la quantità di informazioni disponibili su Web in questo formato è enorme, tuttavia la loro conversione in XML risulta un problema molto complesso e costoso. Di conseguenza, la conversione di formato per la documentazione elettronica è un problema di notevole rilevanza nel contesto delle DL. La base di partenza per questo tema è l’esperienza, maturata dall’unità che vi è principalmente coinvolta, nello studio di tecniche, modelli e linguaggi per la specifica di programmi software (detti “wrapper”) per la manipolazione di sorgenti di dati semi-strutturati. Essenzialmente un wrapper costituisce una interfaccia di programmazione (API) che permette di accedere alle informazioni immerse in un documento (testuale o in uno specifico formato ad esempio HTML o LaTeX); esso può quindi essere usato per estrarre queste informazioni e rappresentarle in formati diversi, ad esempio in XML. Lo studio delle tecniche e la realizzazione di prototipi per la specifica di wrapper sono stati condotti principalmente nell’ambito dei progetti MURST Interdata (1997-1998) e Data-X (2000-2001). 1.5.2 Obiettivi Strategici L'obiettivo del progetto è lo studio di tecniche innovative per l'automazione del processo di sviluppo di wrapper, e lo sviluppo del prototipo di un sistema basato su queste tecniche. Ci si concentrerà sullo studio di tecniche applicabili a una vasta classe di sorgenti informative. Particolare attenzione verrà dedicata alle sorgenti informative HTML, che costituiscono sicuramente uno dei formati più diffusi e al tempo stesso difficili da trattare. Il prototipo del sistema consentirà la generazione automatica di wrapper utili alla gestione di una DL basata su XML. In particolare i wrapper generati dal sistema potranno essere utilizzati per integrare documentazione elettronica disponibile in DL che adottano attualmente formati diversi da XML, come HTML, pdf o ps e gestiscono un prorio repository di informazione strutturata. 1.5.3 Approccio ed obiettivi specifici Il contributo principale del tema è di sviluppare tecniche che consentano di convertire automaticamente in XML documentazione elettronica disponibile in formati diversi. 23 Fondo Speciale Innovazione Il processo di conversione delle informazioni può essere visto come una scatola nera che riceve in ingresso un insieme di documenti in un certo formato e produce in uscita un nuovo insieme di documenti XML contenenti le informazioni estratte dai documenti della collezione in ingresso, opportunamente strutturate. Il punto cruciale di questo processo consiste ovviamente nella derivazione di opportuni wrapper che consentano di estrarre i dati e riprodurli in formato XML. Obiettivo principale del nostro approccio sono grandi collezioni di documenti disponibili in formati diversi da XML. Nel seguito, per descrivere l’approccio che intendiamo seguire, faremo principalmente riferimento al caso di sorgenti informative HTML (siti HTML). Tuttavia, risulterà evidente come le tecniche perseguite potranno essere utilizzate per trattare qualunque altro formato di codifica dell’informazione. Normalmente, i documenti contenuti in grossi siti HTML sono organizzati in classi di documenti, che corrispondono a diverse categorie di informazioni nella sorgente. Per esempio, un sito relativo ad informazioni artistiche può contenere una classe di documenti in cui si presentano i principali artisti di un'epoca, un'altra classe in cui vengono riportati i dettagli relativi alle opere di ciascun artista, un’altra ancora in cui si descrivono le caratteristiche salienti di ciascuna epoca. Documenti della stessa classe normalmente contengono elementi comuni; per esempio, il documento che presenta la vita di "Cimabue" sarà presumibilmente molto simile a quello che illustra la vita di "Giotto", e profondamente diverso da quello che riporta i dettagli dell’opera “La Primavera” di Botticelli. Per estrarre le informazioni da queste sorgenti e convertirle in XML è necessario sviluppare un opportuno wrapper per ciascuna classe di pagine nel sito. Il nostro approccio è quello di vedere il sito come il risultato di un'operazione di codifica in un opportuno formato (HTML in questo caso) di una ipotetica base di dati. Di conseguenza, la semantica del wrapper è quella di implementare una funzione di decodifica che consenta, a partire dai documenti HTML, di ricostruire i dati originali e restituirli in formato XML. In particolare nel nostro approccio la creazione del wrapper si basa sulle similarità esibite dai documenti appartenenti alla stessa classe: è possibile, in sostanza, provare a derivare, a partire da un campione sufficientemente ampio di documenti, una grammatica che ne descriva l'organizzazione, e utilizzare questa grammatica come wrapper. Il punto di partenza del nostro approccio è uno studio preliminare di carattere teorico del problema della decodifica di informazione da pagine HTML che è stato recentemente condotto dal nostro gruppo (Grumbach and Mecca, ICDT-1999). Nel lavoro, è stato stabilito un contesto formale per lo studio del problema della generazione di wrapper come processo di codifica/decodifica delle informazioni. Più specificamente: (i) è stata definita formalmente una classe di funzioni di codifica che astrae efficacemente il processo di generazione del codice HTML a partire da una base di dati, e ne sono state studiate le proprietà computazionali; (ii) è stato definito un modello di dati per la descrizione del contenuto delle pagine HTML nello spirito delle basi di dati; il modello è una variante del modello relazionale nidificato, arricchito con collegamenti ipertestuali, che consente, tra l'altro, di rappresentare attributi mancanti e valori nulli; le istanze del modello hanno l'importante proprietà di essere facilmente rappresentabili in XML, il formato che abbiamo deciso di utilizzare per la realizzazione delle biblioteche digitali di nuova generazione; (iii) è stato selezionato un sottoinsieme delle grammatiche regolari per la specifica dei wrapper; questo frammento, che è in corrispondenza 1:1 con il modello di dati scelto, rappresenta un buon compromesso tra espressività nella descrizione dei documenti ed efficienza nell'analisi grammaticale; (iv) infine, sulla base del contesto formale descritto, sono state studiate le proprietà computazionali del problema di decodifica, dimostrandone formalmente la calcolabilità. L’obiettivo specifico del presente tema è di studiare algoritmi ed architetture che consentano di sviluppare il prototipo di un sistema basato sulle tecniche discusse (estendendole, se necessario, per trattare anche documenti elettronici in formati diversi da HTML). Di 24 Enhanced Content Delivery conseguenza, il progetto sarà centrato attorno a tre obiettivi principali, per ciascuno dei quali verrà realizzato un prototipo software: 8. per cominciare, è necessario sviluppare algoritmi di decodifica che siano efficienti ed efficaci, nel contesto formale descritto sopra; la decodifica di dati da una collezione di documenti impone di affrontare due problemi: (i) il primo è quello di ricostruire lo schema dei documenti; (ii) il secondo è quello di derivare una grammatica appropriata che consenta di estrarre le informazioni rilevanti nel documento pagina; la grammatica sarà poi utilizzata come wrapper; il prototipo prenderà il nome di estrattore 9. per confrontare documenti della stessa classe, è necessario per cominciare ricostruire le classi di documenti della collezione; è quindi necessario studiare tecniche per la classificazione di documenti, che consentano di assegnare ciascun documento alla propria classe; le classi create in questo modo potranno poi diventare il punto di partenza per il processo di generazione dei wrapper; questo prototipo prenderà il nome di classificatore 10. infine, vale la pena di notare che una collezione di documenti potrebbe contenere anche esemplari unici, nel senso che non ci sono altri documenti nella collezione con la stessa organizzazione; con riferimento all’esempio precedente è possibile pensare anche ad un documento che contenga la lista dei collegamenti alle pagine di tutti gli artisti. Le tecniche basate su confronto e decodifica sono ovviamente inefficaci in questi casi; di conseguenza è necessario sviluppare tecniche specifiche per la generazione di wrapper per queste pagine; questo prototipo prenderà il nome di analizzatore (di esemplari unici) I tre prototipi dovranno essere strettamente coordinati, in quanto l'output del classificatore dovrà essere utilizzato sia dell'estrattore sia dall'analizzatore; quest'ultimo utilizzerà anche l'output dell'estrattore. È importante notare che il processo di conversione attraverso wrapper generati automaticamente risulta complementare a molti degli obiettivi degli altri temi. In particolare, da una parte, attraverso il nostro contributo è possibile applicare tutte le tecniche basate su XML anche ad informazioni originariamente disponibili in formati diversi. Dall’altra, notiamo che il nostro approccio ha l’obiettivo di identificare la struttura dei documenti di una collezione; tuttavia esso non consente di associare una semantica ai vari elementi strutturali identificati. A tal scopo si ritiene che le tecniche sviluppate nell’ambito del WorkPackage 1.3 (Ontologie XML) dall’unità di Modena siano particolarmente appropriate per inferire, analizzando il contenuto di ciascun elemento la semantica corretta da associare a questi. Pertanto, è previsto un coordinamento fra i prototipi realizzati nel presente WP con quelli realizzati nel WP 1.3. 1.5.4 Unità coinvolte L’unità di ricerca principalmente coinvolta è il Dipartimento di Informatica e Automazione (DIA) dell’Università Roma Tre. In particolare partecipano al progetto le seguenti persone: Paolo Atzeni, Giansalvatore Mecca (DIFA – Università della Basilicata), Paolo Merialdo, Valter Crescenzi. L'unità ha una vasta esperienza nei campi della gestione di dati in ambiente Web, gestione di sequenze, gestione di schemi e modelli. Collaboreranno a questo WP anche l'unità operativa di Modena, che fornirà tecniche per la interpretazione semantica delle strutture estratte dai wrapper generati automaticamente, e l'unità operativa di Pisa, che supporterà l'interoperabilità con il sistema di Biblioteca Digitale XML, in particolare col servizio di Repository. 25 Fondo Speciale Innovazione Azione 2. Mine the Web Il Web è essenzialmente un centro di servizi per l’informazione enorme, distribuito e globale, utilizzato nei più diversi ambiti, quali l’informazione giornalistica, la pubblicità e l’informazione ai consumatori, la finanza, la formazione, il commercio elettronico, i servizi ai cittadini. Il Web evolve molto rapidamente: si calcola che ogni due ore un nuovo server venga connesso alla rete, e si è passati da circa 5 milioni di documenti web nel 1995 a oltre 1 miliardo nel 2000. Il tasso di crescita della rete è illustrato nella figura. Inoltre, l’informazione disponibile è in forma ipertestuale e ipermediale, non strutturata ed eterogenea. La quantità, la qualità e la dinamicità dell’informazione su web rendono pertanto indispensabili meccanismi efficaci di indicizzazione e ricerca e contemporaneamente rendono tali meccanismi difficili da realizzare e mantenere aggiornati. Infatti la complessità delle pagine web è molto maggiore delle tradizionali collezioni di documenti testuali: le pagine web non hanno una struttura unificante e presentano molte variazioni di stile e contenuto. Il Web è talvolta considerato una enorme Digital Library, ma è purtroppo privo di indici standard per categoria, titolo, autore ecc.: accedere all’informazione desiderata in tale biblioteca può essere una impresa proibitiva. Altre osservazioni che danno l’idea delle nuove sfide poste dal Web sono le seguenti: Il Web cresce rapidamente e l’informazione è continuamente aggiornata: notiziari, mercato finanziario, pubblicità, portali Web aggiornano le loro pagine Web regolarmente e altrettanto frequentemente sono aggiornati i record di accesso ed i collegamenti tra pagine. Il Web è utilizzato da una comunità di utenti ampiamente variegata con background, interessi e usi completamente diversi. Molti utenti non conoscono la struttura della rete e non si rendono conto del costo di una particolare ricerca. Solo una piccola porzione dell’informazione è veramente rilevante o utile: si usa dire che il 99% dell’informazione è inutile al 99% degli utenti Web. In altre parole, una 26 Enhanced Content Delivery particolare persona è generalmente interessata ad una piccola porzione del Web, mentre il resto del Web contiene informazioni che non sono interessanti per lei ma che comunque offuscano le informazioni ricercate. Come si può determinare la porzione di Web veramente rilevante per un certo utente? Come si possono trovare pagine che siano altamente pertinenti e qualificate su uno specifico argomento di interesse? A queste esigenze cercano di rispondere gli attuali motori di ricerca, che gestendo enormi indici basati su keyword aiutano a localizzare insiemi di pagine web contenenti le keyword specificate dall’utente. Con tali motori un utente esperto può riuscire a localizzare rapidamente documenti specificando un insieme di keyword e frasi attentamente scelte. In realtà, gli attuali motori di ricerca basati su keyword presentano importanti limitazioni: Qualità delle risposte: una keyword può essere menzionata in centinaia di migliaia di documenti, e quindi i motori di ricerca molto spesso restituiscono riferimenti ad una enorme quantità di documenti, molti dei quali marginalmente rilevanti per l’argomento di interesse. D’altra parte possono essere non recuperati documenti che sono altamente rilevanti per l’argomento ma non contengono la keyword direttamente. Copertura del Web: le dimensioni del web sono dell’ordine dei terabyte ed in continua crescita: è praticamente impossibile realizzare un data warehouse che replichi o integri tutta l’informazione del web e che possa essere di supporto al motore di ricerca per avere una visione completa ed aggiornata del web. Queste sono le motivazioni della ricerca di metodi più efficaci ed efficienti per la scoperta e l’accesso di risorse su Internet; in tale contesto si colloca questa azione del progetto, che intende investigare gli aspetti riguardanti sia l’efficacia che l’efficienza dei motori di ricerca con il seguente approccio: Efficacia: si intende procedere verso due obiettivi: il primo più a breve termine ed orientato al miglioramento della tecnologia attuale, ed il secondo più a lungo termine orientato ad una visione futuribile del Web. Per quanto riguarda il primo obiettivo l’idea è di combinare le tecniche di ricerca su Web con tecniche di analisi di data mining. In particolare si identificano le seguenti possibili applicazioni: Identification of authoritative Web pages: analisi della struttura della rete al fine di valutare l’autorevolezza dei siti Web. Web document classification: classificazione automatica e costruzione di indici e glossari mediante tecniche di analisi del contenuto delle pagine Web. Mining what Web search engine finds: raffinamento dei risultati di interrogazioni a motori di ricerca; Weblog mining: analisi dei file di log di accesso a Web o proxy server al fine di scoprire profili di accesso alle risorse Web. Tale conoscenza può supportare la gestione dei clienti nel commercio elettronico, o può essere usata per migliorare le prestazioni dei o la qualità dei servizi Web. Il secondo obiettivo riguarda il ruolo che giocherà XML nella gestione dell’informazione su Web nei prossimi anni e l’opportunità che questo può fornire nell’organizzazione della metainformazione e cioè di una struttura che sommarizzi il contenuto, la struttura, i link e gli accessi al Web e che evolve con il Web: Warehousing a Meta-Web: costruzione di una visione multidimensionale e gerarchica della rete come base dell’attività di spidering dei motori di ricerca (esplorazione della rete e raccolta di informazioni). 27 Fondo Speciale Innovazione Efficienza: si intendono investigare due aspetti. Il primo riguarda le strutture dati per l'indicizzazione, e la loro combinazione con tecniche di compressione mirate ad ottimizzare sia lo spazio che il tempo di ricerca. L’obiettivo è di sviluppare nuove tecniche di compressione e indicizzazione full-text che superino le limitazioni degli approcci noti in letteratura. Il punto di partenza è costituito da alcuni recenti risultati nel campo della compressione dati basati su una nuova tecnica, detta di Burrows-Wheeler, che trasforma il testo in input in modo da renderlo maggiormente comprimibile. Il secondo aspetto riguarda la necessità che gli algoritmi di ricerca sfruttino al meglio i meccanismi e le poliche implementate dai moderni sistemi operativi delle architetture commodity ad alte prestazioni; siano scalabili, ovvero siano già progettati per sfruttare la distribuzione e il parallelismo. Lo scopo è quello di poter trattare, incrementando se possibile le prestazioni globali del sistema, collezioni di dati con dimensioni sempre più grandi. Si intende investigare sia le problematiche relative alla realizzazione efficiente e scalabile, tramite distribuzione / parallelizzazione, di dimostratori data mining su dati Web, che le problematiche Web search engine paralleli quali ad esempio: valutazione di diversi paradigmi di parallelizzazione/distribuzione su architetture SMP e COW; utilizzo di tecniche di compressione per ridurre gli accessi ai dischi; schemi di condivisione dei dati; schemi di partizionamento degli indici (es. term vs. document partitioning); bilanciamento del carico; valutazione di tecniche e meccanismi di comunicazione su rete. Nel progetto si intende inoltre investigare una alternativa alla architettura centralizzata dei search engine che collezionano in una singola locazione tutte le pagine Web raccolte. Approcci alternativi sono i cosiddetti participatory service quali quelli utilizzati dal servizio Gnutella. Gnutella è un protocollo che permette a coloro che hanno un apposito client di distribuire files. In questa organizzazione non c’è un unico computer responsabile di mantenere l’intera visione della rete. Si intende sviluppare un protocollo e programmi client/server che permettano la condivisione di indici e del loro materiale pubblico. Invece di trasferire documenti si scambieranno soltanto indici così da ridurre il traffico di almeno un ordine di grandezza. L’azione è organizzata secondo le seguenti attività di ricerca denominati WorkPackages: Work Package 2.1. Work Package 2.2. Work Package 2.3. Work Package 2.4. Web Mining Responsabile: Dott. Salvatore Ruggieri Unità coinvolte: Dipartimento di Informatica, ISTI-CNR, ISI-CNR, Ideare, FST Indicizzazione e compressione Responsabile: prof. Paolo Ferragina Unità coinvolte: Dipartimento di Informatica, Ideare Managing Terabytes Responsabile: Dott. Raffaele Perego Unità coinvolte: ISTI-CNR, ISI-CNR, Ideare Participatory Search Services Responsabile: Prof.ssa Maria Simi Unità coinvolte: Dipartimento di Informatica, Ideare 28 Enhanced Content Delivery Work Package 2.1. Web Mining Responsabile: Dott. Salvatore Ruggieri Unità coinvolte: Dipartimento di Informatica, ISTI-CNR, Ideare SpA, ISI-CNR, FST s.r.l. 2.1.1 Stato dell’arte Il Web mining studia l’uso delle tecniche di data mining per l’estrazione di informazione – knowledge discovery – dai documenti e servizi Web. Se in generale il data mining affronta il problema di scoprire regolarità nascoste nei dati [F96, IM96, HK00], il Web Mining affronta il problema di individuare regolarità nella struttura e nel contenuto delle risorse Web, e nei pattern di accesso alle risorse Web [KB00, E96]. La conoscenza estratta può essere impiegata per rispondere ai problemi di accesso ed indicizzazione del Web. Il Web mining può essere suddiviso in tre principali categorie: Web Mining Web Content Mining Web Page Content Mining Web Structure Mining Web Usage Mining General Access Pattern Tracking Search Result Mining Customized Usage Tracking 1. Structure mining: è mirato ad estrarre informazioni dalla topologia di interconnessione fra le pagine Web. Tali informazioni sono utilizzabili per diversi scopi: categorizzare i siti, scoprire relazioni di similarità fra i siti, valutare la rilevanza delle pagine. I modelli sono costruiti analizzando i riferimenti ipertestuali, il grafo di connettività del Web che essi formano e le altre informazioni strutturali contenute nei documenti HTML o XML. 2. Content mining: mira ad estrarre informazione dal contenuto delle risorse Web [KB00]. Le tecniche di mining possono essere applicate a dati di natura diversa: testuali, semistrutturati (HTML, XML), strutturati (tabelle relazionali, biblioteche digitali), dinamici (risultati di query a basi di dati). Le interazioni con le tecniche di Information Retrieval sono strette. I modelli estratti sono utilizzati ad esempio per classificare o categorizzare le pagine web, per estrarre keyword o sequenze frequenti di keyword, per inferire lo schema concettuale di una collezione di dati semi-strutturati, per costruire viste a livelli multipli di porzioni del Web. Alcune direzioni di ricerca promettenti consistono nei Web query system che impiegano l’informazione strutturale sui documenti web per il trattamento di query di ricerca complesse, negli intelligent search agent che operano per determinati profili utente sulla base di conoscenza di dominio, nell’analisi del risultato dei motori di ricerca (mining what Web search engine finds). 3. Usage mining: mira ad estrarre informazioni relative all’uso delle risorse Web, a partire dai dati di log generati dalle interazioni degli utenti con il Web. Tali dati generalmente derivano da log di web server e di proxy servers, ma anche da log di browser, cookies, profili utente, dati di registrazione a servizi Web, sessioni utente, interrogazioni utente, 29 Fondo Speciale Innovazione bookmarks. L’analisi dell’uso del Web può essere applicata alla definizione di strategie intelligenti di caching e prefetching di risorse Web presso proxy o web servers, all’identificazione di utenti e sessioni utente, alla ristrutturazione automatica di siti Web (adaptive web sites), ai sistemi di raccomandazione e di gestione della clientela nell’ebusiness [PE97, Z98, S97]. L’analisi del traffico Web viene invece utilizzata per migliorare i flussi e determinare la migliore dislocazione dei server di replicazione [Akamai]. Lo structure mining ha già oggi alcune applicazioni significative nell’ambito dei motori di ricerca su Web: il page ranking e la classificazione. Page Ranking Tra le tecniche di analisi di dati utilizzate per individuare o misurare l’autorevolezza delle pagine Web, citiamo: 1. metodo di Page-rank [Bri 98] usato da Google per misurare l’importanza delle pagine, basato su un modello statistico di “random browsing” 11. metodo hub/authority [K98] basato sull’individuazione di hub (pagine con numerosi link verso altre pagine su uno stesso argomento) e authority (pagine riferite da numerose altre pagine). Hub e authority esibiscono una relazione di mutuo rinforzo. [k98] ha introdotto un metodo per l’individuazione del peso da assegnare a ciascun hub/authority basato sul calcolo iterativo degli autovalori della matrice di connettività del Web. La tecnica è usata nei sistemi HITS [K98] e Clever [C99]. Queste tecniche si sono dimostrate molto efficaci per migliorare la qualità e la rilevanza dei risultati di interrogazioni ai motori di ricerca. Recentemente [LM00] ha sviluppato un modello stocastico di analisi della struttura dei link, che sussume il metodo di Kleinberg. Applicando il teorema ergodico ed altre proprietà dei processi stocastici descritti con catene di Markov, [LM00] dimostra che i vettori di autovalori a cui il processo converge sono banalmente costituiti dal numero di link entranti/uscenti in una pagina. Questo risultato indica che le tecniche di Web mining sono appena agli albori e molto resta da fare in questo settore. Non va dimenticato che la qualità del metodo dipende fortemente dalla possibilità di individuare gruppi di pagine riguardanti uno stesso argomento. In questo aspetto hanno fondamentale importanza le tecniche di categorizzazione automatica. Classificazione dei documenti Le tecniche tradizionali usate in Information Retrieval per categorizzare documenti si basano sull’analisi del contenuto dei documenti, applicando metodi di valutazione statistica della misura di distanza tra due documenti o tra un documento ed un profilo o prototipo di una categoria. Recentemente il gruppo di Pisa ha sviluppato una nuova tecnica di analisi del contesto [A98] che è stata applicata inizialmente alla classificazione di documenti, dove si è dimostrata più accurata ed efficace della tecnica tradizionale di classificazione per contenuto, specialmente nell’ambito del Web, dove i documenti hanno poca omogeneità e dove invece è possibile sfruttare l’organizzazione ipertestuale. La tecnica di analisi dei contesti viene attualmente utilizzata con notevole successo nella costruzione di cataloghi Web, di raccolte specializzate (MP3, immagini, etc.) nei servizi realizzati da Ideare SpA (www.ideare.it). 30 Enhanced Content Delivery Il Web usage mining ha applicazioni significative nell’ambito della gestione dei siti Web, che variano dalla ristrutturazione adattiva fino all’ottimizzazione del traffico. Il Pisa KDD Laboratory (CNR-ISTI, Università di Pisa) ha sviluppato un sistema di Web caching intelligente, che può essere applicato anche al caching delle query dei motori di ricerca. Intelligent Web Caching Il Pisa KDD Laboratory ha sviluppato algoritmi di Web caching che impiegano modelli predittivi degli accessi al Web; l’idea è quella di estendere la politica LRU (last recently used) dei Web e Proxy servers rendendola sensibile ai modelli di accesso ai Web estratti dai dati di log mediante tecniche di analisi di data mining [G00, KDD00]. Si studiano due approcci: uno basato su regole di associazione e l’altro su alberi di decisione. I risultati sperimentali dei nuovi algoritmi mostrano miglioramenti sostanziali rispetto alle tecniche tradizionali di caching, in termini di documenti Web direttamente rinvenuti nella cache (hit rate). È stato sviluppato un prototipo che supporta il warehousing dei dati di Web log, l’estrazione di modelli di data mining e la simulazione degli algoritmi di Web caching, facendo riferimento a una architettura che integra i vari passi del processo di KDD. 2.1.2 Obiettivi Strategici Il contesto presentato nelle precedenti sezioni dà una idea del notevole interesse che il Web Mining sta suscitando, sia dal punto di vista della ricerca che dal punto di vista industriale. I miglioramenti e le proposte che derivano dalla ricerca sono recepite con una velocità impressionante dai prodotti commerciali. Un percorso di ricerca in questo ambito deve quindi tenere conto sia dell’interesse nel miglioramento della tecnologia attuale, ma deve anche avere una visione più a lunga scadenza. In questo progetto gli obiettivi strategici che si intendono perseguire sono: 1. in riferimento al ruolo crescente che XML giocherà nella gestione dell’informazione su Web, si studierà come estendere le analisi di Web mining a collezioni di documenti XML al fine di sfruttare la maggiore informazione semantica resa disponibile; 2. la possibilità di esprimere query complesse di ricerca sul Web presuppone di estrarre unavisione omogenea del Web, che sopperisca alla sua mancanza di struttura uniforme: si studierà una visione del Web come un database a strati multipli, che riassume il contenuto, la struttura, i link e gli accessi al Web e che evolve con lo stesso, ottenuto mediante analisi di data mining sui risultati dell’attività di spidering dei motori di ricerca (esplorazione della rete e raccolta di informazioni). 3. il processo di estrazione della conoscenza e il suo impiego nella costruzione di applicazioni complesse richiede una delicata opera di verticalizzazione che coinvolge tutte le fasi del processo (datawarehoising, preprocessing, data mining, valutazine ed uso dei modelli estratti): si definirà un ambiente di sviluppo per applicazioni di webmining adattando il processo di estrazione della conoscenza alle caratteristiche dell’informazione Web. Un breve approfondimento dei tre punti menzionati è riportato di seguito al fine di chiarire gli obiettivi strategici del progetto. Il ruolo di XML XML rappresenta una direzione promettente verso un Web più strutturato e verso Webserver basati su DBMS. Con la notazione XML si possono infatti esprimere documenti semistrutturati, composti da una struttura che dà forma alle parti di testo. Ciò consentirà di trasformare il Web in una cospicua raccolta di documenti semistrutturati su cui saranno possibili interrogazioni più articolate della semplice ricerca per chiavi, del tipo: “Cerca il 31 Fondo Speciale Innovazione biglietto aereo più economico tra Pisa e NewYork”, “Costruisci l’elenco degli impieghi con salario > 100 milioni nell’area di Milano”. La notazione XML si basa sull’uso di tag definibili dall’utente, oltre a quelli predefiniti di HTML, e utilizzabili per strutturare i documenti e arricchirli con annotazioni semantiche. La figura seguente mostra la diversa ricchezza di informazione dei due formalismi in un semplice esempio relativo a dati personali. HTML <b>First Name:</b> Serge<br> XML <person> <firstname> Serge </firstname> <lastname> Abiteboul </lastname> <email> [email protected] </email> </person> <b>Last name:</b> Abiteboul<br> <b>Email:</b> [email protected] <br> La struttura utilizzata in un documento XML può essere a sua volta descritta in notazione XML mediante gli XML Schema, che sostituiscono i precedenti Document Type Definitions (DTD). Per specificare come deve essere visualizzato un documento XML si fa uso dello stylesheet language (XSL), che comprende un linguaggio per esprimere trasformazioni (XSTL) e un insieme di costrutti di formattazione. Ciò consente ad esempio di trasformare documento XML in uno HTML visualizzabile mediante un normale browser. XML apre nuove opportunità di Web Mining, in quanto sarà possibile combinare nella ricerca di regolarità e pattern significativi sia informazione che metainformazione. Una visione multi-strato del Web La possibilità di query complesse di ricerca sul Web presuppone di estrarre una visione omogenea del Web, che sopperisca alla sua mancanza di struttura uniforme. [ZH98] suggerisce una visione del Web come un database a strati multipli, che ne riassume i contenuti e la struttura ed evolve esso stesso con il Web. Il livello 0 di tale database coincide con il Web; il livello 1 contiene una entry per ogni risorsa Web ritenuta importante, con l’indicazione della URL, del tempo, della classe e delle keywords, della popolarità, dei link, eccetera; i livelli successivi sono ottenuti per astrazioni dei livelli più bassi mediante tecniche di mining (sommarizzazione, classificazione, clustering). L’architettura a livelli multipli dovrà poter essere aggiornata in modo incrementale; la sua funzione preminente sarà quella di separare i dati dai meta dati, e di fornire una indicizzazione semantica delle risorse Web. Le interrogazioni complesse o le analisi di data mining potranno essere eseguite direttamente sul database multi-strato, o comunque assistite da questo. 32 Enhanced Content Delivery Layern More Generalized Descriptions ... Layer1 Generalized Descriptions Layer0 Web Mining ed il Knowledge Discovery Process Il processo di estrazione della conoscenza (KDD process) è costituito da una serie di fasi che precedono e seguono il data mining, illustrate nella figura sottostante. Lo sviluppo di applicazioni complesse, dal market basket analysis alla fraud detection fino al Web mining, richiede la possibilità di verticalizzare tutte tali fasi adattandole ed integrandole dentro un decision support system, oppure un sistema di Web caching, un motore di ricerca o un portale per commercio elettronico [G99]. Il Pisa KDD Laboratory ha sviluppato un ambiente a supporto del processo di data mining in cui i risultati intermedi, gli input e gli output agli algoritmi di data mining, le azioni di manipolazione dei dati e lo stesso query language sono rappresentati in notazione XML. Il sistema così concepito presenta da un lato l’interoperabilità tra vari tool di data mining, nonché la possibilità di esprimere la loro composizione e dall'altro è predisposto all'applicazione degli stessi strumenti su dati codificati in XML [T00]. Tale ambiente può costituire una base di partenza per questo obiettivo del progetto. 33 Fondo Speciale Innovazione 2.1.3 Approccio ed obiettivi specifici Nel progetto si intendono superare le limitazioni della tecnologia attuale di ricerca ed accesso al Web adottando soluzioni che sfruttino XML e l’approccio meta-web. Il primo obiettivo è il potenziamento degli attuali strumenti di Search Engine con strumenti di mining al fine di migliorare la qualità delle risposte e la copertura del Web. I temi principali sono i seguenti: 1. definizione di algoritmi di ranking sensibili al risultato di mining sul contenuto e sulla struttura dei documenti raccolti nella fase di spidering; 2. classificazione intelligente di documenti Web; 3. riconoscimento di siti autorevoli e clustering di pagine Web;analisi dei log dei search engine per il caching intelligente dei risultati di query frequenti; 5. analisi dei log dei proxy e web server per il tracking delle sessioni e dei profili utente con finalità che variano dal caching intelligente, al prefetching, alla ristrutturazione dei siti e dei servizi web, fino al supporto dell’e-business. Gli obiettivi intermedi e di più lunga portata sono i seguenti: 1. Mining di struttura e di contenuto su collezioni di documenti XML: si intende sfruttare la natura semi-strutturata e la meta informazione per definire metodi di estrazione della conoscenza mirati alla classificazione ed al ranking automatico di documenti XML. 2. Ambiente per lo sviluppo di applicazioni verticali di data mining all’accesso e recupero intelligente di informazioni su Web: tale ambiente dovrà integrare un repertorio di strumenti ed algoritmi di analisi specializzati allo sviluppo di modelli di analisi del contenuto, della struttura e dell’uso del Web, e permettere l’uso di tali modelli ai fini della prototipizzazione e dello sviluppo di motori di ricerca intelligenti. Deliverables: Algoritmi per analisi di Web mining: implementazione, verifica sperimentale delle prestazioni, ed eventuali brevetti industriali Disegno e prototipo preindustriale di un motore di ricerca basato su tecniche di Web mining e relativa verifica sperimentale dell’efficacia. Prototipo di una architettura di meta-web basata su analisi di data mining di documenti XML. Implementazione di un ambiente di sviluppo per applicazioni di Web mining basato su XML. Documentazione tecnica e scientifica Riferimenti [Akamai] http://www.akamai.com. [A98] G. Attardi, et al. Categorization by context. Proc. WebNet Conference, 1998. [BP98] S. Brin, L.Page. The anatomy of a large scale hypertextual Web search engine. In Proc. 7th Int. World Wide Web Conf., Brisbane, 1998. [BR97] D. Backman, J. Rubbin. Web log analysis: Finding a recipe for success. http://techweb.comp.com/nc/811/811cn2.html. 1997. [C99] S. Chakrabarti et al. Mining the link structure of the world wide web. IEEE Computer, 39(8):60-67, 1999. 34 Enhanced Content Delivery [E96] O. Etzioni. The world-wide web: quagmire or gold mine? Communications of the ACM, 39:65-68, 1996. [F96] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. [G99] F. Giannotti, G. Manco, D. Pedreschi, F. Turini. Experiences with a logic-based knowledge discovery support environment. In Proc. 1999 ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (SIGMOD'99 DMKD). ACM Press, May 1999. [G00] F. Giannotti et al.. Data Mining techniques for Intelligent Web Caching. Rapporto Tecnico del progetto MineFaST, Luglio 2000. [HK00] J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. [K98] J. M. Kleinberg. Authoritative sources in a hyperlinked environment. In Proc. ACM-SIAM Symp. on Discrete Algorithms, pp. 668-677, 1998. [KB00] R. Kosala, H. Blockeel. Web mining research: a survey. SIGKDD Explorations, Newsletter of the ACM SIGKDD – Special Interest Group on Knowledge Discovery and Data Mining, 2(1):1-15, 2000. [KDD00] Pisa Kdd Lab. Web Log Data Warehousing and Mining for Intelligent Web Caching. Data and Knowledge Engineering, 2000. Submitted. [IM96] T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, 1996. [LM00] R. Lempel and S. Moran. The stochastic approach for link-structure analysis (SALSA) and the TKC effect. (in press), 2000. [PE97] M. Perkowitz and O. Etzioni. Adaptive sites: Automatically learning from user access patterns. In Proc. 6th Int. World Wide Web Conf., Santa Clara, California, April 1997. [S97] T. Sullivan. Reading reader reaction : A proposal for inferential analysis of web server log files. In Proc. 3rd Conf. Human Factors & the Web, Denver, Colorado, June 1997. [ZH98] O. Zaiane, J. Han. WebML: querying the world wide web for resources and knowledge. In Proc. ACM CIKM’98 Workshop on Web Information and Data Management WIDM’98, p. 9-12, 1998. [ZX98] O. R. Zaiane, M. Xin, and J. Han. Discovering Web access patterns and trends by applying OLAP and data mining technology on Web logs. In Proc. Advances in Digital Libraries Conf. (ADL'98), pages 19-29, Santa Barbara, CA, April 1998. 2.1.4 Unità coinvolte Dipartimento di Informatica, Pisa IST-CNR, Pisa ISI-CNR, Cosenza FST s.r.l., Cagliari Ideare SpA, Pisa 35 Fondo Speciale Innovazione Work Package 2.2. Indicizzazione e compressione Responsabile: prof. Paolo Ferragina Unità coinvolte: Dipartimento di Informatica, Ideare SpA 2.2.1 Stato dell’arte Lo sviluppo di strutture dati e algoritmi efficienti per problemi di ricerca su grosse quantità di dati testuali riveste oggi un ruolo strategico determinante [BR97, WBM99] per diverse ragioni: l’aumento del gap tra le prestazioni dei processori e le velocità di accesso alle memorie, la crescita esponenziale dei documenti reperibili in forma elettronica, che sorpassa la pur non indifferente crescita della capacità di memoria (centrale e di massa) dei computer attuali. L’efficienza delle soluzioni riguarda non soltanto i tempi di risposta alle query poste dall'utente, ma anche lo spazio occupato dalle strutture dati utilizzate [M99]. Per realizzare strutture dati per l'indicizzazione si seguono principalmente due approcci: indici basati sulle parole (word-based) oppure indici basati sul testo completo (full-text). I primi permettono di ridurre lo spazio al prezzo di poter cercare efficientemente solo parole o prefissi di parole; i secondi possono coniugare versatilità e buone prestazioni al prezzo però di una grande occupazione di memoria [BR99, WMB99]. Alcuni progressi sugli indici full-text sono stati ottenuti recentemente, ma le strutture dati proposte occupano uno spazio che risulta asintoticamente lineare nella dimensione dei testi indicizzati. Ciò rende attraenti gli indici word-based quando lo spazio risulta la risorsa primaria da minimizzare e le query sono principalmente word-oriented. Questo è il tipico scenario che si incontra nello sviluppo di motori di ricerca per grandi collezioni di dati testuali e per il Web. 2.2.2 Obiettivi strategici La compressione può giocare un ruolo importante in questo ambito avendo benefici effetti collaterali non limitati al risparmio in spazio: anche il tempo di accesso alle strutture dati può essere ridotto in quanto minore è la quantità di dati da trasferire o minore è lo spazio disco da percorrere [K98]. Per questo motivo, gli approcci che tendono a combinare indicizzazione e compressione stanno ricevendo attualmente sempre più attenzione. Diverse pubblicazioni recenti [BR99,WMB99] danno ampio spazio alle tecniche di compressione e a come queste possano contribuire al miglioramento delle prestazioni degli indici, sia word-based che fulltext. Comunque, questi risultati sono basati essenzialmente su euristiche che ottengono trade-off sperimentali tra occupazione in spazio ed efficienza della ricerca (vedere ad es. [Glimpse]). Per cui la loro efficienza dipende da numerosi fattori, quali la struttura dei testi da indicizzare, la loro dimensione, il tipo di query da supportare, ecc.. L’obiettivo della nostra ricerca dunque è quello di sviluppare nuove tecniche di compressione e indicizzazione che superino le limitazioni degli approcci noti in letteratura, offrendo la maggiore flessibilità e robustezza possibile. Flessibilità, in quanto, si vorrebbe poter indicizzare collezioni di testi anche molto diverse tra loro usando lo stesso tipo di indice e la stessa tecnica di compressione, senza il bisogno di dover studiare ogni volta delle tecniche ad-hoc. Robustezza, in quanto, si vorrebbe poter quantificare matematicamente la bontà di questo indice utilizzando misure oggettive quali l’entropia della collezione di testi (per la valutazione dello spazio) e la complessità in tempo al caso pessimo (per la valutazione delle prestazioni nelle query). 36 Enhanced Content Delivery 2.2.3 Approccio e obiettivi specifici Il punto di partenza della nostra indagine è costituito da alcuni recenti risultati nel campo della compressione dati [BW94, M99, S99]. Questi si fondano su una nuova tecnica sviluppata da Burrows-Wheeler [BW94], che trasforma il testo in input in modo da renderlo maggiormente comprimibile. Le prestazioni degli algoritmi basati su questa tecnica sono sperimentalmente migliori di strumenti noti quali gzip, pkzip, ecc. (si veda [S97, WMB99] per un confronto). In un lavoro recente [FM00] abbiamo dimostrato che è possibile utilizzare la trasformazione di Burrows-Wheeler per il progetto di un indice compresso che non richiede la decompressione completa all'atto della ricerca. In questo lavoro è stata introdotta la prima struttura dati che trae vantaggio dalla comprimibilità dei testi per ridurre lo spazio occupato, senza però pregiudicare in alcun modo l'efficienza delle ricerche eseguibili su di essa. Più precisamente lo spazio totale è funzione lineare dell'entropia dell'insieme dei dati indicizzato, e quindi risulta ottimo nel senso della teoria dell'informazione; inoltre, la complessità in tempo della query è del tutto paragonabile a quella ottenuta dai migliori indici full-text [BR99] sia per quanto concerne il conteggio delle occorrenze che il recupero delle stesse, se siamo in presenza di query selettive. In questo progetto ci proponiamo dunque di investigare sperimentalmente la bontà di questa soluzione, confrontandola con strumenti di compressione e ricerca noti, quali Zgrep, Bgrep, Suffix Array, ecc.. Inoltre, date le interessanti proprietà della struttura dati introdotta in [FM00], risulta a nostro avviso cruciale valutare la sua applicabilità al progetto di motori di ricerca sofisticati. In particolare questo indice potrebbe essere utilizzato come blocco di base nella realizzazione di un database compresso di pagine Web, in cui il motore di ricerca viene realizzato mediate un indice word-based. Questo DB potrebbe essere utilizzato per fornire una funzionalità molto interessante: la visualizzazione delle porzioni di pagine Web contenenti le occorrenze delle keyword cercate. (Il famoso motore Google offre questa funzionalità.) Le tecniche oggi adottate per garantire un accesso casuale alle informazioni contenute in DB compressi, non raggiungono delle buone percentuali di compressione poiché si basano sul metodo di Huffman [S97, WMB99]. La struttura dati in [FM00] potrebbe essere adottata invece per ottenere una compressione significativa del DB e per supportare il recupero efficiente delle pagine selezionate “a caso” dall’indice word-based come risultato di una query. Deliverables: Algoritmi e strutture dati per indicizzazione e ricerca su testi compressi Brevetto industriale sugli algoritmi suddetti Implementazione e verifica sperimentale delle prestazioni degli algoritmi Documentazione tecnica e scientifica 2.2.4 Unità coinvolte Dipartimento di Informatica, Pisa. Ideare SpA Riferimenti [BR99] R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval. ACM Press e Addison-Wesley, 1999. [BW94] M.Burrows,D.Wheeler. A block sorting lossless data compression algorithm. DEC TR 124, 1994. 37 Fondo Speciale Innovazione [FM00] P. Ferragina, G. Manzini. Opportunistic data structures with applications. IEEE Foundations of Computer Science (FOCS), 2000. [K98] D.E.Knuth. Sorting and Searching, vol.3, The Art of Computer Programming. Addison-Wesley 1998. [MM93] U. Manber, G. Myers. Suffix Arrays: A new method for on-line string searches. SIAM J. on Computing, 1993. [Glimpse] U.Manber, S.Wu. GLIMPSE: A tool to search through entire file systems. USENIX 1994. [Mu99] I.Munro. Succinct data structures. FST&TCS 1999. [M99] G. Manzini. An analysis of the Burrows-Wheeler transform. ACM-SIAM Symp. on Discrete Algorithms (SODA), 1999. [S99] K.Sadakane. A Modified Burrows-Wheeler Transformation for case-insensitive search with application to suffix array compression. IEEE Data Compression Conference, 1999. [S97] D. Salomon. Data Compression: the Complete Reference. Springer Verlag, 1997. [WMB99] I.Witten, A.Moffat, T.Bell. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann, 1999. 38 Enhanced Content Delivery Work Package 2.3. Managing Terabytes Responsabile: Dott. Raffaele Perego Unità coinvolte: ISTI-CNR, ISI-CNR, Ideare SpA 2.3.1 Stato dell’arte Sempre più spesso tecnologie parallele e distribuite vengono adottate nella ricerca, nell’estrazione e nel recupero delle informazioni, per far fronte alle accresciute dimensioni dei data warehouse delle aziende e delle amministrazioni pubbliche, e del materiale su Internet [WMB99, BYR99, HaK00]. Internet inoltre ha ampliato il numero degli utenti contemporanei ai servizi e pertanto rende necessario l’utilizzo di tecniche di High Performance Computing, quali: server farms, workload distribution, query optimizations, advanced storage solutions, etc. Poter indicizzare ed estrarre informazioni da collezioni di documenti ipertestuali, non strutturati o semi strutturati, di dimensioni anche superiori al Tera Byte, di contenuto eterogeneo ed altamente dinamico, con elevato numero di accessi, ha richiesto lo sviluppo di nuovi algoritmi/strutture dati ottimizzati nel settore sostanzialmente consolidato dell’Information Retrieval (IR) [BYR99, WMB99]. Ad esempio sono stati sviluppati nuovi criteri per il ranking dei documenti che tengono conto della natura ipertestuale dei documenti [BrP98], nuove tecniche di compressione degli indici full-text e dei documenti testuali [WMB99], indispensabili non solo per minimizzare l'occupazione di spazio disco ma anche per aumentare le prestazioni della fase di ricerca attraverso un migliore sfruttamento delle gerarchie di memoria delle moderne architetture, tecniche di distribuzione e parallelizzazione dell'intero ciclo "recupero-indicizzazione-ricerca", indispensabili per gestire in maniera ottimale in spazio e tempo enormi collezioni dinamiche di documenti e per garantire tempi di risposta brevi all’elevato numero di interrogazioni sottoposte ai Web Search Engine (WSE) [WMB99, BrP98]. Web Document downloading User queries Spider Searcher Raw data Indexes Indexer Figura 3. Schema a blocchi di un WSE La Figura 3 illustra lo schema a blocchi di un WSE tradizionale. I moduli Spider e Indexer si occupano, rispettivamente di effettuare il download dei file da Web e della loro indicizzazione. Il modulo Searcher si occupa di rispondere alle query degli utenti attraverso l’uso degli indici. 39 Fondo Speciale Innovazione La Figura 4 illustra lo schema generale di distribuzione del modulo Searcher di un WSE. Figura 4. Schema generale di un WSE distribuito (modulo Searcher). Per ottimizzare il recupero, la catalogazione, l'indicizzazione e la ricerca di documenti Web sono inoltre state recentemente utilizzate tecniche di Data Mining (DM) che appaiono molto promettenti [HaK00]. Tali tecniche possono essere applicate per estrarre conoscenza a partire da: contenuto delle pagine (Web content mining) struttura topologica del Web (Web structure mining) log di accesso al Web (Web usage mining). Il Web mining ha anche ricadute sull’efficienza dei motori di ricerca. Ad esempio, permette di ottimizzare lo spidering e il ranking dei documenti, nonché le politiche di caching e prefetching implementate all’interno dei WSE. Una problematica fondamentale nel campo del DM, e del Web mining in particolare, è sviluppare algoritmi e sistemi che scalano con l’aumento della dimensione e della complessità dei dati [FrL98]. A causa sia dell’enorme dimensione dei dati trattati, soprattutto per quanto concerne il Web, e sia dell’enorme carico computazionale connesso all’impiego di algoritmi di DM, il calcolo parallelo e distribuito è oggi considerato un componente essenziale per realizzare soluzioni efficaci e soddisfacenti. La Figura 5 mostra uno schema comune per la parallelizzazione di un algoritmo di DM applicato ad un dataset Web, e basato essenzialmente sul partizionamento dei dati. 40 Enhanced Content Delivery DM alg. Subset 1 Partial Knowledge Web Data Set combine DM alg. Subset n Global Knowledge Partial Knowledge Figura 5. Schema generale di parallelizzazione di un algoritmo di DM. Esperienze acquisite. I ricercatori che partecipano a questo WP hanno competenze significative e stratificate nel settore del calcolo ad alte prestazioni su piattaforme parallele e distribuite. Molte delle più recenti attività di ricerca rientrano nell’esperienza del Progetto PQE2000. Recentemente il gruppo ha concentrato l’attenzione sullo sfruttamento di architetture commodity non omogenee, come i cluster di multiprocessori (SMP), per affrontare problemi che sono caratterizzati non solo da elevate attività di calcolo, ma anche da input/output intensivo. A questo riguardo, Data Mining e Web Search Engine sono applicazioni chiave per le problematiche algoritmiche e architetturali che inducono. Nell’ambito di questi campi applicativi emergenti e della corrispondente domanda di soluzioni avanzate ad alte prestazioni si inquadrano le collaborazioni in atto con il Dipartimento di Informatica dell’Università di Pisa, e con la società Ideare S.p.A. di Pisa. 2.3.2 Obiettivi Strategici I principali obiettivi strategici di ricerca rilevanti per questo WP sono i seguenti: Modelli di IR per il Web: È necessario sviluppare modelli di IR specifici per il Web. Accanto al più tradizionale modello centralizzato che implica la raccolta delle informazioni per la loro indicizzazione e ricerca, molto interessante sembra l’adozione di modelli decentralizzati su cui si basano ad esempio i servizi di partecipatory search, oggetto del WP 2.4 di questo progetto. I due approcci possono anche essere combinati per garantire maggiore precisione nelle ricerche e maggiore scalabilità dell’approccio. Si tende inoltre a ridurre il dominio dei dati utilizzando ad esempio WSE specializzati (per tipo e/o contenuto dei documenti) o regionali che grazie alla maggiore omogeneità dei documenti indicizzati permettono presumibilmente di ottenere risposte di maggior rilevanza. Interrogazione. L’uso di XML dovrebbe permettere una migliore efficienza dei motori di ricerca, permettendo di porre interrogazioni non solo basate sul contenuto ma anche sulla struttura, permettendo anche query by example. Questo implica clustering e classificazione dei documenti, oggetto del WP 2.1 su Web mining. Tecniche di indicizzazione. Alcuni dei problemi ancora aperti riguardano le migliori tecniche di compressione di testi, URL e termini da adottare nel progetto del WSE (oggetto del WP 2.2 di questo progetto), e le migliori scelte relative al tipo ed alla quantità di informazioni su cui costruire gli indici. Le scelte fatte a questo riguardo hanno un enorme impatto sulla grandezza e sul formato degli indici e, di conseguenza, sugli algoritmi e sulle strutture dati necessarie a garantire scalabilità e bassi tempi di risposta alle interrogazioni. WSE scalabile. La crescita esponenziale dei documenti presenti nel Web comporta la necessità di individuare soluzioni altamente scalabili ed efficienti per la realizzazione dei 41 Fondo Speciale Innovazione WSE. Questo è particolarmente vero se viene adottato un modello di IR che prevede la raccolta centralizzata delle informazioni per l’indicizzazione e la ricerca. Oltre alla riduzione della latenza delle fasi di recupero ed indicizzazione dei documenti tramite parallelizzazione e distribuzione, il sistema di gestione delle interrogazioni deve essere altamente distribuito in modo da garantire espandibilità, affidabilità e soprattutto throughput elevato. Web mining scalabile. Il Web mining si riferisce all’intero processo di estrazione di pattern e modelli utili da grandi collezioni di dati provenienti dal Web. Sono già state riconosciuto le ricadute positive che tali tecniche possono avere sulla realizzazione di WSE efficienti. Ad esempio, è possibile ottimizzare lo spidering e il ranking dei documenti, nonché le politiche di caching e prefetching implementate all’interno dei WSE. Anche a questo riguardo, il calcolo parallelo e distribuito è oggi considerato un componente essenziale per realizzare soluzioni efficaci e soddisfacenti per il DM. Hardware scalabile. Il trend a questo proposito riguarda l’uso di architetture parallele / distribuite basate su componenti off-the-shelf. Ad esempio, l’impiego di COW con reti specializzate ad alta banda e bassa latenza sembra garantire scalabilità grazie soprattutto all’architettura altamente distribuita (distribuzione dei processori, della memoria, e dell’I/O). Interessanti sembrano essere alcuni componenti specializzati di memoria secondaria che permettono la condivisione efficiente e scalabile di dati di grande dimensione su reti di calcolatori. 2.3.3 Approccio ed obiettivi specifici I problemi legati all'IR ed al DM su grandi collezioni di dati richiedono algoritmi scalabili che non solo siano efficienti dal punto di vista computazionale, sfruttino la località dove possibile e riducano la dimensione dei dati trattati tramite compressione, ma che anche: impieghino al meglio i meccanismi e le politiche implementate dai moderni sistemi operativi delle architetture "commodity" ad alte prestazioni; siano scalabili, ovvero siano progettate sfruttando tecniche out-of-core e tecniche di parallelizzazione e distribuzione. Lo scopo è quello di poter trattare, incrementando se possibile le prestazioni globali del sistema, collezioni di dati con dimensioni sempre più grandi. Gli obiettivi di ricerca del WP 2.3 in questo progetto riguardano soprattutto i due ultimi punti. In particolare, il WP si occuperà sia della scelta dei testbed per le valutazioni sperimentali, e di tutte le problematiche relative alla realizzazione efficiente e scalabile di dimostratori di IR e DM per dati Web su architetture ad alte prestazioni. In base ai requisiti delle applicazioni, tecniche di parallelizzazione e distribuzione verranno usate sia per diminuire i tempi di risposta, sia per aumentare il troughput complessivo del sistema. Per raggiungere alte prestazioni e scalabilità delle soluzioni proposte, verranno considerati allo stesso tempo sia gli aspetti algoritmici e sia quelli sistemistici legati alla specifica architettura. È bene considerare che questo approccio vale non solo per le soluzioni parallele, ma anche per il core sequenziale delle applicazioni parallele stesse. Si pensi, a questo proposito, allo sfruttamento ottimale della specifica gerarchia di memoria grazie all’allocazione ottimale dei dati e alla località negli accessi [Vit99], allo sfruttamento di buffering, caching e prefetching di sistema per mascherare i ritardi dell’I/O, alla sovrapposizione di calcolo e comunicazione, al bilanciamento del carico in ambiente distribuito ed eterogeneo. La valutazione che riguarderà la scelta del testbed ad alte prestazioni per le applicazioni di IR e DM svilupate all’interno del progetto non potrà non tenere conto del trend, che già dai primi anni ’90, sta muovendo dai super-calcolatori costosi e specializzati verso i cosiddetti cluster di workstation (COW) commodity [Buy99] con interconnessioni ad alta velocità e miglior rapporto costo/prestazioni. Mentre i COW sono stati usati principalmente per applicazioni scientifiche, il loro basso costo e la loro scalabilità sono alla base delle molteplici opportunità di sfruttamento rispetto a nuovi domini applicativi [SSB99]. DM e IR sono tra 42 Enhanced Content Delivery questi nuovi domini, soprattutto quando ci si orienta, come in questo progetto, al trattamento di grandissime collezioni di dati come sono quelle provenienti dal Web. Le esigenze di parallelizzare gli algoritmi di DM per diminuirne i tempi di risposta sono ben noti [Ski99, FrL98]. L’approccio che verrà perseguito in questa ricerca riguarderà lo studio di nuovi algoritmi di DM che sfruttino tecniche implementative efficienti per ridurre l'impatto dell'I/O sulle prestazioni [GVW96], e che tengano conto delle nuove problematiche introdotte dallo sfruttamento di testbed paralleli commodity come i COW [BLO00]. Lo scopo finale sarà quello di costruire dimostratori di DM per dati Web a larga scala e paralleli in grado di manipolare sorgenti di dati di dimensioni fino ai Tera Byte. Gli obiettivi specifici riguarderanno in particolare la valutazione sperimentale: di tecniche di parallelizzazione ibrida, sfruttando meccanismi sia shared che distributed memory delle specifiche architetture target; di tecniche per migliorare la località tramite specifici data layout ed efficaci metodi di accesso ai dati; di tecniche per diminuire le sincronizzazioni e le comunicazioni; di tecniche per sovrapporre comunicazione e calcolo; di tecniche che migliorino l’impatto dell’I/O sfruttando prefetching e I/O parallelo; di tecniche di bilanciamento del carico. L’obiettivo finale è ottenere applicazioni parallele/distribuite di DM portabili, e che, grazie ad un elevato grado di configurabilità e dinamicità, siano in grado di adattare la propria configurazione in maniera semi-automatica all’ambiente distribuito per garantire affidabilità e buone prestazioni. Quest’ultima proprietà richiede che il software progettato usi a run-time informazioni di monitoring per controllare sia le prestazioni e sia possibili guasti, e adatti la propria configurazione in accordo alle misure effettuate. Il campo dell'IR parallelo/distribuito [Lu99, RNB98, Bro99, FGC99] ha alcuni punti in comune con la linea di ricerca su DM sopra illustrata, legati soprattutto alla necessità di trattare grandissime collezioni di dati e alle problematiche legate allo sfruttamento ottimale delle medesime architetture di testbed. Guardando all'architettura di un tipico Web Search Engine [BrP98], si scopre che le esigenze di parallelizzazione / distribuzione dei vari moduli che costituiscono un WSE sono sostanzialmente diverse tra loro, e in alcuni casi diverse da quelle delle applicazioni di DM. Schematizzando l'architettura di un WSE “tradizionale” nei moduli Spider, Indexer e Searcher, possiamo notare che l'implementazione parallela dei primi due moduli (Spider e Indexer) deve perseguire la riduzione della latenza delle due corrispondenti attività (visita del Web per il download dei documenti e indicizzazione delle collezioni). Lo scopo di un’implementazione distribuita dell'ultimo modulo (Searcher) è invece quello di aumentare il throughput globale del sistema, inteso come numero di interrogazioni servite per unità di tempo. Gli obiettivi specifici che verranno considerate in questo WP, e che abbiamo iniziato a investigare realizzando MOSE [Sil00], un WSE che comprende un Indexer e un Searcher parallelo, riguardano l’implementazione e la valutazione sperimentale: di diversi paradigmi di parallelizzazione/distribuzione su architetture SMP e COW; dell’utilizzo di tecniche di compressione per ridurre gli accessi ai dischi; di diversi schemi di condivisione dei dati; di diversi schemi di partizionamento degli indici (es. term vs. document partitioning); del bilanciamento del carico; di tecniche e meccanismi di comunicazione su rete; di tecniche di interfacciamento tra Searcher con l'http server; 43 Fondo Speciale Innovazione di tecniche di caching, eventualmente ottimizzate sulla base del Web usage, per ridurre la latenza delle singole interrogazioni; di tecniche per aumentare la tolleranza ai guasti e la modificabilità dell’architettura del WSE e delle su strutture dati. Anche in questo caso valgono le considerazioni precedenti sulle proprietà del sofware parallelo / distribuito progettato, ovvero portabilità, configurabilità, dinamicità, adattività e tolleranza ai guasti. Sinergie con gli altri WP. Il WP.2.1 studierà quali tecniche di Data Mining sono più appropriate per i problemi Web mining. Esso dovrà quindi fornire i casi di studio per i dimostratori di DM paralleli sviluppati nel WP.2.3. Molte delle tecniche studiate in WP.2.1, soprattutto quelli basati sugli studi sulla struttura del Web e sui profili utenti, saranno inoltre adottate per migliorare le prestazioni globali dei dimostratori di IR distribuiti (Web SE), per esempio per migliorare la qualità della ricerca intesa come rilevanza dei documenti estratti e per migliorare le politiche di caching. Le tecniche di compressione e indicizzazione full-text studiate nel WP.2.2 verranno inglobate nei dimostratori paralleli e distribuiti di DM e IR sviluppati nel WP.2.3. Infine, molte delle tecniche adottate nel WP.2.3 per realizzare un WSE distribuito di tipo “tradizionale” su un’architettura COW saranno opportunamente estese per realizzare servizi altamente distribuiti di partecipatory search come quelli studiati e definiti nel WP.2.4. Deliverables Rassegna tecnologia SAN e NetApp per scelta architettura di testbed Progettazione, implementazione e valutazione di dimostratori di Web Mining ottimizzati per il testbed Progettazione, implementazione e valutazione di dimostratori di WSE ottimizzati per il testbed Progettazione, implementazione e valutazione di un prototipo di WSE parallelo e distribuito ottimizzato per il testbed Documentazione tecnica e scientifica. 2.3.4 Unità coinvolte Dipartimento di Informatica, Pisa ISTI-CNR, Pisa ISI-CNR, Cosenza Ideare s.p.a, Pisa Riferimenti [BLO00] R. Baraglia, D. Laforenza, S. Orlando, P. Palmerini, R. Perego. Implementation issues in the design of I/O intensive data mining applications on clusters of workstations. Proc. of the 3rd IPDPD Workshop on High Performance Data Mining, Cancun, Mexico, LNCS 1800 Spinger-Verlag, pp. 350-357, 2000. [Bro99] E. Brown. Parallel and Distributed IR. In Modern Information Retrieval, R. Baeza-Yates and B. Ribeiro-Neto eds., Addison-Wesley, pp. 229-256, 1999. [BrP98] S. Brin, L. Page. The anatomy of a large-scale hypertextual web search engine. In WWW7 / Computer Networks, Vol. 1-7, pp. 107-117, April 1998. [Buy99] Rajkumar Buyya ed. High Performance Cluster Computing. Prentice Hall, 1999. 44 Enhanced Content Delivery [BYR99] R. Baeza-Yates and B. Ribeiro-Neto eds. Modern Information Retrieval. Addison-Wesley, 1999. [FGC99] O. Frieder, D. Grossman, A. Chowdhury, G. Frieder, Efficiency Considerations for Scalable Information Retrieval Servers. Journal of Digital Information, Vol. 1, No. 5, December 1999. [FrL98] A. A. Freitas, S. H. Lavington. Mining Very Large Databases with Parallel Processing. Kluwer Academin Publishers, 1998. [GVW96] G. A. Gibson, J. S. Vitter, J. Wilkes. Strategic Directions in Storage I/O Issues in Large-Scale Computing, ACM Computing Surveys. Vol. 28, No. 4, pp. 779-793, December 1996. [HaK00] J. Han, M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann, August 2000. [Knu98] D. E. Knuth. Sorting and Searching. Vol. 3. The Art of Computer Programming. Addison-Wesley 1998. [Lu99] Z. Lu. Scalable Distributed Architectures for Information. Retrieval. PhD thesis, University of Massachussets Amherst, 1999. [RNB98] B. Ribeiro-Neto, R. Barbosa. Query Performance for tightly coupled distributed digital libraries. Proc. of ACM Int. Conf. on Digital Libraries. Pittsburgh, PA, pp.182-190, 1998. [Sil00] F. Silvestri. Progettazione di un Motore di Ricerca Distribuito per Web. Tesi di Laurea del Corso di Laurea in Informatica dell'Università di Pisa, A.A. 1999-2000, Ott. 2000. [Ski99] D. Skillicorn. Strategies for Parallel Data Mining. IEEE Concurrency, Vol. 7, No. 4, 1999. [SSB99] T. L. Sterling, J. Salmon, D. J. Becker, D. F. Savarese. How to Build a Beowulf. A guide to the Implementation and Application of PC Clusters. The MIT Press, 1999. [Vit99] J. S. Vitter. External Memory Algorithms and Data Structures. In External Memory Algorithms (DIMACS Series on Discrete Mathematics and Theoretical Computer Science. J. Abello and J. S. Bitter eds., American Mathematical Society, 1999. [WMB99] I. Witten, A. Moffat, T. Bell Managing Gigabytes: Compressing and Indexing Documents and Images Morgan Kaufmann, 1999. 45 Fondo Speciale Innovazione Work Package 2.4. Participatory Search Services Responsabile: prof. Maria Simi Unità coinvolte: Dipartimento di Informatica, Ideare SpA 2.4.1 Stato dell’arte Gli attuali servizi di motori di ricca vengono svolti in maniera centralizzata: numerosi spider robot girano per il Web e raccolgono in un’unica locazione tutte le pagine Web che riescono ad individuare. Di queste pagine vengono costruiti degli indici e viene fornito un servizio di interrogazione su tali indici che consente di selezionare i documenti con specifiche caratteristiche. Generalmente l’interrogazione è basata su parole chiave, combinate con operatori booleani. Il vantaggio della centralizzazione è la semplicità di amministrazione, al costo di un notevole accumulo di spazio disco per gli indici (oltre 1 TeraByte per 500 milioni di pagine) e di risorse di elaborazione per rispondere ad un numero elevato di interrogazioni al secondo (50 milioni al secondo su Altavista, 300 mila al giorno su Janas, http://janas.tiscalinet.it, in Italia). Il vantaggio per gli utenti è che non debbono far nulla affinché le loro pagine appaiano nell’indice di un motore di ricerca. L’approccio ha lo svantaggio che richiede il trasferimento di tutte le pagine in una locazione centrale: un’attività che deve venire svolta in continuazione per mantenere gli indici aggiornati. Un altro serio limite delle attuali tecnologie di ricerca consiste nel fatto che quantità sempre maggiori di informazioni sono rese disponibili sul Web non tramite pagine HTML statiche, ma tramite pagine dinamiche il cui contenuto viene prodotto a richiesta dal Web server, accedendo ad informazioni memorizzate altrove, tipicamente in un database. Un approccio alla condivisione di informazioni che ha riscosso notevole successo nel settore multimediale e in particolare per la musica in formato MP3 è il servizio Napster. Napster (www.napster.com) costruisce un indice centralizzato dei file MP3 che ciascun utente mette a disposizione sulla propria macchina, e fornisce un apposito browser che consente agli utenti di accedere a tale indice, di scambiarsi il materiale tra di loro, di organizzare il proprio materiale, di discutere con altri utenti e di scoprire materiale nuovo o affine ai propri di interessi. Al di là delle questioni legali legate al diritto di autore coinvolte nella copiatura del materiale, il successo di Napster indica l’interesse degli utenti per un servizio di ricerca e di accesso a materiale di loro scelta. Qualcuno intravede la nascita di un servizio ‘Bookster’ che consenta un simile scambio di libri in formato digitale. Un’alternativa rispetto ai servizi di indicizzazione e ricerca centralizzati consiste in servizi partecipativi, simili a Gnutella. Gnutella (www.gnutella.co.uk) è un protocollo che consente agli utenti che dispongono di un Gnutella client di distribuire file. Gnutella non è centralizzato, pertanto non esiste un singolo computer responsabile di mantenere in servizio l’intera rete. Per quanto riguarda il software di indicizzazione, oltre ai classici prodotti commerciali di Information Retrieval, quali Fulcrum e Verity, esistono alcuni sistemi Open Source, tra cui: 1. Ht://dig (www.htdig.org) 2. Swish-E (http://sunsite.berkeley.edu/SWISH-E) 3. Swish++ (http://www.best.com/~pjl/software/swish) Si tratta di strumenti relativamente semplici utilizzati principalmente per realizzare servizi di ricerca interni ad un sito Web, ma non particolarmente ottimizzati per ricerche efficienti o su grande moli di documenti. 46 Enhanced Content Delivery Attualmente sono in corso alcuni progetti Open Source per sviluppare strumenti di ricerca basati su tecnologie ad oggetti e tecniche di compressione moderne. In particolare citiamo il progetto Open Muscat (http://open.muscat.com) della Dialog Corporation (www.dialog.com) e Mifluz (http://www.senga.org/mifluz/html) di Senga in collaborazione col gruppo Ht://dig. Mifluz intende sviluppare una libreria C++ per costruire ed interrogare un indice invertito full text. Si tratta di un indice aggiornabile dinamicamente, scalabile (fino a indici di 1 TeraByte), che usa una quantità controllata di memoria, condividendo i file di indice e le cache di memoria tra processi o thread e comprimendo gli indici fino al 50% degli originali. La struttura dell’indice è configurabile a run-time e consente di includere informazione di relevance ranking. Sia Open Muscat che Mifluz sono tuttora in fase di sviluppo. Le prove di prestazioni effettuate al Dipartimento di Informatica hanno dato risultati piuttosto deludenti e decisamente inferiori a quelli ottenuti dai prototipi di motori di ricerca sviluppati nelle collaborazioni tra CNUCE, Ideare e Dipartimento di Informatica. Questo fa ritenere che ci sia spazio per un nuovo strumento con un’architettura ad oggetti flessibile e con elevate prestazioni ottenute mediante gli algoritmi più recenti di indicizzazione e compressione in corso di sviluppo presso il Dipartimento di Informatica di Pisa. 2.4.2 Obiettivi Strategici Si intende sviluppare un protocollo e dei programmi client e server che consentano alle persone di condividere indici del proprio materiale a disposizione del pubblico. Invece di scambiare il contenuto dei singoli documenti, tali programmi si scambiano soltanto indici già costruiti dei documenti di ciascun sito, riducendo di almeno un ordine di grandezza il traffico via rete. Il programma client sarà reso disponibile sotto forma di codice Open Source, e sarà in grado di indicizzare documenti in formati diversi, dal testo, a HTML/XML, da PDF a documenti Office. Il programma client sarà inoltre configurabile per accedere direttamente a database locali contenenti i dati da mettere a pubblica disposizione. Le ricerche di documenti verranno effettuate tramite lo stesso programma client, il quale interroga sia il proprio indice di documenti locali, sia indici provenienti da altri siti o dei server su cui siano stati raccolti gli indici provienti da numerosi siti. In sostanza, un singolo programma client consente a ciascun utente sia di indicizzare il proprio materiale che di interrogare indici, e quindi gli consente di entrare a far parte della rete di servizi di ricerca partecipativa. Il programma client comunicherà con gli altri client o con i server tramite il protocollo SOAP (Simple Object Application Protocol), un protocollo basato su XML per l’invocazione di metodi di oggetti remoti attraverso un’infrastruttura Web, che sfrutta unicamente il protocollo http standard. Il programma client sarà costruito come framework, ossia come una libreria di classi astratte, i cui metodi costituiscono le interfacce pubbliche applicative (API) e che possono venire estese sviluppando classi derivate per scopi più specifici. Per esempio, per consentire l’analisi di nuovi tipi di documenti, è sufficiente fornire una specializzazione della classe astratta DocumentReader. 47 Fondo Speciale Innovazione client Specialized Search Site client Web Search Service client Figure 1. Participatory Search Service Architecture Un programma client di ricerca gira su ciascuno dei nodi che partecipano al servizio, e si incarica di indicizzare il contenuto pubblicamente disponibile sulla macchina locale. Il programma client può essere adattato alle esigenze del proprietario del sito e si può adattare al profilo ed agli interessi del suo utente. Programmi client residenti su altre macchine, possono effettuare interrogazioni o trasmettendo il testo della query ad altri clienti partecipanti, o raccogliendo gli indici da questi stessi ed effettuando la ricerca in locale su tali indici. Servizi di ricerca specializzati a tematiche specifiche o a classi di materiali (MP3, News, ecc.) possono essere costruiti facilmente interfacciandosi con lo stesso client ad un insieme di indici raccolti preventivamente da un certo numero di siti rilevanti. 2.4.3 Approccio ed obiettivi specifici Verrà sviluppato un protocollo e un cliente Open Source per l’indicizzazione e lo scambio di indici di materiale digitale. Tale software verrà fornito in versione scaricabile ed auto-installante per diverse piattaforme (Windows, Linux, ecc.). Il software utilizzerà la tecnologia SOAP per l’invocazione delle procedure remote dei vari server, e farà quindi uso dell’infrastruttura standard Web, utilizzando protocollo http e XML, senza ricorrere a tecniche estranee al Web quali CORBA, DCOM o troppo specifiche come Java/RMI. Deliverables: Specifiche protocollo di scambio di indici ed interrogazioni Progetto e specifica di libreria di classi per indicizzazione e ricerca Plug-in di supporto per SOAP Implementazione di client di indicizzazione e ricerca: versioni Windows e Unix Implementazione di server ad alte prestazioni di indicizzazione e ricerca Documentazione tecnica e scientifica 2.4.4 Unità coinvolte Dipartimento di Informatica, Pisa Ideare SpA, Pisa Riferimenti [Gnutella] www.gnutella.co.uk 48 Enhanced Content Delivery [HtDig] www.htdig.org [Muscat] http://open.muscat.com [Mifluz] http://www.senga.org/mifluz/html [Swish-E] http://sunsite.berkeley.edu/SWISH-E [Swish++] http://www.best.com/~pjl/software/swish 49 Fondo Speciale Innovazione 3. Soggetti partecipanti Il progetto coinvolge un gruppo di specialisti in grado di coprire tutti gli aspetti necessary alla costruzione di una soluzione verticale di un sistema di prossima generazione per arricchire, indicizzare e fornire accesso a contenuti. Il progetto si basa su risultati ed esperienze di diversi progetti precedenti, tra cui: 3. European Telematics EUROSearch: Istituto di Elaborazione dell’Informazione, Dipartimento di Informatica, Ideare SpA 4. MURST Agenti Intelligenti: Information Acquisition: Dipartimento di Informatica, CNUCE 5. PQE2000 - Lotta Evasione, Dipartimento di Informatica, CNUCE-CNR 6. MineFaST: Dipartimento di Informatica, CNUCE-CNR ed FST Srl 7. MURST 99: “Algorithms for Large Data Sets: Science and Engineering”, Dipartimento di Informatica 4. MURST ex. 40% INTERDATA (Univ. Modena e Politecnico di Milano) 5. MURST ex. 40% DATAX (Politecnico di Milano) 6. Corporation Integrated Multimedia Intelligent Assistant for Field Operators, Esprit Project 20840 (Univ. Modena) 7. W3I3: Intelligent information interfaces for the World-Wide Web, Esprit Project 28771 (Politecnico di Milano) 8. IDEA: Intelligent Datatabase Environments for Advanced Applications, esprit Project P6333 (Politecnico di Milano) 9. “European CHronicles On-line - ECHO” - programma Europeo IST (CNR-ISTI) 10. “A Digital Library Testbed to Support Networked Scholarly Communities – SCHOLNET” - programma Europeo IST (CNR-ISTI) 11. “An Open Collaborative Virtual Archive Environment – CYCLADES” - programma Europeo IST (CNR-ISTI) 12. “Network of Excellence on Digital Libraries – DELOS” - programma Europeo IST (CNR-ISTI) I partecipanti hanno sviluppato tecnologie chiave per il progetto ed in particolare tecniche per: 8. Indexing and searching compressed texts, using opportunistic data structures [FM00] 9. automated categorization of Web documents, using the technique of categorization by context [AS98] 10. Data mining 11. Similarity based indexing and query processing 12. XML query language 13. Digital Library systems 14. Similarity based indexing and query processing 15. XML query languages 16. Hypertext annotations 50 Enhanced Content Delivery 17. XML schema ontologies Il progetto coinvolge infine aziende nazionali che operano a livello europeo nel settore di servizi di ricerca su Web (Ideare SpA), o nel settore dei servizi Web e Internet (Consiel SpA) o nell’outsourcing di servizi telematici (Fst SrL). Azione 1: BIBLIOTECHE Digitali XML coordinatore: dott. Fausto Rabitti, CNR-ISTI partecipanti: Unità Operativa CNR – ISTI 1 Unità Operativa Politecnico di Milano Unità Operativa Università di Roma 3 Unità Operativa Università di Modena e Reggio Emilia Unità Operativa Università di Padova Unità Associata Istituto Centrale del Catalogo Unico (ICCU) Unità Associata CONSIEL S.p.A. Azione 2: Mine the Web - Web search and delivery coordinatore: dott.ssa Fosca Giannotti, CNR-ISTI partecipanti: Unità Operativa CNR – ISTI Unità Operativa Università di Pisa – Dipartimento di Informatica Unità Operativa CNR – ISI Unità Operativa Ideare SpA Unità Operativa FST Srl-Fabbrica Servizi Telematici 51 Fondo Speciale Innovazione Unità Operativa 1.1 CNR – ISTI Responsabile Dr. Fausto Rabitti Descrizione dell'ente L’Istituto di Scienze e Tecnologie Informatiche (ISTI) è un nuovo istituto di ricerca del Consiglio Nazionale delle Ricerche (CNR) che nasce dalla fusione di altri due istituti del CNR: Istituto di Elaborazione delle Informazioni (IEI) e CNUCE. L’ISTI conduce ricerche nell’area dell’information technology, ed è coinvolto in diversi progetti nazionali, progetti ESPRIT nonché collabora con molteplici istituzioni internazionali scientifiche e di ricerca. Le attività di ricerca dell’Istituto afferiscono alle seguenti aree: Metodi e Strumenti per sistemi software, Elaborazione di Immagini e di Segnali, Architetture di Calcolatori, Ingegneria dell’Informazione, Computer Graphics, Sistemi di gestione di Dati Multimedia, Information Retrieval e Reti. L’ISTI è in istituto di ricerca senza scopo di lucro composto da 200 dipendenti coadiuvati da circa 300 collaboratori, studenti e dottorandi. Circa il 70% del budget totale annuale è finanziato da progetti e cooperazioni con industrie. L’Istituto è anche impegnato sia in alcuni settori della didattica dell’Università di Pisa e di altri atenei, sia nel trasferimento tecnologico verso l’industria. Attualmente l’Istituto è coinvolto in diverse collaborazioni con partner industriali nazionali e stranieri, in progetti finanziati della UE e da altre risorse; lo scopo è quello di promuovere e assistere la ricerca e lo sviluppo a tutti i livelli. Competenze relative al progetto All’interno dell’ISTI, il reparto di ricerca di Ingegneria dell’Informazione conduce attività di ricerca nelle seguenti aree: multimedia information retrieval, multimedia information indexing, multimedia information access, multimedia similarity searching, information filtering, document categorization, personalized information gathering, multedia databases, formal design methodologies, metadata models e distance learning.Queste attività sono state sviluppate in parte all’interno dei seguenti progetti di ricerca: ESPRIT Long Term Research Projects “Formally Integrated Data Environment – FIDE” (Project No. 3070) “Formalization and Experimentation on the Retrieval of Multimedia Information – FERMI” (Project No. 8134), (Coordinator) “Foundations of High Performance Multimedia Information Management – HERMES” (Project No. 9141) “Multimedia Information Retrieval – MIRO” (WG No. 6576 ), (Coordinator) “Supporting Interactive Multimedia On-Line Services - SIMOS” (WG No. 20979) (Coordinator) “Digital Libraries – DELOS” (WG No. 21057) (Coordinator) 52 Enhanced Content Delivery “Collaborative Activity on Distributed Multimedia Systems – DAIDALOS” (EC-US Exploratory) “Information and Data on Open Media for Networks of Users – IDOMENEUS” (Network of Excellence No. 6606) ESPRIT Projects “Multimedia Office Server – MULTOS” (Project No. 28) “Tools for Designing Office Information Systems – TODOS”(Project No. 813) “Construction and Management of Distributed Office Systems – COMANDOS I” (Project No. 834) “Marble Industry Advertising Over the World- MIAOW” (Project No. 20339) TELEMATICS Projects “Personalized Information Gathering System – EUROgatherer” (Project No IE-8011) “Multilingual European Federated Search Service – EUROsearch” (Project No. LE8303) “Access to Remote Catalogues by Implementing SR Target Functions – ARCA” (Project No. Lib-3039). IST Projects “European Chronicles On-Line – ECHO” (Project No IST-1999-11994) “A Network of Excellence on Digital Libraries – DELOS” (Project No IST-1999-12262) Composizione dell’Unità Operativa e costi del personale Cognome Rabitti (Coordinatore) Castelli Savino Gennaro Pagano Pisani Nome Fausto Data di nascita Luogo di nascita 04/05/52 Modena Qualifica Senior/ Junior Dirig. Ricerca Donatella 25/07/57 Bientina (PI) Ricercatore Pasquale 26/11/55 Ururi (CB) Ricercatore Claudio 12/01/68 Gela (CL) Contrattista ex Art. 36 Pasquale 17/01/68 Napoli Contrattista ex Art. 23 Serena 24/02/69 Lucca Contrattista ex Art. 23 Afferenza Mesi/ Costo Person Personale a (MLire) 12 90 S CNR-ISTI S S J CNR-ISTI CNR-ISTI CNR-ISTI 12 12 30 90 90 112.5 J CNR-ISTI 30 112.5 J CNR-ISTI 24 90 Tabella di riepilogo dei costi previsti Personale Strument. 585 Materiali 0 Attrezzat. 0 Missioni 0 53 Totale % MURST 60 645 451.5 Fondo Speciale Innovazione Curriculum dei principali ricercatori Fausto Rabitti Fausto Rabitti è Dirigente di Ricerca dal 1995 presso l'Istituto CNUCE del Consiglio Nazionale delle Ricerche, dove dirige il Dipartimento di Multimedia e Networking. È stato precedentemente Ricercatore presso l'Istituto di Elaborazione dell'Informazione di Pisa. È stato Visiting Scientist presso lo MCC (Austin, Texas), presso il gruppo di Won Kim, lavorando al progetto ORION, uno dei primi sistemi di gestione di basi di dati a oggetti. È stato attivo nelle aree di ricerca dei sistemi di basi di dati distribuiti e dei sistemi informativi per ufficio, dei sistemi di badi di dati ad oggetti. È attualmente attivo nell'area delle basi di dati multimediali e dei metodi di accesso basati su similitudine. È stato Project leader di numerosi progetti Europei, soprattutto nel programma di Basic Research (FIDE1, Fide2, Hermes). È stato, o è attualmente, membro del Comitato di Programma di numerosi congressi internazionali (ACM-SIGMOD, EDBT, DOOD, ACM-SIGIR, VLDB), ed è stato Chaiman della 9th ACM-SIGIR International Conference on Research and Development in Information Retrieval e di IWOSS-99. Dal 1987 è membro dell'Editorial Board della rivista internazionale Information Processing and Management (Pergamon Press). Pasquale Savino Pasquale Savino è ricercatore presso il Consiglio Nazionale delle Ricerche, Istituto di Elaborazione della Informazione di Pisa, come dipendente dal gennaio 1996. Dal 1983 al 1995 è stato dipendente della Ing. C. Olivetti & C. Presso la divisione R&D è stato Project Leader di diversi progetti (ESPRIT MULTOS, ESPRIT TROPICS, ESPRIT MULTIWORKS, ESPRIT OSMOSE-1 e OSMOSE-2, ESPRIT HYTEA, DELTA MALIBU, EUREKA ACROPOL). Presso l'IEI ha partecipato al progetto ESPRIT Basic Research Action HERMES, ed è Project Leader del progetto Europeo IST ECHO. È stato membro del comitato di valutazione del programma "Information Technology Action" promosso dal Governo Belga. I suoi principali interessi di ricerca riguardano l'integrità delle basi di dati multimediali, i sistemi multimediali, le biblioteche digitali multimediali e lo sviluppo di applicazioni Web. Pubblicazioni recenti A. Andreoni, M. B. Baldacci, S. Biagioni, C. Carlesi, D. Castelli, P. Pagano, C. Peters, S. Pisani, The ERCIM Technical Reference Digital Library: Meeting the requirements of a European community within an International federation, In "In D-lib (Digital Library) Magazine, Volume 5 Numero 12 " ISSN 10829873, 1999. A. Andreoni, M. B. Baldacci, S. Biagioni, C. Carlesi, D. Castelli,, P. Pagano, Developing a European Technical Reference Digital Library In "Research and Advanced Technology for Digital Libraries : third European Conference; proceedings / ECDL '99, Paris, France, September 22-24, 1999 Springer". (Lecture notes in computer science; Vol. 1696) ISBN 3-540-66558-7, 1999. G. Amato, F. Rabitti, P. Savino, Multimedia document search on the Web, Computer Networks and ISDN Systems, Vol. 30, pp. 604-606, 1998. P. Zezula, P. Savino, G. Amato, F. Rabitti, Approximate similarity retrieval with M-tree, The VLDB Journal, Vol. 7, N. 4, pp. 275-293, 1998. G. Amato, F. Rabitti, P. Savino, P. Zezula¸ Issues in processing similarity queries for multimedia databases,, The Fifth IDEA Workshop, Esplanade Hotel, Fremantle, Western Australia 6160, Australia 7,1998. G. Amato, G. Mainetto, P. Savino, An Approach to Content-Based Retrieval of Multimedia Data, Multimedia Tools and Applications, Kluwer Academic Publishers, Vol. 7, N. 1/2, pp. 9-36, July 1998. Reprinted for "Multimedia Information Systems", V.S. Subrahmanian, S.K. Tripathi, (eds.), Kluwer Academic Publishers, Boston, 1998 54 Enhanced Content Delivery P. Zezula, P. Savino, F. Rabitti, G. Amato, P. Ciaccia, "Processing M-trees with Parallel Resources", 8th International Workshop on Research Issues in Data Engineering (RIDÈ98), Orlando, Florida, USA, February 23-24, 1998. 55 Fondo Speciale Innovazione Unità Operativa 1.2 Dipartimento di Elettronica e Informazione, Politecnico di Milano Direttore: Professor Mauro Santomauro Responsabile Prof. Stefano Ceri Descrizione dell’ente: Il Politecnico di Milano è una delle principali università d'Italia. Al momento il Politecnico di Milano conta la suo interno cinque facoltà di Ingegneria. La struttura del Politecnico di Milano che partecipa alle attività del progetto è il Dipartimento di Elettronica e Informazione ed in particolare il gruppo di ricerca di Basi di dati; tale gruppo ha operato attivamente negli anni nella ricerca sulle tecnologie dei sistemi di gestione di basi di dati, nella progettazione e gestione di sistemi informativi, nella definizione di metodologie per la progettazione di applicazioni. Di recente, il gruppo ha rivolto la quasi totalità delle sue attività di ricerca alla tecnologia del World Wide Web, con una particolare attenzione ai siti “data-intensive” (caratterizzati cioè dalla necessità di gestire e presentare grandi moli di dati), con l'obiettivo di adattare a questo nuovo contesto i risultati della ricerca nel campo dei sistemi informativi e delle basi di dati. Competenze relative al progetto: Il gruppo ha partecipato e partecipa a numerosi progetti di ricerca europei e nazionali. Il gruppo ha sviluppato ambienti software per la definizione di regole attive con modello object-oriented e ha ottenuto risultati di rilievo per la progettazione di applicazioni basate su regole attive (progetto Esprit IDEA); nell'ambito dei sistemi di workflow management, ha contribuito alla definizione di un ambiente software per la gestione di eccezioni, anche in questo quadro definendo un'opportuna metodologia (progetto Esprit WIDE); di recente, ha affrontato il problema del progetto di siti Web di tipo data-intensive, realizzando sia un ambiente di strumenti destinati alla loro ideazione, progettazione e gestione, sia affrontando alcuni problemi di tipo metodologico (progetto Esprit W3I3). Sono state poi perseguite diverse altre linee di ricerca relative al nuovo standard XML (descritte nel WP1.2), sempre cercando di combinare la realizzazione di prototipi con lo studio di metodologie e la risoluzione di problemi teorici. Partecipazione dell’Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP1.2 ed in particolare sul tema della definizione di linguaggi di interrogazioni per dati in formato XML. Questa ricerca vuole affrontare i problemi aperti in questo contesto, senza competere con le soluzioni che stanno per essere definite in questo ambito da parte del W3C. In particolare, si indagheranno i meccanismi che permettono la definizione di interrogazioni con un certo grado di imprecisione. Si affronteranno poi i problemi relativi alla definizione di un'interfaccia grafica per il linguaggio, facendo tesoro dell'esperienza di XML-GL. Altri aspetti che verranno trattati in questo contesto sono la definizione di regole attive, che sembra una strumento molto interessante per la implementazione di alcuni dei servizi che servono nel contesto delle biblioteche dgitali, e la specifica di un modello di autorizzazioni specifico per questo contesto. Composizione dell’Unità Operativa e costi del personale Cognome Nome Data di Luogo di nascita nascita Qualifica 56 Senior/ Junior Afferenza Mesi/ Costo Persona Persona le Enhanced Content Delivery Ceri Stefano (Coordinatore) Tanca Letizia Fraternali Piero 14/02/55 Milano Prof. Ordinario S DEI, Poli MI 12 (MLire) 90 09/05/55 Salerno 19/04/62 Como S S DEI, Poli MI DEI, Poli MI 9 6 6 45 Paraboschi Stefano 31/01/65 Milano S DEI, Poli MI 12 90 Samarati Pierangel 12/10/65 Lodi a Prof. Ordinario Prof. Associato non Confermato Prof. Associato non Confermato Prof. Associato non Confermato S 4 30 Damiani Ernesto 4 15 J Univ. MI Polo di Crema Univ. MI Polo Crema DEI, Poli MI 12 45 J DEI, Poli MI 12 30 J DEI, Poli MI 12 30 J DEI, Poli MI 12 30 J DEI, Poli MI 12 30 J DEI, Poli MI 12 30 Pozzi Comai Bonifati Maurino Quintarelli Oliboni 02/11/60 Piacenza Ricercatore Confermato Giuseppe 12/11/61 Bellagio Ricercatore (CO) Confermato Sara 25/06/70 Bolzano Assegnista di Ricerca Angela 23/01/73 Cosenza Dottorando di Ricerca Andrea 15/06/73 Como Dottorando di Ricerca Elisa 10/08/74 Verona Dottorando di Ricerca Barbara 08/04/73 Verona Dottorando di Ricerca J Tabella di riepilogo dei costi previsti Personale Strumentazi Materiali Attrezzatu Missioni Totale % MURST one re 532 0 10 0 76 618,5 432.9 Curriculum dei principali ricercatori Stefano Ceri Stefano Ceri è professore ordinario di Basi di Dati presso il Dipartimento di Elettronica e Informazione del Politecnico di Milano; è stato visiting professor al Dipartimento di Computer Science della Stanford University tra il 1983 e il 1990. I suoi interessi di ricerca si focalizzano sull'estensione della tecnologia delle basi di dati verso la distribuzione dei dati, le regole attive e deuttive, il paradigma object-oriented, e la tecnologia WEB. È autore di più di 100 articoli su atti di conferenza e riviste internazionali, ed è coautore dei libri: “Distributed Databases: Principles and Systems” (McGraw-Hill, 1984): “Logic Programming and Databases” (Springer-Verlag, 1990), “Conceptual Database Design: an Entity-Relationship Approach” (Benjamin-Cummings, 1992), “Active Database Systems” (Morgan-Kaufmann, 1995), “Designing Database Applications with Objects and Rules: the IDEA Methodology” (Addison-Wesley, 1997), “Advanced Database Systems” (MorganKaufmann, 1997), “The Art and Science of Computing” (Addison-Wesley, 1998), "Basi di dati" (McGraw-Hill Libri Italia, 1999) e "Database Systems" (McGraw-Hill, 1999). È membro dell' ACM-Sigmod Advisory Committee, del VLDB Endowment, dell'EDBT Foundation, e del DOOD Steering Committee; ha ricoperto il ruolo di Associate Editor delle ACM-Transactions on Database Systems (1989-92) ed è attualmente associate editor di diverse riviste internazionali, tra cui le IEEE-Transactions on Software Engineering. Ha ottenuto di recente il riconoscimento per il 10-year VLDB Best Paper Award. 57 Fondo Speciale Innovazione Stefano Paraboschi Stefano Paraboschi ha ottenuto la laurea in Ingegneria Elettronica dal Politenico di Milano nel 1990 e il titolo di Dottore di Ricerca in Ingegneria Informatica e Automatica dal Politecnico di Milano nel 1994. È stato ricercatore presso il Dipartimento di Elettronica e Informazione del Politecnico di Milano dal 1/3/96 fino a quando ha preso servizio presso lo stesso Dipartimento come professore associato il 1/11/98. I suoi principali interessi di ricerca riguardano l'integrità delle basi di dati, le basi di dati attive, i sistemi di data warehouse, lo sviluppo di applicazioni Web e la sicurezza delle basi di dati. Piero Fraternali Piero Fraternali ha ottenuto la laurea in Ingegneria Elettronica dal Politenico di Milano nel 1989 e il titolo di Dottore di Ricerca in Ingegneria Informatica e Automatica dal Politecnico di Milano nel 1994. È stato ricercatore presso il Dipartimento di Elettronica e Informazione del Politecnico di Milano dal 1/3/96 fino a quando ha preso servizio presso lo stesso Dipartimento come professore associato il 1/11/98. I suoi principali interessi di ricerca riguardano l'integrità delle basi di dati, le basi di dati attive, l'ingegneria del software e lo sviluppo di applicazioni Web. Pubblicazioni recenti S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, L. Tanca. XML-GL: A Graphical Language for Querying and Restructuring XML Documents. WWW 8, Toronto, maggio 1999, pp. 1171-1187. S. Ceri, P. Fraternali, S. Paraboschi. Data-Driven, One-To-One Web Site Generation for Data-Intensive Applications. VLDB 1999, Edimburgo, settembre 1999, pp. 615-626 S. Ceri, P. Fraternali, S. Paraboschi. XML: Current Developments and Future Challenges for the Database Community. EDBT 2000, Costanza, marzo 2000, pp. 3-17. E. Damiani, S. De Capitani, S. Paraboschi, P. Samarati. Securing XML Documents. EDBT 2000, Costanza, marzo 2000, pp. 121-135. S. Ceri, P. Fraternali, A. Bongio. Web Modeling Language (WebML): A Modeling Language for Designing Web Sites. WWW 9, Amsterdam, maggio 2000. S. Ceri, R. Cochrane, J. Widom. Practical Applications of Triggers and Constraints: Success Stories and Lingering Issues. VLDB 2000, Il Cairo, settembre 2000. F. Casati, S. Ceri, S. Paraboschi, G. Pozzi: Specification and Implementation of Exceptions in Workflow Management Systems. TODS 24(3): 405-451 (1999) S. Ceri, P. Fraternali, S. Gevinti, S. Paraboschi: Building a Database Design Laboratory on the Internet. IEEE Internet Computing 2(5): 41-48 (1998) 58 Enhanced Content Delivery Unità Operativa 1.3 Dipartimento di Informatica e Automazione, Università Roma Tre Direttore: Professor Alfonso Miola. Responsabile Professor Paolo Atzeni. Descrizione dell’ente: L’Università “Roma Tre” è nata nel 1992, ed è la più giovane delle Università romane. Attualmente conta oltre 600 docenti, e oltre 20.000 studenti, ed è costituita da 8 facoltà (Architettura, Economia, Giurisprudenza, Ingegneria, Lettere e Filosofia, Scienze Matematiche, Fisiche e Naturali, Scienze della formazione, Scienze Politiche). 22 sono i Dipartimenti per la ricerca, 18 i Corsi di laurea, 9 i Diplomi universitari, 350.000 i volumi nelle biblioteche specializzate, 2 le videoteche, 4 le sale di studio con attrezzatura informatica, 23 i laboratori per la didattica e la ricerca. Presso l'ateneo è presente il Centro di Studi ItaloFrancesi nella sede del vecchio Centro culturale francese che ha ceduto a Roma Tre il suo patrimonio librario di 32 mila volumi. In ambito universitario funzionano inoltre un Centro interdipartimentale di ricerche per lo studio di Roma moderna e contemporanea (CROMA), un Centro Linguistico di Ateneo che dal '96 ha aperto corsi, tra gli altri, di arabo e giapponese, e un Centro di Ateneo per le biblioteche. La struttura dell’Università Roma Tre che partecipa alle attività del progetto è il Dipartimento di Informatica e Automazione (DIA), ed in particolare il gruppo di ricerca di Basi di Dati e Sistemi Informativi. Le principali tematiche di ricerca e attività del dipartimento sono le basi di dati e i sistemi informativi, l'informatica teorica e applicata, l’informatica grafica, la teoria dei sistemi e del controllo e le sue applicazioni. Al momento fanno parte del dipartimento 6 professori ordinari, 5 professori associati e 4 ricercatori; il personale tecnico, amministrativo e di biblioteca conta 5 unità. Il dipartimento partecipa ad alcuni dottorati di ricerca, ospita circa 7 studenti di dottorato, e si avvale della collaborazione di alcuni assegnisti di ricerca. Il gruppo di ricerca di Basi di Dati e Sistemi Informativi è uno dei gruppi di ricerca più attivi del dipartimento: ha operato attivamente negli anni in tematiche fra cui: gestione di dati su Web, basi di dati eterogenee, teoria delle basi di dati, basi di dati attive, datawarehouse, linguaggi di interrogazione e modelli dei dati. Competenze relative al progetto: Il gruppo ha partecipato a numerosi progetti di ricerca europei e nazionali dove è stato necessario proporre metodi, tecnologie e linguaggi innovativi per la gestione di dati non tradizionali. In particolare, il gruppo ha studiato numerose tecniche per la gestione di dati in ambiente Web. I principali contributi scientifici in questo settore riguardano la definizione di modelli e linguaggi per l’estrazione di informazioni da siti Web. Lo sviluppo di numerosi prototipi, dimostrazioni dei quali sono state presentate anche in conferenze scientifiche di prestigio, ha consentito di sperimentare la praticabilità e l’efficacia delle tecniche proposte con risultati incoraggianti. Partecipazione della Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP 1.4 ed in particolare si concentra sullo studio di algoritmi e tecniche per la estrazione automatica di strutture da collezioni di documenti e la generazione automatica di programmi per la conversione in XML di documenti disponibili in altri formati. Le biblioteche digitali (DL) di nuova generazione saranno basate principalmente su XML e sulla tecnologia relativa a questo formato. Tuttavia è importante notare che una vasta mole 59 Fondo Speciale Innovazione di documenti elettronici sono ad oggi fruibili in formati diversi da XML. Integrare in una biblioteca digitale di nuova generazione la maggior parte dei documenti attualmente disponibili in formato eletronnico richiede di convertire questi documenti in XML: questa attività può risultare estremamente complessa e costosa. Infatti, molti tra i formati utilizzati fino ad oggi sono stati pensati principalmente per definire aspetti relativi alla presentazione dell’informazione, e offrono uno scarso supporto alla descrizione della organizzazione logica delle informazioni. L’esempio più significativo è costituito da HTML: la quantità di informazioni disponibili su Web in questo formato è enorme, tuttavia la loro conversione in XML risulta un problema molto complesso e costoso. Il contributo principale dell’unità sarà quello studiare tecniche e algoritmi per generare automaticamente programmi per la conversione automatica in XML di documenti disponibili in altri formati. L’obiettivo è quello di implementare un prototipo di un sistema basato su queste tecniche. Composizione della Unità Operativa e costi del personale Cognome Nome Data di nascita Luogo di nascita Atzeni Paolo 27/04/5 Roma (Coordinatore) 7 Torlone Riccardo 19/12/6 Roma 1 Mecca Giansalv 01/07/6 Potenza atore 8 Cabibbo Luca 19/02/6 Roma 5 Merialdo Paolo 27/07/6 Genova 5 Crescenzi Valter 28/08/7 Roma 3 Qualifica Senior/ Junior Prof. Ordinario S Prof. Associato Ricercatore Confermato Ricercatore S Assegnista J Dottorando J J J Afferenza DIA, Univ. Roma Tre DIA, Univ. Roma Tre DIFA, Univ. Basilicata DIA, Univ. Roma Tre DIA, Univ. Roma Tre DIA, Univ. Roma Tre Mesi/ Costo Persona Personale (MLire) 7 57 4 33 8 33 4 16 8 33 11 27 Tabella di riepilogo dei costi previsti Personale Strumentazi Materiali Attrezzatu Missioni Totale % MURST 199 one 25 15 re 6 40 285 200 Curriculum dei principali ricercatori Paolo Atzeni Paolo Atzeni è professore ordinario di Basi di Dati all'Università di Roma Tre. Si è laureato in in Ingegneria Elettronica presso l'Università di Roma "La Sapienza" nel 1980. Prima di afferire all'Università di Roma Tre, è stato ricercatore allo IASI-CNR di Roma, professore associato all'Università di Napoli e professore ordinario presso l'Università "La Sapienza" di Roma. È inoltre stato professore visitatore presso l'Università di Toronto. La sua attività di ricerca ha riguardato vari argomenti nel settore delle basi di dati, tra cui: Equivalenza tra basi di dati relazionali. Fondamenti della teoria relazionale. Linguaggi per modelli concettuali. 60 Enhanced Content Delivery Strumenti per il progetto logico di basi di dati. Teoria delle dipendenze nelle basi di dati con valori nulli. Modello "Weak instance": analisi di schemi e interrogazioni. Proprietà formali di schemi di rappresentazione della conoscenza. Cooperazione tra basi di dati. Basi di Dati e World Wide Web. Negli ultimi tre anni il suo interesse è stato principalmente dedicato allo studio di metodi e strumenti per la gestione di dati in ambiente Web. Ha pubblicato i suoi risultati di ricerca sulle principali riviste del settore, incluse ACM Transactions of Database Systems, Information Systems, SIAM Journal of Computing, Journal of Computer and System Sciences, e negli atti delle principali conferenze (ACMSIGMOD, VLDB, EDBT, ACM-PODS, IEEE-DE, ICDT). È autore di sei libri e curatore di quattro; tra questi ultimi figurano gli atti di tre conferenze di cui è stato tra gli organizzatori: ICDT'96, DBPL'95 e il recente Workshop on Databases and the Web (WebDB'98), tenuto Valencia nel 1998. È stato membro dei comitati di programma di varie conferenze internazionali, ed è attualmente presidente dell'Associazione EDBT. Giansalvatore Mecca Giansalvatore Mecca si è laureato con lode nel 1992 in Ingegneria Elettronica (Indirizzo Informatico) presso l'Università di Roma "La Sapienza". Tra il 1992 e il 1996 ha completato il Dottorato di Ricerca presso l'Università di Roma "La Sapienza", lavorando allo studio di linguaggi di interrogazione per basi di dati con stringhe, prevalentemente presso il Dipartimento di Informatica e Automazione dell'Università Roma Tre, e collaborando con il Department of Computer Science dell'Università di Toronto, che ha visitato ripetutamente tra il 1994 e il 1996. Nel 1996 ha conseguito il titolo di Dottore di Ricerca discutendo la tesi "From Datalog to Sequence Datalog: Languages and Techniques for Querying Sequence Databases", scritta sotto la supervisione dei Prof. Paolo Atzeni e Tony Bonner. Dal dicembre 1995 è ricercatore del raggruppamento scientifico-disciplinare K05A presso la Facoltà di Ingegneria dell'Università della Basilicata. Nel dicembre del 1998, terminato il triennio di prova, è stato nominato ricercatore confermato e tuttora svolge a tempo pieno e con continuità le attività istituzionali del ricercatore di ruolo. La sua attività di ricerca si è svolta prevalentemente nell'ambito dei seguenti temi: (1) Basi di Dati Deduttive e Orientate agli Oggetti. (2) Basi di Dati con Sequenze. (3) Interoperabilita e Cooperazione tra Basi di Dati. Negli ultimi anni la sua attenzione si è concentrata prevalentemente sullo studio di tecniche per la gestione di Dati Provenienti da World Wide Web. Ha partecipato a vari progetti di ricerca nazionali (LaTIBI - fondi POP-FESR'94-99, Interdata - fondi MURST'97 - Data-X, fondi MURST-99), svolgendo ruoli di coordinamento di alcuni dei temi della ricerca. Ha pubblicato i suoi risultati di ricerca su importanti riviste del settore, incluse IEEE Transactions on Data and Knowledge Engineering, Information Systems, Journal of Computer and System Sciences, e negli atti delle principali conferenze del settore (ACM-SIGMOD, VLDB, EDBT, ACM-PODS, IEEE-DE, ICDT). È inoltre stato curatore di un volume edito da Springer-Verlag. È stato membro del Comitato Scientifico di vari convegni internazionali (VLDB'99, EDBT'2000) e nazionali (SEBD'2000). Nel 2001 sarà coordinatore del Comitato Scientifico della quarta edizione del "Workshop on the Web and Databases" (WebDB'2001). 61 Fondo Speciale Innovazione Pubblicazioni recenti P. Atzeni, G. Mecca and P. Merialdo. Semistructured and Structured Data on the Web: Going Back and Forth. SIGMOD Record, 26(4), pag. 16-23, ACM Press, New York, (1997). V. Crescenzi and G. Mecca. Grammars have Exceptions. Information Systems, 23(8), pag. 539--565, Elsevier Science Pergamon, London (1998). G. Mecca and P. Atzeni. Cut and Paste. Journal of Computer and System Sciences, 58(3), 453--482, Academic Press, Orlando (Florida) (1999). G. Mecca, P. Merialdo and P. Atzeni. Araneus in the Era of XML. IEEE Data Enginee- ring Bullettin, 22(3), 19-26, IEEE Computer Society Press, Los Alamitos (California), (1999). P. Atzeni, A. O. Mendelzon, G. Mecca, Editors. Proceedings of the First International Workshop on the Web and Databases (WebDB'98). Lecture Notes in Computer Science, vol. 1590, Springer-Verlag, Berlin Heidelberg, (1999). P. Atzeni, G. Mecca, P. Merialdo. To Weave the Web - Proceedings of the 23rd International Conference on Very Large Databases (VLDB'97), pag. 206--215, Morgan Kaufmann, San Francisco (California), (1997). P. Atzeni, G. Mecca, P. Merialdo. Design and Maintenance of Data-Intensive Web Sites. Proceedings of the 6th International Conference on Extending Database Technology (EDBT'98), Lecture Notes in Computer Science, vol. 1377, pag. 436--450, Springer- Verlag, Berlin Heidelberg, (1998). G. Mecca, A. O. Mendelzon, P. Merialdo. Efficient Queries over Web Views. Proceedings of the 6th International Conference on Extending Database Technology (EDBT'98), Lecture Notes in Computer Science, vol. 1377, pag. 72--86, Springer-Verlag, Berlin Heidelberg, (1998). G. Mecca, P. Atzeni, A. Masci, P. Merialdo, G. Sindoni. The Araneus Web-Base Management System. Proceedings of SIGMOD Conference, pag. 544-546, ACM Press, New York, (1998). S. Grumbach, G. Mecca. In Search of the Lost Schema. Proceedings of the 7th International Conference on Database Theory (ICDT'99), Lecture Notes in Computer Science, vol. 1540, pag. 314--331, Springer-Verlag, Berlin Heidelberg, (1999). 62 Enhanced Content Delivery Unità Operativa 1.4 Dipartimento di Scienze dell’Ingegneria, Università di Modena e Reggio Emilia Direttore: Professor Gianni Immovilli Responsabile Prof. Paolo Tiberio Descrizione dell’ente: L'Università di Modena è una delle università più antiche di Europa. Dal 1999 ha cambiato denominazione in Università di Modena e Reggio Emilia e sono state istituite nuove facoltà nella città di Reggio Emilia: Agraria, Ingegneria, Scienza della Comunicazione. La struttura dell’Università di Modena e Reggio Emilia che partecipa alle attività del progetto è il Dipartimento di Scienze dell’Ingegneria (DSI) ed in particolare il gruppo di ricerca di Basi di dati e Sistemi Informativi. Il Dipartimento di Scienze dell’Ingegneria è stato istituito nel gennaio del 1994; sono tematiche di ricerca e attività del dipartimento le tematiche dell’Ingegneria dell’Informazione e dell’Ingegneria Industriale. Al momento fanno parte del dipartimento circa 30 professori e 20 ricercatori; il personale tecnico, amministrativo e di biblioteca conta circa 20 unità. Il dipartimento partecipa a dottorati di ricerca, quindi ospita circa 20 studenti di dottorato e poi si avvale della collaborazione di alcuni assegnisti di ricerca. Il gruppo di ricerca di Basi di dati e Sistemi Informativi è uno dei gruppi di ricerca del dipartimento e ha operato attivamente negli anni nei settori dei: sistemi di gestione di basi di dati intelligenti, sistemi di gestione di basi di dati ad oggetti, rappresentazione ed integrazione di sorgenti eterogenee distribuite in rete, quali sono le risorse di informazioni disponibili nel World Wide Web. Competenze relative al progetto: Il gruppo ha una vasta esperienza di ricerca nel campo delle tecniche di accesso efficiente a Basi di Dati di elevate dimensioni, dei sistemi di database intelligenti e nell'integrazione intelligente di informazione. Recentemente, ha partecipato a numerosi progetti di ricerca, ottenendo rilevanti risultati scientifici, a livello nazionale ed internazionale: MURST ex 40% (Interdata), CNR, ASI (Integrazione ed accesso a basi di dati eterogenee), ESPRIT 20840 project, "Corporation Integrated Multimedia Intelligent Assistant for Field Operators. I progetti principali attualmente in corso sono i seguenti: MOMIS: un sistema intelligente per l'integrazione di dati strutturati e semistrutturati; ODB-Tools: ambiente di componenti sw basati su tecniche di intelligenza artificiale (logiche descrittive) per la progettazione e l’ottimizzazione delle interrogazioni in ambito OODB. Partecipazione dell’Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP 1.3 ed in particolare sul tema della costruzione di una ontologia XML per l’accesso alle biblioteche di documenti digitali. L’approccio metodologico e le attività di ricerca sono descritte dettagliatamente in WP 1.3. In particolare, a tale WP collaborerà strettamente l'unità operativa di Pisa, che fornirà la base dei documenti in XML, l'unità operativa di Milano, che sperimenterà la base di metainformazione relativa agli stessi documenti, rappresentata nell'ontologia XML e l’unità 63 Fondo Speciale Innovazione operativa di Roma che collaborerà alla conversione di documenti da formati eterogenei a formato XML. Composizione dell’Unità Operativa e costi del personale Cognome Nome Tiberio Paolo (Coordinatore ) Bergamaschi Sonia Data di nascita Senior/ Junior Afferenza 16/12/43 Campobasso Prof. Ordinario S 1/7/53 DSI, Univ. Modena e Reggio DSI, Univ. Modena e Reggio DSI, Univ. Modena e Reggio DSI, Univ. Modena e Reggio DSI, Univ. Modena e Reggio DEIS, Univ. Bologna DEIS, Univ. Bologna Regione EmiliaRomagna DEIS, Univ. Bologna Beneventano Domenico 25/7/66 Luogo di nascita Qualifica Modena Prof. Straordinario S Ric. confermato J Ric. confermato J Dottorando J Pazzi Luca 3/5/62 Sasso di Castalda (PZ) Forli` Benetti Ilario 21/9/72 Carpi Corni Alberto 22/11/70 Modena Dottorando J Mandreoli Federica 28/9/73 Bologna Dottorando J Vincini Maurizio 22/9/70 Modena Collaboratore J Ciaccia Paolo 16/4/59 S Guerra Francesco 21/5/73 Campobasso Prof. Associato Modena Collaboratore J Mesi/ Costo Persona Personale (MLire) 8 66 4 33 8 33 8 33 11 30 4 4 4 2 4 Tabella di riepilogo dei costi previsti Personale Strument. Materiali Attrezzatu Missioni Totale % MURST 195 30 20 re 10 60 315 220 Curriculum dei principali ricercatori Tiberio Paolo Paolo Tiberio è nato a Roma il 16/12/1943, si è laureato in ingegneria elettronica a Pisa il 16/4/1967 con 110/110 e lode. Nel 1969 è diventato assistente presso la Facoltà di Ingegneria dell'Università di Bologna e nel 1976 è diventato professore di prima fascia di Calcolo Elettronico presso la stessa Facoltà, dove dal 1983 al 1998 è stato professore di Sistemi Informativi. Dal 1/11/1998 è professore di Fondamenti di Informatica e di Sistemi Informativi presso la Facoltà di Ingegneria dell'Università di Modena e Reggio. L'attività scientifica si è svolta principalmente presso il CSITE del CNR ospitato dall'Università di Bologna. A Bologna ha lavorato inizialmente al CAD di circuiti elettronici realizzando programmi di analisi in frequenza e di sensitivity. Nel 1971 è stato NATO Visiting Fellow presso il E.E. Dept. della Un. of Michigan, Ann Arbor, dove si è occupato di memoria virtuale. In seguito a Bologna ha lavorato sui sistemi informativi geografici. Nel 1978/79 è stato 64 Enhanced Content Delivery Visiting Scientist presso il Database Dept. dell’IBM Res. Center di S.Jose dove ha partecipato al progetto "System_R", il primo prototipo di ricerca industriale di DBMS relazionale. All'interno del progetto System_R ha lavorato al "query optimizer" di SQL proponendo un metodo per la stima dei costi di modifica delle relazioni. Successivamente (1981, 1984) ha lavorato al progetto fisico di database relazionali partecipando alla realizzazione del tool automatico di progetto fisico per System_R, denominato DBDSGN. Negli stessi anni ha anche lavorato su argomenti analoghi per i progetti finalizzati del CNR. Dal 1990 ha iniziato ad occuparsi di basi di dati temporali e multimediali. I risultati più significativi sono stati ottenuti nel campo delle strutture dati denominate "signature files" per information retrieval. Gli interessi di ricerca più recenti riguardano il progetto di data warehouse e l'integrazione di fonti eterogenee. Sonia Bergamaschi Sonia Bergamaschi è nata a Modena ed ha ricevuto la Laurea in Matematica presso la Facoltà di Scienze dell’Università degli Studi di Modena nell'anno 1977. È professore straordinario di "Sistemi di Elaborazione delle Informazioni" presso la Facoltà di Ingegneria dell'Università di Modena e Reggio Emilia (sede di Modena). La sua attività di ricerca è stata principalmente rivolta alla rappresentazione ed alla gestione della conoscenza nelle Basi di Dati di elevate dimensioni, con particolare attenzione sia agli aspetti teorici e formali sia a quelli implementativi. Dal 1985 è stata molto attiva nell'area dell'accoppiamento di tecniche di Intelligenza Artificiale, Logiche Descrittive (DL) e Basi di Dati al fine di sviluppare Sistemi di Basi di Dati Intelligenti, collaborando con gruppi di ricerca internazionali (DFKI) e nazionali (Università di Roma "La Sapienza"). Su tali argomenti sono stati ottenuti rilevanti risultati teorici ed è stato sviluppato il sistema ODB-Tools per il controllo di consistenza di schemi e l'ottimizzazione semantica delle query disponibile in Internet all'indirizzo: http://sparc20.dsi.unimo.it. Recentemente si è occupata di Integrazione Intelligente di Informazioni, proponendo un sistema I3, chiamato MOMIS per fornire un accesso integrato a sorgenti di informazioni strutturate e semistrutturate che consenta all'utente di formulare una singola query e di ricevere una risposta unificata. Le tecniche di DL e di clustering costituiscono la base teorica e sono sfruttate sia per costruire una vista integrata dell'informazione delle sorgenti sia per l'elaborazione e l'ottimizzazione delle interrogazioni. Ha pubblicato più di cinquanta articoli su riviste e conferenze internazionali e le sue ricerche sono state finanziate da MURST, CNR, ASI e da progetti della Comunità Europea. È stata membro nel comitato di programma di numerose conferenze nazionali ed internazionali di Basi di Dati e Intelligenza Artificiale. È membro di IEEE Computer Society e di ACM. Pubblicazioni recenti C.S.JENSEN, F.GRANDI, M.R.SCALAS, TIBERIO P., et al., "The Consensus Glossary o Temporal Database Concepts- February 1998 Version", Rivista: Temporal Databases: Research and Practice, Lecture Notes in Computer Sc., pp.: 367-405, ISBN/ISSN: LCNS 1399, (1998). P.CIACCIA, TIBERIO P., P.ZEZULA, "Declustering of Key-Based Partitioned Signature Files”, Rivista: ACM Trans. on Database Syst., Volume: 21, pp.: 295-338, (1996). TIBERIO P., P.ZEZULA, "Storage and Retrieval: Signature File", Rivista: Encyclopedia of Microcomputers. M.Dekker N.Y., Volume: 16, (1995). P.ZEZULA, F.RABITTI, TIBERIO P., "Dynamic Partitioning of Signature Files”, Rivista: AC Trans. on Information Syst., Volume: 9, pp.: 336-369, (1991). BERGAMASCHI S., BENEVENTANO D., "Integration of information from multiple sources of textual data; Libro: Intelligent Information Agents”, pp.: 53-77, ISBN/ISSN: 3-540-65112-8, (1999) Klusch (ed) Springer. BENEVENTANO D, BERGAMASCHI S., LODI S., SARTORI C., "Consistency Checking in Complex Object Database Schemata with Integrity Constraints", Rivista: IEEE Transactions on Knowledge and Data Engineering, Volume: 10 (4), pp.: 576-598, (1998). 65 Fondo Speciale Innovazione D. Beneventano, S. Bergamaschi, S. Castano, A. Corni, R. Guidetti, G. Malvezzi, M. Melchiori e M. Vincini: "Information Integration: the MOMIS Project Demonstration", International Conference on Very Large Data Bases (VLDB'2000), Cairo, Egypt, Settembre 2000. S. Bergamaschi, S. Castano e M. Vincini "Semantic Integration of Semistructured and Structured Data Sources", SIGMOD Record Special Issue on Semantic Interoperability in Global Information, Vol. 28, No. 1, March 1999. 66 Enhanced Content Delivery Unità Operativa 1.5 Dipartimento di Elettronica e Informatica, Università di Padova Direttore: prof. Giuseppe Tondello Responsabile Prof. Maristella Agosti Descrizione dell’ente: L'Università di Padova è una delle università più antiche di Europa e la seconda in Italia essendo stata fondata nel 1222. Al momento l'Università di Padova è costituita da tredici facoltà che impartiscono 45 diversi diplomi di laurea a più di 60.000 studenti iscritti; sono attivate 50 scuole di specializzazione e 70 corsi di dottorato di ricerca. Circa 4000 persone lavorano nell'università, di queste circa la metà sono professori e docenti, e l'altra metà personale tecnico e amministrativo. L'attività viene svolta in circa 200 fra dipartimenti, istituti, centri e biblioteche. La struttura dell’Università di Padova che partecipa alle attività del progetto è il Dipartimento di Elettronica e Informatica ed in particolare il gruppo di ricerca di Sistemi di gestione delle informazioni (IMS). Il Dipartimento di Elettronica e Informatica è stato istituito nel giugno del 1987; sono tematiche di ricerca e attività del dipartimento la bioingegneria, l'elettronica applicata e industriale, l'informatica teorica e applicata, la teoria dell'informazione e le comunicazioni, la teoria dei sistemi e del controllo e le sue applicazioni. Al momento fanno parte del dipartimento circa 30 professori, 30 professori associati e 20 ricercatori; il personale tecnico, amministrativo e di biblioteca conta circa 15 unità. Il dipartimento partecipa a numerosi dottorati di ricerca, quindi ospita circa 50 studenti di dottorato e poi si avvale della collaborazione di alcuni assegnisti di ricerca. Il gruppo di ricerca di Sistemi di gestione delle informazioni (IMS) è uno dei gruppi di ricerca del dipartimento. Il gruppo di ricerca IMS ha operato attivamente negli anni nei settori del reperimento delle informazioni, dei sistemi di gestione di basi di dati, della costruzione automatica di ipertesti, della rappresentazione e gestione di risorse informative distribuite in rete, quali sono le risorse di informazioni disponibili nel World Wide Web, del progetto e gestione di archivi digitali. Competenze relative al progetto: Il gruppo ha partecipato a numerosi progetti di ricerca europei e nazionali dove è stato necessario proporre metodi innovativi di gestione e reperimento di informazioni, ed in particolare di informazioni di tipo testuale. Il gruppo ha sviluppato metodi di trasformazione automatica di raccolte di documenti digitali testuali in strutture ipertestuali che sono di particolare interesse per questo progetto. Infatti questi metodi permettono di rendere disponibili agli utenti finali delle raccolte testuali digitali oltre che mediante modalità di interrogazione anche mediante modalità di consultazione o browsing. Questi metodi possono essere arricchiti e sviluppati per permettere di gestire in modo innovativo e secondo il paradigma di browsing le annotazioni di grandi raccolte di documenti digitali. Partecipazione dell’Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP1.4 ed in particolare sui temi di algoritmi e metodi efficienti di costruzione automatica, a partire dalle raccolte delle diverse tipologie di annotazioni che si deciderà di prendere in considerazione nell’ambito del progetto, di raccolte nelle quali sono stati costruiti automaticamente collegamenti fra documenti e annotazioni simili. Le collezioni di documenti digitali gestite risulterebbero, allora, coordinate e collegate, in modo tale che l’utente possa trovare già disponibili dei percorsi di fruizione delle raccolte dei documenti digitali e delle annotazioni. Gli algoritmi e i metodi che verranno sviluppati permetteranno di gestire in modo innovativo e secondo il 67 Fondo Speciale Innovazione paradigma di browsing le annotazioni di grandi raccolte di documenti digitali. In questo modo sarà possibile affiancare ad una costruzione e utilizzazione delle annotazioni mediante interrogazione, una costruzione della raccolta delle annotazioni in strutture simili a collezioni di documenti Web in relazione e collegamento fra loro. In questo modo alla fruizione per interrogazione sarà possibile affiancare la consultazione di navigazione. Metodi e tecniche di text mining verranno studiate per arrivare a costruire automaticamente percorsi di lettura e consultazione personalizzati nelle diverse raccolte di documenti digitali. In particolare si intende esplorare la possibilità di costruzione automatica di profili d’utente e di percorsi di fruizione delle raccolte digitali. Composizione dell’Unità Operativa e costi del personale Cognome Nome Data di nascita Luogo di nascita Agosti (Coordinatore) Crivellari Maristella 07/05/50 Modena Franco Melucci Massimo 29/04/44 Piove di Sacco (PD) 06/10/65 Riva (TN) Pretto Luca 08/02/63 Vicenza Qualifica Senior/ Junior Prof. Straordinario Prof. Associato Confermato Ricercatore Univiversitario Dottorando S S J J Afferenza DEI, Univ. Padova DEI, Univ. Padova DEI, Univ. Padova DEI, Univ. Padova Mesi/ Costo Persona Personale (MLire) 9 67,5 9 67,5 9 30 20 50 Tabella di riepilogo dei costi previsti Personale Strumentazi Materiali Attrezzatu Missioni Totale % MURST 215 one 30 10 re 5 30 290 203 Curriculum dei principali ricercatori Maristella Agosti Maristella Agosti è professore di Ingegneria informatica del Dipartimento di Elettronica e Informatica e della Facoltà di Lettere e filosofia dell’Università di Padova. È il coordinatore del gruppo di ricerca di Sistemi di gestione delle informazioni (IMS) del Dipartimento. La sua attività di ricerca si svolge nell’ambito delle biblioteche digitali, ed in particolare nello sviluppo di metodi per la strutturazione e rappresentazione delle informazioni contenute in risorse informative distribuite, quale è oggi la raccolta di documenti disponibile nel World Wide Web. Nell’ambito della attività svolta, ha proposto modelli innovativi di “hypertext information retrieval” e sono state affrontate le problematiche della valutazione di sistemi interattivi di gestione e reperimento di informazioni. I risultati di ricerca sono stati resi disponibili in più di 100 articoli pubblicati in riviste e atti di congressi internazionali e nazionali. Dal 1990 è membro del comitato editoriale della rivista “Information Processing & Management” (Pergamon Press); dal 1997 è “subject area editor” per il settore del Hypermedia della rivista internazionale “Information Retrieval” (Kluwer Academic Publishers). Ha fatto parte del comitato editoriale della rivista europea “The Computer Journal” (BCS) dal 1990 al 1998. Ha fatto parte del comitato di programma di diversi congressi internazionali, in particolare dell’ACM-SIGIR e CIKM. 68 Enhanced Content Delivery Ha partecipato a diversi progetti di ricerca nazionali e internazionali, in particolare è stata “Domain Leader” per l’Information Retrieval e Multimedia della Rete di Eccellenza IDOMENEUS ESPRIT (No. 6606). Ha fatto parte del “Research Panel” del “EU Information Engineering programme”. Ha partecipato al progetto europeo JUKEBOX (LIB-JUKEBOX/41049), al progetto europeo EUROIEMASTER (IE2012), all’EEC ESPRIT Working Group No.20039 Mira, e al progetto della European Space Agency (ESA) su "Semantic Network Inter-Operations". Massimo Melucci Massimo Melucci si è laureato in Scienze statistiche, è dottore di ricerca in Ingegneria informatica ed elettronica industriale dal 1996 ed è ricercatore in Ingegneria informatica presso la Facoltà di Ingegneria dell'Università di Padova dal 1999. La sua attività di ricerca si concentra nel settore del reperimento di informazioni sul World Wide Web, della costruzione automatica di ipertesti e del reperimento di informazioni musicali per biblioteche digitali. Ha partecipato a progetti nazionali ed internazionali (ADMV, INTERDATA, IRIDES) sulle tematiche della propria attività di ricerca, pubblicando articoli su riviste e atti di congressi internazionali. Ha tenuto lezioni invitate in sedi internazionali. È membro del comitato di programma del congresso del "ACM Special Interest Group in Information Retrieval". Pubblicazioni recenti M. Agosti, L. Benfante, M. Melucci. OFAHIR: “On-the-Fly” Automatic Authoring of Hypertexts for Information Retrieval. In: S. Spaccapietra, F. Maryanski (Eds). Data Mining and Reverse Engineering: Searching for semantics. Chapman and Hall, London, 269-300, 1998. M. Agosti, F. Bombi, M. Melucci, G.A. Mian. Towards a digital library for the Venetian music of the Eighteenth century. In: J. Anderson, M. Deegan, S. Ross, S. Harold (Eds), Digital Content, Digital Methods. Office for Humanities Communication, UK, 2000. M. Agosti, F. Crivellari, M. Melucci. The Effectiveness of Meta-data and other Content Descriptive Data in Web Information Retrieval. Proceedings of Third IEEE Meta-Data Conference (META-DATA '99), Bethesda, Maryland, USA, April 6-7, 1999. M. Agosti, M. Melucci. Information Retrieval Techniques for the Automatic Construction of Hypertext. In: A. Kent (Ed), Encyclopedia of Library and Information Science. Volume 66. Marcel Dekker, 2000. M. Agosti, F. Crestani, M. Melucci. Electronic Publishing, Storage, Dissemination and Retrieval of a Scientific Journal through the Web. Proc. of IEEE Forum on Research and Technology Advances in Digital Libraries (ADL'98). Los Alamitos, CA, USA, IEEE Computer Society, 1998, pp.137-146. M. Agosti, A. Smeaton (Eds). Information Retrieval and Hypertext. Kluwer Academic Publishers, Boston, 1996, pp.xviii+279. M. Melucci. Passage retrieval: a probabilistic technique. Information Processing and Management, 34(1), 1998, 43-67. M. Melucci. An Evaluation of Automatically Constructed Hypertexts for Information Retrieval. Journal of Information Retrieval, 2(1), 1999, 91-114. M. Melucci, N. Orio. Musical Information Retrieval using Melodic Surface. Proceedings of the ACM Digital Libraries Conference, Berkeley, CA, 1999, pp. 152-160. 69 Fondo Speciale Innovazione Unità Associata 1.6 Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni bibliografiche (ICCU). Responsabile Dott.ssa Giovanna Mazzola Merola, direttore ICCU. Descrizione dell’ente L'Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni bibliografiche (ICCU) assume l'attuale denominazione nel 1975 a seguito della costituzione del Ministero per i beni e le attività culturali, subentrando al Centro nazionale per il catalogo unico creato nel 1951 con il compito di catalogare l'intero patrimonio bibliografico nazionale. Questo obiettivo è oggi perseguito grazie ad una strategia di forte cooperazione tra le biblioteche, anche di diversa titolarità amministrativa, a garanzia dello sviluppo di servizi di uguale livello su tutto il territorio nazionale. Risultato di tale cooperazione è la realizzazione del Servizio Bibliotecario nazionale (SBN), la rete informatizzata di servizi nazionali alla quale sono collegate biblioteche dello Stato, degli Enti locali e delle Università, che contribuiscono alla creazione del catalogo collettivo nazionale in linea gestito dall'Istituto. Nell'intento di migliorare la conoscenza delle raccolte bibliografiche e di semplificarne l'accesso per l'utente, l'Istituto promuove e coordina censimenti nazionali dei manoscritti, delle edizioni italiane del XVI secolo, delle biblioteche presenti in Italia. A supporto dell'attività di catalogazione delle biblioteche in Italia, l'Istituto ha la responsabilità di indirizzare, produrre, adattare alla realtà italiana e diffondere le norme standard per la catalogazione delle diverse tipologie di materiali dai manoscritti ai documenti multimediali. L'Istituto, che ha come referente l'Ufficio centrale per i beni librari, gli istituti culturali e l'editoria, esplica funzioni di coordinamento – nel rispetto delle autonomie delle biblioteche nell'ambito del Servizio Bibliotecario Nazionale e dei progetti di catalogazione realizzati mediante l'utilizzo delle nuove tecnologie dell'informazione. I compiti dell'ICCU sono elencati nell'articolo 15 del D.P.R. 3 dicembre 1975 n. 805. Competenze relative al progetto L'Istituto centrale per il catalogo unico delle biblioteche italiane e per le informazioni bibliografiche, è articolato in cinque laboratori, un servizio di coordinamento e un servizio amministrativo; in particolare gestisce il coordinamento tecnico-scientifico della rete del Servizio Bibliotecario Nazionale (SBN) e il funzionamento del sistema Indice; promuove ricerche e studi relativi agli standard catalografici, anche in collaborazione con enti nazionali e internazionali e cura la compilazione di manuali per la catalogazione; coordina censimenti relativi alla musica a stampa e manoscritta, ai manoscritti e alla loro bibliografia, alle edizioni italiane del XVI secolo e alle biblioteche esistenti in Italia. A tal fine sviluppa e distribuisce prodotti s/w per la catalogazione informatizzata di materiali musicali, per il censimento di manoscritti e la compilazione della bibliografia sul manoscritto, per la gestione del censimento delle biblioteche; fornisce informazioni per la reperibilità dei documenti italiani e stranieri, utilizzando le risorse di rete e i cataloghi raccolti e consultabili presso l’Istituto. Per queste sue specifiche competenze è il partner ideale a svolgere in questo progetto il ruolo di organizzazione che conosce a fondo le esigenze degli utenti di biblioteche e di tipologie importanti di biblioteche digitali. 70 Enhanced Content Delivery Partecipazione della Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca in particolare nel contesto dei metadati per biblioteche digitali. Infatti il Laboratorio per le metodologie della catalogazione e per la didattica dell’ICCU ha di recente fornito una stesura iniziale della mappatura fra lo standard Dublin Core Metadata Element Set Reference Description Versione 1.1 e il formato UNIMARC. I problemi nel confronto dei dati dal DC al formato bibliografico si sono rilevati in molti casi complessi poiché i dati bibliografici sono definiti e formalizzati secondo le regole di catalogazione. Nella mappatura si sono previsti valori diversi in UNIMARC per elementi qualificati o non qualificati. Pubblicazioni recenti G. Mazzola Merola. Chiarimenti su SBN. In: Archivi & computer: automazione e beni culturali. - A. 7, n.4 (1997), p.280- 282. G. De Caro, G. Mazzola Merola. Servizio bibliotecario nazionale : la realtà della cooperazione. In: Gestione e valorizzazione dei beni culturali nella legislazione regionale, Ministero per i beni e le attività culturali. Direzione generale per gli affari generali amministrativi e del personale. Ufficio Studi. Roma : Istituto poligrafico e Zecca dello Stato, 1998. - p. 25-28. SBN Notizie 1989, periodico dell’ICCU consultabile in linea dal 1998; SBN Notizie fornisce periodicamente informazioni sull'avanzamento del progetto del Servizio Bibliotecario Nazionale. 71 Fondo Speciale Innovazione Unità Associata 1.7 CONSIEL S.P.A. Responsabile Dr. Claudio Mordà Descrizione dell’ente CONSIEL è una società di consulenza del gruppo Telecom Italia - Finsiel, con circe 500 tra dipendenti e collaboratori. L'area di interesse è quella dei servizi Web, Internet e Intranet. Competenze relative al progetto La partecipazione di CONSIEL è tesa a verificare l'applicabilità dei risultati del progett nell'ambito della propria piattaforma ACP (Acquisizione, Classificazione Publishing). Questo prodotto permette la realizzazione di portali Web che consentono l'accesso ad ampie collezioni di documenti. L'idea collegata a questa tipologia di portale è quella che, noto un dominio, vengano recuperati in maniera automatica tutti i documenti afferenti al dominio selezionato. All'interno dei portali così realizzati le informazioni vengono catalogate, a partire da un vocabolario ristretto comune, sfruttando tecniche semi-automatiche di classificazione. Lo scopo è quello di riuscire a migliorare le tecniche di catalogazione tenendo conto della semantica contenuta nelle diverse sorgenti informative che vengono selezionate istruendo sistemi di ricerca in base al dominio selezionato. In quest'ottica la catalogazione e la pubblicazione di sorgenti XML è sicuramente una evoluzione molto interessante per gli obiettivi aziendali. Partecipazione dell’Unità Operativa ai Workpackage del Progetto CONSIEL è particolarmente interessata a valutare il comportamento del sistema di classificazione che costituisce l'oggetto del Workpackage 1.3. 72 Enhanced Content Delivery Unità Operativa 2.1 Istituto ISTI-Alessandro Faedo Responsabile Dott. Raffaele Perego Presentazione Unità Operativa Descrizione dell’ente: L’ISTI-Alessandro Faedo è un Istituto del CNR in fase di costituzione. Ha sede a Pisa, e nasce dalla fusione dei due principali Istituti CNR pisani operanti nel campo dell’ínformatica: il CNUCE e l’IEI. Obiettivo dell'ISTI è quello di svolgere una qualificata attività di ricerca, contribuendo al miglioramento delle conoscenze scientifiche e di innovazione nel campo della Computer, Telecommunications and Information Science and Technology. Tale missione viene perseguita anche attraverso lo sviluppo di collaborazioni scientifiche e sinergie con le Università, le piccole e medie imprese e la Pubblica Amministrazione. Nell’Istituto operano circa 73 ricercatori e tecnologi, 67 tecnici, e 16 figure amministrative e di supporto. Mediamente altre 70 persone collaborano con il personale permanente in qualità di professori visitatori, ricercatori a contratto, borsisti, e studenti di dottorato. L’Istituto conduce attività di ricerca interdisciplinare, sia teorica che applicata nei seguenti settori: System architectures High Performance Computing Data mining and knowledge discovery Programming languages and software engineering; Database and multimedia theory and applications; Multimedia information storage and retrieval; Signal and image processing; Computational geometry and computer graphics Networking Information Systems Spaceflight and Structural Mechanics. La maggior parte delle attività sono svolte all’interno di progetti di ricerca nazionali ed internazionali. Competenze relative al progetto: Le attività di ricerca svolte dall'Istituto nei settori del data mining e della scoperta di conoscenza, e del calcolo parallelo ad alte prestazioni, occupano un ruolo importante nell'ambito dello sviluppo delle nuove tecnologie a servizio dell'innovazione. In questo senso l'ISTI contribuisce, in sinergia con l’Università e le piccolemedie imprese, all'innovazione delle conoscenze scientifiche e degli strumenti di produzione. I ricercatori di questa UO che partecipano al WP 2.1 hanno competenze importanti nelle seguenti tematiche: Data mining query languages: linguaggi di analisi in grado di integrare funzionalità di interrogazione con funzionalità di mining; integrazione di deduzione ed induzione. 73 Fondo Speciale Innovazione Autofocus data mining: regolazione automatica degli algoritmi di mining verso obiettivi di analisi guidata da conoscenza di dominio; Spatio-temporal reasoning e datamining in spatio-temporal databases: definizione di algoritmi di mining su constraint databases; Web-mining: analisi su dati di accesso al web e data mining su dati semistrutturati; L’attività di ricerca è svolta in collaborazione con il Dipartimento di Informatica dell’Università di Pisa nell’ambito della iniziativa Pisa KDD Lab., http://www-kdd.cnuce.cnr.it/ ed in collaborazione di alcuni enti di ricerca ed università europee nell’ambito dei due progetti UE di long term research: DeduGIS e Revigis. L’attività di ricerca di base è accompagnata con esperienze progettuali applicative con soggetti pubblici e privati che presentano grandi problematiche di analisi dei dati. Particolarmente significativi sono stati il progetto DataSift che ha realizzato un sistema di analisi dei dati di un supermercato mediante tecniche di basket market analysis finanziato dalla Regione Toscana ed il progetto PQE2000 – Lotta all’evasione fiscale, dove sono state sperimentate tecniche di data mining di tipo predittivo in supporto alla rilevazione di frodi. Attualmente, sono rilevanti i progetti MineFaST (Intelligent Web Caching) in collaborazione con FST ed Università di Pisa e TelCal (Esplorazione di utilizzo di tecniche di analisi data mining su datawarehouse del piano telematico della Regione Calabria). I ricercatori di questa UO che partecipano al WP 2.3 hanno competenze importanti e stratificate nel settore del calcolo ad alte prestazioni su piattaforme parallele e distribuite. Molte delle più recenti attività di ricerca rientrano nell’esperienza del Progetto PQE2000. Recentemente il gruppo ha concentrato l’attenzione sullo sfruttamento di architetture commodity non omogenee, come i cluster di multiprocessori (SMP), per affrontare problemi che sono caratterizzati non solo da elevate attività di calcolo, ma anche da input/output intensivo. A questo riguardo, Data Mining e Web Search Engine sono applicazioni chiave per le problematiche algoritmiche e architetturali che inducono. Nell’ambito di questi campi applicativi emergenti e della corrispondente domanda di soluzioni avanzate ad alte prestazioni si inquadrano le collaborazioni in atto con il Dipartimento di Informatica dell’Università di Pisa, e con la società Ideare S.p.A. di Pisa. I ricercatori che fanno capo a questa Unità Operativa sono stati e sono attualmente coinvolti in numerosi progetti di ricerca nei settori del data mining e del calcolo parallelo ad alte prestazioni. In particolare citiamo il progetto PQE2000, il progetto “Sistemi intelligenti per la lotta all'evasione fiscale” del Ministero delle Finanze, il progetto ASI-PQE2000, il progetto MURST cofinanziato "Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente Web". Partecipazione dell’Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca all’interno dei WP 2.1 e WP 2.3. Per quanto riguarda il WP 2.1 l’UO si occuperà di tutte le problematiche relative al il potenziamento degli attuali strumenti di Search Engine con strumenti di mining, al mining di struttura e di contenuto su collezioni di documenti XML ed alla definizione di un ambiente per lo sviluppo di applicazioni verticali di Web mining. Per quanto riguarda il WP 2.3, l’UO si occuperà di tutte le problematiche relative alla realizzazione efficiente e scalabile di dimostratori di IR e DM per dati Web su architetture ad alte prestazioni nonché della scelta dell’architettura di testbed da acquistare con i fondi del progetto. In base ai requisiti delle applicazioni, tecniche di parallelizzazione e distribuzione verranno usate sia per diminuire i tempi di risposta, sia per aumentare il troughput complessivo del sistema. Per raggiungere alte prestazioni e scalabilità delle soluzioni 74 Enhanced Content Delivery proposte, verranno considerati allo stesso tempo sia gli aspetti algoritmici che quelli sistemistici legati alla specifica architettura. Composizione dell’Unità Operativa e costi del personale Cognome Nome Perego Raffaele Giannotti Fosca Data di nascita Luogo di Qualifica Senior/ Afferenza Mesi/ Costo nascita Junior Persona Personale (MLire) 28/01/1962 Belluno Ricercatore S ISTI-CNR 10 75 Ricercatore S ISTI-CNR 8 60 Ricercatore S ISTI-CNR 8 60 Renzo 04/10/1958 Cast. Garf.na (LU) Giuseppe 19/03/1970 Aradeo (LE) Chiara 17/10/1968 Verona Ricercatore S ISTI-CNR 6 45 Orlando Salvatore 14/06/1961 Cosenza Prof. Ass.. S 8 60 Palmerini Paolo 25/03/1971 Mantova Ricercatore S Univ. Venezia ISTI-CNR 8 60 Baraglia Ranieri 19/06/1949 Vecchiano Ricercatore S ISTI-CNR 5 37,5 5/04/1970 Lugano Ricercatore S ISTI-CNR 3 22,5 Tecnico S ISTI-CNR 3 22,5 10/05/1952 Vicopisano Tecnico (PI) Francesco 22/12/1973 San Dottorando Giovanni Valdarno Cristian 13/07/1976 Lucca Laureato borsista S ISTI-CNR 3 22,5 J 12 45 22 82,5 Fabrizio J ISTI-CNR & Univ. Pisa ISTI-CNR & Univ. Pisa ISTI-CNR & Univ. Pisa 24 90 120 682,5 Manco Chiaradonna Silvano Masserotti M. Vittoria 29/1/1950 Roma Barsocchi Sergio Bonchi Gozzi Silvestri Dottorando TOTALE J Tabella di riepilogo dei costi previsti U.O. Personale Strument. Materiali Attrezzature Missioni Totale % MURST ISTI-CNR 682 200 24 0 37,5 943 660 Curriculum dei principali ricercatori Raffaele Perego Raffaele Perego è ricercatore presso l'Istituto CNUCE del Consiglio Nazionale delle Ricerche. La sua attività di ricerca riguarda il calcolo ad alte prestazioni, con particolare attenzione verso architetture parallele e distribuite, modelli, linguaggi e strumenti per la programmazione parallela, scheduling e bilanciamento del carico in ambienti di calcolo omogenei ed eterogenei, analisi e progetto di algoritmi ed applicazioni parallele. 75 Fondo Speciale Innovazione Recentemente ha indirizzato la ricerca verso lo sfruttamento di architetture commodity non omogenee, come i cluster di multiprocessori (SMP), e verso campi applicativi quali Data Mining e Information Retrieval che introducono problematiche di notevole interesse collegate alla necessità di gestire ed elaborare efficientemente grosse collezioni di dati. Ha partecipato recentemente al Progetto PQE2000 ed al progetto Eureka HPPC-SEA. Fosca Giannotti Fosca Giannotti è ricercatore presso l'Istituto CNUCE del Consiglio Nazionale delle Ricerche dal 1990. Gli interessi di ricerca attuali includono knowledge discovery e data mining, ragionamento spazio-temporale, semantica formale ed implementazione di linguaggi di programmazione per basi di dati specialmente nell’ambito delle basi di dati deduttive. Ha partecipato a diversi progetti di ricerca sia a livello nazionale che internazionale sia come ricercatrive che come coordinatore. Attualmente è coordinatrice di: 1) MineFaST: un progetto italiano che ha l’obiettivo di sviluppare un sistema di Web Caching basato su tecniche di data mining; 2) DeduGIS: un working group europeo con 10 partners accademici ed industriali di vari paesi europei. Tiene dal 1997 un corsi di basi di dati deduttive che include una parte di data mining al corso di laurea in di Informatica dell’università di Pisa. Nel 1999 ha tenuto un corso di data mining alla facoltà di economia dell’università di Pisa, ed un tutorial di data mining alla facoltà di ingegneria all’università di Bologna ed un tutorial di data mining alla conferenza EDBT 2000, Int. Conf. on Extending the Database Technology 2000. Pubblicazioni recenti F. Giannotti, G. Manco. Making Knowledge Extraction and Reasoning Closer. In (T. Terano, H. Liu, A. L. P. Chen, Eds.) Knowledge Discovery and Data Mining, Current Issues and New Applications, 4th PacificAsia Conference, PADKK 2000, Kyoto, Japan, 2000, Proceedings. Lecture Notes in Computer Science, Vo. 1805, pp. 360-371, Springer, 2000. F. Giannotti, G. Manco, D. Pedreschi, F. Turini. Experiences with a logic-based knowledge discovery support environment. In Proc. 1999 ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (SIGMOD'99 DMKD). ACM Press, May 1999. F. Bonchi, F. Giannotti, G. Mainetto, D. Pedreschi. A Classification-based Methodology for Planning Audit Strategies in Fraud Detection. In Proc. 5th ACM-SIGKDD Int. Conf. on Knowledge Discovery \& Data Mining, KDD'99, San Diego, CA, USA, pp. 175-184. ACM Press, 1999. F. Giannotti, G. Manco. Querying Inductive Databases via Logic-Based User-Defined Aggregates. In (J. Rauch and J. M. Zytkov, Eds.) Principles of Data Mining and Knowledge Discovery, Third European Conference, PKDD '99, Prague, Czech Republic, 1999, Proceedings. Lecture Notes on Artificial Intelligence, Vol. 1704, pp. 125-135, Springer, 1999. F. Giannotti, G. Manco, M. Nanni, D. Pedreschi, and F. Turini. Integration of Deduction and Induction for Mining Supermarket Sales Data In Proc. PADD'99, Practical Application of Data Discovery, Int. Workshop, p. 79-94. The Practical Applications Company, London, March 1999. Pisa KDD Laboratory. Web Log Data Warehousing and Mining for Intelligent Web Caching. Data and Knowledge Engineering, 2000. Submitted. R.Baraglia, D.Laforenza, S.Orlando, P.Palmerini, R.Perego. Implementation issues in the design of I/O intensive data mining applications on clusters of workstations. Proceedings of the 3rd Workshop on High Performance Data Mining, in conjunction with IPDPS- 2000, Cancun, Mexico, May 5th, 2000, LNCS 1800, Springer, pp. 350-357. S. Orlando, P. Palmerini, R. Perego. Mixed Task and Data Parallelism with HPF and PVM. Cluster Computing, Baltzer Science Publishers, in print S. Orlando, R. Perego. A Comparison of Implementation Strategies for Non-Uniform Data-Parallel Computations. Journal of Parallel and Distributed Computing (JPDC), Academic Press, Vol. 52, n. 2, August 1, 1998, pp. 132-149. P.Becuzzi, M.Coppola, M.Vanneschi, Mining of Association Rules in Very Large Databases: a Structured Parallel Approach. Proceedings of the EURO-PAR'99 Conference, Tolouse, LNCS 1685, pp.1441-1450. 76 Enhanced Content Delivery P.Becuzzi, M.Coppola, S.Ruggieri, M.Vanneschi, Parallelisation of C4.5 as a Particular Divide & Conquer Computation, Proceedings of the 3rd Workshop on High Performance Data Mining, in conjunction with IPDPS- 2000, Cancun, Mexico, May 5th, 2000, LNCS 1800, Springer. 77 Fondo Speciale Innovazione Unità Operativa 2.2 Dipartimento di Informatica, Università di Pisa Direttore: prof. Franco Turini Responsabile Prof. Maria Simi Presentazione Unità Operativa Descrizione dell’ente: Il Dipartimento di Informatica dell’Università di Pisa ha assunto questo nome nel 1982 dopo essere stato fondato nel 1969 con la denominazione di Istituto di Scienze dell’Informazione. Il Dipartimento conta attualmente 59 docenti, 20 unità di personale tecnico amministrativo, e circa 40 tra dottorandi e titolari di borse post-doc. Il Dipartimento svolge attività di ricerca di base e applicata in tutti i campi dell’Informatica e in particolare nelle seguenti aree della classificazione ACM/IEEE: Algoritmi e strutture dati, Architettura degli elaboratori, Intelligenza artificiale, Basi di dati e recupero dell’informazione, Matematica Computazionale, Linguaggi di programmazione, Ingegneria del software, Ricerca Operativa. Il Dipartimento fornisce docenza per il corso di Diploma Universitario in Informatica e per il Corso di Laurea in Informatica, nonché per singoli corsi di Informatica Generale per altri corsi di laurea dell’Ateneo. Il Dipartimento è sede del Dottorato di Ricerca in Informatica. Competenze relative al progetto: L’unità operativa è coinvolta nei Work Package 2.1, 2.2 e 2.4, su cui ha significative competenze. Il prof. Turini guida attività di ricerca nel settore del data mining, in collaborazione col prof. Pedreschi e diversi dottorandi o assegnisti di ricerca. Il prof. Ferragina ed il prof. Manzini collaborano nello sviluppo di tecniche di avanguardia per la compressione e l’indicizzazione di testi di grandi dimensioni. Il prof. Attardi si occupa di tecniche di classificazione automatica di documenti Web, nel cui ambito ha sviluppato la tecnica di categorization by context. Insieme con il dr. Cisternino sta sviluppando tecniche di Web Computing basate su protocollo SOAP per la realizzazione di servizi di rete basati su oggetti cooperanti. Insieme con il dr. Burrini sta sviluppando tecniche per estrarre dai testi named entities, riconoscere relazioni tra di esse e rispondere a domande sul contenuto dei testi. La prof. Simi, insieme con il prof. Attardi ed il dr. Tommasi, si occupano di sistemi di apprendimento di concetti per la classificazione di documenti Web. Partecipazione dell’Unità Operativa ai Workpackage del Progetto Tabella 1. Risorse umane WP Mesi/Persona 2.1 WebMining 2.2 Indicizzazione e compressione 2.3 Managing Terabytes 78 60 25 Enhanced Content Delivery 2.4 Participatory Search Services 40 125 Totale Composizione dell’Unità Operativa e costi del personale Cognome Nome Simi Maria (coordinatore) Attardi Giuseppe Data di nascita Luogo di nascita 22/02/52 Vecchiano (PI) 9/6/50 Padova Qualifica Senior/ Junior Professore associato Professore straordinario Professore associato Professore associato Professore associato S S S Brogi Antonio Ferragina Paolo 27/06/69 Catanzaro Manzini Giovanni 2/3/65 Bologna Pedreschi Dino 1958 Turini Franco 1950 Catelnuovo (LU) Livorno Ruggieri Salvatore 24/12/71 Matino Professore straordinario Professore ordinario Ricercatore Raffaetà Alessandra J Ciriani Valentina 19/1/74 Pisa Assegnista di ricerca Dottorando Cisternino Antonio Pisa Dottorando J Tommasi Alessandro Lucca Dottorando J Nanni Mirco Dottorando J Bracciali Andrea J Mascellani Paolo Montepulcia Dottorando no (SI) Dottorando Burrini Cristian 21/6/69 05/08/75 Terni S S S S S J J Contrattista J TBD Contrattista J TBD Contrattista J Afferenza Mesi/ Costo Persona Personal e (MLire) Università di 8 90 Pisa Università di 6 45 Pisa Università di 6 45 Pisa Università di 6 45 Pisa Università 6 45 del Piemonte Orientale Università di 6 45 Pisa Università di 6 45 Pisa Università di 6 45 Pisa Università di 6 24 Pisa Università di 3 11 Pisa Università di 6 22 Pisa Università di 6 22 Pisa Università di 6 22 Pisa Università di 6 22 Pisa Università di 6 22 Siena Università di 12 45 Pisa Università di 24 90 Pisa Università di 24 90 Pisa Totale 125 685 Tabella di riepilogo dei costi previsti U.O. DI-Pisa Personale Strument. Materiali Attrezzature Missioni 685 30 19 0 37,5 79 Totale % MURST 771,5 540 Fondo Speciale Innovazione Curriculum dei principali ricercatori Maria Simi Maria Simi si è laureata in Scienze dell'Informazione presso l'Università di Pisa nel 1974. È stata ospite presso il MIT di Boston negli anni dal 1979 al 1981, dove ha sviluppato, in cooperazione con il gruppo di "Message Passing Semantics", un linguaggio di rappresentazione della conoscenza orientato alle descrizioni. In periodi piu recenti e stata ospite presso l'ICSI di Berkeley e il Computer Science Laboratory della Sony a Parigi. È stata professore associato presso l'Università di Udine negli anni dal 1989 al 1992, dove ha insegnato informatica presso il Corso di Laurea in Conservazione dei Beni Culturali. È socio fondatore dell'Associazione Italiana per l'Intelligenza Artificiale, membro del comitato scientifico italiano di RoboCup, membro del comitato di programma di diversi eventi internazionali, fa parte del comitato editoriale d della rivista ESRA (Expert systems Research and Applications). È attualmente professore associato presso il Dipartimento di Informatica dell'Universita di Pisa dove insegna corsi di Intelligenza Artificiale e Informatica Documentale. È coordinatore dell'Area Didattica Europea per il settore di Informatica per l'Universita di Pisa (programmi Socrates e Tempus) e Responsabile dei servizi Web del Dipartimento di Informatica. I principali interessi di ricerca attuali sono collocabili nell'ambito dell'intelligenza artificiale (rappresentazione della conoscenza, apprendimento automatico e sistemi mutliagente), e dei dei sistemi informativi e servizi legati al Web (progetto CompAss per la compilazione assistita di piani di studio, categorizzazione automatica). Ha pubblicato lavori scientifici a livello internazionale nell'ambito dell'Intelligenza Artificiale. Giuseppe Attardi Giuseppe Attardi è professore al Dipartimento di Informatica dell'Università di Pisa, dove insegna attualmente corsi di Computer Graphics, di Programmazione Web e di Programmazione Sicura. Attardi è stato direttore del Centro di Calcolo del Dipartimento di Informatica ed è uno dei responsabili del centro SeRRA dell’Università di Pisa, che ha realizzato una rete privata in fibra ottica attraverso la città. Ha partecipato alla progettazione della rete GARR e fa parte dell'OTS che ne coordina lo sviluppo. È stato ospite presso laboratori stranieri quali il MIT di Boston, l'ICSI di Berkeley e il Computer Science Laboratory della Sony a Parigi. Al MIT ha sviluppato Omega, un linguaggio per la rappresentazione della conoscenza ed ha partecipato allo sviluppo del primo sistema grafico a finestre del MIT. È stato coordinatore o responsabile di otto progetti di ricerca europei ESPRIT. Si è occupato di sviluppo e implementazione di linguaggi ad oggetti, in particolare di CLOS, il sistema ad oggetti del Lisp. Nell’ambito del progetto PoSSo ha sviluppato un garbage collector per il C++ che è stato utilizzato dalla Sun Microsystems nello sviluppo di Java. I suoi interessi principali di ricerca sono i linguaggi ad oggetti, i sistemi di ragionamento per agenti cooperanti, l’algebra simbolica e il Web computing. Da alcuni anni si occupa di ricerca e classificazione di documenti Web. Attardi è stato fondatore della Delphi SpA, azienda specializzata in workstation Unix, acquisita nel 1986 da Olivetti e di Ideare SpA, acquisita nel 2000 da Tiscali. Il prof. Attardi ha fatto parte di numerosi comitati internazionali ed è autore di oltre ottanta pubblicazioni scientifiche. Paolo Ferragina Paolo Ferragina è professore associato presso il Dipartimento di Informatica dell'Università di Pisa. La sua ricerca riguarda il progetto di algoritmi e strutture dati per la gestione di grandi 80 Enhanced Content Delivery quantità di informazioni; in particolare i suoi interessi recenti sono rivolti allo studio e al progetto di algoritmi di compressione, alle strutture dati di indicizzazione e ai motori di ricerca WEB e XML. Ha svolto attività di ricerca presso il Centro Ricerca IBM (Roma), l’Università del North Texas (USA), gli AT&T Bell Laboratories (USA), il Max Planck Institut fur Informatik (Germania). La sua tesi di dottorato ha ricevuto il premio “EATCS Doctoral Dissertation Thesis Award 1997”, il premio “Philip Morris per la Ricerca Scientifica e Tecnologica 1997”. È stato PC-member della conferenza internazionale: Combinatorial Pattern Matching ’98 (Rutgers Univ., Lect. Notes Comp. Sci. 1448). Ha partecipato recentemente a due progetti: "Algorithms for large data sets: Science and Engineering" cofinanziato dal MURST (1999), e "Large data processing: methods and applications" finanziato dall’UNESCO. Dino Pedreschi Dino Pedreschi è nato nel 1958 a Castelnuovo Garfagnana, Lucca, e ha ottenuto il Dottorato di ricerca in Informatica presso l’Università di Pisa nel 1987. È attualmente professore ordinario di Informatica presso il Dipartimento di Informatica dell’Università di Pisa, e presidente del consiglio dei corsi di studio (laurea e diploma universitario) in Informatica. È stato visiting scientist e docente presso la University of Texas ad Austin, USA, (1989/90), il CWI di Amsterdam (1993) e la University of California a Los Angeles, USA (1995). Collabora stabilmente con K. R. Apt (CWI) su metodi formali di verifica, e con C. Zaniolo (UCLA) and V. S. Subrahmanian (Univ. of Maryland) su vari aspetti di logica nelle basi di dati. È stato coordinatore del progetto Non-determinism in deductive databases, finanziato congiuntamente dall’Unione Europea e dalla US National Science Foundation, con un consorzio di università e centri di ricerca europei e statunitensi. I suoi interessi di ricerca sono incentrati sulla logica nelle basi di dati, e in particolare nell’analisi dei dati, nelle basi di dati deduttive, nell’integrazione di data mining e database querying, nel ragionamento spazio-temporale. È stato, con F. Giannotti, tutorialista alla conferenza EDBT’2000, Extending Database Technology, su temi di data mining e knowledge discovery. Pubblicazioni recenti A. Cisternino, G. Attardi and M. Simi, Building a Configuration Assistant on the Web, Web Net '97, Toronto, 1997. D. Dato, A. Gullì, G. Attardi, Web Host Enumeration Through DNS, Web Net '97, Toronto, 1997. G. Attardi, M. Simi, Communication across Viewpoints, Journal of Logic, Language and Information, 7, 53-75, 1998. G. Attardi, T. Flagella and P. Iglio, A customisable memory management framework for C++, Software: Practice and Experience, 28(11), 1143-1183, 1998. G. Attardi and P. Iglio, Software Components for Computer Algebra, Proc. of ISSAC '98, 1998. G. Attardi, A. Cisternino, and M. Simi, Web-based Configuration Assistants, Artificial Intelligence for Engineering Design, Analysis and Manufacturing, 12(3), 321-331, 1998. G. Attardi, S. Di Marco, D. Salvi, F. Sebastiani, Categorisation by context, Workshop on Innovative Internet Information Systems, 1998. G. Attardi, A. Cisternino, and M. Simi, Web-based Configuration Assistants, Workshop on Innovative Internet Information Systems, 1998. G. Attardi, S. Di Marco, D. Salvi, Categorisation by context, (short version), "Best Full Paper Award", Proceedings of WebNet 1998, Orlando, Florida, 1998. G. Attardi, S. Di Marco, D. Salvi, Categorisation by context, Journal of Universal Computer Science, 4(9), 1998. G. Attardi, A. Gullì, F. Sebastiani, Theseus: Categorization by context, 8th Word Wide Web Conference, Toronto, Canada, 1999. 81 Fondo Speciale Innovazione G. Attardi, M. Betrò, M. Forte, R. Gori, A. Guidazzoli, S. Imboden, F. Mallegni, 3D facial reconstruction and visualization of ancient Egyptian mummies using spiral CT data, SIGGRAPH '99, 1999, (also in Eurographics 99). G. Attardi, A. Gullì, F. Sebastiani, Automatic Web Page Categorization by Link and Context Analysis, European Symposium on Telematics, Hypermedia and Artificial Intelligence, Varese, 1999. G. Attardi, G. Zorzetti, Impementing an Interactive Discussion Forum, Workshop on Community-based Interactive Systems, Siena, 1999. F. Giannotti, D. Pedreschi. Knowledge Discovery & Data Mining: Tools, Methods and Experiences. Tutorial slides at EDBT 2000. http://www-kdd.di.unipi.it F. Giannotti, G. Manco, M. Nanni, D. Pedreschi. Nondeterministic, Nonmonotonic Logic Databases. To appear in IEEE Transaction on Knowledge and Data Engineering. 2000 F. Bonchi, F. Giannotti, G. Mainetto, D. Pedreschi. Using Data Mining Techniques in Fiscal Fraud Detection. In Proc. DaWak'99, First Int. Conf. on Data Warehousing and Knowledge Discovery. Florence, Italy, Sept. 1999. F. Bonchi, F. Giannotti, G. Mainetto, D. Pedreschi. A Classification-based Methodology for Planning Audit Strategies in Fraud Detection. In Proc. KDD-99, ACM-SIGKDD Int. Conf. on Knowledge Discovery & Data Mining, San Diego (CA), August 1999. F. Giannotti, G. Manco, D. Pedreschi and F. Turini. Experiences with a logic-based knowledge discovery support environment. In Proc. 1999 ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (SIGMOD'99 DMKD). Philadelphia, May 1999. Slides are also available. F. Giannotti, M. Nanni, G. Manco, D. Pedreschi and F. Turini. Integration of Deduction and Induction for Mining Supermarket Sales Data. In Proc. PADD'99, Practical Application of Data Discovery, Int. Conference, London, April 1999. Pisa KDD Laboratory. Web Log Data Warehousing and Mining for Intelligent Web Caching. Data and Knowledge Engineering, 2000. Submitted. P. Alcamo, F. Domenichini, F. Turini. An XML based environment for in support of the overall KDD process. in Proc. FQAS2000, Fourth International Conference on Flexible Query Answering Systems, Warszaw Poland 2000 M. Farach, P. Ferragina, S. Muthukrishnan. On the sorting complexity of suffix tree construction, Journal of the ACM, 2000 (to appear). P. Ferragina, R. Grossi. Optimal search and sublinear time update in string matching, SIAM Journal on Computing, vol. 27(3), 713--736, 1998. P. Ferragina, R. Grossi. The String B-Tree: a new data structure for string search in external memory and its applications, Journal of the ACM, vol. 46(2), 236--280, 1999. P. Ferragina, F. Luccio. Dynamic dictionary matching in external memory, Information and Computation, vol. 146(2), 85--99, 1998. P. Ferragina, G. Manzini. Opportunistic data structures with applications. IEEE Foundations of Computer Science (FOCS), 2000. 82 Enhanced Content Delivery Unità Operativa 2.3 Istituto per la Sistemistica e l'Informatica, ISI-CNR Responsabile Dott. Domenico Talia Presentazione Unità Operativa L'ISI-CNR è un Istituto del CNR con sede a Rende (CS) che opera dal 1987 svolgendo attività di ricerca nei settori dell'infomatica e della sistemistica. Obiettivo dell'ISI è quello di svolgere una qualificata attività di ricerca, contribuendo al miglioramento delle conoscenze scientifiche e di innovazione nel campo della sistemistica e dell'informatica anche attraverso lo sviluppo di collaborazioni scientifiche e sinergie con le Università, il mondo produttivo delle piccole e medie imprese e la Pubblica Amministrazione. Le attività di ricerca svolte dall’Istituto nei settori di sistemi evoluti per basi di dati e conoscenza, del data mining, dei modelli per la gestione di sistemi complessi, delle reti e i sistemi di elaborazione distribuita, e modelli e strumenti per l'elaborazione parallela, occupano un ruolo importante nell'ambito dello sviluppo delle nuove tecnologie a servizio dell'innovazione. In questo senso l'ISI contribuisce, in sinergia con i soggetti citati in precedenza, all'innovazione delle conoscenze scientifiche e degli strumenti di produzione. Due aree di ricerca in cui i ricercatori dell'ISI sono particolarmente attivi sono quella del data mining e della scoperta di conoscenza e quella del calcolo parallelo ad alte prestazioni. Sulla base delle competenze derivanti da queste due aree di ricerca, negli ultimi anni sono scaturite le ricerche svolte nel settore del data mining parallelo. In questa area, L'ISI ha progettato e realizzato, algoritmi, tecniche e strumenti per il data mining e la scoperta di conoscenza su macchine parallele e distribuite. Inoltre l'ISI-CNR è convolto in progetti di collaborazione con altri centri di ricerca, Università e imprese per la realizzazione di applicazioni di data mining. In particolare, attualmente, i ricercatori dell'ISI collaborano nel progetto TELCAL (Piano Telematico Calabria) e il progetto SERVIR, ambedue svolti su finanziamenti del MURST. Di seguito sono elencate alcune recenti pubblicazioni che descrivono i lavori di ricerca svolti in quest’area. Partecipazione dell’Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto ISI-CNR si colloca sui temi di algoritmi efficienti di data e web mining e knowledge discovery e tecniche di parallelizazione di algoritmi di data mining per ambienti di calcolo parallelo e distribuito. Composizione dell’Unità Operativa e costi del personale Cognome Talia Pizzuti Folino Nome Data di Luogo di nascita nascita Qualifica Domenico 02/01/60 S.Agata Ricercatore del B. Clara 31/08/57 S.Pietro in Ricercatore G. Gianluigi Catanzaro Borsista 83 Senior/ Afferenza Junior Mesi/ Costo Uomo Personale (MLire) 8 60 S ISI-CNR S ISI-CNR 8 60 J ISI-CNR 24 90 Fondo Speciale Innovazione Tabella di riepilogo dei costi previsti U.O. Personale Strument. Materiali Attrezzature Missioni ISI-CNR 210 30 8 0 38 Totale % MURST 286 200 Curriculum dei principali ricercatori Domenico Talia Laureato in Fisica presso l'Università della Calabria. È ricercatore presso l'ISI-CNR (Istituto di Sistemistica ed Informatica) di Rende (CS) e professore a contratto presso la Facoltà di Ingegneria dell’Università della Calabria. La sua attuale attività scientifica si svolge nei settori dell'elaborazione parallela, degli automi cellulari, dei linguaggi per la programmazione concorrente, del data mining parallelo, dei sistemi di calcolo distribuito e dei sistemi complessi. Su questi temi ha presentato numerosi tutorial e relazioni invitate in conferenze internazionali. Partecipa a numerosi progetti di ricerca nazionali ed europei. In particolare, in negli ultimi anni ha lavorato nei progetti CABOTO a COLOMBO svolti nell’ambito del programma europeo ESPRIT e nel progetto nazionale del CNR “Sistemi Informatici e Calcolo Parallelo”. È stato ISI contact person in HPCnet, la rete di eccellenza europea nel settore dell’high-performance computing. Ha pubblicato circa cento lavori scientifici e tre libri. È membro dell'Editorial Board di alcune riviste scientifiche intenazionali. Clara Pizzuti Clara Pizzuti si è laureata in Matematica presso l'Università degli Studi della Calabria. Fino a novembre 1994 ha lavorato presso il CRAI (Consorzio per la ricerca e le Applicazioni di Informatica) nell'area ricerca partecipando a progetti internazionali su basi di dati deduttive. Dal 1994 è ricercatrice presso l'Istituto per la Sistemistica e l'Informatica di Rende e collabora con l'Università della Calabria come professore a contratto. I suoi principali interessi di ricerca riguardano Algoritmi Genetici, Programmazione Genetica, Scoperta di conoscenza nelle basi di dati e Data Mining. Pubblicazioni recenti D. Foti, D. Lipari, C. Pizzuti, D. Talia, "Scalable Parallel Clustering for Data Mining on Multicomputers", Proc. of the 3rd Int. Workshop on High Performance Data Mining HPDM00-IPDPS, LNCS, Springer-Verlag, Cancun, Mexico, May 2000. C. Pizzuti, D. Talia, G. Vonella, "A Divisive Initialization Method for Clustering Algorithms", Proc. PKDD'99 - Third Europ. Conf. on Principles and Practice of Data Mining and Knowledge Discovery, Lecture Notes in Artificial Intelligence, vol.1704, Springer-Verlag, pp. 484-491, Prague, Sept. 1999. D. Talia, "Esplicitazione del Parallelismo nelle Tecniche di Data Mining", Settimo Convegno Nazionale su Sistemi Evoluti per Basi di Dati - SEBD'99, pp. 387-401, Como, 23-25 Giugno 1999. 84 Enhanced Content Delivery Unità Operativa 2.4 Fst s.r.l. - Fabbrica Servizi Telematici Responsabile Dott. Orlando Murru Presentazione Unità Operativa Descrizione dell’ente: FST è la fabbrica di servizi telematici nata a Cagliari nel 1997 in seno al Gruppo BNL e alla Saras (Gruppo Moratti) come società per l’erogazione di servizi evoluti, che investe in ricerca e mantiene relazioni stabili con il mondo scientifico e universitario nazionale e internazionale. Le sue attività spaziano dalla progettazione e realizzazione di applicazioni telematiche all’erogazione di servizi in rete per conto di terzi, dalle consulenze tecnologiche nel settore ICT (Information and Communication Technology), alle attività di ricerca industriale sulle tecnologie e i sistemi di costruzione e gestione di servizi in rete. Fst ha maturato rilevanti esperienze nella progettazione, realizzazione e gestione di servizi integrati telematico-finanziari, operando in ambiti diversi quali la progettazione ed erogazione delle applicazioni in rete, lo sviluppo di servizi avanzati di sicurezza, la monetica, la firma elettronica e la certificazione per le applicazioni di commercio elettronico e per i servizi erogati dalla pubblica amministrazione, lo sviluppo di modelli organizzativi e di soluzioni tecnologiche per l'erogazione di servizi telematici su larga scala, lo studio di sistemi per l'accesso unificato all'informazione mediante soluzioni sofisticate di system integration. Ricerca, Free Internet, servizi fidelity, e-commerce e, più in generale, outsourcing di servizi telematici, sono gli attuali campi di occupazione di Fst, che trova nell’incontro tra le applicazioni tradizionali e quelle innovative il modo di ottimizzare al massimo le moderne tecnologie e di esplorare nuove aree di business. L’innovazione nasce nel centro Ricerca, il cui scopo è analizzare tecnologie esistenti, ottimizzandole e integrandole in settori eterogenei, relativamente a due filoni applicativi principali: analisi, verifica e certificazione delle tecnologie per l’ottimizzazione della rete da una parte, e metodologie per l’ottimizzazione dei sistemi di rilascio, erogazione e gestione di servizi telematici dall'altra. Gli ambiti su cui si stanno sviluppando i progetti di ricerca sono basilari per lo sviluppo di servizi telematici innovativi, quali sicurezza nei sistemi informativi, tecnologie di data mining, motori di ricerca di nuova generazione, firma e certificazione digitale, sistemi wireless, studi sulle metodologie per la realizzazione di una moderna fabbrica del software. Competenze relative al progetto: L'area di ricerca in cui Fst risulta particolarmente coinvolta è qella dello sviluppo di motori di ricerca di nuova generazione e di metodologie e tecniche di data mining, in quanto maggiormente strategiche per i servizi di data provider e free internet che costituiscono il business delle unità produttive dell'azienda. In particolare risultano attinenti le competenze acquisite nel progetto BRAIN (Browsing/Retrieval Advanced Interface), sistema di ricerca che facilita il reperimento di informazioni in rete permettendo all'utente di porre la domanda utilizzando il linguaggio naturale, e MineFaST, che realizza meccanismi di sostituzione della cache di un proxy server con metodologie intelligenti di data mining: in entrambi i casi, le informazioni in ingresso sono di natura non omogenea provenienti dal Web, siano essi documenti o file di log. Un altro importante apporto costituisce l'esperienza acquisita con il progetto Idalog, che ha utilizzato le metodologie di Data Mining per lo studio di un sistema automatico per la diagnosi e la gestione del rischio nelle reti telematiche. 85 Fondo Speciale Innovazione Partecipazione dell’Unità Operativa ai Workpackage del Progetto Il contributo dell'UO nell'ambito del progetto proposto si colloca all’interno dei WP2.1 e si occuperà di tutte le problematiche relative al potenziamento degli attuali strumenti di Search Engine con strumenti di mining. Lo scopo di FST Ricerca, è quello di analizzare tecnologie esistenti, ottimizzandole e integrandole in settori eterogenei, relativamente all’analisi, verifica e certificazione delle tecnologie per l’ottimizzazione della rete, pertanto il suo ruolo all’interno del progetto sarà quello di sperimentare la tecnologia prodotta su case study e data set di interesse dell’azienda allo scopo di valutare il miglioramento sia in termini qualitativi che quantitativi. Composizione dell’Unità Operativa e costi del personale Cognome Murru Fenu Sannais Nome Data di Luogo di Qualifica Senior/ Afferenza Mesi/ Costo nascita nascita Junior Persona Personale (MLire) Orlando 06/12/61 Cagliari Dir.Ric. S FST 2 15 FST Rossella 01/04/68 Cagliari Ricercatore S FST 8 60 Rosalia 07/08/70 Cagliari Ricercatore S FST 8 60 Tabella di riepilogo dei costi previsti U.O. FST Personale Strument. Materiali Attrezzat. Missioni Totale % MURST 135 0 8 0 0 143 100 Curriculum dei principali ricercatori Orlando Murru Laureato nel 1986 in Matematica presso l'Università di Cagliari con una tesi di applicazioni combinatorie, ha conseguito il Dottorato di Ricerca nel 1991 presso l'MIT di Boston, Massachussetts, con una tesi sull'algebra di Baxter e funzioni simmetriche. Dal 1991 ha collaborato con i Dipartimenti di Matematica e Ingegneria dell'Università di Cagliari, tenendo anche diversi corsi di Algebra e Geometria; dal febbraio 1994 all'aprile 1998 ha lavorato presso la Techso S.P.A. di Cagliari nel settore della DVD (Digital Video Broadcasting) per lo sviiluppo di software per microprocessore. Dall'aprile 1998 lavora in Fst nel settore dello sviluppo dell'infrastruttura a chiave pubblica Murticertify; dal giugno 2000 è il direttore dell'area Ricerca, con il ruolo di coordinatore dei vari progetti relativi alla sicurezza nei sistemi informativi (verifica degli accessi, autenticazione utenti, ricerca vulnerabilità delle reti, ecc.), tecnologie di data mining per il recupero di informazioni di difficile estrazione da grandi quantità di dati, motori di ricerca di nuova generazione, firma e certificazione digitale, sistemi wireless, studi sulle metodologie per la realizzazione di una moderna fabbrica del software. Rossella Fenu Laureata nel 1995 in Ingegneria Elettrotecnica presso l'Università di Cagliari con una tesi di controlli automatici, ha lavorato in vari ambiti di ricerca, fra cui in particolare lo studio delle tecniche di riconoscimento di segnali nelle telecomunicazioni presso l'Università di Cagliari, i sistemi di controllo nei sistemi produttivi a Grenoble, Francia, presso l'INPG (Institut National Politechnique de Grenoble), e la simulazione di sistemi di controllo presso il Centro di 86 Enhanced Content Delivery Ricerche Termiche ENEL di Pisa. Dal 1998 è ricercatrice presso la Fst (Fabbrica Servizi Telematici) di Cagliari. La sua attuale attività scientifica si svolge nei settori del data mining e web mining. Su questi temi ha partecipato a diversi progetti di ricerca, workshop e conferenze internazionali. In particolare, ha lavorato ad analisi di dati nei domini della grande distribuzione e bancario, alla diagnosi di reti telematiche con tecniche di data mining e allo sviluppo di strategie intelligenti di proxy caching con l'impiego di tecniche di web mining. Lia Sannais Laureata nel 1996 in Ingegneria Elettrica presso l'Università di Cagliari con una tesi di elettronica applicata relativa a sistemi di acquisizione dati; ha collaborato col gruppo di Impianti Elettrici dell'Università di Cagliari allo sviluppo di programmi di ottimizzazione delle reti di media tensione e alla progettazione di dispositivi elettronici di protezione dai disturbi della tensione di alimentazione. In questo ambito ha conseguito il titolo di Dottore di Ricerca in Ingegneria Elettrotecnica presso l'Università di Pisa nel marzo 2000. Dal 1998 è ricercatrice presso Fst (Fabbrica Servizi Telematici) di Cagliari. La sua attuale attività scientifica si svolge nei settori del data mining e web mining. Su questi temi ha partecipato a diversi progetti di ricerca, workshop e conferenze internazionali. In particolare, l'attività di mining si è concentrata nei domini della grande distribuzione e delle telecomunicazioni, sviluppando sistemi di intrusion detection e strategie intelligenti di proxy caching. 87 Fondo Speciale Innovazione Unità Operativa 2.5 Ideare SpA Responsabile Dr. Antonio Gullì Presentazione Unità Operativa Descrizione dell’ente: Ideare è stata fondata nel 1999, come spin-off del progetto europeo Telematics ”EUROSEARCH LE4-8303”. Nel progetto i ricercatori di Ideare hanno sviluppato tecniche di classificazione automatica e di sommarizzazione di pagine Web, che costituiscono il nucleo della suite commerciale SearchTone. Arianna (the largest Search Engine with Italian content) is uses SearchTone for automatically building its Web Directory, which contains about 25.000 classified sites and more than 80.000 categorized pages. SearchTone is also used for suggesting relevant categories related to queries submitted to the traditional search engine. Ideare fornisce sia software e assistenza per l’avviamento di servizi Web, sia opera come Application Service Provider, in particolare per servidi di ricerca. Ideare si occupa di raccogliere e indicizzazione materiale Web da tutto il continente europeo, e fornisce ai propri clienti servizi di ricerca: i clienti di Ideare possono aggiungere funzionalità di ricerca ai propri siti trasmettendo le interrogazioni via rete alla server farm di Ideare e ricevendo le risposte in formato XML, che poi visualizzano ai propri utenti nel formato preferito all’interno delle pagine del loro sito. Competenze relative al progetto: Ideare ha notevoli competenze nel settore dei motori di ricerca, essendo tra i principali fornitori in Italia e in Europa di tecnologie di ricerca per il Web. Tra i clienti di Ideare si contano i principali portali nazionali, tra cui Italia OnLine, Tiscali, Dada, Interfree, Monrif, CiaoWev, Jumpy, Infocamere, RCS - Corriere della Sera. Tra i clienti europei si annovera Fireball, il maggiore motore di ricerca in Germania e le consociate Fiscali in tutti i paesei europei. Ideare ha inoltre sviluppato tecniche per l’individuazione di siti e la raccolta di documenti Web, utilizzando reti di workstation e tecniche di load balancing. Ideare ha realizzato inoltre servizi specializzati di ricerca di materiale multimediale (audio MP3, immagini e video) e di documenti WAP. Inoltre Ideare ha creato un servizio di accesso alle Usenet news integrato con i servizi di classificazione e ricerca. Una delle recenti aggiunte alla linea di prodotti di Ideare è uno strumento per il commercio elettronico: il servizio di confronto prezzi analizza in tempo reale i prezzi di prodotti in diverse categorie e li presenta in un formato omogeneo, con la stessa valuta. Partecipazione dell’Unità Operativa ai Workpackage del Progetto Ideare seguirà tutte le attività della azione 2. In particolare metterà a disposizione del progetto i dati contenuti nei propri database, che corrispondono ad oltre un milione di siti in tutta Europa. Questi database sono la fonte adatta di informazioni cui applicare le tecniche di Web mining del WP 2.1. Le tecniche del WP 2.2 rivestono vitale importanza per le attività di Ideare, in quanto l’espansione dei propri servizi si deve commisurare con la continua crescita del Web e del materiale da raccogliere e indicizzare. Ideare intende partecipare allo sviluppo di algoritmi di 88 Enhanced Content Delivery estrazione di porzioni di testo da indici compressi, al fine di migliorare la visualizzazione dei risultati delle interrogazioni. Ideare intende sperimentare le tecniche di HPC del WP 2.3 per distribuire le operazioni di ricerca sugli indici e di estrazione dei risultati da visualizzare ed è disponibile a mettere a disposizione le proprie server farm per la sperimentazione. Infine, la sperimentazione di tecniche di ricerca partecipativa del WP 2.4 apre interessanti prospettive a cui Ideare intende dare il proprio contributo di esperienze e competenze. Composizione dell’Unità Operativa e costi del personale Cognome Nome Data di nascita Luogo di nascita Qualifica Gullì Antonio 16/01/71 Taurianova dirigente (coordinatore) (RC) Dato Domenico 23/08/70 Taurianova dirigente (RC) Messineo Francesco Cosenza progettista Senior/ Junior Afferenza S Mesi/ Costo Persona Personale (MLire) Ideare SpA 3 25 S Ideare SpA 3 25 J Ideare SpA Totale 24 30 85 135 Tabella di riepilogo dei costi previsti U.O. Ideare Personale Strument. Materiali Attrezzature Missioni Totale % MURST 135 0 5 0 0 140 100 Personale 98,57142857 Strumentazione 30 Materiali Attrezzature 10,71428571 Missioni 0 37,5 Totale % MURST 214,2857143 Curriculum dei principali ricercatori Antonio Gullì Antonio Gullì è attualmente amministratore delegato di Ideare SpA. Egli ha ottenuto la laurea in Science dell’Informazione presso l’Università di Pisa nel 1997. Durante il 1996 ha collaborato con la “Scuola Normale Superiore” sviluppando un Web Server daemon che consente connessioni persistenti ad un RDBMS. Nel 1996 ha fatto parte del team di sviluppo di “Arianna” ed ha contribuito alla realizzazione del primo più grande motore di ricerca per lo spazio Web italiano. Egli ha sviluppato tecniche di gestione di robot per lo spidering distribuito. Nel 1997 ha partecipato all’iniziativa “Java Campus”, di Sun Italia, contributendo diverse applicazioni per connettere database, network monitoring e Web load balancing. Nel 1997 ha partecipato al progetto “Evolving Categorization for Web Search Engines”, finanzziato da HP, sviluppando tecniche di classificazione automatica di testi. Nel 1998 ha lavorato al progetto “Networked Community” ed al progetto europeo ”EUROSEARCH LE4-8303”, sviluppando le tecniche di categorizzazione, che in seguito hanno costitutito il nucleo della suite SearchTone commercializzata da Ideare. Nel 1999 ha fondato Ideare SpA, una ditta che si è specializzata in motori di ricerca, si di testi che di audio/video, classificazione automatica di documenti ed in generale servizi per 89 150 Fondo Speciale Innovazione portali Web. Nel 2000 Ideare è entrata a far parte del gruppo Tiscali ed ha espanso la sua attività in tutta Europa. Gullì è autore di diverse pubblicazioni scientifiche riguardanti le tecnologie dei motori di ricerca. Pubblicazioni recenti D. Dato, A. Gullì, G. Attardi, Web Host Enumeration Through DNS, Web Net '97, Toronto, 1997. G. Attardi, A. Gullì, F. Sebastiani, Theseus: Categorization by context, 8th Word Wide Web Conference, Toronto, Canada, 1999. G. Attardi, A. Gullì, F. Sebastiani, Automatic Web Page Categorization by Link and Context Analysis, European Symposium on Telematics, Hypermedia and Artificial Intelligence, Varese, 1999. 90 Enhanced Content Delivery 5. Tempi e modalità di esecuzione La durata complessiva del progetto è di 30 mesi. I 6 mesi finali saranno prevalentemente impiegati per la disseminazione dei risultati del progetto mediante azioni di promozione presso i principali portatori di interesse (aziende, comunità di utenti, università ed enti di ricerca). per la valutazione di eventuali follow-up del progetto con particolare riferimento alla possibile industrializzazione dei risultati. Il progetto è strutturato in due azioni: azione 1: XML and Digital Libraries azione 2: Mine the Web: Web search and delivery Milestones: Mese 0: Meeting di start-up (comune alle due azioni) Mese 12: Primo workshop con edizione degli atti (comune alle due azioni) Mese 24: Secondo workshop con edizione degli atti (comune alle due azioni) Mese 25-30: Azioni di disseminazione 91 Fondo Speciale Innovazione Project Management Per un’efficace coordinamento delle attività del progetto e per assicurare il suo regolare svolgimento in linea con il piano di lavoro, verrà utilizzata una struttura di gestione del progetto composta da: 1. Direttore del progetto 2. Comitato direttivo 3. Commissione di coordinamento Il Direttore del progetto è nominato dal Consiglio Direttivo del CNR ed è responsabile della gestione del progetto, tiene i rapporti con il MURST, segue lo svolgimento del progetto, presiede le riunioni del Comitato direttivo e convoca le riunioni del progetto. Egli è responsabile della consegna nei tempi e modi previsti dei risultati del progetto, e si incarica delle attività di disseminazione e contatti con l’esterno. Il Comitato direttivo è composto dal Direttore del progetto, da un rappresentante del CNR e da un rappresentante del mondo economico. Il compito del Comitato direttivo è di assistere il Direttore nei seguenti compiti: 1. verificare il progresso del progetto secondo il piano di lavoro 2. raccomandare opportuni interventi per eliminare eventuali ritardi 3. verificare i costi e la congruità delle spese 4. richiedere di rivedere o modificare: a. b. c. d. il piano di lavoro i costi o le tempistiche di singoli task la distribuzione del finanziamento tra i partner la data di terminazione del progetto La Commissione di coordinamento è composta dal Direttore del progetto più un rappresentante per ciascun Work Package. La Commissione di coordinamento ha il compito di: 1. assicurare che ciascun Work Package proceda regolarmente 2. assicurare che ciascun Work Package si coordini e produca i risultati necessari ad altri Work Package 3. informare tempestivamente il Comitato Direttivo di problemi che insorgano nel regolare svolgimento del lavoro. Piano di lavoro esecutivo Entro 15 giorni dalla data ufficiale di inizio del progetto, si dovrà tenere una riunione della Commissione di Coordinamento, nella quale verranno presentati ed approvati i piani di lavoro dettagliati per ciascun Work Package, suddivisi per task, con indicazione della tempistica, delle risorse necessarie e delle spese previste. Di ciascun deliverable dovrà essere indicato il costo complessivo di realizzazione, giustificandone la realizzazione nell’ambito del progetto sulla base di un confronto con i costi di acquisizione o di appalto a fornitori esterni. Analoga verifica di congruità verrà effettuata almeno semestralmente. 92 Enhanced Content Delivery Misure di controllo qualità Il progetto stabilirà degli standard di codifica e di testing per il software sviluppato nel progetto. In particolare ciascun software package dovrà contenere procedure ben documentate di installazione e di testing. Ciascun deliverable dovrà aderire a questi standard e superare i test previsti, prima di poter essere consegnato ed accettato. Una fase di beta test dei risultati compessivi del progetto verrà svolta durante gli ultimi 6 mesi del progetto per verificare che soddisfi i requisti di utenti effettivi dei sistemi. 93 Fondo Speciale Innovazione Risorse umane Le tabelle seguenti riassumono l’impegno in risorse umane, espresse in mesi/persona, delle unità operative (UO) nei workpackages (WP) delle due azioni del progetto. Tabella 2. Risorse umane – Azione 1 WP/UO Archit. Bibl. Dig. Ling. Interrog. XML Ontologie XML Annotazioni Estraz. Strutt. XML Totale ISTI 105 3 2 8 2 120 Poli.Mi U.Roma U.Mod. 4 108 5 2 4 2 2 50 2 119 36 42 3 57 U.Pad. Totale 4 43 47 117 113 61 51 43 385 Tabella 3. Risorse umane – Azione 2 WP/UO WebMining Indicizzazione e compressione Managing Terabytes Participatory Search Services Totale ISTI Dip.Inf. 65 ISI 60 25 55 Ideare 5 5 20 5 5 40 20 40 120 125 94 FST 20 Totale 18 168 30 80 45 18 323 Enhanced Content Delivery 6. Costo del progetto Tabella 4. Costi Azione 1 U.O. Personale Strument. Materiali Attrezz. Missioni Totale MURST CNR-ISTI-1 585 0 0 0 60 645 451,5 Poli-Milano 532 0 10 0 76 619 432,9 Univ.Roma3 199 25 15 6 40 285 200 Univ.Modena 195 30 20 10 60 315 220 Univ.Padova 195 30 10 5 30 290 203 Totale 1706 85 55 21 266 2154 1507,4 Tabella 5. Costi Azione 2 U.O. ISTI-CNR Dip. Inf Pisa ISI-CNR Ideare FST Totale Personale Strument. Materiali Attrezz. Missioni Totale % MURST 682 200 24 0 37,5 943 660 685 30 19 0 37,5 771,5 540,05 210 30 8 0 38,0 286 200,2 135 0 5 0 0,0 140 98 135 0 5 0 0,0 140 98 1847 260 61 0 113 2280,5 1596,25 95 Fondo Speciale Innovazione 7. Risorse del progetto DEI-IMS, Padova Il gruppo di ricerca di Sistemi di gestione delle informazioni (IMS) del Dipartimento di Elettronica e Informatica dell'Università di Padova dispone di un proprio laboratorio di ricerca dotato di alcune stazioni di lavoro Sun, con sistema operativo Solaris, X-terminal, e PC con sistema operativo Windows/NT; tutti i calcolatori sono connessi alla rete di dipartimento e in Internet. Il laboratorio dispone di apparecchiature di supporto al calcolo e alla gestione dei dati e delle informazioni di tipo bibliotecario.Dipartimento di Informatica, Pisa Il Dipartimento di Informatica dispone di diversi laboratori di ricerca attrezzati con apparecchiature e servizi di rete. In particolare il Laboratorio Multimediale dispone di 6 server di alte prestazioni, di 14 postazioni di PC, di 8 notebook, 8 hand held PC, in gran parte forniti da Hewlett-Packard come grant nel quadro dell’inziativa Internet, di cui il Dipartimento è risultato vincitore a livello Europeo, e da Sun Microsystems nell’ambito dell’inziativa Java Campus. Altre attrezzature sono disponibili per ciascun docente, ricercatore e dottorando. Infine a livello dipartimentale è disponibile una rete di server e un collegamento in una rete a fibra ottica privata dell’Università a livello cittadino e con la rete nazionale della ricerca GARR. ISTI-CNR Il CNUCE-ISTI e il Dipartimento di Informatica hanno dato vita congiuntamente al Pisa KDD Laboratory (http://www-kdd.cnuce.cnr.it) che dispone nelle due istituzioni di 2 server ad alte prestazioni, 8 postazioni di PC, ed un ricco parco di piattaforme software per database, data warehousing e data mining (IBM Intelligent Miner, ANGOSS Knowledge Studio, SFU DBMiner, Clementine, SAS Miner); la strumentazione hw e sw è in gran parte fornita nell’ambito di progetti di collaborazione con Microsoft Research, ANGOSS, DBMiner e IBM. L’istituto ISTI del CNR gestisce un laboratorio di ricerca, sviluppo e gestione dei servizi connessi alle tematiche delle biblioteche digitali. In particolare tale laboratorio supporta la biblioteca digitale di informatica e matematica del consorzio ERCIM (the European Research Consortium for Informatics and Mathematics). Tale biblioteca digitale (denominata ETRDL – Ercim Technical Reference Digital Library) consente la condivisione dei risultati di ricerca fra i ricercatori operanti nelle istituzioni appartenenti al consorzio, ed è una specializzazione di NCSTRL (Networked Computer Science Technical Reference Library) che raccoglie più di 130 enti di ricerca ed università in tutto il mondo. Ideare SpA La società Ideare SpA svolge servizi di indicizzazione e ricerca a livello sia nazionale che internazionale e dispone di gruppi di server per lo spidering del Web in diverse nazioni (Francia, Svizzera, Germania, Belgio, Italia), oltre a cluster di server multiprocessore in ciascuna nazione per lo svolgimento delle interrogazioni ai vari servizi. In ciascuna nazione sono inoltre disponibili dei disk server della Network Appliance da diverse centinaia di Giga Byte, dove vengono conservati gli indici e i documenti raccolti dal Web. 96 Enhanced Content Delivery 8. Collegamento con altri programmi di ricerca I partecipanti al progetto sono coinvolti nei seguenti progetti di ricerca: MURST ex. 40% INTERDATA (Univ. Modena e Politecnico di Milano) MURST ex. 40% DATAX (Politecnico di Milano) Corporation Integrated Multimedia Intelligent Assistant for Field Operators, Esprit Project 20840 (Univ. Modena) W3I3: Intelligent information interfaces for the World-Wide Web, Esprit Project 28771 (Politecnico di Milano) IDEA: Intelligent Datatabase Environments for Advanced Applications, Esprit Project P6333 (Politecnico di Milano) “European CHronicles On-line - ECHO” Partners: CNR, Istituto Trentino di Cultura, Institut National del’Audiovisuel – INA (Fr), Centre National de la Recherche Scientifique – CNRS-LIMSI (Fr), Tecmath GmbH (D), University of Mannheim, Media Site Ltd (UK), Stichting Nederlands Audiovisueel Archief – NAA (NL), Universiteit Twente, Istituto Luce, Carnegie Mellon University (US), Memoriav (CH), Eurospider Information Technology (CH). Durata del progetto: 30 mesi. Data di inizio: Marzo 2000. Il progetto è finanziato dal programma Europeo IST. Il progetto è coordinato dal CNR-ISTI. “A Digital Library Testbed to Support Networked Scholarly Communities – SCHOLNET” Partners: CNR, European Research Consortium for Informatics and Mathematics – ERCIM, Masaryk University (Cz), Foundation for Research and Technology – FORTH-ICS (Gr), GMD-IPSI (D), INRIA (Fr), Swedish Institute of Computer Science – SICS (S) Durata del progetto: 30 mesi. Data di inizio: Novembre 2000. Il progetto è finanziato dal programma Europeo IST. Il progetto è coordinato dal CNR-ISTI. “An Open Collaborative Virtual Archive Environment – CYCLADES” Partners: CNR, European Research Consortium for Informatics and Mathematics – ERCIM), Foundation for Research and Technology – FORTH-ICS (Gr), GMD-FIT (D), University of Dortmund. Durata del progetto: 30 mesi. Data di inizio: Febbraio 2001. Il progetto è finanziato dal programma Europeo IST. Il progetto è coordinato dal CNR-ISTI. “Network of Excellence on Digital Libraries – DELOS” Partners: Fanno parte di questa rete di eccellenza 35 enti Europei (Università, Enti di Ricerca, Biblioteche, Archivi, Industrie dell’Editoria Elettronica, Industrie del Broadcasting, Industrie del Software) Durata del progetto: 36 mesi. Data di inizio: Gennaio 2000. Il progetto è finanziato dal programma Europeo IST. Il progetto è coordinato dal CNR-ISTI. 97 Fondo Speciale Innovazione 9. Ulteriori risorse pubbliche utilizzabili La quota di autofinanziamento è coperta oltre che dagli enti dei consorzi proponenti dai seguenti progetti finanziati: Ente MURST MURST Regione Calabria Microsoft Research Microsoft Research FST Ideare Programma Interesse nazionale 1998 Interesse nazionale 1999 Progetto Agenti Intelligenti: Information Acquisition Algorithms for Large Data Sets: Science and Engineering TelCal Web Computing and Adaptive Agents KDD Lab. MineFaST Ricerca e classificazione di documenti Web Partecipante Dipartimento di Informatica, Pisa CNUCE Dipartimento di Informatica, Pisa CNUCE-CNR ISI-CNR Dipartimento di Informatica, Pisa Dipartimento di Informatica, Pisa Dipartimento di Informatica, Pisa CNUCE FST Dipartimento di Informatica, Pisa Il progetto potrà sviluppare utili sinergie con i progetti Europei elencati in precedenza (ECHO, SCHOLNET, CYCLADES, DELOS). In particolare, esso potrà utilizzare piattaforme e strumenti software sviluppati nell’ambito di questi progetti. Inoltre, lo stabilire di rapporti di collaborazione con questi progetti permetterà ai ricercatori Italiani di scambiare esperienze di lavoro, approcci, tecniche e metodologie con i loro colleghi Europei. La presenza del CNR in tutti questi progetti nella parte di coordinatore garantisce che verranno stabiliti rapporti di effettiva collaborazione. 10. Ricadute tecnico-scientifiche e socio-economiche Gli indirizzi strategici dei governi nazionali e degli organismi sovranazionali, quali l’Unione Europea, fanno costante riferimento allo scenario della Società dell’Informazione, caratterizzata da uno spazio globale delle comunicazioni e dell’economia, favorita dalle tecnologie dell’informazione e della comunicazione e sostanzialmente legata all’avvento di Internet. Nella Società dell’Informazione il diritto di cittadinanza per le persone e le organizzazioni è sostanzialmente legato alla possibilità dell’accesso alle informazioni, ovvero alla disponibilità di strumenti che consentano di reperire con affidabilità e rapidità le fonti e i servizi di informazione pertinenti alle esigenze e alle attività culturali ed economiche dei cittadini e delle organizzazioni. La rilevanza socio-economica di una nuova generazione di strumenti intelligenti per l’accesso al Web appare quindi di vasta portata, specie a fronte del sovraccarico di informazione (information overload) che caratterizza il Web, e che può determinare in prospettiva l’esclusione sociale. La competizione globale per conquistare un ruolo preminente nei servizi di accesso al Web è tutt’altro che conclusa, e non è affatto stabilito che l’industria statunitense del software debba 98 Enhanced Content Delivery avere anche in questo settore un controllo pressoché completo, come è avvenuto per il settore delle basi di dati. La partita si giocherà sulla capacità di recepire le esigenze di accesso e tradurle in termini di servizi intelligenti, e la tradizione della ricerca informatica europea in generale e italiana in particolare è ottimamente attrezzata allo scopo, stante la sua natura interdisciplinare fra le basi di dati, l’intelligenza artificiale e le metodologie innovative di programmazione. Dal punto di vista industriale, alcune imprese italiane di piccole o medie dimensioni, fra cui quelle impegnate nel progetto, appaiono in grado di ingegnerizzare le proposte e i prototipi del progetto proposto: gli strumenti intelligenti di accesso sono sistemi knowledge-intensive, che richiedono risorse umane e materiale cospicue per il loro progetto ma non necessariamente per la loro realizzazione. Il progetto svilupperà un’architettura per una biblioteca digitale aperta, basata su concetti innovativi, capace di garantire l’interoperabilità fra archivi e collezioni digitali, dove XML costituirà un paradigma di importaza via via crescente. L’interoperabilità fra biblioteche digitali è un fattore chiave per proporre le biblioteche digitali come un nuovo modello di comunicazione scientifico-culturale e imporle come una credibile alternativa alle biblioteche tradizionali e alle basi di dati accessibili attraverso il Web. Il termine interoperabilità è vasto e abbraccia molti aspetti degli archivi: modelli di metadati, architetture aperte, accesso ad archivi in un contesto interdisciplinare, ecc. Il progetto avrà un significativo impatto scientifico su tematiche quali modelli descrittivi di risorse in rete, algoritmi per la ricerca di informazioni distribuite su archivi eterogenei in rete, interoperabilità fra sistemi software, tecniche e strutture di indicizzazione. L’interoperabilità fra archivi/biblioteche digitali è inoltre importante perchè offre sostanziali benefici agli utenti supportando efficacemente le attività di “information discovery” e di “delivery” da biblioteche digitali eterogenee e multidisciplinari. Inoltre, l’interoperabiltà fra archivi/biblioteche digitali permetterà la creazione di servizi di intermediazione cioè, servizi che integrano ed elaborano informazione proveniente da diversi singoli archivi/biblioteche ed offrono ulteriori funzionalità di supporto agli utenti di biblioteche digitali interoperanti. La ricerca scientifico-tecnologica ha un enorme impatto sulla vita socio-economica di un paese. L’innovazione tecnologica è alla base di tutto il progresso (economico, sociale, culturale, ecc.). Essa rende più competitive le industrie, migliora il livello dei servizi, contribuisce alla protezione dell’ambiente, ecc. Questo progetto svilupperà un’architettura di biblioteca digitale che permetterà a ricercatori, scienziati, studiosi ecc. di avere un largo accesso a grandi collezioni scientifiche e trovare più facilmente ed efficacemente le informazioni cercate. Produrrà inoltre significativi cambiamenti nel modo con cui gli studiosi comunicano i risultati delle loro ricerche. In sostanza, il progetto si prefige di sviluppare una biblioteca digitale quale testbed per migliorare la qualità del lavoro e la produttività dei suoi utenti. 99