6. Costo del progetto - Laboratorio Multimediale

Technologies and Services for
Enhanced Contents Delivery
Tecnologie per arricchire e
fornire accesso a contenuti
Fondo Speciale Innovazione 2000
“I concetti di accesso e di rete stanno acquisendo un’importanza crescente, proprio come era
accaduto con la nozione di proprietà e mercato agli albori dell’età moderna. Sino alla fine
degli anni Novanta, la parola accesso era usata solo occasionalmente, e, in genere, era
riferita a questioni attinenti l’ammissione a spazi fisici determinati. Oggi, accesso è uno dei
termini più usati nella vita sociale: quando lo sentiamo, probabilmente siamo portati a
pensare a nuovi universi di possibilità e oppportunità. È diventato il titolo per accedere al
progresso e alla soddisfazione personale e possiede una potenza evocativa pari a quella
che, per le passate generazioni, ha avuto la visione democratica. È un vocabolo denso di
suggestioni e carico di significati politici. Parlare di accesso, dopotutto, significa parlare di
distinzioni e divisioni, di chi sarà incluso e chi sarà escluso. L’accesso sta diventando un
potente strumento concettuale per riformulare una visione del mondo e dell’economia, ed è
destinato a diventare la metafora più efficace della nuova era.”
da Jeremy Rifkin, L’era dell’accesso. Mondadori, 2000.
ISTI
Fondo Speciale Innovazione
1. Summary
The project will focus on developing tools and technologies for delivering enhanced
contents to final users. This entails identifying relevant material from various sources,
transforming it, adding to it metadata and other useful distinguishing information, organizing it
and delivering the most relevant material to interested users in a timely fashion.
Digital and network technologies provide new means for content delivery, in particular:

Digital Libraries

Web search and delivery
A number of services are provided to user for accessing the content in Digital Libaries and on
the Web including: search engines, thematic catalogues, media collections (audio, video,
WAP, ecc.) and advanced digital library services. The project aims at developing or
improving the technologies required for providing these services.
This goal entails meeting a number of stimulating research challenges:

Developing new algorithms for indexing and for searching compressed indexes

Exploiting high performance techniques for fast response to huge number of queries
on vast amount of data

Deploying Web Mining techniques for determining:
 Ranking or authority of documents
 Improving spidering and caching performance
 Document classification

Developing participatory search services

Developing an open architecture for distributed Digital Libraries

Exploiting XML as notation for document structuring and metadata

Providing access to multimedia documents in Digital Libraries

Expressing and processing queries on XML schemas

Advanced user services: like document annotations, notification, group work support.
Putting these technologies together for building the next generation of content delivery
systems is an ambitious goal but vital to avoid that this new raising field be dominated by non
European companies, as it has happened for the field of data bases.
2
Enhanced Content Delivery
2. Sommario
Il progetto si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti
arricchiti (enhanced contents delivery) agli utenti finali. Ciò consiste nell’identificare
materiale digitale presente su fonti diverse, trasformarlo, organizzarlo, aggiungervi metadati
e informazioni utili a qualificarlo e fare giungere agli utenti il materiale più rilevante per i loro
interessi.
Le tecnologie di rete e digitali offrono nuovi mezzi di distribuzione di contenuti, in particolare:

Biblioteche digitali

Ricerca ed accesso sul Web.
I servizi di accesso offerti agli utenti di questi mezzi includono i motori di ricerca, i cataloghi
tematici, le collezioni a soggetto (audio, video, WAP, ecc.) e i servizi avanzati delle
biblioteche digitali. In questo progetto ci si propone di sviluppare o migliorare le tecnologie
necessarie per mettere in funzione questi servizi.
Questo obiettivo richiede di affrontare stimolanti problemi di ricerca:

Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso

Sfruttare tecniche di High Performance Computing per fronteggiare le moli dei dati e il
numero di utenti dei servizi

Sviluppo di tecniche di Web Mining per determinare:
 rank o autorevolezza delle fonti
 come migliorare le prestazioni di spidering e caching
 come classificare i documenti

Sviluppo di servizi di ricerca partecipativa e decentralizzata

Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite

Utilizzo di XML per strutturare documenti ed esprimere metadati

Fornire accesso a documenti multimediali nelle Digital Libraries

Formulare e rispondere a interrogazioni su schemi XML

Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica,
supporto al lavoro di gruppo.
Combinare queste tecnologie per costruire i sistemi di prossima genernazione per arricchire
e fornire accesso a contenuti è un obiettivo ambizioso ma strategico per evitare che questo
settore emergente sia dominato da aziende non europee, come è avvenuto per un settore
altrettanto vitale quale quello dei database.
3
Fondo Speciale Innovazione
2. Oggetto
Il progetto si concentra sullo sviluppo di tecnologie e strumenti per offrire contenuti
arricchiti (enhanced contents delivery) agli utenti finali. Ciò consiste nell’identificare
materiale digitale presente su fonti diverse, trasformarlo, organizzarlo, aggiungervi metadati
e informazioni utili a qualificarlo e fare giungere agli utenti il materiale più rilevante per i loro
interessi.
Le tecnologie di rete e digitali offrono nuovi mezzi di distribuzione di contenuti, in particolare:

Biblioteche digitali

Ricerca ed accesso sul Web.
Le biblioteche digitali contengono materiali in vari media, tradizionalmente raccolti ed
organizzati da esperti bibliotecari che li rendono disponibili tramite strumenti sofisticati di
recupero di informazioni. Le biblioteche digitali sono spesso orientate ad una utenza
professionale, che richiede strumenti di ricerca avanzati o di compiere operazioni speciali sul
materiale (ad esempio trasformazioni di digital imaging o estrazioni di testo da sorgenti
audio).
La ricerca sulle biblioteche digitali deve affrontare il compito di gestire e rendere coerenti,
usabili ed accessibili grandi quantità di materiali. La ricerca si sta orientando quindi su
strumenti per la ricerca intelligente, il recupero, l’organizzazione e la presentazione; su nuovi
tipi e strutture informative, su codifiche di documenti e metadati atti ad arricchirne il contesto
informativo.
Il Web fornisce una struttura informativa distribuita, caratterizzata da flessibilità, evoluzione
rapida e decentralizzazione. I documenti Web mostrano un’ampia variabilità nei tipi, nel
formato e nella qualità; al Web manca un’organizzazione generale anche se a volte
emergono forme di auto-organizzazione (ad es. cataloghi Web o raccolte tematiche). I motori
di ricerca sul Web sono orientati ad utenti comuni senza particolari competenze.
Sia le biblioteche digitali sia il Web tendono a fornire interfacce e infrastrutture per agevolare
il lavoro intellettuale (trovare, creare e disseminare conoscenze), inserendo il materiale in un
contesto complessivo persistente e strutturato, nonostante la rete sottostante sia in continua
evoluzione.
Per entrambe le infrastrutture si possono immaginare forme simili di servizi avanzati:
selezione per categorie, filtraggio in base agli interessi, annotazioni di gruppo o personali,
avvisi o filtri basati su profili personali degli utenti.
Tuttavia, mentre le biblioteche digitali trattano materiale già ben organizzato e strutturato, la
ricerca su Web deve trattare una varietà di materiali spesso caoticamente organizzati. Perciò
ai materiali Web occorre applicare una fase di scoperta ed analisi in grado di estrarre
proprietà e struttura dai documenti, rendendo possibili gli stessi servizi avanzati disponibili su
collezioni di documenti meglio strutturati.
Il Web mining consiste nello svolgere questo compito applicando le tecniche sviluppate nei
settori del data mining e dell’estrazione di conoscenze. Le informazioni estratte dai
documenti Web potranno essere espresse con opportune ontologie descritte in notazione
XML, in modo da facilitarne l’interscambio, anche con le biblioteche digitali. Tuttavia, anche
se XML e gli schemi XML sono una soluzione adatta per esprimere la struttura ed il
significato dei documenti Web, per la natura decentralizzata ed autonoma del Web sarà
improbabile che i documenti vengano creati direttamente con la struttura adatta. Pertanto
sarà sempre necessario l’utilizzo di tecniche di Web mining per fornire coerenza a questi
materiali.
4
Enhanced Content Delivery
I passi di scoperta e analisi costituiscono una fase intermedia tra le fonti ed i servizi di
accesso forniti agli utenti, come indicato in questa figura:
Discovery/
fetching
Digital
collection
Delivery/
query
Digital Library/
Web search
Web search
Im age search
Audio search
Intranet
material
News search
Price search
Extranet
material
Classification
WAP search
Web Mining
Inform. extraction
Raw
material
Context analysis
Indexing
Contents Access &
Delivery Services
Enhanced
Contents
Compression
Figura 1. Contents delivery.
I servizi di accesso offerti agli utenti includono i motori di ricerca, i cataloghi tematici, le
collezioni a soggetto (audio, video, WAP, ecc.) e i servizi avanzati delle biblioteche digitali. In
questo progetto ci concentriamo sulle tecnologie necessarie per mettere in funzione questi
servizi.
Le tecnologie di spidering servono ad identificare e prelevare il materiale di interesse. Le
tecnologie di information extraction e di Web mining vengono applicate per trasformare il
materiale originale, estraendo e selezionando le parti rilevanti, generando metadati, sommari
e classificando il materiale. Infine il materiale arricchito viene reso in una forma che ne
agevola l’accesso, ad esempio utilizzando tecniche di indicizzazione e compressione per
costruire indici che ne consentano la ricerca o presentandolo con opportune interfacce sul
Web.
La pura mole del materiale presente nelle collezioni Web e l’elevato numero di utenti del
Web richiede progressi in tecnologie di base, dagli algoritmi alle strutture dati per
l’indicizzazione e la ricca su indici compressi, dall’ottimizzazione delle query alla loro
distribuzione su server farm.
Combinare tutte queste tecnologie per costruire la prossima generazione di sistemi di
accesso ai contenuti è un obiettivo ambizioso, ma necessario per mantenere una presenza
competitiva dell’industria europea in questo nuovo emergente settore.
5
Fondo Speciale Innovazione
4. Obiettivi specifici
Il progetto si articola in due azioni, una orientata ai servizi per le bilbioteche digitali, e una
orientata ai servizi per l’accesso a materiale Web.
Nella Azione 1 si studiano le questioni legate al trattamento di materiale strutturato e
organizzato o da organizzare in una Biblioteca Digitiale.
In questa azione si affrontano i seguenti problemi:

Sviluppo di un’architettura aperta per Biblioteche Digitali distribuite

Utilizzo di XML per strutturare documenti ed esprimere metadati

Fornire accesso a documenti multimediali nelle Biblioteche Digitali

Formulare e rispondere a interrogazioni su schemi XML

Sviluppo di ontologie per i contenuti delle Biblioteche Digitali

Sviluppare servizi avanzati per gli utenti quali: annotazioni di documenti, notifica,
supporto al lavoro di gruppo.
Nella Azione 2 si affrontano le questioni legate al trattamento di materiale Web, ed in
particolare all’indicizzazione ed alla ricerca, all’analisi e alll’estrazione di informazioni che
arricchiscono i documenti migliorano la qualità dei servizi.
In questa azione si affrontano i seguenti problemi:

Sviluppo di algoritmi per indicizzare e ricercare documenti in formato compresso

Sfruttare tecniche di High Performance Computing per fronteggiare le moli dei dati e il
numero di utenti dei servizi


Sviluppo di tecniche di Web Mining per determinare:
 rank o autorevolezza delle fonti
 come migliorare le prestazioni di spidering e caching
 come classificare i documenti
Sviluppo di servizi di ricerca partecipativa e decentralizzata
Le due azioni sono collegate in più punti: ad esempio le tecniche di indicizzazione e ricerca
possono essere applicate alle biblioteche digitali, le tecniche di accesso a documenti
multimediali possono essere applicate a collezioni di media presenti sul Web, la
classificazione di documenti utilizza gerarchie di concetti derivate da ontologie. Pertanto si
prevede che le due azioni si coordinino e tra loro si sviluppino proficue sinergie.
6
Enhanced Content Delivery
Azione 1. Biblioteche Digitali XML
L’integrazione e l’utilizzo di risorse di calcolo, telecomunicazioni e informazione digitale, in
presenza di una costante diminuzione dei costi di digitalizzazione e di una sempre maggiore
convergenza/integrazione di tipi di media precedentemente separati hanno creato le
condizioni per lo sviluppo di nuove infrastrutture e ambienti in grado di permettere attività,
individuali o collettive, basate su informazioni distribuite accessibili in rete.
Il concetto di “biblioteca digitale” nasce dalla sua analogia con la biblioteca tradizionale: uno
spazio fisico, o deposito, contenente una collezione organizzata di documenti, insieme a
sistemi e servizi atti a facilitare l’accesso fisico ed intellettuale ai documenti e la loro
conservazione.
Inizialmente l’enfasi è stata data alla conversione retrospettiva dei documenti cartacei in
documenti digitali. Queste versioni digitali offrono: accesso indipendente da distanza, ricerca
full text, metodi più potenti per il recupero tempestivo di informazioni rilevanti. Gli investimenti
nella conversione retrospettiva dal supporto cartaceo alla forma digitale sono in continua
crescita.
In parallelo, l’emergere delle tecnologie Internet e Web ha contribuito ad accrescere la
consapevolezza che possono essere creati nuovi tipi di documenti che non hanno un
equivalente cartaceo ma che esistono soltanto in un mondo digitale.
Le tecnologie necessarie alla creazione di biblioteche digitali sono molto diverse da quelle
relative alle biblioteche tradizionali. Infatti, l’informazione digitale si trasferisce con una
velocità incomparabilmente maggiore, può essere archiviata su scale di densità molto più
elevata e può integrarsi in nuovi tipi di documenti che includono testo, immagini, grafica,
video, audio, ecc.
In sostanza, le biblioteche digitali includono le prestazioni offerte dalle biblioteche tradizionali
ma vanno ben oltre in termini di funzionalità, portata e significato. Possiamo, quindi, definire
una Biblioteca Digitale come un ambiente dove si mettono in relazione collezioni, servizi e
persone lungo l’intero ciclo di vita della informazione, dalla creazione, disseminazione,
utilizzo, fino alla conservazione.
Le tecnologie delle biblioteche digitali hanno il potenziale di influenzare profondamente
alcuni aspetti che riguardano il modo di lavorare con l’informazione sotto forma di
documento. L’impatto dei cambiamenti previsti sarà vasto, ma in alcuni settori sarà anche
profondo. Un settore particolarmente interessato a questi cambiamenti è quello che riguarda
i nuovi modelli della diffusione/disseminazione dell’informazione scientifica.
Le Bibioteche Digitali, considerando anche il loro contenuto multimediale, costituiscono un
importante segmento della gamma di informazioni più organizzate che sono e saranno
disponibili su Web.
In quest’ottica, un ulteriore fattore che sicuramente avrà un impatto crescente sulla
tecnologia delle Bibioteche Digitali, sia in termini di documenti gestiti che di metadati
descrittivi del loro contenuto, è il crescente affermarsi dello standard XML.
XML (eXstensible Markup Language), proposto dal World Wide Consortium (W3C),
recentemente si è manifestato come nuovo standard per la rappresentazione di dati e lo
scambio di documenti sia nella comunità Web che nella comunità sociale. XML è un
linguaggio per la marcatura di documenti ideato per rendere le informazioni "self-describing".
A differenza di HTML, l’attuale standard su Web, XML non si preoccupa dello stile di
presentazione del documento (XML Style Sheet), ma della descrizione del contenuto. I
marcatori usati in XML possono essere decisi dal creatore del documento e quindi possono
essere usati per spiegare il significato delle informazioni (es. prezzo, quantità, colore e così
7
Fondo Speciale Innovazione
via). Questo apre nuove prospettive nell’area di accesso a biblioteche digitali tramite Web,
dato che diventerà lo standard di interoperabilità per molte di queste.
L’obiettivo finale di questo progetto è di sviluppare le tecnologie necessarie per abilitare lo
sviluppo di una nuova generazione di Biblioteche Digitali basate su XML. Le attività di ricerca
porteranno sviluppi nelle seguenti direzioni:

L’utilizzo di XML come strumento per la definizione dei metadati e eventualmente dei
documenti digitali, nonché per la specifica delle caratteristiche della biblioteca digitale
e della sua interfaccia con il mondo esterno, costituiscono un’importante premessa per
garantire l’interoperabilità tra le diverse componenti funzionali (i.e., servizi) di un
sistema per biblioteche digitali.

La definizione di un linguaggio di interrogazione per XML aprirà nuove ed importanti
direzioni di ricerca applicata rispetto alle esigenze delle bibioteche digitali. Infatti,
supponendo che i documenti multimediali siano descritti in XML, sarà possibile
accedere a queste sorgenti per mezzo di interrogazioni semanticamente espressive,
sfruttando a pieno la struttura del documento.

La costruzione di un’ontologia di Biblioteche Digitale, che sia capace di rappresentare
una vista virtuale di ogni singola Biblioteca Digitali locale e che definisca le regole di
mapping tra le viste delle singole Biblioteche Digitali locali, può essere di grande
ausilio agli utenti nel capire il contenuto delle varie Biblioteche Digitali e quindi nel
formulare e indirizzare le interrogazioni.

La possibilità per diverse classi di utenti di annotare (soprattutto sfruttando la struttura
XML del documento) i documenti di una Biblioteca digitale, e la possibilità di generare
in modo automatico collegamenti tra documenti e annotazioni, può consentire di
ottenere una descrizione sintetica del contenuto semantico del documento e di
reperire altri documenti con un contenuto pertinente agli interessi dell'utente.
La generazione automatica di wrapper XML può essere utilizzata per integrare
documentazione elettronica disponibile in formati diversi da XML (com’è nella gran parte dei
casi attuali di Biblioteche Digitali disponibili) in Biblioteche Digitali basate su XML.
8
Enhanced Content Delivery
Work Package 1.1. Architettura aperta per Biblioteche Digitali XML
1.1.1 Stato dell’arte
Una biblioteca digitale è stata definita come “un’istituzione che realizza e/o supporta,
almeno, i servizi di una biblioteca tradizionale nel contesto di collezioni di documenti digitali
distribuite e accessibili attraverso la rete - (N. Belkin) ”.
Diverse sperimentazioni sono state portate a termine ed altre sono attualmente in corso per
far si che le biblioteche digitali garantiscano un completo servizio di gestione degli oggetti
digitali che vada ben oltre la semplice funzionalità di ricerca remota e distribuita. Tale
servizio, infatti, deve necessariamente includere le funzionalità per l’organizzazione e la
preservazione degli oggetti digitali, il controllo del copyright, il controllo delle versioni e
l’aggiornamento delle stesse, l’accesso facilitato e personalizzabile alle collezioni di
documenti.
A fronte di questo enorme lavoro per il supporto di funzionalità che permettono una completa
gestione delle biblioteche digitali, poco è stato fatto nel campo dell’interoperabilità tra diverse
biblioteche, anche se un’importante iniziativa in questo senso (The Open Archives Initiative)
è iniziata alla fine del 1999.
L’istituto ISTI è stato particolarmente attivo in questi ultimi anni nelle attività di ricerca,
sviluppo e gestione dei servizi connessi alle tematiche delle biblioteche digitali. In particolare,
questa attività ha portato alla realizzazione della biblioteca digitale di informatica e
matematica del consorzio ERCIM (the European Research Consortium for Informatics and
Mathematics). Tale biblioteca digitale (denominata ETRDL – Ercim Technical Reference
Digital Library) consente la condivisione dei risultati di ricerca fra i ricercatori operanti nelle
istituzioni appartenenti al consorzio, ed è una specializzazione di NCSTRL (Networked
Computer Science Technical Reference Library) che raccoglie più di 130 enti di ricerca ed
università in tutto il mondo.
1.1.2 Obiettivi Strategici
Un’architettura per biblioteche digitali viene detta aperta quando la funzionalità complessiva
viene partizionata in un insieme di servizi autonomi ben definiti ed interoperanti fra loro;
servizi che possono essere distribuiti o replicati.
In questo particolare contesto l’utilizzo di XML come strumento per la definizione dei
metadati e eventualmente dei documenti digitali nonché per la specifica delle caratteristiche
della biblioteca digitale e della sua interfaccia con il mondo esterno, costituiscono un
importante premessa che può garantire l’interoperabilità tra le diverse realizzazioni di
biblioteche.
Ciascuno di questi servizi sarà accessibile mediante un protocollo ben definito che definisce
l’interfaccia pubblica per quel servizio. Il protocollo consisterà di un insieme di richieste di
servizio, ognuna delle quali sarà definita in termini del formato della richiesta, del formato
della possibile risposta, delle eccezioni e della semantica della richiesta.
Un servizio sarà istanziato da un modulo software, chiamato server, la cui effettiva
implementazione sarà trasparente ed irrilevante per quanto riguarda l’aspetto
dell’interoperabilità. Per interoperabilità di un servizio s’intende la sua capacità di comunicare
attraverso un protocollo predefinito con altri servizi.
Un’architettura aperta così concepita consente un’estensibilità dei servizi forniti dalla
biblioteca digitale teoricamente illimitata. Il nucleo di servizi che sono necessari per fornire
una funzionalità basilare sono:
9
Fondo Speciale Innovazione

Servizio di naming. Gli oggetti digitali contenuti in una biblioteca digitale sono
identificabili attraverso dei nomi persistenti e unici in tutta la biblioteca. Il servizio di
naming avrà lo scopo di gestire la creazione, registrazione dei nomi unici e la loro
risoluzione negli indirizzi fisici dei server di archiviazione.

Servizio di archiviazione. Questo servizio fornisce i meccanismi per l’archiviazione e
l’accesso degli oggetti, nonché la presentazione della loro struttura.

Servizio di indicizzazione. Questo servizio consente la ricerca di oggetti digitali (sia
testuali sia multimediali) attraverso indici estratti automaticamente dagli oggetti
contenuti negli archivi.

Interfaccia Utente. Questo servizio costituisce il punto di accesso dell’utente alla
biblioteca digitale.

Servizio di collezione. Questo servizio fornisce i meccanismi per aggregare
dinamicamente insiemi di oggetti digitali contenuti nella biblioteca digitale in collezioni
che sono significative dal punto di vista di una certa comunità. Per collezione
intendiamo un insieme di oggetti digitali, un insieme di servizi che possono essere
utilizzati su tali oggetti e un insieme di politiche di accesso agli stessi.
1.1.3 Approccio ed obiettivi specifici
L’obiettivo di questo work package è di sviluppare un’architettura aperta per un sistema di
biblioteca digitale. Tale attività si concentrerà sulla definizione di un sistema di biblioteca
digitale sia dal punto di vista funzionale che da quello architetturale, specificando il flusso
informativo interno ed i protocolli di comunicazione fra i vari servizi.
Gli obiettivi del lavoro condotto in questo work package saranno limitati a un sottoinsieme dei
servizi di una biblioteca digitale:
1. estensione del servizio di archiviazione in modo da supportare oggetti digitali
complessi. In particolare ogni istanza di un oggetto avrà una struttura logica i cui
componenti sono le viste e i segmenti. Le viste sono la rappresentazione strutturale
del contenuto degli oggetti. Ad esempio un oggetto rappresentante un brano musicale
può avere come vista lo spartito musicale e la sua riproduzione sonora. Le viste
costituiscono una rappresentazione alternativa del contenuto e non sono correlate tra
loro. Ogni vista sarà organizzata in segmenti strutturati gerarchicamente. Ad esempio
la vista che rappresenta un libro può contenere una struttura gerarchica i cui elementi
sono i segmenti “capitolo” costituiti a loro volta dai segmenti “paragrafo”. In tale
contesto si esplorerà la possibilità di rappresentare tali oggetti digitali utilizzando il
linguaggio XML.
2. estensione del servizio di indicizzazione: verranno sviluppate e sperimentate nuove
strutture efficienti che consentano di effettuare la ricerca per similitudine su oggetti
XML, contenenti anche componenti multimediali. Queste strutture di accesso saranno
usate durante la fase di esecuzione delle interrogazioni, determinando strategie
efficienti per l'esecuzione di interrogazioni complesse.
3. estensione del servizio di Query Mediator che interpreti interrogazioni specificate sia
su metadati, che su schemi XML e sul testo contenuto nei documenti XML, utilizzando
in maniera opportuna i servizi di indicizzazione.
Questi obbiettivi tecnici saranno dimostrati in un prototipo di sistema aperto per Biblioteche
Digitali XML chiamato OPENLIB, basato su di un’architettura aperta di servizi, distribuiti in
rete, e tra loro interoperabili tramite in protocollo pubblico. Questo prototipo sarà
un’estensione del sistema Dienst-6, realizzato in PEARL, in collaborazione con la Cornell
University, e verrà modificato in modo da supportare documenti e metadati scritti in XML. La
realizzazione di OPENLIB avverrà in stretta collaborazione col del progetto europeo
10
Enhanced Content Delivery
SCHOLNET (A Digital Library Testbed to Support Networked Scholarly Communities - 5th
Framework), di cui l'ISTI è coordinatore. Questo ci fornisce l'opportunità di intervenire nella
fase iniziale del progetto SCHOLNET (che può essere visto come cofinanziamento del
nostro progetto) per prevedere la possibilità di estendere alcuni servizi di base (Repository,
Indexing, Query Mediator) senza doverli realizzare per intero, in modo da supportare le
estensioni per la gestione di documenti XML, e per aggiungere nuovi servizi ottenibili dagli
altri WP (i.e., WP1.2, WP1.3, WP1.4, WP1.5) del progetto. Si noti che OPENLIB non si
propone di gestire solo documenti tradizionali di biblioteche digitali, quali articoli scientifici,
rapporti tecnici, proceedings, etc.) ma anche documenti multimediali, quali presentazioni
animate, tutorial, lezioni, sessioni di training, demo. Tutti questi oggetti sono profondamente
influenzati dalla tecnologia XML (ad esempio, SMIL 2).
Un altro importante aspetto è che OPENLIB si propone come architettura non solo per
gestire biblioteche digitali controllate in maniera tradizionale, in cui gli oggetti sono inseriti da
esperti che ne controllano il contenuto e lo catalogano secondo schemi di metadati
predefiniti, ma anche per gestire biblioteche digitali aperte in cui gli oggetti sono mediati dal
Web da processi automatici, secondo criteri di harvesting diretti da definizioni di metadati
(andando nella direzione del WebWarehouse partendo da una diversa prospettiva
tecnologoca). Questo processo diventa particolarmente interessante nel caso di documenti
XML, come nel caso del nostro progetto (vedi WP1.3, WP1.5, WP2.1)
I prototipi realizzati negli altri workpackages, per implementare nuove funzionalità basate su
XML, interopereranno con i servizi costituenti questa architettura tramite un protocollo
pubblico (vedi figura seguente).
search &
retrieve
UI
lts
n
sca xes
e
ind
exten
query ded
Query
Mediator
scan ry
sito
repo
dis ret
se rie
m ve
ina
tio
n
repository
naming
service
Index
ex
tra
inf ct i
or nd
m ex
at
ion ing
XML
lve
reso e
nam
WP 1.2
XML-Client
u
ery res
get qu
File ps,
pdf,
html, XML
WP 1.1
Interoperable
Infrastucture
WP 1.4
Annotation
WP 1.3
XMLOntology
WP 1.5
XMLStructure
Extraction
Figura 2. Architettura aperta per Biblioteche Digitali basate su XML
11
Fondo Speciale Innovazione
1.1.4 Obbiettivi e Deleverables
Obiettivo: O1.1.1
Titolo:
Definizione e sviluppo di una architettura aperta e distribuita di Biblioteca
Digitale (OPENLIB), conforme agli standard OAI, basata su Servizi
estendibili e interoperabili, capace di supportare le estensioni per la
gestione di documenti XML
Delivarables:
Prototipo di sistema OPENLIB, sviluppato in comune col progetto
Scholnet, con le estensioni XML richieste dal nostro progetto (Rilascio:
T0+12)
Obiettivo: O1.1.2
Titolo:
Sviluppo di corpora di documenti XML per attività di sperimentazioni e
validazione dell'architettura OPENLIB, con le estensioni di Servizi XML
aggiunti nell'ambito del progetto
Delivarables:
(a) Corpus di documenti bibliotecari MARC, di proprietà dell'ICCU
(Istituto Centrale del Catalogo Unico), partner aggiunto del progetto
(essendo fortemente strutturati possono essere facilmente tradotti in
documenti XML) (Rilascio: T0+12);
(b) Corpus di documenti estratti da Web, tradotti da HTML a XML,
utilizzando un wrapper generator fornito dal WP1 (Rilascio: T0+16).
Obiettivo: O1.1.3
Titolo:
Progettazione e prototipazione incrementale del Servizio di Repository,
del Servizio di Indexing e del Servizio di Query Mediator di OPENLIB,
estesi per il supporto delle nuove funzionalità XML e cooperanti coi
nuovi servizi degli altri WP (i.e., WP1.2, WP1.3, WP1.4, WP1.5 e
WP2.2) del progetto
Delivarable:
Prototipo Esteso di sistema OPENLIB, con indici basati su similarità
(particolarmente adatti per oggetti multimediali) e il loro utilizzo nella
risposta ad interrogazioni, i.e. filtraggio e ranking di documenti XML)
(Rilascio: T0+30).
1.1.5 Unità coinvolte
L'unità principalmente coinvolta in questa ricerca è quella dell’ISTI del CNR di Pisa,
composta dalle seguenti persone: Fausto Rabitti, Donatella Castelli, Claudio Gennaro,
Pasquale Pagano e altri giovani ricercatori (si presumono due assegni di ricerca). L'unità ha
partecipato a diversi progetti europei e nazionali su temi affini a quelli che saranno
argomento di questa iniziativa (progetti europei: ETRDL, EuroGatherer, Echo, Scholnet).
Dato che l'attività sull'architettura aperta interoperabile per Biblioteche Digitali XML svolge un
ruolo centrale nel progetto, collaboreranno a questa ricerca tutte le altre unità operative e le
unità associate(queste ultime per i requisiti applicativi richiesti dai vari tipi di utenti).
Gli obbiettivi specifici e i Deliverable relativi sono i seguenti:
12
Enhanced Content Delivery
Work Package 1.2. Linguaggi di interrogazione XML
1.2.1 Stato dell’arte
Elemento di novità dell’ultimo anno è la pubblicazione di una raccomandazione del W3C
relativa ad XML Schema (5-2-2001, www.w3.org/XML/Schema ) e di un working draft di
XQuery, il nuovo Query Language per XML (7-6-2001, http://www.w3.org/TR/xquery ). La
definizione congiunta di questi nuovi standard offre notevoli opportunità al progetto, per la
sua enorme rilevanza sia tecnica che commerciale.
1.2.2 Obiettivi Strategici
La definizione di un linguaggio di interrogazione per XML apre nuove ed importanti direzioni
di ricerca applicata, soprattutto considerando le esigenze delle biblioteche digitali. Infatti,
supponendo che i documenti multimediali siano descritti in XML, sarà possibile accedere a
queste sorgenti per mezzo di interrogazioni semanticamente espressive, sfruttando a pieno
la struttura del documento (si veda anche le azioni relative a “Semantic WEB” previste per il
varo del Sesto Programma Quadro della EC nel 2002).
Una ricerca resa possibile dalla presenza di un linguaggio di interrogazione per XML è la sua
estensione attiva. Le regole attive hanno dimostrato le loro potenzialità nell'ambito delle basi
di dati relazionali e potranno diventare uno strumento molto efficace per realizzare nuovi
servizi nel contesto di XML. Nell’ambito delle biblioteche digitali, è possibile pensare ad
applicazioni immediate per le regole attive, ad esempio per la costruzione automatica di
metainformazione sui documenti, la loro classificazione automatica, la presentazione dei dati
in modo personalizzato, e la notifica agli utenti di eventi rilevanti, quali ad esempio la
presenza di un nuovo documento relativo ad un campo di interesse predefinito.
Un altro settore che beneficierà della presenza di un linguaggio di interrogazione è la
realizzazione di un modello di controllo dell'accesso a risorse XML; in tal caso, il linguaggio
di definizione consente di definire quali sono le porzioni della biblioteca digitale cui possono
fare accesso i diversi utenti in base alle loro differenti autorizzazioni d’accesso; un modello
così definito estende sensibilmente gli attuali meccanismi di definizione dei diritti d’accesso.
Infine, una attività di ricerca importante si concentrerà sulla esecuzione di query fuzzy tramite
exstensioni di Xquery. In questo contesto, un’interrogazione potrà imporre non solo vincoli
lessicali, ma anche vincoli topologici sul documento che deve essere recuperato. Tutto ciò
potrà incrementare in maniera significativa la potenziale precisione dei risultati delle
interrogazioni. Infatti, per esprimere compiutamente una query o anche più semplicemente
imporre vincoli topologici esatti, un utente dovrebbe essere pienamente consapevole
dell’esatta organizzazione del documento, e spesso questa non è la realtà. Richiedendo una
stretta corrispondenza del documento con la struttura topologica richiesta, si potrebbero
perdere alcuni documenti che sono simili alle nostre richieste. Per evitare questo effetto
indesiderato, verrà studiato come rendere flessibile il linguaggio di interrogazione,
consentendo all’utente di non dover conoscere a priori la struttura sintattica del documento
XML voluto.
1.2.3 Approccio ed obiettivi specifici
Le attività di ricerca relative alla estensione attiva di Xquery prevedono la definizione precisa
di una sintassi e semantica per le regole attive espresse in Xquery; lo studio delle proprietà
formali delle regole, con particolare attenzione alle caratteristiche di terminazione,
confluenza e indipendenza dallo script, cioè dalla traccia con cui viene descritto il
13
Fondo Speciale Innovazione
cambiamento di stato di un documento in assenza di una esatta sequenza di modifiche
elementari; lo studio di nuove applicazioni per le regole attive, ivi incluse la verifica di
correttezza di dati XML rispetto alle definizioni in XML Schema e la verifica di integrità di dati
presenti in repository distribuiti; e lo studio delle caratteristiche di una implementazione
efficiente e modulare, in cui l’ambiente di esecuzione delle regole invochi l’ambiente di
esecuzione di query Xquery con interfaccie ben definite.
Le attività relative al controllo degli accessi e della sicurezza porteranno alla definizione di un
modello per il controllo degli accessi a documenti XML e dei relativi algoritmi di validazione
degli accessi che tengano conto del linguaggio XQuery. Tali ricerche verranno finalizzate al
contesto delle biblioteche digitali.
Infine, altre attività si concentreranno sulla definizione di linguaggi e tecniche per
l’interrogazione di documenti XML senza la conoscenza anticipata della loro struttura
sintattica, cioè quali marcatori sono disponibili nel documento, in quale ordine e come sono
annidati tra loro. La ricerca proposta si adatta ad un contesto in cui documenti multimediali
vengono estratti da biblioteche digitali eterogenee e non aderiscono perfettamente alle
regole del DTD o schema XML, come ci si può aspettare quando una collezione di dati si
ottiene accedendo ad un grande volume di sorgenti eterogenee largamente distribuite sul
Web. Si dovrà poi tenere conto di altri aspetti che assumono particolare rilievo in questo
contesto, come ad esempio la disponibilità di un'interfaccia grafica per la descrizione di una
interrogazione, che permetta agli utenti del sistema di formulare le interrogazioni senza
dover scrivere delle frasi in una sintassi rigida. In questo ambito, si potrà partire
dall'esperienza fatta nella definizione del linguaggio XML-GL, arricchendolo con gli strumenti
concettuali richiesti per la formulazione di interrogazioni fuzzy.
Gli obiettivi tecnici specifici del lavoro condotto in questo work package saranno realizzati in
uno specifico prototipo e saranno:
1. Definizione di un meccanismo basato su regole attive per modellare nuovi servizi di
supporto alle biblioteche digitali. Sua integrazione con un prototipo capace di eseguire
interrogazioni in Xquery.
2. Sviluppo di un'interfaccia grafica per la specifica delle interrogazioni, che funga da
sottolinguaggio di Xquery (nello stesso modo in cui Query by Example, ustato nel
sistema Access, si può ritenere un sottolinguaggio di SQL).
3. Integrazione del modello di controllo dell'accesso per dati XML con XQuery, in modo
tale da fornire un supporto alla creazione di diversi profili di utente con diversi privilegi
di accesso ai dati.
4. Sviluppo di un nuovo e flessibile linguaggio per documenti XML per il recupero di dati
multimediali. La flessibilità sarà inclusa in modo da essere facilmente controllata
dall’utente.
Riferimenti
WWW8: S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, L. Tanca. XML-GL: A Graphical Language
for Querying and Restructuring XML Documents. WWW 8, Toronto, maggio 1999, pp. 1171-1187.
VLDB99: S. Ceri, P. Fraternali, S. Paraboschi. Data-Driven, One-To-One Web Site Generation for Data-Intensive
Applications. VLDB 1999, Edimburgo, settembre 1999, pp. 615-626
EDBT00a: S. Ceri, P. Fraternali, S. Paraboschi. XML: Current Developments and Future Challenges for the
Database Community. EDBT 2000, Costanza, marzo 2000, pp. 3-17.
EDBT00b: E. Damiani, S. De Capitani, S. Paraboschi, P. Samarati. Securing XML Documents. EDBT 2000,
Costanza, marzo 2000, pp. 121-135.
WWW9: S. Ceri, P. Fraternali, A. Bongio. Web Modeling Language (WebML): A Modeling Language for
Designing Web Sites. WWW 9, Amsterdam, maggio 2000.
14
Enhanced Content Delivery
VLDB00: S. Ceri, R. Cochrane, J. Widom. Practical Applications of Triggers and Constraints: Success Stories and
Lingering Issues. VLDB 2000, Il Cairo, settembre 2000.
DEXA00: E. Damiani, L. Tanca. Blind Queries to XML Data. Proceedings of DEXA 2000, Londra, settembre 2000.
Kybernetika00: E. Damiani, L. Tanca, F. Arcelli Fontana. Fuzzy XML Queries via Context-based Choice of
Aggregations. Kybernetika n.16 vol.4, 2000.
WWW10: A. Bonifati, S. Ceri, S. Paraboschi: Pushing Reactive Services to XML Repositories using Active Rules,
WWW10, Hong Kong, May 2001.
ICDE02: A. Bonifati, D. Braga, A. Campi, S,. Ceri, “Active Xquery”, San Jose, Feb. 2002 (to appear).
1.2.4 Obiettivi e Deliverables
Obiettivo: O1.2.1
Titolo:
Definizione di un meccanismo basato su regole attive per modellare
nuovi servizi di supporto alle biblioteche digitali e sua integrazione con
un prototipo capace di eseguire interrogazioni in Xquery
Deliverable:
I anno: Descrizione delle caratteristiche di un servizio reattivo per il
linguaggio Xquery (Rapporto)
II anno: Versione preliminare di un prototipo che offre servizi reattivi per
dati XML (Software)
III anno: Versione finale di un prototipo che offre servizi reattivi per dati
XML (Software)
Obiettivo: O1.2.2
Titolo:
Sviluppo di un'interfaccia grafica per la specifica delle interrogazioni, che
funga da sottolinguaggio di Xquery (nello stesso modo in cui Query by
Example, usato nel sistema Access, si può ritenere un sottolinguaggio di
SQL).
Deliverable
I anno: Versione preliminare di un prototipo per la definizione grafica di
interrogazioni Xquery (Software)
II anno: Versione finale di un prototipo per la definizione grafica di
interrogazioni Xquery (Software)
Obiettivo: O1.2.3
Titolo:
Integrazione del modello di controllo dell'accesso per dati XML con
XQuery, in modo tale da fornire un supporto alla creazione di diversi
profili di utente con diversi privilegi di accesso ai dati.
Deliverable:
I anno: Rapporto sulla definizione di un modello di controllo dell’accesso
per XML basato su XQuery (Rapporto)
II anno: Prototipo di un sistema di controllo dell’accesso per dati XML
(Software)
III anno: Rapporto sull’esperienza d’uso di sistemi di controllo
dell’accesso per dati XML (Rapporto)
15
Fondo Speciale Innovazione
Obiettivo: O1.2.4
Titolo:
Sviluppo di un nuovo e flessibile linguaggio per documenti XML per il
recupero di dati multimediali. La flessibilità sarà inclusa in modo da
essere facilmente controllata dall’utente.
Deliverable
I anno: Rapporto preliminare sui meccanismi per la definizione di query
approssimate per XML (Rapporto)
II anno: Rapporto completo sui meccanismi per la definizione di query
approssimate per XML, con specifica di un prototipo software (Rapporto)
III anno: Prototipo software per la definizione di query approssimate su
dati XML (SOftware)
1.2.5 Unità coinvolte
Il gruppo del Politecnico (Stefano Ceri, Letizia Tanca, Piero Fraternali, Stefano Paraboschi,
Giuseppe Pozzi, Sara Comai, Angela Bonifati, Andrea Maurino, Alex Campi, Daniele Braga,
Marco Brambilla, Barbara Oliboni, Elisa Quintarelli, Pierangela Samarati (UNIMICrema),
Ernesto Damiani (UNIMI-Crema)) è attivo nella ricerca relativa alle estensioni di Xquery e al
suo utilizzo in ambiti applicativi innovativi. L’articolo “Active XQuery”, proposto dal gruppo di
ricercatori del Politecnico, è stato recentemente accettato al congresso ICDE 2002 (S.Jose,
26-2-2002) con commenti dei revisori che segnalano la forte rilevanza dell’approccio (“this
paper will surely be interesting to academia and industry”), Un altro recente articolo,
pubblicato al Congresso WWW10 (Hong Kong, Maggio 2001), ha illustrato l’uso di regole
attive in un contesto di interoperabilità caratterizzato dalla copresenza degli standard XML e
SOAP per la costruzione di servizi. Il gruppo del Politecnico opera in stretta collaborazione
con il centro di ricerca Inria di Parigi e la startup e-XMLMedia di Parigi che si distinguono per
il fatto di sviluppare in un contesto europeo la tecnologia XML, basata sui suddetti standard.
L'unità ha partecipato a diversi progetti europei e nazionali su temi affini a quelli (progetti
europei IDEA, WIDE, W3I3, FASTER; progetti nazionali Interdata, Data-X).
Collaboreranno a questa ricerca anche l’unità operativa di Pisa (CNR-ISTI 1), che fornirà la
base dei documenti in XML e l'interoperabilità con il sistema di Biblioteca Digitale XML, e
l’unità operativa di Modena, che fornirà la base di meta-informazione relativa agli stessi
documenti.
16
Enhanced Content Delivery
Work Package 1.3. Ontologie XML
1.3.1 Stato dell'arte
La ricerca sulle ontologie sta acquisendo un ruolo di primaria importanza nella comunità
scientifica. La sua rilevanza è stata riconosciuta in molteplici settori tra i quali l'e-commerce,
lo sviluppo e integrazione di informazioni, la modellazione di sistemi fisici, i sistemi che
utilizzano il linguaggio naturale, l'ingegnerizzazione dei processi legati alla conoscenza, la
progettazione di database, le Biblioteche Digitali e l’accesso alle informazioni di tipo
intelligente. Tale tema è fortemente interdisciplinare e coinvolge in particolare, oltre a
ricercatori in informatica, studiosi di filosofia e di linguaggio, (si veda per avere un’idea della
eterogeneità di contributi la bibliografia in:
http://www.ladseb.pd.cnr.it/infor/ontology/Papers/Ontobiblio/TOC.html).
Un aspetto fondamentale nella costruzione di una Biblioteca Digitale è la modalità di
organizzazione dell'enorme quantità di informazione relativa al suo contenuto. A tale scopo,
sono stati sviluppati sofisticati schemi di classificazione e regole di catalogazione per creare
meta-dati che descrivono il contenuto di una Biblioteca Digitale. Una recente proposta
(sviluppata
nell'ambito
della
University
of
Michigan
Digital
Library
http://www.si.umich.edu/UMDL) per rappresentare la conoscenza sia del contenuto che dei
servizi offerti da una Biblioteca Digitale è stata quella di utilizzare meta-dati basati su
ontologie; in tale proposta, l'uso di ontologie fornisce anche il supporto per tecniche di
ragionamento, basate sulle logiche descrittive, utili per sviluppare servizi automatici.
L’eterogeneità nella rappresentazione e memorizzazione dei dati è un’altra delle
caratteristiche peculiari nelle Biblioteche Digitali. Molto spesso i documenti sono memorizzati
informati diversi, le collezioni sono interrogate utilizzando i linguaggi di interrogazione più
disparati, i servizi di ricerca (search services) utilizzano protocolli tra loro incompatibili, i
criteri di accesso ai dati e di gestione dei diritti d'autore sono diversi ed infine le modalità di
rappresentazione dei risultati sono inconsistenti per sistemi diversi. Di fronte a questi
problemi un'area di ricerca promettente per migliorare l'integrabilità delle Biblioteche Digitali
riguarda lo sviluppo di architetture a mediatore, i quali hanno come obiettivo quello di
accedere a informazioni presenti su sorgenti multiple. In generale un mediatore riceve una
richiesta (e.g. query) da parte dell'utente, invia diverse traduzioni della richiesta alle varie
Biblioteche Digitali, raccoglie e integra le risposte per presentarle in forma omogenea
all'utente.
L’uso di ontologie e di tecniche di ragionamento rappresenta, a nostro parere, un obiettivo
strategico nel contesto delle Biblioteche Digitali in quanto può fornire uno strumento efficace
di accesso più selettivo e quindi più efficiente alla grandissima quantità di documenti
distribuiti in rete. Nel contesto delle ontologie, inoltre, la scelta del linguaggio di
rappresentazione è un elemento discriminante, tale linguaggio deve, a nostro parere, essere
sviluppato a partire dal nucleo di primitive di modellazione definite (ed in corso di estensione)
nel linguaggio XML, in quanto l'XML sta diventando di fatto un formato universale di scambio
dati per l'ambiente WEB.
Il punto di partenza per questo tema di ricerca è il sistema MOMIS (Mediating system
Environment for Multiple Information Sources), la cui progettazione e realizzazione è
iniziata presso l’Università di Modena e Reggio Emilia nell’ ambito del progetto MURST
INTERDATA 97/98, e che permette la costruzione di una vista globale virtuale di sorgenti di
informazione eterogenee e distribuite. Un prototipo di tale sistema è stato recentemente
presentato al congresso VLDB 2000 ed è stato accettato alla Bourse Européenne de
Transferts & de Partenariats Technologiques Technologies de l'Information & de la
Communication che si terrà a Toulouse il 18/20 Ottobre 2000.
17
Fondo Speciale Innovazione
1.3.2 Obiettivi Strategici
L'obiettivo che ci si pone è lo studio e la prototipazione di metodologie e strumenti capaci di
costruire un' ontologia di Biblioteca Digitale che rappresenti una vista globale virtuale (GVV)
dell'insieme delle biblioteche digitali locali d'interesse. Il contenuto delle biblioteche digitali
risiederà e sarà gestito autonomamente a livello di sorgente locale. La GVV dovrà essere un
oggetto dinamico che può essere arricchito ed aggiornato con l'introduzione di nuove
biblioteche digitali o la modifica di quelle già integrate. In particolare, l'ontologia sarà
impiegata come mezzo per la rappresentazione dei metadati che descrivono il contenuto di
sorgenti locali e vista globale, corredato dalle regole di mapping tra viste locali e GVV; l'uso
dell' ontologia fornirà anche il supporto per strumenti di ragionamento per la riconciliazione di
viste e di rappresentazioni differenti di concetti simili. XML rappresenta il linguaggio comune
al processo di integrazione: le biblioteche digitali locali potranno fornire la descrizione della
loro struttura secondo diversi standard, fra cui XML e RDF, e la vista globale virtuale sarà
esportata come una sorgente di dati XML.
La GVV costituirà lo strumento per interrogare le sorgenti locali a partire da una ontologia di
Biblioteca Digitale in maniera del tutto trasparente all'utente. In particolare, l’ontologia sarà
impiegata anche come supporto per la riscrittura automatica di interrogazioni sulla GVV in
interrogazioni sulle biblioteche locali dove risiedono i dati. In tale contesto, le interrogazioni
semanticamente espressive formulate con il linguaggio di interrogazione per XML proposto
nel WP1.2 potranno essere rivolte alla GVV per poi essere riscritte automaticamente
secondo lo schema brevemente descritto precedentemente.
1.3.3 Approccio ed obiettivi specifici
L'attività di questo WP sarà focalizzata sulla definizione di una metodologia di creazione di
un’ontologia per Biblioteca Digitale, che utilizzi il linguaggio XML, e che sia atta a
rappresentare una GVV delle singole Biblioteche Digitali locali. Sarà inoltre realizzato un
prototipo sw per l’ausilio all’integrazione delle Biblioteche Digitali Locali.
Sarà sviluppata una estensione dello studio teorico e della metodologia relativa
all'integrazione di sorgenti proposta in MOMIS in modo da superare le nuove problematiche
introdotte dal contesto delle Biblioteche Digitali e dall’adozione del linguaggio di riferimento
XML. I requisiti per lo sviluppo di tale metodologia verranno raccolti sulla base delle
Biblioteche integrate già esistenti e sulle nuove proposte di standardizzazione ed
interoperabilita` dell’Open Archives Initiative.
Lo studio teorico trova i propri fondamenti su un approccio semantico che usa tecniche
basate sulle logiche descrittive, il sistema lessicale WordNet, l'uso di tecniche di clustering
ed una estensione del linguaggio ODL-ODMG, denominata ODLi3, progettata per rispondere
ai requisiti di integrazione.
Verrà inoltre prodotto un prototipo sw, dotato di un tool grafico, che assisterà il progettista
durante le fasi di costruzione dell’ontologia per le Biblioteche Digitali. Partendo dalla
descrizione degli schemi delle Biblioteche Digitali locali eterogenee (che potrà essere fornita
sia utilizzando XML sia altri formati), i wrapper permetteranno di ottenere in maniera semiautomatica la descrizione nel formato comune ODLi3 degli schemi locali. Successivamente,
il progettista sarà assistito dal tool nella creazione della GVV rappresentativa di tutte le
sorgenti che verrà espressa in ODLi3 e che verrà esportata come una sorgente di dati XML.
La creazione della GVV sarà ottenuta utilizzando un approccio semantico e perseguendo i
seguenti obiettivi:
1. Estrazione semi-automatica delle descrizioni ODLi3 delle Biblioteche Digitali locali e
della relativa semantica: keyword, contesto, ...
18
Enhanced Content Delivery
2. Estrazione semi-automatica delle relazioni terminologiche e generazione del
"Common Thesaurus. Le relazioni terminologiche esprimono conoscenza di tipo
intensionale inter e intra-schema.
3. Inclusione nel "Common Thesaurus" di relazioni esplicite fornite dal progettista
dell’ontologia (sia di tipo intensionale che di tipo estensionale) e di relazioni inferite
4. Clustering basati sull'affinità tra classi che descrivono i meta-dati delle diverse
Biblioteche Digitali. Le relazioni terminologiche nel Thesaurus saranno utilizzate per
valutare il livello di affinità tra le classi delle diverse Biblioteche Digitali; a questo
scopo, saranno definiti degli opportuni coefficienti che misurano il livello di affinità tra
classi
5. Generazione dei cluster: le classi affini saranno raggruppate insieme utilizzando
tecniche di clustering gerarchico
6. Costruzione della vista virtuale globale: una classe globale integrata, che sia
rappresentativa di tutte le classi che afferiscono al cluster, sarà definita per ogni
cluster. L'insieme delle classi globali definito costituisce la GVV.
7. la GVV che verrà esportata come una sorgente di dati XML.
In particolare, con riferimento al punto 2, l'approccio che sarà adottato è quello di sfruttare un
sistema lessicale che valuti l'esistenza di relazioni terminologiche a priori. Il sistema
maggiormente utilizzato per questi scopi è WordNet, un database lessicale che rappresenta
la più importante risorsa utilizzabile sia nel campo della linguistica computazionale sia nel
campo dell'analisi testuale. WordNet è stato sviluppato dal "Cognitive Science Laboratory"
della Università di Princeton, dal prof. George A. Miller. WordNet si ispira alle recenti teorie di
psicolinguistica lessicale umana. Parole, verbi, aggettivi e avverbi del linguaggio inglese
sono catalogate in insiemi di sinonimi (synset), ognuno rappresentante uno specifico
concetto lessicale. Differenti generi di relazioni collegano gli uni agli altri synset. Il punto di
partenza della semantica lessicale è il riconoscere che esiste una corrispondenza
convenzionale tra “le parola usate” ed i loro significati, tale corrispondenza è nel caso
generale molti a molti, dando origine alla “polisemia” (la proprietà di una parola di avere piu`
significati) e “sinonimia” (la proprietà di un significato di essere esprimibile con parole
diverse). Inoltre tra le relazioni individuate da WordNet possiamo elencare: “ipernimia” : un
concetto è ipernimo di un altro se il secondo è piu` specializzato (la relazione duale tra
concetti è ”iponimia”); “meronimia” , relazione semantica che sussiste tra due concetti di cui il
primo è parte del secondo (la relazione duale è “olonimia”); “correlazione” che lega due
synset che condividono lo stesso ipernimo.
L’interazione con WordNet permetterà di proporre le relazioni terminologiche individuate al
progettista; tali relazioni, se confermate, verranno aggiunte al Common Thesaurus come
relazioni intensionali.
Con riferimento al punto 3), l'approccio che sarà adottato è basato sulla teoria dell’analisi
formale di contesto il cui scopo è quello di produrre una gerarchia di generalizzazione nella
quale vengono organizzate tutte le classi che appartengono a sorgenti diverse. Questo
approccio teorico è basato sulla definizione di “assiomi estensionali”: tali assiomi definiscono
relazioni insiemistiche tra le estensioni delle classi appartenenti a sorgenti diverse; in
particolare, date due classi C1 e C2 considereremo le seguenti relazioni: disgiunzione,
equivalenza, inclusione e sovrapposizione.
L’idea è che il progettista possa inserire, oltre a relazioni intensionali esplicite, assiomi
estensionali.
19
Fondo Speciale Innovazione
1.3.4 Obbiettivi e Deliverables
Obiettivo: O1.3.1
Titolo:
Studio e prototipazione di un Servizio di supporto per la costruzione di
una ontologia comune per i diversi metadati in biblioteche digitali aperte.
Deliverable:
“Definizione di un Servizio di supporto per la costruzione di una
ontologia comune per i diversi metadati in biblioteche digitali aperte”
(Technical Report – Anno1)
“Prototipo di un Servizio di supporto per la costruzione di una ontologia
comune per i diversi metadati in biblioteche digitali aperte” (Prototipo –
Anno2)
Obiettivo: O1.3.2
Titolo:
Studio e prototipazione di un Servizio di supporto per la riscrittura di
query sulla GVV in query sulle singole biblioteche digitali locali.
Deliverable:
“Definizione di un Servizio di supporto per la riscrittura di query sulla
GVV in query sulle singole biblioteche digitali locali” (Technical Report –
Anno2)
1.3.5 Unità coinvolte
L'unità di ricerca principalmente coinvolta in questo progetto è il Dipartimento di Scienze
dell'Ingegneria (DSI) dell'Università di Modena e Reggio Emilia, composto dalle seguenti
persone: Paolo Tiberio, Sonia Bergamaschi, Paolo Ciaccia (UNIBO), Luca Pazzi, Domenico
Beneventano, Maurizio Vincini, Federica Mandreoli, Francesco Guerra, Ilario Benetti. L'unità
ha una vasta esperienza nel campo dei sistemi di database intelligenti e nell'integrazione
intelligente di informazioni.
Collaboreranno a questo WP anche l'unità operativa di Pisa, che fornirà la base dei
documenti in XML, l'unità operativa di Milano, che sperimenterà la base di meta-informazione
relativa agli stessi documenti, rappresentata nell'ontologia XML, e l'unità di Roma Tre, che
fornirà strumenti per la conversione in XML di documenti disponibili solo in altri formati."
20
Enhanced Content Delivery
Work Package 1.4. Annotazioni
1.4.1 Stato dell’arte
Le attività di ricerca e sviluppo nella pubblicazione di documenti a testo pieno in formato
elettronico come, ad esempio, libri o rapporti tecnici di ricerca, precorrono l'avvento di
Internet e del Web; per esempio, il progetto Gutenberg iniziò nel 1971
(http://www.gutenberg.net). Lo sviluppo delle risorse di calcolo e di rete permettono oggi di
realizzare dispositivi e software per documenti elettronici che sono delle copie delle versioni
cartacee e che possono essere rese eventualmente disponibili attraverso un Web browser.
Un documento elettronico può essere arricchito in modo manuale di collegamenti, sfruttando
l'informazione fornita dalla struttura logica e di presentazione, decisa dall'autore del
documento. Sono stati proposti diversi prodotti e sono state intraprese iniziative di
standardizzazione;
solo
per
citare
alcuni
esempi,
si
segnalano
eBook
(http://www.nuvomedia.com), Glassbook (http://www.glassbook.com), Open Ebook Initiative
(http://www.openEBook.org).
Il caso dei libri di testo elettronici è particolare perché investe un mercato di notevoli
dimensioni, quello scolastico e universitario, e perché l'annotazione è particolarmente
utilizzata con un libro di testo; si noti che ci sono alcune iniziative collegate come, ad
esempio, NetLibrary (http://www.netlibrary.com). L'utilizzo di un libro di testo elettronico è
diverso da un qualsiasi libro cartaceo o elettronico: l'editore può pensare a diverse strategie
di vendita di un libro di testo elettronico per risolvere il problema dei costi e del peso dei libri
cartacei; il docente può organizzare i contenuti in modo flessibile integrando, ad esempio, il
libro elettronico con altre risorse, e viceversa.
L'annotazione è legata all'utilizzo di un documento elettronico e, in particolare, di un libro di
testo elettronico perché l'annotazione rappresenta un modo di utilizzo di questo strumento di
studio. Infatti, l'utente finale come, ad esempio, lo studente di un libro di testo elettronico, può
annotare e navigare il libro a scopo di riferimento, ossia per cercare risposte a domande.
Gli aspetti peculiari delle annotazioni sono:

personalizzazione: l'utente descrive il contenuto semantico del documento utilizzando
un proprio linguaggio che integra quello utilizzato dall'autore del documento;

condivisione: per ogni documento, ci possono essere diverse annotazioni di diversi
utenti finali che possono essere così condivise.
Per queste peculiarità, la rilevanza delle annotazioni è data dal loro ruolo nelle fasi di:

descrizione personale e condivisa del contenuto semantico dei documenti elettronici:
giacché un'annotazione è personale, è anche personale la descrizione del documento
in termini di parole chiave o dei sommari, rispettivamente, estratte e costruiti dalle
annotazioni stesse; dato che è possibile condividere le annotazioni, allora è anche
possibile condividere le parole chiave e i sommari;

accesso mediante navigazione ai documenti elettronici di una biblioteca digitale:
l'annotazione può costituire un ancora o un punto di arrivo di un collegamento; per
esempio, la ricerca a scopo di riferimento inter- o intra-libro di testo è naturalmente
legata alla navigazione perché essa consente di attraversare un collegamento da
domande a risposte realizzate come annotazione.
È importante sottolineare che le annotazioni sono ortogonali alla struttura logica e di
presentazione introdotte dall'autore perché esse sono evidenziazioni o strutturazioni del
documento introdotte dall'utente sul contenuto semantico del documento in punti non
evidenziati dall'autore.
21
Fondo Speciale Innovazione
L'utente può, quindi, stabilire collegamenti di navigazione sulla base del contenuto semantico
allo scopo di sviluppare percorsi di fruizione personale dell'informazione. Come per le
annotazioni, questi percorsi di fruizione possono essere condivisi con altri utenti.
Il problema è dovuto alla dimensione dei singoli documenti e dell'intera biblioteca che rende
impossibile la costruzione manuale di collegamenti tra le annotazioni sulla base del
contenuto semantico. È necessario e utile lo sviluppo di strumenti automatici che
costruiscono collegamenti per la navigazione tra annotazioni di uno o più documenti.
1.4.2 Obiettivi Strategici
Il work package si prefigge di definire algoritmi e metodi efficienti per generare in modo
automatico sommari e collegamenti tra documenti e annotazioni. I sommari e i collegamenti
così generati consentono di ottenere una descrizione sintetica del contenuto semantico del
documento e di reperire altri documenti con un contenuto pertinente agli interessi dell'utente.
Le collezioni di documenti digitali gestite risulterebbero, allora, coordinate e collegate, in
modo tale che l'utente possa trovare già disponibili dei percorsi di fruizione delle raccolte dei
documenti digitali e delle annotazioni. Gli algoritmi e i metodi che verranno sviluppati
permetteranno di gestire e accedere in modo innovativo e secondo il paradigma di
navigazione le annotazioni di grandi raccolte di documenti digitali. In questo modo sarà
possibile affiancare ad una costruzione e utilizzazione delle annotazioni mediante
interrogazione, una costruzione della raccolta delle annotazioni in strutture simili a collezioni
di documenti Web in relazione e collegamento fra loro.
Si ipotizzi uno scenario in cui un utente accede ad una biblioteca digitale alla ricerca di
informazioni pertinenti ai propri interessi. L'utente consulta un documento digitale, trovato
mediante uno strumento di ricerca come, ad esempio, un sistema di information retrieval e/o
di gestione di basi di dati. L'utente desidera, spesso, avere un sommario del documento che
sta consultando, allo scopo di usare tale sintesi nella redazione di un proprio documento. A
tal fine, egli potrebbe annotare le pagine del documento evidenziando, sottolineando o
apponendo dei commenti. Durante la consultazione di un documento, l'utente necessita,
spesso, di consultare altri documenti dai quali estrarre altre informazioni utili per rispondere,
ad esempio, a domande.
La ricerca di altri documenti può quindi avvenire mediante navigazione di collegamenti tra i
documenti. L'utente seleziona le annotazioni, che possono essere, per esempio, parti di
documento appositamente selezionate, e utilizza tali annotazioni come ancore di
collegamenti verso altri documenti o annotazioni. I documenti così collegati possono essere,
ad esempio, documenti con un contenuto simile a quello di partenza; le annotazioni collegate
possono essere, ad esempio, annotazioni apposte da altri utenti, anche su altri documenti.
I possibili percorsi di navigazione possono essere eccessivamente numerosi e solo alcuni di
essi sono effettivamente di interesse per l'utente; in effetti, le annotazioni apposte dall'utente
sono una fonte per comprendere gli interessi dell'utente. Questi dati possono essere
combinati con dei profili d'utente. Metodi e tecniche di text mining verranno studiate per
arrivare a costruire automaticamente percorsi di lettura e consultazione personalizzati nelle
diverse raccolte di documenti digitali. In particolare si intende esplorare la possibilità di
costruzione automatica di profili d'utente e di percorsi di fruizione delle raccolte digitali.
1.4.3 Approccio ed obiettivi specifici
Si condurrà un'attività di studio e di investigazione delle tecnologie esistenti e dei risultati
ottenuti, sia a livello di ricerca che a livello industriale, per la gestione delle annotazioni di
documenti digitali. Particolare attenzione sarà rivolta a XML per studiare l'integrazione della
gestione delle annotazioni con i linguaggi di interrogazione e le ontologie basati su XML.
22
Enhanced Content Delivery
1.4.4 Obiettivi e Deliverables
Obiettivo: O1.4.1
Titolo:
Indicizzazione e reperimento di documenti annotati.
Descrizione:
L’obiettivo che ci si pone è definire tecniche per rappresentare e reperire
un documento e le sue annotazioni in modo uniforme, dove per
“uniforme” si intende il modo in cui documenti e annotazioni sono
rappresentati e reperiti. In fase di indicizzazione, nel caso in cui le
annotazioni siano brevi commenti, si sfrutta il contenuto testuale con
opportuni schemi statistici che tengano conto anche della struttura
linguistica dell’annotazione. In alternativa, nel caso in cui le annotazioni
siano riferimenti, si può combinare la rappresentazione del documento
annotato con quella dei documenti o loro parti a cui l’annotazione fa
riferimento. Il WP ha l’obiettivo di definire funzioni di confronto con
interrogazioni d’utente che sfruttino la presenza di annotazioni; per
esempio, è possibile definire delle funzioni di probabilità di rilevanza di
un documento condizionatamente alla presenza di commenti o note
pertinenti all’argomento dell’interrogazione. Nel caso in cui le
annotazioni siano riferimenti ad altri documenti o parti dello stesso
documento, si possono impiegare algoritmi che integrano la topologia di
reti di collegamenti, come nel caso di alcuni motori di ricerca per il Web.
La novità rispetto al classico utilizzo dei Web link risiede nel fatto che le
annotazioni sono apposte dinamicamente dagli utenti del documento,
mentre i Web link sono apposti staticamente dall’autore.
Deliverables:
D.1.4.1.1: Rapporto tecnico su indicizzazione e reperimento in modo
uniforme di documenti annotati.
D.1.4.1.2: Documentazione sulle funzionalità di indicizzazione e
reperimento del prototipo del servizio di annotazione per documenti
XML.
Obiettivo: O1.4.2
Titolo:
Segmentazione di topic e generazione di annotazioni
Descrizione:
L’obiettivo che ci si pone è definire algoritmi di segmentazione
automatica di un documenti nei suoi topic e di generazione automatica
di annotazioni per un documento. L’automazione del processo di
annotazione si avvarrà di una fase di pre-processing per la
segmentazione del documento nei suoi topic. A questo scopo, verrà
sperimentato l’uso di modelli statistici, in particolare Hidden Markov
Models che hanno dato buoni risultati nella segmentazione di testo non
strutturato e inoltre sono stati usati con successo anche per la
segmentazione di media diversi dal testo. La fase di segmentazione
automatica potrà essere usata per evidenziare parti di documenti
corrispondenti all’inizio di nuovi topic, quindi per delle annotazioni prive
di testo. Si prevede la possibilità di addestrare il sistema in base alle
annotazioni poste dagli utenti sui documenti della biblioteca digitale.
Infatti, il sistema può essere addestrato nello svolgimento della
segmentazione automatica del documento in topic, sulla base delle
annotazioni che gli utenti hanno aggiunto, modificato o cancellato; le
23
Fondo Speciale Innovazione
modalità con cui gli utenti gestiscono le annotazioni possono essere
recepite dal sistema per generare annotazioni in modo automatico. Una
volta sviluppati gli algoritmi per la segmentazione, ci si orienterà verso lo
sviluppo di tecniche per la creazione automatica di riassunti dei topic
evidenziati. Anche in questo caso, la ricerca si orienterà verso la
possibilità di utilizzare il feedback degli utenti per adattare le prestazioni
degli algoritmi alle necessità informative dell'utente effettivo.
Deliverables:
D.1.4.2.1: Demo delle tecniche per segmentare in topic un documento e
per generare annotazioni in modo automatico.
D.1.4.2.2: Prototipo finale di un servizio di annotazione per documenti
XML.
1.4.5 Unità coinvolte
Le attività di questo Work Package saranno svolte principalmente dall'Unità Operativa
dell'Università di Padova che è composta dalle seguenti persone: Maristella Agosti, Franco
Crivellari, Massimo Melucci, Luca Pretto. L'unità ha partecipato a progetti europei e
nazionali su tematiche vicine a quelle che saranno argomento di questa iniziativa (progetto
europeo IRIDES di IDOMENEUS-ESPRIT Network of Excellence No.6606; Mira, ESPRIT
Working Group No.20039; progetto finanziato dalla European Space Agency (ESA) su
"Semantic Network Inter-Operations"; progetto nazionale ADMV: Archivio Digitale della
Musica Veneta del settecento; progetto nazionale Interdata).
Data la stretta correlazione funzionale fra le attività di questo Work Package con le attività
concernenti la definizione di una architettura aperta per Biblioteche Digitali XML, nella attività
di questo Work Package sarà coinvolta in modo sistematico anche l'Unità Operativa CNRISTI di Pisa. L'attività relativa alla definizione di regole attive che verrà condotta dall'Unità
Operativa del Politecnico di Milano nel WP 1.2 può permettere di esplorare la definizione di
un modello di autorizzazioni in funzione anche delle autorizzazioni alle annotazioni.
24
Enhanced Content Delivery
Work Package 1.5. Conversione Automatica in XML di
Documentazione Elettronica per Biblioteche Digitali
1.5.1 Stato dell’arte
XML è stato introdotto per superare alcuni dei limiti associati all'uso altri formati (ad esempio
HTML, o SGML), e il suo utilizzo sembra particolarmente appropriato nel contesto delle
biblioteche digitali. In particolare, è pensabile che le biblioteche digitali (DL) di prossima
generazione saranno sviluppate avvalendosi di XML e della tecnologia ad esso correlata.
Tuttavia, fino ad oggi pochi documenti sono stati prodotti in XML. La carenza di uno standard
universalmente accettato, come sembra essere XML, ha fatto sì che l’informazione
elettronica fosse organizzata attraverso una pletora di formati diversi. Integrare in una DL di
nuova generazione informazioni elettroniche disponibili in formati diversi da XML può essere
un'attività estremamente complessa e costosa. Infatti, molti tra i formati utilizzati fino ad oggi
sono stati pensati principalmente per definire aspetti relativi alla presentazione
dell’informazione, e offrono uno scarso supporto alla descrizione della organizzazione logica
delle informazioni. L’esempio più significativo è costituito da HTML: la quantità di
informazioni disponibili su Web in questo formato è enorme, tuttavia la loro conversione in
XML risulta un problema molto complesso e costoso. Di conseguenza, la conversione di
formato per la documentazione elettronica è un problema di notevole rilevanza nel contesto
delle DL
1.5.2 Obiettivi Strategici
La base di partenza per questo tema è l’esperienza maturata dall’unità che vi è
principalmente coinvolta nello studio di tecniche, modelli e linguaggi per la specifica di
programmi software – detti “wrapper” – per la estrazione di dati da sorgenti di informazioni
semi-strutturate. Essenzialmente un wrapper costituisce un’interfaccia di programmazione
(API) che permette di accedere alle informazioni immerse in un documento testuale; esso
può quindi essere usato per estrarre queste informazioni e rappresentarle in formati diversi,
ad esempio in XML. Lo studio delle tecniche e la realizzazione di prototipi per la specifica di
wrapper sono stati condotti principalmente nell’ambito dei progetti MURST Interdata (19971998) e Data-X (2000-2001).
Gli obiettivi del progetto sono lo studio di tecniche innovative per l'automazione del processo
di sviluppo di wrapper e lo sviluppo del prototipo di un sistema basato su queste tecniche. Ci
si concentrerà sullo studio di tecniche applicabili alle sorgenti informative HTML, che
costituiscono sicuramente uno dei formati più diffusi e al tempo stesso difficili da trattare.
Il prototipo del sistema consentirà la generazione automatica di wrapper che permettano di
integrare, in una DL basata su XML, documentazione elettronica originariamente disponibile
in formato HTML.
1.5.3 Approccio ed obiettivi specifici
Il contributo principale del tema è quello di sviluppare tecniche che consentano di convertire
automaticamente in XML documentazione elettronica disponibile in altri formati, in particolare
HTML.
Il processo di conversione delle informazioni può essere visto come una scatola nera che
riceve in ingresso un insieme di documenti HTML e produce in uscita un nuovo insieme di
documenti XML contenenti le informazioni estratte dai documenti della collezione in ingresso,
25
Fondo Speciale Innovazione
opportunamente strutturate. Il punto cruciale di questo processo consiste ovviamente nella
derivazione di wrapper che consentano di estrarre i dati e riprodurli in formato XML.
Obiettivo principale del nostro approccio sono grandi collezioni di documenti disponibili in
sorgenti informative HTML.
Normalmente, i documenti contenuti in grandi siti HTML sono organizzati in classi di
documenti, che corrispondono a diverse categorie di informazioni nella sorgente. Per
esempio, un sito relativo ad informazioni artistiche può contenere una classe di documenti in
cui si presentano i principali artisti di un'epoca, un'altra classe in cui vengono riportati i
dettagli relative alle opere di ciascun artista, un’altra ancora in cui si descrivono le
caratteristiche salienti di ciascuna epoca. Documenti della stessa classe normalmente
contengono elementi comuni; per esempio, il documento che presenta la vita di "Cimabue"
sarà presumibilmente molto simile a quello che illustra la vita di "Giotto", e profondamente
diverso da quello che riporta i dettagli dell’opera “La Primavera” di Botticelli.
Per estrarre le informazioni da queste sorgenti e convertirle in XML è necessario sviluppare
un opportuno wrapper per ciascuna classe di pagine nel sito.
Il nostro approccio è quello di vedere il sito come il risultato di un'operazione di codifica in un
opportuno formato (HTML in questo caso) di una ipotetica base di dati. Di conseguenza, la
semantica del wrapper è quella di implementare una funzione di decodifica che consenta, a
partire dai documenti HTML, di ricostruire i dati originali e restituirli in formato XML.
In particolare nel nostro approccio la creazione del wrapper si basa sulle similarità esibite dai
documenti appartenenti alla stessa classe: è possibile, in sostanza, provare a derivare, a
partire da un campione sufficientemente ampio di documenti, una grammatica che ne
descriva l'organizzazione, e utilizzare questa grammatica come wrapper.
Il punto di partenza del nostro approccio è uno studio preliminare di carattere teorico del
problema della decodifica di informazione da pagine HTML che è stato recentemente
condotto dal nostro gruppo (Grumbach and Mecca, ICDT-1999). Nel lavoro, è stato stabilito
un contesto formale per lo studio del problema della generazione di wrapper come
processo di codifica/decodifica delle informazioni. Più specificamente: (i) è stata definita
formalmente una classe di funzioni di codifica che astrae efficacemente il processo di
generazione del codice HTML a partire da una base di dati, e ne sono state studiate le
proprietà computazionali; (ii) è stato definito un modello di dati per la descrizione del
contenuto delle pagine HTML nello spirito delle basi di dati; il modello è una variante del
modello relazionale nidificato, arricchito con collegamenti ipertestuali, che consente, tra
l'altro, di rappresentare attributi mancanti e valori nulli; le istanze del modello hanno
l'importante proprietà di essere facilmente rappresentabili in XML, il formato che abbiamo
deciso di utilizzare per la realizzazione delle biblioteche digitali di nuova generazione; (iii) è
stato selezionato un sottoinsieme delle grammatiche regolari per la specifica dei wrapper;
questo frammento, che è in corrispondenza 1:1 con il modello di dati scelto, rappresenta un
buon compromesso tra espressività nella descrizione dei documenti ed efficienza nell'analisi
grammaticale; (iv) infine, sulla base del contesto formale descritto, sono state studiate le
proprietà computazionali del problema di decodifica, dimostrandone formalmente la
calcolabilità.
L’obiettivo specifico del presente tema è quello di studiare algoritmi ed architetture che
consentano di sviluppare il prototipo di un sistema basato sulle tecniche discusse. Di
conseguenza, il work package sarà centrato attorno a due obiettivi principali:
1. lo sviluppo algoritmi di decodifica che siano efficienti ed efficaci, nel contesto formale
descritto sopra; la decodifica di dati da una collezione di documenti impone di
affrontare due problemi: (i) il primo è quello di ricostruire lo schema dei documenti,
secondo un opportuno formalismo, ad esempio XMLSchema; (ii) il secondo è quello di
derivare una grammatica appropriata che consenta di estrarre le informazioni rilevanti
nel documento; la grammatica sarà poi utilizzata come wrapper;
26
Enhanced Content Delivery
2. lo sviluppo di tecniche che consentano di assegnare automaticamente un nome
appropriato a ciascun elemento dello schema ricostruito dall’algoritmo di decodifica;
infatti, per poter adeguatamente trasformare in XML il risultato della decodifica operata
con le tecniche di cui al punto precedente, è necessario associare a ciascun dato
estratto un opportuno significato.
È importante notare che il processo di conversione attraverso wrapper generati
automaticamente risulta complementare a molti degli obiettivi degli altri temi. In particolare,
da una parte, attraverso il nostro contributo è possibile applicare tutte le tecniche basate su
XML anche ad informazioni originariamente disponibili in formati diversi. Dall’altra, si ritiene
che le tecniche sviluppate nell’ambito del WorkPackage 1.3 (Ontologie XML) dall’unità di
Modena possano essere di complemento alle tecniche per l’assegnazione di un nome
(semanticamente appropriato) ai vari elementi strutturali identificati.
1.5.4 Obiettivi e Deliverables
Obiettivo: O1.5.1
Titolo:
Definizione di algoritmi di decodifica per inferire schema (DTD) e
wrapper per un insieme di documenti HTML
Descrizione:
Verranno sviluppati algoritmi di decodifica che consentano di convertire
automaticamente in XML sorgenti informative HTML. La decodifica di
informazioni da una collezione di documenti HTML impone di affrontare
due problemi: (i) il primo è quello di ricostruire lo schema dei documenti
(secondo XMLSchema o altro formalismo adeguato); (ii) il secondo è
quello di derivare una grammatica appropriata che consenta di estrarre
le informazioni rilevanti nel documento.
Deliverable:
Mese 12: specifiche degli algoritmi di decodifica (rapporto)
Mese 21: prototipo dello strumento che realizza gli algoritmi di
decodifica (prototipo)
(nota: non c’è prodotto nel terzo anno perché il task finisce al mese 21)
Obiettivo: O1.5.2
Titolo:
Definizione di tecniche per l’assegnazione automatica di un nome agli
elementi degli schemi estratti con gli algoritmi di cui al punto O 1.5.1
Descrizione:
Per poter adeguatamente trasformare in XML il risultato della decodifica
operata con le tecniche di cui al punto O 1.5.1, è necessario associare a
ciascun dato estratto un opportuno significato. Verranno quindi studiare
tecniche che consentano di assegnare automaticamente un nome
appropriato a ciascun elemento dello schema ricostruito dall’algoritmo di
decodifica.
(nota: non c’è prodotto nel primo anno perché il task inizia al mese 14)
Mese 20: specifiche delle tecniche di assegnazione automatica dei nomi
(rapporto)
Mese 30: prototipo dello strumento che realizza le tecniche di
assegnazione automatica dei nomi (prototipo)
27
Fondo Speciale Innovazione
1.5.5 Unità coinvolte
L’unità di ricerca principalmente coinvolta è il Dipartimento di Informatica e Automazione
(DIA) dell’Università Roma Tre. In particolare partecipano al progetto le seguenti persone:
Paolo Atzeni, Giansalvatore Mecca (DIFA – Università della Basilicata), Paolo Merialdo,
Valter Crescenzi.
L'unità ha una vasta esperienza nei campi della gestione di dati in ambiente Web, gestione di
sequenze, gestione di schemi e modelli.
Collaboreranno a questo WP anche l'unita` operativa di Modena, che fornirà tecniche per la
interpretazione semantica delle strutture estratte dai wrapper generati automaticamente.
28
Enhanced Content Delivery
Azione 2. Mine the Web
Il Web è essenzialmente un centro di servizi per l’informazione enorme, distribuito e globale,
utilizzato nei più diversi ambiti, quali l’informazione giornalistica, la pubblicità e l’informazione
ai consumatori, la finanza, la formazione, il commercio elettronico, i servizi ai cittadini.
Il Web evolve molto rapidamente: si calcola che ogni due ore un nuovo server venga
connesso alla rete, e si è passati da circa 5 milioni di documenti web nel 1995 a oltre 1
miliardo nel 2000. Il tasso di crescita della rete è illustrato nella figura. Inoltre, l’informazione
disponibile è in forma ipertestuale e ipermediale, non strutturata ed eterogenea. La quantità,
la qualità e la dinamicità dell’informazione su web rendono pertanto indispensabili
meccanismi efficaci di indicizzazione e ricerca e contemporaneamente rendono tali
meccanismi difficili da realizzare e mantenere aggiornati. Infatti la complessità delle pagine
web è molto maggiore delle tradizionali collezioni di documenti testuali: le pagine web non
hanno una struttura unificante e presentano molte variazioni di stile e contenuto. Il Web è
talvolta considerato una enorme Digital Library, ma è purtroppo privo di indici standard per
categoria, titolo, autore ecc.: accedere all’informazione desiderata in tale biblioteca può
essere una impresa proibitiva.
Altre osservazioni che danno l’idea delle nuove sfide poste dal Web sono le seguenti:

Il Web cresce rapidamente e l’informazione è continuamente aggiornata: notiziari,
mercato finanziario, pubblicità, portali Web aggiornano le loro pagine Web
regolarmente e altrettanto frequentemente sono aggiornati i record di accesso ed i
collegamenti tra pagine.

Il Web è utilizzato da una comunità di utenti ampiamente variegata con background,
interessi e usi completamente diversi. Molti utenti non conoscono la struttura della rete
e non si rendono conto del costo di una particolare ricerca.

Solo una piccola porzione dell’informazione è veramente rilevante o utile: si usa dire
che il 99% dell’informazione è inutile al 99% degli utenti Web. In altre parole, una
particolare persona è generalmente interessata ad una piccola porzione del Web,
29
Fondo Speciale Innovazione
mentre il resto del Web contiene informazioni che non sono interessanti per lei ma che
comunque offuscano le informazioni ricercate.
Come si può determinare la porzione di Web veramente rilevante per un certo utente? Come
si possono trovare pagine che siano altamente pertinenti e qualificate su uno specifico
argomento di interesse? A queste esigenze cercano di rispondere gli attuali motori di ricerca,
che gestendo enormi indici basati su keyword aiutano a localizzare insiemi di pagine web
contenenti le keyword specificate dall’utente. Con tali motori un utente esperto può riuscire a
localizzare rapidamente documenti specificando un insieme di keyword e frasi attentamente
scelte. In realtà, gli attuali motori di ricerca basati su keyword presentano importanti
limitazioni:

Qualità delle risposte: una keyword può essere menzionata in centinaia di migliaia di
documenti, e quindi i motori di ricerca molto spesso restituiscono riferimenti ad una
enorme quantità di documenti, molti dei quali marginalmente rilevanti per l’argomento
di interesse. D’altra parte possono essere non recuperati documenti che sono
altamente rilevanti per l’argomento ma non contengono la keyword direttamente.

Copertura del Web: le dimensioni del web sono dell’ordine dei terabyte ed in continua
crescita: è praticamente impossibile realizzare un data warehouse che replichi o
integri tutta l’informazione del web e che possa essere di supporto al motore di ricerca
per avere una visione completa ed aggiornata del web.
Queste sono le motivazioni della ricerca di metodi più efficaci ed efficienti per la scoperta e
l’accesso di risorse su Internet; in tale contesto si colloca questa azione del progetto, che
intende investigare gli aspetti riguardanti sia l’efficacia che l’efficienza dei motori di ricerca
con il seguente approccio:
Efficacia: si intende procedere verso due obiettivi: il primo più a breve termine ed orientato
al miglioramento della tecnologia attuale, ed il secondo più a lungo termine orientato ad una
visione futuribile del Web.
Per quanto riguarda il primo obiettivo l’idea è di combinare le tecniche di ricerca su Web con
tecniche di analisi di data mining. In particolare si identificano le seguenti possibili
applicazioni:

Identification of authoritative Web pages: analisi della struttura della rete al fine di
valutare l’autorevolezza dei siti Web.

Web document classification: classificazione automatica e costruzione di indici e
glossari mediante tecniche di analisi del contenuto delle pagine Web.

Mining what Web search engine finds: raffinamento dei risultati di interrogazioni a
motori di ricerca;

Weblog mining: analisi dei file di log di accesso a Web o proxy server al fine di
scoprire profili di accesso alle risorse Web. Tale conoscenza può supportare la
gestione dei clienti nel commercio elettronico, o può essere usata per migliorare le
prestazioni dei o la qualità dei servizi Web.
Il secondo obiettivo riguarda il ruolo che giocherà XML nella gestione dell’informazione su
Web nei prossimi anni e l’opportunità che questo può fornire nell’organizzazione della
metainformazione e cioè di una struttura che sommarizzi il contenuto, la struttura, i link e gli
accessi al Web e che evolve con il Web:

Warehousing a Meta-Web: costruzione di una visione multidimensionale e gerarchica
della rete come base dell’attività di spidering dei motori di ricerca (esplorazione della
rete e raccolta di informazioni).
Efficienza: si intendono investigare due aspetti. Il primo riguarda le strutture dati per
l'indicizzazione, e la loro combinazione con tecniche di compressione mirate ad ottimizzare
30
Enhanced Content Delivery
sia lo spazio che il tempo di ricerca. L’obiettivo è di sviluppare nuove tecniche di
compressione e indicizzazione full-text che superino le limitazioni degli approcci noti in
letteratura. Il punto di partenza è costituito da alcuni recenti risultati nel campo della
compressione dati basati su una nuova tecnica, detta di Burrows-Wheeler, che trasforma il
testo in input in modo da renderlo maggiormente comprimibile.
Il secondo aspetto riguarda la necessità che gli algoritmi di ricerca sfruttino al meglio i
meccanismi e le poliche implementate dai moderni sistemi operativi delle architetture
commodity ad alte prestazioni; siano scalabili, ovvero siano già progettati per sfruttare la
distribuzione e il parallelismo. Lo scopo è quello di poter trattare, incrementando se possibile
le prestazioni globali del sistema, collezioni di dati con dimensioni sempre più grandi. Si
intende investigare sia le problematiche relative alla realizzazione efficiente e scalabile,
tramite distribuzione / parallelizzazione, di dimostratori data mining su dati Web, che le
problematiche Web search engine paralleli quali ad esempio:

valutazione di diversi paradigmi di parallelizzazione/distribuzione su architetture SMP
e COW; utilizzo di tecniche di compressione per ridurre gli accessi ai dischi;

schemi di condivisione dei dati;

schemi di partizionamento degli indici (es. term vs. document partitioning);

bilanciamento del carico;

valutazione di tecniche e meccanismi di comunicazione su rete.
Nel progetto si intende inoltre investigare una alternativa alla architettura centralizzata dei
search engine che collezionano in una singola locazione tutte le pagine Web raccolte.
Approcci alternativi sono i cosiddetti participatory service quali quelli utilizzati dal servizio
Gnutella. Gnutella è un protocollo che permette a coloro che hanno un apposito client di
distribuire files. In questa organizzazione non c’è un unico computer responsabile di
mantenere l’intera visione della rete.
Si intende sviluppare un protocollo e programmi client/server che permettano la condivisione
di indici e del loro materiale pubblico. Invece di trasferire documenti si scambieranno soltanto
indici così da ridurre il traffico di almeno un ordine di grandezza.
L’azione è organizzata secondo le seguenti attività di ricerca denominati WorkPackages:
Work
Package 2.1.
Work
Package 2.2.
Work
Package 2.3.
Work
Package 2.4.
Web Mining
Responsabile: Dott. Salvatore Ruggieri
Unità coinvolte: Dipartimento di Informatica, ISTI-CNR, ISI-CNR, Ideare,
FST
Indicizzazione e compressione
Responsabile: prof. Paolo Ferragina
Unità coinvolte: Dipartimento di Informatica, Ideare
Managing Terabytes
Responsabile: Dott. Raffaele Perego
Unità coinvolte: ISTI-CNR, ISI-CNR, Ideare
Participatory Search Services
Responsabile: Prof.ssa Maria Simi
Unità coinvolte: Dipartimento di Informatica, Ideare
31
Fondo Speciale Innovazione
Work Package 2.1. Web Mining
Responsabile: Dott. Salvatore Ruggieri
Unità coinvolte: Dipartimento di Informatica, ISTI-CNR, Ideare SpA, ISI-CNR, FST s.r.l.
2.1.1 Stato dell’arte
Il Web mining studia l’uso delle tecniche di data mining per l’estrazione di informazione –
knowledge discovery – dai documenti e servizi Web. Se in generale il data mining affronta il
problema di scoprire regolarità nascoste nei dati [F96, IM96, HK00], il Web Mining affronta il
problema di individuare regolarità nella struttura e nel contenuto delle risorse Web, e nei
pattern di accesso alle risorse Web [KB00, E96]. La conoscenza estratta può essere
impiegata per rispondere ai problemi di accesso ed indicizzazione del Web. Il Web mining
può essere suddiviso in tre principali categorie:
Web Mining
Web Content
Mining
Web Page
Content Mining
Web Structure
Mining
Web Usage
Mining
General Access
Pattern Tracking
Search Result
Mining
Customized
Usage Tracking
1. Structure mining: è mirato ad estrarre informazioni dalla topologia di interconnessione
fra le pagine Web. Tali informazioni sono utilizzabili per diversi scopi: categorizzare i
siti, scoprire relazioni di similarità fra i siti, valutare la rilevanza delle pagine. I modelli
sono costruiti analizzando i riferimenti ipertestuali, il grafo di connettività del Web che
essi formano e le altre informazioni strutturali contenute nei documenti HTML o XML.
2. Content mining: mira ad estrarre informazione dal contenuto delle risorse Web [KB00].
Le tecniche di mining possono essere applicate a dati di natura diversa: testuali, semistrutturati (HTML, XML), strutturati (tabelle relazionali, biblioteche digitali), dinamici
(risultati di query a basi di dati). Le interazioni con le tecniche di Information Retrieval
sono strette. I modelli estratti sono utilizzati ad esempio per classificare o
categorizzare le pagine web, per estrarre keyword o sequenze frequenti di keyword,
per inferire lo schema concettuale di una collezione di dati semi-strutturati, per
costruire viste a livelli multipli di porzioni del Web. Alcune direzioni di ricerca
promettenti consistono nei Web query system che impiegano l’informazione strutturale
sui documenti web per il trattamento di query di ricerca complesse, negli intelligent
search agent che operano per determinati profili utente sulla base di conoscenza di
dominio, nell’analisi del risultato dei motori di ricerca (mining what Web search engine
finds).
3. Usage mining: mira ad estrarre informazioni relative all’uso delle risorse Web, a partire
dai dati di log generati dalle interazioni degli utenti con il Web. Tali dati generalmente
derivano da log di web server e di proxy servers, ma anche da log di browser, cookies,
profili utente, dati di registrazione a servizi Web, sessioni utente, interrogazioni utente,
bookmarks. L’analisi dell’uso del Web può essere applicata alla definizione di strategie
intelligenti di caching e prefetching di risorse Web presso proxy o web servers,
32
Enhanced Content Delivery
all’identificazione di utenti e sessioni utente, alla ristrutturazione automatica di siti Web
(adaptive web sites), ai sistemi di raccomandazione e di gestione della clientela nell’ebusiness [PE97, Z98, S97].
L’analisi del traffico Web viene invece utilizzata per migliorare i flussi e determinare la
migliore dislocazione dei server di replicazione [Akamai].
Lo structure mining ha già oggi alcune applicazioni significative nell’ambito dei motori di
ricerca su Web: il page ranking e la classificazione.
Page Ranking
Tra le tecniche di analisi di dati utilizzate per individuare o misurare l’autorevolezza delle
pagine Web, citiamo:
1. metodo di Page-rank [Bri 98]
usato da Google per misurare l’importanza delle pagine, basato su un modello
statistico di “random browsing”
3. metodo hub/authority [K98]
basato sull’individuazione di hub (pagine con numerosi link verso altre pagine su uno
stesso argomento) e authority (pagine riferite da numerose altre pagine). Hub e
authority esibiscono una relazione di mutuo rinforzo. [k98] ha introdotto un metodo per
l’individuazione del peso da assegnare a ciascun hub/authority basato sul calcolo
iterativo degli autovalori della matrice di connettività del Web. La tecnica è usata nei
sistemi HITS [K98] e Clever [C99].
Queste tecniche si sono dimostrate molto efficaci per migliorare la qualità e la rilevanza dei
risultati di interrogazioni ai motori di ricerca.
Recentemente [LM00] ha sviluppato un modello stocastico di analisi della struttura dei link,
che sussume il metodo di Kleinberg. Applicando il teorema ergodico ed altre proprietà dei
processi stocastici descritti con catene di Markov, [LM00] dimostra che i vettori di autovalori
a cui il processo converge sono banalmente costituiti dal numero di link entranti/uscenti in
una pagina.
Questo risultato indica che le tecniche di Web mining sono appena agli albori e molto
resta da fare in questo settore.
Non va dimenticato che la qualità del metodo dipende fortemente dalla possibilità di
individuare gruppi di pagine riguardanti uno stesso argomento. In questo aspetto hanno
fondamentale importanza le tecniche di categorizzazione automatica.
Classificazione dei documenti
Le tecniche tradizionali usate in Information Retrieval per categorizzare documenti si basano
sull’analisi del contenuto dei documenti, applicando metodi di valutazione statistica della
misura di distanza tra due documenti o tra un documento ed un profilo o prototipo di una
categoria.
Recentemente il gruppo di Pisa ha sviluppato una nuova tecnica di analisi del contesto [A98]
che è stata applicata inizialmente alla classificazione di documenti, dove si è dimostrata più
accurata ed efficace della tecnica tradizionale di classificazione per contenuto, specialmente
nell’ambito del Web, dove i documenti hanno poca omogeneità e dove invece è possibile
sfruttare l’organizzazione ipertestuale.
La tecnica di analisi dei contesti viene attualmente utilizzata con notevole successo nella
costruzione di cataloghi Web, di raccolte specializzate (MP3, immagini, etc.) nei servizi
realizzati da Ideare SpA (www.ideare.it).
Il Web usage mining ha applicazioni significative nell’ambito della gestione dei siti Web, che
variano dalla ristrutturazione adattiva fino all’ottimizzazione del traffico. Il Pisa KDD
33
Fondo Speciale Innovazione
Laboratory (CNR-ISTI, Università di Pisa) ha sviluppato un sistema di Web caching
intelligente, che può essere applicato anche al caching delle query dei motori di ricerca.
Intelligent Web Caching
Il Pisa KDD Laboratory ha sviluppato algoritmi di Web caching che impiegano modelli
predittivi degli accessi al Web; l’idea è quella di estendere la politica LRU (last recently used)
dei Web e Proxy servers rendendola sensibile ai modelli di accesso ai Web estratti dai dati di
log mediante tecniche di analisi di data mining [G00, KDD00]. Si studiano due approcci: uno
basato su regole di associazione e l’altro su alberi di decisione. I risultati sperimentali dei
nuovi algoritmi mostrano miglioramenti sostanziali rispetto alle tecniche tradizionali di
caching, in termini di documenti Web direttamente rinvenuti nella cache (hit rate). È stato
sviluppato un prototipo che supporta il warehousing dei dati di Web log, l’estrazione di
modelli di data mining e la simulazione degli algoritmi di Web caching, facendo riferimento a
una architettura che integra i vari passi del processo di KDD.
2.1.2 Obiettivi Strategici
Il contesto presentato nelle precedenti sezioni dà una idea del notevole interesse che il Web
Mining sta suscitando, sia dal punto di vista della ricerca che dal punto di vista industriale. I
miglioramenti e le proposte che derivano dalla ricerca sono recepite con una velocità
impressionante dai prodotti commerciali. Un percorso di ricerca in questo ambito deve quindi
tenere conto sia dell’interesse nel miglioramento della tecnologia attuale, ma deve anche
avere una visione più a lunga scadenza. In questo progetto gli obiettivi strategici che si
intendono perseguire sono:
1. in riferimento al ruolo crescente che XML giocherà nella gestione dell’informazione su
Web, si studierà come estendere le analisi di Web mining a collezioni di documenti
XML al fine di sfruttare la maggiore informazione semantica resa disponibile;
2. la possibilità di esprimere query complesse di ricerca sul Web presuppone di estrarre
unavisione omogenea del Web, che sopperisca alla sua mancanza di struttura
uniforme: si studierà una visione del Web come un database a strati multipli, che
riassume il contenuto, la struttura, i link e gli accessi al Web e che evolve con lo
stesso, ottenuto mediante analisi di data mining sui risultati dell’attività di spidering
dei motori di ricerca (esplorazione della rete e raccolta di informazioni).
3. il processo di estrazione della conoscenza e il suo impiego nella costruzione di
applicazioni complesse richiede una delicata opera di verticalizzazione che coinvolge
tutte le fasi del processo (datawarehoising, preprocessing, data mining, valutazine ed
uso dei modelli estratti): si definirà un ambiente di sviluppo per applicazioni di
webmining adattando il processo di estrazione della conoscenza alle caratteristiche
dell’informazione Web.
Un breve approfondimento dei tre punti menzionati è riportato di seguito al fine di chiarire gli
obiettivi strategici del progetto.
Il ruolo di XML
XML rappresenta una direzione promettente verso un Web più strutturato e verso Webserver basati su DBMS. Con la notazione XML si possono infatti esprimere documenti
semistrutturati, composti da una struttura che dà forma alle parti di testo. Ciò consentirà di
trasformare il Web in una cospicua raccolta di documenti semistrutturati su cui saranno
possibili interrogazioni più articolate della semplice ricerca per chiavi, del tipo: “Cerca il
biglietto aereo più economico tra Pisa e NewYork”, “Costruisci l’elenco degli impieghi con
salario > 100 milioni nell’area di Milano”.
La notazione XML si basa sull’uso di tag definibili dall’utente, oltre a quelli predefiniti di
HTML, e utilizzabili per strutturare i documenti e arricchirli con annotazioni semantiche. La
34
Enhanced Content Delivery
figura seguente mostra la diversa ricchezza di informazione dei due formalismi in un
semplice esempio relativo a dati personali.
HTML
First Name:
Serge 
Last name:
Abiteboul 
Email:
[email protected]
 
XML
<person>
<firstname>
Serge
</firstname>
<lastname>
Abiteboul
</lastname>
<email>
[email protected]
</email>
</person>
La struttura utilizzata in un documento XML può essere a sua volta descritta in notazione
XML mediante gli XML Schema, che sostituiscono i precedenti Document Type Definitions
(DTD).
Per specificare come deve essere visualizzato un documento XML si fa uso dello stylesheet
language (XSL), che comprende un linguaggio per esprimere trasformazioni (XSTL) e un
insieme di costrutti di formattazione. Ciò consente ad esempio di trasformare documento
XML in uno HTML visualizzabile mediante un normale browser.
XML apre nuove opportunità di Web Mining, in quanto sarà possibile combinare nella ricerca
di regolarità e pattern significativi sia informazione che metainformazione.
Una visione multi-strato del Web
La possibilità di query complesse di ricerca sul Web presuppone di estrarre una visione
omogenea del Web, che sopperisca alla sua mancanza di struttura uniforme. [ZH98]
suggerisce una visione del Web come un database a strati multipli, che ne riassume i
contenuti e la struttura ed evolve esso stesso con il Web. Il livello 0 di tale database coincide
con il Web; il livello 1 contiene una entry per ogni risorsa Web ritenuta importante, con
l’indicazione della URL, del tempo, della classe e delle keywords, della popolarità, dei link,
eccetera; i livelli successivi sono ottenuti per astrazioni dei livelli più bassi mediante tecniche
di mining (sommarizzazione, classificazione, clustering).
L’architettura a livelli multipli dovrà poter essere aggiornata in modo incrementale; la sua
funzione preminente sarà quella di separare i dati dai meta dati, e di fornire una
indicizzazione semantica delle risorse Web. Le interrogazioni complesse o le analisi di data
mining potranno essere eseguite direttamente sul database multi-strato, o comunque
assistite da questo.
35
Fondo Speciale Innovazione
Layern
More Generalized Descriptions
...
Layer1
Generalized Descriptions
Layer0
Web Mining ed il Knowledge Discovery Process
Il processo di estrazione della conoscenza (KDD process) è costituito da una serie di fasi
che precedono e seguono il data mining, illustrate nella figura sottostante. Lo sviluppo di
applicazioni complesse, dal market basket analysis alla fraud detection fino al Web mining,
richiede la possibilità di verticalizzare tutte tali fasi adattandole ed integrandole dentro un
decision support system, oppure un sistema di Web caching, un motore di ricerca o un
portale per commercio elettronico [G99].
Il Pisa KDD Laboratory ha sviluppato un ambiente a supporto del processo di data mining in
cui i risultati intermedi, gli input e gli output agli algoritmi di data mining, le azioni di
manipolazione dei dati e lo stesso query language sono rappresentati in notazione XML. Il
sistema così concepito presenta da un lato l’interoperabilità tra vari tool di data mining,
nonché la possibilità di esprimere la loro composizione e dall'altro è predisposto
all'applicazione degli stessi strumenti su dati codificati in XML [T00]. Tale ambiente può
costituire una base di partenza per questo obiettivo del progetto.
2.1.3 Approccio ed obiettivi specifici
Nel progetto si intendono superare le limitazioni della tecnologia attuale di ricerca ed
accesso al Web adottando soluzioni che sfruttino XML e l’approccio meta-web.
36
Enhanced Content Delivery
Il primo obiettivo è il potenziamento degli attuali strumenti di Search Engine con strumenti di
mining al fine di migliorare la qualità delle risposte e la copertura del Web. I temi principali
sono i seguenti:
1. definizione di algoritmi di ranking sensibili al risultato di mining sul contenuto e sulla
struttura dei documenti raccolti nella fase di spidering;
2. classificazione intelligente di documenti Web;
3. riconoscimento di siti autorevoli e clustering di pagine Web;analisi dei log dei search
engine per il caching intelligente dei risultati di query frequenti;
5. analisi dei log dei proxy e web server per il tracking delle sessioni e dei profili utente
con finalità che variano dal caching intelligente, al prefetching, alla ristrutturazione dei
siti e dei servizi web, fino al supporto dell’e-business.
Gli obiettivi intermedi e di più lunga portata sono i seguenti:
1. Mining di struttura e di contenuto su collezioni di documenti XML: si intende sfruttare
la natura semi-strutturata e la meta informazione per definire metodi di estrazione
della conoscenza mirati alla classificazione ed al ranking automatico di documenti
XML.
2. Ambiente per lo sviluppo di applicazioni verticali di data mining all’accesso e recupero
intelligente di informazioni su Web: tale ambiente dovrà integrare un repertorio di
strumenti ed algoritmi di analisi specializzati allo sviluppo di modelli di analisi del
contenuto, della struttura e dell’uso del Web, e permettere l’uso di tali modelli ai fini
della prototipizzazione e dello sviluppo di motori di ricerca intelligenti.
Obiettivo: O2.1.1
Titolo:
Web usage mining per il caching intelligente Descrizione: Nell’ambito
di questo progetto si intende consolidare il prototipo di web usage
mining estendendolo con tecniche dedicate di clustering per la
ricostruzione delle sessioni utente, ed istanziare il prototipo al problema
del caching intelligente dei risultati di query nei search engine.
Deliverables:
sistema software di caching intelligente per search engine basato su
algoritmi di Web usage mining: implementazione, verifica sperimentale
delle prestazioni, ed eventuali brevetti industriali
Obiettivo: O2.1.2
Titolo:
Web content-structure mining per il page rankingDescrizione:
Nell’ambito di questo progetto si intendono studiare metodi di analisi
combinata della struttura e del contenuto delle pagine (Web contentstructure mining) mirate alla definizione di algoritmi evoluti di page
ranking, anche in riferimento alle tecniche di classificazione e
categorizzazione dei documenti raccolti nella fase di spidering. Si
intende quindi sviluppare un prototipo, secondo la metodologia già
applicata al Web caching (obiettivo 2.1.1), che consenta di simulare una
gerarchia di indici di ricerca adattiva rispetto al continuo aggiornamento
dell’indice di rilevanza delle pagine, e di valutare sperimentalmente
l’impatto della tecnica di page ranking.
Deliverables:
Disegno e prototipo di un motore di ricerca basato su tecniche di page
ranking adattive e relativa verifica sperimentale dell’efficacia
37
Fondo Speciale Innovazione
Obiettivo: O2.1.3 Titolo:
Linguaggio e strumenti per lo sviluppo di applicazioni verticali di
web mining:
descrizione:
Nell’ambito del progetto si intende consolidare il sistema di KDD basato
su XML e verticalizzarlo sul Web mining, ovvero sui processi di data
mining relativi all’accesso e recupero intelligente di informazioni su Web:
tale ambiente dovrà integrare un repertorio di strumenti ed algoritmi di
analisi specializzati allo sviluppo di modelli di analisi del contenuto, della
struttura e dell’uso del Web, in riferimento alle opportune ontologie e
metadati del Web e dei pattern di Web mining.
Deliverables:
prototipo di un linguaggio e strumenti di supporto per lo sviluppo di
applicazioni di Web mining, basato su XML.
Obiettivo: O2.1.4
Titolo:
Data mining su collezioni di documenti XML
Descrizione:
Nell’ambito del progetto si intende individuare adeguate nozioni di
pattern frequenti per collezioni di documenti XML, insieme con algoritmi
efficienti per calcolarli.
Deliverables:
algoritmi per il mining di pattern frequenti da collezioni di documenti
XML: implementazione, verifica sperimentale delle prestazioni, ed
eventuali brevetti industriali
Riferimenti
[Akamai]
http://www.akamai.com.
[A98]
G. Attardi, et al. Categorization by context. Proc. WebNet Conference, 1998.
[BP98]
S. Brin, L.Page. The anatomy of a large scale hypertextual Web search engine. In Proc. 7th Int.
World Wide Web Conf., Brisbane, 1998.
[BR97]
D. Backman, J. Rubbin. Web log analysis: Finding a recipe for success.
http://techweb.comp.com/nc/811/811cn2.html. 1997.
[C99]
S. Chakrabarti et al. Mining the link structure of the world wide web. IEEE Computer, 39(8):60-67,
1999.
[E96]
O. Etzioni. The world-wide web: quagmire or gold mine? Communications of the ACM, 39:65-68,
1996.
[F96]
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge
Discovery and Data Mining. AAAI/MIT Press, 1996.
[G99]
F. Giannotti, G. Manco, D. Pedreschi, F. Turini. Experiences with a logic-based knowledge
discovery support environment. In Proc. 1999 ACM SIGMOD Workshop on Research Issues in
Data Mining and Knowledge Discovery (SIGMOD'99 DMKD). ACM Press, May 1999.
[G00]
F. Giannotti et al.. Data Mining techniques for Intelligent Web Caching. Rapporto Tecnico del
progetto MineFaST, Luglio 2000.
[HK00]
J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000.
[K98]
J. M. Kleinberg. Authoritative sources in a hyperlinked environment. In Proc. ACM-SIAM Symp. on
Discrete Algorithms, pp. 668-677, 1998.
[KB00]
R. Kosala, H. Blockeel. Web mining research: a survey. SIGKDD Explorations, Newsletter of the
ACM SIGKDD – Special Interest Group on Knowledge Discovery and Data Mining, 2(1):1-15, 2000.
[KDD00]
Pisa Kdd Lab. Web Log Data Warehousing and Mining for Intelligent Web Caching. Data and
Knowledge Engineering, 2000. Submitted.
[IM96]
T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of
ACM, 39:58-64, 1996.
38
Enhanced Content Delivery
[LM00]
R. Lempel and S. Moran. The stochastic approach for link-structure analysis (SALSA) and the TKC
effect. (in press), 2000.
[PE97]
M. Perkowitz and O. Etzioni. Adaptive sites: Automatically learning from user access patterns. In
Proc. 6th Int. World Wide Web Conf., Santa Clara, California, April 1997.
[S97]
T. Sullivan. Reading reader reaction : A proposal for inferential analysis of web server log files. In
Proc. 3rd Conf. Human Factors & the Web, Denver, Colorado, June 1997.
[ZH98]
O. Zaiane, J. Han. WebML: querying the world wide web for resources and knowledge. In Proc.
ACM CIKM’98 Workshop on Web Information and Data Management WIDM’98, p. 9-12, 1998.
[ZX98]
O. R. Zaiane, M. Xin, and J. Han. Discovering Web access patterns and trends by applying OLAP
and data mining technology on Web logs. In Proc. Advances in Digital Libraries Conf. (ADL'98),
pages 19-29, Santa Barbara, CA, April 1998.
2.1.4 Unità coinvolte

Dipartimento di Informatica, Pisa

IST-CNR, Pisa

ISI-CNR, Cosenza

FST s.r.l., Cagliari

Ideare SpA, Pisa
39
Fondo Speciale Innovazione
Work Package 2.2. Indicizzazione e compressione
Responsabile: prof. Paolo Ferragina
Unità coinvolte: Dipartimento di Informatica, Ideare SpA
2.2.1 Stato dell’arte
Lo sviluppo di strutture dati e algoritmi efficienti per problemi di ricerca su grosse quantità di
dati testuali riveste oggi un ruolo strategico determinante [BR97, WBM99] per diverse
ragioni: l’aumento del gap tra le prestazioni dei processori e le velocità di accesso alle
memorie, la crescita esponenziale dei documenti reperibili in forma elettronica, che sorpassa
la pur non indifferente crescita della capacità di memoria (centrale e di massa) dei computer
attuali. L’efficienza delle soluzioni riguarda non soltanto i tempi di risposta alle query poste
dall'utente, ma anche lo spazio occupato dalle strutture dati utilizzate [M99].
Per realizzare strutture dati per l'indicizzazione si seguono principalmente due approcci:
indici basati sulle parole (word-based) oppure indici basati sul testo completo (full-text). I
primi permettono di ridurre lo spazio al prezzo di poter cercare efficientemente solo parole o
prefissi di parole; i secondi possono coniugare versatilità e buone prestazioni al prezzo però
di una grande occupazione di memoria [BR99, WMB99]. Alcuni progressi sugli indici full-text
sono stati ottenuti recentemente, ma le strutture dati proposte occupano uno spazio che
risulta asintoticamente lineare nella dimensione dei testi indicizzati. Ciò rende attraenti gli
indici word-based quando lo spazio risulta la risorsa primaria da minimizzare e le query sono
principalmente word-oriented.
Questo è il tipico scenario che si incontra nello sviluppo di motori di ricerca per grandi
collezioni di dati testuali e per il Web.
2.2.2 Obiettivi strategici
La compressione può giocare un ruolo importante in questo ambito avendo benefici effetti
collaterali non limitati al risparmio in spazio: anche il tempo di accesso alle strutture dati può
essere ridotto in quanto minore è la quantità di dati da trasferire o minore è lo spazio disco
da percorrere [K98]. Per questo motivo, gli approcci che tendono a combinare indicizzazione
e compressione stanno ricevendo attualmente sempre più attenzione. Diverse pubblicazioni
recenti [BR99,WMB99] danno ampio spazio alle tecniche di compressione e a come queste
possano contribuire al miglioramento delle prestazioni degli indici, sia word-based che fulltext. Comunque, questi risultati sono basati essenzialmente su euristiche che ottengono
trade-off sperimentali tra occupazione in spazio ed efficienza della ricerca (vedere ad es.
[Glimpse]). Per cui la loro efficienza dipende da numerosi fattori, quali la struttura dei testi da
indicizzare, la loro dimensione, il tipo di query da supportare, ecc..
L’obiettivo della nostra ricerca dunque è quello di sviluppare nuove tecniche di compressione
e indicizzazione che superino le limitazioni degli approcci noti in letteratura, offrendo la
maggiore flessibilità e robustezza possibile. Flessibilità, in quanto, si vorrebbe poter
indicizzare collezioni di testi anche molto diverse tra loro usando lo stesso tipo di indice e la
stessa tecnica di compressione, senza il bisogno di dover studiare ogni volta delle tecniche
ad-hoc. Robustezza, in quanto, si vorrebbe poter quantificare matematicamente la bontà di
questo indice utilizzando misure oggettive quali l’entropia della collezione di testi (per la
valutazione dello spazio) e la complessità in tempo al caso pessimo (per la valutazione delle
prestazioni nelle query).
40
Enhanced Content Delivery
2.2.3 Approccio e obiettivi specifici
Il punto di partenza della nostra indagine è costituito da alcuni recenti risultati nel campo
della compressione dati [BW94, M99, S99]. Questi si fondano su una nuova tecnica
sviluppata da Burrows-Wheeler [BW94], che trasforma il testo in input in modo da renderlo
maggiormente comprimibile. Le prestazioni degli algoritmi basati su questa tecnica sono
sperimentalmente migliori di strumenti noti quali gzip, pkzip, ecc. (si veda [S97, WMB99] per
un confronto).
In un lavoro recente [FM00] abbiamo dimostrato che è possibile utilizzare la trasformazione
di Burrows-Wheeler per il progetto di un indice compresso che non richiede la
decompressione completa all'atto della ricerca. In questo lavoro è stata introdotta la prima
struttura dati che trae vantaggio dalla comprimibilità dei testi per ridurre lo spazio occupato,
senza però pregiudicare in alcun modo l'efficienza delle ricerche eseguibili su di essa. Più
precisamente lo spazio totale è funzione lineare dell'entropia dell'insieme dei dati indicizzato,
e quindi risulta ottimo nel senso della teoria dell'informazione; inoltre, la complessità in tempo
della query è del tutto paragonabile a quella ottenuta dai migliori indici full-text [BR99] sia per
quanto concerne il conteggio delle occorrenze che il recupero delle stesse, se siamo in
presenza di query selettive. In questo progetto ci proponiamo dunque di investigare
sperimentalmente la bontà di questa soluzione, confrontandola con strumenti di
compressione e ricerca noti, quali Zgrep, Bgrep, Suffix Array, ecc..
Inoltre, date le interessanti proprietà della struttura dati introdotta in [FM00], risulta a nostro
avviso cruciale valutare la sua applicabilità al progetto di motori di ricerca sofisticati. In
particolare questo indice potrebbe essere utilizzato come blocco di base nella realizzazione
di un database compresso di pagine Web, in cui il motore di ricerca viene realizzato mediate
un indice word-based. Questo DB potrebbe essere utilizzato per fornire una funzionalità
molto interessante: la visualizzazione delle porzioni di pagine Web contenenti le occorrenze
delle keyword cercate. (Il famoso motore Google offre questa funzionalità.) Le tecniche oggi
adottate per garantire un accesso casuale alle informazioni contenute in DB compressi, non
raggiungono delle buone percentuali di compressione poiché si basano sul metodo di
Huffman [S97, WMB99]. La struttura dati in [FM00] potrebbe essere adottata invece per
ottenere una compressione significativa del DB e per supportare il recupero efficiente delle
pagine selezionate “a caso” dall’indice word-based come risultato di una query.
Obiettivo: O2.2.1
Titolo:
Algoritmi e Strutture Dati per la compressione e l’indicizzazione
Descrizione:
Ci proponiamo di analizzare più a fondo le caratteristiche algoritmiche
dell’indice proposto in [Ferragina-Manzini, IEEE Focs 2000], ponendo
una particolare attenzione alle sue prestazioni in un ambiente con
memoria gerarchica e alla sua adattabilità alle sequenze di query (selfadjusting data structures). I risultati saranno presentati in rapporti tecnici,
proceedings di conferenze e riviste internazionali. Nell’ambito di questo
studio si prevede di invitare per un mese un ricercatore di fama
internazionale.
Deliverables:
Obiettivo: O2.2.2
Titolo:
Data-Base Compresso di pagine Web
41
Fondo Speciale Innovazione
Descrizione:
Un DB compresso di pagine web viene adottato dai motori di ricerca
(p.e. Google) per visualizzare la porzione di una pagina dove occorre la
keyword cercata dall’utente. Metodi classici di compressione, quali
Huffman, consentono un accesso casuale al file compresso ma
raggiungono basse percentuali di compressione, perciò solitamente i DB
troncano le pagine indicizzate per risparmiare in spazio e tempo di
accesso. La funzionalità di accesso casuale al file compresso offerta dal
nostro indice e la sua ridotta occupazione in spazio potrebbero
consentire di comprimere le pagine web nella loro interezza e accedere
puntualmente ad alcune loro parti. Il software sviluppato sarà di pubblico
dominio e corredato da opportuna documentazione. Nell’ambito di
questo obiettivo si prevede di invitare per un mese un ricercatore di
fama internazionale, e di offrire un contratto annuale a uno sviluppatore
software professionista.
Deliverables:
Anno 1. Prototipo del motore di ricerca compresso e studio delle sue
prestazioni.
Anno 2. Raffinamento del prototipo precedente e realizzazione del DBcompresso di pagine web
2.2.4 Unità coinvolte

Dipartimento di Informatica, Pisa.

Ideare SpA
Riferimenti
[BR99]
R. Baeza-Yates, B. Ribeiro-Neto. Modern Information Retrieval. ACM Press e Addison-Wesley,
1999.
[BW94]
M.Burrows,D.Wheeler. A block sorting lossless data compression algorithm. DEC TR 124, 1994.
[FM00]
P. Ferragina, G. Manzini. Opportunistic data structures with applications. IEEE Foundations of
Computer Science (FOCS), 2000.
[K98]
D.E.Knuth. Sorting and Searching, vol.3, The Art of Computer Programming. Addison-Wesley
1998.
[MM93]
U. Manber, G. Myers. Suffix Arrays: A new method for on-line string searches. SIAM J. on
Computing, 1993.
[Glimpse]
U.Manber, S.Wu. GLIMPSE: A tool to search through entire file systems. USENIX 1994.
[Mu99]
I.Munro. Succinct data structures. FST&TCS 1999.
[M99]
G. Manzini. An analysis of the Burrows-Wheeler transform. ACM-SIAM Symp. on Discrete
Algorithms (SODA), 1999.
[S99]
K.Sadakane. A Modified Burrows-Wheeler Transformation for case-insensitive search with
application to suffix array compression. IEEE Data Compression Conference, 1999.
[S97]
D. Salomon. Data Compression: the Complete Reference. Springer Verlag, 1997.
[WMB99]
I.Witten, A.Moffat, T.Bell. Managing Gigabytes: Compressing and Indexing Documents and Images.
Morgan Kaufmann, 1999.
42
Enhanced Content Delivery
Work Package 2.3. Managing Terabytes
Responsabile: Dott. Raffaele Perego
Unità coinvolte: ISTI-CNR, ISI-CNR, Ideare SpA
2.3.1 Stato dell’arte
Sempre più spesso tecnologie parallele e distribuite vengono adottate nella ricerca,
nell’estrazione e nel recupero delle informazioni, per far fronte alle accresciute dimensioni
dei data warehouse delle aziende e delle amministrazioni pubbliche, e del materiale su
Internet [WMB99, BYR99, HaK00].
Internet inoltre ha ampliato il numero degli utenti contemporanei ai servizi e pertanto
rende necessario l’utilizzo di tecniche di High Performance Computing, quali: server farms,
workload distribution, query optimizations, advanced storage solutions, etc.
Poter indicizzare ed estrarre informazioni da collezioni di documenti ipertestuali, non
strutturati o semi strutturati, di dimensioni anche superiori al Tera Byte, di contenuto
eterogeneo ed altamente dinamico, con elevato numero di accessi, ha richiesto lo sviluppo di
nuovi algoritmi/strutture dati ottimizzati nel settore sostanzialmente consolidato
dell’Information Retrieval (IR) [BYR99, WMB99]. Ad esempio sono stati sviluppati nuovi
criteri per il ranking dei documenti che tengono conto della natura ipertestuale dei documenti
[BrP98], nuove tecniche di compressione degli indici full-text e dei documenti testuali
[WMB99], indispensabili non solo per minimizzare l'occupazione di spazio disco ma anche
per aumentare le prestazioni della fase di ricerca attraverso un migliore sfruttamento delle
gerarchie di memoria delle moderne architetture, tecniche di distribuzione e parallelizzazione
dell'intero ciclo "recupero-indicizzazione-ricerca", indispensabili per gestire in maniera
ottimale in spazio e tempo enormi collezioni dinamiche di documenti e per garantire tempi di
risposta brevi all’elevato numero di interrogazioni sottoposte ai Web Search Engine (WSE)
[WMB99, BrP98].
Web
Document
downloading
User queries
Spider
Searcher
Raw data
Indexes
Indexer
Figura 3. Schema a blocchi di un WSE
La Figura 3 illustra lo schema a blocchi di un WSE tradizionale. I moduli Spider e Indexer si
occupano, rispettivamente di effettuare il download dei file da Web e della loro
indicizzazione. Il modulo Searcher si occupa di rispondere alle query degli utenti attraverso
l’uso degli indici.
43
Fondo Speciale Innovazione
La Figura 4 illustra lo schema generale di distribuzione del modulo Searcher di un WSE.
Figura 4. Schema generale di un WSE distribuito (modulo Searcher).
Per ottimizzare il recupero, la catalogazione, l'indicizzazione e la ricerca di documenti Web
sono inoltre state recentemente utilizzate tecniche di Data Mining (DM) che appaiono molto
promettenti [HaK00]. Tali tecniche possono essere applicate per estrarre conoscenza a
partire da:

contenuto delle pagine (Web content mining)

struttura topologica del Web (Web structure mining)

log di accesso al Web (Web usage mining).
Il Web mining ha anche ricadute sull’efficienza dei motori di ricerca. Ad esempio, permette di
ottimizzare lo spidering e il ranking dei documenti, nonché le politiche di caching e
prefetching implementate all’interno dei WSE. Una problematica fondamentale nel campo del
DM, e del Web mining in particolare, è sviluppare algoritmi e sistemi che scalano con
l’aumento della dimensione e della complessità dei dati [FrL98]. A causa sia dell’enorme
dimensione dei dati trattati, soprattutto per quanto concerne il Web, e sia dell’enorme carico
computazionale connesso all’impiego di algoritmi di DM, il calcolo parallelo e distribuito è
oggi considerato un componente essenziale per realizzare soluzioni efficaci e soddisfacenti.
La Figura 5 mostra uno schema comune per la parallelizzazione di un algoritmo di DM
applicato ad un dataset Web, e basato essenzialmente sul partizionamento dei dati.
44
Enhanced Content Delivery
DM
alg .
Subset 1
Partial
Knowledge
Web Data
Set
combine
DM
alg .
Subset n
Global
Knowledge
Partial
Knowledge
Figura 5. Schema generale di parallelizzazione di un algoritmo di DM.
Esperienze acquisite. I ricercatori che partecipano a questo WP hanno competenze
significative e stratificate nel settore del calcolo ad alte prestazioni su piattaforme parallele e
distribuite. Molte delle più recenti attività di ricerca rientrano nell’esperienza del Progetto
PQE2000. Recentemente il gruppo ha concentrato l’attenzione sullo sfruttamento di
architetture commodity non omogenee, come i cluster di multiprocessori (SMP), per
affrontare problemi che sono caratterizzati non solo da elevate attività di calcolo, ma anche
da input/output intensivo. A questo riguardo, Data Mining e Web Search Engine sono
applicazioni chiave per le problematiche algoritmiche e architetturali che inducono.
Nell’ambito di questi campi applicativi emergenti e della corrispondente domanda di soluzioni
avanzate ad alte prestazioni si inquadrano le collaborazioni in atto con il Dipartimento di
Informatica dell’Università di Pisa, e con la società Ideare S.p.A. di Pisa.
2.3.2 Obiettivi Strategici
I principali obiettivi strategici di ricerca rilevanti per questo WP sono i seguenti:
Modelli di IR per il Web: È necessario sviluppare modelli di IR specifici per il Web. Accanto
al più tradizionale modello centralizzato che implica la raccolta delle informazioni per la loro
indicizzazione e ricerca, molto interessante sembra l’adozione di modelli decentralizzati su
cui si basano ad esempio i servizi di partecipatory search, oggetto del WP 2.4 di questo
progetto. I due approcci possono anche essere combinati per garantire maggiore precisione
nelle ricerche e maggiore scalabilità dell’approccio. Si tende inoltre a ridurre il dominio dei
dati utilizzando ad esempio WSE specializzati (per tipo e/o contenuto dei documenti) o
regionali che grazie alla maggiore omogeneità dei documenti indicizzati permettono
presumibilmente di ottenere risposte di maggior rilevanza.
Interrogazione. L’uso di XML dovrebbe permettere una migliore efficienza dei motori di
ricerca, permettendo di porre interrogazioni non solo basate sul contenuto ma anche sulla
struttura, permettendo anche query by example. Questo implica clustering e classificazione
dei documenti, oggetto del WP 2.1 su Web mining.
Tecniche di indicizzazione. Alcuni dei problemi ancora aperti riguardano le migliori tecniche
di compressione di testi, URL e termini da adottare nel progetto del WSE (oggetto del WP
2.2 di questo progetto), e le migliori scelte relative al tipo ed alla quantità di informazioni su
cui costruire gli indici. Le scelte fatte a questo riguardo hanno un enorme impatto sulla
grandezza e sul formato degli indici e, di conseguenza, sugli algoritmi e sulle strutture dati
necessarie a garantire scalabilità e bassi tempi di risposta alle interrogazioni.
WSE scalabile. La crescita esponenziale dei documenti presenti nel Web comporta la
necessità di individuare soluzioni altamente scalabili ed efficienti per la realizzazione dei
45
Fondo Speciale Innovazione
WSE. Questo è particolarmente vero se viene adottato un modello di IR che prevede la
raccolta centralizzata delle informazioni per l’indicizzazione e la ricerca. Oltre alla riduzione
della latenza delle fasi di recupero ed indicizzazione dei documenti tramite parallelizzazione
e distribuzione, il sistema di gestione delle interrogazioni deve essere altamente distribuito in
modo da garantire espandibilità, affidabilità e soprattutto throughput elevato.
Web mining scalabile. Il Web mining si riferisce all’intero processo di estrazione di pattern e
modelli utili da grandi collezioni di dati provenienti dal Web. Sono già state riconosciuto le
ricadute positive che tali tecniche possono avere sulla realizzazione di WSE efficienti. Ad
esempio, è possibile ottimizzare lo spidering e il ranking dei documenti, nonché le politiche di
caching e prefetching implementate all’interno dei WSE. Anche a questo riguardo, il calcolo
parallelo e distribuito è oggi considerato un componente essenziale per realizzare soluzioni
efficaci e soddisfacenti per il DM.
Hardware scalabile. Il trend a questo proposito riguarda l’uso di architetture parallele /
distribuite basate su componenti off-the-shelf. Ad esempio, l’impiego di COW con reti
specializzate ad alta banda e bassa latenza sembra garantire scalabilità grazie soprattutto
all’architettura altamente distribuita (distribuzione dei processori, della memoria, e dell’I/O).
Interessanti sembrano essere alcuni componenti specializzati di memoria secondaria che
permettono la condivisione efficiente e scalabile di dati di grande dimensione su reti di
calcolatori.
2.3.3 Approccio ed obiettivi specifici
I problemi legati all'IR ed al DM su grandi collezioni di dati richiedono algoritmi scalabili che
non solo siano efficienti dal punto di vista computazionale, sfruttino la località dove possibile
e riducano la dimensione dei dati trattati tramite compressione, ma che anche:
impieghino al meglio i meccanismi e le politiche implementate dai moderni sistemi operativi
delle architetture "commodity" ad alte prestazioni;
siano scalabili, ovvero siano progettate sfruttando tecniche out-of-core e tecniche di
parallelizzazione e distribuzione. Lo scopo è quello di poter trattare, incrementando se
possibile le prestazioni globali del sistema, collezioni di dati con dimensioni sempre più
grandi.
Gli obiettivi di ricerca del WP 2.3 in questo progetto riguardano soprattutto i due ultimi punti.
In particolare, il WP si occuperà sia della scelta dei testbed per le valutazioni sperimentali, e
di tutte le problematiche relative alla realizzazione efficiente e scalabile di dimostratori di IR e
DM per dati Web su architetture ad alte prestazioni. In base ai requisiti delle applicazioni,
tecniche di parallelizzazione e distribuzione verranno usate sia per diminuire i tempi di
risposta, sia per aumentare il troughput complessivo del sistema. Per raggiungere alte
prestazioni e scalabilità delle soluzioni proposte, verranno considerati allo stesso tempo sia
gli aspetti algoritmici e sia quelli sistemistici legati alla specifica architettura. È bene
considerare che questo approccio vale non solo per le soluzioni parallele, ma anche per il
core sequenziale delle applicazioni parallele stesse. Si pensi, a questo proposito, allo
sfruttamento ottimale della specifica gerarchia di memoria grazie all’allocazione ottimale dei
dati e alla località negli accessi [Vit99], allo sfruttamento di buffering, caching e prefetching di
sistema per mascherare i ritardi dell’I/O, alla sovrapposizione di calcolo e comunicazione, al
bilanciamento del carico in ambiente distribuito ed eterogeneo.
La valutazione che riguarderà la scelta del testbed ad alte prestazioni per le applicazioni di
IR e DM svilupate all’interno del progetto non potrà non tenere conto del trend, che già dai
primi anni ’90, sta muovendo dai super-calcolatori costosi e specializzati verso i cosiddetti
cluster di workstation (COW) commodity [Buy99] con interconnessioni ad alta velocità e
miglior rapporto costo/prestazioni. Mentre i COW sono stati usati principalmente per
applicazioni scientifiche, il loro basso costo e la loro scalabilità sono alla base delle molteplici
opportunità di sfruttamento rispetto a nuovi domini applicativi [SSB99]. DM e IR sono tra
46
Enhanced Content Delivery
questi nuovi domini, soprattutto quando ci si orienta, come in questo progetto, al trattamento
di grandissime collezioni di dati come sono quelle provenienti dal Web.
Le esigenze di parallelizzare gli algoritmi di DM per diminuirne i tempi di risposta sono ben
noti [Ski99, FrL98]. L’approccio che verrà perseguito in questa ricerca riguarderà lo studio di
nuovi algoritmi di DM che sfruttino tecniche implementative efficienti per ridurre l'impatto
dell'I/O sulle prestazioni [GVW96], e che tengano conto delle nuove problematiche introdotte
dallo sfruttamento di testbed paralleli commodity come i COW [BLO00]. Lo scopo finale sarà
quello di costruire dimostratori di DM per dati Web a larga scala e paralleli in grado di
manipolare sorgenti di dati di dimensioni fino ai Tera Byte. Gli obiettivi specifici riguarderanno
in particolare la valutazione sperimentale:

di tecniche di parallelizzazione ibrida, sfruttando meccanismi sia shared che
distributed memory delle specifiche architetture target;

di tecniche per migliorare la località tramite specifici data layout ed efficaci metodi di
accesso ai dati;

di tecniche per diminuire le sincronizzazioni e le comunicazioni;

di tecniche per sovrapporre comunicazione e calcolo;

di tecniche che migliorino l’impatto dell’I/O sfruttando prefetching e I/O parallelo;

di tecniche di bilanciamento del carico.
L’obiettivo finale è ottenere applicazioni parallele/distribuite di DM portabili, e che, grazie ad
un elevato grado di configurabilità e dinamicità, siano in grado di adattare la propria
configurazione in maniera semi-automatica all’ambiente distribuito per garantire affidabilità e
buone prestazioni. Quest’ultima proprietà richiede che il software progettato usi a run-time
informazioni di monitoring per controllare sia le prestazioni e sia possibili guasti, e adatti la
propria configurazione in accordo alle misure effettuate.
Il campo dell'IR parallelo/distribuito [Lu99, RNB98, Bro99, FGC99] ha alcuni punti in comune
con la linea di ricerca su DM sopra illustrata, legati soprattutto alla necessità di trattare
grandissime collezioni di dati e alle problematiche legate allo sfruttamento ottimale delle
medesime architetture di testbed. Guardando all'architettura di un tipico Web Search Engine
[BrP98], si scopre che le esigenze di parallelizzazione / distribuzione dei vari moduli che
costituiscono un WSE sono sostanzialmente diverse tra loro, e in alcuni casi diverse da
quelle delle applicazioni di DM. Schematizzando l'architettura di un WSE “tradizionale” nei
moduli Spider, Indexer e Searcher, possiamo notare che l'implementazione parallela dei
primi due moduli (Spider e Indexer) deve perseguire la riduzione della latenza delle due
corrispondenti attività (visita del Web per il download dei documenti e indicizzazione delle
collezioni). Lo scopo di un’implementazione distribuita dell'ultimo modulo (Searcher) è invece
quello di aumentare il throughput globale del sistema, inteso come numero di interrogazioni
servite per unità di tempo. Gli obiettivi specifici che verranno considerate in questo WP, e
che abbiamo iniziato a investigare realizzando MOSE [Sil00], un WSE che comprende un
Indexer e un Searcher parallelo, riguardano l’implementazione e la valutazione sperimentale:

di diversi paradigmi di parallelizzazione/distribuzione su architetture SMP e COW;

dell’utilizzo di tecniche di compressione per ridurre gli accessi ai dischi;

di diversi schemi di condivisione dei dati;

di diversi schemi di partizionamento degli indici (es. term vs. document partitioning);

del bilanciamento del carico;

di tecniche e meccanismi di comunicazione su rete;

di tecniche di interfacciamento tra Searcher con l'http server;
47
Fondo Speciale Innovazione

di tecniche di caching, eventualmente ottimizzate sulla base del Web usage, per
ridurre la latenza delle singole interrogazioni;

di tecniche per aumentare la tolleranza ai guasti e la modificabilità dell’architettura del
WSE e delle su strutture dati.
Anche in questo caso valgono le considerazioni precedenti sulle proprietà del sofware
parallelo / distribuito progettato, ovvero portabilità, configurabilità, dinamicità, adattività e
tolleranza ai guasti.
Sinergie con gli altri WP. Il WP.2.1 studierà quali tecniche di Data Mining sono più
appropriate per i problemi Web mining. Esso dovrà quindi fornire i casi di studio per i
dimostratori di DM paralleli sviluppati nel WP.2.3. Molte delle tecniche studiate in WP.2.1,
soprattutto quelli basati sugli studi sulla struttura del Web e sui profili utenti, saranno inoltre
adottate per migliorare le prestazioni globali dei dimostratori di IR distribuiti (Web SE), per
esempio per migliorare la qualità della ricerca intesa come rilevanza dei documenti estratti e
per migliorare le politiche di caching. Le tecniche di compressione e indicizzazione full-text
studiate nel WP.2.2 verranno inglobate nei dimostratori paralleli e distribuiti di DM e IR
sviluppati nel WP.2.3. Infine, molte delle tecniche adottate nel WP.2.3 per realizzare un WSE
distribuito di tipo “tradizionale” su un’architettura COW saranno opportunamente estese per
realizzare servizi altamente distribuiti di partecipatory search come quelli studiati e definiti nel
WP.2.4.
Obiettivo: O2.3.1
Titolo:
Acquisizione e deployment di un testbed.
Descrizione:
L’acquisizione di una piattaforma ad alte prestazioni è fondamentale per
le sperimentazioni dei dimostratori dei servizi di search e DM sviluppati
all’interno del WP ed in WP correlati. A questo riguardo il trend riguarda
l’uso di architetture di tipo COW basate su componenti commodity e
dotate di reti ad alta banda e, possibilmente, bassa latenza. Tali
soluzioni garantiscono un ottimo rapporto costo/prestazioni ed elevata
scalabilità grazie soprattutto all’architettura altamente distribuita
(distribuzione dei processori, della memoria, e dell’I/O). Se da una parte
il trend architetturale è sufficientemente consolidato, la stessa cosa non
si può dire per quanto riguarda gli strumenti software per la gestione,
l’uso ed il monitoraggio di tali sistemi. Il deployment prevedrà quindi lo
sviluppo di strumenti specializzati per offrire agli utenti ed ai gestori del
sistema una suite di servizi automatici e/o semi-automatici di
installazione, configurazione, distribuzione di software e dati, monitoring
dei nodi del cluster.
Deliverables:
Acquisizione e deployment di un COW e implementazione di una suite di
strumenti software per la sua gestione corredati da relativa
documentazione. Consegna: 0+6 mesi.
Obiettivo: O2.3.2
Titolo:
Progettazione, implementazione e valutazione di un applicazione di
Indexing ottimizzata per il testbed.
Descrizione:
Progetto ed implementazione ottimizzata sul testbed di un applicazione
per l’indicizzazione efficiente di grosse collezioni di dati testuali.
L’attività sarà finalizzata a definire soluzioni allo stato dell’arte alle
problematiche relative alla sua realizzazione efficiente e scalabile.
48
Enhanced Content Delivery
Tecniche di parallelizzazione e distribuzione verranno usate per
diminuire i tempi di indicizzazione, fattore critico in conseguenza
dell’elevata dinamicità che contraddistingue i documenti presenti su
Internet. Nella progettazione verranno considerati allo stesso tempo sia
gli aspetti algoritmici (ad esempio utilizzo di tecniche di compressione
della collezione e degli indici per ridurre il costo sia in tempo che spazio)
e sia quelli sistemistici legati alla specifica architettura (uso bilanciato
delle risorse di memoria,
mascheramento dei ritardi dell’I/O,
sovrapposizione di calcolo e comunicazione, bilanciamento del carico).
Deliverables:
Sistema software per l'indicizzazione parallela e distribuita di documenti
testuali, valutazione sperimentale e documentazione. Consegna: 0+15
mesi.
Obiettivo: O2.3.3
Titolo:
Progettazione, implementazione e valutazione di Search Core Services.
Descrizione:
Progetto, implementazione ottimizzata sul testbed, e valutazione di
prototipi di servizi di search paralleli e distribuiti su grande scala. Lo
scopo di un’implementazione parallela/distribuita è in questo caso quello
di aumentare il throughput, inteso come numero di interrogazioni servite
per unità di tempo. Gli obiettivi di principale interesse dei proponenti
sono quelli di progettare e valutare sperimentalmente:
Deliverables:
o
un Broker avente il compito di distribuire su un insieme di moduli di
search paralleli e disribuiti, le query degli utenti. L’interesse verrà
incentrato sui meccanismi di cooperazione tra il broker e gli altri
moduli (http server, search), sul bilanciamento del carico, sull’utilizzo
di politiche di caching dei risultati delle interrogazioni, eventualmente
ottimizzate sulla base di risultati di Web usage mining.
o
differenti schemi di condivisione e di partizionamento degli indici con
attenzione all’impatto che tali schemi essi hanno sull’efficacia,
sull’efficienza, sulle comunicazioni, e sul bilanciamento del carico;
o
differenti metodi di accesso ai dati basati sull’utilizzo di tecniche di
compressione degli indici e delle collezioni, e su tecniche di caching
e prefetching per ridurre i tempi di accesso e di conseguenza la
latenza delle singole interrogazioni.
Componenti software modulari e configurabili per l'implementazione di
un broker per WSE in grado di gestire forme diverse di
partizionamento/replicazione dell'indice e inglobante politiche di caching
intelligenti. Valutazione sperimentale e documentazione.
Consegna: 0+24 mesi.
Obiettivo: O2.3.4
Titolo:
Progettazione, implementazione e valutazione di algoritmi paralleli di
Data/Web Mining.
Descrizione:
Progetto, implementazione ottimizzata sul testbed, e valutazione di
algoritmi paralleli e distribuiti di Data/Web Mining per l’estrazione di
conoscenza da grandi dataset. L’attenzione sarà incentrata sulla
49
Fondo Speciale Innovazione
definizione di tecniche generali che permettano, grazie ad un elevato
grado di configurabilità e dinamicità, di adattare la propria configurazione
in maniera semi-automatica all’ambiente distribuito. Saranno investigate
e sviluppate tecniche ibride task/data parallel che garantiscano elevate
prestazioni attraverso un uso bilanciato delle risorse di memoria, il
mascheramento dei ritardi dell’I/O, la sovrapposizione di calcolo e
comunicazione, il bilanciamento del carico computazionale. Gli algoritmi
di mining di riferimento saranno algoritmi per il clustering e per la
generazione di regole associative.
Deliverables:
Progetto di algoritmi paralleli e distribuiti innovativi per il clustering e la
generazione di regole associative da dataset di grandi dimensione,
implementazione, valutazione sperimentale e documentazione.
Consegna: 0+24 mesi.
2.3.4 Unità coinvolte

Dipartimento di Informatica, Pisa

ISTI-CNR, Pisa

ISI-CNR, Cosenza

Ideare s.p.a, Pisa
Riferimenti
[BLO00]
R. Baraglia, D. Laforenza, S. Orlando, P. Palmerini, R. Perego. Implementation issues in the design
of I/O intensive data mining applications on clusters of workstations. Proc. of the 3rd IPDPD
Workshop on High Performance Data Mining, Cancun, Mexico, LNCS 1800 Spinger-Verlag, pp.
350-357, 2000.
[Bro99]
E. Brown. Parallel and Distributed IR. In Modern Information Retrieval, R. Baeza-Yates and B.
Ribeiro-Neto eds., Addison-Wesley, pp. 229-256, 1999.
[BrP98]
S. Brin, L. Page. The anatomy of a large-scale hypertextual web search engine. In WWW7 /
Computer Networks, Vol. 1-7, pp. 107-117, April 1998.
[Buy99]
Rajkumar Buyya ed. High Performance Cluster Computing. Prentice Hall, 1999.
[BYR99]
R. Baeza-Yates and B. Ribeiro-Neto eds. Modern Information Retrieval. Addison-Wesley, 1999.
[FGC99]
O. Frieder, D. Grossman, A. Chowdhury, G. Frieder, Efficiency Considerations for Scalable
Information Retrieval Servers. Journal of Digital Information, Vol. 1, No. 5, December 1999.
[FrL98]
A. A. Freitas, S. H. Lavington. Mining Very Large Databases with Parallel Processing. Kluwer
Academin Publishers, 1998.
[GVW96]
G. A. Gibson, J. S. Vitter, J. Wilkes. Strategic Directions in Storage I/O Issues in Large-Scale
Computing, ACM Computing Surveys. Vol. 28, No. 4, pp. 779-793, December 1996.
[HaK00]
J. Han, M. Kamber. Data Mining : Concepts and Techniques. Morgan Kaufmann, August 2000.
[Knu98]
D. E. Knuth. Sorting and Searching. Vol. 3. The Art of Computer Programming. Addison-Wesley
1998.
[Lu99]
Z. Lu. Scalable Distributed Architectures for Information. Retrieval. PhD thesis, University of
Massachussets Amherst, 1999.
[RNB98]
B. Ribeiro-Neto, R. Barbosa. Query Performance for tightly coupled distributed digital libraries.
Proc. of ACM Int. Conf. on Digital Libraries. Pittsburgh, PA, pp.182-190, 1998.
[Sil00]
F. Silvestri. Progettazione di un Motore di Ricerca Distribuito per Web. Tesi di Laurea del Corso di
Laurea in Informatica dell'Università di Pisa, A.A. 1999-2000, Ott. 2000.
[Ski99]
D. Skillicorn. Strategies for Parallel Data Mining. IEEE Concurrency, Vol. 7, No. 4, 1999.
50
Enhanced Content Delivery
[SSB99]
T. L. Sterling, J. Salmon, D. J. Becker, D. F. Savarese. How to Build a Beowulf. A guide to the
Implementation and Application of PC Clusters. The MIT Press, 1999.
[Vit99]
J. S. Vitter. External Memory Algorithms and Data Structures. In External Memory Algorithms
(DIMACS Series on Discrete Mathematics and Theoretical Computer Science. J. Abello and J. S.
Bitter eds., American Mathematical Society, 1999.
[WMB99]
I. Witten, A. Moffat, T. Bell Managing Gigabytes: Compressing and Indexing Documents and
Images Morgan Kaufmann, 1999.
51
Fondo Speciale Innovazione
Work Package 2.4. Participatory Search Services
Responsabile: prof. Maria Simi
Unità coinvolte: Dipartimento di Informatica, Ideare SpA
2.4.1 Stato dell’arte
Gli attuali servizi di motori di ricca vengono svolti in maniera centralizzata: numerosi spider
robot girano per il Web e raccolgono in un’unica locazione tutte le pagine Web che riescono
ad individuare. Di queste pagine vengono costruiti degli indici e viene fornito un servizio di
interrogazione su tali indici che consente di selezionare i documenti con specifiche
caratteristiche. Generalmente l’interrogazione è basata su parole chiave, combinate con
operatori booleani.
Il vantaggio della centralizzazione è la semplicità di amministrazione, al costo di un
notevole accumulo di spazio disco per gli indici (oltre 1 TeraByte per 500 milioni di pagine) e
di risorse di elaborazione per rispondere ad un numero elevato di interrogazioni al secondo
(50 milioni al secondo su Altavista, 300 mila al giorno su Janas, http://janas.tiscalinet.it, in
Italia).
Il vantaggio per gli utenti è che non debbono far nulla affinché le loro pagine appaiano
nell’indice di un motore di ricerca.
L’approccio ha lo svantaggio che richiede il trasferimento di tutte le pagine in una
locazione centrale: un’attività che deve venire svolta in continuazione per mantenere gli indici
aggiornati.
Un altro serio limite delle attuali tecnologie di ricerca consiste nel fatto che quantità
sempre maggiori di informazioni sono rese disponibili sul Web non tramite pagine HTML
statiche, ma tramite pagine dinamiche il cui contenuto viene prodotto a richiesta dal Web
server, accedendo ad informazioni memorizzate altrove, tipicamente in un database.
Un approccio alla condivisione di informazioni che ha riscosso notevole successo nel settore
multimediale e in particolare per la musica in formato MP3 è il servizio Napster. Napster
(www.napster.com) costruisce un indice centralizzato dei file MP3 che ciascun utente mette
a disposizione sulla propria macchina, e fornisce un apposito browser che consente agli
utenti di accedere a tale indice, di scambiarsi il materiale tra di loro, di organizzare il proprio
materiale, di discutere con altri utenti e di scoprire materiale nuovo o affine ai propri di
interessi. Al di là delle questioni legali legate al diritto di autore coinvolte nella copiatura del
materiale, il successo di Napster indica l’interesse degli utenti per un servizio di ricerca e di
accesso a materiale di loro scelta. Qualcuno intravede la nascita di un servizio ‘Bookster’ che
consenta un simile scambio di libri in formato digitale.
Un’alternativa rispetto ai servizi di indicizzazione e ricerca centralizzati consiste in servizi
partecipativi, simili a Gnutella. Gnutella (www.gnutella.co.uk) è un protocollo che consente
agli utenti che dispongono di un Gnutella client di distribuire file. Gnutella non è centralizzato,
pertanto non esiste un singolo computer responsabile di mantenere in servizio l’intera rete.
Per quanto riguarda il software di indicizzazione, oltre ai classici prodotti commerciali di
Information Retrieval, quali Fulcrum e Verity, esistono alcuni sistemi Open Source, tra cui:
1. Ht://dig (www.htdig.org)
2. Swish-E (http://sunsite.berkeley.edu/SWISH-E)
3. Swish++ (http://www.best.com/~pjl/software/swish)
Si tratta di strumenti relativamente semplici utilizzati principalmente per realizzare servizi di
ricerca interni ad un sito Web, ma non particolarmente ottimizzati per ricerche efficienti o su
grande moli di documenti.
52
Enhanced Content Delivery
Attualmente sono in corso alcuni progetti Open Source per sviluppare strumenti di ricerca
basati su tecnologie ad oggetti e tecniche di compressione moderne. In particolare citiamo il
progetto Open Muscat (http://open.muscat.com) della Dialog Corporation (www.dialog.com)
e Mifluz (http://www.senga.org/mifluz/html) di Senga in collaborazione col gruppo Ht://dig.
Mifluz intende sviluppare una libreria C++ per costruire ed interrogare un indice invertito
full text. Si tratta di un indice aggiornabile dinamicamente, scalabile (fino a indici di 1
TeraByte), che usa una quantità controllata di memoria, condividendo i file di indice e le
cache di memoria tra processi o thread e comprimendo gli indici fino al 50% degli originali.
La struttura dell’indice è configurabile a run-time e consente di includere informazione di
relevance ranking.
Sia Open Muscat che Mifluz sono tuttora in fase di sviluppo. Le prove di prestazioni
effettuate al Dipartimento di Informatica hanno dato risultati piuttosto deludenti e
decisamente inferiori a quelli ottenuti dai prototipi di motori di ricerca sviluppati nelle
collaborazioni tra CNUCE, Ideare e Dipartimento di Informatica.
Questo fa ritenere che ci sia spazio per un nuovo strumento con un’architettura ad
oggetti flessibile e con elevate prestazioni ottenute mediante gli algoritmi più recenti di
indicizzazione e compressione in corso di sviluppo presso il Dipartimento di Informatica di
Pisa.
2.4.2 Obiettivi Strategici
Si intende sviluppare un protocollo e dei programmi client e server che consentano alle
persone di condividere indici del proprio materiale a disposizione del pubblico. Invece di
scambiare il contenuto dei singoli documenti, tali programmi si scambiano soltanto indici già
costruiti dei documenti di ciascun sito, riducendo di almeno un ordine di grandezza il traffico
via rete.
Il programma client sarà reso disponibile sotto forma di codice Open Source, e sarà in
grado di indicizzare documenti in formati diversi, dal testo, a HTML/XML, da PDF a
documenti Office. Il programma client sarà inoltre configurabile per accedere direttamente a
database locali contenenti i dati da mettere a pubblica disposizione.
Le ricerche di documenti verranno effettuate tramite lo stesso programma client, il quale
interroga sia il proprio indice di documenti locali, sia indici provenienti da altri siti o dei server
su cui siano stati raccolti gli indici provienti da numerosi siti.
In sostanza, un singolo programma client consente a ciascun utente sia di indicizzare il
proprio materiale che di interrogare indici, e quindi gli consente di entrare a far parte della
rete di servizi di ricerca partecipativa.
Il programma client comunicherà con gli altri client o con i server tramite il protocollo
SOAP (Simple Object Application Protocol), un protocollo basato su XML per l’invocazione di
metodi di oggetti remoti attraverso un’infrastruttura Web, che sfrutta unicamente il protocollo
http standard.
Il programma client sarà costruito come framework, ossia come una libreria di classi
astratte, i cui metodi costituiscono le interfacce pubbliche applicative (API) e che possono
venire estese sviluppando classi derivate per scopi più specifici. Per esempio, per consentire
l’analisi di nuovi tipi di documenti, è sufficiente fornire una specializzazione della classe
astratta DocumentReader.
53
Fondo Speciale Innovazione
client
Specialized Search Site
client
Web
Search
Service
client
Figure 1. Participatory Search Service Architecture
Un programma client di ricerca gira su ciascuno dei nodi che partecipano al servizio, e si
incarica di indicizzare il contenuto pubblicamente disponibile sulla macchina locale. Il
programma client può essere adattato alle esigenze del proprietario del sito e si può adattare
al profilo ed agli interessi del suo utente.
Programmi client residenti su altre macchine, possono effettuare interrogazioni o
trasmettendo il testo della query ad altri clienti partecipanti, o raccogliendo gli indici da questi
stessi ed effettuando la ricerca in locale su tali indici.
Servizi di ricerca specializzati a tematiche specifiche o a classi di materiali (MP3, News,
ecc.) possono essere costruiti facilmente interfacciandosi con lo stesso client ad un insieme
di indici raccolti preventivamente da un certo numero di siti rilevanti.
2.4.3 Approccio ed obiettivi specifici
Verrà sviluppato un protocollo e un cliente Open Source per l’indicizzazione e lo scambio di
indici di materiale digitale.
Tale software verrà fornito in versione scaricabile ed auto-installante per diverse
piattaforme (Windows, Linux, ecc.).
Il software utilizzerà la tecnologia SOAP per l’invocazione delle procedure remote dei vari
server, e farà quindi uso dell’infrastruttura standard Web, utilizzando protocollo http e XML,
senza ricorrere a tecniche estranee al Web quali CORBA, DCOM o troppo specifiche come
Java/RMI.
Obiettivo: O2.4.1
Titolo:
Specifiche protocollo di scambio di indici ed interrogazioni
Descrizione:
Sarà definita l'architettura generale del servizio partecipativo, valutata la
possibilità di mantenere gli indici distribuiti e quindi definite le modalità di
ricerca distribuita, in alternativa ad una raccolta e integrazione degli
indici su un unico server ad alte prestazioni. Verranno poi definiti i
formati di scambio degli indici e le primitive per il linguaggio di
interrogazione.
Deliverables:
Rapporto tecnico.
Obiettivo: O2.4.2
Titolo:
Progetto e specifica della libreria di classi per indicizzazione e ricerca
Descrizione
Verrà progettata la versione dell'indicizzatore da migrare sui nodi client e
un'interfaccia che consenta all'amministratore del sito di configurare le
54
Enhanced Content Delivery
aree da indicizzare e definire come estrarre i dati da sorgenti locali di
dati strutturati (DB, news, archivi di posta elettronica ...).
Deliverables:
Rapporto tecnico.
Obiettivo: O2.4.3
Titolo:
Hidden Web
Descrizione:
Progetto dell’architettura di document reader, in grado di estrarre dati da
varie fonti, per sottoporli all’indicizzatore. In particolare verranno
progettati reader in grado di estrarre dati da basi di dato relazionali, da
mailbox in formato MIME, etc, il cui formato sia descritto in un apposito
linguaggio. L’architettura adotterà un modello di classi in stile Ado.NET,
comprendenti la classe XMLDataDocument, per manipolare risultati
estratti in formato XML.
Unità Operative Partecipanti: PI
Deliverables: Rapporto tecnico.
2.4.4 Unità coinvolte

Dipartimento di Informatica, Pisa

Ideare SpA, Pisa
Riferimenti
[Gnutella]
www.gnutella.co.uk
[HtDig]
www.htdig.org
[Muscat]
http://open.muscat.com
[Mifluz]
http://www.senga.org/mifluz/html
[Swish-E]
http://sunsite.berkeley.edu/SWISH-E
[Swish++]
http://www.best.com/~pjl/software/swish
55
Fondo Speciale Innovazione
WP 2.5 Project Management
Obiettivo: O2.5.1
Titolo:
Gestione del progetto
Descrizione:
Coordinamento delle attività del progetto,
coordinamento, contabilità, rednicontazione.
Unità Operative: tutte.
56
commissione
di
Enhanced Content Delivery
3. Soggetti partecipanti
Il progetto coinvolge un gruppo di specialisti in grado di coprire tutti gli aspetti necessary alla
costruzione di una soluzione verticale di un sistema di prossima generazione per arricchire,
indicizzare e fornire accesso a contenuti.
Il progetto si basa su risultati ed esperienze di diversi progetti precedenti, tra cui:
3. European Telematics EUROSearch: Istituto di Elaborazione dell’Informazione,
Dipartimento di Informatica, Ideare SpA
4. MURST Agenti Intelligenti: Information Acquisition: Dipartimento di Informatica,
CNUCE
5. PQE2000 - Lotta Evasione, Dipartimento di Informatica, CNUCE-CNR
6. MineFaST: Dipartimento di Informatica, CNUCE-CNR ed FST Srl
7. MURST 99: “Algorithms for Large Data Sets: Science and Engineering”, Dipartimento
di Informatica
4. MURST ex. 40% INTERDATA (Univ. Modena e Politecnico di Milano)
5. MURST ex. 40% DATAX (Politecnico di Milano)
6. Corporation Integrated Multimedia Intelligent Assistant for Field Operators, Esprit
Project 20840 (Univ. Modena)
7. W3I3: Intelligent information interfaces for the World-Wide Web, Esprit Project 28771
(Politecnico di Milano)
8. IDEA: Intelligent Datatabase Environments for Advanced Applications, esprit Project
P6333 (Politecnico di Milano)
9. “European CHronicles On-line - ECHO” - programma Europeo IST (CNR-ISTI)
10. “A Digital Library Testbed to Support Networked Scholarly Communities –
SCHOLNET” - programma Europeo IST (CNR-ISTI)
11. “An Open Collaborative Virtual Archive Environment – CYCLADES” - programma
Europeo IST (CNR-ISTI)
12. “Network of Excellence on Digital Libraries – DELOS” - programma Europeo IST
(CNR-ISTI)
I partecipanti hanno sviluppato tecnologie chiave per il progetto ed in particolare tecniche
per:
8. Indexing and searching compressed texts, using opportunistic data structures [FM00]
9. automated categorization of Web documents, using the technique of categorization by
context [AS98]
10. Data mining
11. Similarity based indexing and query processing
12. XML query language
13. Digital Library systems
14. Similarity based indexing and query processing
15. XML query languages
16. Hypertext annotations
57
Fondo Speciale Innovazione
17. XML schema ontologies
Il progetto coinvolge infine aziende nazionali che operano a livello europeo nel settore di
servizi di ricerca su Web (Ideare SpA), o nel settore dei servizi Web e Internet (Consiel SpA)
o nell’outsourcing di servizi telematici (Fst SrL).
Azione 1: BIBLIOTECHE Digitali XML
coordinatore: dott. Fausto Rabitti, CNR-ISTI
partecipanti:

Unità Operativa CNR – ISTI 1

Unità Operativa Politecnico di Milano

Unità Operativa Università di Roma 3

Unità Operativa Università di Modena e Reggio Emilia

Unità Operativa Università di Padova

Unità Associata Istituto Centrale del Catalogo Unico (ICCU)

Unità Associata CONSIEL S.p.A.
Azione 2: Mine the Web - Web search and delivery
coordinatore: dott.ssa Fosca Giannotti, CNR-ISTI
partecipanti:

Unità Operativa CNR – ISTI

Unità Operativa Università di Pisa – Dipartimento di Informatica

Unità Operativa CNR – ISI

Unità Operativa Ideare SpA

Unità Operativa FST Srl-Fabbrica Servizi Telematici
58
Enhanced Content Delivery
Unità Operativa 1.1
CNR – ISTI
Responsabile
Dr. Fausto Rabitti
Descrizione dell'ente
L’Istituto di Scienze e Tecnologie Informatiche (ISTI) è un nuovo istituto di ricerca del
Consiglio Nazionale delle Ricerche (CNR) che nasce dalla fusione di altri due istituti del
CNR: Istituto di Elaborazione delle Informazioni (IEI) e CNUCE.
L’ISTI conduce ricerche nell’area dell’information technology, ed è coinvolto in diversi
progetti nazionali, progetti ESPRIT nonché collabora con molteplici istituzioni internazionali
scientifiche e di ricerca. Le attività di ricerca dell’Istituto afferiscono alle seguenti aree: Metodi
e Strumenti per sistemi software, Elaborazione di Immagini e di Segnali, Architetture di
Calcolatori, Ingegneria dell’Informazione, Computer Graphics, Sistemi di gestione di Dati
Multimedia, Information Retrieval e Reti.
L’ISTI è in istituto di ricerca senza scopo di lucro composto da 200 dipendenti coadiuvati da
circa 300 collaboratori, studenti e dottorandi. Circa il 70% del budget totale annuale è
finanziato da progetti e cooperazioni con industrie. L’Istituto è anche impegnato sia in alcuni
settori della didattica dell’Università di Pisa e di altri atenei, sia nel trasferimento tecnologico
verso l’industria.
Attualmente l’Istituto è coinvolto in diverse collaborazioni con partner industriali nazionali e
stranieri, in progetti finanziati della UE e da altre risorse; lo scopo è quello di promuovere e
assistere la ricerca e lo sviluppo a tutti i livelli.
Competenze relative al progetto
All’interno dell’ISTI, il reparto di ricerca di Ingegneria dell’Informazione conduce attività di
ricerca nelle seguenti aree: multimedia information retrieval, multimedia information indexing,
multimedia information access, multimedia similarity searching, information filtering,
document categorization, personalized information gathering, multedia databases, formal
design methodologies, metadata models e distance learning.Queste attività sono state
sviluppate in parte all’interno dei seguenti progetti di ricerca:
ESPRIT Long Term Research Projects

“Formally Integrated Data Environment – FIDE” (Project No. 3070)

“Formalization and Experimentation on the Retrieval of Multimedia Information –
FERMI” (Project No. 8134), (Coordinator)

“Foundations of High Performance Multimedia Information Management – HERMES”
(Project No. 9141)

“Multimedia Information Retrieval – MIRO” (WG No. 6576 ), (Coordinator)

“Supporting Interactive Multimedia On-Line Services - SIMOS” (WG No. 20979)
(Coordinator)

“Digital Libraries – DELOS” (WG No. 21057) (Coordinator)
59
Fondo Speciale Innovazione

“Collaborative Activity on Distributed Multimedia Systems – DAIDALOS” (EC-US
Exploratory)

“Information and Data on Open Media for Networks of Users – IDOMENEUS”
 (Network of Excellence No. 6606)
ESPRIT Projects

“Multimedia Office Server – MULTOS” (Project No. 28)

“Tools for Designing Office Information Systems – TODOS”(Project No. 813)

“Construction and Management of Distributed Office Systems – COMANDOS I”
(Project No. 834)
 “Marble Industry Advertising Over the World- MIAOW” (Project No. 20339)
TELEMATICS Projects

“Personalized Information Gathering System – EUROgatherer” (Project No IE-8011)

“Multilingual European Federated Search Service – EUROsearch” (Project No. LE8303)

“Access to Remote Catalogues by Implementing SR Target Functions – ARCA”
(Project No. Lib-3039).
IST Projects

“European Chronicles On-Line – ECHO” (Project No IST-1999-11994)

“A Network of Excellence on Digital Libraries – DELOS” (Project No IST-1999-12262)
Composizione dell’Unità Operativa e costi del personale
Cognome
Rabitti
(Coordinatore)
Castelli
Savino
Gennaro
Pagano
Pisani
Nome
Fausto
Data di
nascita
Luogo di
nascita
04/05/52 Modena
Qualifica
Dirig. Ricerca
Donatella 25/07/57 Bientina (PI) Ricercatore
Pasquale 26/11/55 Ururi (CB)
Ricercatore
Claudio
12/01/68 Gela (CL)
Contrattista ex
Art. 36
Pasquale 17/01/68 Napoli
Contrattista ex
Art. 23
Serena
24/02/69 Lucca
Contrattista ex
Art. 23
Senior/
Junior
Afferenza
Mesi/
Costo
Person Personale
a
(MLire)
12
90
S
CNR-ISTI
S
S
J
CNR-ISTI
CNR-ISTI
CNR-ISTI
12
12
30
90
90
112.5
J
CNR-ISTI
30
112.5
J
CNR-ISTI
24
90
Curriculum dei principali ricercatori
Fausto Rabitti
Fausto Rabitti è Dirigente di Ricerca dal 1995 presso l'Istituto CNUCE del Consiglio
Nazionale delle Ricerche, dove dirige il Dipartimento di Multimedia e Networking. È stato
precedentemente Ricercatore presso l'Istituto di Elaborazione dell'Informazione di Pisa. È
stato Visiting Scientist presso lo MCC (Austin, Texas), presso il gruppo di Won Kim,
lavorando al progetto ORION, uno dei primi sistemi di gestione di basi di dati a oggetti.
È stato attivo nelle aree di ricerca dei sistemi di basi di dati distribuiti e dei sistemi informativi
per ufficio, dei sistemi di badi di dati ad oggetti. È attualmente attivo nell'area delle basi di
dati multimediali e dei metodi di accesso basati su similitudine. È stato Project leader di
60
Enhanced Content Delivery
numerosi progetti Europei, soprattutto nel programma di Basic Research (FIDE1, Fide2,
Hermes).
È stato, o è attualmente, membro del Comitato di Programma di numerosi congressi
internazionali (ACM-SIGMOD, EDBT, DOOD, ACM-SIGIR, VLDB), ed è stato Chaiman della
9th ACM-SIGIR International Conference on Research and Development in Information
Retrieval e di IWOSS-99. Dal 1987 è membro dell'Editorial Board della rivista internazionale
Information Processing and Management (Pergamon Press).
Pasquale Savino
Pasquale Savino è ricercatore presso il Consiglio Nazionale delle Ricerche, Istituto di
Elaborazione della Informazione di Pisa, come dipendente dal gennaio 1996. Dal 1983 al
1995 è stato dipendente della Ing. C. Olivetti & C. Presso la divisione R&D è stato Project
Leader di diversi progetti (ESPRIT MULTOS, ESPRIT TROPICS, ESPRIT MULTIWORKS,
ESPRIT OSMOSE-1 e OSMOSE-2, ESPRIT HYTEA, DELTA MALIBU, EUREKA
ACROPOL). Presso l'IEI ha partecipato al progetto ESPRIT Basic Research Action
HERMES, ed è Project Leader del progetto Europeo IST ECHO.
È stato membro del comitato di valutazione del programma "Information Technology Action"
promosso dal Governo Belga. I suoi principali interessi di ricerca riguardano l'integrità delle
basi di dati multimediali, i sistemi multimediali, le biblioteche digitali multimediali e lo sviluppo
di applicazioni Web.
Pubblicazioni recenti
A. Andreoni, M. B. Baldacci, S. Biagioni, C. Carlesi, D. Castelli, P. Pagano, C. Peters, S. Pisani, The ERCIM
Technical Reference Digital Library: Meeting the requirements of a European community within an
International federation, In "In D-lib (Digital Library) Magazine, Volume 5 Numero 12 " ISSN 10829873, 1999.
A. Andreoni, M. B. Baldacci, S. Biagioni, C. Carlesi, D. Castelli,, P. Pagano, Developing a European Technical
Reference Digital Library In "Research and Advanced Technology for Digital Libraries : third
European Conference; proceedings / ECDL '99, Paris, France, September 22-24, 1999 Springer".
(Lecture notes in computer science; Vol. 1696) ISBN 3-540-66558-7, 1999.
G. Amato, F. Rabitti, P. Savino, Multimedia document search on the Web, Computer Networks and ISDN
Systems, Vol. 30, pp. 604-606, 1998.
P. Zezula, P. Savino, G. Amato, F. Rabitti, Approximate similarity retrieval with M-tree, The VLDB Journal, Vol. 7,
N. 4, pp. 275-293, 1998.
G. Amato, F. Rabitti, P. Savino, P. Zezula¸ Issues in processing similarity queries for multimedia databases,, The
Fifth IDEA Workshop, Esplanade Hotel, Fremantle, Western Australia 6160, Australia 7,1998.
G. Amato, G. Mainetto, P. Savino, An Approach to Content-Based Retrieval of Multimedia Data, Multimedia Tools
and Applications, Kluwer Academic Publishers, Vol. 7, N. 1/2, pp. 9-36, July 1998. Reprinted for
"Multimedia Information Systems", V.S. Subrahmanian, S.K. Tripathi, (eds.), Kluwer Academic
Publishers, Boston, 1998
P. Zezula, P. Savino, F. Rabitti, G. Amato, P. Ciaccia, "Processing M-trees with Parallel Resources", 8th
International Workshop on Research Issues in Data Engineering (RIDÈ98), Orlando, Florida, USA,
February 23-24, 1998.
61
Fondo Speciale Innovazione
Unità Operativa 1.2
Dipartimento di Elettronica e Informazione, Politecnico di Milano
Direttore: Professor Mauro Santomauro
Responsabile
Prof. Stefano Ceri
Descrizione dell’ente: Il Politecnico di Milano è una delle principali università d'Italia. Al
momento il Politecnico di Milano conta la suo interno cinque facoltà di Ingegneria. La
struttura del Politecnico di Milano che partecipa alle attività del progetto è il Dipartimento di
Elettronica e Informazione ed in particolare il gruppo di ricerca di Basi di dati; tale gruppo ha
operato attivamente negli anni nella ricerca sulle tecnologie dei sistemi di gestione di basi di
dati, nella progettazione e gestione di sistemi informativi, nella definizione di metodologie per
la progettazione di applicazioni. Di recente, il gruppo ha rivolto la quasi totalità delle sue
attività di ricerca alla tecnologia del World Wide Web, con una particolare attenzione ai siti
“data-intensive” (caratterizzati cioè dalla necessità di gestire e presentare grandi moli di dati),
con l'obiettivo di adattare a questo nuovo contesto i risultati della ricerca nel campo dei
sistemi informativi e delle basi di dati.
Competenze relative al progetto: Il gruppo ha partecipato e partecipa a numerosi progetti
di ricerca europei e nazionali. Il gruppo ha sviluppato ambienti software per la definizione di
regole attive con modello object-oriented e ha ottenuto risultati di rilievo per la progettazione
di applicazioni basate su regole attive (progetto Esprit IDEA); nell'ambito dei sistemi di
workflow management, ha contribuito alla definizione di un ambiente software per la gestione
di eccezioni, anche in questo quadro definendo un'opportuna metodologia (progetto Esprit
WIDE); di recente, ha affrontato il problema del progetto di siti Web di tipo data-intensive,
realizzando sia un ambiente di strumenti destinati alla loro ideazione, progettazione e
gestione, sia affrontando alcuni problemi di tipo metodologico (progetto Esprit W3I3). Sono
state poi perseguite diverse altre linee di ricerca relative al nuovo standard XML (descritte
nel WP1.2), sempre cercando di combinare la realizzazione di prototipi con lo studio di
metodologie e la risoluzione di problemi teorici.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP1.2 ed in particolare
sul tema della definizione di linguaggi di interrogazioni per dati in formato XML. Questa
ricerca vuole affrontare i problemi aperti in questo contesto, senza competere con le
soluzioni che stanno per essere definite in questo ambito da parte del W3C. In particolare, si
indagheranno i meccanismi che permettono la definizione di interrogazioni con un certo
grado di imprecisione. Si affronteranno poi i problemi relativi alla definizione di un'interfaccia
grafica per il linguaggio, facendo tesoro dell'esperienza di XML-GL. Altri aspetti che verranno
trattati in questo contesto sono la definizione di regole attive, che sembra una strumento
molto interessante per la implementazione di alcuni dei servizi che servono nel contesto
delle biblioteche dgitali, e la specifica di un modello di autorizzazioni specifico per questo
contesto.
Composizione dell’Unità Operativa e costi del personale
Cognome
Nome
Data di Luogo di
nascita nascita
Qualifica
62
Senior/
Junior
Afferenza
Mesi/
Costo
Persona Persona
le
Enhanced Content Delivery
Ceri
Stefano
(Coordinatore)
Tanca
Letizia
Fraternali
Piero
14/02/55 Milano
Prof. Ordinario
S
DEI, Poli MI
12
(MLire)
90
09/05/55 Salerno
19/04/62 Como
S
S
DEI, Poli MI
DEI, Poli MI
9
6
6
45
Paraboschi
Stefano
31/01/65 Milano
S
DEI, Poli MI
12
90
Samarati
Pierangel 12/10/65 Lodi
a
Prof. Ordinario
Prof. Associato
non Confermato
Prof. Associato
non Confermato
Prof. Associato
non Confermato
S
4
30
Damiani
Ernesto
4
15
J
Univ. MI Polo di
Crema
Univ. MI Polo Crema
DEI, Poli MI
12
45
J
DEI, Poli MI
12
30
J
DEI, Poli MI
12
30
J
DEI, Poli MI
12
30
J
DEI, Poli MI
12
30
J
DEI, Poli MI
12
30
Pozzi
Comai
Bonifati
Maurino
Quintarelli
Oliboni
02/11/60 Piacenza Ricercatore
Confermato
Giuseppe 12/11/61 Bellagio Ricercatore
(CO)
Confermato
Sara
25/06/70 Bolzano Assegnista di
Ricerca
Angela
23/01/73 Cosenza Dottorando di
Ricerca
Andrea
15/06/73 Como
Dottorando di
Ricerca
Elisa
10/08/74 Verona
Dottorando di
Ricerca
Barbara 08/04/73 Verona
Dottorando di
Ricerca
J
Curriculum dei principali ricercatori
Stefano Ceri
Stefano Ceri è professore ordinario di Basi di Dati presso il Dipartimento di Elettronica e
Informazione del Politecnico di Milano; è stato visiting professor al Dipartimento di Computer
Science della Stanford University tra il 1983 e il 1990.
I suoi interessi di ricerca si focalizzano sull'estensione della tecnologia delle basi di dati
verso la distribuzione dei dati, le regole attive e deuttive, il paradigma object-oriented, e la
tecnologia WEB.
È autore di più di 100 articoli su atti di conferenza e riviste internazionali, ed è coautore
dei libri: “Distributed Databases: Principles and Systems” (McGraw-Hill, 1984): “Logic
Programming and Databases” (Springer-Verlag, 1990), “Conceptual Database Design: an
Entity-Relationship Approach” (Benjamin-Cummings, 1992), “Active Database Systems”
(Morgan-Kaufmann, 1995), “Designing Database Applications with Objects and Rules: the
IDEA Methodology” (Addison-Wesley, 1997), “Advanced Database Systems” (MorganKaufmann, 1997), “The Art and Science of Computing” (Addison-Wesley, 1998), "Basi di
dati" (McGraw-Hill Libri Italia, 1999) e "Database Systems" (McGraw-Hill, 1999).
È membro dell' ACM-Sigmod Advisory Committee, del VLDB Endowment, dell'EDBT
Foundation, e del DOOD Steering Committee; ha ricoperto il ruolo di Associate Editor delle
ACM-Transactions on Database Systems (1989-92) ed è attualmente associate editor di
diverse riviste internazionali, tra cui le IEEE-Transactions on Software Engineering. Ha
ottenuto di recente il riconoscimento per il 10-year VLDB Best Paper Award.
Stefano Paraboschi
Stefano Paraboschi ha ottenuto la laurea in Ingegneria Elettronica dal Politenico di Milano
nel 1990 e il titolo di Dottore di Ricerca in Ingegneria Informatica e Automatica dal
Politecnico di Milano nel 1994. È stato ricercatore presso il Dipartimento di Elettronica e
63
Fondo Speciale Innovazione
Informazione del Politecnico di Milano dal 1/3/96 fino a quando ha preso servizio presso lo
stesso Dipartimento come professore associato il 1/11/98.
I suoi principali interessi di ricerca riguardano l'integrità delle basi di dati, le basi di dati
attive, i sistemi di data warehouse, lo sviluppo di applicazioni Web e la sicurezza delle basi di
dati.
Piero Fraternali
Piero Fraternali ha ottenuto la laurea in Ingegneria Elettronica dal Politenico di Milano nel
1989 e il titolo di Dottore di Ricerca in Ingegneria Informatica e Automatica dal Politecnico di
Milano nel 1994. È stato ricercatore presso il Dipartimento di Elettronica e Informazione del
Politecnico di Milano dal 1/3/96 fino a quando ha preso servizio presso lo stesso
Dipartimento come professore associato il 1/11/98.
I suoi principali interessi di ricerca riguardano l'integrità delle basi di dati, le basi di dati
attive, l'ingegneria del software e lo sviluppo di applicazioni Web.
Pubblicazioni recenti
S. Ceri, S. Comai, E. Damiani, P. Fraternali, S. Paraboschi, L. Tanca. XML-GL: A Graphical Language for
Querying and Restructuring XML Documents. WWW 8, Toronto, maggio 1999, pp. 1171-1187.
S. Ceri, P. Fraternali, S. Paraboschi. Data-Driven, One-To-One Web Site Generation for Data-Intensive
Applications. VLDB 1999, Edimburgo, settembre 1999, pp. 615-626
S. Ceri, P. Fraternali, S. Paraboschi. XML: Current Developments and Future Challenges for the Database
Community. EDBT 2000, Costanza, marzo 2000, pp. 3-17.
E. Damiani, S. De Capitani, S. Paraboschi, P. Samarati. Securing XML Documents. EDBT 2000, Costanza,
marzo 2000, pp. 121-135.
S. Ceri, P. Fraternali, A. Bongio. Web Modeling Language (WebML): A Modeling Language for Designing Web
Sites. WWW 9, Amsterdam, maggio 2000.
S. Ceri, R. Cochrane, J. Widom. Practical Applications of Triggers and Constraints: Success Stories and
Lingering Issues. VLDB 2000, Il Cairo, settembre 2000.
F. Casati, S. Ceri, S. Paraboschi, G. Pozzi: Specification and Implementation of Exceptions in Workflow
Management Systems. TODS 24(3): 405-451 (1999)
S. Ceri, P. Fraternali, S. Gevinti, S. Paraboschi: Building a Database Design Laboratory on the Internet. IEEE
Internet Computing 2(5): 41-48 (1998)
64
Enhanced Content Delivery
Unità Operativa 1.3
Dipartimento di Informatica e Automazione, Università Roma Tre
Direttore: Professor Alfonso Miola.
Responsabile
Professor Paolo Atzeni.
Descrizione dell’ente:
L’Università “Roma Tre” è nata nel 1992, ed è la più giovane delle Università romane.
Attualmente conta oltre 600 docenti, e oltre 20.000 studenti, ed è costituita da 8 facoltà
(Architettura, Economia, Giurisprudenza, Ingegneria, Lettere e Filosofia, Scienze
Matematiche, Fisiche e Naturali, Scienze della formazione, Scienze Politiche). 22 sono i
Dipartimenti per la ricerca, 18 i Corsi di laurea, 9 i Diplomi universitari, 350.000 i volumi nelle
biblioteche specializzate, 2 le videoteche, 4 le sale di studio con attrezzatura informatica, 23 i
laboratori per la didattica e la ricerca. Presso l'ateneo è presente il Centro di Studi ItaloFrancesi nella sede del vecchio Centro culturale francese che ha ceduto a Roma Tre il suo
patrimonio librario di 32 mila volumi. In ambito universitario funzionano inoltre un Centro
interdipartimentale di ricerche per lo studio di Roma moderna e contemporanea (CROMA),
un Centro Linguistico di Ateneo che dal '96 ha aperto corsi, tra gli altri, di arabo e
giapponese, e un Centro di Ateneo per le biblioteche.
La struttura dell’Università Roma Tre che partecipa alle attività del progetto è il Dipartimento
di Informatica e Automazione (DIA), ed in particolare il gruppo di ricerca di Basi di Dati e
Sistemi Informativi. Le principali tematiche di ricerca e attività del dipartimento sono le basi di
dati e i sistemi informativi, l'informatica teorica e applicata, l’informatica grafica, la teoria dei
sistemi e del controllo e le sue applicazioni. Al momento fanno parte del dipartimento 6
professori ordinari, 5 professori associati e 4 ricercatori; il personale tecnico, amministrativo
e di biblioteca conta 5 unità. Il dipartimento partecipa ad alcuni dottorati di ricerca, ospita
circa 7 studenti di dottorato, e si avvale della collaborazione di alcuni assegnisti di ricerca. Il
gruppo di ricerca di Basi di Dati e Sistemi Informativi è uno dei gruppi di ricerca più attivi del
dipartimento: ha operato attivamente negli anni in tematiche fra cui: gestione di dati su Web,
basi di dati eterogenee, teoria delle basi di dati, basi di dati attive, datawarehouse, linguaggi
di interrogazione e modelli dei dati.
Competenze relative al progetto: Il gruppo ha partecipato a numerosi progetti di ricerca
europei e nazionali dove è stato necessario proporre metodi, tecnologie e linguaggi
innovativi per la gestione di dati non tradizionali. In particolare, il gruppo ha studiato
numerose tecniche per la gestione di dati in ambiente Web. I principali contributi scientifici in
questo settore riguardano la definizione di modelli e linguaggi per l’estrazione di informazioni
da siti Web. Lo sviluppo di numerosi prototipi, dimostrazioni dei quali sono state presentate
anche in conferenze scientifiche di prestigio, ha consentito di sperimentare la praticabilità e
l’efficacia delle tecniche proposte con risultati incoraggianti.
Partecipazione della Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP 1.4 ed in particolare
si concentra sullo studio di algoritmi e tecniche per la estrazione automatica di strutture da
collezioni di documenti e la generazione automatica di programmi per la conversione in XML
di documenti disponibili in altri formati.
Le biblioteche digitali (DL) di nuova generazione saranno basate principalmente su XML e
sulla tecnologia relativa a questo formato. Tuttavia è importante notare che una vasta mole
65
Fondo Speciale Innovazione
di documenti elettronici sono ad oggi fruibili in formati diversi da XML. Integrare in una
biblioteca digitale di nuova generazione la maggior parte dei documenti attualmente
disponibili in formato eletronnico richiede di convertire questi documenti in XML: questa
attività può risultare estremamente complessa e costosa. Infatti, molti tra i formati utilizzati
fino ad oggi sono stati pensati principalmente per definire aspetti relativi alla presentazione
dell’informazione, e offrono uno scarso supporto alla descrizione della organizzazione logica
delle informazioni. L’esempio più significativo è costituito da HTML: la quantità di
informazioni disponibili su Web in questo formato è enorme, tuttavia la loro conversione in
XML risulta un problema molto complesso e costoso.
Il contributo principale dell’unità sarà quello studiare tecniche e algoritmi per generare
automaticamente programmi per la conversione automatica in XML di documenti disponibili
in altri formati. L’obiettivo è quello di implementare un prototipo di un sistema basato su
queste tecniche.
Composizione della Unità Operativa e costi del personale
Cognome
Nome
Data di
nascita
Luogo di
nascita
Atzeni
Paolo
27/04/5 Roma
(Coordinatore)
7
Torlone
Riccardo 19/12/6 Roma
1
Mecca
Giansalv 01/07/6 Potenza
atore
8
Cabibbo
Luca
19/02/6 Roma
5
Merialdo
Paolo
27/07/6 Genova
5
Crescenzi
Valter
28/08/7 Roma
3
Qualifica
Senior/
Junior
Prof. Ordinario
S
Prof.
Associato
Ricercatore
Confermato
Ricercatore
S
Assegnista
J
Dottorando
J
J
J
Afferenza
DIA, Univ.
Roma Tre
DIA, Univ.
Roma Tre
DIFA, Univ.
Basilicata
DIA, Univ.
Roma Tre
DIA, Univ.
Roma Tre
DIA, Univ.
Roma Tre
Mesi/
Costo
Persona Personale
(MLire)
7
57
4
33
8
33
4
16
8
33
11
27
Curriculum dei principali ricercatori
Paolo Atzeni
Paolo Atzeni è professore ordinario di Basi di Dati all'Università di Roma Tre. Si è laureato in
in Ingegneria Elettronica presso l'Università di Roma "La Sapienza" nel 1980. Prima di
afferire all'Università di Roma Tre, è stato ricercatore allo IASI-CNR di Roma, professore
associato all'Università di Napoli e professore ordinario presso l'Università "La Sapienza" di
Roma. È inoltre stato professore visitatore presso l'Università di Toronto.
La sua attività di ricerca ha riguardato vari argomenti nel settore delle basi di dati, tra cui:

Equivalenza tra basi di dati relazionali.

Fondamenti della teoria relazionale.

Linguaggi per modelli concettuali.

Strumenti per il progetto logico di basi di dati.

Teoria delle dipendenze nelle basi di dati con valori nulli.

Modello "Weak instance": analisi di schemi e interrogazioni.
66
Enhanced Content Delivery

Proprietà formali di schemi di rappresentazione della conoscenza.

Cooperazione tra basi di dati.

Basi di Dati e World Wide Web.
Negli ultimi tre anni il suo interesse è stato principalmente dedicato allo studio di metodi e
strumenti per la gestione di dati in ambiente Web.
Ha pubblicato i suoi risultati di ricerca sulle principali riviste del settore, incluse ACM
Transactions of Database Systems, Information Systems, SIAM Journal of Computing,
Journal of Computer and System Sciences, e negli atti delle principali conferenze (ACMSIGMOD, VLDB, EDBT, ACM-PODS, IEEE-DE, ICDT). È autore di sei libri e curatore di
quattro; tra questi ultimi figurano gli atti di tre conferenze di cui è stato tra gli organizzatori:
ICDT'96, DBPL'95 e il recente Workshop on Databases and the Web (WebDB'98), tenuto
Valencia nel 1998. È stato membro dei comitati di programma di varie conferenze
internazionali, ed è attualmente presidente dell'Associazione EDBT.
Giansalvatore Mecca
Giansalvatore Mecca si è laureato con lode nel 1992 in Ingegneria Elettronica (Indirizzo
Informatico) presso l'Università di Roma "La Sapienza". Tra il 1992 e il 1996 ha completato il
Dottorato di Ricerca presso l'Università di Roma "La Sapienza", lavorando allo studio di
linguaggi di interrogazione per basi di dati con stringhe, prevalentemente presso il
Dipartimento di Informatica e Automazione dell'Università Roma Tre, e collaborando con il
Department of Computer Science dell'Università di Toronto, che ha visitato ripetutamente tra
il 1994 e il 1996. Nel 1996 ha conseguito il titolo di Dottore di Ricerca discutendo la tesi
"From Datalog to Sequence Datalog: Languages and Techniques for Querying Sequence
Databases", scritta sotto la supervisione dei Prof. Paolo Atzeni e Tony Bonner.
Dal dicembre 1995 è ricercatore del raggruppamento scientifico-disciplinare K05A presso la
Facoltà di Ingegneria dell'Università della Basilicata. Nel dicembre del 1998, terminato il
triennio di prova, è stato nominato ricercatore confermato e tuttora svolge a tempo pieno e
con continuità le attività istituzionali del ricercatore di ruolo.
La sua attività di ricerca si è svolta prevalentemente nell'ambito dei seguenti temi: (1) Basi di
Dati Deduttive e Orientate agli Oggetti. (2) Basi di Dati con Sequenze. (3) Interoperabilita e
Cooperazione tra Basi di Dati. Negli ultimi anni la sua attenzione si è concentrata
prevalentemente sullo studio di tecniche per la gestione di Dati Provenienti da World Wide
Web.
Ha partecipato a vari progetti di ricerca nazionali (LaTIBI - fondi POP-FESR'94-99, Interdata
- fondi MURST'97 - Data-X, fondi MURST-99), svolgendo ruoli di coordinamento di alcuni dei
temi della ricerca. Ha pubblicato i suoi risultati di ricerca su importanti riviste del settore,
incluse IEEE Transactions on Data and Knowledge Engineering, Information Systems,
Journal of Computer and System Sciences, e negli atti delle principali conferenze del settore
(ACM-SIGMOD, VLDB, EDBT, ACM-PODS, IEEE-DE, ICDT). È inoltre stato curatore di un
volume edito da Springer-Verlag.
È stato membro del Comitato Scientifico di vari convegni internazionali (VLDB'99,
EDBT'2000) e nazionali (SEBD'2000). Nel 2001 sarà coordinatore del Comitato Scientifico
della quarta edizione del "Workshop on the Web and Databases" (WebDB'2001).
Pubblicazioni recenti
P. Atzeni, G. Mecca and P. Merialdo. Semistructured and Structured Data on the Web: Going Back and Forth.
SIGMOD Record, 26(4), pag. 16-23, ACM Press, New York, (1997).
V. Crescenzi and G. Mecca. Grammars have Exceptions. Information Systems, 23(8), pag. 539--565, Elsevier
Science Pergamon, London (1998).
67
Fondo Speciale Innovazione
G. Mecca and P. Atzeni. Cut and Paste. Journal of Computer and System Sciences, 58(3), 453--482, Academic
Press, Orlando (Florida) (1999).
G. Mecca, P. Merialdo and P. Atzeni. Araneus in the Era of XML. IEEE Data Enginee- ring Bullettin, 22(3), 19-26,
IEEE Computer Society Press, Los Alamitos (California), (1999).
P. Atzeni, A. O. Mendelzon, G. Mecca, Editors. Proceedings of the First International Workshop on the Web and
Databases (WebDB'98). Lecture Notes in Computer Science, vol. 1590, Springer-Verlag, Berlin
Heidelberg, (1999).
P. Atzeni, G. Mecca, P. Merialdo. To Weave the Web - Proceedings of the 23rd International Conference on Very
Large Databases (VLDB'97), pag. 206--215, Morgan Kaufmann, San Francisco (California), (1997).
P. Atzeni, G. Mecca, P. Merialdo. Design and Maintenance of Data-Intensive Web Sites. Proceedings of the 6th
International Conference on Extending Database Technology (EDBT'98), Lecture Notes in
Computer Science, vol. 1377, pag. 436--450, Springer- Verlag, Berlin Heidelberg, (1998).
G. Mecca, A. O. Mendelzon, P. Merialdo. Efficient Queries over Web Views. Proceedings of the 6th International
Conference on Extending Database Technology (EDBT'98), Lecture Notes in Computer Science,
vol. 1377, pag. 72--86, Springer-Verlag, Berlin Heidelberg, (1998).
G. Mecca, P. Atzeni, A. Masci, P. Merialdo, G. Sindoni. The Araneus Web-Base Management System.
Proceedings of SIGMOD Conference, pag. 544-546, ACM Press, New York, (1998).
S. Grumbach, G. Mecca. In Search of the Lost Schema. Proceedings of the 7th International Conference on
Database Theory (ICDT'99), Lecture Notes in Computer Science, vol. 1540, pag. 314--331,
Springer-Verlag, Berlin Heidelberg, (1999).
68
Enhanced Content Delivery
Unità Operativa 1.4
Dipartimento di Scienze dell’Ingegneria, Università di Modena e Reggio Emilia
Direttore: Professor Gianni Immovilli
Responsabile
Prof. Paolo Tiberio
Descrizione dell’ente: L'Università di Modena è una delle università più antiche di Europa.
Dal 1999 ha cambiato denominazione in Università di Modena e Reggio Emilia e sono state
istituite nuove facoltà nella città di Reggio Emilia: Agraria, Ingegneria, Scienza della
Comunicazione.
La struttura dell’Università di Modena e Reggio Emilia che partecipa alle attività del progetto
è il Dipartimento di Scienze dell’Ingegneria (DSI) ed in particolare il gruppo di ricerca di Basi
di dati e Sistemi Informativi. Il Dipartimento di Scienze dell’Ingegneria è stato istituito nel
gennaio del 1994; sono tematiche di ricerca e attività del dipartimento le tematiche
dell’Ingegneria dell’Informazione e dell’Ingegneria Industriale. Al momento fanno parte del
dipartimento circa 30 professori e 20 ricercatori; il personale tecnico, amministrativo e di
biblioteca conta circa 20 unità. Il dipartimento partecipa a dottorati di ricerca, quindi ospita
circa 20 studenti di dottorato e poi si avvale della collaborazione di alcuni assegnisti di
ricerca. Il gruppo di ricerca di Basi di dati e Sistemi Informativi è uno dei gruppi di ricerca del
dipartimento e ha operato attivamente negli anni nei settori dei: sistemi di gestione di basi di
dati intelligenti, sistemi di gestione di basi di dati ad oggetti, rappresentazione ed
integrazione di sorgenti eterogenee distribuite in rete, quali sono le risorse di informazioni
disponibili nel World Wide Web.
Competenze relative al progetto: Il gruppo ha una vasta esperienza di ricerca nel campo
delle tecniche di accesso efficiente a Basi di Dati di elevate dimensioni, dei sistemi di
database intelligenti e nell'integrazione intelligente di informazione. Recentemente, ha
partecipato a numerosi progetti di ricerca, ottenendo rilevanti risultati scientifici, a livello
nazionale ed internazionale: MURST ex 40% (Interdata), CNR, ASI (Integrazione ed accesso
a basi di dati eterogenee), ESPRIT 20840 project, "Corporation Integrated Multimedia
Intelligent Assistant for Field Operators.
I progetti principali attualmente in corso sono i seguenti:

MOMIS: un sistema intelligente per l'integrazione di dati strutturati e semistrutturati;

ODB-Tools: ambiente di componenti sw basati su tecniche di intelligenza artificiale
(logiche descrittive) per la progettazione e l’ottimizzazione delle interrogazioni in
ambito OODB.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP 1.3 ed in particolare
sul tema della costruzione di una ontologia XML per l’accesso alle biblioteche di documenti
digitali. L’approccio metodologico e le attività di ricerca sono descritte dettagliatamente in
WP 1.3.
In particolare, a tale WP collaborerà strettamente l'unità operativa di Pisa, che fornirà la
base dei documenti in XML, l'unità operativa di Milano, che sperimenterà la base di metainformazione relativa agli stessi documenti, rappresentata nell'ontologia XML e l’unità
operativa di Roma che collaborerà alla conversione di documenti da formati eterogenei a
formato XML.
69
Fondo Speciale Innovazione
Composizione dell’Unità Operativa e costi del personale
Cognome
Nome
Tiberio
Paolo
(Coordinatore
)
Bergamaschi Sonia
Data di
nascita
Senior/
Junior
Afferenza
16/12/43 Campobasso Prof. Ordinario
S
1/7/53
DSI, Univ.
Modena e
Reggio
DSI,
Univ.
Modena
e
Reggio
DSI,
Univ.
Modena
e
Reggio
DSI, Univ.
Modena e
Reggio
DSI, Univ.
Modena e
Reggio
DEIS, Univ.
Bologna
DEIS, Univ.
Bologna
Regione
EmiliaRomagna
DEIS, Univ.
Bologna
Beneventano Domenico 25/7/66
Luogo di
nascita
Qualifica
Modena
Prof.
Straordinario
S
Ric.
confermato
J
Ric.
confermato
J
Dottorando
J
Pazzi
Luca
3/5/62
Sasso di
Castalda
(PZ)
Forli`
Benetti
Ilario
21/9/72
Carpi
Corni
Alberto
22/11/70 Modena
Dottorando
J
Mandreoli
Federica
28/9/73
Bologna
Dottorando
J
Vincini
Maurizio
22/9/70
Modena
Collaboratore
J
Ciaccia
Paolo
16/4/59
S
Guerra
Francesco 21/5/73
Campobasso Prof.
Associato
Modena
Collaboratore
J
Mesi/
Costo
Persona Personale
(MLire)
8
66
4
33
8
33
8
33
11
30
4
4
4
2
4
Curriculum dei principali ricercatori
Tiberio Paolo
Paolo Tiberio è nato a Roma il 16/12/1943, si è laureato in ingegneria elettronica a Pisa il
16/4/1967 con 110/110 e lode. Nel 1969 è diventato assistente presso la Facoltà di
Ingegneria dell'Università di Bologna e nel 1976 è diventato professore di prima fascia di
Calcolo Elettronico presso la stessa Facoltà, dove dal 1983 al 1998 è stato professore di
Sistemi Informativi. Dal 1/11/1998 è professore di Fondamenti di Informatica e di Sistemi
Informativi presso la Facoltà di Ingegneria dell'Università di Modena e Reggio. L'attività
scientifica si è svolta principalmente presso il CSITE del CNR ospitato dall'Università di
Bologna. A Bologna ha lavorato inizialmente al CAD di circuiti elettronici realizzando
programmi di analisi in frequenza e di sensitivity. Nel 1971 è stato NATO Visiting Fellow
presso il E.E. Dept. della Un. of Michigan, Ann Arbor, dove si è occupato di memoria virtuale.
In seguito a Bologna ha lavorato sui sistemi informativi geografici. Nel 1978/79 è stato
Visiting Scientist presso il Database Dept. dell’IBM Res. Center di S.Jose dove ha
partecipato al progetto "System_R", il primo prototipo di ricerca industriale di DBMS
relazionale. All'interno del progetto System_R ha lavorato al "query optimizer" di SQL
proponendo un metodo per la stima dei costi di modifica delle relazioni. Successivamente
(1981, 1984) ha lavorato al progetto fisico di database relazionali partecipando alla
realizzazione del tool automatico di progetto fisico per System_R, denominato DBDSGN.
Negli stessi anni ha anche lavorato su argomenti analoghi per i progetti finalizzati del CNR.
Dal 1990 ha iniziato ad occuparsi di basi di dati temporali e multimediali. I risultati più
significativi sono stati ottenuti nel campo delle strutture dati denominate "signature files" per
70
Enhanced Content Delivery
information retrieval. Gli interessi di ricerca più recenti riguardano il progetto di data
warehouse e l'integrazione di fonti eterogenee.
Sonia Bergamaschi
Sonia Bergamaschi è nata a Modena ed ha ricevuto la Laurea in Matematica presso la
Facoltà di Scienze dell’Università degli Studi di Modena nell'anno 1977. È professore
straordinario di "Sistemi di Elaborazione delle Informazioni" presso la Facoltà di Ingegneria
dell'Università di Modena e Reggio Emilia (sede di Modena). La sua attività di ricerca è stata
principalmente rivolta alla rappresentazione ed alla gestione della conoscenza nelle Basi di
Dati di elevate dimensioni, con particolare attenzione sia agli aspetti teorici e formali sia a
quelli implementativi. Dal 1985 è stata molto attiva nell'area dell'accoppiamento di tecniche di
Intelligenza Artificiale, Logiche Descrittive (DL) e Basi di Dati al fine di sviluppare Sistemi di
Basi di Dati Intelligenti, collaborando con gruppi di ricerca internazionali (DFKI) e nazionali
(Università di Roma "La Sapienza"). Su tali argomenti sono stati ottenuti rilevanti risultati
teorici ed è stato sviluppato il sistema ODB-Tools per il controllo di consistenza di schemi e
l'ottimizzazione
semantica
delle
query
disponibile
in
Internet
all'indirizzo:
http://sparc20.dsi.unimo.it.
Recentemente si è occupata di Integrazione Intelligente di Informazioni, proponendo un
sistema I3, chiamato MOMIS per fornire un accesso integrato a sorgenti di informazioni
strutturate e semistrutturate che consenta all'utente di formulare una singola query e di
ricevere una risposta unificata. Le tecniche di DL e di clustering costituiscono la base teorica
e sono sfruttate sia per costruire una vista integrata dell'informazione delle sorgenti sia per
l'elaborazione e l'ottimizzazione delle interrogazioni. Ha pubblicato più di cinquanta articoli su
riviste e conferenze internazionali e le sue ricerche sono state finanziate da MURST, CNR,
ASI e da progetti della Comunità Europea. È stata membro nel comitato di programma di
numerose conferenze nazionali ed internazionali di Basi di Dati e Intelligenza Artificiale. È
membro di IEEE Computer Society e di ACM.
Pubblicazioni recenti
C.S.JENSEN, F.GRANDI, M.R.SCALAS, TIBERIO P., et al., "The Consensus Glossary o Temporal Database
Concepts- February 1998 Version", Rivista: Temporal Databases: Research and Practice, Lecture
Notes in Computer Sc., pp.: 367-405, ISBN/ISSN: LCNS 1399, (1998).
P.CIACCIA, TIBERIO P., P.ZEZULA, "Declustering of Key-Based Partitioned Signature Files”, Rivista: ACM
Trans. on Database Syst., Volume: 21, pp.: 295-338, (1996).
TIBERIO P., P.ZEZULA, "Storage and Retrieval: Signature File", Rivista: Encyclopedia of Microcomputers.
M.Dekker N.Y., Volume: 16, (1995).
P.ZEZULA, F.RABITTI, TIBERIO P., "Dynamic Partitioning of Signature Files”, Rivista: AC Trans. on Information
Syst., Volume: 9, pp.: 336-369, (1991).
BERGAMASCHI S., BENEVENTANO D., "Integration of information from multiple sources of textual data; Libro:
Intelligent Information Agents”, pp.: 53-77, ISBN/ISSN: 3-540-65112-8, (1999) Klusch (ed) Springer.
BENEVENTANO D, BERGAMASCHI S., LODI S., SARTORI C., "Consistency Checking in Complex Object
Database Schemata with Integrity Constraints", Rivista: IEEE Transactions on Knowledge and Data
Engineering, Volume: 10 (4), pp.: 576-598, (1998).
D. Beneventano, S. Bergamaschi, S. Castano, A. Corni, R. Guidetti, G. Malvezzi, M. Melchiori e M. Vincini:
"Information Integration: the MOMIS Project Demonstration", International Conference on Very
Large Data Bases (VLDB'2000), Cairo, Egypt, Settembre 2000.
S. Bergamaschi, S. Castano e M. Vincini "Semantic Integration of Semistructured and Structured Data Sources",
SIGMOD Record Special Issue on Semantic Interoperability in Global Information, Vol. 28, No. 1,
March 1999.
71
Fondo Speciale Innovazione
Unità Operativa 1.5
Dipartimento di Elettronica e Informatica, Università di Padova
Direttore: prof. Giuseppe Tondello
Responsabile
Prof. Maristella Agosti
Descrizione dell’ente: L'Università di Padova è una delle università più antiche di Europa e
la seconda in Italia essendo stata fondata nel 1222. Al momento l'Università di Padova è
costituita da tredici facoltà che impartiscono 45 diversi diplomi di laurea a più di 60.000
studenti iscritti; sono attivate 50 scuole di specializzazione e 70 corsi di dottorato di ricerca.
Circa 4000 persone lavorano nell'università, di queste circa la metà sono professori e
docenti, e l'altra metà personale tecnico e amministrativo. L'attività viene svolta in circa 200
fra dipartimenti, istituti, centri e biblioteche.
La struttura dell’Università di Padova che partecipa alle attività del progetto è il Dipartimento
di Elettronica e Informatica ed in particolare il gruppo di ricerca di Sistemi di gestione delle
informazioni (IMS). Il Dipartimento di Elettronica e Informatica è stato istituito nel giugno del
1987; sono tematiche di ricerca e attività del dipartimento la bioingegneria, l'elettronica
applicata e industriale, l'informatica teorica e applicata, la teoria dell'informazione e le
comunicazioni, la teoria dei sistemi e del controllo e le sue applicazioni. Al momento fanno
parte del dipartimento circa 30 professori, 30 professori associati e 20 ricercatori; il personale
tecnico, amministrativo e di biblioteca conta circa 15 unità. Il dipartimento partecipa a
numerosi dottorati di ricerca, quindi ospita circa 50 studenti di dottorato e poi si avvale della
collaborazione di alcuni assegnisti di ricerca. Il gruppo di ricerca di Sistemi di gestione delle
informazioni (IMS) è uno dei gruppi di ricerca del dipartimento. Il gruppo di ricerca IMS ha
operato attivamente negli anni nei settori del reperimento delle informazioni, dei sistemi di
gestione di basi di dati, della costruzione automatica di ipertesti, della rappresentazione e
gestione di risorse informative distribuite in rete, quali sono le risorse di informazioni
disponibili nel World Wide Web, del progetto e gestione di archivi digitali.
Competenze relative al progetto: Il gruppo ha partecipato a numerosi progetti di ricerca
europei e nazionali dove è stato necessario proporre metodi innovativi di gestione e
reperimento di informazioni, ed in particolare di informazioni di tipo testuale. Il gruppo ha
sviluppato metodi di trasformazione automatica di raccolte di documenti digitali testuali in
strutture ipertestuali che sono di particolare interesse per questo progetto. Infatti questi
metodi permettono di rendere disponibili agli utenti finali delle raccolte testuali digitali oltre
che mediante modalità di interrogazione anche mediante modalità di consultazione o
browsing. Questi metodi possono essere arricchiti e sviluppati per permettere di gestire in
modo innovativo e secondo il paradigma di browsing le annotazioni di grandi raccolte di
documenti digitali.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca nel WP1.4 ed in particolare
sui temi di algoritmi e metodi efficienti di costruzione automatica, a partire dalle raccolte delle
diverse tipologie di annotazioni che si deciderà di prendere in considerazione nell’ambito del
progetto, di raccolte nelle quali sono stati costruiti automaticamente collegamenti fra
documenti e annotazioni simili. Le collezioni di documenti digitali gestite risulterebbero,
allora, coordinate e collegate, in modo tale che l’utente possa trovare già disponibili dei
percorsi di fruizione delle raccolte dei documenti digitali e delle annotazioni. Gli algoritmi e i
metodi che verranno sviluppati permetteranno di gestire in modo innovativo e secondo il
72
Enhanced Content Delivery
paradigma di browsing le annotazioni di grandi raccolte di documenti digitali. In questo modo
sarà possibile affiancare ad una costruzione e utilizzazione delle annotazioni mediante
interrogazione, una costruzione della raccolta delle annotazioni in strutture simili a collezioni
di documenti Web in relazione e collegamento fra loro. In questo modo alla fruizione per
interrogazione sarà possibile affiancare la consultazione di navigazione. Metodi e tecniche di
text mining verranno studiate per arrivare a costruire automaticamente percorsi di lettura e
consultazione personalizzati nelle diverse raccolte di documenti digitali. In particolare si
intende esplorare la possibilità di costruzione automatica di profili d’utente e di percorsi di
fruizione delle raccolte digitali.
Composizione dell’Unità Operativa e costi del personale
Cognome
Nome
Data di
nascita
Luogo di
nascita
Agosti
(Coordinatore)
Crivellari
Maristella
07/05/50 Modena
Franco
Melucci
Massimo
29/04/44 Piove di
Sacco (PD)
06/10/65 Riva (TN)
Orio
Nicola
4/9/1967 Venezia
Pretto
Luca
08/02/63 Vicenza
Qualifica
Senior/
Junior
Prof.
Straordinario
Prof. Associato
Confermato
Ricercatore
Universitario
Ricercatore
Universitario
Dottorando
S
S
J
J
J
Afferenza
DEI, Univ.
Padova
DEI, Univ.
Padova
DEI, Univ.
Padova
DEI, Univ.
Padova
DEI, Univ.
Padova
Mesi/
Costo
Persona Personale
(MLire)
9
67,5
9
67,5
9
30
9
30
11
50
Curriculum dei principali ricercatori
Maristella Agosti
Maristella Agosti è professore di Ingegneria informatica del Dipartimento di Elettronica e
Informatica e della Facoltà di Lettere e filosofia dell’Università di Padova. È il coordinatore
del gruppo di ricerca di Sistemi di gestione delle informazioni (IMS) del Dipartimento.
La sua attività di ricerca si svolge nell’ambito delle biblioteche digitali, ed in particolare nello
sviluppo di metodi per la strutturazione e rappresentazione delle informazioni contenute in
risorse informative distribuite, quale è oggi la raccolta di documenti disponibile nel World
Wide Web. Nell’ambito della attività svolta, ha proposto modelli innovativi di “hypertext
information retrieval” e sono state affrontate le problematiche della valutazione di sistemi
interattivi di gestione e reperimento di informazioni. I risultati di ricerca sono stati resi
disponibili in più di 100 articoli pubblicati in riviste e atti di congressi internazionali e
nazionali.
Dal 1990 è membro del comitato editoriale della rivista “Information Processing &
Management” (Pergamon Press); dal 1997 è “subject area editor” per il settore del
Hypermedia della rivista internazionale “Information Retrieval” (Kluwer Academic
Publishers). Ha fatto parte del comitato editoriale della rivista europea “The Computer
Journal” (BCS) dal 1990 al 1998. Ha fatto parte del comitato di programma di diversi
congressi internazionali, in particolare dell’ACM-SIGIR e CIKM.
Ha partecipato a diversi progetti di ricerca nazionali e internazionali, in particolare è stata
“Domain Leader” per l’Information Retrieval e Multimedia della Rete di Eccellenza
IDOMENEUS ESPRIT (No. 6606). Ha fatto parte del “Research Panel” del “EU Information
Engineering programme”. Ha partecipato al progetto europeo JUKEBOX (LIB-JUKEBOX/41049), al progetto europeo EUROIEMASTER (IE2012), all’EEC ESPRIT Working Group
73
Fondo Speciale Innovazione
No.20039 Mira, e al progetto della European Space Agency (ESA) su "Semantic Network
Inter-Operations".
Massimo Melucci
Massimo Melucci si è laureato in Scienze statistiche, è dottore di ricerca in Ingegneria
informatica ed elettronica industriale dal 1996 ed è ricercatore in Ingegneria informatica
presso la Facoltà di Ingegneria dell'Università di Padova dal 1999.
La sua attività di ricerca si concentra nel settore del reperimento di informazioni sul World
Wide Web, della costruzione automatica di ipertesti e del reperimento di informazioni
musicali per biblioteche digitali. Ha partecipato a progetti nazionali ed internazionali (ADMV,
INTERDATA, IRIDES) sulle tematiche della propria attività di ricerca, pubblicando articoli su
riviste e atti di congressi internazionali. Ha tenuto lezioni invitate in sedi internazionali. È
membro del comitato di programma del congresso del "ACM Special Interest Group in
Information Retrieval".
Pubblicazioni recenti
M. Agosti, L. Benfante, M. Melucci. OFAHIR: “On-the-Fly” Automatic Authoring of Hypertexts for Information
Retrieval. In: S. Spaccapietra, F. Maryanski (Eds). Data Mining and Reverse Engineering:
Searching for semantics. Chapman and Hall, London, 269-300, 1998.
M. Agosti, F. Bombi, M. Melucci, G.A. Mian. Towards a digital library for the Venetian music of the Eighteenth
century. In: J. Anderson, M. Deegan, S. Ross, S. Harold (Eds), Digital Content, Digital Methods.
Office for Humanities Communication, UK, 2000.
M. Agosti, F. Crivellari, M. Melucci. The Effectiveness of Meta-data and other Content Descriptive Data in Web
Information Retrieval. Proceedings of Third IEEE Meta-Data Conference (META-DATA '99),
Bethesda, Maryland, USA, April 6-7, 1999.
M. Agosti, M. Melucci. Information Retrieval Techniques for the Automatic Construction of Hypertext. In: A. Kent
(Ed), Encyclopedia of Library and Information Science. Volume 66. Marcel Dekker, 2000.
M. Agosti, F. Crestani, M. Melucci. Electronic Publishing, Storage, Dissemination and Retrieval of a Scientific
Journal through the Web. Proc. of IEEE Forum on Research and Technology Advances in Digital
Libraries (ADL'98). Los Alamitos, CA, USA, IEEE Computer Society, 1998, pp.137-146.
M. Agosti, A. Smeaton (Eds). Information Retrieval and Hypertext. Kluwer Academic Publishers, Boston, 1996,
pp.xviii+279.
M. Melucci. Passage retrieval: a probabilistic technique. Information Processing and Management, 34(1), 1998,
43-67.
M. Melucci. An Evaluation of Automatically Constructed Hypertexts for Information Retrieval. Journal of
Information Retrieval, 2(1), 1999, 91-114.
M. Melucci, N. Orio. Musical Information Retrieval using Melodic Surface. Proceedings of the ACM Digital
Libraries Conference, Berkeley, CA, 1999, pp. 152-160.
74
Enhanced Content Delivery
Unità Associata 1.6
Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni
bibliografiche (ICCU).
Responsabile
Dott.ssa Giovanna Mazzola Merola, direttore ICCU.
Descrizione dell’ente
L'Istituto Centrale per il Catalogo Unico delle biblioteche italiane e per le informazioni
bibliografiche (ICCU) assume l'attuale denominazione nel 1975 a seguito della costituzione
del Ministero per i beni e le attività culturali, subentrando al Centro nazionale per il catalogo
unico creato nel 1951 con il compito di catalogare l'intero patrimonio bibliografico nazionale.
Questo obiettivo è oggi perseguito grazie ad una strategia di forte cooperazione tra le
biblioteche, anche di diversa titolarità amministrativa, a garanzia dello sviluppo di servizi di
uguale livello su tutto il territorio nazionale. Risultato di tale cooperazione è la realizzazione
del Servizio Bibliotecario nazionale (SBN), la rete informatizzata di servizi nazionali alla
quale sono collegate biblioteche dello Stato, degli Enti locali e delle Università, che
contribuiscono alla creazione del catalogo collettivo nazionale in linea gestito dall'Istituto.
Nell'intento di migliorare la conoscenza delle raccolte bibliografiche e di semplificarne
l'accesso per l'utente, l'Istituto promuove e coordina censimenti nazionali dei manoscritti,
delle edizioni italiane del XVI secolo, delle biblioteche presenti in Italia. A supporto dell'attività
di catalogazione delle biblioteche in Italia, l'Istituto ha la responsabilità di indirizzare,
produrre, adattare alla realtà italiana e diffondere le norme standard per la catalogazione
delle diverse tipologie di materiali dai manoscritti ai documenti multimediali.
L'Istituto, che ha come referente l'Ufficio centrale per i beni librari, gli istituti culturali e
l'editoria, esplica funzioni di coordinamento – nel rispetto delle autonomie delle biblioteche nell'ambito del Servizio Bibliotecario Nazionale e dei progetti di catalogazione realizzati
mediante l'utilizzo delle nuove tecnologie dell'informazione.
I compiti dell'ICCU sono elencati nell'articolo 15 del D.P.R. 3 dicembre 1975 n. 805.
Competenze relative al progetto
L'Istituto centrale per il catalogo unico delle biblioteche italiane e per le informazioni
bibliografiche, è articolato in cinque laboratori, un servizio di coordinamento e un servizio
amministrativo; in particolare gestisce il coordinamento tecnico-scientifico della rete del
Servizio Bibliotecario Nazionale (SBN) e il funzionamento del sistema Indice; promuove
ricerche e studi relativi agli standard catalografici, anche in collaborazione con enti nazionali
e internazionali e cura la compilazione di manuali per la catalogazione; coordina censimenti
relativi alla musica a stampa e manoscritta, ai manoscritti e alla loro bibliografia, alle edizioni
italiane del XVI secolo e alle biblioteche esistenti in Italia. A tal fine sviluppa e distribuisce
prodotti s/w per la catalogazione informatizzata di materiali musicali, per il censimento di
manoscritti e la compilazione della bibliografia sul manoscritto, per la gestione del
censimento delle biblioteche; fornisce informazioni per la reperibilità dei documenti italiani e
stranieri, utilizzando le risorse di rete e i cataloghi raccolti e consultabili presso l’Istituto. Per
queste sue specifiche competenze è il partner ideale a svolgere in questo progetto il ruolo di
organizzazione che conosce a fondo le esigenze degli utenti di biblioteche e di tipologie
importanti di biblioteche digitali.
75
Fondo Speciale Innovazione
Partecipazione della Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca in particolare nel contesto dei
metadati per biblioteche digitali. Infatti il Laboratorio per le metodologie della catalogazione e
per la didattica dell’ICCU ha di recente fornito una stesura iniziale della mappatura fra lo
standard Dublin Core Metadata Element Set Reference Description Versione 1.1 e il formato
UNIMARC. I problemi nel confronto dei dati dal DC al formato bibliografico si sono rilevati in
molti casi complessi poiché i dati bibliografici sono definiti e formalizzati secondo le regole di
catalogazione. Nella mappatura si sono previsti valori diversi in UNIMARC per elementi
qualificati o non qualificati.
Pubblicazioni recenti
G. Mazzola Merola. Chiarimenti su SBN. In: Archivi & computer: automazione e beni culturali. - A. 7, n.4 (1997),
p.280- 282.
G. De Caro, G. Mazzola Merola. Servizio bibliotecario nazionale : la realtà della cooperazione. In: Gestione e
valorizzazione dei beni culturali nella legislazione regionale, Ministero per i beni e le attività
culturali. Direzione generale per gli affari generali amministrativi e del personale. Ufficio Studi. Roma : Istituto poligrafico e Zecca dello Stato, 1998. - p. 25-28.
SBN Notizie 1989, periodico dell’ICCU consultabile in linea dal 1998; SBN Notizie fornisce periodicamente
informazioni sull'avanzamento del progetto del Servizio Bibliotecario Nazionale.
76
Enhanced Content Delivery
Unità Associata 1.7
CONSIEL S.P.A.
Responsabile
Dr. Claudio Mordà
Descrizione dell’ente
CONSIEL è una società di consulenza del gruppo Telecom Italia - Finsiel, con circe 500 tra
dipendenti e collaboratori. L'area di interesse è quella dei servizi Web, Internet e Intranet.
Competenze relative al progetto
La partecipazione di CONSIEL è tesa a verificare l'applicabilità dei risultati del progett
nell'ambito della propria piattaforma ACP (Acquisizione, Classificazione Publishing). Questo
prodotto permette la realizzazione di portali Web che consentono l'accesso ad ampie
collezioni di documenti. L'idea collegata a questa tipologia di portale è quella che, noto un
dominio, vengano recuperati in maniera automatica tutti i documenti afferenti al dominio
selezionato. All'interno dei portali così realizzati le informazioni vengono catalogate, a partire
da un vocabolario ristretto comune, sfruttando tecniche semi-automatiche di classificazione.
Lo scopo è quello di riuscire a migliorare le tecniche di catalogazione tenendo conto della
semantica contenuta nelle diverse sorgenti informative che vengono selezionate istruendo
sistemi di ricerca in base al dominio selezionato. In quest'ottica la catalogazione e la
pubblicazione di sorgenti XML è sicuramente una evoluzione molto interessante per gli
obiettivi aziendali.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
CONSIEL è particolarmente interessata a valutare il comportamento del sistema di
classificazione che costituisce l'oggetto del Workpackage 1.3.
77
Fondo Speciale Innovazione
Unità Operativa 2.1
Istituto ISTI-Alessandro Faedo
Responsabile
Dott. Raffaele Perego
Presentazione Unità Operativa
Descrizione dell’ente: L’ISTI-Alessandro Faedo è un Istituto del CNR in fase di
costituzione. Ha sede a Pisa, e nasce dalla fusione dei due principali Istituti CNR pisani
operanti nel campo dell’ínformatica: il CNUCE e l’IEI. Obiettivo dell'ISTI è quello di svolgere
una qualificata attività di ricerca, contribuendo al miglioramento delle conoscenze scientifiche
e di innovazione nel campo della Computer, Telecommunications and Information Science
and Technology. Tale missione viene perseguita anche attraverso lo sviluppo di
collaborazioni scientifiche e sinergie con le Università, le piccole e medie imprese e la
Pubblica Amministrazione. Nell’Istituto operano circa 73 ricercatori e tecnologi, 67 tecnici, e
16 figure amministrative e di supporto. Mediamente altre 70 persone collaborano con il
personale permanente in qualità di professori visitatori, ricercatori a contratto, borsisti, e
studenti di dottorato. L’Istituto conduce attività di ricerca interdisciplinare, sia teorica che
applicata nei seguenti settori:

System architectures

High Performance Computing

Data mining and knowledge discovery

Programming languages and software engineering;

Database and multimedia theory and applications;

Multimedia information storage and retrieval;

Signal and image processing;

Computational geometry and computer graphics

Networking

Information Systems

Spaceflight and Structural Mechanics.
La maggior parte delle attività sono svolte all’interno di progetti di ricerca nazionali ed
internazionali.
Competenze relative al progetto: Le attività di ricerca svolte dall'Istituto nei settori del data
mining e della scoperta di conoscenza, e del calcolo parallelo ad alte prestazioni, occupano
un ruolo importante nell'ambito dello sviluppo delle nuove tecnologie a servizio
dell'innovazione. In questo senso l'ISTI contribuisce, in sinergia con l’Università e le piccolemedie imprese, all'innovazione delle conoscenze scientifiche e degli strumenti di produzione.
I ricercatori di questa UO che partecipano al WP 2.1 hanno competenze importanti nelle
seguenti tematiche:

Data mining query languages: linguaggi di analisi in grado di integrare funzionalità di
interrogazione con funzionalità di mining; integrazione di deduzione ed induzione.
78
Enhanced Content Delivery

Autofocus data mining: regolazione automatica degli algoritmi di mining verso obiettivi
di analisi guidata da conoscenza di dominio;

Spatio-temporal reasoning e datamining in spatio-temporal databases: definizione di
algoritmi di mining su constraint databases;

Web-mining: analisi su dati di accesso al web e data mining su dati semistrutturati;
L’attività di ricerca è svolta in collaborazione con il Dipartimento di Informatica dell’Università
di Pisa nell’ambito della iniziativa Pisa KDD Lab., http://www-kdd.cnuce.cnr.it/ ed in
collaborazione di alcuni enti di ricerca ed università europee nell’ambito dei due progetti UE
di long term research: DeduGIS e Revigis. L’attività di ricerca di base è accompagnata con
esperienze progettuali applicative con soggetti pubblici e privati che presentano grandi
problematiche di analisi dei dati. Particolarmente significativi sono stati il progetto DataSift
che ha realizzato un sistema di analisi dei dati di un supermercato mediante tecniche di
basket market analysis finanziato dalla Regione Toscana ed il progetto PQE2000 – Lotta
all’evasione fiscale, dove sono state sperimentate tecniche di data mining di tipo predittivo in
supporto alla rilevazione di frodi. Attualmente, sono rilevanti i progetti MineFaST (Intelligent
Web Caching) in collaborazione con FST ed Università di Pisa e TelCal (Esplorazione di
utilizzo di tecniche di analisi data mining su datawarehouse del piano telematico della
Regione Calabria).
I ricercatori di questa UO che partecipano al WP 2.3 hanno competenze importanti e
stratificate nel settore del calcolo ad alte prestazioni su piattaforme parallele e distribuite.
Molte delle più recenti attività di ricerca rientrano nell’esperienza del Progetto PQE2000.
Recentemente il gruppo ha concentrato l’attenzione sullo sfruttamento di architetture
commodity non omogenee, come i cluster di multiprocessori (SMP), per affrontare problemi
che sono caratterizzati non solo da elevate attività di calcolo, ma anche da input/output
intensivo. A questo riguardo, Data Mining e Web Search Engine sono applicazioni chiave per
le problematiche algoritmiche e architetturali che inducono. Nell’ambito di questi campi
applicativi emergenti e della corrispondente domanda di soluzioni avanzate ad alte
prestazioni si inquadrano le collaborazioni in atto con il Dipartimento di Informatica
dell’Università di Pisa, e con la società Ideare S.p.A. di Pisa.
I ricercatori che fanno capo a questa Unità Operativa sono stati e sono attualmente coinvolti
in numerosi progetti di ricerca nei settori del data mining e del calcolo parallelo ad alte
prestazioni. In particolare citiamo il progetto PQE2000, il progetto “Sistemi intelligenti per la
lotta all'evasione fiscale” del Ministero delle Finanze, il progetto ASI-PQE2000, il progetto
MURST cofinanziato "Data-X: Gestione, Trasformazione e Scambio di Dati in Ambiente
Web".
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca all’interno dei WP 2.1 e WP
2.3.
Per quanto riguarda il WP 2.1 l’UO si occuperà di tutte le problematiche relative al il
potenziamento degli attuali strumenti di Search Engine con strumenti di mining, al mining di
struttura e di contenuto su collezioni di documenti XML ed alla definizione di un ambiente per
lo sviluppo di applicazioni verticali di Web mining.
Per quanto riguarda il WP 2.3, l’UO si occuperà di tutte le problematiche relative alla
realizzazione efficiente e scalabile di dimostratori di IR e DM per dati Web su architetture ad
alte prestazioni nonché della scelta dell’architettura di testbed da acquistare con i fondi del
progetto. In base ai requisiti delle applicazioni, tecniche di parallelizzazione e distribuzione
verranno usate sia per diminuire i tempi di risposta, sia per aumentare il troughput
complessivo del sistema. Per raggiungere alte prestazioni e scalabilità delle soluzioni
79
Fondo Speciale Innovazione
proposte, verranno considerati allo stesso tempo sia gli aspetti algoritmici che quelli
sistemistici legati alla specifica architettura.
Composizione dell’Unità Operativa e costi del personale
Cognome
Nome
Perego
Raffaele
Giannotti
Fosca
Data di
nascita
Luogo di Qualifica Senior/ Afferenza Mesi/
Costo
nascita
Junior
Persona Personale
(MLire)
28/01/1962 Belluno
Ricercatore
S
ISTI-CNR
10
75
Ricercatore
S
ISTI-CNR
8
60
Ricercatore
S
ISTI-CNR
8
60
Renzo
04/10/1958 Cast.
Garf.na
(LU)
Giuseppe 19/03/1970 Aradeo
(LE)
Chiara
17/10/1968 Verona
Ricercatore
S
ISTI-CNR
6
45
Orlando
Salvatore
14/06/1961 Cosenza
Prof. Ass..
S
8
60
Palmerini
Paolo
25/03/1971 Mantova
Ricercatore
S
Univ.
Venezia
ISTI-CNR
8
60
Baraglia
Ranieri
19/06/1949 Vecchiano Ricercatore
S
ISTI-CNR
5
37,5
5/04/1970 Lugano
Ricercatore
S
ISTI-CNR
3
22,5
Tecnico
S
ISTI-CNR
3
22,5
10/05/1952 Vicopisano Tecnico
(PI)
Francesco 22/12/1973 San
Dottorando
Giovanni
Valdarno
Cristian
13/07/1976 Lucca
Laureato borsista
S
ISTI-CNR
3
22,5
J
12
45
22
82,5
Fabrizio
J
ISTI-CNR
& Univ.
Pisa
ISTI-CNR
& Univ.
Pisa
ISTI-CNR
& Univ.
Pisa
24
90
120
682,5
Manco
Chiaradonna Silvano
Masserotti
M. Vittoria 29/1/1950 Roma
Barsocchi
Sergio
Bonchi
Gozzi
Silvestri
Dottorando
TOTALE
J
Curriculum dei principali ricercatori
Raffaele Perego
Raffaele Perego è ricercatore presso l'Istituto CNUCE del Consiglio Nazionale delle
Ricerche. La sua attività di ricerca riguarda il calcolo ad alte prestazioni, con particolare
attenzione verso architetture parallele e distribuite, modelli, linguaggi e strumenti per la
programmazione parallela, scheduling e bilanciamento del carico in ambienti di calcolo
omogenei ed eterogenei, analisi e progetto di algoritmi ed applicazioni parallele.
Recentemente ha indirizzato la ricerca verso lo sfruttamento di architetture commodity non
omogenee, come i cluster di multiprocessori (SMP), e verso campi applicativi quali Data
Mining e Information Retrieval che introducono problematiche di notevole interesse collegate
alla necessità di gestire ed elaborare efficientemente grosse collezioni di dati. Ha partecipato
recentemente al Progetto PQE2000 ed al progetto Eureka HPPC-SEA.
80
Enhanced Content Delivery
Fosca Giannotti
Fosca Giannotti è ricercatore presso l'Istituto CNUCE del Consiglio Nazionale delle Ricerche
dal 1990. Gli interessi di ricerca attuali includono knowledge discovery e data mining,
ragionamento spazio-temporale, semantica formale ed implementazione di linguaggi di
programmazione per basi di dati specialmente nell’ambito delle basi di dati deduttive. Ha
partecipato a diversi progetti di ricerca sia a livello nazionale che internazionale sia come
ricercatrive che come coordinatore. Attualmente è coordinatrice di: 1) MineFaST: un progetto
italiano che ha l’obiettivo di sviluppare un sistema di Web Caching basato su tecniche di data
mining; 2) DeduGIS: un working group europeo con 10 partners accademici ed industriali di
vari paesi europei. Tiene dal 1997 un corsi di basi di dati deduttive che include una parte di
data mining al corso di laurea in di Informatica dell’università di Pisa. Nel 1999 ha tenuto un
corso di data mining alla facoltà di economia dell’università di Pisa, ed un tutorial di data
mining alla facoltà di ingegneria all’università di Bologna ed un tutorial di data mining alla
conferenza EDBT 2000, Int. Conf. on Extending the Database Technology 2000.
Pubblicazioni recenti
F. Giannotti, G. Manco. Making Knowledge Extraction and Reasoning Closer. In (T. Terano, H. Liu, A. L. P. Chen,
Eds.) Knowledge Discovery and Data Mining, Current Issues and New Applications, 4th PacificAsia Conference, PADKK 2000, Kyoto, Japan, 2000, Proceedings. Lecture Notes in Computer
Science, Vo. 1805, pp. 360-371, Springer, 2000.
F. Giannotti, G. Manco, D. Pedreschi, F. Turini. Experiences with a logic-based knowledge discovery support
environment. In Proc. 1999 ACM SIGMOD Workshop on Research Issues in Data Mining and
Knowledge Discovery (SIGMOD'99 DMKD). ACM Press, May 1999.
F. Bonchi, F. Giannotti, G. Mainetto, D. Pedreschi. A Classification-based Methodology for Planning Audit
Strategies in Fraud Detection. In Proc. 5th ACM-SIGKDD Int. Conf. on Knowledge Discovery \&
Data Mining, KDD'99, San Diego, CA, USA, pp. 175-184. ACM Press, 1999.
F. Giannotti, G. Manco. Querying Inductive Databases via Logic-Based User-Defined Aggregates. In (J. Rauch
and J. M. Zytkov, Eds.) Principles of Data Mining and Knowledge Discovery, Third European
Conference, PKDD '99, Prague, Czech Republic, 1999, Proceedings. Lecture Notes on Artificial
Intelligence, Vol. 1704, pp. 125-135, Springer, 1999.
F. Giannotti, G. Manco, M. Nanni, D. Pedreschi, and F. Turini. Integration of Deduction and Induction for Mining
Supermarket Sales Data In Proc. PADD'99, Practical Application of Data Discovery, Int. Workshop,
p. 79-94. The Practical Applications Company, London, March 1999.
Pisa KDD Laboratory. Web Log Data Warehousing and Mining for Intelligent Web Caching. Data and Knowledge
Engineering, 2000. Submitted.
R.Baraglia, D.Laforenza, S.Orlando, P.Palmerini, R.Perego. Implementation issues in the design of I/O intensive
data mining applications on clusters of workstations. Proceedings of the 3rd Workshop on High
Performance Data Mining, in conjunction with IPDPS- 2000, Cancun, Mexico, May 5th, 2000, LNCS
1800, Springer, pp. 350-357.
S. Orlando, P. Palmerini, R. Perego. Mixed Task and Data Parallelism with HPF and PVM. Cluster Computing,
Baltzer Science Publishers, in print
S. Orlando, R. Perego. A Comparison of Implementation Strategies for Non-Uniform Data-Parallel Computations.
Journal of Parallel and Distributed Computing (JPDC), Academic Press, Vol. 52, n. 2, August 1,
1998, pp. 132-149.
P.Becuzzi, M.Coppola, M.Vanneschi, Mining of Association Rules in Very Large Databases: a Structured Parallel
Approach. Proceedings of the EURO-PAR'99 Conference, Tolouse, LNCS 1685, pp.1441-1450.
P.Becuzzi, M.Coppola, S.Ruggieri, M.Vanneschi, Parallelisation of C4.5 as a Particular Divide & Conquer
Computation, Proceedings of the 3rd Workshop on High Performance Data Mining, in conjunction
with IPDPS- 2000, Cancun, Mexico, May 5th, 2000, LNCS 1800, Springer.
81
Fondo Speciale Innovazione
Unità Operativa 2.2
Dipartimento di Informatica, Università di Pisa
Direttore: prof. Franco Turini
Responsabile
Prof. Maria Simi
Presentazione Unità Operativa
Descrizione dell’ente:
Il Dipartimento di Informatica dell’Università di Pisa ha assunto questo nome nel 1982 dopo
essere stato fondato nel 1969 con la denominazione di Istituto di Scienze dell’Informazione.
Il Dipartimento conta attualmente 59 docenti, 20 unità di personale tecnico
amministrativo, e circa 40 tra dottorandi e titolari di borse post-doc.
Il Dipartimento svolge attività di ricerca di base e applicata in tutti i campi dell’Informatica
e in particolare nelle seguenti aree della classificazione ACM/IEEE: Algoritmi e strutture dati,
Architettura degli elaboratori, Intelligenza artificiale, Basi di dati e recupero dell’informazione,
Matematica Computazionale, Linguaggi di programmazione, Ingegneria del software,
Ricerca Operativa.
Il Dipartimento fornisce docenza per il corso di Diploma Universitario in Informatica e per
il Corso di Laurea in Informatica, nonché per singoli corsi di Informatica Generale per altri
corsi di laurea dell’Ateneo.
Il Dipartimento è sede del Dottorato di Ricerca in Informatica.
Competenze relative al progetto:
L’unità operativa è coinvolta nei Work Package 2.1, 2.2 e 2.4, su cui ha significative
competenze.
Il prof. Turini guida attività di ricerca nel settore del data mining, in collaborazione col prof.
Pedreschi e diversi dottorandi o assegnisti di ricerca.
Il prof. Ferragina ed il prof. Manzini collaborano nello sviluppo di tecniche di avanguardia per
la compressione e l’indicizzazione di testi di grandi dimensioni.
Il prof. Attardi si occupa di tecniche di classificazione automatica di documenti Web, nel cui
ambito ha sviluppato la tecnica di categorization by context. Insieme con il dr. Cisternino sta
sviluppando tecniche di Web Computing basate su protocollo SOAP per la realizzazione di
servizi di rete basati su oggetti cooperanti. Insieme con il dr. Burrini sta sviluppando tecniche
per estrarre dai testi named entities, riconoscere relazioni tra di esse e rispondere a
domande sul contenuto dei testi.
La prof. Simi, insieme con il prof. Attardi ed il dr. Tommasi, si occupano di sistemi di
apprendimento di concetti per la classificazione di documenti Web.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Tabella 1. Risorse umane
WP
Mesi/Persona
2.1 WebMining
2.2 Indicizzazione e compressione
2.3 Managing Terabytes
2.4 Participatory Search Services
82
60
25
40
Enhanced Content Delivery
125
Totale
Composizione dell’Unità Operativa e costi del personale
Cognome
Nome
Simi
Maria
(coordinatore)
Attardi
Giuseppe
Data di
nascita
Luogo di
nascita
22/02/52 Vecchiano
(PI)
9/6/50
Padova
Qualifica
Senior/
Junior
Professore
associato
Professore
straordinario
Professore
associato
Professore
associato
Professore
ordinatio
Professore
associato
S
S
S
Brogi
Antonio
Ferragina
Paolo
27/06/69 Catanzaro
Luccio
Fabrizio
1938
Tripoli
Manzini
Giovanni
2/3/65
Bologna
Pedreschi
Dino
1958
Turini
Franco
1950
Catelnuovo
(LU)
Livorno
Ruggieri
Salvatore
24/12/71 Matino
Professore
straordinario
Professore
ordinario
Ricercatore
Raffaetà
Alessandra
J
Ciriani
Valentina
19/1/74
Pisa
Assegnista di
ricerca
Dottorando
Cisternino
Antonio
Pisa
Dottorando
J
Tommasi
Alessandro
Lucca
Dottorando
J
Nanni
Mirco
Dottorando
J
Bracciali
Andrea
J
Mascellani
Paolo
Montepulcia Dottorando
no (SI)
Dottorando
Burrini
Cristian
21/6/69
05/08/75 Terni
S
S
S
S
S
S
J
J
Contrattista
J
TBD
Contrattista
J
TBD
Contrattista
J
Afferenza
Mesi/
Costo
Persona Personal
e (MLire)
Università di
8
90
Pisa
Università di
6
45
Pisa
Università di
6
45
Pisa
Università di
4
30
Pisa
Università di
4
30
Pisa
Università
4
30
del
Piemonte
Orientale
Università di
6
45
Pisa
Università di
6
45
Pisa
Università di
6
45
Pisa
Università di
6
24
Pisa
Università di
3
11
Pisa
Università di
6
22
Pisa
Università di
6
22
Pisa
Università di
6
22
Pisa
Università di
6
22
Pisa
Università di
6
22
Siena
Università di
12
45
Pisa
Università di
24
90
Pisa
Università di
24
90
Pisa
Totale
125
685
Curriculum dei principali ricercatori
Maria Simi
Maria Simi si è laureata in Scienze dell'Informazione presso l'Università di Pisa nel 1974.
È stata ospite presso il MIT di Boston negli anni dal 1979 al 1981, dove ha sviluppato, in
cooperazione con il gruppo di "Message Passing Semantics", un linguaggio di
83
Fondo Speciale Innovazione
rappresentazione della conoscenza orientato alle descrizioni. In periodi piu recenti e stata
ospite presso l'ICSI di Berkeley e il Computer Science Laboratory della Sony a Parigi.
È stata professore associato presso l'Università di Udine negli anni dal 1989 al 1992,
dove ha insegnato informatica presso il Corso di Laurea in Conservazione dei Beni Culturali.
È socio fondatore dell'Associazione Italiana per l'Intelligenza Artificiale, membro del
comitato scientifico italiano di RoboCup, membro del comitato di programma di diversi eventi
internazionali, fa parte del comitato editoriale d della rivista ESRA (Expert systems Research
and Applications).
È attualmente professore associato presso il Dipartimento di Informatica dell'Universita di
Pisa dove insegna corsi di Intelligenza Artificiale e Informatica Documentale. È coordinatore
dell'Area Didattica Europea per il settore di Informatica per l'Universita di Pisa (programmi
Socrates e Tempus) e Responsabile dei servizi Web del Dipartimento di Informatica.
I principali interessi di ricerca attuali sono collocabili nell'ambito dell'intelligenza artificiale
(rappresentazione della conoscenza, apprendimento automatico e sistemi mutliagente), e dei
dei sistemi informativi e servizi legati al Web (progetto CompAss per la compilazione
assistita di piani di studio, categorizzazione automatica).
Ha pubblicato lavori scientifici a livello internazionale nell'ambito dell'Intelligenza
Artificiale.
Giuseppe Attardi
Giuseppe Attardi è professore al Dipartimento di Informatica dell'Università di Pisa, dove
insegna attualmente corsi di Computer Graphics, di Programmazione Web e di
Programmazione Sicura.
Attardi è stato direttore del Centro di Calcolo del Dipartimento di Informatica ed è uno dei
responsabili del centro SeRRA dell’Università di Pisa, che ha realizzato una rete privata in
fibra ottica attraverso la città. Ha partecipato alla progettazione della rete GARR e fa parte
dell'OTS che ne coordina lo sviluppo.
È stato ospite presso laboratori stranieri quali il MIT di Boston, l'ICSI di Berkeley e il
Computer Science Laboratory della Sony a Parigi. Al MIT ha sviluppato Omega, un
linguaggio per la rappresentazione della conoscenza ed ha partecipato allo sviluppo del
primo sistema grafico a finestre del MIT.
È stato coordinatore o responsabile di otto progetti di ricerca europei ESPRIT.
Si è occupato di sviluppo e implementazione di linguaggi ad oggetti, in particolare di
CLOS, il sistema ad oggetti del Lisp. Nell’ambito del progetto PoSSo ha sviluppato un
garbage collector per il C++ che è stato utilizzato dalla Sun Microsystems nello sviluppo di
Java.
I suoi interessi principali di ricerca sono i linguaggi ad oggetti, i sistemi di ragionamento
per agenti cooperanti, l’algebra simbolica e il Web computing. Da alcuni anni si occupa di
ricerca e classificazione di documenti Web.
Attardi è stato fondatore della Delphi SpA, azienda specializzata in workstation Unix,
acquisita nel 1986 da Olivetti e di Ideare SpA, acquisita nel 2000 da Tiscali.
Il prof. Attardi ha fatto parte di numerosi comitati internazionali ed è autore di oltre ottanta
pubblicazioni scientifiche.
Paolo Ferragina
Paolo Ferragina è professore associato presso il Dipartimento di Informatica dell'Università di
Pisa. La sua ricerca riguarda il progetto di algoritmi e strutture dati per la gestione di grandi
quantità di informazioni; in particolare i suoi interessi recenti sono rivolti allo studio e al
progetto di algoritmi di compressione, alle strutture dati di indicizzazione e ai motori di ricerca
WEB e XML.
Ha svolto attività di ricerca presso il Centro Ricerca IBM (Roma), l’Università del North
Texas (USA), gli AT&T Bell Laboratories (USA), il Max Planck Institut fur Informatik
(Germania). La sua tesi di dottorato ha ricevuto il premio “EATCS Doctoral Dissertation
Thesis Award 1997”, il premio “Philip Morris per la Ricerca Scientifica e Tecnologica 1997”. È
84
Enhanced Content Delivery
stato PC-member della conferenza internazionale: Combinatorial Pattern Matching ’98
(Rutgers Univ., Lect. Notes Comp. Sci. 1448).
Ha partecipato recentemente a due progetti: "Algorithms for large data sets: Science and
Engineering" cofinanziato dal MURST (1999), e "Large data processing: methods and
applications" finanziato dall’UNESCO.
Dino Pedreschi
Dino Pedreschi è nato nel 1958 a Castelnuovo Garfagnana, Lucca, e ha ottenuto il Dottorato
di ricerca in Informatica presso l’Università di Pisa nel 1987. È attualmente professore
ordinario di Informatica presso il Dipartimento di Informatica dell’Università di Pisa, e
presidente del consiglio dei corsi di studio (laurea e diploma universitario) in Informatica.
È stato visiting scientist e docente presso la University of Texas ad Austin, USA,
(1989/90), il CWI di Amsterdam (1993) e la University of California a Los Angeles, USA
(1995). Collabora stabilmente con K. R. Apt (CWI) su metodi formali di verifica, e con C.
Zaniolo (UCLA) and V. S. Subrahmanian (Univ. of Maryland) su vari aspetti di logica nelle
basi di dati. È stato coordinatore del progetto Non-determinism in deductive databases,
finanziato congiuntamente dall’Unione Europea e dalla US National Science Foundation, con
un consorzio di università e centri di ricerca europei e statunitensi.
I suoi interessi di ricerca sono incentrati sulla logica nelle basi di dati, e in particolare
nell’analisi dei dati, nelle basi di dati deduttive, nell’integrazione di data mining e database
querying, nel ragionamento spazio-temporale.
È stato, con F. Giannotti, tutorialista alla conferenza EDBT’2000, Extending Database
Technology, su temi di data mining e knowledge discovery.
Pubblicazioni recenti
A. Cisternino, G. Attardi and M. Simi, Building a Configuration Assistant on the Web, Web Net '97, Toronto, 1997.
D. Dato, A. Gullì, G. Attardi, Web Host Enumeration Through DNS, Web Net '97, Toronto, 1997.
G. Attardi, M. Simi, Communication across Viewpoints, Journal of Logic, Language and Information, 7, 53-75,
1998.
G. Attardi, T. Flagella and P. Iglio, A customisable memory management framework for C++, Software: Practice
and Experience, 28(11), 1143-1183, 1998.
G. Attardi and P. Iglio, Software Components for Computer Algebra, Proc. of ISSAC '98, 1998.
G. Attardi, A. Cisternino, and M. Simi, Web-based Configuration Assistants, Artificial Intelligence for Engineering
Design, Analysis and Manufacturing, 12(3), 321-331, 1998.
G. Attardi, S. Di Marco, D. Salvi, F. Sebastiani, Categorisation by context, Workshop on Innovative Internet
Information Systems, 1998.
G. Attardi, A. Cisternino, and M. Simi, Web-based Configuration Assistants, Workshop on Innovative Internet
Information Systems, 1998.
G. Attardi, S. Di Marco, D. Salvi, Categorisation by context, (short version), "Best Full Paper Award", Proceedings
of WebNet 1998, Orlando, Florida, 1998.
G. Attardi, S. Di Marco, D. Salvi, Categorisation by context, Journal of Universal Computer Science, 4(9), 1998.
G. Attardi, A. Gullì, F. Sebastiani, Theseus: Categorization by context, 8th Word Wide Web Conference, Toronto,
Canada, 1999.
G. Attardi, M. Betrò, M. Forte, R. Gori, A. Guidazzoli, S. Imboden, F. Mallegni, 3D facial reconstruction and
visualization of ancient Egyptian mummies using spiral CT data, SIGGRAPH '99, 1999, (also in
Eurographics 99).
G. Attardi, A. Gullì, F. Sebastiani, Automatic Web Page Categorization by Link and Context Analysis, European
Symposium on Telematics, Hypermedia and Artificial Intelligence, Varese, 1999.
G. Attardi, G. Zorzetti, Impementing an Interactive Discussion Forum, Workshop on Community-based Interactive
Systems, Siena, 1999.
85
Fondo Speciale Innovazione
F. Giannotti, D. Pedreschi. Knowledge Discovery & Data Mining: Tools, Methods and Experiences. Tutorial slides
at EDBT 2000. http://www-kdd.di.unipi.it
F. Giannotti, G. Manco, M. Nanni, D. Pedreschi. Nondeterministic, Nonmonotonic Logic Databases. To appear in
IEEE Transaction on Knowledge and Data Engineering. 2000
F. Bonchi, F. Giannotti, G. Mainetto, D. Pedreschi. Using Data Mining Techniques in Fiscal Fraud Detection. In
Proc. DaWak'99, First Int. Conf. on Data Warehousing and Knowledge Discovery. Florence, Italy,
Sept. 1999.
F. Bonchi, F. Giannotti, G. Mainetto, D. Pedreschi. A Classification-based Methodology for Planning Audit
Strategies in Fraud Detection. In Proc. KDD-99, ACM-SIGKDD Int. Conf. on Knowledge Discovery
& Data Mining, San Diego (CA), August 1999.
F. Giannotti, G. Manco, D. Pedreschi and F. Turini. Experiences with a logic-based knowledge discovery support
environment. In Proc. 1999 ACM SIGMOD Workshop on Research Issues in Data Mining and
Knowledge Discovery (SIGMOD'99 DMKD). Philadelphia, May 1999. Slides are also available.
F. Giannotti, M. Nanni, G. Manco, D. Pedreschi and F. Turini. Integration of Deduction and Induction for Mining
Supermarket Sales Data. In Proc. PADD'99, Practical Application of Data Discovery, Int.
Conference, London, April 1999.
Pisa KDD Laboratory. Web Log Data Warehousing and Mining for Intelligent Web Caching. Data and Knowledge
Engineering, 2000. Submitted.
P. Alcamo, F. Domenichini, F. Turini. An XML based environment for in support of the overall KDD process. in
Proc. FQAS2000, Fourth International Conference on Flexible Query Answering Systems, Warszaw
Poland 2000
M. Farach, P. Ferragina, S. Muthukrishnan. On the sorting complexity of suffix tree construction, Journal of the
ACM, 2000 (to appear).
P. Ferragina, R. Grossi. Optimal search and sublinear time update in string matching, SIAM Journal on
Computing, vol. 27(3), 713--736, 1998.
P. Ferragina, R. Grossi. The String B-Tree: a new data structure for string search in external memory and its
applications, Journal of the ACM, vol. 46(2), 236--280, 1999.
P. Ferragina, F. Luccio. Dynamic dictionary matching in external memory, Information and Computation, vol.
146(2), 85--99, 1998.
P. Ferragina, G. Manzini. Opportunistic data structures with applications. IEEE Foundations of Computer Science
(FOCS), 2000.
86
Enhanced Content Delivery
Unità Operativa 2.3
Istituto per la Sistemistica e l'Informatica, ISI-CNR
Responsabile
Dott. Domenico Talia
Presentazione Unità Operativa
L'ISI-CNR è un Istituto del CNR con sede a Rende (CS) che opera dal 1987 svolgendo
attività di ricerca nei settori dell'infomatica e della sistemistica. Obiettivo dell'ISI è quello di
svolgere una qualificata attività di ricerca, contribuendo al miglioramento delle conoscenze
scientifiche e di innovazione nel campo della sistemistica e dell'informatica anche attraverso
lo sviluppo di collaborazioni scientifiche e sinergie con le Università, il mondo produttivo delle
piccole e medie imprese e la Pubblica Amministrazione. Le attività di ricerca svolte
dall’Istituto nei settori di sistemi evoluti per basi di dati e conoscenza, del data mining, dei
modelli per la gestione di sistemi complessi, delle reti e i sistemi di elaborazione distribuita, e
modelli e strumenti per l'elaborazione parallela, occupano un ruolo importante nell'ambito
dello sviluppo delle nuove tecnologie a servizio dell'innovazione. In questo senso l'ISI
contribuisce, in sinergia con i soggetti citati in precedenza, all'innovazione delle conoscenze
scientifiche e degli strumenti di produzione.
Due aree di ricerca in cui i ricercatori dell'ISI sono particolarmente attivi sono quella del data
mining e della scoperta di conoscenza e quella del calcolo parallelo ad alte prestazioni. Sulla
base delle competenze derivanti da queste due aree di ricerca, negli ultimi anni sono
scaturite le ricerche svolte nel settore del data mining parallelo. In questa area, L'ISI ha
progettato e realizzato, algoritmi, tecniche e strumenti per il data mining e la scoperta di
conoscenza su macchine parallele e distribuite. Inoltre l'ISI-CNR è convolto in progetti di
collaborazione con altri centri di ricerca, Università e imprese per la realizzazione di
applicazioni di data mining. In particolare, attualmente, i ricercatori dell'ISI collaborano nel
progetto TELCAL (Piano Telematico Calabria) e il progetto SERVIR, ambedue svolti su
finanziamenti del MURST. Di seguito sono elencate alcune recenti pubblicazioni che
descrivono i lavori di ricerca svolti in quest’area.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto ISI-CNR si colloca sui temi di algoritmi
efficienti di data e web mining e knowledge discovery e tecniche di parallelizazione di
algoritmi di data mining per ambienti di calcolo parallelo e distribuito.
Composizione dell’Unità Operativa e costi del personale
Cognome
Talia
Pizzuti
Folino
Nome
Data di Luogo di
nascita nascita
Qualifica
Domenico 02/01/60 S.Agata
Ricercatore
del B.
Clara
31/08/57 S.Pietro in Ricercatore
G.
Gianluigi
Catanzaro Borsista
87
Senior/ Afferenza
Junior
Mesi/
Costo
Uomo Personale
(MLire)
8
60
S
ISI-CNR
S
ISI-CNR
8
60
J
ISI-CNR
24
90
Fondo Speciale Innovazione
Curriculum dei principali ricercatori
Domenico Talia
Laureato in Fisica presso l'Università della Calabria. È ricercatore presso l'ISI-CNR (Istituto
di Sistemistica ed Informatica) di Rende (CS) e professore a contratto presso la Facoltà di
Ingegneria dell’Università della Calabria. La sua attuale attività scientifica si svolge nei settori
dell'elaborazione parallela, degli automi cellulari, dei linguaggi per la programmazione
concorrente, del data mining parallelo, dei sistemi di calcolo distribuito e dei sistemi
complessi. Su questi temi ha presentato numerosi tutorial e relazioni invitate in conferenze
internazionali. Partecipa a numerosi progetti di ricerca nazionali ed europei. In particolare, in
negli ultimi anni ha lavorato nei progetti CABOTO a COLOMBO svolti nell’ambito del
programma europeo ESPRIT e nel progetto nazionale del CNR “Sistemi Informatici e Calcolo
Parallelo”. È stato ISI contact person in HPCnet, la rete di eccellenza europea nel settore
dell’high-performance computing. Ha pubblicato circa cento lavori scientifici e tre libri. È
membro dell'Editorial Board di alcune riviste scientifiche intenazionali.
Clara Pizzuti
Clara Pizzuti si è laureata in Matematica presso l'Università degli Studi della Calabria. Fino a
novembre 1994 ha lavorato presso il CRAI (Consorzio per la ricerca e le Applicazioni di
Informatica) nell'area ricerca partecipando a progetti internazionali su basi di dati deduttive.
Dal 1994 è ricercatrice presso l'Istituto per la Sistemistica e l'Informatica di Rende e
collabora con l'Università della Calabria come professore a contratto. I suoi principali
interessi di ricerca riguardano Algoritmi Genetici, Programmazione Genetica, Scoperta di
conoscenza nelle basi di dati e Data Mining.
Pubblicazioni recenti
D. Foti, D. Lipari, C. Pizzuti, D. Talia, "Scalable Parallel Clustering for Data Mining on Multicomputers", Proc. of
the 3rd Int. Workshop on High Performance Data Mining HPDM00-IPDPS, LNCS, Springer-Verlag,
Cancun, Mexico, May 2000.
C. Pizzuti, D. Talia, G. Vonella, "A Divisive Initialization Method for Clustering Algorithms", Proc. PKDD'99 - Third
Europ. Conf. on Principles and Practice of Data Mining and Knowledge Discovery, Lecture Notes in
Artificial Intelligence, vol.1704, Springer-Verlag, pp. 484-491, Prague, Sept. 1999.
D. Talia, "Esplicitazione del Parallelismo nelle Tecniche di Data Mining", Settimo Convegno Nazionale su Sistemi
Evoluti per Basi di Dati - SEBD'99, pp. 387-401, Como, 23-25 Giugno 1999.
88
Enhanced Content Delivery
Unità Operativa 2.4
Fst s.r.l. - Fabbrica Servizi Telematici
Responsabile
Dott. Orlando Murru
Presentazione Unità Operativa
Descrizione dell’ente: FST è la fabbrica di servizi telematici nata a Cagliari nel 1997 in seno
al Gruppo BNL e alla Saras (Gruppo Moratti) come società per l’erogazione di servizi evoluti,
che investe in ricerca e mantiene relazioni stabili con il mondo scientifico e universitario
nazionale e internazionale. Le sue attività spaziano dalla progettazione e realizzazione di
applicazioni telematiche all’erogazione di servizi in rete per conto di terzi, dalle consulenze
tecnologiche nel settore ICT (Information and Communication Technology), alle attività di
ricerca industriale sulle tecnologie e i sistemi di costruzione e gestione di servizi in rete.
Fst ha maturato rilevanti esperienze nella progettazione, realizzazione e gestione di servizi
integrati telematico-finanziari, operando in ambiti diversi quali la progettazione ed erogazione
delle applicazioni in rete, lo sviluppo di servizi avanzati di sicurezza, la monetica, la firma
elettronica e la certificazione per le applicazioni di commercio elettronico e per i servizi
erogati dalla pubblica amministrazione, lo sviluppo di modelli organizzativi e di soluzioni
tecnologiche per l'erogazione di servizi telematici su larga scala, lo studio di sistemi per
l'accesso unificato all'informazione mediante soluzioni sofisticate di system integration.
Ricerca, Free Internet, servizi fidelity, e-commerce e, più in generale, outsourcing di servizi
telematici, sono gli attuali campi di occupazione di Fst, che trova nell’incontro tra le
applicazioni tradizionali e quelle innovative il modo di ottimizzare al massimo le moderne
tecnologie e di esplorare nuove aree di business.
L’innovazione nasce nel centro Ricerca, il cui scopo è analizzare tecnologie esistenti,
ottimizzandole e integrandole in settori eterogenei, relativamente a due filoni applicativi
principali: analisi, verifica e certificazione delle tecnologie per l’ottimizzazione della rete da
una parte, e metodologie per l’ottimizzazione dei sistemi di rilascio, erogazione e gestione di
servizi telematici dall'altra. Gli ambiti su cui si stanno sviluppando i progetti di ricerca sono
basilari per lo sviluppo di servizi telematici innovativi, quali sicurezza nei sistemi informativi,
tecnologie di data mining, motori di ricerca di nuova generazione, firma e certificazione
digitale, sistemi wireless, studi sulle metodologie per la realizzazione di una moderna
fabbrica del software.
Competenze relative al progetto: L'area di ricerca in cui Fst risulta particolarmente
coinvolta è qella dello sviluppo di motori di ricerca di nuova generazione e di metodologie e
tecniche di data mining, in quanto maggiormente strategiche per i servizi di data provider e
free internet che costituiscono il business delle unità produttive dell'azienda. In particolare
risultano attinenti le competenze acquisite nel progetto BRAIN (Browsing/Retrieval Advanced
Interface), sistema di ricerca che facilita il reperimento di informazioni in rete permettendo
all'utente di porre la domanda utilizzando il linguaggio naturale, e MineFaST, che realizza
meccanismi di sostituzione della cache di un proxy server con metodologie intelligenti di data
mining: in entrambi i casi, le informazioni in ingresso sono di natura non omogenea
provenienti dal Web, siano essi documenti o file di log. Un altro importante apporto
costituisce l'esperienza acquisita con il progetto Idalog, che ha utilizzato le metodologie di
Data Mining per lo studio di un sistema automatico per la diagnosi e la gestione del rischio
nelle reti telematiche.
89
Fondo Speciale Innovazione
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Il contributo dell'UO nell'ambito del progetto proposto si colloca all’interno dei WP2.1 e si
occuperà di tutte le problematiche relative al potenziamento degli attuali strumenti di Search
Engine con strumenti di mining.
Lo scopo di FST Ricerca, è quello di analizzare tecnologie esistenti, ottimizzandole e
integrandole in settori eterogenei, relativamente all’analisi, verifica e certificazione delle
tecnologie per l’ottimizzazione della rete, pertanto il suo ruolo all’interno del progetto sarà
quello di sperimentare la tecnologia prodotta su case study e data set di interesse
dell’azienda allo scopo di valutare il miglioramento sia in termini qualitativi che quantitativi.
Composizione dell’Unità Operativa e costi del personale
Cognome
Murru
Fenu
Sannais
Nome
Data di Luogo di Qualifica Senior/ Afferenza Mesi/
Costo
nascita nascita
Junior
Persona Personale
(MLire)
Orlando 06/12/61 Cagliari Dir.Ric.
S
FST
2
15
FST
Rossella 01/04/68 Cagliari Ricercatore
S
FST
8
60
Rosalia 07/08/70 Cagliari Ricercatore
S
FST
8
60
Curriculum dei principali ricercatori
Orlando Murru
Laureato nel 1986 in Matematica presso l'Università di Cagliari con una tesi di applicazioni
combinatorie, ha conseguito il Dottorato di Ricerca nel 1991 presso l'MIT di Boston,
Massachussetts, con una tesi sull'algebra di Baxter e funzioni simmetriche. Dal 1991 ha
collaborato con i Dipartimenti di Matematica e Ingegneria dell'Università di Cagliari, tenendo
anche diversi corsi di Algebra e Geometria; dal febbraio 1994 all'aprile 1998 ha lavorato
presso la Techso S.P.A. di Cagliari nel settore della DVD (Digital Video Broadcasting) per lo
sviiluppo di software per microprocessore. Dall'aprile 1998 lavora in Fst nel settore dello
sviluppo dell'infrastruttura a chiave pubblica Murticertify; dal giugno 2000 è il direttore
dell'area Ricerca, con il ruolo di coordinatore dei vari progetti relativi alla sicurezza nei
sistemi informativi (verifica degli accessi, autenticazione utenti, ricerca vulnerabilità delle reti,
ecc.), tecnologie di data mining per il recupero di informazioni di difficile estrazione da grandi
quantità di dati, motori di ricerca di nuova generazione, firma e certificazione digitale, sistemi
wireless, studi sulle metodologie per la realizzazione di una moderna fabbrica del software.
Rossella Fenu
Laureata nel 1995 in Ingegneria Elettrotecnica presso l'Università di Cagliari con una tesi di
controlli automatici, ha lavorato in vari ambiti di ricerca, fra cui in particolare lo studio delle
tecniche di riconoscimento di segnali nelle telecomunicazioni presso l'Università di Cagliari, i
sistemi di controllo nei sistemi produttivi a Grenoble, Francia, presso l'INPG (Institut National
Politechnique de Grenoble), e la simulazione di sistemi di controllo presso il Centro di
Ricerche Termiche ENEL di Pisa. Dal 1998 è ricercatrice presso la Fst (Fabbrica Servizi
Telematici) di Cagliari. La sua attuale attività scientifica si svolge nei settori del data mining e
web mining. Su questi temi ha partecipato a diversi progetti di ricerca, workshop e
conferenze internazionali. In particolare, ha lavorato ad analisi di dati nei domini della grande
distribuzione e bancario, alla diagnosi di reti telematiche con tecniche di data mining e allo
sviluppo di strategie intelligenti di proxy caching con l'impiego di tecniche di web mining.
90
Enhanced Content Delivery
Lia Sannais
Laureata nel 1996 in Ingegneria Elettrica presso l'Università di Cagliari con una tesi di
elettronica applicata relativa a sistemi di acquisizione dati; ha collaborato col gruppo di
Impianti Elettrici dell'Università di Cagliari allo sviluppo di programmi di ottimizzazione delle
reti di media tensione e alla progettazione di dispositivi elettronici di protezione dai disturbi
della tensione di alimentazione. In questo ambito ha conseguito il titolo di Dottore di Ricerca
in Ingegneria Elettrotecnica presso l'Università di Pisa nel marzo 2000. Dal 1998 è
ricercatrice presso Fst (Fabbrica Servizi Telematici) di Cagliari. La sua attuale attività
scientifica si svolge nei settori del data mining e web mining. Su questi temi ha partecipato a
diversi progetti di ricerca, workshop e conferenze internazionali. In particolare, l'attività di
mining si è concentrata nei domini della grande distribuzione e delle telecomunicazioni,
sviluppando sistemi di intrusion detection e strategie intelligenti di proxy caching.
91
Fondo Speciale Innovazione
Unità Operativa 2.5
Ideare SpA
Responsabile
Dr. Antonio Gullì
Presentazione Unità Operativa
Descrizione dell’ente: Ideare è stata fondata nel 1999, come spin-off del progetto europeo
Telematics ”EUROSEARCH LE4-8303”. Nel progetto i ricercatori di Ideare hanno sviluppato
tecniche di classificazione automatica e di sommarizzazione di pagine Web, che
costituiscono il nucleo della suite commerciale SearchTone. Arianna (the largest Search
Engine with Italian content) is uses SearchTone for automatically building its Web Directory,
which contains about 25.000 classified sites and more than 80.000 categorized pages.
SearchTone is also used for suggesting relevant categories related to queries submitted to
the traditional search engine.
Ideare fornisce sia software e assistenza per l’avviamento di servizi Web, sia opera come
Application Service Provider, in particolare per servidi di ricerca. Ideare si occupa di
raccogliere e indicizzazione materiale Web da tutto il continente europeo, e fornisce ai propri
clienti servizi di ricerca: i clienti di Ideare possono aggiungere funzionalità di ricerca ai propri
siti trasmettendo le interrogazioni via rete alla server farm di Ideare e ricevendo le risposte in
formato XML, che poi visualizzano ai propri utenti nel formato preferito all’interno delle
pagine del loro sito.
Competenze relative al progetto:
Ideare ha notevoli competenze nel settore dei motori di ricerca, essendo tra i principali
fornitori in Italia e in Europa di tecnologie di ricerca per il Web. Tra i clienti di Ideare si
contano i principali portali nazionali, tra cui Italia OnLine, Tiscali, Dada, Interfree, Monrif,
CiaoWev, Jumpy, Infocamere, RCS - Corriere della Sera. Tra i clienti europei si annovera
Fireball, il maggiore motore di ricerca in Germania e le consociate Fiscali in tutti i paesei
europei.
Ideare ha inoltre sviluppato tecniche per l’individuazione di siti e la raccolta di documenti
Web, utilizzando reti di workstation e tecniche di load balancing. Ideare ha realizzato inoltre
servizi specializzati di ricerca di materiale multimediale (audio MP3, immagini e video) e di
documenti WAP. Inoltre Ideare ha creato un servizio di accesso alle Usenet news integrato
con i servizi di classificazione e ricerca.
Una delle recenti aggiunte alla linea di prodotti di Ideare è uno strumento per il
commercio elettronico: il servizio di confronto prezzi analizza in tempo reale i prezzi di
prodotti in diverse categorie e li presenta in un formato omogeneo, con la stessa valuta.
Partecipazione dell’Unità Operativa ai Workpackage del Progetto
Ideare seguirà tutte le attività della azione 2. In particolare metterà a disposizione del
progetto i dati contenuti nei propri database, che corrispondono ad oltre un milione di siti in
tutta Europa. Questi database sono la fonte adatta di informazioni cui applicare le tecniche di
Web mining del WP 2.1.
Le tecniche del WP 2.2 rivestono vitale importanza per le attività di Ideare, in quanto
l’espansione dei propri servizi si deve commisurare con la continua crescita del Web e del
materiale da raccogliere e indicizzare. Ideare intende partecipare allo sviluppo di algoritmi di
estrazione di porzioni di testo da indici compressi, al fine di migliorare la visualizzazione dei
risultati delle interrogazioni.
92
Enhanced Content Delivery
Ideare intende sperimentare le tecniche di HPC del WP 2.3 per distribuire le operazioni di
ricerca sugli indici e di estrazione dei risultati da visualizzare ed è disponibile a mettere a
disposizione le proprie server farm per la sperimentazione.
Infine, la sperimentazione di tecniche di ricerca partecipativa del WP 2.4 apre
interessanti prospettive a cui Ideare intende dare il proprio contributo di esperienze e
competenze.
Composizione dell’Unità Operativa e costi del personale
Cognome
Nome
Data di
nascita
Luogo di
nascita
Qualifica
Gullì
Antonio
16/01/71 Taurianova dirigente
(coordinatore)
(RC)
Dato
Domenico 23/08/70 Taurianova dirigente
(RC)
Messineo
Francesco
Cosenza
progettista
Personale
Strumentazione
98,57142857
30
Senior/
Junior
Afferenza
S
Mesi/
Costo
Persona Personale
(MLire)
Ideare SpA
3
25
S
Ideare SpA
Ideare SpA
Totale
Attrezzature
Missioni
Materiali
10,71428571
J
0
37,5
3
24
30
Totale
25
85
135
% MURST
214,2857143
Curriculum dei principali ricercatori
Antonio Gullì
Antonio Gullì è attualmente amministratore delegato di Ideare SpA. Egli ha ottenuto la laurea
in Science dell’Informazione presso l’Università di Pisa nel 1997. Durante il 1996 ha
collaborato con la “Scuola Normale Superiore” sviluppando un Web Server daemon che
consente connessioni persistenti ad un RDBMS. Nel 1996 ha fatto parte del team di sviluppo
di “Arianna” ed ha contribuito alla realizzazione del primo più grande motore di ricerca per lo
spazio Web italiano. Egli ha sviluppato tecniche di gestione di robot per lo spidering
distribuito.
Nel 1997 ha partecipato all’iniziativa “Java Campus”, di Sun Italia, contributendo diverse
applicazioni per connettere database, network monitoring e Web load balancing. Nel 1997 ha
partecipato al progetto “Evolving Categorization for Web Search Engines”, finanzziato da HP,
sviluppando tecniche di classificazione automatica di testi. Nel 1998 ha lavorato al progetto
“Networked Community” ed al progetto europeo ”EUROSEARCH LE4-8303”, sviluppando le
tecniche di categorizzazione, che in seguito hanno costitutito il nucleo della suite
SearchTone commercializzata da Ideare.
Nel 1999 ha fondato Ideare SpA, una ditta che si è specializzata in motori di ricerca, si di
testi che di audio/video, classificazione automatica di documenti ed in generale servizi per
portali Web. Nel 2000 Ideare è entrata a far parte del gruppo Tiscali ed ha espanso la sua
attività in tutta Europa.
Gullì è autore di diverse pubblicazioni scientifiche riguardanti le tecnologie dei motori di
ricerca.
Pubblicazioni recenti
D. Dato, A. Gullì, G. Attardi, Web Host Enumeration Through DNS, Web Net '97, Toronto, 1997.
93
150
Fondo Speciale Innovazione
G. Attardi, A. Gullì, F. Sebastiani, Theseus: Categorization by context, 8th Word Wide Web Conference, Toronto,
Canada, 1999.
G. Attardi, A. Gullì, F. Sebastiani, Automatic Web Page Categorization by Link and Context Analysis, European
Symposium on Telematics, Hypermedia and Artificial Intelligence, Varese, 1999.
94
Enhanced Content Delivery
5. Tempi e modalità di esecuzione
La durata complessiva del progetto è di 30 mesi.
I 6 mesi finali saranno prevalentemente impiegati

per la disseminazione dei risultati del progetto mediante azioni di promozione presso i
principali portatori di interesse (aziende, comunità di utenti, università ed enti di
ricerca).

per la valutazione di eventuali follow-up del progetto con particolare riferimento alla
possibile industrializzazione dei risultati.
Il progetto è strutturato in due azioni:

azione 1: XML and Digital Libraries
 azione 2: Mine the Web: Web search and delivery
Milestones:

Mese 0: Meeting di start-up (comune alle due azioni)

Mese 12: Primo workshop con edizione degli atti (comune alle due azioni)

Mese 24: Secondo workshop con edizione degli atti (comune alle due azioni)

Mese 25-30: Azioni di disseminazione
95
Fondo Speciale Innovazione
Project Management
Per un’efficace coordinamento delle attività del progetto e per assicurare il suo regolare
svolgimento in linea con il piano di lavoro, verrà utilizzata una struttura di gestione del
progetto composta da:
1. Direttore del progetto
2. Comitato direttivo
3. Commissione di coordinamento
Il Direttore del progetto è nominato dal Consiglio Direttivo del CNR ed è responsabile della
gestione del progetto, tiene i rapporti con il MURST, segue lo svolgimento del progetto,
presiede le riunioni del Comitato direttivo e convoca le riunioni del progetto. Egli è
responsabile della consegna nei tempi e modi previsti dei risultati del progetto, e si incarica
delle attività di disseminazione e contatti con l’esterno.
Il Comitato direttivo è composto dal Direttore del progetto, da un rappresentante del CNR e
da un rappresentante del mondo economico. Il compito del Comitato direttivo è di assistere il
Direttore nei seguenti compiti:
1. verificare il progresso del progetto secondo il piano di lavoro
2. raccomandare opportuni interventi per eliminare eventuali ritardi
3. verificare i costi e la congruità delle spese
4. richiedere di rivedere o modificare:
a.
b.
c.
d.
il piano di lavoro
i costi o le tempistiche di singoli task
la distribuzione del finanziamento tra i partner
la data di terminazione del progetto
La Commissione di coordinamento è composta dal Direttore del progetto più un
rappresentante per ciascun Work Package. La Commissione di coordinamento ha il compito
di:
1. assicurare che ciascun Work Package proceda regolarmente
2. assicurare che ciascun Work Package si coordini e produca i risultati necessari ad altri
Work Package
3. informare tempestivamente il Comitato Direttivo di problemi che insorgano nel
regolare svolgimento del lavoro.
Piano di lavoro esecutivo
Entro 15 giorni dalla data ufficiale di inizio del progetto, si dovrà tenere una riunione della
Commissione di Coordinamento, nella quale verranno presentati ed approvati i piani di
lavoro dettagliati per ciascun Work Package, suddivisi per task, con indicazione della
tempistica, delle risorse necessarie e delle spese previste.
Di ciascun deliverable dovrà essere indicato il costo complessivo di realizzazione,
giustificandone la realizzazione nell’ambito del progetto sulla base di un confronto con i costi
di acquisizione o di appalto a fornitori esterni.
Analoga verifica di congruità verrà effettuata almeno semestralmente.
96
Enhanced Content Delivery
Misure di controllo qualità
Il progetto stabilirà degli standard di codifica e di testing per il software sviluppato nel
progetto. In particolare ciascun software package dovrà contenere procedure ben
documentate di installazione e di testing. Ciascun deliverable dovrà aderire a questi standard
e superare i test previsti, prima di poter essere consegnato ed accettato.
Una fase di beta test dei risultati compessivi del progetto verrà svolta durante gli ultimi 6
mesi del progetto per verificare che soddisfi i requisti di utenti effettivi dei sistemi.
97
Fondo Speciale Innovazione
Risorse umane
Le tabelle seguenti riassumono l’impegno in risorse umane, espresse in mesi/persona, delle
unità operative (UO) nei workpackages (WP) delle due azioni del progetto.
Tabella 2. Risorse umane – Azione 1
WP/UO
Archit. Bibl. Dig.
Ling. Interrog. XML
Ontologie XML
Annotazioni
Estraz. Strutt. XML
Totale
ISTI
105
3
2
8
2
120
Poli.Mi
U.Roma
U.Mod.
4
108
5
2
4
2
2
50
2
119
36
42
3
57
U.Pad.
Totale
4
43
47
117
113
61
51
43
385
Tabella 3. Risorse umane – Azione 2
WP/UO
WebMining
Indicizzazione e
compressione
Managing Terabytes
Participatory Search
Services
Totale
ISTI
Dip.Inf.
65
ISI
60
25
55
Ideare
5
5
20
5
5
40
20
40
120
125
98
FST
20
Totale
18
168
30
80
45
18
323
Enhanced Content Delivery
6. Costo del progetto
Tabella 4. Costi Azione 1
U.O.
Personale Strument. Materiali Attrezz. Missioni Totale MURST
CNR-ISTI-1
585
0
0
0
60
645
451,5
Poli-Milano
532
0
10
0
76
619
432,9
Univ.Roma3
199
25
15
6
40
285
200
Univ.Modena
195
30
20
10
60
315
220
Univ.Padova
195
30
10
5
30
290
203
Totale
1706
85
55
21
266
2154
1507,4
Tabella 5. Costi Azione 2
U.O.
ISTI-CNR
Dip. Inf Pisa
ISI-CNR
Ideare
FST
Totale
Personale Strument. Materiali Attrezz. Missioni Totale % MURST
682
200
24
0
37,5
943
660
685
30
19
0
37,5
771,5
540,05
210
30
8
0
38,0
286
200,2
135
0
5
0
0,0
140
98
135
0
5
0
0,0
140
98
1847
260
61
0
113 2280,5 1596,25
99
Fondo Speciale Innovazione
7. Risorse del progetto
DEI-IMS, Padova
Il gruppo di ricerca di Sistemi di gestione delle informazioni (IMS) del Dipartimento di
Elettronica e Informatica dell'Università di Padova dispone di un proprio laboratorio di ricerca
dotato di alcune stazioni di lavoro Sun, con sistema operativo Solaris, X-terminal, e PC con
sistema operativo Windows/NT; tutti i calcolatori sono connessi alla rete di dipartimento e in
Internet. Il laboratorio dispone di apparecchiature di supporto al calcolo e alla gestione dei
dati e delle informazioni di tipo bibliotecario.Dipartimento di Informatica, Pisa
Il Dipartimento di Informatica dispone di diversi laboratori di ricerca attrezzati con
apparecchiature e servizi di rete.
In particolare il Laboratorio Multimediale dispone di 6 server di alte prestazioni, di 14
postazioni di PC, di 8 notebook, 8 hand held PC, in gran parte forniti da Hewlett-Packard
come grant nel quadro dell’inziativa Internet, di cui il Dipartimento è risultato vincitore a livello
Europeo, e da Sun Microsystems nell’ambito dell’inziativa Java Campus.
Altre attrezzature sono disponibili per ciascun docente, ricercatore e dottorando. Infine a
livello dipartimentale è disponibile una rete di server e un collegamento in una rete a fibra
ottica privata dell’Università a livello cittadino e con la rete nazionale della ricerca GARR.
ISTI-CNR
Il CNUCE-ISTI e il Dipartimento di Informatica hanno dato vita congiuntamente al Pisa KDD
Laboratory (http://www-kdd.cnuce.cnr.it) che dispone nelle due istituzioni di 2 server ad alte
prestazioni, 8 postazioni di PC, ed un ricco parco di piattaforme software per database, data
warehousing e data mining (IBM Intelligent Miner, ANGOSS Knowledge Studio, SFU
DBMiner, Clementine, SAS Miner); la strumentazione hw e sw è in gran parte fornita
nell’ambito di progetti di collaborazione con Microsoft Research, ANGOSS, DBMiner e IBM.
L’istituto ISTI del CNR gestisce un laboratorio di ricerca, sviluppo e gestione dei servizi
connessi alle tematiche delle biblioteche digitali. In particolare tale laboratorio supporta la
biblioteca digitale di informatica e matematica del consorzio ERCIM (the European Research
Consortium for Informatics and Mathematics). Tale biblioteca digitale (denominata ETRDL –
Ercim Technical Reference Digital Library) consente la condivisione dei risultati di ricerca fra
i ricercatori operanti nelle istituzioni appartenenti al consorzio, ed è una specializzazione di
NCSTRL (Networked Computer Science Technical Reference Library) che raccoglie più di
130 enti di ricerca ed università in tutto il mondo.
Ideare SpA
La società Ideare SpA svolge servizi di indicizzazione e ricerca a livello sia nazionale che
internazionale e dispone di gruppi di server per lo spidering del Web in diverse nazioni
(Francia, Svizzera, Germania, Belgio, Italia), oltre a cluster di server multiprocessore in
ciascuna nazione per lo svolgimento delle interrogazioni ai vari servizi. In ciascuna nazione
sono inoltre disponibili dei disk server della Network Appliance da diverse centinaia di Giga
Byte, dove vengono conservati gli indici e i documenti raccolti dal Web.
100
Enhanced Content Delivery
8. Collegamento con altri programmi di ricerca
I partecipanti al progetto sono coinvolti nei seguenti progetti di ricerca:
 MURST ex. 40% INTERDATA (Univ. Modena e Politecnico di Milano)
 MURST ex. 40% DATAX (Politecnico di Milano)
 Corporation Integrated Multimedia Intelligent Assistant for Field Operators, Esprit Project
20840 (Univ. Modena)
 W3I3: Intelligent information interfaces for the World-Wide Web, Esprit Project 28771
(Politecnico di Milano)
 IDEA: Intelligent Datatabase Environments for Advanced Applications, Esprit Project
P6333 (Politecnico di Milano)
 “European CHronicles On-line - ECHO”
Partners: CNR, Istituto Trentino di Cultura, Institut National del’Audiovisuel – INA (Fr),
Centre National de la Recherche Scientifique – CNRS-LIMSI (Fr), Tecmath GmbH
(D), University of Mannheim, Media Site Ltd (UK), Stichting Nederlands
Audiovisueel Archief – NAA (NL), Universiteit Twente, Istituto Luce, Carnegie
Mellon University (US), Memoriav (CH), Eurospider Information Technology (CH).
Durata del progetto: 30 mesi.
Data di inizio: Marzo 2000.
Il progetto è finanziato dal programma Europeo IST.
Il progetto è coordinato dal CNR-ISTI.



“A Digital Library Testbed to Support Networked Scholarly Communities – SCHOLNET”
Partners: CNR, European Research Consortium for Informatics and Mathematics –
ERCIM, Masaryk University (Cz), Foundation for Research and Technology –
FORTH-ICS (Gr), GMD-IPSI (D), INRIA (Fr), Swedish Institute of Computer
Science – SICS (S)
Durata del progetto: 30 mesi.
Data di inizio: Novembre 2000.
Il progetto è finanziato dal programma Europeo IST.
Il progetto è coordinato dal CNR-ISTI.
“An Open Collaborative Virtual Archive Environment – CYCLADES”
Partners: CNR, European Research Consortium for Informatics and Mathematics –
ERCIM), Foundation for Research and Technology – FORTH-ICS (Gr), GMD-FIT
(D), University of Dortmund.
Durata del progetto: 30 mesi.
Data di inizio: Febbraio 2001.
Il progetto è finanziato dal programma Europeo IST.
Il progetto è coordinato dal CNR-ISTI.
“Network of Excellence on Digital Libraries – DELOS”
Partners: Fanno parte di questa rete di eccellenza 35 enti Europei (Università, Enti di
Ricerca, Biblioteche, Archivi, Industrie dell’Editoria Elettronica, Industrie del
Broadcasting, Industrie del Software)
Durata del progetto: 36 mesi.
Data di inizio: Gennaio 2000.
Il progetto è finanziato dal programma Europeo IST.
Il progetto è coordinato dal CNR-ISTI.
101
Fondo Speciale Innovazione
9. Ulteriori risorse pubbliche utilizzabili
La quota di autofinanziamento è coperta oltre che dagli enti dei consorzi proponenti dai
seguenti progetti finanziati:
Ente
MURST
MURST
Regione
Calabria
Microsoft
Research
Microsoft
Research
FST
Ideare
Programma
Interesse
nazionale
1998
Interesse
nazionale
1999
Progetto
Agenti Intelligenti:
Information
Acquisition
Algorithms for Large
Data Sets: Science
and Engineering
TelCal
Web Computing and
Adaptive Agents
KDD Lab.
MineFaST
Ricerca e
classificazione di
documenti Web
Partecipante
Dipartimento di Informatica, Pisa
CNUCE
Dipartimento di Informatica, Pisa
CNUCE-CNR
ISI-CNR
Dipartimento di Informatica, Pisa
Dipartimento di Informatica, Pisa
Dipartimento di Informatica, Pisa
CNUCE
FST
Dipartimento di Informatica, Pisa
Il progetto potrà sviluppare utili sinergie con i progetti Europei elencati in precedenza (ECHO,
SCHOLNET, CYCLADES, DELOS). In particolare, esso potrà utilizzare piattaforme e
strumenti software sviluppati nell’ambito di questi progetti. Inoltre, lo stabilire di rapporti di
collaborazione con questi progetti permetterà ai ricercatori Italiani di scambiare esperienze di
lavoro, approcci, tecniche e metodologie con i loro colleghi Europei.
La presenza del CNR in tutti questi progetti nella parte di coordinatore garantisce che
verranno stabiliti rapporti di effettiva collaborazione.
10. Ricadute tecnico-scientifiche e socio-economiche
Gli indirizzi strategici dei governi nazionali e degli organismi sovranazionali, quali l’Unione
Europea, fanno costante riferimento allo scenario della Società dell’Informazione,
caratterizzata da uno spazio globale delle comunicazioni e dell’economia, favorita dalle
tecnologie dell’informazione e della comunicazione e sostanzialmente legata all’avvento di
Internet.
Nella Società dell’Informazione il diritto di cittadinanza per le persone e le organizzazioni è
sostanzialmente legato alla possibilità dell’accesso alle informazioni, ovvero alla disponibilità
di strumenti che consentano di reperire con affidabilità e rapidità le fonti e i servizi di
informazione pertinenti alle esigenze e alle attività culturali ed economiche dei cittadini e
delle organizzazioni. La rilevanza socio-economica di una nuova generazione di strumenti
intelligenti per l’accesso al Web appare quindi di vasta portata, specie a fronte del
sovraccarico di informazione (information overload) che caratterizza il Web, e che può
determinare in prospettiva l’esclusione sociale.
La competizione globale per conquistare un ruolo preminente nei servizi di accesso al Web è
tutt’altro che conclusa, e non è affatto stabilito che l’industria statunitense del software debba
102
Enhanced Content Delivery
avere anche in questo settore un controllo pressoché completo, come è avvenuto per il
settore delle basi di dati. La partita si giocherà sulla capacità di recepire le esigenze di
accesso e tradurle in termini di servizi intelligenti, e la tradizione della ricerca informatica
europea in generale e italiana in particolare è ottimamente attrezzata allo scopo, stante la
sua natura interdisciplinare fra le basi di dati, l’intelligenza artificiale e le metodologie
innovative di programmazione. Dal punto di vista industriale, alcune imprese italiane di
piccole o medie dimensioni, fra cui quelle impegnate nel progetto, appaiono in grado di
ingegnerizzare le proposte e i prototipi del progetto proposto: gli strumenti intelligenti di
accesso sono sistemi knowledge-intensive, che richiedono risorse umane e materiale
cospicue per il loro progetto ma non necessariamente per la loro realizzazione.
Il progetto svilupperà un’architettura per una biblioteca digitale aperta, basata su concetti
innovativi, capace di garantire l’interoperabilità fra archivi e collezioni digitali, dove XML
costituirà un paradigma di importaza via via crescente. L’interoperabilità fra biblioteche
digitali è un fattore chiave per proporre le biblioteche digitali come un nuovo modello di
comunicazione scientifico-culturale e imporle come una credibile alternativa alle biblioteche
tradizionali e alle basi di dati accessibili attraverso il Web. Il termine interoperabilità è vasto e
abbraccia molti aspetti degli archivi: modelli di metadati, architetture aperte, accesso ad
archivi in un contesto interdisciplinare, ecc.
Il progetto avrà un significativo impatto scientifico su tematiche quali modelli descrittivi di
risorse in rete, algoritmi per la ricerca di informazioni distribuite su archivi eterogenei in rete,
interoperabilità fra sistemi software, tecniche e strutture di indicizzazione.
L’interoperabilità fra archivi/biblioteche digitali è inoltre importante perchè offre sostanziali
benefici agli utenti supportando efficacemente le attività di “information discovery” e di
“delivery” da biblioteche digitali eterogenee e multidisciplinari.
Inoltre, l’interoperabiltà fra archivi/biblioteche digitali permetterà la creazione di servizi di
intermediazione cioè, servizi che integrano ed elaborano informazione proveniente da diversi
singoli archivi/biblioteche ed offrono ulteriori funzionalità di supporto agli utenti di biblioteche
digitali interoperanti.
La ricerca scientifico-tecnologica ha un enorme impatto sulla vita socio-economica di un
paese. L’innovazione tecnologica è alla base di tutto il progresso (economico, sociale,
culturale, ecc.). Essa rende più competitive le industrie, migliora il livello dei servizi,
contribuisce alla protezione dell’ambiente, ecc. Questo progetto svilupperà un’architettura di
biblioteca digitale che permetterà a ricercatori, scienziati, studiosi ecc. di avere un largo
accesso a grandi collezioni scientifiche e trovare più facilmente ed efficacemente le
informazioni cercate. Produrrà inoltre significativi cambiamenti nel modo con cui gli studiosi
comunicano i risultati delle loro ricerche.
In sostanza, il progetto si prefige di sviluppare una biblioteca digitale quale testbed per
migliorare la qualità del lavoro e la produttività dei suoi utenti.
103