User Group
Massimo Esposito
Divisione Documentale
Titulus 4 - La nuova
architettura
4 dicembre 2013
15 giugno 2010
Pag. 1
La scelta tecnologica
Requisiti di progetto
1. Sostituire il vecchio database e motore di
indicizzazione di Titulus 3.
2. Mantenere alte le performance.
3. Privilegiare tecnologie Open Source.
4. Non modificare l’attuale logica di business e di
presentation.
La scelta tecnologica
Integrazione con
content repository di
prodotti documentali
già esistenti
• Non ancora maturi per andare in
produzione.
Database relazionali
• Non Open Source
• Non performanti con dati XML
• Carenti di assistenza o
documentazione necessaria in fase di
sviluppo dell’integrazione.
• Elevata complessità nella
normalizzazione dei metadati.
•Troppo di alto livello per integrarsi a
livello di repository.
• Gestione dei file e ricerca del testo in essi
contenuto non performante.
La scelta tecnologica
Altri: Fedora Commons , Jack Rabbit
•
•
Java Content Repository orientato alla conservazione di tutti i
tipi di contenuti digitali e relativi metadati.
Il formato di memorizzazione di oggetti digitali è l’xml.
Implementazione delle Java Content Repository Specification,
open source, sviluppato da Apache Software Foundation.
• Troppo orientato a progetti di digital library, con
conseguente decadimento di perfomance per
operazioni massive o giornaliere.
• Scarsa documentazione di sviluppo, decadenza delle
performance nei test di carico.
La scelta tecnologica
La decisione finale per il database è stata:
Database NOSQL orientato ai documenti, schema-free, ad
alte prestazioni.
Le motivazioni di tale decisione sono sostanzialmente le
seguenti (rispetto ai prodotti valutati):

Maggiore affidabilità e semplicità architetturale.

Migliore documentazione, possibilità di supporto,
crescente utilizzo del prodotto.

Ottime Prestazioni.

Facilità d’uso.
La scelta tecnologica
La decisione finale per il motore di indicizzazione è stata:
Piattaforma di ricerca open source del progetto Apache Lucene.
La sua caratteristica principale è la ricerca full text.
Passaggio a Titulus 4
3
Titulus 4
Cosa cambia per l’utente?
Passaggio a Titulus 4
Cosa c’è dietro?
Passaggio a Titulus 4
FASE 1: Verifica configurazione hardware
Caratteristiche NoSQL:
• Scalabilità orizzontale.
• Gestione repliche e sharding
• Uso efficiente di indici e RAM
Occorre quindi:
• Scegliere il modello di architettura desiderato
• Installare e configurare il software
Passaggio a Titulus 4
FASE 2: Trasferimento sul nuovo database
 Il documento XML registrato attualmente in extraway viene
memorizzato in mongoDB in formato JSON, i file in GridFS.
 Documenti xml e file vengono indicizzati in Apache Solr.
 Non vengono effettuate modifiche strutturali al documento.
Occorre quindi:
Trasferire i dati da extraway a mongoDB
Indicizzare i dati su Apache Solr
Effettuare una conversione dei dati
Passaggio a Titulus 4
Il processo di conversione
Suddiviso in step successivi per ridurre al minimo il fermo del
servizio in produzione e controllare meglio i processi.
Passaggio a Titulus 4
Esperienze fatte
 6 attivazioni
 1 conversione
 4 Atenei in work in progress
Passaggio a Titulus 4
Novità
 Raggruppamento di tutte le AOO in un unico database
 Un’unica istanza per ogni file
 Possibilità di re-indicizzare solo porzioni di database
User Group
Arrivederci e grazie
4 dicembre 2013
15 giugno 2010
Pag. 14