Biblioteca Italiana
Predisposizione delle fonti per
l’utilizzo degli studiosi
Fabio Ciotti
Il progetto BibIt
Biblioteca Italiana (BibIt) è una biblioteca digitale
di testi rappresentativi della tradizione culturale
e letteraria italiana dal Medioevo al Novecento
promossa dal "Centro interuniversitario
Biblioteca italiana telematica" (CiBit)
progettata realizzata e gestita dal 2001 dalla sua
unità attiva presso il dipartimento di Italianistica
dell'Università di Roma "La Sapienza"
supportata dal progetto "Biblioteca Digitale
Italiana" del Ministero per i beni e le
attività Culturali
Il contesto: i repositories testuali nelle
istituzioni di ricerca e universitarie
OTA
Electronic text center
WWP
Cibit
TIL




Orientati da obiettivi di ricerca o di supporto alla
ricerca
Risorse in formati testuali (prevalentemente)
Organizzazione per corpora testuali scientificamente
coerenti
Rivolti a un pubblico specialistico
Il contesto: i progetti di
archiviazione digitale istituzionali
American memory
Gallica
Biblioteca Digitale Italiana



Orientati alla conservazione e alla
valorizzazione del patrimonio testuale
Risorse in formato immagine
(prevalentemente)
Rivolti a un pubblico generalista
Il contesto: il paradigma della
biblioteca digitale
A partire dagli anni ’90 emerge il
paradigma della biblioteca digitale
Sperimentazioni
Finanziamenti


USA: DLI I e II
UE: vari programmi quadro
Riflessioni


DLib magazine
Esplosione della letteratura sul tema
Linee guida e indirizzi fondamentali
recuperare il patrimonio di risorse digitali in formati testuali prodotte in
precedenti progetti di digitalizzazione di opere della tradizione letteraria
italiana
rendere accessibile tale patrimonio a sia a utenti specialisti e ricercatori sia
a utenti generici
inserire tale patrimonio in un progetto di Biblioteca Digitale adeguato al
livello di elaborazione teorica e alle esperienze di punta a livello
internazionale
adottare i più avanzati standard disponibili nella progettazione e
implementazione delle varie componenti funzionali del sistema
fornire testi scientificamente affidabili


dal punto di vista linguistico tenendo conto della possibilità di perfettibilità
indefinita che consentono i testi elettronici
dal punto di vista dei formati
fornire servizi ricerca che consentano di ottimizzare la capacità degli utenti
di individuare l’insieme di risorse informative che in un dato momento
risponde nel modo più adeguato ai propri bisogni informativi
garantire la preservazione a lungo termine degli oggetti informativi (risorse)
acquisite/prodotte e l’accesso a essi da parte della comunità di utenti di
riferimento
adottare soluzioni software open source e aperte
La progettazione del sistema BibIt
Il conseguimento di questi obiettivi ha richiesto
una attenta progettazione del sistema e dei
relativi servizi




Progettazione e definizione culturale in primo luogo
(che cosa come e perché digitalizzare, per quale
utenza o gruppi di utenze, con quali rapporti
costi/benefici di cui tenere conto)
Progettazione e modellizzazione concettuale
Architettura logica del sistema informativo e
definizione dei modelli e formati di dati
Progettazione tecnica e implementazione del sistema
informativo, scelta dei software e sviluppo delle
interfacce
Progettazione concettuale
Il modello concettuale che ha orientato lo sviluppo di Bibit è
(liberamente) ispirato al Reference Model for an Open Archival
Information System (OAIS)
CCSDS 650.0-B-1: Reference Model for an Open Archival
Information System (OAIS). Blue Book. Issue 1. January 2002.
adottata come standard ISO 14721:2003
The reference model would define the basic functional components
of a system dedicated to the long-term preservation of digital
information, detail the key internal and external system interfaces,
and characterize the information objects managed by the system.
These descriptions would be expressed in terms of a well-defined
set of concepts and terminology transcending, yet mappable to,
domain-specific vocabularies. The reference model would also
enumerate a set of minimum requirements an archival system is
expected to meet [B. Lavoie, The Open Archival information System Reference
Model: Introductory Guide, 2004]
Modello funzionale e modello informativo
Open Archival Information System
Open
–
Reference Model standard(s) are developed using a
public process and are freely available
Information
–
–
–
Any type of knowledge that can be exchanged
Independent of the forms (i.e., physical or digital)
used to represent the information
Data are the representation forms of information
Archival Information System
–
Hardware, software, and people who are responsible
for the acquisition, preservation and dissemination of
the information
OAIS: tipo di pacchetti informativi
Submission Information Package
–
–
Negotiated between Producer and OAIS
Sent to OAIS by a Producer
Archival Information Package
–
–
Information Package used for preservation
Includes complete set of Preservation Description
Information (PDI) for the Content Information
Dissemination Information Package
–
–
Includes part or all of one or more Archival
Information Packages
Sent to a Consumer by the OAIS
Architettura logica del sistema
informativo modelli e formati dei dati
L’architettura del sistema BibIt si articola in
Repository dei documenti primari

Archivia i documenti e fornisce i servizi di ricerca full-text e di presentazione degli
stessi in diversi formati derivati
Repository dei metadati

Archivia i metadati associati a ciascuna risorsa e fornisce i servizi di ricerca
strutturata e di presentazione degli stessi
Sistema di immissione dei metadati

Modulo back-office per la cerazione dei metadati che si interfaccia con con il
relativo repository
Modulo di interfaccia basato sul Web


Modulo di ricerca e presentazione dei metadati (ereditato dall’interfaccia degli
OPAC)
Modulo di ricerca full-text dei documenti
Quali strumenti per quali utenti?
Limiti dei servizi di ricerca linguistica specialistica di un servizio di BD

Modulo di presentazione dei documenti:
il problema del paratesto digitale e degli strumenti di mediazione del testo in ambiente digitale
ridefinizione dei ruoli della biblioteca
assunzione di una vera e propria responsabilità editoriale della Biblioteca Digitale
I metadati
Per la gestione dei metadati è stato adottato il modello di dati e la
sintassi XML dello schema METS (Metadata Encoding and
Transmission Standard)
Il profilo METS di BibIt identifica un modello di dati compatibile con
quello dello schema MAG al fine di garantire l’interoperabilità con
questo standard e con i servizi on-line che lo adottano (portale IC)
Uno schema per la creazione di documenti di raccordo tra i vari
componenti di una risorsa digitale e i metadati che li descrivono e
per descrivere le relazioni strutturali che intercorrono tra tali
componenti e la struttura logica del loro contenuto
Implementazione XML del concetto di Information Package OAIS
Può svolgere il ruolo di



SIP
AIP
DIP
METS
Identifica i file o le parti di file che compongono
il contenuto di una risorse digitale ed esprime
la struttura o le strutture di questo contenuto
Collega I metadati descrittivi con il contenuto
digitale
Collega I metadati amministrativi con il
contenuto digitale
Impacchetta il contenuto digitale e i metadati a
esso associati come dati in formato binario
METS
METS non fornisce un vocabolario e una
sintassi autonome per codificare metadati
descrittivi e amministrativi
METS fornisce un modo per puntare a
metadati esterni e/o per includere metadati
descrittivi in formato XML all’interno del
documento METS
METS fornisce un sistema per collegare
questi metadati al contenuto di una risorsa
digitale
Struttura di un documento METS
Una istanza METS consiste di 6
sezioni
1.
2.
3.
4.
5.
6.
Header
Descriptive Metadata Section
Administrative Metadata Section
File Section
Structural Map Section
Behavior section
Uso di METS in BIBIT
METS come AIP (formato del repository)
METS come DIP (trasformato in XHTML mediante procedura XSLT serverside o trasmesso direttamente
Trasformato in sintassi MAG come DIP per interoperare con i servizi del
portale Internet Culturale
A ogni risorsa informativa unitaria (espressione di un’opera) corrisponde un
documento METS
Extension schema adottati
Metadati descrittivi

MODS 3.0 (Metadata Object Description Schema)
Metadati amministrativi

BibIt Digital Text Metadata Set (DTMS),
uno schema sviluppato internamente per la registrazione dei metadati tecnici di formati
testuali sottoposto



BIBIT Digital Provenance Metadata Set
MIX (NISO Technical Metadata for Digital Still Images)
LOC Schema for Rights Declaration
I formati per i documenti
La collezione di risorse digitali di BibIt è in formato testuale
Il formato primario di archiviazione è un sottoinsieme del il
linguaggio di markup TEI/XML
Data la vastità dello schema TEI, nell’ambito del progetto Bibit sono
stati individuati diversi livelli di codifica ai quali un testo può essere
sottoposto:





livello 1: codifica della struttura editoriale del testo, di un limitato gruppo
di fenomeni editoriali intralineari e linguistici;
livello 2: codifica di una serie di fenomeni linguistici e semantici, dei
riferimenti bibliografici, oltre alla eventuale introduzione di riferimenti
incrociati;
livello 3: codifica di fenomeni testuali complessi in vista di applicazione
di analisi avanzate (struttura semantica, narrativa, retorica,
morfosintattica, etc.);
livello 4: trascrizione diplomatica di una fonte primaria;
livello 5: edizione critica di un opera.
Allo stato attuale la maggior parte dei documenti presenti nella
collezione sono al livello di codifica 1
I criteri editoriali
Le risorse testuali prodotte nel contesto del progetto BibIt – ad eccezione di
edizioni diplomatiche di fonti primarie – sono considerate in generale come
vere e proprie edizioni digitali autonome



Di nuovo la responsabilità editoriale della Biblioteca Digitale
Il rapporto con l’edizione cartacea fonte è circoscritto al solo contenuto testuale
dell’opera nella forma linguistica e nella struttura editoriale con cui essa vi
appare.
Il processo di digitalizzazione e codifica si limita esclusivamente a tale contenuto
testuale, trascurando
l’aspetto materiale della fonte
i materiali paratestuali la cui responsabilità intellettuale non è ascrivibile all’autore dell’opera (a
meno che tali elementi non siano entrati a far parte dell’opera stessa nel corso della sua
tradizione)
tutti i materiali paratestuali non d’autore o comunque estranei al testo in sé, per come questo è
attestato nella tradizione (frontespizio, introduzione, prefazione, indice dei contenuti, note, titoli
correnti, numeri di pagina etc.), saranno omessi
le parole sillabate a fine riga saranno normalizzate;
ogni fenomeno materiale non inerente al testo dell’opera occorrente sulle pagine viene
tralasciato
ogni fenomeno di evidenziazione viene codificato in modo funzionale


Il contenuto linguistico e ortografico del testo è trascritto fedelmente nella forma
in cui esso appare nella fonte, senza alcun intervento di normalizzazione.
Il code set di riferimento per la rappresentazione dei caratteri è Unicode in
codifica UTF-8.
Architettura software
Front-end Web: HTTP server Apache 2.0

Fornisce direttamente tutti i contenuti Web statici e gestisce l’accesso ai servizi dinamici basata su java
Java application server/servlet container: Jakarta Tomcat 5.5 o sup

Esegue le applicazioni Web basate su Java presenti nell’archiettura
Repository metadati: Exist XML database

Contiene e indicizza i metadati in formato XML nativo
Creazione metadati: Exist XML database + Java Web application B-Mes

L’immissione dei metadati si basa su una applicazione Web Java sviluppata ad hoc, B-Mes, che memorizza i
dati direttamente su database XML Exist
Ricerca e visualizzazione metadati: Exist XML database + applicazione web basata su Cocoon
Web framework integrato con Exist

La ricerca e visualizzazione dei metadati viene effettuata mediante una applicazione Web eseguita da
Cocoon che ineterroga il db XML Exist e formatta i dati in HTML. Il linguaggio di query usato è Xquery 1.0 e
l’elaborazione e formattazione dei dati in formato XML si basa su fogli di stile XSLT 1.2
Gestione e visualizzazione risorse in formato immagine: Exist XML database + applicazione web
basata su Cocoon Web framework integrato con Exist

La visualizzazione delle risorse in formato immagine si basa su una applicazione Web Cocoon che elabora
server side i metadati XML/METS estratti dal db Exist mediante fogli di stile XSLT 1.1. Le immagini sono
conservate direttamente su file system.
Visualizzazione e ricerca full-text delle risorse testuali in formato XML/TEI: Web application XTF



La ricerca e la visualizzazione on-line dei documenti testuali in formato XML si basa attualmente
sull’applicazione proprietaria Dynaweb
L’applicazione permette effettuare ricerche full-text e sull’intera collezione testuale e di convertire
dinamicamente i documenti XML in formato HTML per la visualizzazione in ambiente Web
A breve completeremo il passaggio verso la nuova piattaforma open-source XTF sviluppata dal California
Digital Library basata sul motore di ricerca full-text Lucene
Sviluppi futuri
Estensione della collezione.

Sono in lavorazione circa 150 nuovi testi che
completeranno i corpora di alcuni tra i maggiori autori
del canone
Sviluppo di servizi avanzati differenziati per i
profili di utenza
Per gli utenti specialisti



Servizi di ricerca e di statistica testuale avanzati con
accesso ristretto
Approfondimento dei livelli di codifica
Predisposizione di collezioni speciali con edizioni
diplomatiche e critiche
Sviluppi futuri
Per gli utenti specialisti




Servizi di ricerca e di statistica testuale
avanzati con accesso ristretto
Approfondimento dei livelli di codifica
Predisposizione di collezioni speciali con
edizioni diplomatiche e critiche
Avvio del progetto Incunaboli Volgari in
formato immagine
Sviluppi futuri
Per gli utenti generalisti



Fornitura di contenuti di mediazione e
contestualizzazione culturale dei testi
Adozione di tecnologie di descrizione e
ricerca semantica (Sematic Web e Topic Map)
Distribuzione dei testi in formati derivati adatti
alla lettura mediante apparati e-book (PDF e
MS Reader)