- Il Documento Elettronico- Introduzione alla gestione delle basi

Parte 2
Sistemi Gestione Documentale
- Il Documento Elettronico
- Introduzione alla gestione delle
basi Documentali
M. Diligenti
1
Elettronici e cartacei
Sistemi Gestione Documentale
 Assumeremo documenti in formato
elettronico
 Documenti cartacei posso essere
trasformati in documenti elettronici
tramite: OCR (Optical Character
Recognition)
 Esempio: Google Book Search
http://books.google.com
M. Diligenti
2
Storia del Documento Elettronico
 WYSIWYG “What You See Is What You
Get” Xerox, ‘70 primo Word processor
Sistemi Gestione Documentale
 Word Processor diviene comunemente
diffuso con l’Apple Macintosh 1984
 MS Word
M. Diligenti
3
Storia del Documento Elettronico




Sistemi Gestione Documentale
Donald Knuth (TeX) 1978-1989: utente scrive
contenuto, software impagina.
Trasposizione degli strumenti utilizzati in
tipografie professionali.
Documento viene compilato e non è possibile
vedere il risultato dei cambiamenti in tempo
reale.
2007: ancor oggi il TeX è lo strumento standard
per la creazione di documenti scientifici
M. Diligenti
4
Storia del Documento Elettronico




Sistemi Gestione Documentale
1991: WorldWideWeb primo browser per il
WWW reso pubblico da Tim Berners-Lee
1992: nasce Mosaic
1994: Netscape
1997-2007 il Web esplode. Cambiamento
epocale: documento non necessariamente in
locale per essere fruito
M. Diligenti
5
Perché la gestione documentale è
importante?






Sistemi Gestione Documentale
6
Molta informazione testuale è oggi non strutturata e sta
“allagando’’ i dischi! (e.g., emails, articoli newsgroup).
Integrazione di text retrieval con basi dati relazionali.
Incremento della documentazione on-line
L’esplosione del Web
L’esplosione dei dispositivi multimediali
Enorme quantità di documenti generati nel settore
pubblico e privato
M. Diligenti
Dati strutturati e non strutturati
 Ma oggi esistono potenti Database?
 Documenti: dati in gran parte nonformattati
 Questo rende difficile l’utilizzo dei DB!
 Dati testuali: articoli scientifici, pagine di quotidiani
 Pagine Web (HTML, XML)
 Dati non-testuali: immagini, grafici, voce, video
Sistemi Gestione Documentale
 L’esplosione di interesse oggi sui motori di ricerca:
WWW search engines, es.: Google, Yahoo, Ask, MSN
M. Diligenti
7
Centrati su
operatori
relazionali
8
Data Bases: generico approccio per la
gestione di dati
 Teoria solida e pacchetti s/w molto affidabili
 Il record “impiegato”
 (società, cod-fisc, cognome,indirizzo, città, stato)
Basati su
schema
Sistemi Gestione Documentale
 Operatori: selection, projection, cartesian
product, join, union, ...
M. Diligenti
Gestione documentale sul Web
 Dati non strutturati: è difficile catturare la semantica dei
documenti. Compara:
 “select * from Employee where Salary > 30,000”
 “retrieve all news items about corporate takeover”
 Perché la seconda domanda è più difficile? La seguente
lo è ancora di più!
 “retrieve all news items about corporate takeover involving an
internet company”
 I documenti non hanno un dominio definito
Sistemi Gestione Documentale
 è molto difficile trovare la categoria dei documenti
M. Diligenti
9
Gestione documentale sul Web:
perché è difficile 1
 Non omogeneità dei formati e contenuti
 Controllo totalmente decentralizzato
 I documenti sono distribuiti e “linkati” (e.g.,
Hypertext e WWW)
 Da dove si parte a cercare?
 Come sono correlate le informazioni?
 Il problema dell’interazione personale:
Sistemi Gestione Documentale
 la risposta data a persone diverse dovrebbe
contemplare le diverse esigenze
 Come catturare l’intenzione?
M. Diligenti
10
Gestione documentale sul Web:
perché è difficile 2
50 milioni pagine novembre1995
320 milioni pagine dicembre 1997
800 milioni febbraio 1999
Oggi >40 miliardi
 La dimensione del web raddoppia ogni anno:




11
 Enormi quantità di dati (e.g., WWW) impongono
soluzioni efficienti
Sistemi Gestione Documentale
 Poche centinaia di Mbytes erano considerati larga
scala 10 anni fa; si pensi ad un laptop odierno!
 Efficienza e efficacia spesso conflittuali.
M. Diligenti
Oltre il Testo ...
 Formulazione delle queries:
 Linguaggio naturale
 Voce
 Immagini (queries visuali)
 Ricerca video
 segmentazione scene
 Raggruppamento per argomenti
Sistemi Gestione Documentale
 Etc.
 Argomenti di ricerca di cui non ci occuperemo
M. Diligenti
12