Parte 2 Sistemi Gestione Documentale - Il Documento Elettronico - Introduzione alla gestione delle basi Documentali M. Diligenti 1 Elettronici e cartacei Sistemi Gestione Documentale Assumeremo documenti in formato elettronico Documenti cartacei posso essere trasformati in documenti elettronici tramite: OCR (Optical Character Recognition) Esempio: Google Book Search http://books.google.com M. Diligenti 2 Storia del Documento Elettronico WYSIWYG “What You See Is What You Get” Xerox, ‘70 primo Word processor Sistemi Gestione Documentale Word Processor diviene comunemente diffuso con l’Apple Macintosh 1984 MS Word M. Diligenti 3 Storia del Documento Elettronico Sistemi Gestione Documentale Donald Knuth (TeX) 1978-1989: utente scrive contenuto, software impagina. Trasposizione degli strumenti utilizzati in tipografie professionali. Documento viene compilato e non è possibile vedere il risultato dei cambiamenti in tempo reale. 2007: ancor oggi il TeX è lo strumento standard per la creazione di documenti scientifici M. Diligenti 4 Storia del Documento Elettronico Sistemi Gestione Documentale 1991: WorldWideWeb primo browser per il WWW reso pubblico da Tim Berners-Lee 1992: nasce Mosaic 1994: Netscape 1997-2007 il Web esplode. Cambiamento epocale: documento non necessariamente in locale per essere fruito M. Diligenti 5 Perché la gestione documentale è importante? Sistemi Gestione Documentale 6 Molta informazione testuale è oggi non strutturata e sta “allagando’’ i dischi! (e.g., emails, articoli newsgroup). Integrazione di text retrieval con basi dati relazionali. Incremento della documentazione on-line L’esplosione del Web L’esplosione dei dispositivi multimediali Enorme quantità di documenti generati nel settore pubblico e privato M. Diligenti Dati strutturati e non strutturati Ma oggi esistono potenti Database? Documenti: dati in gran parte nonformattati Questo rende difficile l’utilizzo dei DB! Dati testuali: articoli scientifici, pagine di quotidiani Pagine Web (HTML, XML) Dati non-testuali: immagini, grafici, voce, video Sistemi Gestione Documentale L’esplosione di interesse oggi sui motori di ricerca: WWW search engines, es.: Google, Yahoo, Ask, MSN M. Diligenti 7 Centrati su operatori relazionali 8 Data Bases: generico approccio per la gestione di dati Teoria solida e pacchetti s/w molto affidabili Il record “impiegato” (società, cod-fisc, cognome,indirizzo, città, stato) Basati su schema Sistemi Gestione Documentale Operatori: selection, projection, cartesian product, join, union, ... M. Diligenti Gestione documentale sul Web Dati non strutturati: è difficile catturare la semantica dei documenti. Compara: “select * from Employee where Salary > 30,000” “retrieve all news items about corporate takeover” Perché la seconda domanda è più difficile? La seguente lo è ancora di più! “retrieve all news items about corporate takeover involving an internet company” I documenti non hanno un dominio definito Sistemi Gestione Documentale è molto difficile trovare la categoria dei documenti M. Diligenti 9 Gestione documentale sul Web: perché è difficile 1 Non omogeneità dei formati e contenuti Controllo totalmente decentralizzato I documenti sono distribuiti e “linkati” (e.g., Hypertext e WWW) Da dove si parte a cercare? Come sono correlate le informazioni? Il problema dell’interazione personale: Sistemi Gestione Documentale la risposta data a persone diverse dovrebbe contemplare le diverse esigenze Come catturare l’intenzione? M. Diligenti 10 Gestione documentale sul Web: perché è difficile 2 50 milioni pagine novembre1995 320 milioni pagine dicembre 1997 800 milioni febbraio 1999 Oggi >40 miliardi La dimensione del web raddoppia ogni anno: 11 Enormi quantità di dati (e.g., WWW) impongono soluzioni efficienti Sistemi Gestione Documentale Poche centinaia di Mbytes erano considerati larga scala 10 anni fa; si pensi ad un laptop odierno! Efficienza e efficacia spesso conflittuali. M. Diligenti Oltre il Testo ... Formulazione delle queries: Linguaggio naturale Voce Immagini (queries visuali) Ricerca video segmentazione scene Raggruppamento per argomenti Sistemi Gestione Documentale Etc. Argomenti di ricerca di cui non ci occuperemo M. Diligenti 12