SISTEMI PER L’ACCESSO A INFORMAZIONI Gabriella Pasi Università degli Studi di Milano Bicocca U14 - Viale Sarca 336 e-mail: [email protected] Programma del corso 1. Introduzione • Il problema dell’accesso a informazioni/beni/servizi pertinenti a necessità di utenti • Tipologie di sistemi per l'accesso a informazioni (DBMS, Sistemi di Information Retrieval, Sistemi di Information Filtering, Sistemi Question Answering) • Il concetto di Rilevanza, la sua soggettività, probabilità e parzialità. • Valutazione sperimentale di sistemi per l’accesso a informazioni: efficienza, efficacia 2. I sistemi di Information Retrieval Struttura di un sistema di IR Il processo di indicizzazione: Full Text Indexing Strutture dati per organizzazione di indici Modelli di IR Information Retrieval su Web Programma del corso (segue) Tesauri Algoritmi di clustering Relevance Feedback 3. I sistemi di Information Filtering • Profili utente • Content-based Information Filtering • Collaborative Filtering 4. Geographic Information System 5. Valutazione di sistemi di IR Efficienza ed efficacia Libri di testo per IR Non esiste un unico libro di testo che possa essere considerato completamente soddisfacente. I testi considerati per questo corso sono i seguenti (in ordine di preferenza): – Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern information retrieval, Addison Wesley, Reading, US, 1999. – Soumen Chakrabarti, Mining the Web, Morgan Kaufmann, San Francisco, US, 2003. – Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing gigabytes, 2nd Edition, Morgan Kaufmann, San Francisco, US, 1999. Libri di testo per IR Modern Information Retrieval, R. Baeza-yates and B. Ribeiro-Neto., Addison-Wesley and ACM Press, 1999, ISBN: 0-20139829-X Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2007. http://www-csli.stanford.edu/~schuetze/information-retrievalbook.html Problema dell’accesso a informazioni pertinenti a specifiche necessità Problema “vecchio” in Informatica. Ha assunto grande importanza con la nascita e lo sviluppo del WWW Enorme e crescente quantità di informazioni disponibili Necessità di sistemi che supportino un efficiente ed efficace reperimento di informazioni pertinenti a specifiche necessità. Il problema dell’accesso automatico a informazioni Sviluppo di sistemi che aiutino l’utente a localizzare informazioni rilevanti (pertinenti) alle loro necessità (informare: ridurre l’ignoranza). La definizione di tali sistemi è basata sulla soluzione di un problema decisionale: come identificare e “ordinare” informazione che soddisfi le preferenze dell’utente? Occorre: * interpretare il contenuto di testi, immagini, video, audio * interpretare le esigenze dell’utente Ruolo centrale della nozione di rilevanza: rilevanza la rilevanza è una proprietà soggettiva: difficile da definire e da misurare! Principali tipologie di sistemi per l’accesso a informazioni Sistemi di Information Retrieval (Motori di ricerca) Richiedono Sistemi per la Gestione di Basi di Dati Richiedono La formulazione di una “query” La formulazione di una “query” Sistemi di Information Filtering Profili utente, cioè descrizioni di esigenze specifiche Richiedono dinamicamente aggiornate, anche sulla base del comportamento dell’utente (NO QUERY) Modalità di reperimento delle informazioni Tecnologia Pull L’utente richiede esplicitamente le informazioni in modalità interattiva 3 modalità Browsing (ipertesti) Retrieval (sistemi di IR) Browsing e retrieval (librerie digitali e ricerche su web) Tecnologia Push L’utente viene automaticamente aggiornato con informazioni di possibile interesse agenti software esempio: servizi di news, e-commerce filtering fornisce all’utente informazioni rilevanti per un utilizzo differito Definizione di Informazione Nel 1948 Claude Elwood Shannon (1916-2001) pubblica la monografia A Mathematical Theory of Comunication che è un primo contributo all'inquadramento teorico del problema del trasferimento dell'informazione. “L'informazione è legata alla capacità di estrapolare notizie dall'ambiente per poterle poi riutilizzare per conquistare una posizione di vantaggio.” DEF 1: Informare: dare forma a qualcosa ⇒ eliminare l’incertezza, l’ignoranza DEF 2: acquisizione di contenuto trasferito da un soggetto ad un altro DEF 3: un insieme di dati + loro interpretazione dato ⇒ elemento di informazione L’informazione produce una variazione di conoscenza Definizione di Informazione I dati sono quindi fatti elementari, informazioni codificate, che hanno bisogno di essere interpretate per arricchire la conoscenza Esempio dati: “Marco Pagani” ’4261’ Informazione = dati + interpretazione Domanda implicita: a) Chi è l’esercitatore del corso? Qual è il suo n° di tel.? b) “Qual è il Nome del dipendente? Qual è il suo stipendio? Nei sistemi per la gestione di basi di dati le informazioni vengono rappresentate in modo essenziale, dai dati e da uno schema concettuale che permette la loro interpretazione Gestione automatica dell’informazione TESTI espressi in linguaggio naturale FORMA DELL’ INFORMAZIONE SUONI e Registrazioni audio e video GRAFICI en IMMAGINI, MAPPE NUMERI, CODICI, SEGNALI Problema tecnico: GESTIONE AUTOMATICA DELL'INFORMAZIONE come rappresentare e manipolare l'informazione negli elaboratori? efficienza Problema semantico: il modo in cui l'informazione viene sintetizzata e memorizzata conserva il suo significato originario? efficacia Dati relativi al 1996 160 140 120 100 80 Non strutturati Strutturati 60 40 20 0 Volume delle informazioni Valore delle informazioni Dati relativi al 2006 160 140 120 100 80 Non Strutturati Strutturati 60 40 20 0 Volume di imformazioni Valore delle informazioni Sistemi di Information Retrieval e Sistemi per la gestione di basi di dati Motivazioni I DBMS sono nati dalla necessità di gestire ad crescenti quantità di dati relativi applicazioni aziendali tradizionali I sistemi di IR sono nati dalla necessità di gestire, classificare, reperire libri e articoli in biblioteche/librerie grandi quantità di testi Sistemi di Information Retrieval Sistemi per la gestione di basi di dati DBMS Reperimento di dati che soddisfano condizioni di selezione rigide, espresse mediante un linguaggio di interrogazione (V,F) Semantica dei dati e delle condizioni ben definita Una singolo dato erroneo implica il fallimento della ricerca! Information retrieval Reperimento di informazioni circa un argomento o un tema Semantica delle richieste e dei documenti vaga. Piccoli errori nei risultati sono tollerabili Un Sistema di IR : interpreta il contento di documenti costruisce una rappresentazione genera un ordinamento (ranking) che riflette la rilevanza stimata Concetto di rilevanza molto importante Sistemi per la gestione di basi di dati Modello dei dati DATI DBMS A B C APPLICAZIONI Caratteristiche: Schema (descrizione intensionale della struttura dei dati ) Istanze (descrizione estensionale del valore attuale dei dati) Modello di dati (permette di rappresentare i dati in modo indipendente dal sistema): relazionale orientato ad oggetti Gerarchico, ecc Definizione di Information Retrieval Due componenti principali Sorgente di informazioni = archivio di documenti Qualcuno con necessità di informazioni Decision making Interpretazione soggettiva Interpretazione soggettiva terza componente Intermediario che interpreta le necessità informative dell’utente e stima la rilevanza dei documenti rispetto a tali necessità. Definizione di Information Retrieval “IR is the name for the process or method whereby a prospective user of information is able to convert his need for information into an actual list of citations to documents in storage containing information useful to him. (. .. ). IR embraces the intellectual aspects of the description of information and its specification for search, and also whatever systems, techniques, and machines that are employed to carry out the operation”. [Mooers 1951]. IR è la disciplina informatica che si occupa della memorizzazione e del reperimento di documenti; il suo obbiettivo è la realizzazione di sistemi software che permettano la memorizzazione di ingenti quantità di documenti in un archivio, in modo tale da permettere un’efficiente reperimento dei documenti rilevanti alle necessità informative degli utenti. Glossario Documento (d): unità di informazione reperibile, espressa in formato libero (senza l’applicazione di schemi o formati specifici). I documenti hanno un contenuto informativo. • IR TESTUALE articoli scientifici, lettere, articoli di quotidiani, legende di immagini o grafici, trascrizioni di audio • IR MULTIMEDIALE immagini, grafici, audio (parlato o non parlato), o video, . . . , memorizzato in formato digitale Archivio (D) : insieme di documenti accessibili per mezzo di un IRS; può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il Web), centralizzato o distribuiti Ingente dimensione: i sistemi distribuiti e la diffusione di supporti di memoria come i CD-ROM hanno permesso la creazione di grandissime basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa è la dimensione tipica degli archivi gestiti in IR; Necessità infomativa (q): (q) una necessità di informazione utile alla soluzione di un problema, o di risorse utili per un dato obiettivo; Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di un documento in accordo all’opinione dell’utente, rispetto a una query. Information Retrieval Finalità: rappresentazione, memorizzazione, organizzazione, e accesso a elementi d’informazione (documenti – testuali o multimediali) Problemi: Esempio: la rappresentazione del contenuto informativo dei documenti (consideremo documenti testuali) l’interpretazione delle necessità informative dell’utente “trova tutti i documenti contenenti informazioni relative alla diagnosi delle malattie esantematiche nei bambini a cura di associazioni pediatriche italiane” Obiettivo primario di un sistema di IR : “Reperire tutti i documenti che sono rilevanti per l’utente trascurando i documenti non rilevanti.” Sistema di Information Retrieval Documents Necessità Informative Query Documenti reperiti Informazioni stimate rilevanti per l’utente Sistema di Information Retrieval Soggettività!!!! Obbiettivo primario di un sistema di IR: “Reperire tutti i documenti che sono rilevanti per l’utente e minimizzando il reperimento di documenti non rilevanti.” COME??? Struttura base di un IRS INDICIZZAZIONE ARCHIVIO DI DOCUMENTI Tipicamente testi non strutturati o semistrutturati RAPPRESENTAZIONE FORMALE DEI DOCUMENTI DOCUMENTI STIMATI RILEVANTI FORMULAZIONE DELLA QUERY MECCANISMO DI MATCHING RAPPRESENTAZIONE DELLA QUERY Un IRS è basato su un modello matematico Off line On line Componenti di un Sistema di Information Retrieval Archivio di documenti il documento è l'unità di informazione reperibile. Può essere costituito da un testo in forma narrativa (testuale) o essere composto da parti narrative, pittoriali, codificate, etc. (multimediale); Rappresentazione formale dei documenti sintetizza il contenuto informativo dei documenti. E’ ottenuta mediante il processo indicizzazione; Linguaggio di query in una query sono espresse le condizioni per la selezione dei documenti di interesse per l'utente; Meccanismo di Confronto (matching) confronta la rappresentazione dei Documenti archiviati con le condizioni di selezione espresse nella query. Information Retrieval: le “radici” dei motori di ricerca. I motori di ricerca sono sistemi software intensivamente usati su Web. Cio’ che molti non sanno è che essi rappresentano la punta dell’iceberg dell’Information Retrieval, una disciplina fondata alla fine degli anni sessanta. Motori di ricerca Information Retrieval Ricerca su Web e Information Retrieval Classica ricerca in IR 1970s 1980s 1990s ….sopraggiunge il web web searching 2000s Modelli di IR Un sistema di IR è basato su un modello matematico che fornisce una descrizione formale: Del documento Della query Del modo in cui confrontare rappresentazioni di query e documenti per effettuare una stima della rilevanza dei documenti e produrre la lista dei documenti stimati rilevanti. N.B. un sistema di IR semplifica la realizzazione dell’attività di retrieval i risultati prodotti non sono « perfetti » (stima di rilevanza) Va notato che l’uso della stessa tecnica di rappresentazione di documenti e query garantisce un matching corretto; Il processo di indicizzazione Problema: come descrivere il contenuto “semantico” di un documento in un modo automaticamente gestibile? Il pocesso di indicizzazione è basato sull’estrazione di “elementi” (feature) che costituiscono la base della descrizione (rappresentazione) del documento. Per i testi tali elementi (detti indici) sono generalmente parole. I documenti sono rappresentati come insiemi (pesati) di parole. (!! Idea concepita negli anni 60 e ancora di punta !!!!) {Information, retrieval, computer, science, discipline, keywords……} “The experimental evidence accumulated over the past 20 years indicates that text indexing systems based on the assignment of appropriately weighted single terms produce retrieval results that are superior than those obtainable with other more elaborate text representations. These results depend crucially on the choice of effective term-weighting systems.” (Salton, 1988) Formulazione di richieste (linguaggi di interrogazione) Query semplici Generalmente composte di due o tre, fino a un massimo di 10-12, parole L’utente (keywords) sintetizza le es., ricerche su web sue necessità Query Booleane informative Es. “neural networks” AND immagini mediante parole chiave Query con contesto operatori di prossimità, frasi di ricerca Query sul contenuto e sulla struttura Query in Linguaggio Naturale IR: Confronto tra rappresentazione dei documenti e query SCOPO: Reperire i documenti rilevanti per l’utente, ossia pertinenti rispetto alle necessità informative espresse in una query (la rilevanza di un documento e’ relativa alla query formulata). Confronto esatto: Rilevante/ Non Rilevante Confronto parziale: Basato su un confronto “parziale” tra documento e query (ad. es. similarità misura della vicinanza della query al documento) I documenti “sufficientemente vicini” alla query vengono reperiti. E’ necessario definire un metodo per valutare la rilevanza (dipende dal modello di Informazion Retrieval) Misure di Efficacia del Retrieval Precisione = |Rilevanti e Reperiti| |Reperiti| Richiamo = |Rilevanti e Reperiti| |Rilevanti| Information Filtering - caratteristiche Non è richiesta una partecipazione esplicita dell’ utente (le informazioni da analizzare vengono confrontate col suo profilo automaticamente) Information Retrieval (pull) definizione di una query – necessità “immediata” Information Filtering (push) definizione di un profilo utente “dinamico” – necessità informative a lungo termine Schema di un sistema di Information Filtering Tipologie of Information Filtering Esistono diversi tipi di sistemi di filtering: Content-based filtering: il “filtraggio” viene effettuato sulla base di un’analisi del contenuto informativo del documento Collaborative filtering: il “filtraggio” di documenti/beni/servizi avviene per mezzo di un’analisi del loro “utilizzo” da parte di utenti (l’approccio collaborativo analizza il comportamento dei fruitori degli oggetti da filtrare) Category-based filtering: si filtrano “categorie” di documenti (necessario l’utilizzo preliminare di un algoritmo di clustering) Difficoltà dell’Information Retrieval L’ Information retrieval è caratterizzato da: Incompletezza della rappresentazione dei documenti soggettività del concetto di rilevanza Ambiguità del significato dei termini Vaghezza delle richieste utente Incertezza della correttezza del risultato Approssimazione del meccanismo di confronto E’ un’attività che necessita di essere modellata con strumenti formali adatti a trattare imprecisione e incertezza “IR deve cercare di soddisfare necessità di informazione espresse in modo vago, impreciso mediante le ambiguità del linguaggio naturale, e deve confrontarle, in un modo approssimativo con le informazioni contenute in un documento, ed espresse mediante lo stesso linguaggio naturale.” (Smeaton, 1997) Documenti : caso + semplice Unità reperibili di Dimensione arbitraria testo in formato libero codifica EBCDIC, ASCII (8 bit), UNICODE (16 bit) ecc. lingua composto da stringhe di caratteri di un alfabeto ecc; Es. sequenze del genoma, formule di composti chimici, Parole in linguaggio naturale Esempi articoli di quotidiani, di riviste, messaggi, lettere, referti medici, pagine web, ecc.. Caratteristiche dei Documenti documento Testo + sintassi stile struttura + altri media (immagini, suoni, ..) + metadati semantica Cos’è un documento? metadati semantica stile Metadati Tratto da http://www.w3.org/Metadata/Activity “Metadata is information about information - labeling, cataloging and descriptive information structured in such a way that allows pages to be properly searched and processed in particular by computer. In other words, what is now very much needed on the Web is metadata. W3C's Metadata Activity is concerned with ways to model and encode metadata. A particular priority of W3C is to use the Web to document the meaning of the metadata. Our strong interest in metadata has prompted development of the Resource Description Framework (RDF) and Ontology Web Language (OWL) as W3C Recommendations” Documenti [semi]-strutturati Definizioni Un documento strutturato è composto da sezioni distinte , testuali o multimediali, di lunghezza variabile. Le sezioni sono sequenze di caratteri omogenee rispetto all’argomento che trattano. Gli archivi di documenti strutturati, sono collezioni di documenti che hanno una struttura rigidamente fissata, archivi semi-strutturati sono caratterizzati da irregolarità nella struttura, ad esempio i documenti su web. Si assume che ciascun documento contenga un numero prefissato di sezioni comuni a tutti (es: URL, Titolo, Testo). Documenti semi strutturati Documenti non strutturati Documenti strutturati Documenti con struttura omogenea Documento: è una sequenza di sezioni (campi) fissi non sovrapposti Es: una mail ha i seguenti campi: sender, receiver, date, subject e un corpo. data text campi text text I campi sono delimitati dai tag (per l’individuazione) Formati dei Documenti semi-strutturati I documenti [semi]-strutturati di una collezione sono conformi a un modello di dati semistrutturati (Abiteboul et al. 2000) Un modello di dati semistrutturati è definito mediante un metalinguaggio. Ad es. un documento scritto in HTML è un istanza di un modello di dati semistrutturati I documenti [semi]-strutturati possono essere rappresentati da grafi diretti in cui i nodi sono le sezioni (sottoparti del documento) e le connessioni tra nodi le relazioni tra le sottoparti. Linguaggi per la codifica di documenti semi-strutturati I linguaggi di markup sono stati definiti per permettere di descrivere mediante comandi testuali inseriti nel testo di un documento istruzioni di formattazione, di strutturazione, e attributi del testo. SGML (Standard Generalized Markup Language ISO 8879) è il metalinguaggio standard per la definizione di linguaggi di markup. Le istruzioni di marcatura sono chiamate Tag e delimitano la parte di testo a cui sono applicate Linguaggi di codifica di documenti semi-strutturati HTML è un’istanza di SGML ed è diffuso su web per la rappresentazione di documenti strutturati; tuttavia permette una strutturazione sintattica e non semantica dell’informazione. I tag hanno la funzione di definire l’aspetto tipografico del testo anche se spesso sono usati per caratterizzare una struttura semantica implicita del documento XML (eXtensible Markup Language) e' un sottoinsieme di SGML adatto a rappresentare documenti strutturati concepiti come aggregazioni di unità indipendenti, chiamate entità o oggetti, che contengono l'informazione. Ci sono diverse istanze (specilizzazioni di XML) a contesti applicativi es. NewsML per notizie giornalistiche, GML per dati georiferiti ecc) Documenti semi-strutturati in XML Specifiche di XML in Italiano tradotte dal sito W3C http://www.xml.it:23456/XML/REC-xml-19980210-it.html#charencoding 1) Si definiscono dei vincoli sulla possibile struttura dei documenti XML di una collezione 1) A tale scopo si crea il DTD (Document Type Definition) (La specifica del DTD è opzionale in XML) Lo scopo di un Document Type Definition (definizione del tipo di documento) è quello di definire le componenti ammesse nella costruzione di un documento XML. XML schema 2) Si creano i documenti della collezione. File XML. Ogni documento è un’istanza del DTD e può essere rappresentato da un grafo 3) Si creano i file di stile per specificare l’aspetto tipografico dei documenti. File XSL (eXtensible Stylesheet Language) 2)