INTRODUZIONE CORSO SISTEMI ACCESSO A INFO

SISTEMI PER L’ACCESSO A
INFORMAZIONI
Gabriella Pasi
Università degli Studi di Milano Bicocca
U14 - Viale Sarca 336
e-mail: [email protected]
Programma del corso
1. Introduzione
• Il problema dell’accesso a informazioni/beni/servizi pertinenti a
necessità di utenti
• Tipologie di sistemi per l'accesso a informazioni (DBMS, Sistemi di
Information Retrieval, Sistemi di Information Filtering, Sistemi
Question Answering)
• Il concetto di Rilevanza, la sua soggettività, probabilità e parzialità.
• Valutazione sperimentale di sistemi per l’accesso a informazioni:
efficienza, efficacia
2. I sistemi di Information Retrieval
Struttura di un sistema di IR
Il processo di indicizzazione: Full Text Indexing
Strutture dati per organizzazione di indici
Modelli di IR
Information Retrieval su Web
Programma del corso (segue)
Tesauri
Algoritmi di clustering
Relevance Feedback
3. I sistemi di Information Filtering
• Profili utente
• Content-based Information Filtering
• Collaborative Filtering
4. Geographic Information System
5. Valutazione di sistemi di IR
Efficienza ed efficacia
Libri di testo per IR
Non esiste un unico libro di testo che possa essere
considerato completamente soddisfacente. I testi
considerati per questo corso sono i seguenti (in
ordine di preferenza):
– Ricardo Baeza-Yates e Berthier Ribeiro-Neto,
Modern information retrieval, Addison Wesley,
Reading, US, 1999.
– Soumen Chakrabarti, Mining the Web, Morgan
Kaufmann, San Francisco, US, 2003.
– Ian H. Witten, Alistair Moffat, and Timothy C.
Bell, Managing gigabytes, 2nd Edition, Morgan
Kaufmann, San Francisco, US, 1999.
Libri di testo per IR
Modern Information
Retrieval,
R. Baeza-yates and B.
Ribeiro-Neto.,
Addison-Wesley and ACM
Press, 1999, ISBN: 0-20139829-X
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze,
Introduction to Information Retrieval, Cambridge University Press.
2007.
http://www-csli.stanford.edu/~schuetze/information-retrievalbook.html
Problema dell’accesso a informazioni
pertinenti a specifiche necessità
Problema “vecchio” in Informatica. Ha assunto grande
importanza con la nascita e lo sviluppo del WWW
Enorme e crescente quantità di
informazioni disponibili
Necessità di sistemi che supportino un
efficiente ed efficace reperimento di
informazioni pertinenti a specifiche necessità.
Il problema dell’accesso automatico a
informazioni
Sviluppo di sistemi che aiutino l’utente a localizzare
informazioni rilevanti (pertinenti) alle loro necessità
(informare: ridurre l’ignoranza). La definizione di tali
sistemi è basata sulla soluzione di un problema
decisionale: come identificare e “ordinare” informazione
che soddisfi le preferenze dell’utente? Occorre:
* interpretare il contenuto di testi, immagini, video,
audio
* interpretare le esigenze dell’utente
Ruolo centrale della nozione di rilevanza:
rilevanza la
rilevanza è una proprietà soggettiva: difficile da
definire e da misurare!
Principali tipologie di sistemi per
l’accesso a informazioni
Sistemi di Information Retrieval (Motori di ricerca)
Richiedono
Sistemi per la Gestione di Basi di Dati
Richiedono
La formulazione di una “query”
La formulazione di una “query”
Sistemi di Information Filtering
Profili utente, cioè descrizioni di esigenze specifiche
Richiedono
dinamicamente aggiornate, anche sulla base del
comportamento dell’utente (NO QUERY)
Modalità di reperimento delle
informazioni
Tecnologia Pull
L’utente richiede
esplicitamente le
informazioni in
modalità interattiva
3 modalità
Browsing (ipertesti)
Retrieval (sistemi di IR)
Browsing e retrieval
(librerie digitali e
ricerche su web)
Tecnologia Push
L’utente viene
automaticamente
aggiornato con
informazioni di possibile
interesse
agenti software
esempio: servizi di news,
e-commerce
filtering fornisce
all’utente informazioni
rilevanti per un utilizzo
differito
Definizione di Informazione
Nel 1948 Claude Elwood Shannon (1916-2001) pubblica la
monografia A Mathematical Theory of Comunication che è un primo
contributo all'inquadramento teorico del problema del trasferimento
dell'informazione.
“L'informazione
è legata alla capacità di estrapolare notizie
dall'ambiente per poterle poi riutilizzare per conquistare una posizione
di vantaggio.”
DEF 1: Informare: dare forma a qualcosa ⇒ eliminare l’incertezza,
l’ignoranza
DEF 2:
acquisizione di contenuto trasferito da un soggetto ad un altro
DEF 3: un insieme di dati + loro interpretazione
dato ⇒ elemento di informazione
L’informazione produce una variazione di conoscenza
Definizione di Informazione
I dati sono quindi fatti elementari, informazioni
codificate, che hanno bisogno di essere interpretate
per arricchire la conoscenza
Esempio
dati: “Marco Pagani” ’4261’
Informazione = dati + interpretazione
Domanda implicita:
a) Chi è l’esercitatore del corso? Qual è il suo n° di
tel.?
b) “Qual è il Nome del dipendente? Qual è il suo
stipendio?
Nei sistemi per la gestione di basi di dati le informazioni
vengono rappresentate in modo essenziale, dai dati e da uno
schema concettuale che permette la loro interpretazione
Gestione automatica
dell’informazione
TESTI espressi in linguaggio naturale
FORMA
DELL’ INFORMAZIONE
SUONI e Registrazioni audio e video
GRAFICI en IMMAGINI, MAPPE
NUMERI, CODICI, SEGNALI
Problema tecnico:
GESTIONE
AUTOMATICA
DELL'INFORMAZIONE
come rappresentare
e manipolare l'informazione
negli elaboratori?
efficienza
Problema semantico:
il modo in cui l'informazione
viene sintetizzata e
memorizzata conserva il suo
significato originario? efficacia
Dati relativi al 1996
160
140
120
100
80
Non strutturati
Strutturati
60
40
20
0
Volume delle
informazioni
Valore delle
informazioni
Dati relativi al 2006
160
140
120
100
80
Non Strutturati
Strutturati
60
40
20
0
Volume di
imformazioni
Valore delle
informazioni
Sistemi di Information Retrieval e
Sistemi per la gestione di basi di dati
Motivazioni
I DBMS sono nati dalla necessità di gestire
ad
crescenti
quantità
di
dati
relativi
applicazioni aziendali tradizionali
I sistemi di IR sono nati dalla necessità di
gestire, classificare, reperire libri e articoli in
biblioteche/librerie grandi quantità di testi
Sistemi di Information Retrieval
Sistemi per la gestione di basi di dati
DBMS
Reperimento di dati che soddisfano condizioni di selezione rigide,
espresse mediante un linguaggio di interrogazione (V,F)
Semantica dei dati e delle condizioni ben definita
Una singolo dato erroneo implica il fallimento della ricerca!
Information retrieval
Reperimento di informazioni circa un argomento o un tema
Semantica delle richieste e dei documenti vaga.
Piccoli errori nei risultati sono tollerabili
Un Sistema di IR :
interpreta il contento di documenti costruisce una
rappresentazione
genera un ordinamento (ranking) che riflette la rilevanza stimata
Concetto di rilevanza molto importante
Sistemi per la gestione di basi di
dati
Modello
dei dati
DATI
DBMS
A
B
C
APPLICAZIONI
Caratteristiche:
Schema (descrizione intensionale della
struttura dei dati )
Istanze (descrizione estensionale del valore
attuale dei dati)
Modello di dati (permette di rappresentare i
dati in modo indipendente dal sistema):
relazionale
orientato ad oggetti
Gerarchico, ecc
Definizione di Information Retrieval
Due componenti principali
Sorgente di
informazioni
= archivio di
documenti
Qualcuno con necessità
di informazioni
Decision
making
Interpretazione
soggettiva
Interpretazione
soggettiva
terza componente
Intermediario
che
interpreta
le
necessità
informative dell’utente e stima la rilevanza dei
documenti rispetto a tali necessità.
Definizione di Information
Retrieval
“IR is the name for the process or method whereby a prospective user
of information is able to convert his need for information into an actual
list of citations to documents in storage containing information useful
to him. (. .. ). IR embraces the intellectual aspects of the description of
information and its specification for search, and also whatever
systems, techniques, and machines that are employed to carry out the
operation”. [Mooers 1951].
IR è la disciplina informatica che si occupa della memorizzazione e del
reperimento di documenti; il suo obbiettivo è la realizzazione di
sistemi software che permettano la memorizzazione di ingenti
quantità di documenti in un archivio, in modo tale da permettere
un’efficiente reperimento dei documenti rilevanti alle necessità
informative degli utenti.
Glossario
Documento (d): unità di informazione reperibile, espressa in formato
libero (senza l’applicazione di schemi o formati specifici). I
documenti hanno un contenuto informativo.
• IR TESTUALE articoli scientifici, lettere, articoli di quotidiani,
legende di immagini o grafici, trascrizioni di audio
• IR MULTIMEDIALE immagini, grafici, audio (parlato o non parlato),
o video, . . . , memorizzato in formato digitale
Archivio (D) : insieme di documenti accessibili per mezzo di un IRS;
può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il
Web), centralizzato o distribuiti
Ingente dimensione: i sistemi distribuiti e la diffusione di supporti di
memoria come i CD-ROM hanno permesso la creazione di grandissime
basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa
è la dimensione tipica degli archivi gestiti in IR;
Necessità infomativa (q):
(q) una necessità di informazione utile alla
soluzione di un problema, o di risorse utili per un dato obiettivo;
Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di
un documento in accordo all’opinione dell’utente, rispetto a una query.
Information Retrieval
Finalità: rappresentazione, memorizzazione,
organizzazione, e accesso a elementi d’informazione
(documenti – testuali o multimediali)
Problemi:
Esempio:
la rappresentazione del contenuto informativo dei documenti
(consideremo documenti testuali)
l’interpretazione delle necessità informative dell’utente
“trova tutti i documenti contenenti informazioni relative alla
diagnosi delle malattie esantematiche nei bambini a cura di
associazioni pediatriche italiane”
Obiettivo primario di un sistema di IR :
“Reperire tutti i documenti che sono rilevanti per l’utente
trascurando i documenti non rilevanti.”
Sistema di Information Retrieval
Documents
Necessità Informative
Query
Documenti reperiti
Informazioni stimate
rilevanti per l’utente
Sistema di Information
Retrieval
Soggettività!!!!
Obbiettivo primario di un sistema di IR:
“Reperire tutti i documenti che sono rilevanti per l’utente e
minimizzando il reperimento di documenti non rilevanti.”
COME???
Struttura base di un IRS
INDICIZZAZIONE
ARCHIVIO DI
DOCUMENTI
Tipicamente testi non
strutturati o semistrutturati
RAPPRESENTAZIONE
FORMALE DEI DOCUMENTI
DOCUMENTI STIMATI
RILEVANTI
FORMULAZIONE
DELLA QUERY
MECCANISMO
DI MATCHING
RAPPRESENTAZIONE
DELLA QUERY
Un IRS è basato su un modello matematico
Off line
On line
Componenti di un Sistema di
Information Retrieval
Archivio di documenti il documento è l'unità di
informazione reperibile. Può essere costituito da un testo
in forma narrativa (testuale) o essere composto da parti
narrative, pittoriali, codificate, etc. (multimediale);
Rappresentazione formale dei documenti sintetizza
il contenuto
informativo dei documenti. E’ ottenuta
mediante il processo indicizzazione;
Linguaggio di query in una query sono espresse le
condizioni per la selezione dei documenti di interesse
per l'utente;
Meccanismo di Confronto (matching) confronta la
rappresentazione dei Documenti archiviati con le
condizioni di selezione espresse nella query.
Information Retrieval: le “radici”
dei motori di ricerca.
I motori di ricerca sono sistemi software
intensivamente usati su Web.
Cio’ che molti non sanno è che essi rappresentano la
punta dell’iceberg dell’Information Retrieval, una
disciplina fondata alla fine degli anni sessanta.
Motori di
ricerca
Information
Retrieval
Ricerca su Web e Information
Retrieval
Classica ricerca in IR
1970s
1980s
1990s
….sopraggiunge il web
web searching
2000s
Modelli di IR
Un sistema di IR è basato su un modello matematico che
fornisce una descrizione formale:
Del documento
Della query
Del modo in cui confrontare rappresentazioni di query e
documenti per effettuare una stima della rilevanza dei
documenti e produrre la lista dei documenti stimati
rilevanti.
N.B. un sistema di IR semplifica la realizzazione dell’attività di
retrieval i risultati prodotti non sono « perfetti » (stima di
rilevanza)
Va notato che l’uso della stessa tecnica di rappresentazione di
documenti e query garantisce un matching corretto;
Il processo di indicizzazione
Problema: come descrivere il contenuto “semantico” di un
documento in un modo automaticamente gestibile? Il pocesso di
indicizzazione è basato sull’estrazione di “elementi” (feature) che
costituiscono la base della descrizione (rappresentazione) del
documento. Per i testi tali elementi (detti indici) sono
generalmente parole. I documenti sono rappresentati come insiemi
(pesati) di parole.
(!! Idea concepita negli anni 60 e ancora di punta !!!!)
{Information, retrieval, computer, science,
discipline, keywords……}
“The experimental evidence accumulated over the past 20
years indicates that text indexing systems based on the
assignment of appropriately weighted single terms
produce retrieval results that are superior than those
obtainable with other more elaborate text representations.
These results depend crucially on the choice of effective
term-weighting systems.” (Salton, 1988)
Formulazione di richieste
(linguaggi di interrogazione)
Query semplici
Generalmente composte di due o tre,
fino a un massimo di 10-12, parole
L’utente
(keywords)
sintetizza le
es., ricerche su web
sue necessità
Query Booleane
informative
Es. “neural networks” AND immagini
mediante
parole chiave
Query con contesto
operatori di prossimità, frasi di
ricerca
Query sul contenuto e sulla struttura
Query in Linguaggio Naturale
IR: Confronto tra
rappresentazione dei documenti e query
SCOPO: Reperire i documenti rilevanti per l’utente, ossia
pertinenti rispetto alle necessità informative espresse in
una query (la rilevanza di un documento e’ relativa alla
query formulata).
Confronto esatto:
Rilevante/ Non Rilevante
Confronto parziale:
Basato su un confronto “parziale” tra documento e
query (ad. es. similarità misura della vicinanza della
query al documento)
I documenti “sufficientemente vicini” alla query vengono
reperiti.
E’ necessario definire un metodo per valutare la rilevanza
(dipende dal modello di Informazion Retrieval)
Misure di Efficacia del Retrieval
Precisione = |Rilevanti e Reperiti|
|Reperiti|
Richiamo = |Rilevanti e Reperiti|
|Rilevanti|
Information Filtering - caratteristiche
Non è richiesta una partecipazione esplicita dell’
utente (le informazioni da analizzare vengono
confrontate col suo profilo automaticamente)
Information Retrieval (pull) definizione di una query –
necessità “immediata”
Information Filtering (push) definizione di un profilo
utente “dinamico” – necessità informative a lungo
termine
Schema di un sistema
di Information Filtering
Tipologie of Information Filtering
Esistono diversi tipi di sistemi di filtering:
Content-based filtering: il “filtraggio” viene
effettuato sulla base di un’analisi del contenuto
informativo del documento
Collaborative
filtering:
il
“filtraggio”
di
documenti/beni/servizi avviene per mezzo di
un’analisi del loro “utilizzo” da parte di utenti
(l’approccio
collaborativo
analizza
il
comportamento dei fruitori degli oggetti da filtrare)
Category-based filtering: si filtrano “categorie” di
documenti (necessario l’utilizzo preliminare di un
algoritmo di clustering)
Difficoltà dell’Information Retrieval
L’ Information retrieval è caratterizzato da:
Incompletezza della rappresentazione dei
documenti
soggettività del concetto di rilevanza
Ambiguità del significato dei termini
Vaghezza delle richieste utente
Incertezza della correttezza del risultato
Approssimazione del meccanismo di confronto
E’ un’attività che necessita di essere modellata con strumenti
formali adatti a trattare imprecisione e incertezza
“IR deve cercare di soddisfare necessità di informazione
espresse in modo vago, impreciso mediante le ambiguità del
linguaggio naturale, e deve confrontarle, in un modo
approssimativo con le informazioni contenute in un
documento, ed espresse mediante lo stesso linguaggio
naturale.” (Smeaton, 1997)
Documenti : caso + semplice
Unità reperibili di Dimensione arbitraria
testo in formato libero
codifica EBCDIC, ASCII (8 bit), UNICODE (16 bit)
ecc. lingua
composto da stringhe di caratteri di un alfabeto
ecc;
Es. sequenze del genoma, formule di composti chimici,
Parole in linguaggio naturale
Esempi
articoli di quotidiani, di riviste, messaggi,
lettere, referti medici, pagine web, ecc..
Caratteristiche dei Documenti
documento
Testo +
sintassi
stile
struttura +
altri media (immagini, suoni, ..) +
metadati
semantica
Cos’è un documento?
metadati
semantica
stile
Metadati
Tratto da
http://www.w3.org/Metadata/Activity
“Metadata
is information about information - labeling, cataloging and
descriptive information structured in such a way that allows pages to be
properly searched and processed in particular by computer. In other
words, what is now very much needed on the Web is metadata.
W3C's Metadata Activity is concerned with ways to model and encode
metadata. A particular priority of W3C is to use the Web to document
the meaning of the metadata. Our strong interest in metadata has
prompted development of the Resource Description Framework (RDF)
and Ontology Web Language (OWL) as W3C Recommendations”
Documenti [semi]-strutturati
Definizioni
Un documento strutturato è composto da sezioni
distinte , testuali o multimediali, di lunghezza
variabile. Le sezioni sono sequenze di caratteri
omogenee rispetto all’argomento che trattano.
Gli
archivi di documenti strutturati, sono
collezioni di documenti che hanno una struttura
rigidamente fissata, archivi semi-strutturati sono
caratterizzati da irregolarità nella struttura, ad
esempio i documenti su web. Si assume che ciascun
documento contenga un numero prefissato di
sezioni comuni a tutti (es: URL, Titolo, Testo).
Documenti semi strutturati
Documenti non strutturati
Documenti strutturati
Documenti con struttura omogenea
Documento: è una sequenza di sezioni (campi) fissi non sovrapposti
Es: una mail ha i seguenti campi: sender, receiver, date, subject e un
corpo.
data
text
campi
text
text
I campi sono delimitati dai tag (per l’individuazione)
Formati dei Documenti semi-strutturati
I documenti [semi]-strutturati di una collezione sono conformi a
un modello di dati semistrutturati (Abiteboul et al. 2000)
Un modello di dati semistrutturati è definito mediante un
metalinguaggio.
Ad es. un documento scritto in HTML è un istanza di un
modello di dati semistrutturati
I
documenti
[semi]-strutturati
possono
essere
rappresentati da grafi diretti in cui i nodi sono le sezioni
(sottoparti del documento) e le connessioni tra nodi le
relazioni tra le sottoparti.
Linguaggi per la codifica di documenti
semi-strutturati
I linguaggi di markup sono stati definiti per
permettere di descrivere mediante comandi testuali
inseriti nel testo di un documento istruzioni di
formattazione, di strutturazione, e attributi del testo.
SGML (Standard Generalized Markup Language
ISO 8879) è il metalinguaggio standard per la
definizione di linguaggi di markup.
Le istruzioni di marcatura sono chiamate Tag e
delimitano la parte di testo a cui sono applicate
Linguaggi di codifica
di documenti semi-strutturati
HTML è un’istanza di SGML ed è diffuso su web per la
rappresentazione di documenti strutturati; tuttavia permette una
strutturazione sintattica e non semantica dell’informazione.
I tag hanno la funzione di definire l’aspetto tipografico del testo
anche se spesso sono usati per caratterizzare una struttura
semantica implicita del documento
XML (eXtensible Markup Language) e' un sottoinsieme di
SGML adatto a rappresentare documenti strutturati concepiti
come aggregazioni di unità indipendenti, chiamate entità o
oggetti, che contengono l'informazione.
Ci sono diverse istanze (specilizzazioni di XML) a contesti
applicativi es. NewsML per notizie giornalistiche, GML per dati
georiferiti ecc)
Documenti semi-strutturati in XML
Specifiche di XML in Italiano tradotte dal sito W3C
http://www.xml.it:23456/XML/REC-xml-19980210-it.html#charencoding
1)
Si definiscono dei vincoli sulla possibile struttura dei
documenti XML di una collezione
1) A tale scopo si crea il DTD (Document Type
Definition) (La specifica del DTD è opzionale in
XML) Lo scopo di un Document Type Definition
(definizione del tipo di documento) è quello di definire le
componenti ammesse nella costruzione di un documento
XML.
XML schema
2) Si creano i documenti della collezione. File XML. Ogni
documento è un’istanza del DTD e può essere
rappresentato da un grafo
3) Si creano i file di stile per specificare l’aspetto
tipografico dei documenti. File XSL (eXtensible
Stylesheet Language)
2)