sistemi informativi iii - Università degli studi di Bergamo

SISTEMI INFORMATIVI III
Gloria Bordogna
CNR IDPA
Via Pasubio 5, c/o POINT, Dalmine (BG)
e-mail: [email protected]
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
1
Libri di testo per IR
Modern Information
Retrieval,
R. Baeza-yates and B.
Ribeiro-Neto.,
Addison-Wesley and ACM
Press, 1999, ISBN: 0-20139829-X
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze,
Introduction to Information Retrieval, Cambridge University Press.
2007.
http://www-csli.stanford.edu/~schuetze/information-retrievalGloria Bordogna, Corso di Sistemi
book.html
Informativi
III, Università di Bergamo
2
Libro di testo per i GIS
‰
Spatial Databases with
Application to GIS,
Philippe Rigaux, Michel Scholl,
Agnes Voisard,
Morgan Kaufmann, Hardcover,
2 edizione, 2001,
410 ppp,
ISBN 1558605886
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
3
Altri testi di riferimento
– G. Salton, M.J. McGill, Introduction to Modern
IR, Mc Graw Hill, 1989.
– P.A. Burrough, R.A. McDonnell, Principles of
Geogaphical Information Systems, Spatial
Information Systems and Geostatistics, Oxford
Univ. Press, 1986
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
4
Argomenti trattati
titolo della lezione
Introduzione all'IR e ai GIS: tipi di dati, differenza rispetto ai DB tradizionali, indirizzi di ricerca
Processo di IR - documenti - struttura e formati
Indicizzazione di testi - tecniche e analisi lessicale e thesauri
Indicizzazione di testi - analisi statistica e sintattica
Indicizzazione di Immagini e geografica
Strutture dati per testi: file inverted e ricerche semplici fuzzy
Modello Booleano di IR
Modello vettoriale di IR
VACANZE PASQUALI
modello probabilistico
Modelli Booleani estesi Fuzzy
Modelli Vettoriali estesi (Pnorm , LSA)
IR associativo (analisi globale e modello HEAP)
IR associativi basati su classificazione, clustering
IR associativo (analisi locale e feedback di rilevanza)
1) esercitazione: La libreria Lucene per IR
IR distribuito : architetture e componenti
2) esercitazione:costruzione di una struttura a file inverted con Lucene
IR su Web - motori di ricerca e modelli di calcolo della rilevanza per pagine web
3) esercitazione: ricerche con Lucene
Criteri e metodi di valutazione di sistemi di IR
4) esercitazione: IR Geografico: Gazeteer, Riconoscimento Entità Nominali, Query spaziale, file Map di Output,
GIS: funzionalità, Web GIS, Infrastrutture di dati spaziali, cataloghi di metadati e geoservizi
Componenti, funzionalità e modelli di dati spaziali nei GIS
Metodi per dati spaziali astratti - operazioni spaziali
Indici per dati spaziali
Valutazione
Prova scritta :
•Domande su aspetti teorici e Esercizi
•2/3 relativi a IR
•1/3 relativo ai GIS
Prova Orale :
(ammissione subordinata all’esito positivo dello scritto:
esito scritto>=18/30)
•Possibilità di produrre un elaborato da discutere
•Discussione dello scritto
•Domande su argomenti del corso
NB: per sostenere l’esame è necessario averlo incluso nel piano di
studi ed essersi iscritti sia allo scritto sia all’orale
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
6
Componenti dell’ Information
Retrieval
Due componenti principali
Sorgente di
informazioni
= archivio di
documenti
Qualcuno con necessità
informative
Attività Decisionale
Interpretazione
soggettiva
Interpretazione
soggettiva
terza componente
Intermediario che interpreta le necessità
informative dell’utente e stima la rilevanza
Gloria Bordogna,
Corso
di Sistemi
dei
documenti
rispetto a tali necessità.
Informativi III, Università di Bergamo
7
Gestione automatica dell’informazione
NUMERI, CODICI, SEGNALI
TESTI espressi in linguaggio naturale
FORMA
DELL’ INFORMAZIONE
SUONI e Registrazioni audio e video
GRAFICI, IMMAGINI, MAPPE
Problema tecnico:
GESTIONE
AUTOMATICA
DELL'INFORMAZIONE
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
come rappresentare
e manipolare l'informazione
negli elaboratori?
Æ efficienza
Problema semantico:
il modo in cui l'informazione
viene sintetizzata e
memorizzata conserva il suo
significato originario? Æ efficacia 8
Il problema dell’accesso automatico
all’ informazione
Sviluppo di sistemi che aiutino l’utente a identificare informazioni
rilevanti (pertinenti) alle loro necessità (informare: ridurre
l’ignoranza). La definizione di tali sistemi è basata sulla soluzione
di un problema decisionale: come identificare e “ordinare”
informazione che soddisfi le preferenze dell’utente? Occorre:
* interpretare il contenuto di testi, immagini, video, audio
* interpretare le esigenze dell’utente
Ruolo centrale della nozione di rilevanza:
rilevanza la rilevanza è
una proprietà soggettiva: difficile da definire e da misurare!
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
9
IRS, GIS, GIR v.s. DBMS
DBMS sono nati dalla necessità di gestione di crescenti
quantità di informazioni strutturate relative ad
applicazioni aziendali tradizionali
IRS (Sistemi di Information Retrieval) sono nati dalla
necessità di gestire, classificare, accedere libri e articoli nelle
librerie, quindi grandi quantità di testi
GIS (Sistemi Informativi Geografici) sono
necessità
di
rappresentare,
gestire,
informazioni strutturate territoriali
nati dalla
analizzare
GIR (Sistemi di Information Retrieval Geografici) sono nati
dalla necessità di accedere a documenti gestendone il
contenuto geografico
Sistemi di Information Retrieval vs
Sistemi per la gestione di basi di dati
„
DBMS
„
„
„
„
Information retrieval
„
„
„
„
Reperimento di dati che soddisfano condizioni di selezione rigide,
espresse mediante un linguaggio di interrogazione (V,F)
Semantica dei dati e delle condizioni ben definita (algebra relazionale)
Una singolo dato erroneo implica il fallimento della ricerca!
Reperimento di informazioni circa un argomento o un tema
Semantica delle richieste e dei documenti vaga/imprecisa.
Piccoli errori nei risultati sono tollerabili (incertezza)
Un Sistema di IR :
interpreta il contento di documenti Æ costruisce una rappresentazione
„ genera un ordinamento (ranking) che riflette la rilevanza stimata
„ Bordogna,
Concetto
rilevanza molto importante
Gloria
Corsodi
di Sistemi
„
Informativi III, Università di Bergamo
11
Definizione di Information Retrieval
“IR is the name for the process or method whereby a prospective user of
information is able to convert his need for information into an actual list
of citations to documents in storage containing information useful to him.
(. .. ). IR embraces the intellectual aspects of the description of
information and its specification for search, and also whatever systems,
techniques, and machines that are employed to carry out the operation”.
[Mooers 1951].
IR è la disciplina informatica che si occupa della memorizzazione e del
reperimento di documenti; il suo obbiettivo è la realizzazione di sistemi
software che permettano la memorizzazione di ingenti quantità di
documenti in un archivio, in modo tale da permettere un’efficiente
reperimento dei documenti rilevanti alle necessità informative degli
utenti.
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
12
Information Retrieval
„
„
Finalità: rappresentazione, memorizzazione, organizzazione, e
accesso a elementi d’informazione (documenti – testuali o
multimediali)
Problemi:
„ la rappresentazione del contenuto informativo dei documenti
„
„
„
(consideremo documenti testuali)
l’interpretazione delle necessità informative dell’utente
Esempio:
„ “trova tutti i documenti contenenti informazioni relative alla
diagnosi delle malattie esantematiche nei bambini a cura di
associazioni pediatriche italiane”
Obiettivo primario di un sistema di IR :
„
“Reperire tutti i documenti che sono rilevanti per l’utente
trascurando i documenti non rilevanti.”
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
13
Information Retrieval: le
“radici” dei motori di ricerca.
I motori di ricerca sono sistemi software intensivamente
usati su Web.
Cio’ che molti non sanno è che essi rappresentano la punta
dell’iceberg dell’Information Retrieval, una disciplina fondata
alla fine degli anni sessanta.
Motori di
ricerca
Information
Retrieval
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
14
Ricerca su Web e Information
Retrieval
Classica ricerca in IR
1970s
1980s
1990s
2000s
….sopraggiunge il web
web searching
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
15
Ambiti di sviluppo e contesti applicativi
dell’IR
„
Digital Libraries
„
„
Produttori/Venditori di basi di dati:
„
„
„
„
„
„
„
Online Public Access Catalogs (OPAC)
„ NOTIS della Endeavor IS, Millennium della Innovative Interface
Inc., Excalibur della EOSi
DIALOG www.dialog.com (500 databases es: New York times),
LEXIS (documenti legali), NEXIS (documenti su editoria e commercio)
(1.3 miliardi di documenti, 1.3 milioni di utenti, 120 milioni di ricerche
all’anno)
OCLC (Online Computer Library Center 70 databases e 1.5 millioni di
articoli completi (full text))
H.W. Wilson (40 database per la scuola)
National Library of Medicine (Medline database)
Web (search engines: Altavista, Google, Yahoo, ecc
E-commerce (Amazon, case editrici, ecc.)
Modalità di reperimento delle informazioni
Tecnologia Pull
„
„
L’utente richiede
esplicitamente le
informazioni in modalità
interattiva
3 modalità
„
„
„
Browsing (ipertesti)
Retrieval (sistemi di IR)
Browsing e retrieval
(librerie digitali e ricerche
su web)
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
Tecnologia Push
„
L’utente viene
automaticamente
aggiornato con
informazioni di possibile
interesse
„
agenti software
„
„
esempio: servizi di news,
e-commerce
filtering (retrieval)
fornisce all’utente
informazioni rilevanti per
un utilizzo differito 17
Principali tipologie di sistemi per
l’accesso a informazioni
„
Sistemi di Information Retrieval (Motori di ricerca)
Richiedono
„
La formulazione di una “query”
Sistemi di Information Filtering
Profili utente, cioè descrizioni di esigenze specifiche
Richiedono
dinamicamente aggiornate, anche sulla base del
comportamento dell’utente (NO QUERY)
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
18
Modalità di Interazione
Retrieval
Archivio
Browsing
ƒRetrieval
ƒintenzionale (Query)
ƒBrowsing
ƒnon intenzionale
ƒgiro d’Italia, Passo del Tonale, turismo
Obbiettivo primario di un sistema di IR:
“Reperire tutti i documenti che sono rilevanti per l’utente e
minimizzando il reperimento di documenti non rilevanti.”
COME???
Glossario
Documento (d): unità di informazione reperibile, espressa in formato libero
(senza l’applicazione di schemi o formati specifici). I documenti hanno un
contenuto informativo.
• IR TESTUALE Æ articoli scientifici, lettere, articoli di quotidiani, legende di
immagini o grafici, trascrizioni di audio
• IR MULTIMEDIALE Æ immagini, grafici, audio (parlato o non parlato), o video, .
. . , memorizzato in formato digitale
Archivio (D) : insieme di documenti accessibili per mezzo di un IRS; può essere
statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il Web), centralizzato o
distribuiti
Ingente dimensione: i sistemi distribuiti e la diffusione di supporti di memoria
come i CD-ROM hanno permesso la creazione di grandissime basi di
documenti (archivi) (p.e. da 106 a 109 di documenti). Questa è la dimensione
tipica degli archivi gestiti in IR;
Necessità infomativa (q):
(q) una necessità di informazione utile alla soluzione di
un problema, o di risorse utili per un dato obiettivo;
Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di un
documento
in accordo all’opinione dell’utente, rispetto a una query.
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
20
GIS: caratteristiche
„
Obbiettivi: acquisizione, memorizzazione, analisi,
„
Problemi
retrieval
e
visualizzazione
di
informazioni
strutturate mappate sul territorio (georiferite o
georeferenziate)
„
la rappresentazione integrata di informazione
spaziale multisorgente
„
„
„
(GPS, Immagini da satellite, fotografie aeree, mappe
cartacee)
l’analisi delle relazioni spaziali finalizzata alla
scoperta di nuove informazioni
Esempio:
„
trova tutti i ristoranti vicini a una fermata della
metropolitana o adiacenti a una via a scorrimento veloce
nella zona Nord di Milano.
Breve storia dei GIS
I GIS (Sistemi Informativi
Geografici) nascono dalla
necessità di automatizzare la
produzione di mappe del territorio
a partire da cartografia, e
fotogrammetria
Il primo GIS nasce nel 1963 in Canada
(Canada
Geographic
Information
System diretto da R. Tomlinson) per
gestire mappe tematiche del territorio in
modo più efficiente, successivamente in
USA e UK (enfasi sulle mappe)
„
Dall’1980 sviluppo primi SW
commerciali: ESRI e Intergraph
„
GIS
Nel 1987 nasce la prima rivista sui GIS
: “International Journal of Geographical
Information
Systems”,
associazioni
OGC, AGILE,
„
Anni 1900-2000 Inizia la ricerca sui
GIS: strutture dati e indici spaziali,
abstract spatial data types, oggetti dai
confini sfocati,
„
„
Dal 2000 Web GIS, SDI, GIR
DB v.s. GIS
ƒInformazione strutturata georiferita
ƒInformazione strutturata è costituita da attributi tematici
(dati classici, ad esempio: densità di popolazione, rete
viaria, ecosistemi, dati epidemiologici, inquinanti).
ƒTali temi sono mappati sul territorio
ƒcomporta la delimitazione di entità spaziali o
definizione di campi;
ƒla componente spaziale è spesso la chiave di accesso
ƒGIS:
ƒIl nucleo di un GIS è un DBMS esteso
ƒIl modello dei dati è esteso in modo da gestire dati
geometrici
ƒil linguaggio di query integra operazioni spaziali
ƒdeve
supportare
un’efficiente
accesso
e
memorizzazione dei dati spaziali, usa indici spaziali
GIS: caratteristiche
Un G.I.S. è uno strumento che permette di rappresentare e
memorizzare, interrogare, analizzare e visualizzare
informazioni (su entità o eventi) che si verificano sul
territorio.
„
Oltre alle funzionalità di un DBMS tradizionale, le funzionalità proprie
di un G.I.S. sono l’acquisizione, l’elaborazione, l’analisi e
l’integrazione di dati territoriali multisorgente.
„
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
24
GIS : Integrazione di dati
multisorgente
Rete viaria
Rete idrica
DEM
GIS
Mappa di pericolosità
Mappa topografica
Mappa geologica
Immagine Landsat
L’integrazione delle informazioni spaziali richiede spesso
operazioni complesse: Proiezione, overlay, aggregazione ecc.
Gloria Bordogna, Corso di Sistemi
Informativi III, Università di Bergamo
25
GIS : tematiche di ricerca
Problematiche principali
ƒrappresentare e processare dati territoriali
ƒfunzionalità tipiche sia degli strumenti di image
processing sia dei sistemi CAD
Nuove problematiche dei GIS
ƒRappresentazione dell’imprecisione dell’informazione
spaziale (entità spaziali dai confini sfumati, non netti)
ƒRappresentazione di Informazioni georiferite che
evolvono nel tempo (informazioni spazio-temporali)
ƒRappresentazione di Informazioni tridimensionali
ƒIntegrazione dei GIS nel Web (linguaggi di
descrizione di dati georiferiti, webservices)
ƒLocation Based Services
ƒGIR
ƒInfrastrutture di dati spaziali
Link utili
„
IRS
http://www.dcs.gla.ac.uk/essir/ European Summer School on
IR
http://trec.nist.gov/ Text REtrieval Conference
http://www.w3.org/DOM/ Document Object Model
specifications of the World Wide Web Consortium W3C
„
„
„
„
GIS
http://www.ucgis.org/ University Consortium for Geographic
Information Science
„
„
http://www.opengeospatial.org/ Open Geospatial Consortium