SISTEMI INFORMATIVI III Gloria Bordogna CNR IDPA Via Pasubio 5, c/o POINT, Dalmine (BG) e-mail: [email protected] Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 1 Libri di testo per IR Modern Information Retrieval, R. Baeza-yates and B. Ribeiro-Neto., Addison-Wesley and ACM Press, 1999, ISBN: 0-20139829-X Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2007. http://www-csli.stanford.edu/~schuetze/information-retrievalGloria Bordogna, Corso di Sistemi book.html Informativi III, Università di Bergamo 2 Libro di testo per i GIS Spatial Databases with Application to GIS, Philippe Rigaux, Michel Scholl, Agnes Voisard, Morgan Kaufmann, Hardcover, 2 edizione, 2001, 410 ppp, ISBN 1558605886 Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 3 Altri testi di riferimento – G. Salton, M.J. McGill, Introduction to Modern IR, Mc Graw Hill, 1989. – P.A. Burrough, R.A. McDonnell, Principles of Geogaphical Information Systems, Spatial Information Systems and Geostatistics, Oxford Univ. Press, 1986 Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 4 Argomenti trattati titolo della lezione Introduzione all'IR e ai GIS: tipi di dati, differenza rispetto ai DB tradizionali, indirizzi di ricerca Processo di IR - documenti - struttura e formati Indicizzazione di testi - tecniche e analisi lessicale e thesauri Indicizzazione di testi - analisi statistica e sintattica Indicizzazione di Immagini e geografica Strutture dati per testi: file inverted e ricerche semplici fuzzy Modello Booleano di IR Modello vettoriale di IR VACANZE PASQUALI modello probabilistico Modelli Booleani estesi Fuzzy Modelli Vettoriali estesi (Pnorm , LSA) IR associativo (analisi globale e modello HEAP) IR associativi basati su classificazione, clustering IR associativo (analisi locale e feedback di rilevanza) 1) esercitazione: La libreria Lucene per IR IR distribuito : architetture e componenti 2) esercitazione:costruzione di una struttura a file inverted con Lucene IR su Web - motori di ricerca e modelli di calcolo della rilevanza per pagine web 3) esercitazione: ricerche con Lucene Criteri e metodi di valutazione di sistemi di IR 4) esercitazione: IR Geografico: Gazeteer, Riconoscimento Entità Nominali, Query spaziale, file Map di Output, GIS: funzionalità, Web GIS, Infrastrutture di dati spaziali, cataloghi di metadati e geoservizi Componenti, funzionalità e modelli di dati spaziali nei GIS Metodi per dati spaziali astratti - operazioni spaziali Indici per dati spaziali Valutazione Prova scritta : •Domande su aspetti teorici e Esercizi •2/3 relativi a IR •1/3 relativo ai GIS Prova Orale : (ammissione subordinata all’esito positivo dello scritto: esito scritto>=18/30) •Possibilità di produrre un elaborato da discutere •Discussione dello scritto •Domande su argomenti del corso NB: per sostenere l’esame è necessario averlo incluso nel piano di studi ed essersi iscritti sia allo scritto sia all’orale Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 6 Componenti dell’ Information Retrieval Due componenti principali Sorgente di informazioni = archivio di documenti Qualcuno con necessità informative Attività Decisionale Interpretazione soggettiva Interpretazione soggettiva terza componente Intermediario che interpreta le necessità informative dell’utente e stima la rilevanza Gloria Bordogna, Corso di Sistemi dei documenti rispetto a tali necessità. Informativi III, Università di Bergamo 7 Gestione automatica dell’informazione NUMERI, CODICI, SEGNALI TESTI espressi in linguaggio naturale FORMA DELL’ INFORMAZIONE SUONI e Registrazioni audio e video GRAFICI, IMMAGINI, MAPPE Problema tecnico: GESTIONE AUTOMATICA DELL'INFORMAZIONE Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo come rappresentare e manipolare l'informazione negli elaboratori? Æ efficienza Problema semantico: il modo in cui l'informazione viene sintetizzata e memorizzata conserva il suo significato originario? Æ efficacia 8 Il problema dell’accesso automatico all’ informazione Sviluppo di sistemi che aiutino l’utente a identificare informazioni rilevanti (pertinenti) alle loro necessità (informare: ridurre l’ignoranza). La definizione di tali sistemi è basata sulla soluzione di un problema decisionale: come identificare e “ordinare” informazione che soddisfi le preferenze dell’utente? Occorre: * interpretare il contenuto di testi, immagini, video, audio * interpretare le esigenze dell’utente Ruolo centrale della nozione di rilevanza: rilevanza la rilevanza è una proprietà soggettiva: difficile da definire e da misurare! Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 9 IRS, GIS, GIR v.s. DBMS DBMS sono nati dalla necessità di gestione di crescenti quantità di informazioni strutturate relative ad applicazioni aziendali tradizionali IRS (Sistemi di Information Retrieval) sono nati dalla necessità di gestire, classificare, accedere libri e articoli nelle librerie, quindi grandi quantità di testi GIS (Sistemi Informativi Geografici) sono necessità di rappresentare, gestire, informazioni strutturate territoriali nati dalla analizzare GIR (Sistemi di Information Retrieval Geografici) sono nati dalla necessità di accedere a documenti gestendone il contenuto geografico Sistemi di Information Retrieval vs Sistemi per la gestione di basi di dati DBMS Information retrieval Reperimento di dati che soddisfano condizioni di selezione rigide, espresse mediante un linguaggio di interrogazione (V,F) Semantica dei dati e delle condizioni ben definita (algebra relazionale) Una singolo dato erroneo implica il fallimento della ricerca! Reperimento di informazioni circa un argomento o un tema Semantica delle richieste e dei documenti vaga/imprecisa. Piccoli errori nei risultati sono tollerabili (incertezza) Un Sistema di IR : interpreta il contento di documenti Æ costruisce una rappresentazione genera un ordinamento (ranking) che riflette la rilevanza stimata Bordogna, Concetto rilevanza molto importante Gloria Corsodi di Sistemi Informativi III, Università di Bergamo 11 Definizione di Information Retrieval “IR is the name for the process or method whereby a prospective user of information is able to convert his need for information into an actual list of citations to documents in storage containing information useful to him. (. .. ). IR embraces the intellectual aspects of the description of information and its specification for search, and also whatever systems, techniques, and machines that are employed to carry out the operation”. [Mooers 1951]. IR è la disciplina informatica che si occupa della memorizzazione e del reperimento di documenti; il suo obbiettivo è la realizzazione di sistemi software che permettano la memorizzazione di ingenti quantità di documenti in un archivio, in modo tale da permettere un’efficiente reperimento dei documenti rilevanti alle necessità informative degli utenti. Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 12 Information Retrieval Finalità: rappresentazione, memorizzazione, organizzazione, e accesso a elementi d’informazione (documenti – testuali o multimediali) Problemi: la rappresentazione del contenuto informativo dei documenti (consideremo documenti testuali) l’interpretazione delle necessità informative dell’utente Esempio: “trova tutti i documenti contenenti informazioni relative alla diagnosi delle malattie esantematiche nei bambini a cura di associazioni pediatriche italiane” Obiettivo primario di un sistema di IR : “Reperire tutti i documenti che sono rilevanti per l’utente trascurando i documenti non rilevanti.” Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 13 Information Retrieval: le “radici” dei motori di ricerca. I motori di ricerca sono sistemi software intensivamente usati su Web. Cio’ che molti non sanno è che essi rappresentano la punta dell’iceberg dell’Information Retrieval, una disciplina fondata alla fine degli anni sessanta. Motori di ricerca Information Retrieval Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 14 Ricerca su Web e Information Retrieval Classica ricerca in IR 1970s 1980s 1990s 2000s ….sopraggiunge il web web searching Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 15 Ambiti di sviluppo e contesti applicativi dell’IR Digital Libraries Produttori/Venditori di basi di dati: Online Public Access Catalogs (OPAC) NOTIS della Endeavor IS, Millennium della Innovative Interface Inc., Excalibur della EOSi DIALOG www.dialog.com (500 databases es: New York times), LEXIS (documenti legali), NEXIS (documenti su editoria e commercio) (1.3 miliardi di documenti, 1.3 milioni di utenti, 120 milioni di ricerche all’anno) OCLC (Online Computer Library Center 70 databases e 1.5 millioni di articoli completi (full text)) H.W. Wilson (40 database per la scuola) National Library of Medicine (Medline database) Web (search engines: Altavista, Google, Yahoo, ecc E-commerce (Amazon, case editrici, ecc.) Modalità di reperimento delle informazioni Tecnologia Pull L’utente richiede esplicitamente le informazioni in modalità interattiva 3 modalità Browsing (ipertesti) Retrieval (sistemi di IR) Browsing e retrieval (librerie digitali e ricerche su web) Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo Tecnologia Push L’utente viene automaticamente aggiornato con informazioni di possibile interesse agenti software esempio: servizi di news, e-commerce filtering (retrieval) fornisce all’utente informazioni rilevanti per un utilizzo differito 17 Principali tipologie di sistemi per l’accesso a informazioni Sistemi di Information Retrieval (Motori di ricerca) Richiedono La formulazione di una “query” Sistemi di Information Filtering Profili utente, cioè descrizioni di esigenze specifiche Richiedono dinamicamente aggiornate, anche sulla base del comportamento dell’utente (NO QUERY) Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 18 Modalità di Interazione Retrieval Archivio Browsing Retrieval intenzionale (Query) Browsing non intenzionale giro d’Italia, Passo del Tonale, turismo Obbiettivo primario di un sistema di IR: “Reperire tutti i documenti che sono rilevanti per l’utente e minimizzando il reperimento di documenti non rilevanti.” COME??? Glossario Documento (d): unità di informazione reperibile, espressa in formato libero (senza l’applicazione di schemi o formati specifici). I documenti hanno un contenuto informativo. • IR TESTUALE Æ articoli scientifici, lettere, articoli di quotidiani, legende di immagini o grafici, trascrizioni di audio • IR MULTIMEDIALE Æ immagini, grafici, audio (parlato o non parlato), o video, . . . , memorizzato in formato digitale Archivio (D) : insieme di documenti accessibili per mezzo di un IRS; può essere statico (p.e. CD-ROM) o dinamico (p.e. librerie digitali e il Web), centralizzato o distribuiti Ingente dimensione: i sistemi distribuiti e la diffusione di supporti di memoria come i CD-ROM hanno permesso la creazione di grandissime basi di documenti (archivi) (p.e. da 106 a 109 di documenti). Questa è la dimensione tipica degli archivi gestiti in IR; Necessità infomativa (q): (q) una necessità di informazione utile alla soluzione di un problema, o di risorse utili per un dato obiettivo; Rilevanza (RSV o Retrieval Status Value): ≈ pertinenza, utilità di un documento in accordo all’opinione dell’utente, rispetto a una query. Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 20 GIS: caratteristiche Obbiettivi: acquisizione, memorizzazione, analisi, Problemi retrieval e visualizzazione di informazioni strutturate mappate sul territorio (georiferite o georeferenziate) la rappresentazione integrata di informazione spaziale multisorgente (GPS, Immagini da satellite, fotografie aeree, mappe cartacee) l’analisi delle relazioni spaziali finalizzata alla scoperta di nuove informazioni Esempio: trova tutti i ristoranti vicini a una fermata della metropolitana o adiacenti a una via a scorrimento veloce nella zona Nord di Milano. Breve storia dei GIS I GIS (Sistemi Informativi Geografici) nascono dalla necessità di automatizzare la produzione di mappe del territorio a partire da cartografia, e fotogrammetria Il primo GIS nasce nel 1963 in Canada (Canada Geographic Information System diretto da R. Tomlinson) per gestire mappe tematiche del territorio in modo più efficiente, successivamente in USA e UK (enfasi sulle mappe) Dall’1980 sviluppo primi SW commerciali: ESRI e Intergraph GIS Nel 1987 nasce la prima rivista sui GIS : “International Journal of Geographical Information Systems”, associazioni OGC, AGILE, Anni 1900-2000 Inizia la ricerca sui GIS: strutture dati e indici spaziali, abstract spatial data types, oggetti dai confini sfocati, Dal 2000 Web GIS, SDI, GIR DB v.s. GIS Informazione strutturata georiferita Informazione strutturata è costituita da attributi tematici (dati classici, ad esempio: densità di popolazione, rete viaria, ecosistemi, dati epidemiologici, inquinanti). Tali temi sono mappati sul territorio comporta la delimitazione di entità spaziali o definizione di campi; la componente spaziale è spesso la chiave di accesso GIS: Il nucleo di un GIS è un DBMS esteso Il modello dei dati è esteso in modo da gestire dati geometrici il linguaggio di query integra operazioni spaziali deve supportare un’efficiente accesso e memorizzazione dei dati spaziali, usa indici spaziali GIS: caratteristiche Un G.I.S. è uno strumento che permette di rappresentare e memorizzare, interrogare, analizzare e visualizzare informazioni (su entità o eventi) che si verificano sul territorio. Oltre alle funzionalità di un DBMS tradizionale, le funzionalità proprie di un G.I.S. sono l’acquisizione, l’elaborazione, l’analisi e l’integrazione di dati territoriali multisorgente. Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 24 GIS : Integrazione di dati multisorgente Rete viaria Rete idrica DEM GIS Mappa di pericolosità Mappa topografica Mappa geologica Immagine Landsat L’integrazione delle informazioni spaziali richiede spesso operazioni complesse: Proiezione, overlay, aggregazione ecc. Gloria Bordogna, Corso di Sistemi Informativi III, Università di Bergamo 25 GIS : tematiche di ricerca Problematiche principali rappresentare e processare dati territoriali funzionalità tipiche sia degli strumenti di image processing sia dei sistemi CAD Nuove problematiche dei GIS Rappresentazione dell’imprecisione dell’informazione spaziale (entità spaziali dai confini sfumati, non netti) Rappresentazione di Informazioni georiferite che evolvono nel tempo (informazioni spazio-temporali) Rappresentazione di Informazioni tridimensionali Integrazione dei GIS nel Web (linguaggi di descrizione di dati georiferiti, webservices) Location Based Services GIR Infrastrutture di dati spaziali Link utili IRS http://www.dcs.gla.ac.uk/essir/ European Summer School on IR http://trec.nist.gov/ Text REtrieval Conference http://www.w3.org/DOM/ Document Object Model specifications of the World Wide Web Consortium W3C GIS http://www.ucgis.org/ University Consortium for Geographic Information Science http://www.opengeospatial.org/ Open Geospatial Consortium