Tipologia dei dati e organizzazione delle informazioni Sistemi di indicizzazione e recupero 5. Database e Information Retrieval Navigazione • per associazione ipertesti/ipermedia l’utente naviga nello spazio dei documenti alla ricerca dei nodi di interesse 1 RICERCA Ricerca della risposta esatta es. quanti sono i siti Web a marzo 2005? Ricerca esplorativa Tutto es. articoli, manuali su progettazione di siti Web Qualcosa di simile Mezzi di ricerca su WEB: Il risultato preciso navigare (percorrere link), ricercare (immettere interrogazioni), domandare (e-mail, chat) Recuperare i documenti che soddisfano condizioni chiaramente definite Es: i clienti di una banca che hanno una giacenza media di C/C nel 2004 superiore a 5000 euro E’ DIVERSO DA Recuperare i documenti che contengono informazioni su un determinato argomento ES: turismo culturale 2 Ricerca • Per valore esatto → DBMS si cercano i “record” i cui “campi” soddisfano un certo valore • Per contenuto semantico → IRS si cercano documenti che contengono parole o frasi di interesse per l’utente DATA BASE MANAGEMENT SYSTEM (DBMS) È un sistema software in grado di memorizzare, mantenere e recuperare l’informazione L’informazione è strutturata Il recupero avviene mediante confronto di valori di query con il contenuto di campi indice 3 Information Retrieval System (IRS) È un sistema software in grado di memorizzare, mantenere e recuperare l’informazione L’informazione non è strutturata (testi e multimedia) Il recupero avviene mediante elaborazione di query espresse in un linguaggio di interrogazione e il confronto con descrittori di documenti estratti da questi con procedure di analisi DBMS e IRS • Sistemi capaci di memorizzare, gestire e recuperare dati sulla base di richieste dell’utente • In entrambi i casi, l'archivio è costituito da una collezione di informazioni correlate 4 Cos'è un database? • Un db e' un insieme di dati strutturati e permanenti, • raggruppati per insiemi omogenei in relazione tra loro, • organizzati con la minima ridondanza per essere usati da applicazioni diverse, in modo controllato. Caratteristiche la ridondanza e' minima e controllata: e' assicurata la consistenza delle informazioni i dati sono disponibili per utenze diverse e concorrenti (anche contemporanee):es. prenotazione aerei i dati sono controllati: protetti da malfunzionamenti hardware e software indipendenza dei dati dal programma dal programma che li gestisce 5 Cos’e’ un DBMS? • un DBMS e' un insieme di programmi che permettono di creare, usare e gestire un db • quindi un DBMS e' un sistema software che facilita il processo di definizione, costruzione e manipolazione del database per varie applicazioni Creazione di un database • Tre fasi: definizione creazione/popolazione gestione 6 Creazione di un database Creazione di un database 7 Creazione di un database Creazione di un database 8 Interrogazione di un db SELECT [Nome], [Cognome], [Indirizzo], [Città] FROM Studenti WHERE [Cognome]="Rossi"; Interrogazione di un db • L'efficacia della query dipende da: • conoscenza del contenuto del db • esperienza del linguaggio di interrogazione • Ma anche • semplicità ed efficacia dell'interfaccia di interrogazione 9 Cos’e’ un sistema di Information Retrieval? Un sistema di Information Retrieval (IRS) e’ un sistema capace di gestire archivi di documenti di grandi dimensioni. Permette all’utente la memorizzazione, la ricerca, il recupero e la visualizzazione dei documenti che soddisfano le sue richieste query documenti indicizzazione indicizzazione query indicizzata indici documenti matching documenti recuperati 10 query documenti indicizzazione indicizzazione indici documenti query indicizzata matching Documenti costituiscono l’input per l’archivio documenti recuperati query documenti indicizzazione indicizzazione query indicizzata indici documenti matching documenti recuperati Query • esprime la necessita’ di informazioni dell’utente • puo’ essere espressa in linguaggio naturale • presenza di operatori Booleani 11 query documenti indicizzazione indicizzazione • consiste nell’assegnare a ciascun documento un insieme di termini indice o parole chiave (index e keyword) capaci di caratterizzarlo per contenuto • manuale vs automatica • controllata vs non controllata • stop-word indici documenti query indicizzata matching documenti recuperati query Indicizzazione documenti indicizzazione indicizzazione query indicizzata indici documenti matching documenti recuperati Matching • consiste nel confronto tra i termini indice della query e quelli dei documenti dell’archivio e porta al recupero dei documenti pertinenti • esatto vs parziale 12 query documenti indicizzazione indicizzazione query indicizzata indici documenti Documenti recuperati matching documenti recuperati documento Accenti, spazi, etc. • come si valuta? • solo l’utente puo’ dire se sono pertinenti • pero’ non sa se sono tutti • efficacia vs efficienza Stop words Sostantivi Stemming Indicizzazione automatica o manuale testo Riconoscimento della struttura Full text Termini indice La vista logica di un documento: Dal full text ai termini indice 13 Parola A Frequenza 2.186.369 Rank 5 Abandon 4.249 2107 Abbey 1.110 5204 Ability 10.468 966 Able 30.454 321 Frequenza x Rank = Costante (legge di Zipf) Recall & Precision Rilevante, Recuperato Rilevante, non Recuperato Non rilevante, Recuperato Non Rilevante, Non recuperato 14 Rilevanti e Recuperati Tutti i documenti Retrieved Relevant Precision vs. Recall Precision = | RelRetrieved | | Retrieved | Recall = | RelRetrieved | | Rel in Collection | All docs Retrieved Relevant 15 Very high precision, very low recall Relevant Very low precision, very low recall (0 in fact) Relevant 16 High recall, but low precision Relevant Retrieved vs. Relevant Documents High precision, high recall (at last!) Relevant 17 Precision/Recall Curves • Difficult to determine which of these two hypothetical results is better: precision x x x x recall Livelli di CUT OFF • Un modo differente di valutare – Fissare il numero di documenti recuperati a differenti livelli • top 5 • top 10 • top 20 • top 50 • top 100 • top 500 – Misurare la precisione a ciascun livello – Prendere la media (pesata) dei risultati • In questo modo si può valutare l’efficacia con cui un sistema ordina I primi k documenti 18 Ricerca efficace query + navigazione ⇓ integrazione di paradigmi Database di immagini 19 E’ più facile fotografare una scena che una fotografia E’ più facile fotografare una scena che digitalizzare una fotografia 20 Costruire un database di immagini digitali 1 : Quali sono i fattori che determinano la qualità dell’immagine digitale? 2 : Quale livello di qualità è realmente necessario? Alta qualità produce immagini versatili ma files voluminosi e difficili da gestire Bassa qualità significa gestione più facile ma spesso impedisce l’uso in contesti quali editoria o mostre Decidere il livello di qualità implica un’analisi accurata degli usi previsti a medio e lungo termine TONI (i gradi di luminosità, range dinamico) DETTAGLI (la definizione dei particolari, sharpness, risoluzione spaziale) COLORE (intento percettivo, intento colorimetrico) Non esistono Guidelines o Standard accettati per determinare il livello di qualità necessario per la creazione di un archivio digitale nei progetti di digitalizzazione di collezioni fotografiche a scopo conservativo e per consentirne l’accesso.. 21 Più complicato Non si conoscono a priori gli usi Digitalizzare per un archivio Non si conoscono i cambiamenti tecnologici Pratica accettata: Digitalizzare per pre-print Immagine Master a cui assicurare qualità e longevità Immagini derivate per l’accesso e la comunicazione Si possono calcolare esattamente i parametri con formule matematiche La differenza è fondamentale 22 Le immagini sono usualmente documenti “passivi”, considerati come un’appendice di documenti testuali. Esempio: soggetto: collezione di opere d’arte •schede che descrivono l’opera Boccale ceramica 1745 Faenza decoro geometrico •immagini digitali che ritraggono l’opera Un’immagine può anche essere descritta da un insieme di attributi che la identificano e la descrivono “di per sé” . Esempi di attributi sono: fotografo (es. Mario Rossi) data foto tipo foto soggetto supporto Esempio : www.edu.Alinari.it 23 Esempio: Creazione di archivi di immagini digitali di opere d’arte DUE PASSI: .Passo 1: creare le immagini digitali ♦A PARTIRE DA IMMAGINI SURROGATO oppure ♦A PARTIRE DALL’OPERA ORIGINALE .Passo 2: associare le immagini a un database I campi descrivono L’OPERA e ♦L’IMMAGINE SURROGATO LA DOCUMENTAZIONE DA GESTIRE INFORMAZIONI SULL’OPERA ORIGINALE INFORMAZIONI SULLA RAPPRESENTAZIONE FOTOGRAFICA (IMMAG. SURROGATO) INFORMAZIONI SULL’IMMAGINE DIGITALE (DOCUMENTAZIONE TECNICA) OPERA DESCRIZIONE INDICI IMMAGINE SURROGATO DESCRIZIONE INDICI IMMAGINE DIGITALE DOCUM. TECNICA 24 N° Plico IdDoc TipoDoc N° Cat. Electa N° Cat. Brera Opera III/3 014224/C col III/165g 180067 S. Giuliano III/3 014224/C col III/165g 180067 S. Giuliano III/3 014225/C col III/165c 180067 Madonna III/3 014225/C col III/165c 180067 Madonna III/3 014226/C col III/165d 180067 Cristo in pietà III/3 014226/C col III/165d 180067 Cristo in pietà III/3 014227/C col III/165e 180067 S. Giovanni III/3 014227/C col III/165e 180067 S. Giovanni III/3 014228/C col III/165b 180067 S. Girolamo III/3 014228/C col III/165b 180067 S. Girolamo III/3 014229/C col III/165a 180067 S. Daniele da Padova III/3 014229/C col III/165a 180067 S. Daniele da Padova III/3 039964/CE col III/165 180067 Polittico di S. Luca III/3 039964/CE col III/165 180067 Polittico di S. Luca III/3 089524/CE col III/178 88954 S. Girolamo III/3 089524/CE col III/178 88954 III/3 069366/C III/166 180068 S. Girolamo Cristo morto nel sepolcro e tre dolenti col Autore Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Mantegna Andrea Montagna Bartolomeo Montagna Bartolomeo Mantegna Andrea Id. File DimFile StatoFile N°CD Dim. Operatore Stampa 014224/C 32,3 definitivo 47 014224/W 7,8 definitivo 47 A4 giuseppe A4 giuseppe 014225/C 13,3 definitivo 47 A4 giuseppe 014225/W 2,8 definitivo 47 A4 giuseppe 014226/C 27,3 definitivo 47 A4 giuseppe 014226/W 6,5 definitivo 47 A4 giuseppe 014227/C 13,6 definitivo 47 A4 giuseppe 014227/W 3,1 definitivo 47 A4 giuseppe 014228/C 29 provvisorio A4 giuseppe 014228/W 6,9 provvisorio A4 giuseppe 014229/C 30,2 provvisorio A4 giuseppe 014229/W 7 provvisorio A4 giuseppe 039964/CE 59,4 definitivo 47 A3 giuseppe 039964/W 14,4 definitivo 47 A3 giuseppe 089524/CE 29,3 definitivo 48 A4 089524/W 6,4 definitivo 48 A4 36,7 definitivo 48 A4 069366/C Il database associato alla collezione di Brera 25 26 http://pro.corbis.com/default.aspx 27 Esercizio n.4 Dato un database di 1000 documenti, dei quali 6 sono rilevanti, Se vengono recuperati 5 documenti di cui 3 rilevanti e 2 non rilevanti Cosa sono Recall e Precision? Calcolare Recall e Precision in altre due situazioni a vostra scelta 28