Tipologia dei dati e organizzazione delle informazioni
Sistemi di indicizzazione e recupero
5.
Database e Information Retrieval
Navigazione
• per associazione
ipertesti/ipermedia
l’utente naviga nello
spazio dei documenti
alla ricerca dei nodi di
interesse
1
RICERCA
Ricerca della risposta esatta
es. quanti sono i siti Web a marzo 2005?
Ricerca esplorativa
Tutto
es. articoli, manuali su progettazione di
siti Web
Qualcosa di simile
Mezzi di ricerca su WEB:
Il risultato preciso
navigare (percorrere link), ricercare (immettere interrogazioni),
domandare (e-mail, chat)
Recuperare i
documenti che
soddisfano condizioni
chiaramente definite
Es: i clienti di
una banca che
hanno una
giacenza media
di C/C nel 2004
superiore a 5000
euro
E’ DIVERSO DA
Recuperare i documenti che
contengono informazioni su
un determinato argomento
ES: turismo
culturale
2
Ricerca
• Per valore esatto
→ DBMS
si cercano i “record” i cui “campi” soddisfano un
certo valore
• Per contenuto semantico → IRS
si cercano documenti che contengono parole o frasi
di interesse per l’utente
DATA BASE MANAGEMENT SYSTEM
(DBMS)
È un sistema software in grado di
memorizzare, mantenere e recuperare
l’informazione
L’informazione è strutturata
Il recupero avviene mediante
confronto di valori di query
con il contenuto di campi indice
3
Information Retrieval System
(IRS)
È un sistema software in grado di
memorizzare, mantenere e recuperare
l’informazione
L’informazione non è strutturata (testi e
multimedia)
Il recupero avviene mediante
elaborazione di query espresse
in un linguaggio di interrogazione e il confronto
con descrittori di documenti estratti da questi
con procedure di analisi
DBMS e IRS
• Sistemi capaci di memorizzare, gestire e
recuperare dati sulla base di richieste dell’utente
• In entrambi i casi, l'archivio è costituito da una
collezione di informazioni correlate
4
Cos'è un database?
• Un db e' un insieme di dati strutturati e
permanenti,
• raggruppati per insiemi omogenei in relazione
tra loro,
• organizzati con la minima ridondanza per essere
usati da applicazioni diverse, in modo
controllato.
Caratteristiche
ƒ la ridondanza e' minima e controllata: e' assicurata la
consistenza delle informazioni
ƒ i dati sono disponibili per utenze diverse e concorrenti
(anche contemporanee):es. prenotazione aerei
ƒ i dati sono controllati: protetti da malfunzionamenti
hardware e software
ƒ indipendenza dei dati dal programma dal programma che
li gestisce
5
Cos’e’ un DBMS?
• un DBMS e' un insieme di programmi che
permettono di creare, usare e gestire un db
• quindi un DBMS e' un sistema software che
facilita il processo di definizione, costruzione e
manipolazione del database per varie
applicazioni
Creazione di un database
• Tre fasi:
ƒ definizione
ƒ creazione/popolazione
ƒ gestione
6
Creazione di un database
Creazione di un database
7
Creazione di un database
Creazione di un database
8
Interrogazione di un db
SELECT [Nome], [Cognome], [Indirizzo],
[Città]
FROM Studenti
WHERE [Cognome]="Rossi";
Interrogazione di un db
• L'efficacia della query dipende da:
• conoscenza del contenuto del db
• esperienza del linguaggio di interrogazione
• Ma anche
• semplicità ed efficacia dell'interfaccia di
interrogazione
9
Cos’e’ un sistema di
Information Retrieval?
Un sistema di Information Retrieval (IRS) e’
un sistema capace di gestire archivi di
documenti di grandi dimensioni.
Permette all’utente la memorizzazione, la
ricerca, il recupero e la visualizzazione dei
documenti che soddisfano le sue richieste
query
documenti
indicizzazione
indicizzazione
query
indicizzata
indici
documenti
matching
documenti
recuperati
10
query
documenti
indicizzazione
indicizzazione
indici
documenti
query
indicizzata
matching
Documenti
costituiscono
l’input per
l’archivio
documenti
recuperati
query
documenti
indicizzazione
indicizzazione
query
indicizzata
indici
documenti
matching
documenti
recuperati
Query
• esprime la necessita’
di informazioni
dell’utente
• puo’ essere espressa
in linguaggio
naturale
• presenza di operatori
Booleani
11
query
documenti
indicizzazione
indicizzazione
• consiste nell’assegnare
a ciascun documento
un insieme di termini
indice o parole chiave
(index e keyword)
capaci di
caratterizzarlo per
contenuto
• manuale vs
automatica
• controllata vs non
controllata
• stop-word
indici
documenti
query
indicizzata
matching
documenti
recuperati
query
Indicizzazione
documenti
indicizzazione
indicizzazione
query
indicizzata
indici
documenti
matching
documenti
recuperati
Matching
• consiste nel confronto tra
i termini indice della
query e quelli dei
documenti dell’archivio e
porta al recupero dei
documenti pertinenti
• esatto vs parziale
12
query
documenti
indicizzazione
indicizzazione
query
indicizzata
indici
documenti
Documenti
recuperati
matching
documenti
recuperati
documento
Accenti, spazi, etc.
• come si valuta?
• solo l’utente puo’ dire se
sono pertinenti
• pero’ non sa se sono tutti
• efficacia vs efficienza
Stop words
Sostantivi
Stemming
Indicizzazione automatica
o manuale
testo
Riconoscimento della struttura
Full text
Termini indice
La vista logica di un documento:
Dal full text ai termini indice
13
Parola
A
Frequenza
2.186.369
Rank
5
Abandon
4.249
2107
Abbey
1.110
5204
Ability
10.468
966
Able
30.454
321
Frequenza x Rank = Costante
(legge di Zipf)
Recall & Precision
Rilevante, Recuperato
Rilevante, non Recuperato
Non rilevante, Recuperato Non Rilevante, Non recuperato
14
Rilevanti e Recuperati
Tutti i documenti
Retrieved
Relevant
Precision vs. Recall
Precision =
| RelRetrieved |
| Retrieved |
Recall =
| RelRetrieved |
| Rel in Collection |
All docs
Retrieved
Relevant
15
Very high precision, very low recall
Relevant
Very low precision, very low recall (0 in fact)
Relevant
16
High recall, but low precision
Relevant
Retrieved vs. Relevant Documents
High precision, high recall (at last!)
Relevant
17
Precision/Recall Curves
• Difficult to determine which of these two hypothetical
results is better:
precision
x
x
x
x
recall
Livelli di CUT OFF
• Un modo differente di valutare
– Fissare il numero di documenti recuperati a differenti
livelli
• top 5
• top 10
• top 20
• top 50
• top 100
• top 500
– Misurare la precisione a ciascun livello
– Prendere la media (pesata) dei risultati
• In questo modo si può valutare l’efficacia con cui un sistema
ordina I primi k documenti
18
Ricerca efficace
query
+
navigazione
⇓
integrazione di paradigmi
Database di immagini
19
E’ più facile fotografare una scena che
una fotografia
E’ più facile fotografare una scena che
digitalizzare una fotografia
20
Costruire un database di immagini digitali
1 : Quali sono i fattori che determinano la qualità
dell’immagine digitale?
2 : Quale livello di qualità è realmente necessario?
Alta qualità produce immagini versatili ma files voluminosi e
difficili da gestire
Bassa qualità significa gestione più facile ma spesso
impedisce l’uso in contesti quali editoria o mostre
Decidere il livello di qualità implica un’analisi accurata degli
usi previsti a medio e lungo termine
TONI (i gradi di luminosità, range dinamico)
DETTAGLI (la definizione dei particolari,
sharpness, risoluzione spaziale)
COLORE (intento percettivo, intento
colorimetrico)
Non esistono Guidelines o Standard accettati per determinare il livello di
qualità necessario per la creazione di un archivio digitale nei progetti di
digitalizzazione di collezioni fotografiche a scopo conservativo e per
consentirne l’accesso..
21
Più complicato
Non si conoscono a priori gli usi
Digitalizzare per un
archivio
Non si conoscono i cambiamenti
tecnologici
Pratica accettata:
Digitalizzare per pre-print
Immagine Master a cui assicurare
qualità e longevità
Immagini derivate per l’accesso e
la comunicazione
Si possono calcolare esattamente i
parametri con formule matematiche
La differenza è fondamentale
22
Le immagini sono usualmente documenti “passivi”,
considerati come un’appendice di documenti testuali.
Esempio:
soggetto: collezione di opere d’arte
•schede che descrivono l’opera
Boccale ceramica
1745
Faenza
decoro geometrico
•immagini digitali che ritraggono l’opera
Un’immagine può anche essere descritta da un
insieme di attributi che la identificano e la
descrivono “di per sé” .
Esempi di attributi sono:
ƒfotografo (es. Mario Rossi)
ƒdata foto
ƒtipo foto
ƒsoggetto
ƒsupporto
Esempio : www.edu.Alinari.it
23
Esempio: Creazione di
archivi di immagini digitali di opere d’arte
DUE PASSI:
.Passo 1: creare le immagini digitali
♦A PARTIRE DA IMMAGINI SURROGATO
oppure
♦A PARTIRE DALL’OPERA ORIGINALE
.Passo 2: associare le immagini a un database
I campi descrivono L’OPERA e
♦L’IMMAGINE SURROGATO
LA DOCUMENTAZIONE DA GESTIRE
INFORMAZIONI SULL’OPERA ORIGINALE
INFORMAZIONI SULLA RAPPRESENTAZIONE
FOTOGRAFICA (IMMAG. SURROGATO)
INFORMAZIONI SULL’IMMAGINE DIGITALE
(DOCUMENTAZIONE TECNICA)
OPERA
DESCRIZIONE
INDICI
IMMAGINE
SURROGATO
DESCRIZIONE
INDICI
IMMAGINE
DIGITALE
DOCUM.
TECNICA
24
N° Plico
IdDoc
TipoDoc
N° Cat.
Electa
N° Cat.
Brera
Opera
III/3
014224/C col
III/165g
180067
S. Giuliano
III/3
014224/C col
III/165g
180067
S. Giuliano
III/3
014225/C col
III/165c
180067
Madonna
III/3
014225/C col
III/165c
180067
Madonna
III/3
014226/C col
III/165d
180067
Cristo in pietà
III/3
014226/C col
III/165d
180067
Cristo in pietà
III/3
014227/C col
III/165e
180067
S. Giovanni
III/3
014227/C col
III/165e
180067
S. Giovanni
III/3
014228/C col
III/165b
180067
S. Girolamo
III/3
014228/C col
III/165b
180067
S. Girolamo
III/3
014229/C col
III/165a
180067
S. Daniele da Padova
III/3
014229/C col
III/165a
180067
S. Daniele da Padova
III/3
039964/CE col
III/165
180067
Polittico di S. Luca
III/3
039964/CE col
III/165
180067
Polittico di S. Luca
III/3
089524/CE col
III/178
88954
S. Girolamo
III/3
089524/CE col
III/178
88954
III/3
069366/C
III/166
180068
S. Girolamo
Cristo morto nel sepolcro e tre
dolenti
col
Autore
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Mantegna
Andrea
Montagna
Bartolomeo
Montagna
Bartolomeo
Mantegna
Andrea
Id. File
DimFile
StatoFile N°CD
Dim.
Operatore
Stampa
014224/C
32,3
definitivo
47
014224/W
7,8
definitivo
47
A4 giuseppe
A4 giuseppe
014225/C
13,3
definitivo
47
A4 giuseppe
014225/W
2,8
definitivo
47
A4 giuseppe
014226/C
27,3
definitivo
47
A4 giuseppe
014226/W
6,5
definitivo
47
A4 giuseppe
014227/C
13,6
definitivo
47
A4 giuseppe
014227/W
3,1
definitivo
47
A4 giuseppe
014228/C
29 provvisorio
A4 giuseppe
014228/W
6,9 provvisorio
A4 giuseppe
014229/C
30,2 provvisorio
A4 giuseppe
014229/W
7 provvisorio
A4 giuseppe
039964/CE
59,4
definitivo
47
A3 giuseppe
039964/W
14,4
definitivo
47
A3 giuseppe
089524/CE
29,3
definitivo
48
A4
089524/W
6,4
definitivo
48
A4
36,7
definitivo
48
A4
069366/C
Il database associato alla collezione di Brera
25
26
http://pro.corbis.com/default.aspx
27
Esercizio n.4
Dato un database di 1000 documenti, dei quali 6 sono rilevanti,
Se vengono recuperati 5 documenti di cui 3 rilevanti e 2 non
rilevanti
Cosa sono Recall e Precision?
Calcolare Recall e Precision in altre due situazioni a vostra scelta
28