Gabriella Pasi - Information Retrieval Laboratory

CORSO DI INFORMATION RETRIEVAL
Modello vettoriale esteso
Gabriella Pasi
Università degli Studi di Milano Bicocca
e-mail: [email protected]
M d lli basati
Modelli
b i sulla
ll teoria
i iinsiemistica
i i i
Il modello Vettoriale non permette la
valutazione di query Booleane.
⇓
Il modello
d ll B
Booleano
l
esteso
t
da
d Salton,
S lt
Fox
F
and
d
Wu introduce un’estensione del modello
vettoriale che permette query più espressive
Il modello Booleano esteso di IR
di Salton, Fox and Wu (1983)
‡
Il modello Booleano è semplice
‡
Un ordinamento
di
dei
d i risultati
i l
i può
ò essere ottenuto
rendendo le condizioni sull’appartenenza all’insieme
meno restrittive.
‡
Si introduce il concetto di confronto parziale tra
insiemi e di pesatura dei termini indice.
indice
‡
Il modello combina caratteristiche sia del
modello di IR vettoriale sia dell’algebra
Booleana.
Nozioni di base
‡
Il modello Booleano esteso (introdotto da Salton, Fox, and
Wu,, 1983)) è basato su una critica dell’assunzione di base
dell’algebra Booleana:
Fornire la possibilità di esprimere nelle query aggregazioni
di termini intermedie tra l’AND
l AND e ll’OR
OR
‡
Base: il modello vettoriale
‡
Notazione:
„q = tx ∧ ty
„wxj
= fxj
„Inoltre
* idfx
peso della coppia [tx,dj] in [0,1]
maxfj max(idfi)
indichiamo con x= wxj e con y = wyj
Ordinamento per Query congiuntive
qand = tx ∧ ty;
wxj = x and wyj = y
(1,1)
ty
AND
Si desidera stare il
più vicino possibile al
punto (1
(1,1)
1)
dj+1
y = wyj
Ranking : complemento
d ll Distanza
della
Di t
Euclidea
E lid da
d
(1,1) normalizzata per la
dj
massima distanza
(0,0)
x = wxj
tx
2
2
(
1
−
x
)
+
(
1
−
y
)
sim(qandd,dj) = 1
1−
2
sim(qand,dj+1)> sim(qand,dj)
Ordinamento per Query disgiuntive
qor = tx ∨ ty; wxj = x or wyj = y
OR
((1,1)
, )
ty
Si desidera stare il
più p
p
possibile lontani
dal punto (0,0)
dj+1
y = wyjj
dj
Ranking: Distanza Euclidea
da (0,0) normalizzata per la
massima distanza
(0,0)
tx
x = wxj
sim(q
(qor,dj) =
sim(qor,d j+1)> sim(qor,dj)
( x) 2 + ( y ) 2
2
Il modello Booleano esteso di IR
(con distanza Euclidea)
ta
tb
ta OR tb
ta AND tb
d1
1
1
1
1
d2
1
0
1/√2
1 1/ √2
1-1/
d3
0
1
1/√2
1-1/
1
1/ √2
d4
0
0
0
0
Generalizzazione allo spazio
(di dimensione
di
i
m))
‡
‡
Possiamo estendere il modello precedente considerando
distanze in uno spazio m-dimensionale
„ (spazio dei termini indice considerati linearmente
indipendenti)
Ciò può essere fatto usando il concetto di p-norm che
generalizza la nozione di distanza,
distanza ove 1 ≤p ≤∞
≤
è un
parametro che permette di definire differenti definizioni di
distanza:
⏐⏐d⏐⏐p=(w
( 1p+w
+ 2p+ w3p + ...+w
+ mp)1/p
⏐⏐d⏐⏐p(normalizzata)=[(w1p+w2p+ w3p + ...+w
+wmp)/m]1/p
Proprietà della p-norma
Se
Se
p = 1 allora ((otteniamo il modello Vettoriale di IR))
sim(qor,dj) = sim(qand,dj) = w1i + . . . + wmi
m
p = ∞ allora (otteniamo il modello Fuzzy di IR)
sim(qor,dj) = max (wxj)
sim(qand,dj) = min (wxj)
Variando p, possiamo ottenere diversi modelli di IR intermedi tra il
modello vettoriale e quello fuzzy.
Modelli intermedi
P=1 vettoriale
P= ∞ Fuzzy
P → ∞ ha più importanza alla struttura della query