CORSO DI INFORMATION RETRIEVAL Modello vettoriale esteso Gabriella Pasi Università degli Studi di Milano Bicocca e-mail: [email protected] M d lli basati Modelli b i sulla ll teoria i iinsiemistica i i i Il modello Vettoriale non permette la valutazione di query Booleane. ⇓ Il modello d ll B Booleano l esteso t da d Salton, S lt Fox F and d Wu introduce un’estensione del modello vettoriale che permette query più espressive Il modello Booleano esteso di IR di Salton, Fox and Wu (1983) Il modello Booleano è semplice Un ordinamento di dei d i risultati i l i può ò essere ottenuto rendendo le condizioni sull’appartenenza all’insieme meno restrittive. Si introduce il concetto di confronto parziale tra insiemi e di pesatura dei termini indice. indice Il modello combina caratteristiche sia del modello di IR vettoriale sia dell’algebra Booleana. Nozioni di base Il modello Booleano esteso (introdotto da Salton, Fox, and Wu,, 1983)) è basato su una critica dell’assunzione di base dell’algebra Booleana: Fornire la possibilità di esprimere nelle query aggregazioni di termini intermedie tra l’AND l AND e ll’OR OR Base: il modello vettoriale Notazione: q = tx ∧ ty wxj = fxj Inoltre * idfx peso della coppia [tx,dj] in [0,1] maxfj max(idfi) indichiamo con x= wxj e con y = wyj Ordinamento per Query congiuntive qand = tx ∧ ty; wxj = x and wyj = y (1,1) ty AND Si desidera stare il più vicino possibile al punto (1 (1,1) 1) dj+1 y = wyj Ranking : complemento d ll Distanza della Di t Euclidea E lid da d (1,1) normalizzata per la dj massima distanza (0,0) x = wxj tx 2 2 ( 1 − x ) + ( 1 − y ) sim(qandd,dj) = 1 1− 2 sim(qand,dj+1)> sim(qand,dj) Ordinamento per Query disgiuntive qor = tx ∨ ty; wxj = x or wyj = y OR ((1,1) , ) ty Si desidera stare il più p p possibile lontani dal punto (0,0) dj+1 y = wyjj dj Ranking: Distanza Euclidea da (0,0) normalizzata per la massima distanza (0,0) tx x = wxj sim(q (qor,dj) = sim(qor,d j+1)> sim(qor,dj) ( x) 2 + ( y ) 2 2 Il modello Booleano esteso di IR (con distanza Euclidea) ta tb ta OR tb ta AND tb d1 1 1 1 1 d2 1 0 1/√2 1 1/ √2 1-1/ d3 0 1 1/√2 1-1/ 1 1/ √2 d4 0 0 0 0 Generalizzazione allo spazio (di dimensione di i m)) Possiamo estendere il modello precedente considerando distanze in uno spazio m-dimensionale (spazio dei termini indice considerati linearmente indipendenti) Ciò può essere fatto usando il concetto di p-norm che generalizza la nozione di distanza, distanza ove 1 ≤p ≤∞ ≤ è un parametro che permette di definire differenti definizioni di distanza: ⏐⏐d⏐⏐p=(w ( 1p+w + 2p+ w3p + ...+w + mp)1/p ⏐⏐d⏐⏐p(normalizzata)=[(w1p+w2p+ w3p + ...+w +wmp)/m]1/p Proprietà della p-norma Se Se p = 1 allora ((otteniamo il modello Vettoriale di IR)) sim(qor,dj) = sim(qand,dj) = w1i + . . . + wmi m p = ∞ allora (otteniamo il modello Fuzzy di IR) sim(qor,dj) = max (wxj) sim(qand,dj) = min (wxj) Variando p, possiamo ottenere diversi modelli di IR intermedi tra il modello vettoriale e quello fuzzy. Modelli intermedi P=1 vettoriale P= ∞ Fuzzy P → ∞ ha più importanza alla struttura della query