File Inversi

annuncio pubblicitario
,QGLFL,QYHUVL
$OODULFHUFDGHOWHVWR
Basi di Dati Multimediali - Università di Siena
,QGLFLSHU'DWDEDVH5HOD]LRQDOL
Name
Dipendente
Gori
Tabella dipendenti
Università di Siena..
Gori
Query:
Nome = Gori
] 64/FUHDWHLQGH[(PS1P;RQ(PSOR\HH1DPH
] 6WUXWWXUHKDVKLQJ%WUHH
Basi di Dati Multimediali - Università di Siena
,QGLFL,QYHUVL
Indice documento
Posizioni all interno
di D1
D1
D2
computer
D1, 21, 88, 109 D3, 41
grafo
D2, 5 D3, 30
D3
] 0DWFKSDU]LDOH¶GDWDEDVH¶ZLOGFDUGV
] 5LFHUFDIUDVLFKHGRFXPHQWRFRQWLHQH³FRPSXWHU
JUDSK´
Basi di Dati Multimediali - Università di Siena
,QGLFLLQYHUVL
Informazione
ausiliaria, e.g.,
posizione parole, num.
occorrenze
,QGH[WHUPV
YRFDEXODU\
DUFKLWHFWXUH
'D
FRPSXWHU
4 WHUPWHUPWHUP
GDWDEDVH
'D
UHWULHYDO
,QGH[
,QGH[ILOHV
LQGH[GDWDEDVH
'D
3RVWLQJVOLVWV
] ,OILOHLQGLFHSXzHVVHUHLPSOHPHQLQPRGRGLYHUVR
Basi di Dati Multimediali - Università di Siena
%RROHDQ5HWULHYDO
] 4XHU\%RROHDQDQWHUPLQLFRQQHVVLFRQRSHUDWRUL
%RROHDQHJ³FRPSXWHU$1'QHZV$1'127
QHZVJURXS´/HSDUHQWHVLVLSRVVRQRXVDUHSHU
GHISUHFHGHQ]H
A and B
Combin. Risultati (isomorfismo):
AND: intersezione insiemi
OR: fusione insiemi
NOT: differenza (NOT x è difficile da valutare;
x AND NOT y è chiaro!)
Basi di Dati Multimediali - Università di Siena
A
B
3UREOHPLLQGLFLLQYHUVL
] *UDQGHRYHUKHDGGLVSD]LR
] $OWRFRVWRSHUXSGDWHVLQVHUWLRQVGHOHWLRQV
] ,OFRVWRGLHODERUD]LRQHLQFUHPHQWDFRQLOQXPHURGHJOL
RSHUDWRUL%RROHDQ
] 'RPDQGH
\ 3HUFKpVLDUULYDDGRYHUKHDGROWUHLO"
\ 6DUHEEHSRVVLELOHVWRUDJHRYHUKHDG"
\ ,QVRVWDQ]DVHUYHFRPSULPHUH
Basi di Dati Multimediali - Università di Siena
9LQFROLGL'LVWDQ]D
] &RQGL]LRQLGLDGLDFHQ]DHJ
\ ³GDWDEDVH´LPPHGLDWDPHQWHVHJXLWRGD³V\VWHPV´
[ LHFHUFD³GDWDEDVHV\VWHPV´
\ ³GDWDEDVH´H³V\VWHPV´QRQSLORQWDQLGLSDUROH
\ ³GDWDEDVH´H³DUFKLWHFWXUH´QHOODVWHVVDIUDVH
Richiede estensioni:
Gli indici invertiti mantengono le locazioni di
keywords dentro documenti, e la locazione di
documenti (titolo, paragrafi, ecc...)
Basi di Dati Multimediali - Università di Siena
9LQFROLGL'LVWDQ]D
8th sentence
di D350
\ ORFDOL]]D]LRQHVHQWHQFH
GDWDEDVH
ILOH
D345, 25 D348, 37
D350, 8
V\VWHPV
D123, 5
D128, 25 D345, 25
\ ORFD]LRQHSDUDJUDSKVHQWHQFHZRUG
GDWDEDVH
ILOH
D345, 2,3,5
8th paragraph,
12th sentence,
1st word of D350
D348, 37,5,9 D350, 8,12,1
V\VWHPV
D123, 5,4,3 D128, 25,1,12 D345, 2,3,6
Basi di Dati Multimediali - Università di Siena
(VWHQVLRQH3HVLQHOSRVWLQJ
] 0HPRUL]]D]LRQHGHOODIUHTXHQ]D
GDWDEDVH
ILOH
D345, 10
D348, 20
D350, 1
D123, 82
D128, 8
D345, 12
V\VWHPV
systems è
il 20% più
frequente
di
database
in D345
Il secondo componente di posting potrebbe anche essere
qualcosa di più sofisticato di una semplice frequenza ...
Basi di Dati Multimediali - Università di Siena
(VWHQVLRQH3HVLQHOSRVWLQJ
] 6HVLPHPRUL]]DODSRVL]LRQHGHOOHSDUROHDOORUD
LOWHUPLQHIUHTXHQ]DVLWURYDFRQWDQGROH
SRVL]LRQL
] 'XHSDUDPHWULLPSRUWDQWL
\ WHUPIUHTXHQF\1XPHURGLYROWHFKHLO³WHUP´
DSSDUHLQXQGRFXPHQWR
\ 'RFXPHQWIUHTXHQF\1XPEHURGLGRFXPHQWL
FRQWHQHQWLXQFHUWR³WHUP´
Basi di Dati Multimediali - Università di Siena
6LQRQLPL
] 6RQRLPSRUWDQWLSHULQFUHPHQWDUHOD³FRYHUDJH´GLXQD
TXHU\
] 3RVVRQRHVVHUHDJJLXQWLDOO¶LQGLFHFRQSXQWDWRUL
GDWDEDVH
GDWDEDVHV
D345, 2,3,5
D348, 37,5,9 D350, 8,12,1
GDWDVHW
...
V\VWHPV
D123, 5,4,3 D128, 25,1,12 D345, 2,3,6
Basi di Dati Multimediali - Università di Siena
7URQFDPHQWRVXIILVVR
] 7URQFDPHQWRVXIILVVRVHPSOLFHIRUPDGL
VWHPPLQJ
\ FRPSXWFRPSXWHUFRPSXWLQJFRPSXWDWLRQHWF
\ 3XzHVVHUHJHVWLWDIDFLOPHQWHVHO¶LQGLFHLQYHUWLWRq
LPSOHPHQWDWRPHGLDQWHXQWULH
\ *HVWLRQHSUREOHPDWLFDPHGLDQWHKDVK
] $OFXQLVLVWHPLIRU]DQRODOXQJKH]]DPLQLPDGHO
SUHILVVRFRQRVFLXWRSHUOLPLWDUHORVSD]LR
Basi di Dati Multimediali - Università di Siena
7URQFDPHQWRHWDO
] 7UXQFDPHQWRSUHILVVR
\ V\PPHWU\V\PPHWU\DV\PPHWU\
\ 0ROWRGLIILFLOHGDJHVWLUHSHUILQRXQWULHQRQSXz«QRQ
F¶qXQ³SXQWRGLSDUWHQ]D´
] (¶LQJHQHUDOHGLIILFLOHIDUHLOPDWFKGLSDUWLGLXQD
SDUROD
] 5DSSUHQWD]LRQLFRQZLOGFDUG
\ ZRPQZRPDQZRPHQ
\ ≡ZRPWKHQFKHFNLIODVWFKDUDFWHULV³Q´
Basi di Dati Multimediali - Università di Siena
&RQFOXVLRQL
] /¶RYHUKHDGGHOO¶LQGLFHSXzDUULYDUHDO
] ,OFRVWRGLUHWULHYDOFUHVFHFRQODFRPSOLFD]LRQH
GHOOHVWUXWWXUHGDWLFRQLSRVWLQJVHJSHQVDDL
VLQRQLPL
] ,QGLFLLQYHUVLEXRQLSHUDPELHQWHUHODWLYDPHQWH
VWDWLFRSRFKLLQVHULPHQWLHFDQFHOOD]LRQL
Basi di Dati Multimediali - Università di Siena
3UREOHPLDSHUWLVXLQGLFLLQYHUVL
] &RPSUHVVLRQHGLLQGLFHHSRVWLQJVILOHV
\ QXPEHURE\WHVSHULOGRF,'HSHUODSRVL]LRQHSDUROD
\ ELWVQRQVRQRDEEDVWDQ]DELWVWURSSRVSD]LR
Posizione parola
GDWDEDVH
GDWDEDVH
D345, 25, 34, 98, 120 D348, 37, 71, 85
345, 25, 9, 64, 22
3, 37, 34, 14
Metodi inserimento veloci
Batch updates: Crea unico indice vuoto per nuovi
aggiormanenti e inserimenti; quindi fondi l informazione indice
con l indice principale
Basi di Dati Multimediali - Università di Siena
,QGLFLLQYHUVLRYHUKHDG
] ,QVHULPHQWRZRUVWFDVH
\ TXDQGRRJQLSDURODQHOGRFXPHQWRqXQLFDVHFRQWLHQHQSDUROH
O¶LQVHULPHQWRGHYHDJJLRUQDUHQSRVWLQJVOLVWV
] 3HURJQLDJJLRUQDPHQWRGHOODSRVWLQJVOLVW
\
\
6HODSRVWLQJOLVWQRQqRUGLQDWDDOORUDLQXRYLSRVWLQJVHQWU\VLDSSHQGRQR
DOODILQHYHORFHPD/¶RUGLQHqFUXFLDOHSHUOHTXHULHV%RROHDQH
6HODSRVWLQJOLVWqRUGLQDWDDOORUDO¶LQVHULPHQWRGLXQQXRYRSRVWLQJVHQWU\
qFRVWRVR
database
D345, 25 D348, 37
Nuovo documento
D349 contiene
database
D350, 8
D349, 10
database
D345, 25 D348, 37 D349, 10
Basi di Dati Multimediali - Università di Siena
D350, 8
,QGLFLLQYHUVLRYHUKHDG
] 2YHUKHDGLQVHULPHQWRGLSHQGHGDOOD
IUHTXHQ]DGLXSGDWH
] 3HUOLEUDU\DSSOLFDWLRQVO¶RYHUKHDGGL
LQVHULPHQWRQRQqXQSUREOHPD«ORqSHULO
:RUOG:LGH:HELQGH[LQJ
] 1HOSURJHWWRGLXQVLVWHPDSHUO¶LQVHULPHQWR
\ VSD]LRPHPRULDFHQWUDOHHWHPSRUDU\GLVNVSDFH
GLVSRQELOH
\ DJJLRUQDPHQWREDWFKRQOLQHGHOO¶LQGLFH
Basi di Dati Multimediali - Università di Siena
&DQFHOOD]LRQH$JJLRUQDPHQWR
] $JJLRUQDPHQWRFDQFHOOD]LRQHVHJXLWDGDLQVHULPHQWR
] 3HUJHVWLUHFDQFDOOD]LRQH³IRUZDUGLQGH[´
Doc ID
word1, word2, ….
• Trovo il Doc ID del documento da cancellare
• Trovo le parole del documento dal forward index
• Cancello le postings entries per il Doc ID nell indice unvertito
– La cancellazione è molto costosa; per ridurre il costo:
– Tieni una tabella di Doc Ids dei documenti cancellati
– Durante il retrieval ignora i documenti della tabella Doc Ids nell accesso
all indice invertito
– Pulisci periodicamente l indice invertito
Basi di Dati Multimediali - Università di Siena
,QVHULPHQWRSHURUGLQDPHQWR
&ROOH]WXWWLLGRFXPHQWLGDLQVHULUHHSUHSDUD³EDWFK´GLWHUPLQL
Term Doc -id
paper
1
report
1
novel
1
novel
1
sort
…… …
report
2
human 2
…… …
human 2
novel
1
novel
1
paper
1
report
1
report
2
…… …
collate
human
novel
paper
report
2,1
1,2
1,1
1,1
2,1
Frequenza e posizione parola
sono mantenute qui
3HUFKpODPRGDOLWjEDWFKqSLHIILFLHQWH"
Basi di Dati Multimediali - Università di Siena
)DVW,QYHUVLRQ$OJRULWKP
Load file 1
Doc-id
Word IDs
1
3, 5, 12, 14
2
1, 3, 4, 11, 12
3
2, 4, 5, 12, 13
4
1, 5, 11, 12, 14
5
3, 7, 13, 14
split
Load file 2
Il metodo precedente richiede
l ordinamento di 23 entries
Dividi in 3 equal-size load files:
load files
1 2 3
no. of unique word IDs
no. of word-doc pairs
4
8
3
6
3
9
Load file 3
1
2
3
4
5
3
1, 3, 4
2, 4
1
3
1
2
3
4
5
5
11
5
5, 11
7
1
2
3
4
5
12, 14
12
12, 13
12, 14
13, 14
Basi di Dati Multimediali - Università di Siena
insert
rt
inse
e
ins
rt
1
2
3
4
2, 4
3
1, 2, 5
2, 3
5
7
11
1, 3, 4
5
2, 4
12
13
14
1, 2, 3, 4
3, 5
1, 4, 5
Files invertiti alla fine
• Le word Ids sono appese
alla fine
• Lo spazio di partizione è
conosciuto e può essere
pre-allocato
5LIHULPHQWLSHUODOH]LRQH
Indici inversi:
I.H. Witten, A. Moffat, and T.C. Bell, Managing Gigabytes,
Compressing and Indexing Documents and Images,
Morgan kauffmann, 1999
chapter 3 (aspetti sulla compressione saranno
trattati in seguito)
Fondamenti di Informatica:
Tecniche di ricerca su tabelle
liste, alberi, grafi
funzioni hash
Basi di Dati Multimediali - Università di Siena
Scarica