,QGLFL,QYHUVL $OODULFHUFDGHOWHVWR Basi di Dati Multimediali - Università di Siena ,QGLFLSHU'DWDEDVH5HOD]LRQDOL Name Dipendente Gori Tabella dipendenti Università di Siena.. Gori Query: Nome = Gori ] 64/FUHDWHLQGH[(PS1P;RQ(PSOR\HH1DPH ] 6WUXWWXUHKDVKLQJ%WUHH Basi di Dati Multimediali - Università di Siena ,QGLFL,QYHUVL Indice documento Posizioni all interno di D1 D1 D2 computer D1, 21, 88, 109 D3, 41 grafo D2, 5 D3, 30 D3 ] 0DWFKSDU]LDOH¶GDWDEDVH¶ZLOGFDUGV ] 5LFHUFDIUDVLFKHGRFXPHQWRFRQWLHQH³FRPSXWHU JUDSK´ Basi di Dati Multimediali - Università di Siena ,QGLFLLQYHUVL Informazione ausiliaria, e.g., posizione parole, num. occorrenze ,QGH[WHUPV YRFDEXODU\ DUFKLWHFWXUH 'D FRPSXWHU 4 WHUPWHUPWHUP GDWDEDVH 'D UHWULHYDO ,QGH[ ,QGH[ILOHV LQGH[GDWDEDVH 'D 3RVWLQJVOLVWV ] ,OILOHLQGLFHSXzHVVHUHLPSOHPHQLQPRGRGLYHUVR Basi di Dati Multimediali - Università di Siena %RROHDQ5HWULHYDO ] 4XHU\%RROHDQDQWHUPLQLFRQQHVVLFRQRSHUDWRUL %RROHDQHJ³FRPSXWHU$1'QHZV$1'127 QHZVJURXS´/HSDUHQWHVLVLSRVVRQRXVDUHSHU GHISUHFHGHQ]H A and B Combin. Risultati (isomorfismo): AND: intersezione insiemi OR: fusione insiemi NOT: differenza (NOT x è difficile da valutare; x AND NOT y è chiaro!) Basi di Dati Multimediali - Università di Siena A B 3UREOHPLLQGLFLLQYHUVL ] *UDQGHRYHUKHDGGLVSD]LR ] $OWRFRVWRSHUXSGDWHVLQVHUWLRQVGHOHWLRQV ] ,OFRVWRGLHODERUD]LRQHLQFUHPHQWDFRQLOQXPHURGHJOL RSHUDWRUL%RROHDQ ] 'RPDQGH \ 3HUFKpVLDUULYDDGRYHUKHDGROWUHLO" \ 6DUHEEHSRVVLELOHVWRUDJHRYHUKHDG" \ ,QVRVWDQ]DVHUYHFRPSULPHUH Basi di Dati Multimediali - Università di Siena 9LQFROLGL'LVWDQ]D ] &RQGL]LRQLGLDGLDFHQ]DHJ \ ³GDWDEDVH´LPPHGLDWDPHQWHVHJXLWRGD³V\VWHPV´ [ LHFHUFD³GDWDEDVHV\VWHPV´ \ ³GDWDEDVH´H³V\VWHPV´QRQSLORQWDQLGLSDUROH \ ³GDWDEDVH´H³DUFKLWHFWXUH´QHOODVWHVVDIUDVH Richiede estensioni: Gli indici invertiti mantengono le locazioni di keywords dentro documenti, e la locazione di documenti (titolo, paragrafi, ecc...) Basi di Dati Multimediali - Università di Siena 9LQFROLGL'LVWDQ]D 8th sentence di D350 \ ORFDOL]]D]LRQHVHQWHQFH GDWDEDVH ILOH D345, 25 D348, 37 D350, 8 V\VWHPV D123, 5 D128, 25 D345, 25 \ ORFD]LRQHSDUDJUDSKVHQWHQFHZRUG GDWDEDVH ILOH D345, 2,3,5 8th paragraph, 12th sentence, 1st word of D350 D348, 37,5,9 D350, 8,12,1 V\VWHPV D123, 5,4,3 D128, 25,1,12 D345, 2,3,6 Basi di Dati Multimediali - Università di Siena (VWHQVLRQH3HVLQHOSRVWLQJ ] 0HPRUL]]D]LRQHGHOODIUHTXHQ]D GDWDEDVH ILOH D345, 10 D348, 20 D350, 1 D123, 82 D128, 8 D345, 12 V\VWHPV systems è il 20% più frequente di database in D345 Il secondo componente di posting potrebbe anche essere qualcosa di più sofisticato di una semplice frequenza ... Basi di Dati Multimediali - Università di Siena (VWHQVLRQH3HVLQHOSRVWLQJ ] 6HVLPHPRUL]]DODSRVL]LRQHGHOOHSDUROHDOORUD LOWHUPLQHIUHTXHQ]DVLWURYDFRQWDQGROH SRVL]LRQL ] 'XHSDUDPHWULLPSRUWDQWL \ WHUPIUHTXHQF\1XPHURGLYROWHFKHLO³WHUP´ DSSDUHLQXQGRFXPHQWR \ 'RFXPHQWIUHTXHQF\1XPEHURGLGRFXPHQWL FRQWHQHQWLXQFHUWR³WHUP´ Basi di Dati Multimediali - Università di Siena 6LQRQLPL ] 6RQRLPSRUWDQWLSHULQFUHPHQWDUHOD³FRYHUDJH´GLXQD TXHU\ ] 3RVVRQRHVVHUHDJJLXQWLDOO¶LQGLFHFRQSXQWDWRUL GDWDEDVH GDWDEDVHV D345, 2,3,5 D348, 37,5,9 D350, 8,12,1 GDWDVHW ... V\VWHPV D123, 5,4,3 D128, 25,1,12 D345, 2,3,6 Basi di Dati Multimediali - Università di Siena 7URQFDPHQWRVXIILVVR ] 7URQFDPHQWRVXIILVVRVHPSOLFHIRUPDGL VWHPPLQJ \ FRPSXWFRPSXWHUFRPSXWLQJFRPSXWDWLRQHWF \ 3XzHVVHUHJHVWLWDIDFLOPHQWHVHO¶LQGLFHLQYHUWLWRq LPSOHPHQWDWRPHGLDQWHXQWULH \ *HVWLRQHSUREOHPDWLFDPHGLDQWHKDVK ] $OFXQLVLVWHPLIRU]DQRODOXQJKH]]DPLQLPDGHO SUHILVVRFRQRVFLXWRSHUOLPLWDUHORVSD]LR Basi di Dati Multimediali - Università di Siena 7URQFDPHQWRHWDO ] 7UXQFDPHQWRSUHILVVR \ V\PPHWU\V\PPHWU\DV\PPHWU\ \ 0ROWRGLIILFLOHGDJHVWLUHSHUILQRXQWULHQRQSXz«QRQ F¶qXQ³SXQWRGLSDUWHQ]D´ ] (¶LQJHQHUDOHGLIILFLOHIDUHLOPDWFKGLSDUWLGLXQD SDUROD ] 5DSSUHQWD]LRQLFRQZLOGFDUG \ ZRPQZRPDQZRPHQ \ ≡ZRPWKHQFKHFNLIODVWFKDUDFWHULV³Q´ Basi di Dati Multimediali - Università di Siena &RQFOXVLRQL ] /¶RYHUKHDGGHOO¶LQGLFHSXzDUULYDUHDO ] ,OFRVWRGLUHWULHYDOFUHVFHFRQODFRPSOLFD]LRQH GHOOHVWUXWWXUHGDWLFRQLSRVWLQJVHJSHQVDDL VLQRQLPL ] ,QGLFLLQYHUVLEXRQLSHUDPELHQWHUHODWLYDPHQWH VWDWLFRSRFKLLQVHULPHQWLHFDQFHOOD]LRQL Basi di Dati Multimediali - Università di Siena 3UREOHPLDSHUWLVXLQGLFLLQYHUVL ] &RPSUHVVLRQHGLLQGLFHHSRVWLQJVILOHV \ QXPEHURE\WHVSHULOGRF,'HSHUODSRVL]LRQHSDUROD \ ELWVQRQVRQRDEEDVWDQ]DELWVWURSSRVSD]LR Posizione parola GDWDEDVH GDWDEDVH D345, 25, 34, 98, 120 D348, 37, 71, 85 345, 25, 9, 64, 22 3, 37, 34, 14 Metodi inserimento veloci Batch updates: Crea unico indice vuoto per nuovi aggiormanenti e inserimenti; quindi fondi l informazione indice con l indice principale Basi di Dati Multimediali - Università di Siena ,QGLFLLQYHUVLRYHUKHDG ] ,QVHULPHQWRZRUVWFDVH \ TXDQGRRJQLSDURODQHOGRFXPHQWRqXQLFDVHFRQWLHQHQSDUROH O¶LQVHULPHQWRGHYHDJJLRUQDUHQSRVWLQJVOLVWV ] 3HURJQLDJJLRUQDPHQWRGHOODSRVWLQJVOLVW \ \ 6HODSRVWLQJOLVWQRQqRUGLQDWDDOORUDLQXRYLSRVWLQJVHQWU\VLDSSHQGRQR DOODILQHYHORFHPD/¶RUGLQHqFUXFLDOHSHUOHTXHULHV%RROHDQH 6HODSRVWLQJOLVWqRUGLQDWDDOORUDO¶LQVHULPHQWRGLXQQXRYRSRVWLQJVHQWU\ qFRVWRVR database D345, 25 D348, 37 Nuovo documento D349 contiene database D350, 8 D349, 10 database D345, 25 D348, 37 D349, 10 Basi di Dati Multimediali - Università di Siena D350, 8 ,QGLFLLQYHUVLRYHUKHDG ] 2YHUKHDGLQVHULPHQWRGLSHQGHGDOOD IUHTXHQ]DGLXSGDWH ] 3HUOLEUDU\DSSOLFDWLRQVO¶RYHUKHDGGL LQVHULPHQWRQRQqXQSUREOHPD«ORqSHULO :RUOG:LGH:HELQGH[LQJ ] 1HOSURJHWWRGLXQVLVWHPDSHUO¶LQVHULPHQWR \ VSD]LRPHPRULDFHQWUDOHHWHPSRUDU\GLVNVSDFH GLVSRQELOH \ DJJLRUQDPHQWREDWFKRQOLQHGHOO¶LQGLFH Basi di Dati Multimediali - Università di Siena &DQFHOOD]LRQH$JJLRUQDPHQWR ] $JJLRUQDPHQWRFDQFHOOD]LRQHVHJXLWDGDLQVHULPHQWR ] 3HUJHVWLUHFDQFDOOD]LRQH³IRUZDUGLQGH[´ Doc ID word1, word2, …. • Trovo il Doc ID del documento da cancellare • Trovo le parole del documento dal forward index • Cancello le postings entries per il Doc ID nell indice unvertito – La cancellazione è molto costosa; per ridurre il costo: – Tieni una tabella di Doc Ids dei documenti cancellati – Durante il retrieval ignora i documenti della tabella Doc Ids nell accesso all indice invertito – Pulisci periodicamente l indice invertito Basi di Dati Multimediali - Università di Siena ,QVHULPHQWRSHURUGLQDPHQWR &ROOH]WXWWLLGRFXPHQWLGDLQVHULUHHSUHSDUD³EDWFK´GLWHUPLQL Term Doc -id paper 1 report 1 novel 1 novel 1 sort …… … report 2 human 2 …… … human 2 novel 1 novel 1 paper 1 report 1 report 2 …… … collate human novel paper report 2,1 1,2 1,1 1,1 2,1 Frequenza e posizione parola sono mantenute qui 3HUFKpODPRGDOLWjEDWFKqSLHIILFLHQWH" Basi di Dati Multimediali - Università di Siena )DVW,QYHUVLRQ$OJRULWKP Load file 1 Doc-id Word IDs 1 3, 5, 12, 14 2 1, 3, 4, 11, 12 3 2, 4, 5, 12, 13 4 1, 5, 11, 12, 14 5 3, 7, 13, 14 split Load file 2 Il metodo precedente richiede l ordinamento di 23 entries Dividi in 3 equal-size load files: load files 1 2 3 no. of unique word IDs no. of word-doc pairs 4 8 3 6 3 9 Load file 3 1 2 3 4 5 3 1, 3, 4 2, 4 1 3 1 2 3 4 5 5 11 5 5, 11 7 1 2 3 4 5 12, 14 12 12, 13 12, 14 13, 14 Basi di Dati Multimediali - Università di Siena insert rt inse e ins rt 1 2 3 4 2, 4 3 1, 2, 5 2, 3 5 7 11 1, 3, 4 5 2, 4 12 13 14 1, 2, 3, 4 3, 5 1, 4, 5 Files invertiti alla fine • Le word Ids sono appese alla fine • Lo spazio di partizione è conosciuto e può essere pre-allocato 5LIHULPHQWLSHUODOH]LRQH Indici inversi: I.H. Witten, A. Moffat, and T.C. Bell, Managing Gigabytes, Compressing and Indexing Documents and Images, Morgan kauffmann, 1999 chapter 3 (aspetti sulla compressione saranno trattati in seguito) Fondamenti di Informatica: Tecniche di ricerca su tabelle liste, alberi, grafi funzioni hash Basi di Dati Multimediali - Università di Siena