Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Gestione dei Database in Architetture Peer-to-Peer Relatore: Prof. Sonia Bergamaschi Candidato: Andrea Galavotti Anno Accademico 2003-2004 1 Peer Data Management Systems (PDMS) • Sono sistemi distribuiti di gestione delle informazioni nelle reti P2P • Obbiettivo dei PDMS è quello di permette la condivisione di dati e risorse in un ambiente decentralizzato, senza l’utilizzo di uno Schema Globale CARATTERISTICHE PRINCIPALI • Decentralizzazione e supporto all’eterogeneità delle sorgenti • Autonomia • Uguaglianza dei nodi • Scalabilità • Supporto alla dinamicità dei partecipanti 2 Peer Data Management Systems (PDMS) PRINCIPALI PROBLEMATICHE • Dinamicità dei partecipanti • Eterogeneità delle sorgenti • Estensione dei sistemi P2P • Vincoli fra autonomia, efficienza e robustezza nella ricerca dei dati • Sicurezza: - Disponibilità dei dati e delle risorse - Autenticità dei dati - Anonimia - Controllo di accesso 3 Peer Data Management Systems (PDMS) STATO DELL’ARTE 1. SWAP (Semantic Web And P2P) - coniuga il paradigma P2P con le tecnologie del Semantic Web - ogni nodo è composto principalmente da una o più sorgenti di conoscenza, da un integratore di conoscenza, da un deposito locale e dal peer selector. 2. coDB1 3. LRM (Local Relational Model)1 4. Piazza1 5. SON (Semantic Overlay Networks)1 1 http://www.dbgroup.unimo.it/tesi/galavotti.pdf 4 Modello logico dei PDMS • Insieme di definizioni e regole che caratterizzano un PDMS • Si basano sulla definizione di mapping semantici tra i database dei peer - Regole per la rilevazione di similarità semantiche fra le relazioni dei database della rete - Permettono lo scambio di dati e risorse fra i peer della rete • Coordinazione tra database • No Schema Globale • Mapping locale 5 Mapping semantici:un esempio Sorgente University (UNI) Sorgente Computer_Science (CS) University.Section SYN Computer_Science.Course • UNI.Section → CS.Course ∧ CS.Course.course_name = UNI.Section.section_name ∧ CS.Course.course_code = UNI.Section.section_code ∧ CS.Course.taught_in = UNI.Section.room_code • CS.Course → UNI.Section ∧ UNI.Section.section_name = CS.Course.course_name ∧ UNI.Section.section_code = CS.Course.course_code ∧ UNI.Section.room_code = CS.Course.taught_in 6 Modello logico di SWAP • Non presenta mapping semantici definiti come per gli altri sistemi • La semantica è definita in base alle ontologie del sistema • Modello dei metadati composto da due classi RDFS: Swabbi: alla quale appartengono tutte le informazioni disponibili in un nodo Peer: alla quale appartengono le informazioni sui peer conosciuti da un nodo 7 Modello logico di SWAP FUNZIONAMENTO DEL MODELLO DEI METADATI • Integrazione della conoscenza delle sorgenti - Estrazione - Selezione - Annotazione - Fusione • Valutazione del contenuto di un nodo - Assegnamento della stima di fiducia - Aggiornamento delle stime di fiducia - Determinazione dei nodi da interrogare (nodi “esperti”) 8 Bibster • • • • Sviluppato all’interno del progetto SWAP Sistema P2P per la condivisione di metadati bibliografici Basa il suo funzionamento sull’utilizzo di due ontologie, SWRC e Gerarchia degli Argomenti ACM, utilizzate per memorizzare i dati, formulare e instradare le query, e presentare le risposte. La sua architettura è la stessa di SWAP http://bibster.semanticweb.org 9 Bibster: funzionamento • Estrazione semantica dei metadati bibliografici - traduzione del documento in una risorsa RDF basata sulle ontologie - memorizzazione del risultato nel deposito locale RDF • Formulazione di query semantiche - ogni query può contenere argomenti derivati dalle ontologie • Meccanismo di selezione dei peer - utilizzato per l’instradamento delle query - basato sulla rilevazione della similarità dell’argomento della query e del contenuto dei peer (descrizione di abilità dei peer) effettuata dalla funzione di similarità - permette di individuare i peer che contengono informazioni che soddisfano le query • Rilevazione semantica dei duplicati - basata sulla rilevazione della similarità tra la semantica di due documenti - permette di unire in un unico documento due o più metadati considerati 10 simili Bibster: test e considerazioni • Test del meccanismo di selezione dei peer 450 400 Numero risposte • Ogni query è stata posta tre volte: prima è stata indirizzata a tutti i nodi della rete, poi ai nodi selezionati dal meccanismo di selezione e infine ad un insieme casuale di peer 350 300 Tutti i nodi 250 Nodi casuali 200 Nodi abili 150 100 50 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 Numero query • Risultati compromessi dal basso numero di utenti nel sistema 11 Conclusioni e lavoro futuro • Gestione dei dati nelle reti P2P attraverso i PDMS • I PDMS permettono la condivisione dei dati eterogenei in modo distribuito e scalabile e la coordinazione tra i database • Trasferimento dati e formulazione query tramite: - Definizione di mapping semantici tra gli elementi delle sorgenti coinvolte - Utilizzo di ontologie condivise dagli utenti (Bibster) LAVORO FUTURO • Prestazioni dei PDMS (algoritmi di ricerca e di aggiornamento dei dati) • Sicurezza dei dati (controllo di accesso, autenticità dei dati) 12