Università degli Studi di Modena e Reggio Emilia

Università degli Studi di Modena e
Reggio Emilia
Facoltà di Ingegneria – Sede di Modena
Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento
Gestione dei Database in Architetture
Peer-to-Peer
Relatore:
Prof. Sonia Bergamaschi
Candidato:
Andrea Galavotti
Anno Accademico 2003-2004
1
Peer Data Management Systems
(PDMS)
• Sono sistemi distribuiti di gestione delle informazioni nelle reti P2P
• Obbiettivo dei PDMS è quello di permette la condivisione di dati e
risorse in un ambiente decentralizzato, senza l’utilizzo di uno
Schema Globale
CARATTERISTICHE PRINCIPALI
• Decentralizzazione e supporto all’eterogeneità delle sorgenti
• Autonomia
• Uguaglianza dei nodi
• Scalabilità
• Supporto alla dinamicità dei partecipanti
2
Peer Data Management Systems
(PDMS)
PRINCIPALI PROBLEMATICHE
•
Dinamicità dei partecipanti
•
Eterogeneità delle sorgenti
•
Estensione dei sistemi P2P
•
Vincoli fra autonomia, efficienza e robustezza nella ricerca dei dati
•
Sicurezza:
- Disponibilità dei dati e delle risorse
- Autenticità dei dati
- Anonimia
- Controllo di accesso
3
Peer Data Management Systems
(PDMS)
STATO DELL’ARTE
1. SWAP (Semantic Web And P2P)
- coniuga il paradigma P2P con le tecnologie del Semantic Web
- ogni nodo è composto principalmente da una o più sorgenti di
conoscenza, da un integratore di conoscenza, da un deposito
locale e dal peer selector.
2. coDB1
3. LRM (Local Relational Model)1
4. Piazza1
5. SON (Semantic Overlay Networks)1
1 http://www.dbgroup.unimo.it/tesi/galavotti.pdf
4
Modello logico dei PDMS
• Insieme di definizioni e regole che caratterizzano un
PDMS
• Si basano sulla definizione di mapping semantici tra i
database dei peer
- Regole per la rilevazione di similarità semantiche fra le relazioni dei
database della rete
- Permettono lo scambio di dati e risorse fra i peer della rete
• Coordinazione tra database
• No Schema Globale
• Mapping locale
5
Mapping semantici:un esempio
Sorgente University (UNI)
Sorgente Computer_Science (CS)
University.Section SYN Computer_Science.Course
•
UNI.Section → CS.Course ∧ CS.Course.course_name = UNI.Section.section_name ∧
CS.Course.course_code = UNI.Section.section_code ∧
CS.Course.taught_in = UNI.Section.room_code
•
CS.Course → UNI.Section ∧ UNI.Section.section_name = CS.Course.course_name ∧
UNI.Section.section_code = CS.Course.course_code ∧
UNI.Section.room_code = CS.Course.taught_in
6
Modello logico di SWAP
• Non presenta mapping semantici definiti come per gli altri sistemi
• La semantica è definita in base alle ontologie del sistema
• Modello dei metadati composto da due classi RDFS:
Swabbi: alla quale
appartengono tutte
le informazioni
disponibili in un nodo
Peer: alla quale
appartengono le
informazioni sui peer
conosciuti da un nodo
7
Modello logico di SWAP
FUNZIONAMENTO DEL MODELLO DEI METADATI
• Integrazione della conoscenza delle sorgenti
- Estrazione
- Selezione
- Annotazione
- Fusione
• Valutazione del contenuto di un nodo
- Assegnamento della stima di fiducia
- Aggiornamento delle stime di fiducia
- Determinazione dei nodi da interrogare (nodi “esperti”)
8
Bibster
•
•
•
•
Sviluppato all’interno del
progetto SWAP
Sistema P2P per la
condivisione di metadati
bibliografici
Basa il suo
funzionamento
sull’utilizzo di due
ontologie, SWRC e
Gerarchia degli
Argomenti ACM,
utilizzate per
memorizzare i dati,
formulare e instradare le
query, e presentare le
risposte.
La sua architettura è la
stessa di SWAP
http://bibster.semanticweb.org
9
Bibster: funzionamento
• Estrazione semantica dei metadati bibliografici
- traduzione del documento in una risorsa RDF basata sulle ontologie
- memorizzazione del risultato nel deposito locale RDF
• Formulazione di query semantiche
- ogni query può contenere argomenti derivati dalle ontologie
• Meccanismo di selezione dei peer
- utilizzato per l’instradamento delle query
- basato sulla rilevazione della similarità dell’argomento della query e del
contenuto dei peer (descrizione di abilità dei peer) effettuata dalla
funzione di similarità
- permette di individuare i peer che contengono informazioni che
soddisfano le query
• Rilevazione semantica dei duplicati
- basata sulla rilevazione della similarità tra la semantica di due documenti
- permette di unire in un unico documento due o più metadati considerati
10
simili
Bibster: test e considerazioni
• Test del meccanismo di
selezione dei peer
450
400
Numero risposte
• Ogni query è stata posta tre
volte: prima è stata indirizzata
a tutti i nodi della rete, poi ai
nodi selezionati dal
meccanismo di selezione e
infine ad un insieme casuale di
peer
350
300
Tutti i nodi
250
Nodi casuali
200
Nodi abili
150
100
50
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
Numero query
• Risultati compromessi dal
basso numero di utenti nel
sistema
11
Conclusioni e lavoro futuro
• Gestione dei dati nelle reti P2P attraverso i PDMS
• I PDMS permettono la condivisione dei dati eterogenei in modo
distribuito e scalabile e la coordinazione tra i database
• Trasferimento dati e formulazione query tramite:
- Definizione di mapping semantici tra gli elementi delle sorgenti
coinvolte
- Utilizzo di ontologie condivise dagli utenti (Bibster)
LAVORO FUTURO
• Prestazioni dei PDMS (algoritmi di ricerca e di aggiornamento dei
dati)
• Sicurezza dei dati (controllo di accesso, autenticità dei dati)
12