Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di Modena
Corso di Laurea in Ingegneria Informatica
Integrazione di Sorgenti HTML in
MOMIS:
Analisi Comparativa degli
Strumenti Esistenti
Relatore
Tesi di Laurea
Chiar.mo Prof. Sonia Bergamaschi
Lorenzo Lugli
Correlatore
Controrelatore
Dott. Maurizio Vincini
Prof. Domenico Beneventano
Anno Accademico 2001 - 2002
1
Introduzione
Crescita mole dati disponibili
Ritrovamento dei dati
ad un punto critico
Soluzione adottata dai
motori di ricerca tradizionali
Indicizzazione di tutte
le pagine presenti sul Web
Problemi:
 Velocità di crescita del Web
 I contenuti delle pagine
dinamiche vengono ignorati
 Max accuratezza raggiungibile
pagina Web
2
Introduzione
Human
Design level
Readable
HTML
wrapper
User level
Machine
Integration Designer
Readable
XML
User
SoluzioneSI-Designer
adottata:
Generatore
di
SIM
ODB-Toolsvalidation
HTML
Global Schema SLIMwrapper
WordNet Interaction
DATA REPOSITORY
ARTEMIS Clustering
TUNIM Map. Table tuning
Integration level
Query Manager
OBJECT SERVANT
XML
Wrapper
Wrapper
XML
Relational
Wrapper
XML
Wrapper
Source
Source
WordNet
OBJECT SERVANT
ODB-Tools
OBJECT SERVANT
Object
Source
MOMIS
Wrapper
WordNet
(Mediator EnvirOnment for
ODB-Tools
HTML
Multiple Information Sources)
Service level
Source 3
Data level
www.dbgroup.unimo.it/Momis
Momis – Global Schema Builder
Obiettivo della tesi
 Analisi dei generatori di wrapper
HTML
XML
 Test
 Generazione di wrapper per siti di esempio
 Utilizzo dei wrapper per trasformare le
pagine HTML in XML
 Individuazione di uno strumento per MOMIS
Robustezza:
capacità dei wrapper di fornire un’estrazione
efficace anche in seguito a cambiamenti nelle
pagine sulle quali sono stati messi a punto.
4
Generatori di Wrappers
 XWRAP Elite
Georgia Institute of Technology
 RoadRunner
Università di Roma Tre
 Andes
IBM Almaden Research Center
 Lixto
Lixto Software
DBAI University of Technology Vienna
 Lapis
Carnegie Mellon University Pittsburgh
5
XWRAP Elite
Obiettivo:
Pagine Web data-intensive
Contributo Primario:
Euristiche ed algoritmi per sopperire
alla necessità di input semantici da
parte del progettista
Processo di generazione del wrapper:
 Individuazione dei dati
e separazione in data object
 Decomposizione degli oggetti
in elementi
 Marcatura di oggetti ed elementi
6
XWRAP Elite
Fase di Test: Problemi
 Immagini, Javascript
 Sottoalbero minimo
 HTTPS
 Frame
 Tabelle complesse
7
Il sistema RoadRunner
Obiettivo
Raggiungere completa
automatizzazione
Principale intuizione:
Studio di
analogie e
differenze
Scoperta di
modelli di
estrazione
8
Il sistema RoadRunner
Architettura
 Classifier
 Aligner
Input
Punto di
Accesso al sito
Classifier
Pagine
Singole
Classi
di Pagine
Aligner
 Expander
 Labeler
Expander
Dati
Estratti
Wrapper con campi
non etichettati
Labeler
XML
9
Il sistema RoadRunner
Labeler
…<table>
<tr>
<td>Nome</td>
<td>Telefono</td>
</tr>
(<tr><td>$A</td>
<td>$B</td>
</tr>)+
</table>…
<TABLE>
<TR>
<TD>
+
<TD>
<TR>
<TD>
<TD>
Nome
Telefono
$A
$B
10
Il sistema Andes della IBM
Processo di conversione HTML - XML
HTML
XPath
XML
Estrattori
XSLT Set
URL
Estrattore
XSLT 1
XHTML
XSL Processor
XSLT n
XML … XML
XSL Processor
Output
XML
11
Il sistema Andes
Sintesi degli hyperlink
Filtri HTML
Ancore:
punti di riferimento per individuare
concetti di interesse
XSLT
HTML con
HTML con
Filtro XHTML
JavaScript e
Hyperlink
FORM HTML
Salti:
percorso che porta al dato di interesse
partendo
Sintetici
dall’ancora più vicina
Deposito URL
Navigatore
URLs
HTML
12
Il sistema Lixto
Principale caratteristica:
Modelli:
Interfaccia visuale e
interattiva
 Specificano come estrarre sezioni
di dati da pagine Web
 Ogni modello viene mappato in un tag XML
Filtri:
Forniscono una rappresentazione alternativa
dei dati che devono essere estratti
Condizioni:
Servono a restringere il numero di
data-object restituiti da un filtro
13
Il sistema Lixto
Risultati dei test: problemi
 Frame
 Concetti aventi differenti significati innestati allo
stesso livello di una struttura dati
 Ricostruzione simple element
 Estrazione multipagina
 Browser interno
Risultati dei test: successo
Struttura
dei dati
Struttura
della pagina
HTML
14
Conclusioni
Data-intensive
XWRAP Elite
RoadRunner
Lixto
Individuali
Andes IBM
15