Presentazione Tesi Laurea Magistrale in Ingegneria Informatica

annuncio pubblicitario
Università degli studi di Roma Tre
Facoltà di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica
Analisi contestuale di testi
destrutturati
e template di pagine web
Relatore
Candidato
Valter Crescenzi
Marco Cherubini
matricola 273991
Anno accademico 2009/2010
Sommario
Introduzione
Il Problema e le motivazioni
Analisi contestuale site-dependent
Analisi contestuale di testi destrutturati e
template di pagine web
Scalabilità dell’algoritmo
Risultati sperimentali
Conclusioni e Sviluppi futuri
Marco Cherubini - 24 Febbraio 2011
Introduzione
 Sul Web è possibile trovare numerose
informazioni sui differenti ambiti di interesse
Presenza di queste informazioni o in testi
organizzati secondo una struttura ben
definita o in testi liberi
Forte presenza della ridondanza di queste
informazioni
Marco Cherubini - 24 Febbraio 2011
Il problema e le motivazioni
Analizzare e catalogare queste informazioni
per i differenti domini di interesse
Raccogliere un numero di dati maggiore di
quelli che è possibile sapere solamente dai testi
aventi una struttura ben definita
Marco Cherubini - 24 Febbraio 2011
Input – Template pagine web
Marco Cherubini - 24 Febbraio 2011
Input – Testi destrutturati
Marco Cherubini - 24 Febbraio 2011
Output – Risultato ottenuto
 Raccolta dei dati sui domini di interesse
partendo dai template delle pagine web
 Numero sempre maggiore di dati dei domini di
interesse interrogando successivamente i testi
destrutturati
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale site-dependent
Input
UIMA
Output
Strumenti dell’Apache UIMA
Framework utilizzati:
 Dictionary Annotator
 Julie Lab Lingpipe
Gazetter
 Open Calais
Senza utilizzare UIMA:
 Text Analyzer
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale dei testi destrutturati e
template pagine web
Input – Template di pagine web
System
Analisi dei template di pagine web
Input - Testi
destrutturati
Analisi dei testi destrutturati
Output Finale – Collezione dei termini di dominio
Marco Cherubini - 24 Febbraio 2011
Definizione template di pagine web
Esempio
di
Invariante
Esempio
di
Invariante
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale di template di
pagine web
1. Calcolo Percorsi XPATH assoluti
2. Matrice delle
Occorrenze
3. Euristica posizionale
4. Ridondanza invarianti
5. Ridondanza
termini valore
degli invarianti
Marco Cherubini - 24 Febbraio 2011
Analisi contestuale di testi destrutturati
1. Stemming
Annotator
2. Text
Runner
3. KnowItAll
4. Calcolo del
Pointwise mutual
Information (PMI)
5. Ridondanza nei testi destrutturati
Marco Cherubini - 24 Febbraio 2011
Scalabilità dell’algoritmo
 Euristica posizionale: meno risultati ottenuti
nell’analisi del dominio delle azioni finanzarie in
quanto gli invarianti non sono sempre in
posizione iniziale.
 Ridondanza degli invarianti: si applica la
ridondanza anche ai template provenienti dallo
stesso sito di appartenenza.
 Ridondanza dei valori degli invarianti: aggiunta
del dizionario Wordnet.
Marco Cherubini - 24 Febbraio 2011
Risultati sperimentali
 Tutti gli esperimenti sono stati condotti, per ogni dominio
di provenienza, su una scala di circa 1000-1500 di testi
destrutturati e di circa 100-150 di template di pagine web
PRECISION E RECALL NELL'ANALISI SITE-DEPENDENT
TEXT ANALYZER
OPEN CALAIS
RECALL
PRECISION
JULIE LAB LINGPIPE GAZETTER
DICTIONARY ANNOTATOR
0
0.2
0.4
0.6
0.8
1
Marco Cherubini - 24 Febbraio 2011
Risultati sperimentali
PRECISION NELL'ANALISI DEI TEMPLATE DELLE PAGINE
WEB
RIDONDANZA DEI VALORI DEGLI INVARIANTI
RIDONDANZA DEGLI INVARIANTI
CALCIATORI
EURISTICA POSIZIONALE
AZIONI
FILM
MATRICE DELLE OCCORRENZE
PERCORSI ASSOLUTI XPATH
0
0.2
0.4
0.6
0.8
1
RECALL NELL'ANALISI DEI TEMPLATE DELLE PAGINE WEB
RIDONDANZA DEI VALORI DEGLI INVARIANTI
RIDONDANZA DEGLI INVARIANTI
CALCIATORI
EURISTICA POSIZIONALE
AZIONI
FILM
MATRICE DELLE OCCORRENZE
PERCORSI ASSOLUTI XPATH
0
0.2
0.4
0.6
0.8
1
Marco Cherubini - 24 Febbraio 2011
Risultati sperimentali
PRECISION NELL'ANALISI DEI TESTI DESTRUTTURATI
RIDONDANZA NEI TESTI DESTRUTTURATI
CALCOLO DEL PMI
CALCIATORI
KNOWITALL
AZIONI
FILM
TEXT RUNNER
STEMMING ANNOTATOR
0
0.2
0.4
0.6
0.8
1
Marco Cherubini - 24 Febbraio 2011
Conclusioni
Necessità di automatizzare la creazione
dei dizionari utilizzati da UIMA il quale è
uno strumento assai funzionale per
l’analisi dei testi e ne rende molto più
agevoli lo studio.
Tramite l’analisi dei template delle pagine
web risoluzione dell’automatizzazione della
creazione dei dizionari utilizzati da UIMA.
Tramite l’analisi dei testi destrutturati
raccolta di un numero sempre maggiore di
risultati attendibili e non ricavabili dall’analisi
dei template
Marco Cherubini - 24 Febbraio 2011
Sviluppi futuri
Vedere la risposta degli algoritmi ad altri differenti
domini
Parallelizzare dove possibile gli algoritmi per
rendere veloce l’esecuzione in presenza di un
grande numero di input
Dare una misura oggettiva alla Recall nel caso
dell’Analisi dei testi destrutturati
Marco Cherubini - 24 Febbraio 2011
Grazie
per
l’attenzione
Scarica