Università degli studi di Roma Tre Facoltà di Ingegneria Corso di Laurea Magistrale in Ingegneria Informatica Analisi contestuale di testi destrutturati e template di pagine web Relatore Candidato Valter Crescenzi Marco Cherubini matricola 273991 Anno accademico 2009/2010 Sommario Introduzione Il Problema e le motivazioni Analisi contestuale site-dependent Analisi contestuale di testi destrutturati e template di pagine web Scalabilità dell’algoritmo Risultati sperimentali Conclusioni e Sviluppi futuri Marco Cherubini - 24 Febbraio 2011 Introduzione Sul Web è possibile trovare numerose informazioni sui differenti ambiti di interesse Presenza di queste informazioni o in testi organizzati secondo una struttura ben definita o in testi liberi Forte presenza della ridondanza di queste informazioni Marco Cherubini - 24 Febbraio 2011 Il problema e le motivazioni Analizzare e catalogare queste informazioni per i differenti domini di interesse Raccogliere un numero di dati maggiore di quelli che è possibile sapere solamente dai testi aventi una struttura ben definita Marco Cherubini - 24 Febbraio 2011 Input – Template pagine web Marco Cherubini - 24 Febbraio 2011 Input – Testi destrutturati Marco Cherubini - 24 Febbraio 2011 Output – Risultato ottenuto Raccolta dei dati sui domini di interesse partendo dai template delle pagine web Numero sempre maggiore di dati dei domini di interesse interrogando successivamente i testi destrutturati Marco Cherubini - 24 Febbraio 2011 Analisi contestuale site-dependent Input UIMA Output Strumenti dell’Apache UIMA Framework utilizzati: Dictionary Annotator Julie Lab Lingpipe Gazetter Open Calais Senza utilizzare UIMA: Text Analyzer Marco Cherubini - 24 Febbraio 2011 Analisi contestuale dei testi destrutturati e template pagine web Input – Template di pagine web System Analisi dei template di pagine web Input - Testi destrutturati Analisi dei testi destrutturati Output Finale – Collezione dei termini di dominio Marco Cherubini - 24 Febbraio 2011 Definizione template di pagine web Esempio di Invariante Esempio di Invariante Marco Cherubini - 24 Febbraio 2011 Analisi contestuale di template di pagine web 1. Calcolo Percorsi XPATH assoluti 2. Matrice delle Occorrenze 3. Euristica posizionale 4. Ridondanza invarianti 5. Ridondanza termini valore degli invarianti Marco Cherubini - 24 Febbraio 2011 Analisi contestuale di testi destrutturati 1. Stemming Annotator 2. Text Runner 3. KnowItAll 4. Calcolo del Pointwise mutual Information (PMI) 5. Ridondanza nei testi destrutturati Marco Cherubini - 24 Febbraio 2011 Scalabilità dell’algoritmo Euristica posizionale: meno risultati ottenuti nell’analisi del dominio delle azioni finanzarie in quanto gli invarianti non sono sempre in posizione iniziale. Ridondanza degli invarianti: si applica la ridondanza anche ai template provenienti dallo stesso sito di appartenenza. Ridondanza dei valori degli invarianti: aggiunta del dizionario Wordnet. Marco Cherubini - 24 Febbraio 2011 Risultati sperimentali Tutti gli esperimenti sono stati condotti, per ogni dominio di provenienza, su una scala di circa 1000-1500 di testi destrutturati e di circa 100-150 di template di pagine web PRECISION E RECALL NELL'ANALISI SITE-DEPENDENT TEXT ANALYZER OPEN CALAIS RECALL PRECISION JULIE LAB LINGPIPE GAZETTER DICTIONARY ANNOTATOR 0 0.2 0.4 0.6 0.8 1 Marco Cherubini - 24 Febbraio 2011 Risultati sperimentali PRECISION NELL'ANALISI DEI TEMPLATE DELLE PAGINE WEB RIDONDANZA DEI VALORI DEGLI INVARIANTI RIDONDANZA DEGLI INVARIANTI CALCIATORI EURISTICA POSIZIONALE AZIONI FILM MATRICE DELLE OCCORRENZE PERCORSI ASSOLUTI XPATH 0 0.2 0.4 0.6 0.8 1 RECALL NELL'ANALISI DEI TEMPLATE DELLE PAGINE WEB RIDONDANZA DEI VALORI DEGLI INVARIANTI RIDONDANZA DEGLI INVARIANTI CALCIATORI EURISTICA POSIZIONALE AZIONI FILM MATRICE DELLE OCCORRENZE PERCORSI ASSOLUTI XPATH 0 0.2 0.4 0.6 0.8 1 Marco Cherubini - 24 Febbraio 2011 Risultati sperimentali PRECISION NELL'ANALISI DEI TESTI DESTRUTTURATI RIDONDANZA NEI TESTI DESTRUTTURATI CALCOLO DEL PMI CALCIATORI KNOWITALL AZIONI FILM TEXT RUNNER STEMMING ANNOTATOR 0 0.2 0.4 0.6 0.8 1 Marco Cherubini - 24 Febbraio 2011 Conclusioni Necessità di automatizzare la creazione dei dizionari utilizzati da UIMA il quale è uno strumento assai funzionale per l’analisi dei testi e ne rende molto più agevoli lo studio. Tramite l’analisi dei template delle pagine web risoluzione dell’automatizzazione della creazione dei dizionari utilizzati da UIMA. Tramite l’analisi dei testi destrutturati raccolta di un numero sempre maggiore di risultati attendibili e non ricavabili dall’analisi dei template Marco Cherubini - 24 Febbraio 2011 Sviluppi futuri Vedere la risposta degli algoritmi ad altri differenti domini Parallelizzare dove possibile gli algoritmi per rendere veloce l’esecuzione in presenza di un grande numero di input Dare una misura oggettiva alla Recall nel caso dell’Analisi dei testi destrutturati Marco Cherubini - 24 Febbraio 2011 Grazie per l’attenzione