585809

Prova di metà corso
Laboratorio di Informatica specialistica per Scienze dell'Antichità, Dr. Paolo Monella, 11 aprile
2012
Terzo gruppo, ore 16.30 – Matricola 585809
1a. Cos'è il parsing?
Il parsing è una procedura informatica che serve ad attribuire dei tag di tipo grammaticale ai termini
contenuti in un testo o in un corpus. Il tag può essere attribuito in tre modalità differenti: facendo
riferimento a regole grammaticali; ad esempio: se un termine è preceduto da un articolo, allora sarà
un sostantivo, se è preceduto da un pronome, allora sarà un verbo; oppure su metodi statistici: se ad
esempio è più alta la percentuale in cui un termine, preceduto da un articolo, è un sostantivo, allora
a quel termine verrà attribuito il tag di sostantivo e se è più alta la percentuale in cui un termine,
preceduto da un pronome, è verbo, allora a quel termine verrà attribuito il tag di verbo. Oppure su
metodi trasformazionali: attribuire un tag ad un termine tenendo conto, in una prima fase dei metodi
statistici, e in una seconda fase delle regole grammaticali, trasformando, se è il caso, ad esempio un
tag da sostantivo a verbo.
1b. In che modo permette di migliorare le nostre ricerche su corpora testuali?
Il parsing permette di migliorare le ricerche sui corpora perché è possibile, tramite questa
procedura, non limitarci soltanto ad una semplice ricerca di stringhe all’interno dei testi, come
farebbe una procedura di string matching, ma identificare la funzione grammaticale di un
determinato termine di cui vogliamo conoscere la funzione.
1c. Puoi citare e descrivere brevemente qualche esempio di corpora che permettano di fare ricerche
evolute, basate sul parsing delle forme lessicali da parte del sistema?
I corpora che permettono di compiere analisi basate sul parsing sono, ad esempio, Intratext e
Perseus. Questi sono strutturati in base ad una suddivisione per autori e testi e all’interno di
ciascuno di questi testi è possibile conoscere, qualora lo si voglia, la funzione grammaticale dei
termini del testo; cliccando sul termine stesso si aprirà un’altra pagina o finestra con le informazioni
grammaticali necessarie; su Perseus, ad esempio, questa procedura è basata anche su metodi
statistici.
2a. Che differenza c'è tra lo string matching e il data mining?
Lo string matching è una procedura che permette di ritrovare all’interno di un testo le stringhe, o
sequenze di lettere , che noi digitiamo. Ovviamente questa procedura funzionerà solamente se c’è
una perfetta corrispondenza tra la parola da noi cercata e quella presente nel testo (se ad esempio
cerchiamo “bello” non troveremo mai “bellissimo”); infatti questa procedura non ha proprietà di
distinzione di genere e numeri dei sostantivi, di riconoscimento del grado degli aggettivi, di
disambiguazione della sinonimia parziale tra termini.
Il data mining consente di analizzare il testo in maniera più approfondita rispetto allo string
matching, che si basa semplicemente sul ritrovamento dei termini nel testo. Di questa tecnologia
fanno parte infatti i programmi di parsing, cioè di analisi grammaticale dei termini, di stemming,
quindi di analisi morfologica e ritrovamento delle radici, di lemmatizzazione, cioè di riduzione dei
termini presenti in un testo al lemma presente nel vocabolario di riferimento, e di lessicografia,
quindi di raggruppamento dei termini dal punto di vista lessicale, con la seguente creazione di
griglie lessicali in cui è possibile stabilire relazioni tra termini di tipo sinonimico, antonimico etc.
Un esempio di applicazione che si basa sulla lessicografia è Wordnet, un progetto che si propone di
creare degli insiemi lessicali dei termini e quindi di determinare le relazioni di sinonimia,
antonimia, consequenzialità e causalità tra questi, fornendo, in questo modo, un valido aiuto alla
disambiguazione tra termini (ad esempio per individuare i vari significati della parola “tasso”).
2b. Il progetto pionieristico di padre Roberto Busa sul corpus degli scritti di Tommaso d'Aquino
prevedeva ricerche su tale corpus da parte degli utenti fondate sullo string matching o sul data
mining? Spiega la tua risposta (cioè: cosa vuol dire che una ricerca è fondata sulla tecnologia che
hai scelto?).
Padre Roberto Busa, considerato il fondatore dell’informatica umanistica, elaborò l'”Index
thomisticus”, un elenco di tutti i termini presenti nel corpus di testi di Tommaso d’Aquino, e la loro
collocazione all’interno del corpus. Le ricerche su tale corpus sono fondate sullo string matching,
quindi sulla semplice ricerca dei termini all’interno del corpus, senza analisi profonde dei termini
stessi di tipo grammaticale, sintattico o morfologico.