585642

Prova di metà corso
Laboratorio di Informatica specialistica per Scienze dell'Antichità, Dr. Paolo Monella, 11 aprile
2012
Terzo gruppo, ore 16.30 – Matricola 585642
1a. Cos'è il parsing?
Per Parsing si intende l’analisi grammaticale condotta sui testi.
Nel I sec a.C Dionisio il Trace realizzò la prima grammatica in cui distingueva i vari elementi di
una frase come sostantivi, verbi, aggettivi ecc.. Oggi noi operiamo ulteriori distinzioni come ad
esempio quella tra verbi ausiliari e non oppure tra pronomi personali e pronomi possessivi ma
l’ossatura di tale grammatica è rimasta quella. I programmi di parser si servono di algoritmi che
attribuiscono dei tag ai vari elementi della frase. La grammatica di una lingua, quindi, deve
possedere tutta una serie di conoscenze così da essere in grado di riconoscere frasi scritte in quella
determinata lingua.
1b. In che modo permette di migliorare le nostre ricerche su corpora testuali?
Perché permette di fare ricerche più dettagliate e precise in quanto gli utenti possono selezionale le
categorie da ricercare. Per esempio è possibile ricercare il termine “contesto” solamente come
sostantivo escludendo per esempio la ricerca dello stesso termine come verbo.
1c. Puoi citare e descrivere brevemente qualche esempio di corpora che permettano di fare ricerche
evolute, basate sul parsing delle forme lessicali da parte del sistema?
Per esempio in Perseus è possibile fare delle ricerche su un testo o su un corpus di testi basate sul
parsing.
2a. Che differenza c'è tra lo string matching e il data mining?
Lo string matching consiste nella ricerca di stringhe, ovvero sequenze di caratteri contenute tra due
blank, all’interno di un testo digitalizzato; lo string maching presenta dei limiti, per esempio non è
in grado di riconosce gli omografi, e avviene solo quando si ha una perfetta corrispondenza fra le
stringhe (quella cercata e quella del testo) per cui se si fa lo string maching di “buono” non si
troveranno anche “belli” o “bellino”. Il data mining invece è una tecnologia più evoluta e consiste
nell’estrarre informazioni secondo precisi criteri di ricerca e pertanto presuppone che il testo preso
in esame sia marcato. È inoltre necessaria la presenza di database.
2b. Il progetto pionieristico di padre Roberto Busa sul corpus degli scritti di Tommaso d'Aquino
prevedeva ricerche su tale corpus da parte degli utenti fondate sullo string matching o sul data
mining? Spiega la tua risposta (cioè: cosa vuol dire che una ricerca è fondata sulla tecnologia che
hai scelto?).
L’Index Thomisticus di Roberto Busa prevedeva semplicemente delle ricerche fondate sullo string
matching perché negli anni '40 l’informatica umanistica è appena agli esordi e ancora ci troviamo
ad un primo livello di digitalizzazione dei testi cioè si tratta semplicemente di file di testo e l’unica
operazione effettuabile è quella di string maching. Il data mining invece è senz’altro una tecnologia
più evoluta.