Prova di metà corso Laboratorio di Informatica specialistica per Scienze dell'Antichità, Dr. Paolo Monella, 11 aprile 2012 Terzo gruppo, ore 16.30 – Matricola 585642 1a. Cos'è il parsing? Per Parsing si intende l’analisi grammaticale condotta sui testi. Nel I sec a.C Dionisio il Trace realizzò la prima grammatica in cui distingueva i vari elementi di una frase come sostantivi, verbi, aggettivi ecc.. Oggi noi operiamo ulteriori distinzioni come ad esempio quella tra verbi ausiliari e non oppure tra pronomi personali e pronomi possessivi ma l’ossatura di tale grammatica è rimasta quella. I programmi di parser si servono di algoritmi che attribuiscono dei tag ai vari elementi della frase. La grammatica di una lingua, quindi, deve possedere tutta una serie di conoscenze così da essere in grado di riconoscere frasi scritte in quella determinata lingua. 1b. In che modo permette di migliorare le nostre ricerche su corpora testuali? Perché permette di fare ricerche più dettagliate e precise in quanto gli utenti possono selezionale le categorie da ricercare. Per esempio è possibile ricercare il termine “contesto” solamente come sostantivo escludendo per esempio la ricerca dello stesso termine come verbo. 1c. Puoi citare e descrivere brevemente qualche esempio di corpora che permettano di fare ricerche evolute, basate sul parsing delle forme lessicali da parte del sistema? Per esempio in Perseus è possibile fare delle ricerche su un testo o su un corpus di testi basate sul parsing. 2a. Che differenza c'è tra lo string matching e il data mining? Lo string matching consiste nella ricerca di stringhe, ovvero sequenze di caratteri contenute tra due blank, all’interno di un testo digitalizzato; lo string maching presenta dei limiti, per esempio non è in grado di riconosce gli omografi, e avviene solo quando si ha una perfetta corrispondenza fra le stringhe (quella cercata e quella del testo) per cui se si fa lo string maching di “buono” non si troveranno anche “belli” o “bellino”. Il data mining invece è una tecnologia più evoluta e consiste nell’estrarre informazioni secondo precisi criteri di ricerca e pertanto presuppone che il testo preso in esame sia marcato. È inoltre necessaria la presenza di database. 2b. Il progetto pionieristico di padre Roberto Busa sul corpus degli scritti di Tommaso d'Aquino prevedeva ricerche su tale corpus da parte degli utenti fondate sullo string matching o sul data mining? Spiega la tua risposta (cioè: cosa vuol dire che una ricerca è fondata sulla tecnologia che hai scelto?). L’Index Thomisticus di Roberto Busa prevedeva semplicemente delle ricerche fondate sullo string matching perché negli anni '40 l’informatica umanistica è appena agli esordi e ancora ci troviamo ad un primo livello di digitalizzazione dei testi cioè si tratta semplicemente di file di testo e l’unica operazione effettuabile è quella di string maching. Il data mining invece è senz’altro una tecnologia più evoluta.