Prova di metà corso Laboratorio di Informatica specialistica per Scienze dell'Antichità, Dr. Paolo Monella, 11 aprile 2012 Terzo gruppo, ore 16.30 – Matricola 585809 1a. Cos'è il parsing? Il parsing è una procedura informatica che serve ad attribuire dei tag di tipo grammaticale ai termini contenuti in un testo o in un corpus. Il tag può essere attribuito in tre modalità differenti: facendo riferimento a regole grammaticali; ad esempio: se un termine è preceduto da un articolo, allora sarà un sostantivo, se è preceduto da un pronome, allora sarà un verbo; oppure su metodi statistici: se ad esempio è più alta la percentuale in cui un termine, preceduto da un articolo, è un sostantivo, allora a quel termine verrà attribuito il tag di sostantivo e se è più alta la percentuale in cui un termine, preceduto da un pronome, è verbo, allora a quel termine verrà attribuito il tag di verbo. Oppure su metodi trasformazionali: attribuire un tag ad un termine tenendo conto, in una prima fase dei metodi statistici, e in una seconda fase delle regole grammaticali, trasformando, se è il caso, ad esempio un tag da sostantivo a verbo. 1b. In che modo permette di migliorare le nostre ricerche su corpora testuali? Il parsing permette di migliorare le ricerche sui corpora perché è possibile, tramite questa procedura, non limitarci soltanto ad una semplice ricerca di stringhe all’interno dei testi, come farebbe una procedura di string matching, ma identificare la funzione grammaticale di un determinato termine di cui vogliamo conoscere la funzione. 1c. Puoi citare e descrivere brevemente qualche esempio di corpora che permettano di fare ricerche evolute, basate sul parsing delle forme lessicali da parte del sistema? I corpora che permettono di compiere analisi basate sul parsing sono, ad esempio, Intratext e Perseus. Questi sono strutturati in base ad una suddivisione per autori e testi e all’interno di ciascuno di questi testi è possibile conoscere, qualora lo si voglia, la funzione grammaticale dei termini del testo; cliccando sul termine stesso si aprirà un’altra pagina o finestra con le informazioni grammaticali necessarie; su Perseus, ad esempio, questa procedura è basata anche su metodi statistici. 2a. Che differenza c'è tra lo string matching e il data mining? Lo string matching è una procedura che permette di ritrovare all’interno di un testo le stringhe, o sequenze di lettere , che noi digitiamo. Ovviamente questa procedura funzionerà solamente se c’è una perfetta corrispondenza tra la parola da noi cercata e quella presente nel testo (se ad esempio cerchiamo “bello” non troveremo mai “bellissimo”); infatti questa procedura non ha proprietà di distinzione di genere e numeri dei sostantivi, di riconoscimento del grado degli aggettivi, di disambiguazione della sinonimia parziale tra termini. Il data mining consente di analizzare il testo in maniera più approfondita rispetto allo string matching, che si basa semplicemente sul ritrovamento dei termini nel testo. Di questa tecnologia fanno parte infatti i programmi di parsing, cioè di analisi grammaticale dei termini, di stemming, quindi di analisi morfologica e ritrovamento delle radici, di lemmatizzazione, cioè di riduzione dei termini presenti in un testo al lemma presente nel vocabolario di riferimento, e di lessicografia, quindi di raggruppamento dei termini dal punto di vista lessicale, con la seguente creazione di griglie lessicali in cui è possibile stabilire relazioni tra termini di tipo sinonimico, antonimico etc. Un esempio di applicazione che si basa sulla lessicografia è Wordnet, un progetto che si propone di creare degli insiemi lessicali dei termini e quindi di determinare le relazioni di sinonimia, antonimia, consequenzialità e causalità tra questi, fornendo, in questo modo, un valido aiuto alla disambiguazione tra termini (ad esempio per individuare i vari significati della parola “tasso”). 2b. Il progetto pionieristico di padre Roberto Busa sul corpus degli scritti di Tommaso d'Aquino prevedeva ricerche su tale corpus da parte degli utenti fondate sullo string matching o sul data mining? Spiega la tua risposta (cioè: cosa vuol dire che una ricerca è fondata sulla tecnologia che hai scelto?). Padre Roberto Busa, considerato il fondatore dell’informatica umanistica, elaborò l'”Index thomisticus”, un elenco di tutti i termini presenti nel corpus di testi di Tommaso d’Aquino, e la loro collocazione all’interno del corpus. Le ricerche su tale corpus sono fondate sullo string matching, quindi sulla semplice ricerca dei termini all’interno del corpus, senza analisi profonde dei termini stessi di tipo grammaticale, sintattico o morfologico.