Linguistica computazionale Corso di Laurea in Informatica Umanistica (A/A 2004-05) Sessione estiva, secondo appello– 4 luglio 2005 Parte I 1. i.) Illustrate la Legge di Zipf (riportandone la formula); ii.) discutete le sue conseguenze per l’analisi computazionale del linguaggio (PUNTI: 5). 3. Che differenza c’è tra un corpus specialistico e un corpus generale? Cosa si intende per bilanciamento di un corpus? (PUNTI: 4). 4. Le seguenti sono tutte le concordanze della parola maestro in un corpus lungo 42139 tokens a. calcolate la forza di associazione tra maestro e ciliegia (ignorando la distinzione tra minuscole e maiuscole), sapendo che Fciliegia = 9 (PUNTI: 4). b. calcolate la probabilità che il nome ciliegia sia immediatamente preceduto dal nome maestro (PUNTI: 3). 5. Considerate il seguente testo tokenizzato: Ho pensato di fabbricarmi da me un bel burattino di legno ; ma un burattino meraviglioso , che sappia ballare , tirare di scherma e fare i salti mortali . i.) Calcolate il vocabolario del testo; ii.) per ciascun valore 1imax (dove max è la frequenza più alta nel testo) calcolate la frequenza cumulata fi delle parole unità; iii.) usando gli hapax, calcolate la ricchezza lessicale del testo (PUNTI: 4). 5. La seguente DTD descrive la struttura sintattica di una frase. Creare una rappresentazione XML ben formata e valida rispetto alla DTD dell’analisi sintattica della frase Il bambino ha mangiato il gelato con il cucchiaino (PUNTI: 5): <!ELEMENT analisiSintattiche (lingua, frase+)> <!ELEMENT lingua EMPTY> <!ATTLIST lingua codice NMTOKEN #REQUIRED> <!ELEMENT frase (sintagma+)> <!ATTLIST frase id ID #REQUIRED> <!ELEMENT sintagma ((prep?, art, nome) | (ausiliare*, verbo, sintagma*))> <!ATTLIST sintagma tipo (preposizionale | nominale | verbale) #REQUIRED funzioneGrammaticale (soggetto | oggetto) #IMPLIED> <!ELEMENT art (#PCDATA)> <!ELEMENT prep (#PCDATA)> <!ELEMENT nome (#PCDATA)> <!ELEMENT verbo (#PCDATA)> <!ELEMENT ausiliare (#PCDATA)> 6. Il seguente documento XML contiene un vocabolario bilingue. Costruite la DTD che lo possa validare. Rendere esplicito nella DTD il legame che esiste tra le traduzioni e il lemma nella lingua originaria (PUNTI: 5): <vocabolario> <lemma id="l1">ac-a-de-mic <lingua cod="ING"/> <significato_principale>teorico</significato_principale> <trascrizione_fonetica>%{k@”demIk</trascrizione_fonetica> <pos>adj</pos> <glossa>theoretical and not related to practical effects in real life</glossa> <esempi> <esempio numero="1">a purely academic argument_question</esempio> <esempio numero="2">stop worrying about what to wear to her party - it's all academic anyway</esempio> </esempi> </lemma> <lemma id="l2">a-ca-de-my <trascrizione_fonetica>@”k{d@mI</trascrizione_fonetica> <pos numerabile="si">n</pos> <glossa> an organization intended to protect and develop an art, science, language, etc.</glossa> <esempi> <esempio numero="1">a military_police academy</esempio> <esempio numero="2">the Royal Academy of Dramatic Art</esempio> </esempi> </lemma> <traduzioni> <trad sorgente="l1" target="accademico"/> <trad sorgente="l2" target="accademia"/></traduzioni> </vocabolario>