Linguistica computazionale
Corso di Laurea in Informatica Umanistica
(A/A 2004-05)
Sessione estiva, secondo appello– 4 luglio 2005
Parte I
1. i.) Illustrate la Legge di Zipf (riportandone la formula); ii.) discutete le sue conseguenze per
l’analisi computazionale del linguaggio (PUNTI: 5).
3. Che differenza c’è tra un corpus specialistico e un corpus generale? Cosa si intende per
bilanciamento di un corpus? (PUNTI: 4).
4. Le seguenti sono tutte le concordanze della parola maestro in un corpus lungo 42139 tokens
a. calcolate la forza di associazione tra maestro e ciliegia (ignorando la distinzione tra
minuscole e maiuscole), sapendo che Fciliegia = 9 (PUNTI: 4).
b. calcolate la probabilità che il nome ciliegia sia immediatamente preceduto dal nome
maestro (PUNTI: 3).
5. Considerate il seguente testo tokenizzato:
Ho pensato di fabbricarmi da me un bel burattino di legno ; ma un burattino
meraviglioso , che sappia ballare , tirare di scherma e fare i salti mortali .
i.) Calcolate il vocabolario del testo; ii.) per ciascun valore 1imax (dove max è la frequenza più
alta nel testo) calcolate la frequenza cumulata fi delle parole unità; iii.) usando gli hapax, calcolate
la ricchezza lessicale del testo (PUNTI: 4).
5. La seguente DTD descrive la struttura sintattica di una frase. Creare una rappresentazione XML ben
formata e valida rispetto alla DTD dell’analisi sintattica della frase Il bambino ha mangiato il gelato con il
cucchiaino (PUNTI: 5):
<!ELEMENT analisiSintattiche (lingua, frase+)>
<!ELEMENT lingua EMPTY>
<!ATTLIST lingua
codice NMTOKEN #REQUIRED>
<!ELEMENT frase (sintagma+)>
<!ATTLIST frase
id ID #REQUIRED>
<!ELEMENT sintagma ((prep?, art, nome) | (ausiliare*, verbo, sintagma*))>
<!ATTLIST sintagma
tipo (preposizionale | nominale | verbale) #REQUIRED
funzioneGrammaticale (soggetto | oggetto) #IMPLIED>
<!ELEMENT art (#PCDATA)>
<!ELEMENT prep (#PCDATA)>
<!ELEMENT nome (#PCDATA)>
<!ELEMENT verbo (#PCDATA)>
<!ELEMENT ausiliare (#PCDATA)>
6. Il seguente documento XML contiene un vocabolario bilingue. Costruite la DTD che lo possa
validare. Rendere esplicito nella DTD il legame che esiste tra le traduzioni e il lemma nella lingua
originaria (PUNTI: 5):
<vocabolario>
<lemma id="l1">ac-a-de-mic
<lingua cod="ING"/>
<significato_principale>teorico</significato_principale>
<trascrizione_fonetica>%{k@”demIk</trascrizione_fonetica>
<pos>adj</pos>
<glossa>theoretical and not related to practical effects in real
life</glossa>
<esempi>
<esempio numero="1">a purely academic argument_question</esempio>
<esempio numero="2">stop worrying about what to wear to her party - it's
all academic anyway</esempio>
</esempi>
</lemma>
<lemma id="l2">a-ca-de-my
<trascrizione_fonetica>@”k{d@mI</trascrizione_fonetica>
<pos numerabile="si">n</pos>
<glossa> an organization intended to protect and develop an art, science,
language, etc.</glossa>
<esempi>
<esempio numero="1">a military_police academy</esempio>
<esempio numero="2">the Royal Academy of Dramatic Art</esempio>
</esempi>
</lemma>
<traduzioni>
<trad sorgente="l1" target="accademico"/>
<trad sorgente="l2" target="accademia"/></traduzioni>
</vocabolario>