Corso di Linguistica Computazionale

annuncio pubblicitario
Linguistica Computazionale
Corso di Laurea in Informatica Umanistica
(A/A 2004-05)
Prova in Itinere del 20 aprile 2005
Testo A
1. Dopo aver spiegato cosa è un “set di caratteri”, illustrate le caratteristiche principali di Unicode
e le differenze più salienti rispetto a ISO-8859 (PUNTI: 3)
2. Cosa è la Mutua Informazione? Riportate e illustrate la formula e discutete i suoi ambiti d’uso
nell’esplorazione del testo (PUNTI: 5)
3. Considerate il seguente testo tokenizzato (lunghezza = 31 token; $ è il simbolo di fine riga):
Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto il quale lo prende per
fabbricarsi un burattino maraviglioso che sappia ballare tirar di scherma e fare i salti
mortali $
a. calcolate la probabilità che un nome sia immediatamente preceduto da un articolo
(PUNTI: 4)
b. calcolate la probabilità di trovare un bigramma <x, y>, in cui x e y sono entrambi verbi
(PUNTI: 3)
4. Considerate il seguente testo tokenizzato:
Non era un legno di lusso ma un semplice pezzo da catasta di quelli che d' inverno si
mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze
Calcolate il vocabolario del testo; per ciascun valore 1imax (dove max è la frequenza più alta nel
testo) calcolate la frequenza cumulata fi delle parole unità (PUNTI: 5).
5. La seguente DTD descrive la struttura di un corpus annotato. Create un documento XML ben
formato e valido rispetto alla DTD (PUNTI: 5):
<!ELEMENT corpus (creazione, testo+)>
<!ELEMENT creazione EMPTY>
<!ATTLIST creazione
annotatore CDATA #IMPLIED
data NMTOKEN #REQUIRED>
<!ELEMENT testo (base, parteAnnotata)>
<!ELEMENT base (#PCDATA|Nome|Verbo)*>
<!ELEMENT Nome (#PCDATA)>
<!ATTLIST Nome
id ID #REQUIRED>
<!ELEMENT Verbo (ausiliare?, testa)>
<!ATTLIST Verbo
id ID #REQUIRED>
<!ELEMENT ausiliare (#PCDATA)>
<!ELEMENT testa (#PCDATA)>
<!ELEMENT parteAnnotata (annotazioneNome|annotazioneVerbo)+>
<!ELEMENT annotazioneNome EMPTY>
<!ATTLIST annotazioneNome
nome IDREF #IMPLIED
lemma NMTOKEN #REQUIRED
tipoNome (concreto|astratto) #IMPLIED>
<!ELEMENT annotazioneVerbo EMPTY>
<!ATTLIST annotazioneVerbo
verbo IDREF #IMPLIED
lemma NMTOKEN #REQUIRED
tipoVerbo (stativo|dinamico) "dinamico">
6. Il seguente documento XML è un esempio di dizionario multilingue. Costruite la DTD che lo
possa validare. Rendere esplicito nella DTD il legame che esiste una traduzione e il
corrispondente senso della parola nella lingua di origine (PUNTI: 5):
<?xml version="1.0" encoding="UTF-8"?>
<lessico>
<lexEntrata id="e1" tipo="multilingue">
<lemma>borsa</lemma>
<categoria>nome</categoria>
<senso id="s1">piccolo <rel tipo="iperonimo">bagaglio</rel>a mano o <rel
tipo="iperonimo">contenitore</rel> di oggetti. Può avere una <rel
tipo="meronimo">maniglia</rel></senso>
<senso id="s2"><rel tipo="iperonimo">istituzione</rel> finanziaria,
mercato azionario</senso>
<L2 lingua="inglese">
<traduzione id="en1" sorgente="s2">stock exchange</traduzione>
<traduzione id="en2" sorgente="s1">bag</traduzione>
</L2>
</lexEntrata>
<lexEntrata id="e2" tipo="multilingue" >
<lemma>macchina</lemma>
<senso id="s3">tipo di <rel tipo="iperonimo">veicolo</rel> a quattro <rel
tipo="meronimo">ruote</rel></senso>
<L2>
<traduzione id="en3" sorgente="s3">car</traduzione>
</L2>
</lexEntrata>
</lessico>
Scarica