Linguistica Computazionale Corso di Laurea in Informatica Umanistica (A/A 2004-05) Prova in Itinere del 20 aprile 2005 Testo A 1. Dopo aver spiegato cosa è un “set di caratteri”, illustrate le caratteristiche principali di Unicode e le differenze più salienti rispetto a ISO-8859 (PUNTI: 3) 2. Cosa è la Mutua Informazione? Riportate e illustrate la formula e discutete i suoi ambiti d’uso nell’esplorazione del testo (PUNTI: 5) 3. Considerate il seguente testo tokenizzato (lunghezza = 31 token; $ è il simbolo di fine riga): Maestro Ciliegia regala il pezzo di legno al suo amico Geppetto il quale lo prende per fabbricarsi un burattino maraviglioso che sappia ballare tirar di scherma e fare i salti mortali $ a. calcolate la probabilità che un nome sia immediatamente preceduto da un articolo (PUNTI: 4) b. calcolate la probabilità di trovare un bigramma <x, y>, in cui x e y sono entrambi verbi (PUNTI: 3) 4. Considerate il seguente testo tokenizzato: Non era un legno di lusso ma un semplice pezzo da catasta di quelli che d' inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze Calcolate il vocabolario del testo; per ciascun valore 1imax (dove max è la frequenza più alta nel testo) calcolate la frequenza cumulata fi delle parole unità (PUNTI: 5). 5. La seguente DTD descrive la struttura di un corpus annotato. Create un documento XML ben formato e valido rispetto alla DTD (PUNTI: 5): <!ELEMENT corpus (creazione, testo+)> <!ELEMENT creazione EMPTY> <!ATTLIST creazione annotatore CDATA #IMPLIED data NMTOKEN #REQUIRED> <!ELEMENT testo (base, parteAnnotata)> <!ELEMENT base (#PCDATA|Nome|Verbo)*> <!ELEMENT Nome (#PCDATA)> <!ATTLIST Nome id ID #REQUIRED> <!ELEMENT Verbo (ausiliare?, testa)> <!ATTLIST Verbo id ID #REQUIRED> <!ELEMENT ausiliare (#PCDATA)> <!ELEMENT testa (#PCDATA)> <!ELEMENT parteAnnotata (annotazioneNome|annotazioneVerbo)+> <!ELEMENT annotazioneNome EMPTY> <!ATTLIST annotazioneNome nome IDREF #IMPLIED lemma NMTOKEN #REQUIRED tipoNome (concreto|astratto) #IMPLIED> <!ELEMENT annotazioneVerbo EMPTY> <!ATTLIST annotazioneVerbo verbo IDREF #IMPLIED lemma NMTOKEN #REQUIRED tipoVerbo (stativo|dinamico) "dinamico"> 6. Il seguente documento XML è un esempio di dizionario multilingue. Costruite la DTD che lo possa validare. Rendere esplicito nella DTD il legame che esiste una traduzione e il corrispondente senso della parola nella lingua di origine (PUNTI: 5): <?xml version="1.0" encoding="UTF-8"?> <lessico> <lexEntrata id="e1" tipo="multilingue"> <lemma>borsa</lemma> <categoria>nome</categoria> <senso id="s1">piccolo <rel tipo="iperonimo">bagaglio</rel>a mano o <rel tipo="iperonimo">contenitore</rel> di oggetti. Può avere una <rel tipo="meronimo">maniglia</rel></senso> <senso id="s2"><rel tipo="iperonimo">istituzione</rel> finanziaria, mercato azionario</senso> <L2 lingua="inglese"> <traduzione id="en1" sorgente="s2">stock exchange</traduzione> <traduzione id="en2" sorgente="s1">bag</traduzione> </L2> </lexEntrata> <lexEntrata id="e2" tipo="multilingue" > <lemma>macchina</lemma> <senso id="s3">tipo di <rel tipo="iperonimo">veicolo</rel> a quattro <rel tipo="meronimo">ruote</rel></senso> <L2> <traduzione id="en3" sorgente="s3">car</traduzione> </L2> </lexEntrata> </lessico>