Linguistica computazionale
12 CFU
Prima parte
1. Spiegate la nozione di rappresentatività di un corpus (PUNTI: 4).
2. Illustrate la nozione di tokenizzazione di un testo (PUNTI: 4).
3. Spiegate cosa è lo spettro di frequenza (PUNTI: 4)
4. a.) Usando un modello di markov di ordine 2, calcolate la probabilità della frase Il libro verde è
sul tavolo rosso. b.) Mostrate come stimare le probabilità del modello su un corpus (PUNTI: 3)
5. Calcolate Mutua Informazione del bigramma <prendere, atto>, sapendo che in un corpus lungo
1000 tokens il bigramma ricorre 40 volte, mentre P(prendere) = 0.17 e atto 100 (PUNTI: 3).
6. In un corpus lungo 1000 tokens, la probabilità di P(cane|ART) = 0.3. Sapendo che P(ART_DEF)
= 0.4 e P(ART_INDEF) = 0.2, calcolate P(ART, cane), assumendo che ART = ART_DEF ∪
ART_INDEF (PUNTI: 4).
7.
Ogni individuo ha diritto alla vita, alla libertà ed alla sicurezza della propria persona. Nessun
individuo potrà essere tenuto in stato di schiavitù o di servitù.
Tokenizzate questo testo, calcolate la frequenza media di parola , la Type Token Ratio e costruite lo
spettro di frequenza (PUNTI: 4).
8. Scrivete le espressioni regolari corrispondenti ai seguenti pattern (PUNTI: 4):
1) le parole che terminano per ro o pi che non iniziano per r.
2) trasformate le parole che terminano con ma in parole che terminano con to, solo se la parola
è lunga almeno 5 caratteri;
3) le parole che iniziano e terminano con la stessa vocale;