Linguistica computazionale 12 CFU Prima parte 1. Spiegate la nozione di rappresentatività di un corpus (PUNTI: 4). 2. Illustrate la nozione di tokenizzazione di un testo (PUNTI: 4). 3. Spiegate cosa è lo spettro di frequenza (PUNTI: 4) 4. a.) Usando un modello di markov di ordine 2, calcolate la probabilità della frase Il libro verde è sul tavolo rosso. b.) Mostrate come stimare le probabilità del modello su un corpus (PUNTI: 3) 5. Calcolate Mutua Informazione del bigramma <prendere, atto>, sapendo che in un corpus lungo 1000 tokens il bigramma ricorre 40 volte, mentre P(prendere) = 0.17 e atto 100 (PUNTI: 3). 6. In un corpus lungo 1000 tokens, la probabilità di P(cane|ART) = 0.3. Sapendo che P(ART_DEF) = 0.4 e P(ART_INDEF) = 0.2, calcolate P(ART, cane), assumendo che ART = ART_DEF ∪ ART_INDEF (PUNTI: 4). 7. Ogni individuo ha diritto alla vita, alla libertà ed alla sicurezza della propria persona. Nessun individuo potrà essere tenuto in stato di schiavitù o di servitù. Tokenizzate questo testo, calcolate la frequenza media di parola , la Type Token Ratio e costruite lo spettro di frequenza (PUNTI: 4). 8. Scrivete le espressioni regolari corrispondenti ai seguenti pattern (PUNTI: 4): 1) le parole che terminano per ro o pi che non iniziano per r. 2) trasformate le parole che terminano con ma in parole che terminano con to, solo se la parola è lunga almeno 5 caratteri; 3) le parole che iniziano e terminano con la stessa vocale;