Linguistica Computazionale Collocazioni e misure statistiche di associazione 28 ottobre 2014 A caccia di collocazioni analisi linguistica del corpus selezione delle coppie di parole costruzione di una tabella di contingenza per ogni coppia applicazione di una misura di associazione ordinamento della coppie in base alla forza di associazione 2 Frequenza come salienza l La sola frequenza di una coppia <u,v> non è indicativa del suo grado di salienza coppie <aggettivo, nemico> ordinate per frequenza (corpus itWac) coppie <aggettivo, nemico> ordinate per misura di associazione (corpus itWac) 3 Frequenze osservate e frequenze attese l Due parole sono tanto più fortemente associate quanto più spesso si presentano insieme rispetto alle volte in cui ricorrono l’una indipendentemente dall’altra l l cf. f(<grande, nemico>) = 768, ma f(grande) = 2.005.934 È necessario confrontare la frequenza osservata di una coppia <u,v> in un corpus con la sua frequenza attesa (expected frequency) l frequenza attesa di <u,v>: frequenza della coppia <u,v> che ci dovremmo aspettare di trovare se u e v fossero (statisticamente) indipendenti l’una dall’altra (= ricorressero insieme “per caso”) 4 Frequenze attese l Le frequenze attese di un bigramma <u,v> sono calcolate a partire dalla sua tabella di contingenza E11 - frequenza attesa di <u,v> per la definizione delle frequenze marginali: f (u) f (v) E11 = N 5 € Frequenze attese frequenze osservate per <mangiare, mela> y = mela y ≠mela x = mangiare 4 3 RIGAx=mangiare = 4 + 3 = 7 x ≠mangiare 5 2 RIGAx≠mangiare = 5 + 2 = 7 COLONNAy=mela = 4 + 5 = 9 COLONNAy≠mela = 3 + 2 = 5 frequenze attese per <mangiare, mela> y = mela y ≠mela x = mangiare (7*9)/14 = 4,5 (7*5)/14 = 2,5 x ≠mangiare (7*9)/14 = 4,5 (7*5)/14 = 2,5 6 Mutual Information (MI) (Church & Hanks 1989) O< u,v> MI(u,v) = log 2 E < u,v> l € Rapporto tra la frequenza osservata di un bigramma e la sua frequenza attesa l l MI (u,v) ≤ 0 - assenza di associazione tra le parole MI (u,v) >> 0 - forte associazione tra le parole 7 Mutual Information (MI) (Church & Hanks 1989) l La MI è più comunemente formulata in termini di probabilità l viene confrontata la probabilità di osservare il bigramma <u, v>, con la probabilità di osservare u e v indipendentemente l’una dall’altra p(u,v) MI(u,v) ≡ log 2 p(u) p(v) 8 MI e probabilità l Se due parole u e v sono statisticamente indipendenti, allora p(u, v) = p(u) * p(v) l l i due termini di questa uguaglianza appaiono rispettivamente al numeratore e al denominatore della frazione che definisce la MI maggiore è il valore della frazione in MI, più alto è il grado di dipendenza tra u e v, e dunque più forte la loro associazione lessicale 9 Come calcolare la MI Stimiamo le probabilità delle parole con la loro frequenza relativa in un corpus f (< u,v >) p(u,v) N log 2 = log 2 f (u) f (v) p(u) p(v) ⋅ N N frequenza relativa del bigramma frequenza relativa delle parole Con alcune semplificazioni otteniamo: € f (< u,v >) 2 f (< u,v >) N f (< u,v >) ⋅ N N log 2 = log 2 ⋅ = log 2 f (u) f (v) N f (u) f (v) f (u) f (v) ⋅ N N 10 Probabilità e frequenze attese l I due modi di esprimere la MI sono equivalenti l l la frequenza attesa è la frequenza del bigramma che ci dovremmo attendere se u e v fossero indipendenti se u e v fossero indipendenti la probabilità del bigramma sarebbe uguale a p(u) * p(v) O< u,v> MI(u,v) = log 2 E < u,v> O< u,v> f (< u,v >) f (< u,v >) * N p(u,v) log 2 = log 2 = = log 2 f (u) f (v) E < u,v> f (u) f (v) p(u) p(v) 11 € N Le collocazioni su WEBBIT http://clic.cimec.unitn.it/marco/webbit/ 12 Le collocazioni su WEBBIT 13 I limiti della MI l La MI è estremamente sensibile agli eventi rari l l in qualsiasi corpus, i bigrammi con frequenza 1 formati da hapax avranno sempre valori massimi di MI Dato un bigramma <u, v>, il caso di associazione massima si ha quando u e v ricorrono sempre insieme nel corpus l in questo caso vale che f(<u, v>) = f(u) = f(v) e la formula della MI si può riscrivere come: f (< u,v >) ⋅ N f ⋅N log 2 = log 2 2 f (u) ⋅ f (v) f l dato N = 10.000, l l se f(u) = f(v) = 1, MI(u, v) = 13,28 se f(u) = f(v) =€10, MI(u, v) = 9,96 14 I limiti della MI l La MI non è molto indicativa quando calcolata su bigrammi a bassa frequenza l l il fatto che due hapax ricorrano una sola volta insieme nel corpus ci dice molto poco riguardo al loro grado di associazione Limite molto grave dato il grande numero di eventi rari l cf. Legge di Zipf l in un testo i bigrammi hapax possono arrivare anche al 75% 15 Oltre la MI l Local Mutual Information l MI moltiplicata per la frequenza del bigramma l l privilegia i bigrammi più frequenti è il termine fondamentale nel calcolo di LogLikelihood Ratio (LLR; Dunning 1993) p(u,v) LMI(u,v) ≡ f (< u,v >) * log 2 p(u) p(v) 16 € Le collocazioni su WEBBIT 17 Le collocazioni su WEBBIT 18 Associazioni Verbo-OGG Corpus La Repubblica - MI verbo nome f(<v,n>) f(v) f(n) MI ingobbire-v impicciare-v aggradare-v piagnucolare-v patinare-v incogliere-v baloccare-v affaccendare-v monologare-v riandare-v perseverare-v assentire-v piagare-v disquisire-v disquisire-v deflettere-v abboccare-v dolorare-v placcare-v raccapezzare-v pelatello-s discesismo-s interlocutorio-a chiappucciani-s verdebruna-s lluvia-s righelli-s giraruota-s figlia-telefono-s nacora-s diabolicum-s softball-s gassa-s cartam-s biscroma-s super-juventino-s pescioni-s anginoso-s antitaccheggio-s cybereuforia-s 1 1 1 1 1 1 1 1 1 1 8 1 1 1 1 1 1 1 1 1 7 4 9 10 11 11 12 12 13 14 14 14 15 17 17 17 17 18 19 20 1 2 1 1 1 1 1 1 1 1 8 1 1 1 1 1 1 1 1 1 14.1530 14.0194 13.9017 13.7963 13.7010 13.7010 13.6140 13.6140 13.5339 13.4598 13.4598 13.4598 13.3908 13.2657 13.2657 13.2657 13.2657 13.2085 13.1544 13.1032 19 Associazioni Verbo-OGG Corpus La Repubblica - MI (f>10) verbo nome f(<v,n>) f(v) f(n) MI soggiornare-v arrotare-v osare-v virare-v pascolare-v equiparare-v collaborare-v introitare-v mungere-v spalmare-v scandagliare-v disboscare-v affettare-v sbancare-v crossare-v sfrattare-v perforare-v rivoltare-v mungere-v svitare-v obbligato-s erre-s inosabile-s probati-s gregge-s sionismo-s giulio-s pubblicitario-s vacca-s crema-s fondale-s selva-s salame-s botteghino-s palla-gol-s inquilino-s polmone-s frittata-s mucca-s bullone-s 11 22 13 16 13 12 24 12 20 14 15 11 11 34 14 24 21 11 18 14 11 22 25 29 29 33 35 37 38 14 45 45 23 47 50 24 21 27 38 14 11 22 13 16 13 12 24 12 20 41 15 11 22 34 14 55 60 26 32 74 13.2794 12.5863 12.4584 12.3100 12.3100 12.1808 12.1220 12.0664 12.0397 11.9638 11.8707 11.8707 11.8487 11.8272 11.7653 11.6700 11.5830 11.5213 11.4644 11.3733 20 Associazioni Verbo-OGG Corpus La Repubblica - LMI verbo nome f(<v,n>) f(v) f(n) LMI rendere-v prendere-v correre-v prendere-v affrontare-v raccontare-v dare-v dire-v mettere-v commettere-v dare-v lanciare-v raggiungere-v dire-v dare-v aprire-v assumere-v porre-v firmare-v porre-v conto-s decisione-s rischio-s atto-s problema-s storia-s vita-s cosa-s mano-s errore-s via-s appello-s accordo-s no-s risposta-s porta-s responsabilità -s problema-s contratto-s fine-s 12103 10140 4790 7274 6863 5437 9567 7899 6835 3251 7670 3883 5053 4333 5908 3867 3497 4376 2947 3191 68070 129224 11894 129224 39517 33125 236164 95251 126541 9798 236164 36226 53770 95251 236164 61047 32283 29290 20503 29290 33807 27931 17149 18089 51086 23861 40631 54220 27360 9320 27695 9998 29889 9030 17512 11134 15408 51086 13163 14362 47726.6842 33627.5960 26056.0862 24866.7689 24068.7517 22899.6724 21816.4850 21392.8482 20255.7651 19037.0407 18735.2461 18077.5914 17326.2489 16900.0854 15597.2500 15552.9152 14804.9178 14688.0698 13774.0838 13752.0288 21 Associazioni mangiare-OGG Corpus La Repubblica - MI verbo nome f(<v,n>) f(v) f(n) MI mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v zupppa-s tvorak-s tiramisu-s taglioline-s sugjuek-s stu-s strangozzi-s stangoni-s sorchette-s sorbettiera-s shawerma-s shashlik-s scaloppa-s sauerkraut-s sano'-s sandwicj-s salciccia-s sachertorte-s rusumada-s rosbif-s 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 7.3883 22 Associazioni mangiare-OGG Corpus La Repubblica - LMI verbo nome f(<v,n>) f(v) f(n) LMI mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v mangiare-v carne-s panino-s pizza-s pane-s pesce-s cibo-s pasta-s gelato-s minestra-s spaghetto-s hamburger-s frutta-s verdura-s piatto-s mela-s foglia-s pollo-s panettone-s uovo-s insalata-s 266 162 149 154 133 117 89 77 72 68 50 58 56 67 54 53 48 44 45 33 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 6067 1385 497 472 1303 1010 1847 487 313 237 243 159 439 353 1144 393 460 355 207 878 157 1526.3889 1015.2977 929.0494 808.9299 713.0006 541.6069 506.2886 460.9116 446.1746 415.8002 311.5691 311.1240 310.6402 304.8949 291.7856 277.0484 258.5926 256.9483 198.7776 192.3413 23