Università degli Studi di Bari Corso di Gestione della Conoscenza d’Impresa Anno Accademico 2003-2004 WordNet A lexical Database Dott. Marco Degemmis Ringraziamenti Domenico Ladisa, Caso di studi su WordNet Corso di Gestione della conoscenza d’Impresa Anno Accademico 2002-2003 WordNet Ontologia linguistica che rappresenta in maniera esplicita e formale la conoscenza linguistica umana L’idea nasce nel 1985 da un gruppo di linguisti e psicolinguisti dell’università di Princeton Obiettivo: ricerca concettuale nei dizionari Risultato: definizione di un database lessicale Linea di ricerca: memoria lessicale umana WordNet WordNet è un’ontologia linguistica toplevel La conoscenza linguistica : è conoscenza di senso comune può essere utilizzata in qualsiasi dominio Utilizzo di WordNet Sistemi per Information Retrieval e Text Categorization utilizzano la conoscenza linguistica di WordNet per aggiungere “semantica” al processo di ritrovamento/categorizzazione Algoritmi di base per l’indicizzazione Algoritmi avanzati di word sense disambiguation Le quattro categorie lessicali La memoria lessicale umana si suddivide in quattro parti ognuna rispettivamente dedicata a: nomi, verbi, aggettivi e avverbi Gli ideatori di WordNet, ispirandosi a tale teoria, hanno suddiviso in modo analogo la conoscenza lessicale Concetto di parola PAROLA: un’associazione fra una word form e una word meaning word form: espressione fisica della parola ovvero l’insieme di lettere che la costituisce (stringa) word meaning: concetto lessicale che la word form vuole esprimere ovvero il suo significato sottinteso La matrice lessicale Realizza il mapping tra word forms e word meanings Word Meanings Word Forms F1 F2 M1 V(1,1) V(2,1) M2 V(2,2) F3 … Fn M3 M… Mm V(m,n) Polysemy & Synonymy Una word form è polysemous se ad essa possono essere associate più word meaning Due word form sono synonym se ad esse è associata la stessa word meaning Rappresentazione della conoscenza linguistica in Wordnet Lo scopo principale di WordNet è quello di riuscire a trasferire ad un computer tutta la conoscenza linguistica le word form, le word meaning e il mapping fra queste due categorie La rappresentazione delle word form, in una forma comprensibile ad un calcolatore, non ha suscitato molti problemi Rappresentazione della conoscenza linguistica in Wordnet Ogni word meaning è rappresentata dall’insieme delle word form che possono essere usate per esprimerla: synset Un synset associato ad una word form consente all’utente di inferire la semantica della word form in esame purché conosca la semantica di almeno una word form elencata nel synset Rappresentazione della conoscenza linguistica in Wordnet I mapping fra word form sono implementati dai synset e da particolari costrutti I mapping fra word meaning sono implementati da relazioni fra synset I mapping fra word form e word meaning sono implementati da relazioni fra word form e synset Le relazioni alla base di WordNet LE RELAZIONI LESSICALI: Si instaurano tra word form (synonymy, antonymy, morphological) LE RELAZIONI SEMANTICHE: Si instaurano tra word meaning (hyponymy / hypernymy e meronymy / holonymy) Relazione Synonymy Due espressioni sono sinonimi, in un contesto linguistico C, se la sostituzione di uno per l’altro, in C, non altera il valore di verità La synonymy è funzione del contesto : la sostituzione di un espressione con un’altra in un contesto non altera il valore di verità, mentre in un altro contesto può alterarlo Relazione Antonymy La relazione di antonymy associa due word form che che hanno significati opposti. Il contrario di una parola x è a volte not-x, ma non sempre. ricco e povero sono contrari, ma dire che qualcuno non è ricco non implica dire che è povero. Relazioni Hyponymy / Hypernymy Un synset A = {x,x1,…} è un hyponym del synset B = {y,y1,…} se ogni x di A è del tipo di una y di B {acero} è un hyponym di {albero}, e {albero} è un hyponym di {pianta} Un synset A = {x,x1,…} è un hypernym del synset B = {y,y1,…} se ogni y di B è del tipo di una x di A. {albero} è un hypernym di {acero} Relazioni Meronymy / Holonymy Un synset A = {x,x1,…} è un meronym del synset B = {y,y1,…} se ogni x di A è una parte di una y di B. {motore,…} è un meronym di {automobile,…} Un synset A = {x,x1, …..} è un holonymy del synset B = {y,y1,……} se ogni x di A ha come parte una y di B. {automobile,…} è un holonym di {motore,…}. Vari tipi di Meronymy… La relazione Meronymy (“part of”), da sola, non è appropriata per descrivere la totalità dei casi “Alluminio” part-of “aeroplano”? Relazione “Meronymy” specializzata in sette tipi diversi di relazioni meronymy. Vari tipi di Meronymy Le sette relazioni, che specificano la meronymy, sono le seguenti : componente-oggetto(ramo/albero) membro-insieme(albero/foresta) parte-massa(fetta/torta) materia-oggetto(alluminio/aeroplano) caratteristica-attività(paying/shopping) posto-zona(Princeton/New Jersey) fase-processo ( adolescenza/crescita) Relazioni Morfologiche Classe di relazioni lessicali sono le che consentono di collegare tra loro : le forme plurali alle forme singolari le forme coniugate con la forma all’infinito dei verbi Analizzatore morfologico I nomi in WordNet WordNet suddivide i nomi in 25 campi semantici distinti (animale, sostanza,…) In ogni campo semantico i nomi sono organizzati in un albero lessicale secondo la relazione hypernymy Vale il principio di ereditarietà Informazioni associate ai nomi Ad un nome (canarino) si possono associare : Attributi del nome (piccolo e giallo) Parti del nome (becco e ali) Funzioni del nome (canta e vola) Molti degli attributi, delle parti e delle attività di un termine sono ereditate dal diretto hypernym. In WordNet, per l’impossibilità di collegare elementi di categorie lessicali diverse, solo le parti sono associate ad un nome Gli aggettivi in WordNet Gli aggettivi sono strumenti per la qualificazione di un nome Se “sedia” non è sufficiente a selezionare la sedia particolare che una persona ha in mente, un'indicazione più specifica può essere prodotta con gli aggettivi come “grande” e “comoda” WordNet suddivide gli aggettivi in descrittivi e relazionali Aggettivi descrittivi Un aggettivo descrittivo definisce il valore di un attributo ad un nome Se x è un aggettivo, allora si presuppone che c'è un attributo A tale che A(x) = aggettivo. Dire "il pacchetto è pesante" presuppone che c’è un attributo PESO tale che PESO(pacchetto) = pesante Similarity & Indirect-Antonymy Cosa accade se un sinonimo di una word form avente antonymous non ha antonymous? WordNet implementa la relazione IndirectAntonymy che consente di associare ad un aggettivo il suo antonymous indiretto (cioè l’antonymous dell’aggettivo legato dalla relazione similarity all’aggettivo in questione). Tutto ciò permette di associare un antonymous ad ogni aggettivo descrittivo Organizzazione degli aggettivi descrittivi Aggettivi relazionali Gli aggettivi relazionali sono gli aggettivi derivati da un nome Fraterno deriva da fratello, dentale da dente Gli aggettivi relazionali non si riferiscono ad un attributo non hanno antonym diretti Organizzazione degli aggettivi relazionali Tali aggettivi sono organizzati in file dedicati. In ogni file gli aggettivi sono organizzati in synset. Ogni synset consiste di uno o più aggettivi relazionali,seguiti da un puntatore al nome appropriato a cui si riferiscono. I verbi in WordNet Un verbo è il nucleo su cui si basa la semantica associata ad una frase. Il significato dei verbi cambia a seconda del nome con cui i verbi stessi sono associati. Per risolvere l’ambiguità, si potrebbe immaginare di inserire in ogni synset di verbi un puntatore al synset del nome a cui il significato del verbo è riferito. Organizzazione dei verbi in WordNet Abbandonata l’idea proposta precedentemente, si è pensato di suddividere i verbi in varie categorie semantiche (file) Con tale organizzazione, il significato di un verbo in una categoria non è più soggetto ad ambiguità perché legato alla categoria semantica stessa La relazione Entailment Due verbi V1 e V2 sono nella relazione Entailment lessicale quando la frase “Qualcuno V1” logicamente entails la frase “Qualcuno V2”. Russare entails dormire poiché la frase “Egli sta russando” entails “Egli sta dormendo”. Di seguito sono descritte le relazioni temporali. Definiscono 4 tipi di Entailment. Le relazioni temporali… Proper Inclusion : Quando un’attività o un evento è una fase interna di un’altra attività o evento. Russare e sognare sono attività interne al dormire. Co-extensiveness : Quando il verificarsi di un’attività o evento implica allo stesso tempo il verificarsi dell’altra attività o evento, e non c’è un periodo di tempo in cui una delle due attività è in atto mentre l’altra no. Condurre un veicolo e guidare. Nessuna delle due attività è parte dell’altra e i due verbi sono sincroni. Le relazioni temporali Backward Presupposition : Quando due attività legate dall’entailment si precedono nel tempo. hit (colpire) / aim (mirare) Hyponymy fra verbi : Troponymy Si può pensare di applicare l’hyponymy ai verbi, ma sorge un importante problema : Affermando che l’attività A è del tipo dell’attività B affermiamo che l’attività A è una specificazione dell’attività B con l’aggiunta di un componente semantico C. Slide(scivolare) è un hyponym del verbo Move con l’aggiunta del componente semantico Manner (modo). Run (correre) è un hyponym del verbo move con l’aggiunta del componente semantico Speed. Primo tipo di Entailment : Troponymy Troponymy è un particolare tipo di Entailment, in quanto ogni troponym V1 di un più generale verbo V2 anche entails V2. I verbi zoppicare-camminare sono collegati da troponymy, ma sono anche collegati dall’entailment. La relazione troponymy sussiste solo tra verbi collegati dalla relazione temporale Coextensiveness. Secondo e terzo tipo di Entailment “Entailment con Proper Inclusion”. Russare-dormine sono legati da tale relazione. “Entailment con Backward Presupposition.” Aver successo-provare sono legati da tale relazione (per aver successo bisogna prima provare e “Ho avuto successo” entail “Ho provato”). La relazione Cause Coinvolge due verbi, uno causative e uno resultative. Il verbo causative denota la causa dello stato o dell’attività citata dal verbo resultative. Mostrare e vedere sono legati dalla relazione cause perché ”Io mostro la casa” causa l’effetto “La casa è vista” . Quarto tipo di Entailment : Cause Cause è un tipo specifico di Entailment perché se V1 necessariamente causa V2, allora V1 anche entails V2. Bequeath (lasciare in eredità) e own (possedere) sono legati dalla Cause (“Mi lascia in eredità la casa” causa “La casa è posseduta da me”). Inoltre i due verbi sono legati da Entailment perché lasciare in eredità la casa implica la possessione della casa da parte del destinatario.