Università degli Studi di Bari
Corso di Gestione della Conoscenza d’Impresa
Anno Accademico 2003-2004
WordNet
A lexical Database
Dott. Marco Degemmis
Ringraziamenti
Domenico Ladisa, Caso di studi su WordNet
Corso di Gestione della conoscenza d’Impresa
Anno Accademico 2002-2003
WordNet
Ontologia linguistica che rappresenta in
maniera esplicita e formale la conoscenza
linguistica umana
L’idea nasce nel 1985 da un gruppo di
linguisti e psicolinguisti dell’università di
Princeton
„
„
„
Obiettivo: ricerca concettuale nei dizionari
Risultato: definizione di un database lessicale
Linea di ricerca: memoria lessicale umana
WordNet
WordNet è un’ontologia linguistica toplevel
La conoscenza linguistica :
„
„
è conoscenza di senso comune
può essere utilizzata in qualsiasi dominio
Utilizzo di WordNet
Sistemi per Information Retrieval e Text
Categorization utilizzano la conoscenza
linguistica di WordNet per aggiungere
“semantica” al processo di
ritrovamento/categorizzazione
„
„
Algoritmi di base per l’indicizzazione
Algoritmi avanzati di word sense
disambiguation
Le quattro categorie lessicali
La memoria lessicale umana si
suddivide in quattro parti ognuna
rispettivamente dedicata a: nomi, verbi,
aggettivi e avverbi
Gli ideatori di WordNet, ispirandosi a
tale teoria, hanno suddiviso in modo
analogo la conoscenza lessicale
Concetto di parola
PAROLA: un’associazione fra una word
form e una word meaning
„
„
word form: espressione fisica della parola
ovvero l’insieme di lettere che la costituisce
(stringa)
word meaning: concetto lessicale che la
word form vuole esprimere ovvero il suo
significato sottinteso
La matrice lessicale
Realizza il mapping tra word forms e word meanings
Word
Meanings
Word Forms
F1
F2
M1
V(1,1) V(2,1)
M2
V(2,2)
F3
…
Fn
M3
M…
Mm
V(m,n)
Polysemy & Synonymy
Una word form è polysemous se ad
essa possono essere associate più word
meaning
Due word form sono synonym se ad
esse è associata la stessa word
meaning
Rappresentazione della
conoscenza linguistica in Wordnet
Lo scopo principale di WordNet è quello
di riuscire a trasferire ad un computer
tutta la conoscenza linguistica
„
le word form, le word meaning e il
mapping fra queste due categorie
La rappresentazione delle word form, in
una forma comprensibile ad un
calcolatore, non ha suscitato molti
problemi
Rappresentazione della
conoscenza linguistica in Wordnet
Ogni word meaning è rappresentata
dall’insieme delle word form che possono
essere usate per esprimerla: synset
Un synset associato ad una word form
consente all’utente di inferire la semantica
della word form in esame purché conosca la
semantica di almeno una word form elencata
nel synset
Rappresentazione della
conoscenza linguistica in Wordnet
I mapping fra word form sono
implementati dai synset e da particolari
costrutti
I mapping fra word meaning sono
implementati da relazioni fra synset
I mapping fra word form e word
meaning sono implementati da relazioni
fra word form e synset
Le relazioni alla base di
WordNet
LE RELAZIONI LESSICALI: Si
instaurano tra word form (synonymy,
antonymy, morphological)
LE RELAZIONI SEMANTICHE: Si
instaurano
tra
word
meaning
(hyponymy / hypernymy e meronymy /
holonymy)
Relazione Synonymy
Due espressioni sono sinonimi, in un
contesto linguistico C, se la sostituzione
di uno per l’altro, in C, non altera il
valore di verità
La synonymy è funzione del contesto :
„
la sostituzione di un espressione con
un’altra in un contesto non altera il valore
di verità, mentre in un altro contesto può
alterarlo
Relazione Antonymy
La relazione di antonymy associa due
word form che che hanno significati
opposti.
Il contrario di una parola x è a volte
not-x, ma non sempre.
„
ricco e povero sono contrari, ma dire che
qualcuno non è ricco non implica dire che è
povero.
Relazioni Hyponymy /
Hypernymy
Un synset A = {x,x1,…} è un hyponym del
synset B = {y,y1,…} se ogni x di A è del tipo
di una y di B
„
{acero} è un hyponym di {albero}, e {albero} è
un hyponym di {pianta}
Un synset A = {x,x1,…} è un hypernym del
synset B = {y,y1,…} se ogni y di B è del tipo
di una x di A.
„
{albero} è un hypernym di {acero}
Relazioni Meronymy /
Holonymy
Un synset A = {x,x1,…} è un meronym del
synset B = {y,y1,…} se ogni x di A è una
parte di una y di B.
„
{motore,…} è un meronym di {automobile,…}
Un synset A = {x,x1, …..} è un holonymy del
synset B = {y,y1,……} se ogni x di A ha come
parte una y di B.
„
{automobile,…} è un holonym di {motore,…}.
Vari tipi di Meronymy…
La relazione Meronymy (“part of”), da
sola, non è appropriata per descrivere
la totalità dei casi
„ “Alluminio” part-of “aeroplano”?
Relazione “Meronymy” specializzata in
sette tipi diversi di relazioni meronymy.
Vari tipi di Meronymy
Le sette relazioni, che specificano la meronymy, sono
le seguenti :
„ componente-oggetto(ramo/albero)
„ membro-insieme(albero/foresta)
„ parte-massa(fetta/torta)
„ materia-oggetto(alluminio/aeroplano)
„ caratteristica-attività(paying/shopping)
„ posto-zona(Princeton/New Jersey)
„ fase-processo ( adolescenza/crescita)
Relazioni Morfologiche
Classe di relazioni lessicali sono le che
consentono di collegare tra loro :
„
„
le forme plurali alle forme singolari
le forme coniugate con la forma all’infinito
dei verbi
Analizzatore morfologico
I nomi in WordNet
WordNet suddivide i nomi in 25 campi
semantici distinti (animale, sostanza,…)
In ogni campo semantico i nomi sono
organizzati in un albero lessicale
secondo la relazione hypernymy
Vale il principio di ereditarietà
Informazioni associate ai nomi
Ad un nome (canarino) si possono associare :
„ Attributi del nome (piccolo e giallo)
„ Parti del nome (becco e ali)
„ Funzioni del nome (canta e vola)
Molti degli attributi, delle parti e delle attività
di un termine sono ereditate dal diretto
hypernym.
In WordNet, per l’impossibilità di collegare
elementi di categorie lessicali diverse, solo le
parti sono associate ad un nome
Gli aggettivi in WordNet
Gli aggettivi sono strumenti per la
qualificazione di un nome
„
Se “sedia” non è sufficiente a selezionare la
sedia particolare che una persona ha in
mente, un'indicazione più specifica può
essere prodotta con gli aggettivi come
“grande” e “comoda”
WordNet suddivide gli aggettivi in
descrittivi e relazionali
Aggettivi descrittivi
Un aggettivo descrittivo definisce il
valore di un attributo ad un nome
Se x è un aggettivo, allora si
presuppone che c'è un attributo A tale
che A(x) = aggettivo.
„
Dire "il pacchetto è pesante" presuppone
che c’è un attributo PESO tale che
PESO(pacchetto) = pesante
Similarity & Indirect-Antonymy
Cosa accade se un sinonimo di una word
form avente antonymous non ha
antonymous?
WordNet implementa la relazione IndirectAntonymy che consente di associare ad un
aggettivo il suo antonymous indiretto (cioè
l’antonymous dell’aggettivo legato dalla
relazione similarity all’aggettivo in questione).
Tutto ciò permette di associare un
antonymous ad ogni aggettivo descrittivo
Organizzazione degli aggettivi
descrittivi
Aggettivi relazionali
Gli aggettivi relazionali sono gli aggettivi
derivati da un nome
„
Fraterno deriva da fratello, dentale da
dente
Gli aggettivi relazionali
„
„
non si riferiscono ad un attributo
non hanno antonym diretti
Organizzazione degli aggettivi
relazionali
Tali aggettivi sono organizzati in file
dedicati.
In ogni file gli aggettivi sono organizzati
in synset.
Ogni synset consiste di uno o più
aggettivi relazionali,seguiti da un
puntatore al nome appropriato a cui si
riferiscono.
I verbi in WordNet
Un verbo è il nucleo su cui si basa la
semantica associata ad una frase.
Il significato dei verbi cambia a seconda del
nome con cui i verbi stessi sono associati.
Per risolvere l’ambiguità, si potrebbe
immaginare di inserire in ogni synset di verbi
un puntatore al synset del nome a cui il
significato del verbo è riferito.
Organizzazione dei verbi in
WordNet
Abbandonata l’idea proposta
precedentemente, si è pensato di
suddividere i verbi in varie categorie
semantiche (file)
Con tale organizzazione, il significato di
un verbo in una categoria non è più
soggetto ad ambiguità perché legato
alla categoria semantica stessa
La relazione Entailment
Due verbi V1 e V2 sono nella relazione
Entailment lessicale quando la frase
“Qualcuno V1” logicamente entails la
frase “Qualcuno V2”.
„
Russare entails dormire poiché la frase “Egli sta
russando” entails “Egli sta dormendo”.
Di seguito sono descritte le relazioni
temporali. Definiscono 4 tipi di
Entailment.
Le relazioni temporali…
Proper Inclusion : Quando un’attività o un evento
è una fase interna di un’altra attività o evento.
„ Russare e sognare sono attività interne al dormire.
Co-extensiveness : Quando il verificarsi di
un’attività o evento implica allo stesso tempo il
verificarsi dell’altra attività o evento, e non c’è un
periodo di tempo in cui una delle due attività è in atto
mentre l’altra no.
„ Condurre un veicolo e guidare. Nessuna delle due
attività è parte dell’altra e i due verbi sono
sincroni.
Le relazioni temporali
Backward Presupposition : Quando due attività
legate dall’entailment si precedono nel tempo.
„ hit (colpire) / aim (mirare)
Hyponymy fra verbi :
Troponymy
Si può pensare di applicare l’hyponymy ai
verbi, ma sorge un importante problema :
„
„
Affermando che l’attività A è del tipo dell’attività
B affermiamo che l’attività A è una specificazione
dell’attività B con l’aggiunta di un componente
semantico C.
Slide(scivolare) è un hyponym del verbo Move con
l’aggiunta del componente semantico Manner
(modo). Run (correre) è un hyponym del verbo
move con l’aggiunta del componente semantico
Speed.
Primo tipo di Entailment :
Troponymy
Troponymy è un particolare tipo di
Entailment, in quanto ogni troponym V1 di un
più generale verbo V2 anche entails V2.
„
I verbi zoppicare-camminare sono collegati da
troponymy, ma sono anche collegati dall’entailment.
La relazione troponymy sussiste solo tra verbi
collegati dalla relazione temporale Coextensiveness.
Secondo e terzo tipo di
Entailment
“Entailment con Proper Inclusion”.
„
Russare-dormine sono legati da tale
relazione.
“Entailment con Backward
Presupposition.”
„
Aver successo-provare sono legati da tale
relazione (per aver successo bisogna prima
provare e “Ho avuto successo” entail “Ho
provato”).
La relazione Cause
Coinvolge due verbi, uno causative e
uno resultative. Il verbo causative
denota la causa dello stato o dell’attività
citata dal verbo resultative.
„
Mostrare e vedere sono legati dalla
relazione cause perché ”Io mostro la casa”
causa l’effetto “La casa è vista” .
Quarto tipo di Entailment :
Cause
Cause è un tipo specifico di Entailment
perché se V1 necessariamente causa V2,
allora V1 anche entails V2.
„
Bequeath (lasciare in eredità) e own (possedere)
sono legati dalla Cause (“Mi lascia in eredità la
casa” causa “La casa è posseduta da me”). Inoltre
i due verbi sono legati da Entailment perché
lasciare in eredità la casa implica la possessione
della casa da parte del destinatario.