WordNet(30/06/05)

Text Processing
WordNet
Basi di Dati Multimediali - Giugno 2005
Marco Ernandes: [email protected]
Fonti di riferimento:
“Introduction to WordNet: an on-line lexical database” – George A. Miller
“WordNet: a lexical database” – Marco Degemmis
Cos’è WordNet
E’ nato a Princeton (1985) dal gruppo di
linguistica e psicolinguistica.
WordNet è un vero e proprio DataBase
Relazionale Lessicale.
E’ un ontologia linguistica che rappresenta in
modo esplicito la conoscenza linguistica umana.
La conoscenza linguistica formalizzata:


è di senso comune
è domain-independent
2
A cosa serve
Nella comunità di Text Processing WordNet si
usa per aggiungere semantica.
“Semantizzare” un testo vuol dire collegarlo in
modo appropriato con il resto della base di
conoscenza posseduta: la lingua è un reticolo di
collegamenti!
Esempi di utilizzo:


Riadattamento delle tecniche di indicizzazione
Word-sense disambiguation (es: scotch  whiskey o
nastro adesivo? interpretare  cercare di capire o
3
recitare ?)
La filosofia di WordNet
 Il concetto di parola viene definito come associazione tra
due elementi:


Word-form (forma-parola): stringa di caratteri (lettere) che
definiscono l’espressione “fisica” di una parola
Word-meaning (significato-parola): concetto lessicale espresso
dalla parola (ogni parola veicola, anche in modo sottinteso, un
senso).
 Le associazioni tra forme e significati possono essere
descritti nella matrice lessicale.
 Le word-form mappate su più word-meaning sono
definite: polysemous.
 Word-form diverse associate alla stessa word-meaning
sono definite: synonym.
4
WordNet: i synset
Una word-meaning viene rappresentata
dall’insieme di tutte le word-form che possono
essere usate per esprimerla.
Questo insieme di word-form si chiama: synset.
(E’ lo strumento che permette di rappresentare
una word-meaning)
Le word-form sono mappate tra loro grazie ai
synset (e ad altri “puntatori”).
Le word-meaning sono mappate tra loro grazie a
5
relazioni tra synset.
Categorie lessicali e relazioni
Ci sono 4 categorie lessicali (giustificate dalla
psicolinguistica): nomi, verbi, aggettivi, avverbi
I nomi sono legati da 2 tipologie di relazioni:

Relazioni lessicali: si instaurano tra word-forms (sia tra
forme contenute nello stesso synset sia esterne).
• synomymy vs. antonymy (per l’inglese ci sono anche le
relazioni morfologiche)

Relazioni semantiche: si instaurano tra word-meaning.
• hyponymy vs. hyperonymy
• meronymy vs. holonymy
Alcuni aggettivi possono essere in relazione
synonimy vs. antonymy
I verbi possiedono la relazione di entailment.
6
Relazioni Lessicali
Synonymy: due word-form sono sinonime se
sostituendo l’una con l’altra non si cambia il
valore di verità di una frase.

Le word-form sinonime appaiono nello stesso synset
Antonymy “!”: due word-form sono antonime se il
loro significato è opposto.



A opposto di B non implica che A = not(B) !!!
es: alto e basso.
Per l’antonimia esiste un vero puntatore da una
word_form a un’altra. Non vale tra synset!
7
Relazioni semantiche 1
Hyponymy “~”: relazione “is a” (sottoinsieme).



Un synset A è hyponym di un synset B se A “è del tipo di” B.
Es: associazione  hypo  organizzazione,
carpa  hypo  pesce, abete  hypo  albero.
La relazione deve valere per ogni forma all’interno dei
synset (CHE SUCCEDE ALTRIMENTI?)
Hyperonymy “@”: relazione inversa
dell’hyponymy (famiglia di appartenenza)


Un synset A è hyponym di un synset B se B “è del tipo di” A.
Es: felino  hyper  gatto, laureato  hyper  ingegnere
8
Relazioni semantiche 2
Meronymy “%”: relazione “part of” (componente
di).



Un synset A è meronym di un synset B se A “è un
componente di” B.
Es: volante  mero  auto, argento  mero  specchio.
Attenzione: i meronym non sono tutti “part of”! (es: argento e
specchio)
Holonymy “#”: relazione inversa di meronymy


Un synset A è holonym di un synset B se B “è componente
di” A.
Es: aeroplano  holo  carlinga, computer  holo  CPU
9
Relazioni semantiche 3
La relazione di “part-of” non rappresenta tutte le
possibili meronimie!
Tipi di meronimia:







componente-oggetto: ramo / albero, motore / auto, ala / aereo
membro-insieme:
albero / foresta, pecora / gregge
parte-massa:
fetta / torta
materia-oggetto:
sabbia / specchio
caratteristica-attività: pagamento / acquisto
posto-zona:
provincia / regione / nazione / continente
fase-processo:
adolescenza / crescita
10
Relazioni semantiche 4
 WordNet costituisce una foresta di alberi tramite la
relazione di iperonimia e iponimia.
Ci sono 25 radici: organismi, sostanza, etc…


queste radici stabiliscono 25 diversi campi semantici strutturati ad
albero.
vale il principio di ereditarietà
 I nomi non sono collegati ad altre categorie lessicali (es:
nomi-verbi, nessuna relazione inter-category):



NO: relazioni di attributo (es: canarino  giallo)
NO: relazioni di funzionalità (es: canarino  volare)
Sì: relazioni di componente (es: canarino  ala).
11
Esempio MultiWordNet
{oggetto}
~
@
{artefatto}
~
{computer, data_processor, electronic_computer,
@
Information_processing_system}
{strumentazione}
~
@
{apparecchio, arnese, congegno, dispositivo}
~
@
| = corresponds_to
{macchina}
~
@
{elaboratore, computer, cervello_elettronico, calcolatore}
%
%
#
#
{monitor, schermo, video}
12
{cpu, unità centrale di elaborazione}
Gli aggettivi
 Gli aggettivi attribuiscono una proprietà ad un nome.
 Aggettivi descrittivi: associano un
valore ad un certo attributo del
nome. ES: “sedia grande”
stabilisce il valore dell’attributo
dimensione(sedia) = grande.
 Possiedono la relazione di
sinonimia/antonimia (diretta e
indiretta).
 Aggettivi relazionali: derivano da un nome.
Es: “igienico”, “dentale”, “familiare”, etc…


Possiedono un puntatore al nome dal quale derivano.
Non possiedono antonimi!
13
I verbi
 I verbi sono il nucleo semantico di una frase: stabiliscono una relazione tra i diversi elementi della frase.
 Il verbo A “entails” il verbo B, se lo svolgimento del
primo implica lo svolgimento del secondo.

ES: russare entails dormire / parlare entails comunicare
 Le relazioni tra verbi sono di 2 tipologie:


Entailment “*”
• Troponymy
• Co-extensiveness
• Proper-Inclusion
• Backward-Presupposition
Cause “>”
14
Verbi: le relazioni
 L’entailment troponymy è simile all’hyponymy nei
nomi:

Il verbo A è troponimo del verbo B se l’attività indicata da A è
“del tipo” dell’attività di B.
 La troponymy si verifica tra verbi legati da:

“co-extensiveness”, cioè avvengono in modo assolutamente
sincrono.
• Es: scivolare / muoversi – correre / muoversi – zoppicare /
camminare / riposarsi – dormire
• La relazione inversa è l’hyperonym

proper-inclusion: il verbo A è incluso nel verbo B se A avviene
mentre avviene B (ma non è detto il contrario)
• Es: russare / dormire – virare / navigare
15
Verbi: le relazioni
 Backward-presupposition:


Il verbo A presuppone il verbo B se il verificarsi
(temporalmente anteriore) di B è necessario affinchè si
verifichi di A.
Es: vincere / partecipare – colpire / mirare
 Cause “>”:



il verbo A è in relazione di causa con il verbo B se il verificarsi
di A (verbo causative) produce come conseguenza B (verbo
resultative).
Es: lasciare_in_eredità / possedere – bere / dissetarsi
Cause è trattato come una relazione a parte (non è un
entailment).
16
Un po’ di numeri
Inglese:




# synsets
# word forms
# relazioni
# verbi, nomi, aggettivi, avverbi
17
Un po’ di numeri
Statistiche sui nomi (nel 2004)
Inglese:



# synsets = ca. 102.000
# word forms = ca. 125.000
# relazioni = ca. 125.000
Italiano:


# synsets: ca. 34000 (collegati all’inglese)
# word forms: ca. 41000
18