Risorse per l`informazione semantica 1/2

annuncio pubblicitario
Rappresentazione dell’Informazione Semantica
Lezione 6: Risorse per l’informazione semantica 1/2
Malvina Nissim
[email protected]
15 Febbraio 2013
Esplicitazione/Arricchimento
Abbiamo ripetutamente osservato condizioni in cui la lingua ci consente di lasciare una parte
dell’informazione “nascosta senza perdere potere comunicativo
• anafora (informazione per risoluzione: dove la recuperiamo?)
• omonimia o ambiguità di senso
→ riso/riso, parco/parco, senso, fresco
• sottospecificazione → N+P+N (“coltello da pane, “faccia da schiaffi, “bicchiere di vino,
“forchetta di plastica)
• opacità
→ metafore, metonimie, polirematiche in generale
⇒ Livello linguistico: informazione implicita
⇒ Livello meta-linguistico: informazione esplicita
Dove trovare informazione esplicita
• sorgenti strutturate
– Dizionari
– WordNet
– Qualia Structure
• sorgenti non strutturate/organizzate (“qualcuno l’avrà pur detto”)
1
Dizionari
Definizioni
I gatti mangiano i topi e perciò i topi mangiano i gatti
• in questa frase ci sono 12 parole
1
• in questa frase la parola gatti compare due volte
• “gatto e “gatti sono la stessa parola (e “gatto e “topo sono parole diverse)
• parola grafica: ciascun gruppo di lettere separati da spazi bianchi (12)
• forma: occorrenze di una data forma
• lessema: unità di base a cui ricondurre le varie forme
⇒ il lessemi sono le unità di base del lessico
Lessico Mentale
• Il lessico mentale costituisce un sottocomponente della grammatica in cui sono immagazzinate le informazioni (fonologiche, morfologiche, sintattiche, semantiche) che i parlanti
conoscono in merito alle parole della propria lingua
• il lessico mentale contiene non solo le conoscenze relative alle singole parole ma anche
relative al loro funzionamento e ai rapporti tra di loro
• dal lessico mentale ciascun parlante può estrarre parole con date caratteristiche:
– elencare parole a caso
– elencare verbi regolari
– elencare nomi concreti
– ...
Dizionari
• risorse lessicali sviluppate dai lessicografi
• riflette il lessico mentale?
• o riflette piuttosto la langue?
• copertura
– a livello sincronico (tutte le parole, anche settoriali)
– a livello diacronico (parole antiche, riferimenti etimologici)
1.1
Standard
Dizionari standard
• entrate lessicali (o lemmi)
• necessaria lemmatizzazione: ricondurre tutte le diverse forme ad un unico lemma
• basati su corpora di grandi dimensioni
2
• parzialmente “arretrati: problema neologismi ed espressioni/formazioni estemporanee
• ordine alfabetico
→ quali informazioni ci dà un dizionario?
→ esempio da www.garzantilinguistica.it
Informazioni in dizionari standard
• il lemma
• le altre forme (ortografia e pronuncia)
• loro struttura (da quali morfemi sono composti)
• informazioni grammaticali
• esempi d’uso
• etimologia
• il significato della parola (compresi sinonimi)
1.2
Inversi
Dizionari inversi
• http://culturitalia.uibk.ac.at/wb/diz_inv.htm
1.3
Frequenza
Dizionari di frequenza
• termini ordinati per frequenza
• occorrenze ricavate da corpora (generici e/o di dominio)
• lemmi e forme flesse
file://COLFIS.formario.minuscolo.txt
Altri tipi di dizionari
• sinonimi e contrari
• specialistici
• onomasiologici (voci raggruppate per soggetti)
• etimologici
3
Aspetti problematici
• fresco, scuola, riso polisemia e omonimia
• “a gambe levate”, “tirare le cuoia”, “a giorni alterni”, “nudo e crudo” polirematiche o
multiword expressions
• cane/gatto/scimmia/topo mangiare/divorare giallo/rosso/nero/bianco
lessico (asse paradigmatico)
2
relazioni nel
Relazioni lessicali
Sinonimia
relazione tra lessemi diversi che hanno lo stesso significato
• sostituibilità tra lessemi (sinonimia assoluta o perfetta): estremamente rara, spesso la
connotazione è diversa (gatto/micio)
• geosinonimi: papà/babbo
• sinonimia contestuale: “sono scesa a prendere/comprare il latte
• relazione bilaterale
Iponimia (e iperonimia)
• implicazione unilaterale:
– rosa < fiore
– *fiore < rosa
• rosa, giglio, tulipano, etc. sono co-iponimi
• transitività: se X è iponimo di Y e Y è iponimo di Z allora X è iponimo di Z (vipera <
rettile) & (rettile < animale) ⇒ vipera < animale
• tassonomie: classificazioni in tipi e sottotipi (spesso di domini specifici)
Antonimia
• ricco / povero
• presto / tardi
• destra / sinistra
• presente / assente
• giallo / blu
4
• reversione (cadere / alzarsi)
• opposizione (comprare / vendere)
• contraddizione (sopra / sotto, maschio / femmina)
• contrasto (co-iponimia) (cane / gatto, blu / bianco)
Meronimia (e olonimia)
relazione tra un lessema che denota una parte ed un lessema
che denota il tutto corrispondente
(relazione parte-tutto, relazione parte-insieme)
• (proto)tipicamente: parti del corpo (possesso alienabile vs inalienabile)
• transitività? (X è parte di Y) & (Y è parte di Z) ⇒ X è parte di Z?
– finestrino:portiera:macchina
– ?maniglia:porta:casa
NB: realtà vs lingua! restrizioni linguistiche?
3
Database lessicali
3.1
WordNet
WordNet
WordNet è un database lessicale per l’inglese organizzato in insiemi di sinonimi (synsets), ciascuno dei quali esprime un concetto differente. I synsets sono collegati tramite varie relazioni
lessicali/semantiche.
sostantivi, verbi, aggettivi, avverbi
• oltre 150.000 parole
• circa 250.000 relazioni
5
Cos’è WordNet
 E’ nato a Princeton (1985) dal gruppo di
linguistica e psicolinguistica.
Text Processing
 WordNet è un vero e proprio DataBase
Relazionale Lessicale.
Lessicale.
WordNet
 E’ un ontologia linguistica che rappresenta in
modo esplicito la conoscenza linguistica umana.
Basi di Dati Multimediali - Giugno 2005
Marco Ernandes: [email protected]
 La conoscenza linguistica formalizzata:


Fonti di riferimento:
“Introduction to WordNet: an on-line lexical database”
database” – George A. Miller
“WordNet: a lexical database”
database” – Marco Degemmis
2
La filosofia di WordNet
WordNet: i synset
 Il concetto di parola viene definito come associazione tra
due elementi:


Word-form (forma-parola): stringa di caratteri (lettere) che
definiscono l’l’espressione “fisica”
fisica” di una parola
Word-meaning (significato-parola): concetto lessicale espresso
dalla parola (ogni parola veicola, anche in modo sottinteso, un
senso).
 Le word-form sono mappate tra loro grazie ai
synset (e ad altri “puntatori”
puntatori”).
 Le word-form mappate su più word-meaning sono
definite: polysemous.
polysemous.
 Word-form diverse associate alla stessa word-meaning
sono definite: synonym.
synonym.
3
Categorie lessicali e relazioni
 Ci sono 4 categorie lessicali (giustificate dalla
psicolinguistica):
psicolinguistica): nomi, verbi, aggettivi, avverbi
 I nomi sono legati da 2 tipologie di relazioni:
Relazioni lessicali:
lessicali: si instaurano tra word-forms (sia tra
forme contenute nello stesso synset sia esterne).
• synomymy vs.
vs. antonymy (per l’l’inglese ci sono anche le
relazioni morfologiche)

Relazioni semantiche:
semantiche: si instaurano tra word-meaning.
word-meaning.
• hyponymy vs.
vs. hyperonymy
• meronymy vs.
vs. holonymy
 Alcuni aggettivi possono essere in relazione
synonymy vs.
vs. antonymy
 I verbi possiedono la relazione di entailment.
entailment.
 Una word-meaning viene rappresentata
dall’
dall’insieme di tutte le word-form che possono
essere usate per esprimerla.
 Questo insieme di word-form si chiama: synset.
synset.
(E’
(E’ lo strumento che permette di rappresentare
una word-meaning)
 Le associazioni tra forme e significati possono essere
descritti nella matrice lessicale.
lessicale.

è di senso comune
è domain-independent
5
 Le word-meaning sono mappate tra loro grazie a
4
relazioni tra synset.
Relazioni Lessicali
Relazioni semantiche 1
 Synonymy:
Synonymy: due word-form sono sinonime se
sostituendo l’l’una con l’l’altra non si cambia il
valore di verità di una frase.

 Hyponymy “~”: relazione “is a” (sottoinsieme).


Le word-form sinonime appaiono nello stesso synset
 Antonymy “!”: due word-form sono antonime se il
loro significato è opposto.
opposto.



A opposto di B non implica che A = not(B)
not(B) !!!
es:
es: alto e basso.
Per l’l’antonimia esiste un vero puntatore da una
word_form a un’
un’altra. Non vale tra synset!
synset!

Un synset A è hyponym di un synset B se A “è del tipo di”
di” B.
Es:
carpa
Es: associazione  hypo  organizzazione,
 hypo  pesce, abete  hypo  albero.
La relazione deve valere per ogni forma all’
all’interno dei synset
 Hyperonymy “@”: relazione inversa dell’
dell’hyponymy
(famiglia di appartenenza)


Un synset A è hyperonym di un synset B se B “è del tipo di”
di” A.
Es:
Es: felino  hyper  gatto, laureato  hyper  ingegnere
6
7
Relazioni semantiche 2
Relazioni semantiche 3
 Meronymy “%”: relazione “part of”
of” (componente
di).



 La relazione di “part-of”
part-of” non rappresenta tutte le
possibili meronimie!
meronimie!
Un synset A è meronym di un synset B se A “è un
componente di”
di” B.
Es: volante  mero  auto, argento  mero  specchio.
specchio.
Attenzione: i meronym non sono tutti “part of”
of”! (es: argento e
specchio)




 Holonymy “#”: relazione inversa di meronymy

 Tipi di meronimia:
meronimia:

Un synset A è holonym di un synset B se B “è componente
di”
di” A.
Es: aeroplano  holo  carlinga, computer  holo  CPU



componente-oggetto: ramo / albero, motore / auto, ala / aereo
membro-insieme:
albero / foresta, pecora / gregge
parte-massa:
fetta / torta
materia-oggetto:
sabbia / specchio
caratteristica-attività: pagamento / acquisto
posto-zona:
provincia / regione / nazione / continente
fase-processo:adolescenza / crescita
8
9
Relazioni semantiche 4
Gli aggettivi
 Gli aggettivi attribuiscono una proprietà ad un nome.
 WordNet costituisce una foresta di alberi tramite la
relazione di iperonimia e iponimia.
iponimia.
 Ci sono 25 radici: organismi, sostanza, etc…
etc…


queste radici stabiliscono 25 diversi campi semantici strutturati ad
albero.
vale il principio di ereditarietà
 I nomi non sono collegati ad altre categorie lessicali (es
(es::
nomi-verbi, nessuna relazione inter-category):
inter-category):



NO: relazioni di attributo (es
(es:: canarino  giallo)
NO: relazioni di funzionalità (es
(es:: canarino  volare)
Sì: relazioni di componente (es
(es:: canarino  ala).
 Aggettivi descrittivi:
descrittivi: associano un
valore ad un certo attributo del
nome. ES: “sedia grande”
grande”
stabilisce il valore dell’
dell’attributo
dimensione(sedia) = grande.
grande.
 Possiedono la relazione di
sinonimia/antonimia (diretta e
indiretta).
 Aggettivi relazionali:
relazionali: derivano da un nome.
Es: “igienico”
igienico”, “dentale”
dentale”, “familiare”
familiare”, etc…
etc…

10

Possiedono un puntatore al nome dal quale derivano.
Non possiedono antonimi!
11
I verbi
Verbi: le relazioni
 I verbi sono il nucleo semantico di una frase: stabiliscono una relazione tra i diversi elementi della frase.
 L’entailment troponymy è simile all’
all’hyponymy nei
nomi:

 Il verbo A “entails”
entails” il verbo B, se lo svolgimento del
primo implica lo svolgimento del secondo.

 La troponymy si verifica tra verbi legati da:
ES: russare entails dormire / parlare entails comunicare
 Le relazioni tra verbi sono di 2 tipologie:



Entailment “*”
• Troponymy
• Co-extensiveness
• Proper-Inclusion
• Backward-Presupposition
Cause “>”

 Backward-presupposition:
Backward-presupposition:
Il verbo A presuppone il verbo B se il verificarsi
(temporalmente anteriore) di B è necessario affinchè si
verifichi di A.
Es: vincere / partecipare – colpire / mirare
 Cause “>”:



proper-inclusion:
proper-inclusion: il verbo A è incluso nel verbo B se A avviene
mentre avviene B (ma non è detto il contrario)
• Es:
Es: russare / dormire – virare / navigare
Verbi: le relazioni

“co-extensiveness”
co-extensiveness”, cioè avvengono in modo assolutamente
sincrono.
• Es:
Es: scivolare / muoversi – correre / muoversi – zoppicare /
camminare – riposarsi/dormire
• La relazione inversa è l’hyperonym
12

Il verbo A è troponimo del verbo B se l’l’attività indicata da A è
“del tipo”
tipo” dell’
dell’attività di B.
il verbo A è in relazione di causa con il verbo B se il verificarsi
di A (verbo causative) produce come conseguenza B (verbo
resultative).
Es: lasciare_in_eredità / possedere – bere / dissetarsi
Cause è trattato come una relazione a parte (non è un
entailment).
14
13
WordNet: problemi e limiti
• completezza (globale e puntuale)
– categorie mancanti (preposizioni?)
– elementi mancanti in categorie presenti: polirematiche? instances?
• scelte di organizzazione tassonomica
chair
Sense 1 chair seat
furniture, piece of furniture, article of furniture
furnishing
instrumentality, instrumentation ⇐ funzione
artifact, artefact ⇐ modo di
creazione
whole, unit
object, physical object ⇐ costituzione
physical entity
entity
• dispendio di energie: raccolta/mantenimento manuale
ItalWordNet e MultiWordNet
• ItalWordNet: http://www.ilc.cnr.it/iwndb/iwndb_php/
• MultiWordNet http://multiwordnet.itc.it/online/multiwordnet.php
9
Scarica