Risorse Computazionali per il Web Semantico

annuncio pubblicitario
Risorse
Computazionali per il
Web Semantico
Roberto Navigli
Alcune slide provengono dalla scuola estiva EUROLAN 2003
19/09/2003
Università di Roma Dipartimento
“La Sapienza”
di Informatica
Agenda
• Il Web Semantico
• Lessici computazionali
 Classificazioni
• Focus on:
 SIMPLE
 FrameNet
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Il Web Semantico
• Obiettivo: Trasformare il WWW in
una KB comprensibile alla macchina
Agenti
Intelligenti
Documenti
Ontologie
Web Semantico
Knowledge
Markup
Database
Applicazioni
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
L’Onda Semantica
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
6 sfide per il WS
(Benjamins et al. 2002)
•
•
•
•
Disponibilità del contenuto
Human Language
Technology
Disponibilità di ontologie
(HLT)
Multilingualità
Scalabilità (organizzazione,
memorizzazione, ricerca della conoscenza)
• Visualizzazione (≠ ipertesto)
• Stabilità dei linguaggi del WS
(standardizzazione)
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lessici computazioniali e
Human Language Technologies
• I lessici computazionali forniscono
una conoscenza delle parole
comprensibile alla macchina
• La rappresentazione è esplicita
• Il significato è collegato alla
morfologia e alla sintassi della parola
• E’ possibile creare collegamenti
lessicali multilingua
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lessici computazionali e HLT
(2)
• Risorse critiche per i sistemi di NLP:
 Frame di sottocategorizzazione sintattica per il
parsing
 Semantic selectional preferences per la
riduzione dell’ambiguità
 Classi semantiche per WSD, semantic tagging
ecc.
• Componenti chiave delle HLT:
 Lessici monolingua – IE, QA, ecc.
 Lessici multilingua – MT, CLIR, ecc.
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Ontologie e lessici
computazionali
Access to
Content
Semantic Web
?
Ontologies
Roberto
Navigli
HLT
Computational
Lexicons
Dipartimento di Informatica
Università di Roma “La Sapienza”
Ontologie
• “la specifica esplicita di una
concettualizzazione” (Gruber, 1993)
• “includono il vocabolario, le
interconnessioni semantiche e alcune
semplici regole di inferenza e logica”
(Hendler, 2001)
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Ontologie “linguistiche”
• Sistemi di simboli che rappresentano i
concetti codificati da espressioni in
linguaggio naturale (unità lessicali,
termini, ecc.)
 Specificano le classi semantiche raggruppando
termini simili a livello semantico
 Usano un linguaggio di rappresentazione
semantica
car, van, truck
dog, cat, horse
VEHICLE
ARTIFACT
MAMMAL
ANIMAL
beach
spiaggia
piano concert, rock concert
Roberto
Navigli
OBJECT
BEACH
LOCATION
CONCERT
EVENT
Dipartimento di Informatica
Università di Roma “La Sapienza”
ENTITY
Tipologie di lessici
computazionali
• Monolingua vs multilingua
• General purpose vs domain specific
• Tipo di contenuto




(Morfo)sintattico
Semantico
Misto
Terminologico
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lessici computazionali
sintattici
• Le informazioni lessicali sono contenute in frame
di sottocategorizzazione (ComLex, PAROLE ecc.)
• I frame sintattici includono:
 Un certo numero di argomenti
 Le rispettive categorie sintattiche (PP, NP, ecc.)
 Vincoli lessicali sugli argomenti (es. PP deve avere in
testa una preposizione)
 Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.)
hit
answer
[V: (Subj: NP) (Objd: NP)]
[N: (Obji: PP_to)]
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lessici computazionali
semantici
• Rappresentano il significato di una
parola
 Distinguono differenti sensi di una
parola
 Catturano le inferenze (essere umano 
essere animato)
 Rappresentano similarità, relatedness
ecc. (es. banca, conto, denaro sono
concetti relativi alla finanza)
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lessici computazionali
semantici
• Basati su reti concettuali
 WordNet (Miller, Fellbaum et al.)
• hierarchy/taxonomy
 EuroWordNet (Vossen et al.)
• heterarchy
• Basati su frame
 Mikrokosmos (Nirenburg, Mahesh et al.)
 FrameNet (Fillmore et al.)
• Ibridi
 SIMPLE (Calzolari, Lenci et al.)
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
PAROLE-SIMPLE
(ILC CNR Pisa – Calzolari, Lenci et al.)
• 12 lessici di base monolingua costruiti secondo
un modello armonizzato
• Estesi a livello nazionale
• Combinazione di informazioni sintattiche e
semantiche
 Frame di sottocategorizzazione sintattica
 Tipo semantico (“ontology”)
 Frame semantici collegati alla sintassi
• Ruoli semantici
• Selectional preferences
• Ecc.




Relazioni semantiche
Pustejovsky’s “quali roles”
Polisemia regolare
Eventi
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Elementi base del lessico
monolingua
• Ciascun layer individua un’unità base di
descrizione lessicale
semantic layer
SemU
syntactic layer
SynU
morphological layer
MU
Roberto
Navigli
basic unit to describe the
semantic properties of the
MU
basic unit to describe the
syntactic behavior of the
MU
basic unit to describe the
inflectional and
derivational morphological
properties of the word
Dipartimento di Informatica
Università di Roma “La Sapienza”
Architettura di SIMPLE
Lexical
Templates
Greek lexicon
Ontology
Italian lexicon
Catalan lexicon
Language Independent Module
Italian lexicon
PAROLE Syntax
SemU
Semantic Frame
(semantic roles, etc.)
Semantic
Relations
Event
Structure
Roberto
Navigli
Polysemy
etc.
Dipartimento di Informatica
Università di Roma “La Sapienza”
SIMPLE
relazioni semantiche
Top
Formal
Constitutive
Is_a Is_a_part_of Property
...
Telic
Agentive
Created_by
Contains
...
Agentive_cause Indirect_telic Activity
Instrumental
Used_for
Roberto
Navigli
Used_as
Dipartimento di Informatica
Università di Roma “La Sapienza”
Is_the_habit_of
SIMPLE
una rete semantica
Ala (wing)
SemU: 3232
Type: [Part]
Part of an airplane
<fabbricare>
make
Agentive
Agentive
Used_for
<volare>
fly
Is_a_part_of
Isa
SemU: 3268
Type: [Part]
Part of a building
SemU: D358
Type: [Body_part]
Organ of birds for flying
Isa
<parte>
part
<aeroplano>
airplane
Used_for
Isa
<edificio>
building
Is_a_part_of
Is_a_part_of
SemU: 3467
Type: [Role]
Role in football
Isa
<giocatore>
player
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
<uccello>
bird
SIMPLE
Frame semantici
il difensore di Berlusconi (Berlusconi's defender)
il difensore del Milan (the Milan fullback)
Difensore N
agent
nominalization
SemU: 4125
Type: [Role]
PREDDifendere#1
<Arg1>, <Arg2>
Defender
SemU: 3526
Type: [Role]
Is_a_member_of
Fullback
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
<squadra>
team
Frame disambiguation
• L’identificazione del contributo semantico
di un NP richiede l’accesso alla
rappresentazione del contenuto semantico
delle teste nominali
• La “struttura semantica” della testa
nominale determina la relazione semantica
espressa da un PP che modifica l’NP:




La pagina del libro (part-of)
Il difensore del Milan (member-of)
Il suonatore di liuto (telic)
Il tavolo di legno (made-of)
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
SIMPLE
esempi
semantic relations
ontology
semantic frame
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lexical acquisition
bottleneck
• Il lessico italiano di SIMPLE codifica circa
6000 concetti




Disomogeneo
GOSSIP!
GOSSIP!
Incompleto
Non è disponibile
L’utilizzo non è consigliato dagli stessi autori
(ILC – CNR di Pisa) GOSSIP!
• Acquisizione automatica della conoscenza
lessicale
 FrameNet
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
FrameNet
(ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.)
• Fase I (1997-2000)
 Basi concettuali, impiego di strumenti
preesistenti, Perl
• Fase II (2000-2003)
 Scalabilità, utilizzo di DB SQL, strumenti
scritti in Java
 Applicazioni pilota
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
I frame e la comprensione
umana
• Ipotesi: la gente comprende nuovi fatti
effettuando operazioni mentali sulla base
di ciò che già conosce. Tale conoscenza è
descrivibile in termini di pacchetti di
informazione chiamati frame
• FrameNet può fornire tale conoscenza
• Le rappresentazioni di FrameNet fanno da
complemento a ontologie e lessici
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
In cosa consiste FrameNet
• Caratterizzazione dei frame
• Individuazione delle parole che riguardano
un frame
• Sviluppo di una terminologia descrittiva
• Estrazione di frasi di esempio
• Annotazione (manuale) degli esempi
selezionati
• Descrizione del frame
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Il processo
• Le frasi contenenti una certa parola
sono estratte dal corpus in esame e
rese disponibili per l’annotazione
• Gli studenti (!) selezionano le
espressioni che identificano i ruoli
semantici delle frasi e li etichettano
con il nome dei ruoli del frame
• Informazioni grammaticali sulle frasi
etichettate sono estratte
automaticamente
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Alcune annotazioni
(to appoint – nominare)
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Lista parziale di parole per
un frame
• Verbi: pay, spend, cost, buy, sell,
charge
• Nomi: cost, price, payment
• Adjectives: expensive, cheap
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Significato e sintassi
• I vari verbi che evocano un frame
introducono gli elementi del frame in
modi differenti
• Informazioni analoghe possono
essere espresse in posti diversi della
frase secondo il verbo utilizzato
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
She bought some carrots from the greengrocer for a dollar.
Customer
Vendor
from
BUY
for
Goods
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
She paid a dollar to the greengrocer for some carrots.
Customer
to
Vendor
PAY
Goods
for
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
She paid the greengrocer a dollar for the carrots.
Customer
Vendor
PAY
Goods
for
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
She spent a dollar on the carrots.
Customer
Vendor
SPEND
Goods
on
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
The greengrocer sold some carrots to her for a dollar.
Customer
to
Vendor
SELL
for
Goods
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
The greengrocer sold her some carrots for a dollar.
Customer
Vendor
SELL
for
Goods
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
The greengrocer charged a dollar for a bunch of carrots.
Customer
Vendor
CHARGE
Goods for
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
The greengrocer charged her a dollar for the carrots.
Customer
Vendor
CHARGE
Goods
for
Roberto
Navigli
Money
Dipartimento di Informatica
Università di Roma “La Sapienza”
A bunch of carrots costs a dollar.
Customer
Vendor
COST
Goods
Money
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
A bunch of carrots cost her a dollar.
Customer
Vendor
COST
Goods
Money
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
FrameNet Fact Sheet
•
•
•
•
500 frame
7700 unità lessicali
130.000 frasi annotate
Interconnessioni tra i frame (ereditarietà,
sottoframe, “using”)
 Potrebbero essere mappate su relazioni
ontologiche
• Multilingual FrameNets (spagnolo,
tedesco, giapponese)
• Disponibile!
Roberto
Navigli
Dipartimento di Informatica
Università di Roma “La Sapienza”
Scarica