Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola estiva EUROLAN 2003 19/09/2003 Università di Roma Dipartimento “La Sapienza” di Informatica Agenda • Il Web Semantico • Lessici computazionali Classificazioni • Focus on: SIMPLE FrameNet Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Il Web Semantico • Obiettivo: Trasformare il WWW in una KB comprensibile alla macchina Agenti Intelligenti Documenti Ontologie Web Semantico Knowledge Markup Database Applicazioni Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” L’Onda Semantica Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” 6 sfide per il WS (Benjamins et al. 2002) • • • • Disponibilità del contenuto Human Language Technology Disponibilità di ontologie (HLT) Multilingualità Scalabilità (organizzazione, memorizzazione, ricerca della conoscenza) • Visualizzazione (≠ ipertesto) • Stabilità dei linguaggi del WS (standardizzazione) Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lessici computazioniali e Human Language Technologies • I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina • La rappresentazione è esplicita • Il significato è collegato alla morfologia e alla sintassi della parola • E’ possibile creare collegamenti lessicali multilingua Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lessici computazionali e HLT (2) • Risorse critiche per i sistemi di NLP: Frame di sottocategorizzazione sintattica per il parsing Semantic selectional preferences per la riduzione dell’ambiguità Classi semantiche per WSD, semantic tagging ecc. • Componenti chiave delle HLT: Lessici monolingua – IE, QA, ecc. Lessici multilingua – MT, CLIR, ecc. Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Ontologie e lessici computazionali Access to Content Semantic Web ? Ontologies Roberto Navigli HLT Computational Lexicons Dipartimento di Informatica Università di Roma “La Sapienza” Ontologie • “la specifica esplicita di una concettualizzazione” (Gruber, 1993) • “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001) Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Ontologie “linguistiche” • Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) Specificano le classi semantiche raggruppando termini simili a livello semantico Usano un linguaggio di rappresentazione semantica car, van, truck dog, cat, horse VEHICLE ARTIFACT MAMMAL ANIMAL beach spiaggia piano concert, rock concert Roberto Navigli OBJECT BEACH LOCATION CONCERT EVENT Dipartimento di Informatica Università di Roma “La Sapienza” ENTITY Tipologie di lessici computazionali • Monolingua vs multilingua • General purpose vs domain specific • Tipo di contenuto (Morfo)sintattico Semantico Misto Terminologico Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lessici computazionali sintattici • Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) • I frame sintattici includono: Un certo numero di argomenti Le rispettive categorie sintattiche (PP, NP, ecc.) Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit answer [V: (Subj: NP) (Objd: NP)] [N: (Obji: PP_to)] Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lessici computazionali semantici • Rappresentano il significato di una parola Distinguono differenti sensi di una parola Catturano le inferenze (essere umano essere animato) Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti relativi alla finanza) Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lessici computazionali semantici • Basati su reti concettuali WordNet (Miller, Fellbaum et al.) • hierarchy/taxonomy EuroWordNet (Vossen et al.) • heterarchy • Basati su frame Mikrokosmos (Nirenburg, Mahesh et al.) FrameNet (Fillmore et al.) • Ibridi SIMPLE (Calzolari, Lenci et al.) Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” PAROLE-SIMPLE (ILC CNR Pisa – Calzolari, Lenci et al.) • 12 lessici di base monolingua costruiti secondo un modello armonizzato • Estesi a livello nazionale • Combinazione di informazioni sintattiche e semantiche Frame di sottocategorizzazione sintattica Tipo semantico (“ontology”) Frame semantici collegati alla sintassi • Ruoli semantici • Selectional preferences • Ecc. Relazioni semantiche Pustejovsky’s “quali roles” Polisemia regolare Eventi Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Elementi base del lessico monolingua • Ciascun layer individua un’unità base di descrizione lessicale semantic layer SemU syntactic layer SynU morphological layer MU Roberto Navigli basic unit to describe the semantic properties of the MU basic unit to describe the syntactic behavior of the MU basic unit to describe the inflectional and derivational morphological properties of the word Dipartimento di Informatica Università di Roma “La Sapienza” Architettura di SIMPLE Lexical Templates Greek lexicon Ontology Italian lexicon Catalan lexicon Language Independent Module Italian lexicon PAROLE Syntax SemU Semantic Frame (semantic roles, etc.) Semantic Relations Event Structure Roberto Navigli Polysemy etc. Dipartimento di Informatica Università di Roma “La Sapienza” SIMPLE relazioni semantiche Top Formal Constitutive Is_a Is_a_part_of Property ... Telic Agentive Created_by Contains ... Agentive_cause Indirect_telic Activity Instrumental Used_for Roberto Navigli Used_as Dipartimento di Informatica Università di Roma “La Sapienza” Is_the_habit_of SIMPLE una rete semantica Ala (wing) SemU: 3232 Type: [Part] Part of an airplane <fabbricare> make Agentive Agentive Used_for <volare> fly Is_a_part_of Isa SemU: 3268 Type: [Part] Part of a building SemU: D358 Type: [Body_part] Organ of birds for flying Isa <parte> part <aeroplano> airplane Used_for Isa <edificio> building Is_a_part_of Is_a_part_of SemU: 3467 Type: [Role] Role in football Isa <giocatore> player Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” <uccello> bird SIMPLE Frame semantici il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N agent nominalization SemU: 4125 Type: [Role] PREDDifendere#1 <Arg1>, <Arg2> Defender SemU: 3526 Type: [Role] Is_a_member_of Fullback Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” <squadra> team Frame disambiguation • L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali • La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: La pagina del libro (part-of) Il difensore del Milan (member-of) Il suonatore di liuto (telic) Il tavolo di legno (made-of) Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” SIMPLE esempi semantic relations ontology semantic frame Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lexical acquisition bottleneck • Il lessico italiano di SIMPLE codifica circa 6000 concetti Disomogeneo GOSSIP! GOSSIP! Incompleto Non è disponibile L’utilizzo non è consigliato dagli stessi autori (ILC – CNR di Pisa) GOSSIP! • Acquisizione automatica della conoscenza lessicale FrameNet Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” FrameNet (ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.) • Fase I (1997-2000) Basi concettuali, impiego di strumenti preesistenti, Perl • Fase II (2000-2003) Scalabilità, utilizzo di DB SQL, strumenti scritti in Java Applicazioni pilota Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” I frame e la comprensione umana • Ipotesi: la gente comprende nuovi fatti effettuando operazioni mentali sulla base di ciò che già conosce. Tale conoscenza è descrivibile in termini di pacchetti di informazione chiamati frame • FrameNet può fornire tale conoscenza • Le rappresentazioni di FrameNet fanno da complemento a ontologie e lessici Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” In cosa consiste FrameNet • Caratterizzazione dei frame • Individuazione delle parole che riguardano un frame • Sviluppo di una terminologia descrittiva • Estrazione di frasi di esempio • Annotazione (manuale) degli esempi selezionati • Descrizione del frame Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Il processo • Le frasi contenenti una certa parola sono estratte dal corpus in esame e rese disponibili per l’annotazione • Gli studenti (!) selezionano le espressioni che identificano i ruoli semantici delle frasi e li etichettano con il nome dei ruoli del frame • Informazioni grammaticali sulle frasi etichettate sono estratte automaticamente Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Alcune annotazioni (to appoint – nominare) Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Lista parziale di parole per un frame • Verbi: pay, spend, cost, buy, sell, charge • Nomi: cost, price, payment • Adjectives: expensive, cheap Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” Significato e sintassi • I vari verbi che evocano un frame introducono gli elementi del frame in modi differenti • Informazioni analoghe possono essere espresse in posti diversi della frase secondo il verbo utilizzato Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” She bought some carrots from the greengrocer for a dollar. Customer Vendor from BUY for Goods Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” She paid a dollar to the greengrocer for some carrots. Customer to Vendor PAY Goods for Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” She paid the greengrocer a dollar for the carrots. Customer Vendor PAY Goods for Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” She spent a dollar on the carrots. Customer Vendor SPEND Goods on Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” The greengrocer sold some carrots to her for a dollar. Customer to Vendor SELL for Goods Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” The greengrocer sold her some carrots for a dollar. Customer Vendor SELL for Goods Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” The greengrocer charged a dollar for a bunch of carrots. Customer Vendor CHARGE Goods for Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” The greengrocer charged her a dollar for the carrots. Customer Vendor CHARGE Goods for Roberto Navigli Money Dipartimento di Informatica Università di Roma “La Sapienza” A bunch of carrots costs a dollar. Customer Vendor COST Goods Money Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” A bunch of carrots cost her a dollar. Customer Vendor COST Goods Money Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza” FrameNet Fact Sheet • • • • 500 frame 7700 unità lessicali 130.000 frasi annotate Interconnessioni tra i frame (ereditarietà, sottoframe, “using”) Potrebbero essere mappate su relazioni ontologiche • Multilingual FrameNets (spagnolo, tedesco, giapponese) • Disponibile! Roberto Navigli Dipartimento di Informatica Università di Roma “La Sapienza”