Rappresentazione dell’Informazione Semantica Lezione 6: Risorse per l’informazione semantica 1/2 Malvina Nissim [email protected] 15 Febbraio 2013 Esplicitazione/Arricchimento Abbiamo ripetutamente osservato condizioni in cui la lingua ci consente di lasciare una parte dell’informazione “nascosta senza perdere potere comunicativo • anafora (informazione per risoluzione: dove la recuperiamo?) • omonimia o ambiguità di senso → riso/riso, parco/parco, senso, fresco • sottospecificazione → N+P+N (“coltello da pane, “faccia da schiaffi, “bicchiere di vino, “forchetta di plastica) • opacità → metafore, metonimie, polirematiche in generale ⇒ Livello linguistico: informazione implicita ⇒ Livello meta-linguistico: informazione esplicita Dove trovare informazione esplicita • sorgenti strutturate – Dizionari – WordNet – Qualia Structure • sorgenti non strutturate/organizzate (“qualcuno l’avrà pur detto”) 1 Dizionari Definizioni I gatti mangiano i topi e perciò i topi mangiano i gatti • in questa frase ci sono 12 parole 1 • in questa frase la parola gatti compare due volte • “gatto e “gatti sono la stessa parola (e “gatto e “topo sono parole diverse) • parola grafica: ciascun gruppo di lettere separati da spazi bianchi (12) • forma: occorrenze di una data forma • lessema: unità di base a cui ricondurre le varie forme ⇒ il lessemi sono le unità di base del lessico Lessico Mentale • Il lessico mentale costituisce un sottocomponente della grammatica in cui sono immagazzinate le informazioni (fonologiche, morfologiche, sintattiche, semantiche) che i parlanti conoscono in merito alle parole della propria lingua • il lessico mentale contiene non solo le conoscenze relative alle singole parole ma anche relative al loro funzionamento e ai rapporti tra di loro • dal lessico mentale ciascun parlante può estrarre parole con date caratteristiche: – elencare parole a caso – elencare verbi regolari – elencare nomi concreti – ... Dizionari • risorse lessicali sviluppate dai lessicografi • riflette il lessico mentale? • o riflette piuttosto la langue? • copertura – a livello sincronico (tutte le parole, anche settoriali) – a livello diacronico (parole antiche, riferimenti etimologici) 1.1 Standard Dizionari standard • entrate lessicali (o lemmi) • necessaria lemmatizzazione: ricondurre tutte le diverse forme ad un unico lemma • basati su corpora di grandi dimensioni 2 • parzialmente “arretrati: problema neologismi ed espressioni/formazioni estemporanee • ordine alfabetico → quali informazioni ci dà un dizionario? → esempio da www.garzantilinguistica.it Informazioni in dizionari standard • il lemma • le altre forme (ortografia e pronuncia) • loro struttura (da quali morfemi sono composti) • informazioni grammaticali • esempi d’uso • etimologia • il significato della parola (compresi sinonimi) 1.2 Inversi Dizionari inversi • http://culturitalia.uibk.ac.at/wb/diz_inv.htm 1.3 Frequenza Dizionari di frequenza • termini ordinati per frequenza • occorrenze ricavate da corpora (generici e/o di dominio) • lemmi e forme flesse file://COLFIS.formario.minuscolo.txt Altri tipi di dizionari • sinonimi e contrari • specialistici • onomasiologici (voci raggruppate per soggetti) • etimologici 3 Aspetti problematici • fresco, scuola, riso polisemia e omonimia • “a gambe levate”, “tirare le cuoia”, “a giorni alterni”, “nudo e crudo” polirematiche o multiword expressions • cane/gatto/scimmia/topo mangiare/divorare giallo/rosso/nero/bianco lessico (asse paradigmatico) 2 relazioni nel Relazioni lessicali Sinonimia relazione tra lessemi diversi che hanno lo stesso significato • sostituibilità tra lessemi (sinonimia assoluta o perfetta): estremamente rara, spesso la connotazione è diversa (gatto/micio) • geosinonimi: papà/babbo • sinonimia contestuale: “sono scesa a prendere/comprare il latte • relazione bilaterale Iponimia (e iperonimia) • implicazione unilaterale: – rosa < fiore – *fiore < rosa • rosa, giglio, tulipano, etc. sono co-iponimi • transitività: se X è iponimo di Y e Y è iponimo di Z allora X è iponimo di Z (vipera < rettile) & (rettile < animale) ⇒ vipera < animale • tassonomie: classificazioni in tipi e sottotipi (spesso di domini specifici) Antonimia • ricco / povero • presto / tardi • destra / sinistra • presente / assente • giallo / blu 4 • reversione (cadere / alzarsi) • opposizione (comprare / vendere) • contraddizione (sopra / sotto, maschio / femmina) • contrasto (co-iponimia) (cane / gatto, blu / bianco) Meronimia (e olonimia) relazione tra un lessema che denota una parte ed un lessema che denota il tutto corrispondente (relazione parte-tutto, relazione parte-insieme) • (proto)tipicamente: parti del corpo (possesso alienabile vs inalienabile) • transitività? (X è parte di Y) & (Y è parte di Z) ⇒ X è parte di Z? – finestrino:portiera:macchina – ?maniglia:porta:casa NB: realtà vs lingua! restrizioni linguistiche? 3 Database lessicali 3.1 WordNet WordNet WordNet è un database lessicale per l’inglese organizzato in insiemi di sinonimi (synsets), ciascuno dei quali esprime un concetto differente. I synsets sono collegati tramite varie relazioni lessicali/semantiche. sostantivi, verbi, aggettivi, avverbi • oltre 150.000 parole • circa 250.000 relazioni 5 Cos’è WordNet E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. Text Processing WordNet è un vero e proprio DataBase Relazionale Lessicale. Lessicale. WordNet E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: [email protected] La conoscenza linguistica formalizzata: Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” database” – George A. Miller “WordNet: a lexical database” database” – Marco Degemmis 2 La filosofia di WordNet WordNet: i synset Il concetto di parola viene definito come associazione tra due elementi: Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’l’espressione “fisica” fisica” di una parola Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori” puntatori”). Le word-form mappate su più word-meaning sono definite: polysemous. polysemous. Word-form diverse associate alla stessa word-meaning sono definite: synonym. synonym. 3 Categorie lessicali e relazioni Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): psicolinguistica): nomi, verbi, aggettivi, avverbi I nomi sono legati da 2 tipologie di relazioni: Relazioni lessicali: lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). • synomymy vs. vs. antonymy (per l’l’inglese ci sono anche le relazioni morfologiche) Relazioni semantiche: semantiche: si instaurano tra word-meaning. word-meaning. • hyponymy vs. vs. hyperonymy • meronymy vs. vs. holonymy Alcuni aggettivi possono essere in relazione synonymy vs. vs. antonymy I verbi possiedono la relazione di entailment. entailment. Una word-meaning viene rappresentata dall’ dall’insieme di tutte le word-form che possono essere usate per esprimerla. Questo insieme di word-form si chiama: synset. synset. (E’ (E’ lo strumento che permette di rappresentare una word-meaning) Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. lessicale. è di senso comune è domain-independent 5 Le word-meaning sono mappate tra loro grazie a 4 relazioni tra synset. Relazioni Lessicali Relazioni semantiche 1 Synonymy: Synonymy: due word-form sono sinonime se sostituendo l’l’una con l’l’altra non si cambia il valore di verità di una frase. Hyponymy “~”: relazione “is a” (sottoinsieme). Le word-form sinonime appaiono nello stesso synset Antonymy “!”: due word-form sono antonime se il loro significato è opposto. opposto. A opposto di B non implica che A = not(B) not(B) !!! es: es: alto e basso. Per l’l’antonimia esiste un vero puntatore da una word_form a un’ un’altra. Non vale tra synset! synset! Un synset A è hyponym di un synset B se A “è del tipo di” di” B. Es: carpa Es: associazione hypo organizzazione, hypo pesce, abete hypo albero. La relazione deve valere per ogni forma all’ all’interno dei synset Hyperonymy “@”: relazione inversa dell’ dell’hyponymy (famiglia di appartenenza) Un synset A è hyperonym di un synset B se B “è del tipo di” di” A. Es: Es: felino hyper gatto, laureato hyper ingegnere 6 7 Relazioni semantiche 2 Relazioni semantiche 3 Meronymy “%”: relazione “part of” of” (componente di). La relazione di “part-of” part-of” non rappresenta tutte le possibili meronimie! meronimie! Un synset A è meronym di un synset B se A “è un componente di” di” B. Es: volante mero auto, argento mero specchio. specchio. Attenzione: i meronym non sono tutti “part of” of”! (es: argento e specchio) Holonymy “#”: relazione inversa di meronymy Tipi di meronimia: meronimia: Un synset A è holonym di un synset B se B “è componente di” di” A. Es: aeroplano holo carlinga, computer holo CPU componente-oggetto: ramo / albero, motore / auto, ala / aereo membro-insieme: albero / foresta, pecora / gregge parte-massa: fetta / torta materia-oggetto: sabbia / specchio caratteristica-attività: pagamento / acquisto posto-zona: provincia / regione / nazione / continente fase-processo:adolescenza / crescita 8 9 Relazioni semantiche 4 Gli aggettivi Gli aggettivi attribuiscono una proprietà ad un nome. WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. iponimia. Ci sono 25 radici: organismi, sostanza, etc… etc… queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. vale il principio di ereditarietà I nomi non sono collegati ad altre categorie lessicali (es (es:: nomi-verbi, nessuna relazione inter-category): inter-category): NO: relazioni di attributo (es (es:: canarino giallo) NO: relazioni di funzionalità (es (es:: canarino volare) Sì: relazioni di componente (es (es:: canarino ala). Aggettivi descrittivi: descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” grande” stabilisce il valore dell’ dell’attributo dimensione(sedia) = grande. grande. Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Aggettivi relazionali: relazionali: derivano da un nome. Es: “igienico” igienico”, “dentale” dentale”, “familiare” familiare”, etc… etc… 10 Possiedono un puntatore al nome dal quale derivano. Non possiedono antonimi! 11 I verbi Verbi: le relazioni I verbi sono il nucleo semantico di una frase: stabiliscono una relazione tra i diversi elementi della frase. L’entailment troponymy è simile all’ all’hyponymy nei nomi: Il verbo A “entails” entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. La troponymy si verifica tra verbi legati da: ES: russare entails dormire / parlare entails comunicare Le relazioni tra verbi sono di 2 tipologie: Entailment “*” • Troponymy • Co-extensiveness • Proper-Inclusion • Backward-Presupposition Cause “>” Backward-presupposition: Backward-presupposition: Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Es: vincere / partecipare – colpire / mirare Cause “>”: proper-inclusion: proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) • Es: Es: russare / dormire – virare / navigare Verbi: le relazioni “co-extensiveness” co-extensiveness”, cioè avvengono in modo assolutamente sincrono. • Es: Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare – riposarsi/dormire • La relazione inversa è l’hyperonym 12 Il verbo A è troponimo del verbo B se l’l’attività indicata da A è “del tipo” tipo” dell’ dell’attività di B. il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). Es: lasciare_in_eredità / possedere – bere / dissetarsi Cause è trattato come una relazione a parte (non è un entailment). 14 13 WordNet: problemi e limiti • completezza (globale e puntuale) – categorie mancanti (preposizioni?) – elementi mancanti in categorie presenti: polirematiche? instances? • scelte di organizzazione tassonomica chair Sense 1 chair seat furniture, piece of furniture, article of furniture furnishing instrumentality, instrumentation ⇐ funzione artifact, artefact ⇐ modo di creazione whole, unit object, physical object ⇐ costituzione physical entity entity • dispendio di energie: raccolta/mantenimento manuale ItalWordNet e MultiWordNet • ItalWordNet: http://www.ilc.cnr.it/iwndb/iwndb_php/ • MultiWordNet http://multiwordnet.itc.it/online/multiwordnet.php 9