Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per molte altre tipologie di dati (e.g. multimediali) … e per la definizione, trasmissione e condivisione di conoscenze (il Web e’ solo il piu’ evidente degli esempi) Ricerca di informazione Elaborazione come processo di interpretazione Elaborare un testo in tale ambito significa interpretarne aspetti rilevanti del significato Area tematica (e.g. cronaca/politica) Obbiettivi (e.g. virus/spam nell’e-mail) Personaggi e luoghi coinvolti Eventi dichiarati (e.g. news) Obbiettivi comunicativi (e.g. dialogo e pianificazione) Risultato: rappresentazione esplicita del significato testuale … che attiva alcune inferenze (e.g. rilevanza) Un esempio: Notizie di Agenzia Notizie di agenzia (2) I requisiti di una corretta interpretazione sono (almeno): “ha battuto” e’ il verbo principale … usato in forma transitiva semplice E’ usato nella sua accezione “sportiva” (nessuno e’ stato colpito qui!) Italia e Scozia sono rispettivamente soggetto e complemento oggetto grammaticali () Italia non e’ un paese ma una squadra (!), (e cosi’ la Scozia) giornata e’ il turno e non il giorno Esisitono altre forme linguistiche equivalenti e.g. Notizie di Agenzia (3): Multilingualità Alcune Riflessioni La comprensione di informazione linguistica richiede conoscenza riguardo: La lingua (e.g. sintassi) Il mondo (e.g. rugby, squadre e nazioni) Come la prima fa riferimento al secondo L’accesso e la pubblicazione (elettronica) “intelligente” implica conoscenze riguardo: L’obbiettivo, i.e. ricerca Il mondo in cui la comunicazione e’ immersa I produttori vs. gli utenti del testo Sfide e Ricerca Accuratezza del riconoscimento/produzione Robustezza (errori/rumore/incompletezza) Scala Copertura di Lessici e Grammatiche Espressività Dizionari, Lessici e Thesaura Modelli del mondo ed inferenza Flessibilità Lingua del produttore vs. consumatore Naturalezza TAL: La architettura del processo testo Lessico Analisi Lessicale Tokens+ features Analisi Sintattica Grammatica Struttura frase Analisi Semantica Modello del mondo Forma Logica An. Pragmatica / Applic. Interpretazione Modello del task HLT: Ricerca e Risultati Risorse e Standard Dizionari e Lessici Corpora Riconoscimento: Morfologia ed Analisi a Stati Finiti Riconoscimento Sintattico e Disambiguazione Riconoscimento e Classificazione dei Nomi Propri (e.g. luoghi o persone, >93% acc.) Disambiguazione del Senso (90% acc.) Riconoscimento Eventi (MUC Conferences, 87-98) Sfide e Ricerca Accuratezza del riconoscimento/produzione Robustezza (errori/rumore/incompletezza) Scala Copertura di Lessici e Grammatiche Espressività Dizionari, Lessici e Thesaura Modelli del mondo ed inferenza Flessibilità Lingua del produttore vs. consumatore Naturalezza IE in MUC IE in MUC HLT: Ricerca e Risultati (2) Apprendimento di conoscenza linguistica Analisi sintattica per esempi (e.g. parsing statistico, HMM) Acquisizione automatica di terminologia (e.g. broadband communication o imposte dirette) Regole di disambiguazione del senso (WSD) rispetto a dizionari semantici battere/sport vs. battere/colpire Wordnet (Miller et al, 91) ed i corpora Information Extraction Rules Apprendimento di schemi frasali ([companies] acquire [companies])