"Methods, representation and linguistic bias in Adaptive IE“

Computer, Lingue ed Applicazioni
Perché comprendere tramite gli elaboratori i contenuti
testuali?
I testi sono i veicoli principali di significato per molte altre
tipologie di dati (e.g. multimediali) …
e per la definizione, trasmissione e condivisione di conoscenze
(il Web e’ solo il piu’ evidente degli esempi)
Ricerca di informazione
Elaborazione come
processo di interpretazione
Elaborare un testo in tale ambito significa
interpretarne aspetti rilevanti del significato
Area tematica (e.g. cronaca/politica)
Obbiettivi (e.g. virus/spam nell’e-mail)
Personaggi e luoghi coinvolti
Eventi dichiarati (e.g. news)
Obbiettivi comunicativi (e.g. dialogo e pianificazione)
Risultato: rappresentazione esplicita del significato
testuale …
che attiva alcune inferenze (e.g. rilevanza)
Un esempio: Notizie di Agenzia
Notizie di agenzia (2)
I requisiti di una corretta interpretazione sono
(almeno):
“ha battuto” e’ il verbo principale
… usato in forma transitiva semplice
E’ usato nella sua accezione “sportiva” (nessuno e’ stato
colpito qui!)
Italia e Scozia sono rispettivamente soggetto e complemento
oggetto grammaticali ()
Italia non e’ un paese ma una squadra (!), (e cosi’ la Scozia)
giornata e’ il turno e non il giorno
Esisitono altre forme linguistiche equivalenti e.g.
Notizie di Agenzia (3): Multilingualità
Alcune Riflessioni
La comprensione di informazione linguistica richiede
conoscenza riguardo:
La lingua (e.g. sintassi)
Il mondo (e.g. rugby, squadre e nazioni)
Come la prima fa riferimento al secondo
L’accesso e la pubblicazione (elettronica) “intelligente”
implica conoscenze riguardo:
L’obbiettivo, i.e. ricerca
Il mondo in cui la comunicazione e’ immersa
I produttori vs. gli utenti del testo
Sfide e Ricerca
Accuratezza del riconoscimento/produzione
Robustezza (errori/rumore/incompletezza)
Scala
Copertura di Lessici e Grammatiche
Espressività
Dizionari, Lessici e Thesaura
Modelli del mondo ed inferenza
Flessibilità
Lingua del produttore vs. consumatore
Naturalezza
TAL: La architettura del processo
testo
Lessico
Analisi Lessicale
Tokens+
features
Analisi Sintattica
Grammatica
Struttura
frase
Analisi Semantica
Modello del
mondo
Forma
Logica
An. Pragmatica / Applic.
Interpretazione
Modello del
task
HLT: Ricerca e Risultati
Risorse e Standard
Dizionari e Lessici
Corpora
Riconoscimento:
Morfologia ed Analisi a Stati Finiti
Riconoscimento Sintattico e Disambiguazione
Riconoscimento e Classificazione dei Nomi Propri
(e.g. luoghi o persone, >93% acc.)
Disambiguazione del Senso (90% acc.)
Riconoscimento Eventi (MUC Conferences, 87-98)
Sfide e Ricerca
Accuratezza del riconoscimento/produzione
Robustezza (errori/rumore/incompletezza)
Scala
Copertura di Lessici e Grammatiche
Espressività
Dizionari, Lessici e Thesaura
Modelli del mondo ed inferenza
Flessibilità
Lingua del produttore vs. consumatore
Naturalezza
IE in MUC
IE in MUC
HLT: Ricerca e Risultati (2)
Apprendimento di conoscenza linguistica
Analisi sintattica per esempi
(e.g. parsing statistico, HMM)
Acquisizione automatica di terminologia
(e.g. broadband communication o imposte dirette)
Regole di disambiguazione del senso (WSD) rispetto a
dizionari semantici
battere/sport vs. battere/colpire
Wordnet (Miller et al, 91) ed i corpora
Information Extraction Rules
Apprendimento di schemi frasali
([companies] acquire [companies])