Linguistica Computazionale 29 novembre 2016 Parsing Morfologico e TSF Two Level Morphology (Koskenniemi 1983, Karttunen 1993) parola in input analisi morfologiche Parser Morfologico Trasduttori a Stati FIniti Lessico (classi di flessione) Regole Morfotattiche Regole Fonologiche 2 TSF lessicali o:O t:T q1 v:V ε:ARE q2 a:A q0 concatenazione ε:$V$ iamo:P1IP m:M q9 q3 q4 f:F q10 q11 x:X q5 r:R ano:P3IP q6 a:A q7 radici 1a coniugazione regolare q12 i:S2IP m:M i:S1CP affissi 1a coniugazione regolare q8 e:E o:S1IP a m o A M ARE nastro superficiale $V$ S1IP nastro lessicale 3 TSF e regole morfofonologiche (Kaplan & Kay 1994) F O X $N$ P x + s nastro lessicale TSF lessicale f o nastro intermedio $ x( & & ε → e/%s ) + __s# &z & ' * TSF per regole fonologiche f # o x e s nastro superficiale € 4 TSF e regole morfofonologiche (Kaplan & Kay 1994) F F:f q0 O:o q1 q8 z:z q4 o +:ε x + ε:e q9 s q11 o x ε:# q6 q7 composizione # #:ε q12 e P:s q5 s:s q10 f P ε:+ q3 f s:s $N$ $N$:ε q2 x:x X X:x wildcard @:@ O q13 regola fonologica come TSF s 5 Parsing Morfologico vs. Stemming l Stemming l l l normalizzazione lessicale senza l’uso del lessico non basata su criteri o regole linguistiche Algoritmo di Porter (1980) l l implementabile con espressioni regolari (ASF) rimuove prefissi, suffissi e desinenze (affix stripping) § loading, loaded, loads à load (m>1) (m>1) (m>1) (m>1) (m>1) (m>1) (m>1) (m>1) (m>1) AL -> ε ANCE -> ε ENCE -> ε ER -> ε ING -> ε ABLE -> ε IBLE -> ε ANT -> ε EMENT -> ε -> -> -> -> -> -> -> -> -> revival -> reviv allowance -> allow inference -> infer airliner -> airlin loading -> load adjustable -> adjust defensible -> defens irritant -> irrit replacement -> replac 6 Parsing Morfologico vs. Stemming l Vantaggi dello stemming l semplicità e generalità l l l è sufficiente una lista chiusa di affissi e una serie di regole per la loro rimozione tipicamente usato nell’Information Retrieval per la normalizzazione delle query Limiti dello stemming l l non contiene un lessico come lista di radici ammissibili organizzate in classi di flessione due tipi di problemi l individuazione di una radice sbagliata (“false parentele”) § l cane – canale; universo – università, ecc. mancata individuazione di una radice nel caso questa subisca alterazioni nei processi di flessione o di derivazione § § espulsione à espellere scelgo à scegliere 7 Analisi morfo-sintattica (POStagging) l Il PoS Tagging è utilizzato per la disambiguazione morfologica id forma lemma pos tratti 1 Il il RD MS 2 3 danno non danno;dare non S;V B MS;P3IP NULL id forma lemma pos tratti 1 Il il RD MS 2 3 danno non danno non S B MS NULL Criticità -disambiguazionetrasostan1vo-agge3vo(es:Ilpazienteinglese),agge3vo-par1cipio 8 passato(es:Disegnocoloratodalpazienteinglese) Part-of-Speech Tagging l Nel caso del POS-tagging il compito dell’analisi grammaticale diventa quello di assegnare ad ogni token della frase la categoria grammaticale appropriata: l Sostantivo, Aggettivo, Avverbio, Verbo, Punteggiatura, Articolo, ecc Il danno non poteva essere sottovalutato. Sostantivo, Articolo, Aggettivo, Avverbio, Verbo, Punteggiatura, ecc. 9 9 Part-of-Speech Tagging l Il compito diventa più complesso quando dobbiamo determinare anche i tratti morfologici (genere, numero, etc.) per ogni parola l tali tratti generano un numero maggiore di classi Il danno non poteva essere sottovalutato. Articolo-Maschile-Singolare, Articolo-Femminile-Singolare, Articolo-Maschile-Plurale, Articolo-Femminilie-Plurale, etc.. 10 10 PoS Tagging a regole (ENGCG) l Pattern-action rules l l <action> IF <pattern> <action> l l l l seleziona uno dei tag della parola (eliminando gli altri) rimuovi uno dei tag della parola l’<action> viene compiuta se e solo se esiste nel testo la sequenza di tag specificata dal <pattern> i <pattern> esprimono vincolo sintagmatici locali su sequenze di tag REMOVE (ART) IF (1C (V)) l Approccio riduzionistico l disambiguazione incrementale 11 Sequenze di tag e ASF l I vincoli sintagmatici locali sulle sequenze legittime di tag possono essere espressi come ASF Agg N Art q0 q1 q2 Vfin Pclit q3 q4 q5 12 PoS Tagging a regole (ENGCG) tokenizzazione "<design>" "design" N NOM SG "design" V PRES -SG3 "design" V INF "design" V IMP "design" V SUBJUNCTIVE "<can>" "can" V AUXMOD "can" N NOM SG "<design>" "design" N NOM SG "<can>" "can" V AUXMOD ambiguity look-up analisi morfologica ENGTWOL guesser ambiguity resolution (disambiguazione) 13 pattern-action rules Machine learning e POStagging … corpus annotato il/ART cane/S è/AUX stanco/ADJ./PUNCT Mario/SP ha/AUX mangiato/V un/ART panino/S … Gianni è stato/V a Roma Lo stato/N italiano ... algoritmo di machine learning annotazione di un nuovo testo regole di disambiguazione morfosintattica apprese Modello di disambiguazione <X/ART Y/?> à <X/ART Y/S> <X/AUX Y/?> à <X/AUX Y/V> … 14 tagger morfosintattico Algoritmo di apprendimento supervisionato 1) Fase di addestramento (Training): Training set Algoritmo di Apprendimento Supervisionato Modello della Lingua 2) Fase di analisi (Test): raw text Algoritmo di Apprendimento Supervisionato 15 Risultato dell’analisi Algoritmo di Apprendimento Supervisionato 1) Fase di addestramento (Training): Alg di Apprendimento Supervisionato Training set l l l Estrazione delle feature Creazione del modello statistico Modello della Lingua training set: corpus di esempi annotati: coppie (input, output) feature: caratteristiche estratte dall’input (training set) modello della lingua: insieme di coppie (feature, peso), dove il peso è stato calcolato dall’algoritmo di apprendimento ed indica la salienza della feature per operare una certa classificazione 16 Fase di addestramento l l Nella fase di addestramento il sistema ha a disposizione uno stato di conoscenza incompleto del processo da simulare, il corpus di addestramento ANNOTATO o training set Il training set può essere visto come un insieme di coppie input, output: (x1; y1), (x2; y2), …,(xn, yn) l l’input xi è detto evento, mentre l’output yi è una classe tra le possibili classi di output ammesse come soluzione del problema da risolvere l l l es. l’evento è la parola porta e la classe è NOME Nei problemi affrontati con algoritmi supervisionati l’insieme delle possibili classi di output deve essere finito, mentre quasi mai gli eventi in input sono un insieme finito Scopo della fase di addestramento è l’apprendimento di una funzione f(xi), detta funzione obiettivo, tale che f(xi)=yi 17 Feature l Le feature sono le caratteristiche che devono essere analizzate nell’evento in input per permettere al sistema di risolvere un particolare compito l l Nella fase di addestramento le feature vengono: l l l es. informazioni relative al contesto in cui si trova una parola estratte dal corpus di addestramento utilizzate per calcolare i parametri della funzione obiettivo stimata Nella fase di analisi le feature vengono: l l estratte dall’evento in input da classificare utilizzate per la stima della classe da assegnare all’evento in input 18 Feature l l La selezione delle feature è una delle parti cruciali nella realizzazione di un sistema di analisi e la bontà della loro selezione determina l’accuratezza del sistema finale La distribuzione di frequenza tra i valori delle feature estratte dagli eventi presenti nel corpus di addestramento e gli output associati viene utilizzata dall’algoritmo di apprendimento automatico in fase di addestramento per la definizione dei parametri della funzione obiettivo Feature nei compiti del TAL l Le feature nei compiti del TAL vengono distinte in tre categorie: locali, contestuali, globali l le feature locali sono quelle che vengono estratte direttamente dal token che stiamo analizzando l l le feature contestuali sono quelle che vengono estratte dal contesto nel quale il token analizzato si trova l l l es. la forma, il lemma, il suffisso, il prefisso, la presenza di caratteri non alfabetici all’interno della parola, ecc. es. la parola precedente, la parola successiva, la POS della parola precedente, la POS della parola successiva, ecc. l’ampiezza del contesto dipende dal tipo di task che si sta affrontando e difficilmente supera la frase che si sta analizzando le feature globali sono feature estratte da contesti più ampi rispetto a quelle contestuali l es. in diversi compiti di TAL può essere molto utile conoscere il dominio del documento che si sta analizzando (sportivo, politico, scientifico, ecc.). 20