PoS Tagging con algoritmi di Machine Learning

annuncio pubblicitario
Linguistica Computazionale
29 novembre 2016
Parsing Morfologico e TSF
Two Level Morphology
(Koskenniemi 1983, Karttunen 1993)
parola in input
analisi morfologiche
Parser Morfologico
Trasduttori a Stati FIniti
Lessico
(classi di flessione)
Regole
Morfotattiche
Regole
Fonologiche
2
TSF lessicali
o:O
t:T
q1
v:V
ε:ARE
q2
a:A
q0
concatenazione
ε:$V$
iamo:P1IP
m:M
q9
q3
q4
f:F
q10
q11
x:X
q5
r:R
ano:P3IP
q6
a:A
q7
radici 1a coniugazione
regolare
q12
i:S2IP
m:M
i:S1CP
affissi 1a coniugazione regolare
q8
e:E
o:S1IP
a
m
o
A
M
ARE
nastro superficiale
$V$
S1IP
nastro lessicale
3
TSF e regole morfofonologiche
(Kaplan & Kay 1994)
F
O
X
$N$
P
x
+
s
nastro lessicale
TSF lessicale
f
o
nastro intermedio
$ x(
& &
ε → e/%s ) + __s#
&z &
' *
TSF per regole
fonologiche
f
#
o
x
e
s
nastro superficiale
€
4
TSF e regole morfofonologiche
(Kaplan & Kay 1994)
F
F:f
q0
O:o
q1
q8
z:z
q4
o
+:ε
x
+
ε:e
q9
s
q11
o
x
ε:#
q6
q7
composizione
#
#:ε
q12
e
P:s
q5
s:s
q10
f
P
ε:+
q3
f
s:s
$N$
$N$:ε
q2
x:x
X
X:x
wildcard
@:@
O
q13
regola fonologica
come TSF
s
5
Parsing Morfologico vs. Stemming
l 
Stemming
l 
l 
l 
normalizzazione lessicale senza l’uso del lessico
non basata su criteri o regole linguistiche
Algoritmo di Porter (1980)
l 
l 
implementabile con espressioni regolari (ASF)
rimuove prefissi, suffissi e desinenze (affix stripping)
§ 
loading, loaded, loads à load
(m>1)
(m>1)
(m>1)
(m>1)
(m>1)
(m>1)
(m>1)
(m>1)
(m>1)
AL -> ε
ANCE -> ε
ENCE -> ε
ER -> ε
ING -> ε
ABLE -> ε
IBLE -> ε
ANT -> ε
EMENT -> ε
->
->
->
->
->
->
->
->
->
revival -> reviv
allowance -> allow
inference -> infer
airliner -> airlin
loading -> load
adjustable -> adjust
defensible -> defens
irritant -> irrit
replacement -> replac
6
Parsing Morfologico vs. Stemming
l 
Vantaggi dello stemming
l 
semplicità e generalità
l 
l 
l 
è sufficiente una lista chiusa di affissi e una serie di regole per la
loro rimozione
tipicamente usato nell’Information Retrieval per la normalizzazione
delle query
Limiti dello stemming
l 
l 
non contiene un lessico come lista di radici ammissibili organizzate
in classi di flessione
due tipi di problemi
l 
individuazione di una radice sbagliata (“false parentele”)
§ 
l 
cane – canale; universo – università, ecc.
mancata individuazione di una radice nel caso questa subisca
alterazioni nei processi di flessione o di derivazione
§ 
§ 
espulsione à espellere
scelgo à scegliere
7
Analisi morfo-sintattica (POStagging)
l Il
PoS Tagging è utilizzato per la disambiguazione morfologica
id
forma
lemma
pos
tratti
1
Il
il
RD
MS
2
3
danno
non
danno;dare
non
S;V
B
MS;P3IP
NULL
id
forma
lemma
pos
tratti
1
Il
il
RD
MS
2
3
danno
non
danno
non
S
B
MS
NULL
Criticità
-disambiguazionetrasostan1vo-agge3vo(es:Ilpazienteinglese),agge3vo-par1cipio
8
passato(es:Disegnocoloratodalpazienteinglese)
Part-of-Speech Tagging
l 
Nel caso del POS-tagging il compito dell’analisi
grammaticale diventa quello di assegnare ad ogni
token della frase la categoria grammaticale
appropriata:
l 
Sostantivo, Aggettivo, Avverbio, Verbo, Punteggiatura,
Articolo, ecc
Il danno non poteva essere sottovalutato.
Sostantivo, Articolo, Aggettivo, Avverbio, Verbo,
Punteggiatura,
ecc.
9
9
Part-of-Speech Tagging
l 
Il compito diventa più complesso quando
dobbiamo determinare anche i tratti morfologici
(genere, numero, etc.) per ogni parola
l 
tali tratti generano un numero maggiore di classi
Il danno non poteva essere sottovalutato.
Articolo-Maschile-Singolare, Articolo-Femminile-Singolare,
Articolo-Maschile-Plurale, Articolo-Femminilie-Plurale, etc..
10
10
PoS Tagging a regole
(ENGCG)
l 
Pattern-action rules
l 
l 
<action> IF <pattern>
<action>
l 
l 
l 
l 
seleziona uno dei tag della parola (eliminando gli altri)
rimuovi uno dei tag della parola
l’<action> viene compiuta se e solo se esiste nel testo la sequenza di
tag specificata dal <pattern>
i <pattern> esprimono vincolo sintagmatici locali su sequenze di tag
REMOVE (ART)
IF (1C (V))
l 
Approccio riduzionistico
l 
disambiguazione incrementale
11
Sequenze di tag e ASF
l 
I vincoli sintagmatici locali sulle sequenze legittime
di tag possono essere espressi come ASF
Agg
N
Art
q0
q1
q2
Vfin
Pclit
q3
q4
q5
12
PoS Tagging a regole
(ENGCG)
tokenizzazione
"<design>"
"design" N NOM SG
"design" V PRES -SG3
"design" V INF
"design" V IMP
"design" V SUBJUNCTIVE
"<can>"
"can" V AUXMOD
"can" N NOM SG
"<design>"
"design" N NOM SG
"<can>"
"can" V AUXMOD
ambiguity look-up
analisi morfologica
ENGTWOL
guesser
ambiguity resolution
(disambiguazione)
13
pattern-action rules
Machine learning e POStagging
…
corpus annotato
il/ART cane/S è/AUX stanco/ADJ./PUNCT
Mario/SP ha/AUX mangiato/V un/ART panino/S
…
Gianni è stato/V a Roma
Lo stato/N italiano ...
algoritmo
di
machine learning
annotazione di
un nuovo testo
regole di
disambiguazione
morfosintattica
apprese
Modello di disambiguazione
<X/ART Y/?> à <X/ART Y/S>
<X/AUX Y/?> à <X/AUX Y/V>
…
14
tagger
morfosintattico
Algoritmo di apprendimento
supervisionato
1) Fase di addestramento (Training):
Training set
Algoritmo di
Apprendimento
Supervisionato
Modello
della
Lingua
2) Fase di analisi (Test):
raw text
Algoritmo di
Apprendimento
Supervisionato
15
Risultato
dell’analisi
Algoritmo di Apprendimento
Supervisionato
1) Fase di addestramento (Training):
Alg di Apprendimento Supervisionato
Training set
l 
l 
l 
Estrazione
delle
feature
Creazione del
modello
statistico
Modello
della
Lingua
training set: corpus di esempi annotati: coppie (input, output)
feature: caratteristiche estratte dall’input (training set)
modello della lingua: insieme di coppie (feature, peso), dove il
peso è stato calcolato dall’algoritmo di apprendimento ed
indica la salienza della feature per operare una certa
classificazione
16
Fase di addestramento
l 
l 
Nella fase di addestramento il sistema ha a disposizione
uno stato di conoscenza incompleto del processo da
simulare, il corpus di addestramento ANNOTATO o training
set
Il training set può essere visto come un insieme di coppie
input, output: (x1; y1), (x2; y2), …,(xn, yn)
l 
l’input xi è detto evento, mentre l’output yi è una classe tra le
possibili classi di output ammesse come soluzione del problema
da risolvere
l 
l 
l 
es. l’evento è la parola porta e la classe è NOME
Nei problemi affrontati con algoritmi supervisionati l’insieme
delle possibili classi di output deve essere finito, mentre
quasi mai gli eventi in input sono un insieme finito
Scopo della fase di addestramento è l’apprendimento di
una funzione f(xi), detta funzione obiettivo, tale che f(xi)=yi
17
Feature
l 
Le feature sono le caratteristiche che devono
essere analizzate nell’evento in input per
permettere al sistema di risolvere un particolare
compito
l 
l 
Nella fase di addestramento le feature vengono:
l 
l 
l 
es. informazioni relative al contesto in cui si trova una
parola
estratte dal corpus di addestramento
utilizzate per calcolare i parametri della funzione
obiettivo stimata
Nella fase di analisi le feature vengono:
l 
l 
estratte dall’evento in input da classificare
utilizzate per la stima della classe da assegnare
all’evento in input
18
Feature
l 
l 
La selezione delle feature è una delle parti
cruciali nella realizzazione di un sistema di
analisi e la bontà della loro selezione determina
l’accuratezza del sistema finale
La distribuzione di frequenza tra i valori delle
feature estratte dagli eventi presenti nel corpus
di addestramento e gli output associati viene
utilizzata dall’algoritmo di apprendimento
automatico in fase di addestramento per la
definizione dei parametri della funzione obiettivo
Feature nei compiti del TAL
l 
Le feature nei compiti del TAL vengono distinte in tre
categorie: locali, contestuali, globali
l 
le feature locali sono quelle che vengono estratte direttamente
dal token che stiamo analizzando
l 
l 
le feature contestuali sono quelle che vengono estratte dal
contesto nel quale il token analizzato si trova
l 
l 
l 
es. la forma, il lemma, il suffisso, il prefisso, la presenza di caratteri
non alfabetici all’interno della parola, ecc.
es. la parola precedente, la parola successiva, la POS della parola
precedente, la POS della parola successiva, ecc.
l’ampiezza del contesto dipende dal tipo di task che si sta affrontando
e difficilmente supera la frase che si sta analizzando
le feature globali sono feature estratte da contesti più ampi
rispetto a quelle contestuali
l 
es. in diversi compiti di TAL può essere molto utile conoscere il
dominio del documento che si sta analizzando (sportivo, politico,
scientifico, ecc.).
20
Scarica