Traduzione automatica
1
Argomenti trattati nella lezione:
INTRODUZIONE
COMPLESSITÀ
MODELLI
APPLICAZIONI COMMERCIALI
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Introduzione
La Machine Translation (MT) opera una traduzione automatica di un testo in un
linguaggio naturale (la sorgente o Source Language) verso un testo in un altro
linguaggio
g gg naturale (la destinazione o Destination Language).
g g
Machine
Translation
Source Language
g g
Destination Language
g g
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Introduzione
• Avere una vaga idea
del senso di un testo
• Velocizzare la traduzione operata da un
umano
Traduzione
approssimativa
• Testi con linguaggio
regolare e severamente limitato
Traduzione
a sorgente
ristretta
Applicazioni
della MT
Traduzione
d i
• Testi con un linguag- pre-editata
g sorgente
gio
g
ristretto
• Efficace per traduzioni verso destinazioni
multiple
Traduzione
letteraria
• Conservare le sfuma
sfumature linguistiche
• Compito troppo difficile p
per i sistemi automatici
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Introduzione
La traduzione è un compito difficile:
i hi d una conoscenza approfondita
f dit del
d l testo;
t t
- richiede
- esige una completa comprensione della situazione da comunicare.
La traduzione automatica deve:
- operare delle distinzioni tra i vari significati di un termine;
- scegliere il giusto termine;
- descrivere correttamente una situazione identica, o molto
similare, a quella nel testo sorgente.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Si chiamano
hi
universali
i
li le
l caratteristiche
tt i ti h comunii delle
d ll lingue
li
naturali.
t li
Le differenze tra le lingue naturali sono, invece, dette elementi tipologici.
Ognii dimensione
O
di
i
ti l i può
tipologica
ò causare problemi
bl i quando
d sii opera una tradut d
zione da una lingua ad un’altra.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Morfologica
f l i
Si
Sintattica
i
S
Strutturale
l
numero di morfemi per parola
SVO
Head-marking
Dependent-marking
SOV
Verb-framed
Satellite-framed
VSO
Pro-drop
grado di
frammentazione
dei morfemi
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Esempio delle dimensioni tipologiche morfologiche
Numero di morfemi per parole
Catonese {fame -> 餓}
Eskimo {Egli mangia la carne grezza -> Ayaskimeow}
Grado di frammentazione
ni-na-soma
ni-li-soma
li soma }
Swahili {ni
ni-ta-soma
leggo
Italiano { lessi }
leggerò
La radice del verbo in swahili è
facilmente individuabile, mentre nel
verbo in italiano non lo è.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Esempio delle dimensioni tipologiche sintattiche
SVO
Italiano
{Noi andremo al cinema}
SOV
Giapponese {私達 は映画館に 行く}
VSO
Cebuana
{Moadto kami sa sine}
In verde è indicato il
soggetto della frase,
in blue il verbo,
mentre il comple
complemento è in arancione.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Esempio delle dimensioni tipologiche strutturali
Head-marking
g Dependent-marking
p
g
Inglese
{the man-’s house}
Ungherese
{az ember hàz-a}
Verb-framed Satellite-framed
Italiano
{entrare , uscire}
Inglese
{go in , go out}
Pro-drop
Italiano
Stamattina mia madre è venuta in cucina con un libro.
{ Me lo
l ha
h mostrato, di
dicendo
d di iindicare
di
il mio
i d
dolce
l preferito.
f i }
Inglese
g
{
This morning, my mother came in the kitchen with a book.
}
Sh showed
She
h
d it to
t me, ttelling
lli me tto iindicate
di t my favourite
f
it cake.
k
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Omografi testuali
Uso di
pronomi
Ostacoli
al MT
Polireli
matiche e
collocazioni
Gli omografi testuali sono
risolvibili con l’analisi sintatt ca
tica.
Omogra
fi assoluti
Gli omografi assoluti sono
affrontabili con tecniche statistiche.
Le polirematiche e le collocazioni sono individuabili con
un censimento.
L’uso
’
particolare
l
d pronomi è
dei
approcciabile con tecniche di
Anaphora Resolution.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Complessità
p
Ricerca di possibili
collocazioni o
polirematiche
li
ti h
Trattamento a parte
rispetto al resto del testo
delle strutture individuate
Sostituzione dei termini
dal linguaggio sorgente a
quello destinazione
Un serio p
problema è usare la stessa
combinazione in una forma non
cristallizzata, infatti in questo caso la
traduzione risulta inapproppriata
nel caso in cui si consideri la
struttura nella sua forma cristallizzata
In questi casi, una macchina che
impiega solamente delle tecniche
f
formali
li sii trova un ostacolo
l insori
montabile
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Diversii sono gli
Di
li approccii alla
ll traduzione
t d i
automatica,
t
ti
d i
derivanti
ti da
d distinti
di ti ti modelli
d lli
di funzionameto della lingua e dalle possibilità offerte dal Natural Language
Processing
SMT
Probabili i i
listici
MT
Examplel
based
Traduzion
e diretta
Rulebased
T-sistemi
Interlingua
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Un altro
modulo
morfologico
produce la
corretta
forma flessa
Ottenimento
della forma
traducente di
base
d l
Il modulo
morfologico
analizza la
forma delle
parole
Individua
informazioni
fornite dalla
flessione e le
scompone
Il sistema riduce al minimo le
anainformazioni linguistiche da ana
lizzare, prendendo in considerazione solo le caratteristiche della lingua di partenza e di quella di
arrivo, necessarie per il procedimento della trasformazione.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Trasferimento
sintattico
Analisi
A
li i
morfosintattica
Sintesi
Modello
operazionale
i
l
Questi sistemi sono:
Q
• Fondati su modelli sintattici di
grammatica formale;
• Centrati sull’uso di strumenti propri del
Natural Language Processing.
Tra i sistemi basati sulle regole,
g , q
quelli sintattici sono i maggiormente
gg
usati e i
migliori in termini di performance.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Conoscenza contrastiva
Esplicitare
p
le differenze tra le due lingue
g è il p
primo p
passo verso la traduzione.
Da questo punto di vista occorre una ristrutturazione sintattica per conformarsi
alle regole della lingua target
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Questi sistemi sono caratterizzati da:
• Rappresentazione
R
t i
intermedia,
i t
di
• Serie di livelli astratti di rappresentazione morfologica, sintattica e semantica.
Sono necessari due passaggi di traduzione:
• T1: descrive il passaggio dalla Source Language all’interlingua,
• T2: descrive il passaggio dall’interlingua al Target Language.
Testo in SL
Pasing
P
i
Sintattico
Interlingua
• Modulo
Morfosintattico
• Modulo
Semantico
• Knowledge
Bases
Natural
Language
Generation
Testo in TL
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Una maniera comoda per rappresentare i tre approcci dei sistemi basati sulle
regole è di utilizzare il triangolo di Vauquois, in cui si la profondità di analisi cresce salendo verso il vertice,
vertice mentre la quantità di conoscenza richiesta decresce.
decresce
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Sono sistemi con le seguenti caratteristiche:
• Accesso a corpora paralleli ;
• Traduzione con strutture già tradotte;
• Ricorso a parametri statistici per l’attribuzione dell’ordine delle parole e del
migliore
i li
candidato
did
per lla traduzione.
d i
• Mancato utilizzo di regole grammaticali, ma uso delle probabilità di cooccorrenza e di frequenza delle parole.
Le probabilità di co-occorenza sono basate principalmente su due tipi di dati:
• Presenza di candidati simili nei corpora paralleli usati come riferimento
• Posizione delle parole all
all’interno
interno della frase confrontata con ll’ordine
ordine delle
parole all’interno del corpus.
p
statistica si sono rilevati migliori
g
rispetto
p
a
I risultati dei sistemi di impronta
quelli che fanno ricorso a regole.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
P(F | E)P(E)
P(E | F) =
∝ P(F | E)P(E)
P(F)
T
Teorema
di Bayes
B
dove:
• P(E | F) = Probabilità di avere un frase corretta in inglese nota quella in
francese (Probabilità di corretta traduzione);
• P(F | E) = Probabilità di avere una frase corretta in francese nota quella in
inglese (Probabilità ottenute da corpora paralleli di riferimento);
• P(E) = Probabilità di avere una frase corretta in inglese;
• P(F) = Probabilità di avere una frase corretta in francese (dato che è la
source language è pari a 1).
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
y Traduzione basata su esempi: una frase
viene tradotto per analogia, usando traduzioni
precedenti quali esempi. Si possono anche
utilizzare parti degli esempi.
y Traduzione basata su memoria. Se una
frase è già stata tradotta,
tradotta utilizza tale traduzione
come punto di partenza/bozza.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Recupero,combinazione e ordinamento di frammenti
Traduzione
Testo di
input
Traduzione
T
d i
basata su esempi
Database delle
Unità di traduzione
Preprocessing
della memoria
Testi bilingui
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Confronto ed
ordinamento
Precedenti
Traduzioni
ordinate
Testo di
input
Traduzione
T
d i
basata
b t
sulla memoria
Database delle
unità di
traduzione
Preprocessing
Della memoria
Selezione ed
Editing manuale
Testi bilingui
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
Traduzione basata su esempi
• L
L’obiettivo
obiettivo è produrre una
•
•
•
•
•
traduzione corretta.
Usa in modo efficiente traduzioni
precedenti
precedenti.
Gli esempi sono usati per la
disambiguazione.
La selezione
l
e lla combinazione
b
degli esempi non è cosa facile.
Fenomeni dipendenti dal
contesto (per esempio, l’anafora)
sono difficile da risolvere.
Richiede p
preprocessing.
p
g
Traduzione basata su memoria
• Qualità
Q li à molto
l alta,
l se vengono
trovati i corrispondenti giusti.
• Molto utile nel caso di documenti
molto ripetitivi o documenti da
aggiornare frequentemente.
• Non combina traduzioni
provenienti da frasi diverse.
• Non adatta a testi di tipo generico.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Modelli
I sistemi attuali di traduzione automatica sono spesso ibridi, e tentano di
arricchire per composizione le metodologie basate su regole con quelle
adoperanti i corpora.
Il vantaggio è di poter sviluppare diverse strategie di risoluzione a seconda dello
specifico
f
problema
bl
traduttivo
d
d affrontare.
da
ff
Si
Sistemi
i Ibridi
Ib idi
Rule-based
Probabilistici
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni
pp
commerciali
Diverse multinazionali hanno iniziato a tradurre manuali
d’
d’uso
e documentazione
d
t i
i t
interna
con varii prodotti
d tti
commerciali di traduzione automatica. La tecnica usata è
quella di ricorrere al sublanguage, che favorisce la
traduzione verso destinazioni multiple.
multiple
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni
pp
commerciali
Nei sistemi di traduzione on-line, l’utente
può ottenere una trap
duzione in tempo
reale di un testo o di
una pagina Web da
una qualunque lingua
verso una delle numerose lingue supportate. Ill risultato,
i l
però,
ò
è il più delle volte una
traduzione grezza più
o meno imprecisa,
i
i
a
seconda delle caratteristiche del testo di
partenza
partenza.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni
pp
commerciali
• metodologia
t d l i utilizzata:
tili t Transfer
T
f
• il cuore del sistema è composto
da ampi dizionari bilingui
• non esiste un vero e proprio
“modulo di transfer” (il transfer è realizzato da varie routine in
generazione)
• Analisi morfo-sintattica parziale
(shallow parsing) e “scorciatoie” per espressioni idioma
ciatoie
idiomatiche o parole composte.
• Semplice categorizzazione semantica ((umano Vs. inumano),
),
non gerarchica
Analisi delle parole
Dizionari
Routines
Analisi delle frasi
P i
Parsing
Sintesi
Sostituzione
Sistemazione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni
pp
commerciali
METEO
• produce bollettini meteo in inglese e
francese per tutto il Canada
• i bollettini
b ll tti i standard
t d d sono molto
lt
codificati (stile telegrafico) ed hanno
• un lessico limitato
• la struttura delle frasi in inglese e
francese è molto simile (approccio
basato sul transfer, ma molto
limitato)
• sistema con task-specifico, dominio
specifico, opzioni di supporto per
interventi umani
Ricerca nel
dizionario
Analisi
sintattica
Regole di
generazione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni
pp
commerciali
ROSETTA
• Metodologia utilizzata: Interlingua
• Approccio semantico: Grammatica
di Montague (il significato di un’espressione è il risultato della composizione
• del significato delle sue componenti)
• Reversibilità: la stessa grammatica è usata per analizzare e generare le frasi
• Isomorfismo: la stessa derivazione semantica deve essere ottenuta per avere
una traduzione
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale
Applicazioni
pp
commerciali
I Workbenches sono applicazioni
pp
commerciali di traduzione automatica, pensati
per traduttori professionisti.
Le workbenches sono suite integrati
g
con:
• Word processors multilingue,
• Controllori grammaticali e ortografici,
• Termbancks,
• Corpora paralleli e programmi di
allineamento dei testi,
• Programmi di accesso e condivisione
di traduzioni.
d i i
• Translation memories.
Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale