Traduzione automatica 1 Argomenti trattati nella lezione: INTRODUZIONE COMPLESSITÀ MODELLI APPLICAZIONI COMMERCIALI Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Introduzione La Machine Translation (MT) opera una traduzione automatica di un testo in un linguaggio naturale (la sorgente o Source Language) verso un testo in un altro linguaggio g gg naturale (la destinazione o Destination Language). g g Machine Translation Source Language g g Destination Language g g Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Introduzione • Avere una vaga idea del senso di un testo • Velocizzare la traduzione operata da un umano Traduzione approssimativa • Testi con linguaggio regolare e severamente limitato Traduzione a sorgente ristretta Applicazioni della MT Traduzione d i • Testi con un linguag- pre-editata g sorgente gio g ristretto • Efficace per traduzioni verso destinazioni multiple Traduzione letteraria • Conservare le sfuma sfumature linguistiche • Compito troppo difficile p per i sistemi automatici Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Introduzione La traduzione è un compito difficile: i hi d una conoscenza approfondita f dit del d l testo; t t - richiede - esige una completa comprensione della situazione da comunicare. La traduzione automatica deve: - operare delle distinzioni tra i vari significati di un termine; - scegliere il giusto termine; - descrivere correttamente una situazione identica, o molto similare, a quella nel testo sorgente. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Si chiamano hi universali i li le l caratteristiche tt i ti h comunii delle d ll lingue li naturali. t li Le differenze tra le lingue naturali sono, invece, dette elementi tipologici. Ognii dimensione O di i ti l i può tipologica ò causare problemi bl i quando d sii opera una tradut d zione da una lingua ad un’altra. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Morfologica f l i Si Sintattica i S Strutturale l numero di morfemi per parola SVO Head-marking Dependent-marking SOV Verb-framed Satellite-framed VSO Pro-drop grado di frammentazione dei morfemi Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Esempio delle dimensioni tipologiche morfologiche Numero di morfemi per parole Catonese {fame -> 餓} Eskimo {Egli mangia la carne grezza -> Ayaskimeow} Grado di frammentazione ni-na-soma ni-li-soma li soma } Swahili {ni ni-ta-soma leggo Italiano { lessi } leggerò La radice del verbo in swahili è facilmente individuabile, mentre nel verbo in italiano non lo è. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Esempio delle dimensioni tipologiche sintattiche SVO Italiano {Noi andremo al cinema} SOV Giapponese {私達 は映画館に 行く} VSO Cebuana {Moadto kami sa sine} In verde è indicato il soggetto della frase, in blue il verbo, mentre il comple complemento è in arancione. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Esempio delle dimensioni tipologiche strutturali Head-marking g Dependent-marking p g Inglese {the man-’s house} Ungherese {az ember hàz-a} Verb-framed Satellite-framed Italiano {entrare , uscire} Inglese {go in , go out} Pro-drop Italiano Stamattina mia madre è venuta in cucina con un libro. { Me lo l ha h mostrato, di dicendo d di iindicare di il mio i d dolce l preferito. f i } Inglese g { This morning, my mother came in the kitchen with a book. } Sh showed She h d it to t me, ttelling lli me tto iindicate di t my favourite f it cake. k Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Omografi testuali Uso di pronomi Ostacoli al MT Polireli matiche e collocazioni Gli omografi testuali sono risolvibili con l’analisi sintatt ca tica. Omogra fi assoluti Gli omografi assoluti sono affrontabili con tecniche statistiche. Le polirematiche e le collocazioni sono individuabili con un censimento. L’uso ’ particolare l d pronomi è dei approcciabile con tecniche di Anaphora Resolution. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Complessità p Ricerca di possibili collocazioni o polirematiche li ti h Trattamento a parte rispetto al resto del testo delle strutture individuate Sostituzione dei termini dal linguaggio sorgente a quello destinazione Un serio p problema è usare la stessa combinazione in una forma non cristallizzata, infatti in questo caso la traduzione risulta inapproppriata nel caso in cui si consideri la struttura nella sua forma cristallizzata In questi casi, una macchina che impiega solamente delle tecniche f formali li sii trova un ostacolo l insori montabile Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Diversii sono gli Di li approccii alla ll traduzione t d i automatica, t ti d i derivanti ti da d distinti di ti ti modelli d lli di funzionameto della lingua e dalle possibilità offerte dal Natural Language Processing SMT Probabili i i listici MT Examplel based Traduzion e diretta Rulebased T-sistemi Interlingua Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Un altro modulo morfologico produce la corretta forma flessa Ottenimento della forma traducente di base d l Il modulo morfologico analizza la forma delle parole Individua informazioni fornite dalla flessione e le scompone Il sistema riduce al minimo le anainformazioni linguistiche da ana lizzare, prendendo in considerazione solo le caratteristiche della lingua di partenza e di quella di arrivo, necessarie per il procedimento della trasformazione. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Trasferimento sintattico Analisi A li i morfosintattica Sintesi Modello operazionale i l Questi sistemi sono: Q • Fondati su modelli sintattici di grammatica formale; • Centrati sull’uso di strumenti propri del Natural Language Processing. Tra i sistemi basati sulle regole, g , q quelli sintattici sono i maggiormente gg usati e i migliori in termini di performance. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Conoscenza contrastiva Esplicitare p le differenze tra le due lingue g è il p primo p passo verso la traduzione. Da questo punto di vista occorre una ristrutturazione sintattica per conformarsi alle regole della lingua target Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Questi sistemi sono caratterizzati da: • Rappresentazione R t i intermedia, i t di • Serie di livelli astratti di rappresentazione morfologica, sintattica e semantica. Sono necessari due passaggi di traduzione: • T1: descrive il passaggio dalla Source Language all’interlingua, • T2: descrive il passaggio dall’interlingua al Target Language. Testo in SL Pasing P i Sintattico Interlingua • Modulo Morfosintattico • Modulo Semantico • Knowledge Bases Natural Language Generation Testo in TL Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Una maniera comoda per rappresentare i tre approcci dei sistemi basati sulle regole è di utilizzare il triangolo di Vauquois, in cui si la profondità di analisi cresce salendo verso il vertice, vertice mentre la quantità di conoscenza richiesta decresce. decresce Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Sono sistemi con le seguenti caratteristiche: • Accesso a corpora paralleli ; • Traduzione con strutture già tradotte; • Ricorso a parametri statistici per l’attribuzione dell’ordine delle parole e del migliore i li candidato did per lla traduzione. d i • Mancato utilizzo di regole grammaticali, ma uso delle probabilità di cooccorrenza e di frequenza delle parole. Le probabilità di co-occorenza sono basate principalmente su due tipi di dati: • Presenza di candidati simili nei corpora paralleli usati come riferimento • Posizione delle parole all all’interno interno della frase confrontata con ll’ordine ordine delle parole all’interno del corpus. p statistica si sono rilevati migliori g rispetto p a I risultati dei sistemi di impronta quelli che fanno ricorso a regole. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli P(F | E)P(E) P(E | F) = ∝ P(F | E)P(E) P(F) T Teorema di Bayes B dove: • P(E | F) = Probabilità di avere un frase corretta in inglese nota quella in francese (Probabilità di corretta traduzione); • P(F | E) = Probabilità di avere una frase corretta in francese nota quella in inglese (Probabilità ottenute da corpora paralleli di riferimento); • P(E) = Probabilità di avere una frase corretta in inglese; • P(F) = Probabilità di avere una frase corretta in francese (dato che è la source language è pari a 1). Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli y Traduzione basata su esempi: una frase viene tradotto per analogia, usando traduzioni precedenti quali esempi. Si possono anche utilizzare parti degli esempi. y Traduzione basata su memoria. Se una frase è già stata tradotta, tradotta utilizza tale traduzione come punto di partenza/bozza. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Recupero,combinazione e ordinamento di frammenti Traduzione Testo di input Traduzione T d i basata su esempi Database delle Unità di traduzione Preprocessing della memoria Testi bilingui Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Confronto ed ordinamento Precedenti Traduzioni ordinate Testo di input Traduzione T d i basata b t sulla memoria Database delle unità di traduzione Preprocessing Della memoria Selezione ed Editing manuale Testi bilingui Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli Traduzione basata su esempi • L L’obiettivo obiettivo è produrre una • • • • • traduzione corretta. Usa in modo efficiente traduzioni precedenti precedenti. Gli esempi sono usati per la disambiguazione. La selezione l e lla combinazione b degli esempi non è cosa facile. Fenomeni dipendenti dal contesto (per esempio, l’anafora) sono difficile da risolvere. Richiede p preprocessing. p g Traduzione basata su memoria • Qualità Q li à molto l alta, l se vengono trovati i corrispondenti giusti. • Molto utile nel caso di documenti molto ripetitivi o documenti da aggiornare frequentemente. • Non combina traduzioni provenienti da frasi diverse. • Non adatta a testi di tipo generico. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Modelli I sistemi attuali di traduzione automatica sono spesso ibridi, e tentano di arricchire per composizione le metodologie basate su regole con quelle adoperanti i corpora. Il vantaggio è di poter sviluppare diverse strategie di risoluzione a seconda dello specifico f problema bl traduttivo d d affrontare. da ff Si Sistemi i Ibridi Ib idi Rule-based Probabilistici Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Applicazioni pp commerciali Diverse multinazionali hanno iniziato a tradurre manuali d’ d’uso e documentazione d t i i t interna con varii prodotti d tti commerciali di traduzione automatica. La tecnica usata è quella di ricorrere al sublanguage, che favorisce la traduzione verso destinazioni multiple. multiple Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Applicazioni pp commerciali Nei sistemi di traduzione on-line, l’utente può ottenere una trap duzione in tempo reale di un testo o di una pagina Web da una qualunque lingua verso una delle numerose lingue supportate. Ill risultato, i l però, ò è il più delle volte una traduzione grezza più o meno imprecisa, i i a seconda delle caratteristiche del testo di partenza partenza. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Applicazioni pp commerciali • metodologia t d l i utilizzata: tili t Transfer T f • il cuore del sistema è composto da ampi dizionari bilingui • non esiste un vero e proprio “modulo di transfer” (il transfer è realizzato da varie routine in generazione) • Analisi morfo-sintattica parziale (shallow parsing) e “scorciatoie” per espressioni idioma ciatoie idiomatiche o parole composte. • Semplice categorizzazione semantica ((umano Vs. inumano), ), non gerarchica Analisi delle parole Dizionari Routines Analisi delle frasi P i Parsing Sintesi Sostituzione Sistemazione Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Applicazioni pp commerciali METEO • produce bollettini meteo in inglese e francese per tutto il Canada • i bollettini b ll tti i standard t d d sono molto lt codificati (stile telegrafico) ed hanno • un lessico limitato • la struttura delle frasi in inglese e francese è molto simile (approccio basato sul transfer, ma molto limitato) • sistema con task-specifico, dominio specifico, opzioni di supporto per interventi umani Ricerca nel dizionario Analisi sintattica Regole di generazione Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Applicazioni pp commerciali ROSETTA • Metodologia utilizzata: Interlingua • Approccio semantico: Grammatica di Montague (il significato di un’espressione è il risultato della composizione • del significato delle sue componenti) • Reversibilità: la stessa grammatica è usata per analizzare e generare le frasi • Isomorfismo: la stessa derivazione semantica deve essere ottenuta per avere una traduzione Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale Applicazioni pp commerciali I Workbenches sono applicazioni pp commerciali di traduzione automatica, pensati per traduttori professionisti. Le workbenches sono suite integrati g con: • Word processors multilingue, • Controllori grammaticali e ortografici, • Termbancks, • Corpora paralleli e programmi di allineamento dei testi, • Programmi di accesso e condivisione di traduzioni. d i i • Translation memories. Tecnologie per il trattamento e la comprensione automatica del linguaggio naturale