Machine Translation MÖSG F1 2007 Anna Sågvall Hein
Vad är maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och kvaliteten på den maskinöversatta texten varierat kraftigt mellan olika system.
Vad är översättning? substitute the text material of one language (SL) by the equivalent text material of another language (TL) (Catford 1965: 20) Translation consists in producing in the target language the closest natural equivalent of the text material of the source language, in the first hand concerning meaning, in the second hand concerning style (Nida 1975: 32) Translation is in theory impossible, but in practice fairly possible Mounin (1967) Catford, J. C. (1965), A Linguistic Theory of Translation, Oxford Press, England. Mounin, G. (1967) Les problèmes théotitiques de la traduction. Paris Nida, E. (1975), A Framework for the Analysis and Evaluation of Theories of Translation, in Brislin, R. W. (ed) (1975), Translation Application and Research, Gardner Press, New York.
Formal and dynamic equivalence Formal equivalence focuses attention on the message itself, in both form and content. It aims to allow the reader to understand as much of the SL context as possible. Dynamic equivalence is based on the principle of equivalent effect, i.e. that the relationship between receiver and message should aim at being the same as that between the original receivers and the SL message. (Nida 75)
Classical problems with MT unrealistic expectations bad translations difficulties in integrating MT in the work flow the Ericsson case
Problem vid maskinell översättning Flertydiga ord i källspråket Variation i målspråket Lexikala översättningsval Grammatiska språkskillnader
Flertydighet i källspråket poäng point, points, credit, credits, var verb >was, were pron > each adv > where adj > every subst >pus
Flertydighet i källspråket, forts anta [någon] (till utbildning) > admit [att] > suppose kunna vara i stånd > be able to ha kunskap om > know
Variation i målspråket Vid avslutad kurs On completion of the course 173.000 After completion of the course 74.000 Having completed the course, 25.900 After finishing the course 25.400 After completed course 636 After a completed course 192 En ordagrann direktöversättning passar inte in i något fall (*At completed course).
Lexikala översättningsval på >on/of/in/ baserad på > based on exempel på > example of studenter på programmet > students in the program redogöra för account for describe
Grammatiska skillnader Efter avslutad kurs förväntas studenten ha grundläggande kunskaper om dynamiken i atmosfären. On completion of the course, the student is expected to have basic knowledge of the dynamics of the atmosphere.
Feasibility of machine translation quality in relation to purpose control of the source language human machine interaction re use of translations evalution
Quality publishing quality editing quality browsing qualiy
Translation related tasks translation browsing drafting cross language information searches
Aspects of the source language spell checked and grammar checked sublanguage domain text type controlled language
Spell checking and grammar checking If there are spelling errors or typos in the SL dictionary search will fail If there are grammatical errors in the SL grammatical analysis will fail Where and how should spell and grammar checking be accounted for? Before or in the process?
Controlled language Full coverage of vocabulary terminology grammar Reduction of ambiguity Language checking
Ex. of controlled languages Simplified English flygplansindustrin KANT controlled English Caterpillar Scania Swedish Scania
Human intervention before language checking during e.g. ambiguity resolution after post editing
Re use of translations translation memories translation dictionaries incl. terminologies statistical machine translation
Evaluation of MT human automatic using a gold standard measures BLEU, METEOR
Why machine translation? cheaper faster more consistent
Examples of MT products Systran (http://babelfish.altavista.com/) Convertus ProMT (http://www.translate.ru/eng) Language Weaver See further: http://www.hutchinsweb.me.uk/
Kursplaneöversättaren Projektgrupp Anna Sågvall Hein Per Weijnitz Eva Pettersson Ebba Gustavii Markus Saers
Transfer baserad översättning Översättningen ske i tre huvudsteg: analys transfer generering Analysen leder till en satslösningsstruktur som översätts, transfereras, till en ekvivalent struktur på målspråket. I genereringssteget byggs målspråkstexten upp.
Transfer baserad översättning, Kunskapsintensiv Språkmoduler forts. Lexikon och grammatik för källspråket Lexikon och grammatik för transfersteget Lexikon och grammatik för målspråket Svårt att skapa heltäckande lexikon och grammatiker
Convertus Transfer baserat kärnsystem Multra Upphämtningsstrategier Ämnesinriktade lexikon Ordgranskningsfunktion Översättningsminne
Upphämtningsstrategier Tillvaratagande av partiella analyser då analysgrammatiken inte räcker till Generering med en enkel statistisk modell när genereringsgrammatiken inte räcker till Analys av ord utanför lexikonet, vanligen sammansättningar, och översättning baserad på de ingående delarna
Ämnesbaserade lexikon Svenskt lexikon analysmodulen Engelskt lexikon genereringsmodule Översättningslexikon transfermodulen Det svenska lexikonet täcker de svenska orden i den projektkorpus vi fått levererad per oktober 2006. Översättningarna har dels hämtats från de översatta kursplanerna, c:a 30 %, dels från många andra källor.
Översättningslexikonen Med farm Utbildningsvetenskap Allmänt lexikon för tek nat Matematik datavetenskap Fysik Teknik Kemi Biologi Geovetenskap Allmänt lexikon for hum sam Teologi Juridik Hist fil Språkvetenskap Samhällsvetenskap Allmän kursplaneterminologi Totalt Återstående ord jan 2007 3 631 271 112 2 932 1 097 2 636 765 929 3 240 314 220 1 089 693 748 1 383 7 519 27 579 1 000
Ordöversättning i kontext Översättningslexikonet omfattar också närmare 1000 lexikala transferregler, dvs. regler som svarar för översättning av enskilda ord i sina kontexter. Det finns inget enkelt vis att systematisk identifiera alla fall, så vi har inga garantier för att vi fått med alla. Vi tror att fler tillkommer i samband med utprovningen.
Lexikonhierarki
Projektkorpusen 3 950 svenska kursplaner (450 000 textord) varav drygt en tredjedel har fullständiga eller partiella översättningar. Antalet kursplaner i korpusen varierar kraftigt mellan de olika sektioner/fakulteter vilket är anledningen till det varierandet antalet enheter i resp. lexikon.
Parallellkorpusen Ur projektkorpusen har de svenska meningar, textsegment, som har en tidigare översättning extraherats tillsammans med sina översättningar. Härigenom har en s.k. parallellkorpus skapats med c:a 7000 enheter. Parallellkorpusen har lagts in som en grundbult i översättningsminnet. Den har också använts för att automatiskt utvärdera de maskinella översättningarna mot de manuella.
Översättningsminne I ett översättningsminne lagras tidigare översättningar mening för mening. Initialt lagras där parallellkorpusen. Vid översättning konsulteras först minnet, och om en mening återfinns där så hämtas dess översättning upp. Om inte, så börjar systemet bygga upp en översättning från grunden.
Översättningsminne, forts. Översättningsminnet utvidgas gradvis allteftersom systemet körs. Användaren granskar och redigerar de maskinella översättningarna och därefter lagras de i minnet. Därigenom stiger kvaliteten på översättningarna. Översättningsminnet är uppdelat i olika ämnesområden på samma sätt som lexikonet. En redigering i en översättning som t.ex. görs av en jurist kommer bara att lagras i det juridiska minnet.
Arbete med Convertus i stora drag Convertus körs från SELMA gränssnittet. Användaren börjar med att ordkontrollera kursplanen, göra ev. rättelser och därefter aktivera översättningsfunktionen. När översättningen är klar skickas en länk till användaren, där såväl den svenska som den översatta versionen visas för granskning och redigering.
Ordgranskningsfunktion Ordgranskningsfunktionen körs före själva översättningen. Den färgmarkerar ord som saknas i lexikonet och användaren tar ställning till om det beror på felskrivning eller är ord, som bör finnas med i lexikonet. Felskrivningar rättas medan ord som saknas tillsvidare lämnas utan åtgärd.
Ord som saknas i lexikonen Systemet översätter texten, även om den innehåller ord som saknas i översättningslexikonet. Som regel kopieras det svenska ordet in i översättningen. I samband med redigeringen av översättningen kan en lämplig översättning ges av användaren. Ord som saknas i lexikonet leder vanligen till sämre översättningskvalitet.
Ex. på en översättningssida http://stp.lingfil.uu.se/~evapet/audit.html
Fel som kan dyka upp Ord utan engelsk översättning Felaktigt ordval Kommatering Ordföljd Numerus
Användarens åtgärder Användaren kan åtgärda alla felen och nästa gång meningen dyker upp, så kommer systemet att välja den redigerade formen. OBS! Införandet av en ordöversättning kommer bara att ha effekt i den aktuella meningen. För att ordet ska fungera i alla sammanhang måste det föras in i lexikonet. Hur saknade ord ska rapporteras till Convertus för åtgärd har vi ännu inte tagit ställning till.
Automatisk utvärdering Översättningskvaliteten har utvärderats automatiskt mot de manuellt utförda översättningarna i parallellkorpusen. Resultaten varierar mellan de olika ämnesområdena beroende på omfattningen av de kursplaner som levererats och storleken på därtill hörande lexikon. I genomsnitt ligger utvärderingsmåttet tydligt högre än det som uppnåddes i förstudien.
Automatisk utvärdering, forts Den automatiska utvärderingen har skett utan att översättningsminnet varit inkopplat. Effekten av översättningsminnet har sålunda inte kunnat bedömas.
Användarutprovning Fortsatt utprovning av översättningstjänsten och utökning av översättnings minnet sker gradvis genom att systemet tas i bruk och används.