Linköpings Universitet 2008 Institutionen för Datavetenskap HKGBB0, Artificiell Intelligens 0DVNLQ YHUVlWWQLQJVRP MOLJKHW aliha541@student.liu.se
,QQHKnOOVI UWHFNQLQJ 1. Inledning... 1 2. Historik... 2 3. Översättningens omöjlighet... 4 3.1 Formell ekvivalens... 4 3.2 Dynamisk ekvivalens... 5 3.3 Att integrera formellt med dynamiskt... 5 3.31 Källspråksorienterad eller målspråksorienterad översättning?... 5 3.4 Formellt och dynamiskt inom maskinöversättning... 6 4. Svårigheter vid maskinöversättning... 7 4.1 Ambiguitet... 7 4.2 Metaforer... 8 5. Maskinöversättning... 9 5.1 Transfermodellen... 9 5.2 Interlinguamodellen... 10 5.3 Direkt översättning... 10 5.4 Översättningsminnen... 11 6. Diskussion... 12 7. Referenser... 13
Den semantiska svårigheten vid maskinöversättning 1(15),QOHGQLQJ I och med att vi går mot en mer globaliserad värld så minskar avstånden mellan människor. Världens invånare blir mer och mer knutna till varandra och detta kräver att människor pratar mer med varandra. Detta krav gör att språkliga skillnader och likheter blir ett växande ämne. Människor kommunicerar helst på sitt modersmål, troligtvis det språk de känner bäst till. Även om man har lärt sig ett språk till fullo i vuxen ålder, så blir man troligen aldrig lika flytande som någon som fått det sedan barnsben. För att vi ska kunna förstå varandra bättre så behöver vi goda översättningsmöjligheter. Visserligen har vi det i mänskliga översättare, men detta tar tid. Både tid för att träna upp översättaren och tid för översättaren att producera en text till målspråk av en redan existerande källspråkstext. Även om tid inte är en faktor så finns det aldrig några garantier att den mänskliga översättaren lyckas med uppdraget. Även den bästa översättaren är bara människa, och kan göra misstag som alla andra. Om man lyckas skapa en maskin som kan översätta automatiskt och fullgott mellan två språk, så har man mycket att tjäna på det. Vinsterna, förutom kommersiell framgång, är sådant som ökad förståelse mellan kulturer och tid för annat än översättning. Idén med maskinöversättning har funnits sedan länge. Men trots att det hystes stora förhoppningar så har maskinerna inte kunnat leva upp till kraven. Dagens teknik med snabbare datorer, större minneskapacitet och även moderna utvecklingen av lingvistik (Sigurd, 2007) har gett maskinöversättning verktygen till att kunna motsvara de tidigt ställda förväntningarna. Tyvärr så har maskinöversättningen fortfarande inte kunnat producera kvalitativa översättningar, förutom i domänspecifika dokument, såsom väderleksrapporter (Sigurd, 2007) Maskinöversättning är ett viktigt ämne, speciellt med tanke på den europeiska unionen, EU, och dess växande antal medlemmar, och därmed kulturer och språk. Diskussioner om huruvida EU ska använda sig av ett gemensamt språk för officiella dokument är inte ovanliga. Men hur kan man välja ett språk och utesluta ett annat? Vikten av maskinöversättning uppenbarar sig i detta fall som ett socio-politiskt problem. Ska man använda sig av ett språk och låta resterande bli en variant av underklasspråk? Detta är problematiskt då förlusten av ett språk leder till förlust av en kultur och ett sätt att tänka (Arnold et al., 1995). Då maskinöversättning är ett brett och omfattande ämne så koncentrerar sig den här rapporten på de semantiska svårigheterna som kan uppstå. Först ges en historisk genomgång av maskinöversättning genom åren.
Den semantiska svårigheten vid maskinöversättning 2(15) +LVWRULN Tankar om maskinöversättning kan spåras bak till så tidigt som 1700-tal, då idéer om universala språk och mekaniska ordböcker uppstod (Hutchins, 2003). Dock skulle det dröja två århundraden innan de första patenten med praktiska lösningar skulle dyka upp. 1933 fick fransmannen Georges Artsrouni och ryssen Petr Trojanskij varsitt patent på olika håll. Medan Artsrouni hade en lösning på hur maskiner skulle kunna fungera som mekaniska flerspråkslexikon, så föreslog Trojanskij detaljerade lösningar att koda och tolka grammatiska funktioner med ett universellt språk, som esperanto (Hutchins, 2003). Ett drygt decennium senare, 1947, så skrev Warren Weaver inom Rockefeller Foundation i USA ett brev till datorexperten Norbert Wiener. I brevet utryckte Weaver en önskan om maskinöversättning. One thing I wanted to ask you about is this. A most serious problem, for UNESCO and for the constructive and peaceful future of the planet, is the problem of translation, as it unavoidably affects the communication between peoples. Huxley has recently told me that they are appalled by the magnitude and the importance of the translation job. Recognizing fully, even though necessarily vaguely, the semantic difficulties because of multiple meanings, etc., I have wondered if it were unthinkable to design a computer which would translate. Even if it would translate only scientific material (where the semantic difficulties are very notably less), and even if it did produce an inelegant (but intelligible) result, it would seem to me worth while. (citerad i Hutchins, 1997, s. 195) Redan i detta tidiga brev så är Weaver medveten om de semantiska problemen och vikten av kommunikation för att upprätthålla fred och förståelse mellan människor. Wiener svarade tillbaka, och menade att han inte trodde på maskiners kapacitet för översättning. as to the problem of mechanical translation, I frankly am afraid of the boundaries of words in different languages are too vague and the emotional and international connotations are too extensive to make any quasi mechanical translation scheme very hopeful. (citerad i Hutchins, 1997, s. 198) Fastän detta svar inte var vad Weaver hade förväntat sig så fortsatte han att lägga fram sina tankar om maskinöversättning för andra kollegor. På annat håll så hade Yehoshua Bar-Hillel vid Massachusetts Institute of Technology forskat om maskinöversättning, och 1952 så ordnade han den första konferensen inom ämnet (Hutchins, 2003). Konferensen på MIT blev en välbesökt tillställning. Det fastställdes att högkvalitativ maskinöversättning var en omöjlighet utan viss redigering. Detta kunde vara före- eller efterredigering. De mest optimistiska menade att denna mänskliga redigering bara skulle behövas i början, men vissa trodde att det alltid skulle behövas. Trots skepsisen på konferensen så ordnades två år senare en demonstration av Peter Sheridan på IBM och Paul Garvin vid Georgetown University. Sjunde januari 1954 så visade de upp ett
Den semantiska svårigheten vid maskinöversättning 3(15) maskinöversättningssystem som lyckades översätta 49 ryska meningar till engelska. Meningarna var väl valda och systemet använde sig av en vokabulär på 250 ord och sex grammatiska regler. (Hutchins, 2003). Fastän detta inte har något vetenskapligt värde i sig, så fick det mycket uppmärksamhet i media. Det resulterade i stora anslag till forskning om maskinöversättning. Demonstrationen, medieuppbådet och anslagen ledde till att förväntningarna steg och försiktigheten på konferensen två år tidigare var som bortglömd. Under 1950-talet så utvecklades det två grundläggande metoder för maskinöversättning. Den ena var direktöversättning, där regler utvecklades för översättning mellan ett källspråk till ett specifikt målspråk. Den andra metoden använde sig av ett interlingua, ett abstrakt språkneutralt representationsmedel (Hutchins, 2003). Denna metod krävde att översättning skulle ta två steg. I första steget översätts texten från källspråk till interlingua och i andra steget från interlingua till målspråk. Detta var något som Léon Dostert, den stora kritikern vid konferensen på MIT, hade föreslagit för att kunna kalla det för riktig maskinöversättning. general MT (mechanical translation from one into PDQ\ languages) should be se developed that one translates first from the input language into one pivot language (which in our case will, most likely, be English) and from that pivot language into any one of the output languages desired (citerad i Hutchins, 1997, s. 229) Trots de obefintliga framstegen så rådde det stort hopp på 1960-talet om att skapa maskiner som kunde översätta från ett naturligt språk till ett annat (Russel & Norvig, 2003). 1960 kritiserade Bar-Hillel den rådande meningen om att målet var att få skapa system som producerade högkvalitativa översättningar som inte kunde särskiljas från mänskliga översättningar (Hutchins, 2003). Denna kritik ledde till en granskning av maskinöversättning som forskningsämne och ett minskat hopp om fullgoda maskinöversättningar. 1966 skrev Automatic Language Processing Advisory Committee (ALPAC), en kommitté som tillsatts av amerikanska regeringen tillsammans med National Science Foundation, en svidande rapport för maskinöversättningens anhängare. Rapporten fastslog att maskinöversättning var långsammare, mindre precis och dubbelt så kostsam som mänsklig översättning (Hutchins, 2003). Rapporten menade att det inte fanns behov för fortsatt forskning inom ämnet och föreslog att anslag skulle spenderas på automatiserad hjälp för mänskliga översättare istället. ALPAC ansåg i sin rapport att there is no immediate or predictable prospect of useful machine translation (citerad i Hutchins, 2003, s. 7) Trots att rapporten anses som en dödsstöt för forskning inom maskinöversättning, så dog inte det ut helt. I ett par decennier låg forskningen vilande, tills mitten av 1980-talet då ett generellt intresse för interlingua uppkom i samband med ökad forskning inom artificiell intelligens. Under samma tid så insåg mänskliga översättare möjligheterna med att använda sig av datorer för att underlätta sina arbeten (Hutchins, 2003). Dessa två faktorer ledde till att forskning om maskinöversättning har återupptagits, men denna gång med en försiktig optimism.
Den semantiska svårigheten vid maskinöversättning 4(15) gyhuvlwwqlqjhqvrp MOLJKHW Det råder alltid en diskussion om översättning är möjligt, och om översättning är en tolkning av en text. För att kunna besvara sådana diskussioner så måste vi veta vad för syfte en översättning har, och vad för krav vi ställer på den. om man kräver att en översättning inte får medföra någon som helst formförändring, informationsförlust eller tilläggsinformation, då är det onekligen sant att översättning är en omöjlighet. (Ingo 1990:16). Det är omöjligt att bevara både form och mening från källtext till måltext, så som översättare måste man göra ett val mellan dessa. Och beroende på vilken sorts källtext man utgår ifrån och vilken målgrupp man riktar sig mot så kan valen bli annorlunda. En estetisk-poetisk översättning bör ha fokus på formen, medan en informativ översättning ska fokusera på innehållet. Det finns inga generella regler som man kan luta sig mot vid valet av översättning, men man kan vara medveten om vilken väg man väljer. Ska översättningen vara käll- eller målspråksorienterad? Och vill man att översättningen ska ha en formell eller dynamisk ekvivalens? )RUPHOOHNYLYDOHQV Enligt Nida (2000) så kan en översättning gå mot en formell ekvivalens. Detta innebär att den är källspråksorienterad och försöker återskapa olika formella element, såsom: *UDPPDWLVNDHQKHWHU Detta kan röra sig om att översätta verb med verb, substantiv med substantiv, att hålla fraser och meningar intakta och att behålla kommatering och liknande..rqvhnyhqvldqylqgqlqjdyrug Här så skapar översättare en termbas där varje ord i källtexten har ett motsvarande ord målspråket. Denna metod bör inte överutnyttjas då den kan ge konstiga meningar. Översättare skall sträva mot att hålla termbasen kort, men relevant. %HW\GHOVHUIUnQNlOOWH[WHQ Med detta så menas att översättarna ska återskapa idiom från källtexten till så bokstavlig översättning som möjligt. Det för att läsaren skall uppleva någonting som ger en uppfattning av källtextens kultur. Det här är då inte alltid möjligt, eller ger ofta konstiga meningsfraser, vilket innebär att översättaren hellre skall ha fotnoter än att ändra för mycket på betydelsen. Fastän en formellt ekvivalent översättning kan verka som något att inte föredra, så är de fullgoda översättningar för vissa typer av texter och tänkta mottagare. At this point we are concerned only with their essential features, not with their evaluation. (Nida 2000:135). * Delar av detta kapitel har hämtats från min hemtentamen i kursen Lokalisering, översättning och terminologi 729G61, höstterminen 2006.
Den semantiska svårigheten vid maskinöversättning 5(15) '\QDPLVNHNYLYDOHQV Motsatsen till formell ekvivalens är dynamisk ekvivalens. En sådan översättning fokuserar mer på mottagaren och att få måltexten att verka så naturlig som möjligt. Nida menar att en dynamisk översättning är the closest natural equivalent to the source-language message. (Nida 2000:136). Nyckelordet i den här definitionen är natural, för att detta ska uppnås så måste den passa in på: målspråket och dess kultur som helhet sammanhanget i vilket texten uppstår målspråkets läsare Detta innebär alltså att en dynamiskt ekvivalent översättning ska få sina läsare att tänka att det är precis så vi säger det. Eller snarare en dynamiskt ekvivalent översättning ska inte få läsare att reagera på att det är en översättning överhuvudtaget. Sådana naturliga översättningar kommer att stöta på två principer vid adaptering av en källtext: *UDPPDWLVNSULQFLS Denna princip är ganska lätt att åtgärda, då målspråket har sina grammatiska regler för hur en text eller mening ska vara uppbyggd. Översättaren får då möjlighet till att ändra på ordföljd, byta ut ett substantiv mot ett verb där det måste och så vidare. /H[LNDOSULQFLS Här är det lite svårare än den grammatiska principen, man måste ha en semantisk förståelse både för källspråket och målspråket. Det finns tre olika nivåer som måste övervägas. (1) Termer som kan direktöversättas i målspråket, såsom kniv och sten. (2) Termer som definierar kulturellt specifika objekt men som det finns motsvarigheter till i målspråket, som bok dagens samhälle och papyrusrulle i antikens Egypten. (3) Kulturspecifika termer som inte har en motsvarighet i målspråket. När källspråk och målspråk representerar två vitt skilda kulturer så kan det vara en omöjlighet att översätta dynamisk ekvivalent med naturlighet som krav. En helt naturlig översättning kan beskrivas i terms of what it avoids than in what it states (Nida 2000:138). Om läsaren inte reagerar på att det låter konstigt och får samma upplevelse som en läsare av källtexten, så har den dynamiskt ekvivalenta översättningen lyckats. $WWLQWHJUHUDIRUPHOOWPHGG\QDPLVNW En översättning som är formellt ekvivalent måste släppa på vissa dynamiska krav, på samma sätt som att en dynamiskt ekvivalent översättning måste ändra på det formella. Dessa två principer är motsatser till varandra och kan inte integreras, one cannot have his formal cake and eat it dynamically (Nida 2000:139)..lOOVSUnNVRULHQWHUDGHOOHUPnOVSUnNVRULHQWHUDG YHUVlWWQLQJ" Newmark (1988) menar att det finns två håll åt vilken en översättning kan gå åt, antingen åt källspråket eller åt målspråket. Dessa två riktningar är inte absoluta, utan han anger en skala på vilken en översättning kan vara mer eller mindre orienterad åt ett håll (figur 2.).
Den semantiska svårigheten vid maskinöversättning 6(15) Som vi kan se av figuren så kan en källspråksorienterad översättning, i sin strängaste form, resultera i en ord-för-ord översättning. Enligt Newmark så är mening med en sådan översättning att either to understand the mechanics of the source or to construct a difficult text as a pre-translation process. (Newmark 1988:46). 6/HPSKDVLV 7/HPSKDVLV Word-for-word translations Literal translation Faithful translation Semantic translation Adaptation Free translation Idiomatic translation Communicative translation )LJXU1HZPDUNV9GLDJUDPRP YHUVlWWQLQJVRULHQWHULQJ1HZPDUN I den andra änden så finns adaptation, det som Newmark menar är den friaste formen av översättning. Enligt Newmark så används mestadels för pjäser, i synnerhet komedier, och poesi. En adaptation konverterar källspråkets språk och kultur helt till målspråkets språk och kultur. Newmark anser att det är de två medelvägarna, semantisk och kommunikativ översättning, som är de som fångar de två huvudmålen för översättning, nämligen precision och besparing (DFFXUDF\ och HFRQRP\). Semantisk översättning skall användas för uttryckande text, medan kommunikativ för informerande text. )RUPHOOWRFKG\QDPLVNWLQRPPDVNLQ YHUVlWWQLQJ Huruvida maskinöversättning ska gå mot formell eller dynamisk ekvivalens är svårt att avgöra. Detta beror ju självklart på vilken form av text man har, och även på vilken kapacitet maskinen har. Trots att dessa ekvivalenter är baserade på mänsklig översättning så tillämpar de sig även inom maskinöversättning. Ekvivalenterna ger grund till frågeställningar om vilken maskinöversättningar skall gå mot. Är den formella ekvivalenten bättre lämpad för maskiner eller är det inom den dynamiska översättningen som maskiner har sin potential? Oavsett vilken man väljer så kommer man att stöta på problem. Dessa kan exempelvis vara morfologiska, syntaktiska, strukturella eller semantiska. I nästa kapitel diskuteras de semantiska svårigheterna vid maskinöversättning.
Den semantiska svårigheten vid maskinöversättning 7(15) 6YnULJKHWHUYLGPDVNLQ YHUVlWWQLQJ Även om maskinöversättning kan stöta på flera olika typer av problem, så verkar de semantiska vara mest i antal och svårighetsgrad. De semantiska svårigheterna kan yttra sig på olika sätt och även tangera andra problemområden inom översättning, såsom syntaktiska och lexikala. Nedan diskuteras några av de större semantiska problemen inom maskinöversättningen. $PELJXLWHW In the best of all worlds /... / every word would have one and only one meaning (Arnold et al. 1995, s. 105) Ambiguitet är ett genomgående koncept inom mänskligt språk. Att hitta ett ord som inte har två, eller mer, betydelser kan vara svårt. Ambiguitet kan uppstå på flera olika sätt. Ett ord kan ha lexikal ambiguitet, t.ex. bok som i en skriftsamling eller bok som i trädet. Vidare finns det anaforisk ambiguitet i språket. Detta innebär att ett pronomen syftar tillbaka på en tidigare nämnd substantiv. Exemplet Pojken är sjuk. Han äter medicin är klart inom sin kontext. Men för ett översättningsprogram som översätter på meningsnivå och inte sparar gamla meningar i minnet, så blir detta ett problem. Om en mening har flera betydelser så anses den ha strukturell ambiguitet, t.ex. One morning I shot an elephant in my pyjamas. How he got in my pyjamas I don t know. Detta kända uttalande yttrades av den amerikanska komikern Croucho Marx, och visar tydligt hur den strukturella tvetydigheten kan ändra innehållet i en mening. För en människa, med kunskap om världen, hade tolkningen att elefanten bar pyjamas inte haft lika hög sannolikhet som att Croucho hade pyjamasen på sig vid tillfället. Men för ett system utan vetskap om hur vanligt det är med pyjamasbärande elefanter så skulle båda tolkningar vara lika godtagbara. Problemet med ambiguitet är inte bara att man får felaktiga tolkningar av meningar, men för att ambiguitet är exponentiellt (Arnold et al., 1995). Om en mening innehållande två ord, och varje ord har två betydelser, så innebär det att det finns fyra olika tolkningar på mening. En mening med tre ord skulle då ha åtta betydelser. Detta skulle bli problematiskt för tids- och minnesåtgången redan vid låga antal. En mening som består av tio ord med två betydelser var och innehåller strukturell ambiguitet skulle då ge upphov till 2 9+2 = 2 11 = 2048 tolkningar (Arnold et al., 1995). Ambiguitet går att lösa genom att använda kontext eller hålla sig till texter med begränsad komplexitet och specialiserat språk, t.ex. väderleksrapporter (Russel & Norvig, 2003). Man kan även använda sig av olika modeller för att uppnå disambiguering. De finns två olika huvudtillgångssätt, integrerad rule-to-rule och stand-alone (Jurafsky & Martin, 2000). I det första sättet så väljs rätt betydelse av ord som en bieffekt av eliminering av sämre semantiska representationer. Systemet arbetar på så sätt att vissa restriktioner blockerar bildandet av otillåtna meningsrepresentationer. Genom denna blockad får systemet färre tolkningar och kan fokusera på de troliga (Jurafsky & Martin, 2000). Jurafsky och Martin (2000:632) ger som exempel två engelska meningar, där systemet fokuserar enbart på ambiguiteten inom ordet dishes.
Den semantiska svårigheten vid maskinöversättning 8(15) (1) In our house, everybody has a career and none of them includes washing GLVKHV, he says. (2) In her tiny kitchen at home, Ms. Chen works efficiently, stirfrying several simple GLVKHV, including braised pig s ears and chicken livers with green peppers Dessa två användningar av ordet dishes ger ett tydligt exempel på ambiguitet på polysemisk nivå. Polysemi innebär att ett ord har olika betydelser beroende på kontexten (Jurafsky & Martin, 2000). Rule-to-rule kan lösa denna ambiguitet genom att tillämpa blockeringar som kommer ifrån kontexten. Tillsammans med semantisk information om de två olika meningar av dishes, exempelvis att den ena är ätbar och att den andra kan diskas, har verben washing och stir-frying restriktioner som gör det tydligt vilken betydelse som ska anges till de olika användningarna av ordet. För att denna metod ska fungera krävs det att systemet har tillgång till en databas med information om de olika tematiska rollerna ett ord kan inneha (Jurafsky & Martin, 2000), detta innebär att det är angett vad som agent, patient och liknande i en sats. Det är i kombination med den semantiska informationen som ger grund till blockaden av olämpliga tolkningar. Nackdelen med denna metod är att det inte finns några standardiseringar för de tematiska rollerna och att restriktionerna är anpassningar för koncepten de står för (Jurafsky & Martin, 2000). De kan, till exempel, inte redogöra för den djupare förståelsen av konceptet äta och vad som är ätbart. För att kunna göra det fullgott krävs det kompletta restriktioner för alla tematiska roller, oavsett deras sannolikhet (ibid.). 0HWDIRUHU Metaforer uppstår i situationer då vi refererar till och resonerar om koncept, men använder ord och fraser som är kopplade till andra domäner och koncept (Jurafsky & Martin, 2000). Metaforer är abstrakta yttranden som inte kan tolkas bokstavligen, vilket ger upphov till problem för maskinöversättningsprogram då de inte kan använda de vanliga reglerna för översättning (Arnold et al., 1995). Arnold (ibid.) ger exemplet nedanför som ett problem för maskinöversättning: (3) If Sam kicks the bucket, her children will be rich I den här meningen syftar uttrycket kick the bucket till att dö, inte att sparka på en hink. Utan kunskap om metaforen för att dö i det engelska språket, är att sparka hinken, skulle ett maskinöversättningssystem inte kunna ge en fullgod tolkning av meningens verkliga innebörd. För att komma åt detta problem, kan dessa metaforer uttryckas som en enhet i ordlistan, till exempel kick_the_bucket som ett ord som råkar ha blanksteg mellan orden.
Den semantiska svårigheten vid maskinöversättning 9(15) 0DVNLQ YHUVlWWQLQJ Det finns datorprogram som hjälper till vid översättningen. Dessa kan antingen vara automatiska översättningssystem eller passiva och aktiva översättningsminnen. Konceptskillnaden mellan översättningssystem och översättningsminnen är att den senare är tänkt att arbeta för översättaren istället för att ta dennes jobb (Ahrenberg & Merkel, 1997). Automatiska översättningssystem översätter en text från källspråk till målspråk utan inblandning av en mänsklig översättare. Det existerar redan ett stort antal sådana system i användning, och de flesta bygger på sina tekniker på regler och lexikon (Ahrenberg & Merkel, 1997). Hittills finns det fyra olika modeller för översättningssystem, transfer, interlingua, direkt och statistisk översättning, men oftast blir det en blandning av dessa modeller (Jurafsky & Martin, 2000). 7UDQVIHUPRGHOOHQ Här används kontrastiv kunskap om skillnaderna mellan källspråk och målspråk. Modellen består av tre steg, analys, transfer och generering, se figur??? (Jurafsky & Martin, 2000). Transfer Parsningsträd Parsningsträd Analys Generering Källstext Måltext Fig. 5.1 Transfermodell (Martin & Jurafsky, 2000) System som använder sig av denna modell har en databas med regler som, vid direkt träff, översätter från källspråk till målspråk (Russell & Norvig, 2003). Tanken med transfermodellen är att om översättning ska kunna lyckas så är det nödvändigt att ha ett mellansteg för att representera betydelsen av texten. Mellansteget blir då en analys av källtexten, denna analys kan göras på lexikal, syntaktisk eller semantisk nivå. Till exempel så skulle en transfermodell som bygger på strikt syntaktiska regler sammankoppla engelska [Adjektiv Substantiv] till Franska [Substantiv Adjektiv] (Russel & Norvig, 2003: 852). Problemet med transfermodellen är att ett sådant system behöver regler för alla möjliga kombinationer av språkpar som kan uppstå. Detta blir speciellt påtagligt inom internationella institutioner som EU och FN.
Den semantiska svårigheten vid maskinöversättning 10(15),QWHUOLQJXDPRGHOOHQ Interlinguamodellen bygger vidare på transfermodellen, men går ett steg vidare. Där transfermodellen slutar, gör ett översättningssystem med interlinguamodell en semantisk analys av källtexten och gör den språkoberoende, se figur 5.2 (Jurafsky & Martin, 2000). På så vis kan en källtext översättas till flera olika språk på en gång utan att det finns regler för alla motsvarande språkpar. Målspråk 1 Källspråk,QWHUOLQJXD Målspråk 2 Målspråk 3 Fig. 5.2 Arkitektmodell för interlinguamodellen Fördelen med den här modellen är att det inte behövs flera analyser för varje målspråk. En källtext analyseras och översätts till en abstrakt språkform i ett interlingua. Därifrån kan den abstrakta texten översättas till önskat målspråk. Även om detta sparar en mängd tid och datakapacitet, så medför den att enbart specialiserade texter med begränsade texter inom speciella domäner, som till exempel väderleksrapporten. 'LUHNW YHUVlWWQLQJ När transfermodellen eller ett interlingua inte lyckas med en översättning, så måste man ta till andra metoder. Man kan gå olika vägar, men genom att adoptera principen att maskinöversättning ska lite som möjligt så kan man vända sig till direkt översättning (Jurafsky & Martin, 2000). Inom direkt översättningen så struntar man i utvecklade strukturella analyser och bara gör de enkla utförande som är tillitliga. Direktöversättning är konstruerad i flera olika steg och utgår från ett specifikt källspråk till ett specifikt målspråk (ibid., 2000). I denna modell så löser man ett problem i taget, till exempel en morfologisk analys först och därefter alla lexikala översättningar, vilket ger att modellen blir fördelaktig då det är mer lätthanterligt, men de andra modellerna har sina fördelar med att göra analyserna i samma steg då det kan finnas samband mellan de olika analytiska problemen, eller hos en speciell typ av problem (Jurafsky & Martin, 2000). På det viset är det bättre att ha ett översättningssystem som har en övergripande bild av översättningen, och inte bara gör ett steg och går vidare.
Den semantiska svårigheten vid maskinöversättning 11(15) gyhuvlwwqlqjvplqqhq Översättningsminnen kommer i olika varianter och med olika funktioner, exempelvis passiva och aktiva, men den övergripande tanken är densamma för dem alla. Nämligen att göra översättaren uppmärksam på att en mening har översatts förut, och visa hur den då översattes (Ahrenberg & Merkel, 1997). Skillnaden mellan översättningsminnen och automatiska översättningssystem är att den förra arbetar åt människan, medan den andra är tänkt för att ersätta människan i större utsträckning. Ett översättningsminne består av en databas med tidigare översatt meningar, både från källspråk och målspråk. Programmet arbetar på meningsnivå, och när en tidigare översatt mening återfinns i källtexten så hämtas den till måltexten. Ett passivt översättningsminne gör inget av sig självt, utan finns som hjälp till översättaren när denne behöver information om hur en mening har översatts tidigare. Aktiva översättningsminnen hittar översatta meningar på egen hand, och rådfrågar inte översättaren såvida inte problem uppstår. Förutom att arbeta på meningsnivå, kan översättningsminnen även känna igen termer och delar av meningar, så kallad fuzzy matchning (Ahrenberg & Merkel, 1997). Vid fuzzy matchning så bearbetas den delen av meningen som är möjlig för systemet och resten återlämnas till översättaren. Ett översättningsminne med fuzzy matchning kan även känna igen meningar med vissa likheter med tidigare översatta meningr. Det kan vara skillnader inom kommatering, stora och små bokstäver (Ahrenberg & Merkel, 1997) eller variationer på ett visst ord, t.ex. översättningen på communicate föreslås på ordet communicated (Webb, 1998).
Den semantiska svårigheten vid maskinöversättning 12(15) 'LVNXVVLRQ Detta arbete har visat på maskinöversättningens historia och hur detta har utvecklats genom åren. Historien har visat att forskarna var alltför optimistiska i maskinöversättningens vagga, men att denna optimism har dämpats och ersatts av en realism som inte går stegen i förväg. Utvecklingen av maskiners kapacitet, i termer av minne och komplexitet, har lett till att maskinöversättningens möjlighet har börjat närma sig de första tankarna. Frågan är huruvida maskinöversättning någonsin kommer att leva upp till alla krav som översättning kräver för att inte måltexten ska vara förvirrande eller onaturlig för läsaren. Detta mål kan uppnås genom att följa de ekvivalenser som syftar till att styra översättningen till att antingen vara källspråksorienterad eller målspråksorienterad. Vilken orientering en översättning ska sträva mot borde avgöras av vilken typ av text det handlar om. En standardiserad, domänspecifik källtext kan översättas formellt, då det är informationen som är viktigast att förmedla. En poetisk, eller skönlitterär text bör översättas mer dynamiskt för att få fram känslan och beröra läsaren på det tänka sättet. Eftersom maskinöversättning har flera semantiska problem, exempelvis med ambiguitet och metaforer, så verkar inte dynamisk ekvivalens något som de kan uppfylla för tillfället. På grund av den tids- och minneskomplexitet, så kommer ett maskinöversättningsprogram få stora problem med en skönlitterär text med flertaliga tolkningsmöjligheter För att komma åt problemen med maskinöversättning, har det lagts fram ett antal strategier. Automatiska översättningssystem tillämpar olika strategier som direkt översättning, transfermodellen och användning av ett interlingua för att uppnå fullgoda översättningar. Översättningsminnen förlitar sig på graden av repetition och återvändningsprincipen. Genom att använda en databas och översätta meningar som har översatts förut, sparar de tid åt översättaren. Maskinöversättning har sin styrka inom översättningsminnen. Och då dessa lämpar sig för texter med hög upprepning och domänspecifik information, så är det inom detta område maskinöversättning bör tillämpas, åtminstone för tillfället. Även om den ursprungliga optimismen har dämpats, så finns det fortfarande hopp för maskinöversättning. Forskningen arbetar sig framåt och kapaciteten hos maskiner utökas nästan dagligen. Även om det inte är troligt att vi får komplett maskinöversatt skönlitteratur, eller poesi, inom en snar framtid, så har det visat sig att maskiner har en möjlighet att nå dit. Men först måste andra hinder bestigas. Little steps for little feet! (Kay 1980:13).
Den semantiska svårigheten vid maskinöversättning 13(15) 5HIHUHQVHU Ahrenberg, Lars & Merkel, Magnus. (1997) 6SUnNOLJDHIIHNWHUDY YHUVlWWQLQJVV\VWHP. I Svenskan i IT-samhället, O. Josephson (red). Uppsala. Hallgren & Fallgren Arnold, D., Balkan, L., Meijer, S., Humphreys, R.L., Sadler L., 1995. 0DFKLQH7UDQVODWLRQ $Q,QWURGXFWRU\*XLGH. http://clwww.essex.ac.uk/mtbook/html/book.html Hutchins, W.J., 2003. 0DFKLQHWUDQVODWLRQKDOIDFHQWXU\RIUHVHDUFKDQGXVH. http://ourworld.compuserve.com/homepages/wjhutchins/avila-2003.pdf Hutchins, W.J., 1997. )URP)LUVW&RQFHSWLRQWR)LUVW'HPRQVWUDWLRQWKH1DVFHQW<HDUVRI 0DFKLQH7UDQVODWLRQ$&KURQRORJ\Machine Translation vol. 12 195-252 Ingo, Rune. 1990. )UnQNlOOVSUnNWLOOPnOVSUnN±,QWURGXNWLRQL YHUVlWWQLQJVYHWHQVNDS. Studentlitteratur. Jurafsky, Daniel. & Martin, James. (2000). 6SHHFKDQGODQJXDJHSURFHVVLQJ, New Jersey: Prentice Hall inc. Kay, Martin. 7KH3URSHU3ODFHRI0HQDQG0DFKLQHVLQ/DQJXDJH7UDQVODWLRQXerox Report CSL-80-11, Palo Alto, California. 1980. (Även omtryckt i Machine Translation 12, 1997). Nida, Eugene. 3ULQFLSOHVRI&RUUHVSRQGHQFHI Venuti, Lawrence & Baker, Mona (eds.). The Translations Studies Reader. Routledge, 2000. Newmark, Peter. 1988. $7H[WERRNRI7UDQVODWLRQV. Prentice Hall. Russell, A. & Norvig, P., 2003. $UWLILFLDO,QWHOOLJHQFH±$0RGHUQ$SSURDFK. New Jersey: Pearson Education, Inc. Sigurd, B.0DVNLQ YHUVlWWQLQJ. Hämtat från Nationalencyklopedin: http://www.ne.se/jsp/search/article.jsp?i_art_id=252138&i_word=%f6vers%e4ttningssy stem&i_h_text=1 den 4 april 2007 Webb, L. (1998). $GYDQWDJHVDQG'LVDGYDQWDJHVRI7UDQVODWLRQ0HPRU\±$&RVW %HQHILW$QDO\VLV. http://www.webbsnet.com/translation/thesis.html