Korpusbaserad Maskinöversättning



Relevanta dokument
Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Maskinöversättning 2008

Maskinöversättning möjligheter och gränser

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Språkteknologi och Open Source

Cristina Eriksson oktober 2001

Statistisk Maskinöversättning eller:

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Skrivning i översättningsvetenskap (OP5)

Word-guide Introduktion

Kursplaneöversättaren. Lina Stadell

Framsida På framsidan finns:

Skriv! Hur du enkelt skriver din uppsats

Grafisk visualisering av en spårbarhetslösning

Lingvistik I Delmoment: Datorlingvistik

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN


LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Maskinöversättning. F Anna Sågvall Hein

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

HUMANISTISKA FAKULTETEN G 2016/492

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Visa vägen genom bedömning

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ATT ANVÄNDA SPRÅK FÖR ATT LÄRA SIG OCH ATT LÄRA SIG ANVÄNDA SPRÅK

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Pre-editering och maskinöversättning. Convertus AB

FOR BETTER UNDERSTANDING. Snabbguide.

En dansk version av detta dokument kan laddas ned här: people/hagerman/retningslinjer.pdf (pdf, 500 kb)

CS - Computer science. Datateknik Informationsbehandling Datalogi Datavetenskap (ÅA 2008)

Vi erövr ar verkligheten bit för bit genom att vi får ett språk för våra erfarenheter. Ett barns språkutveckling är ett fascinerande skådespel, en

Översättningsminnen laboration

KOMMUNIKATIVT LEDARSKAP

Statistisk maskinöversättning

Vanliga frågor för VoiceXpress

729G G20 ht 2016 Kursintroduktion, översättningsteori 1. Lars Ahrenberg

Teoretisk lingvistik och datalingvistik. Robin Cooper

Travel Phrase Guide. Instruktionshäfte

Lunds Tekniska Högskola Datorarkitektur med operativsystem EITF60. Superscalar vs VLIW. Cornelia Kloth IDA2. Inlämningsdatum:

Utbildningsplan för Masterprogram i översättning (Översättarutbildningen)

Publikationstyp Kapitel i bok, del av antologi

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

UTBILDNING & ARBETE Uppsatsskrivandets ABC

Översättningsuniversalier i svenska översatta texter

Vad är ett dokument? Gör så här

Lokalisering, terminologi och översättning. Magnus Merkel

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT Lars Larsson Algoritmer 1

Mälardalens högskola

SEMESTERTIDER. Olof Röhlander i samarbete med Johny Alm

Sharpdesk V3.3. Installationsguide Version

Ting och tanke annars ingen teknik

Här är två korta exempel på situationer då vi tillämpar den distributiva lagen:

Utbildningen i engelska har dessutom som syfte att vidga perspektiven på en växande engelsktalande omvärld med dess mångskiftande kulturer.

Utveckling av ett grafiskt användargränssnitt

Stina Nyman

PMM (Process Maturity Metrics) Allmänt. Mätetal för framgångsfaktorer. 1. CM konfigurationsstyrning

Lokalisering, terminologi och översättning

EasyConverter, version 4 Kom igång guide

Gymnasiearbete Datum. Uppsatsens rubrik. Ev. underrubrik. Ditt namn, klass Handledarens namn

Kursbeskrivning. Översättning inom näringsliv och förvaltning, 7,5 hp. Översättning kandidatkurs, GN, 30 hp (TTA450)

GENREPEDAGOGIK ARBETA MED SPRÅKET PARALLELLT MED DIN VANLIGA UNDERVISNING

tidskrift för politisk filosofi nr årgång 17

Språkteknologi (SV2122) Föreläsning 9: Översättning

Riktlinjer för sociala medier för Fagersta kommun

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

Lathund för SpellRight

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Föreläsning 3: Formalia: Hur skall uppsatsen se ut

Convertus - kursplaneöversättning

Dialogue Technologies April 2005

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock

Evaluation Summary - CDT104 Grundläggande Webbdesign HT07 Dan Levin

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Riktlinjer för bedömning av examensarbeten

MÖTESPLATS INFÖR FRAMTIDEN. Borås 8-9 oktober Helena Söderlund, Länsbiblioteket i Örebro län

PROGRAMMERING ÅK 9 INTRODUKTION

SVENSKA SOM ANDRASPRÅK

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek

En bioinformatisk genjakt

Using SharePoint Workflow

Om ämnet Engelska. Bakgrund och motiv

Handbok i konsten att köpa översättningar

Ramkursplan i teckenspråk som modersmål för hörande barn till döva och hörselskadade föräldrar (CODA)

Uppgift 1 Denna uppgift består av två steg där du i första steget ska skapa formatmallar som sedan används i steg två för att skapa ett dokument.

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581

AKADEMISK HEDERLIGHET HANDLAR OM ATT INTE FUSKA ELLER PLAGIERA INFORMATION OM PLAGIAT & UPPHOVSRÄTT

Win95/98 Nätverks Kompendium. av DRIFTGRUPPEN

Filmen Ny i Sverige. Om filmen. Om Arbetsförmedlingen

Lösningsförslag till tentamen i Språkteknologi 2D1418,

MATEMATIKENS SPRÅK. Avsnitt 1

EasyProducer Kom igång guide

MÖSG ht 2005 Maskinöversättningssystemet MATS

Sidpanelen och gadgetar De är nya. De är smarta. Lär dig hur du använder dem.

Tvåspråkighetssatsning Manillaskolan ~^

Transkript:

Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1

Innehållsförteckning 1. Inledning och syfte.s. 1 2. Bakgrund till maskinöversättning s. 2 3. Korpusbaserad maskinöversättning.s. 3 3.1 Textkorpus..s. 3 3.2 Parallellkorpus s. 4 4. The Linköping Translation Corpus..s. 5 4.1 Jämförelse av texter i en översättningskorpus.s. 6 5. Word Alignment Systems s. 9 6. The Linköping Word Aligner..s.10 6.1 Alignmentprocessen.s.12 7. Diskussion..s. 13 8. Referenser..s. 14 2

1. Inledning och syfte Jag har alltid varit fascinerad av språk och det faktum att människor med vitt skilda bakgrund och modersmål kan förstå varandra på ett eller annat sätt. Att kunna översätta ett språk till ett annat är otroligt viktigt, särskilt som vi lever i en värld som tycks krympa genom att vi lätt kan förflytta oss mellan världsdelar och eftersom det som händer på andra sidan jorden är viktigt även för oss. Det är inte bara i ett så stort perspektiv som konsten att kunna översätta ett språk är viktig, den konsten är viktig i alla sammanhang. Sverige är numera, liksom många andra länder, ett land i ständig förändring och med en multikulturell befolkning och det är viktigt för alla människor att få information om vad som händer i samhället. Även om man behärskar språket i det land man för tillfället befinner sig i, kan det vara en trygghet att ha möjlighet att få informationen presenterad även på sitt modersmål. Det är viktigt för alla som lever och verkar i ett samhälle oavsett var att man skall kunna få ta del av det samhällets har att säga, det är viktigt att varje människa har chansen att få veta vad som händer runt omkring henne. Med tanke på hur viktigt det är att kunna kommunicera med andra människor för att få veta hur saker och ting är, och för att skapa mer förståelse mellan människor, anser jag att forskningen om maskinell översättning mellan språk är viktig. Det är viktigt att översättning kan ske snabbt, då vi lever i en värld där saker och ting förändras förunderligt snabbt och det som sagt är viktigt för människor att få veta vad som händer omkring dem. Genom att göra den här fördjupningsuppgiften om korpusbaserad maskinöversättning vill jag ta reda på hur denna typ av översättning fungerar, och vad som gör den bättre än den traditionella maskinöversättningsforskningen. Den här typen av översättning, då man använder redan existerande översättningar är spännande, inte minst för att man här på Linköpings universitet håller på med just denna typ av forskningsprojekt. Jag kommer i den här rapporten att presentera två olika projekt från Linköpings Universitet. Dessa är The Linköping Translation Corpus och The Linköping Word Aligner. För att få en inblick i forskningen om maskinöversättning kommer jag till en början att kort beskriva maskinöversättningens historia för att sedan gå in på de olika projekten och vad de handlar om. 1

2. Bakgrund till maskinöversättning I Arons Machine Translation an introductory guide 1 återfinns följande beskrivning av maskinöversättning (MT) så här the attempt to automate all, or part of the process of translating from one human language to another. 2 Aron skriver vidare att MT är ett viktigt forskningsområde eftersom översättning av mänskliga språk spelar stor roll för hur vi ska kunna förstå varandra i ett mångkulturellt samhälle. Enligt Aron är det viktigt att kunna översätta från ett språk till ett annat ur politiska, sociala, kommersiella, vetenskapliga och filosofiska synvinklar. Översättning är viktigt för att vi ska kunna samarbeta över gränser och för att alla ska kunna ta del av vad som händer ute i världen, för hur det än är så behärskar vi alltid vårt modersmål bäst. Vad gäller den sociala och politiska aspekten av vikten av översättning, så är det särskilt viktigt i länder/samhällen där det finns mer än ett språk och detta gäller, tror jag, numera i de flesta länder. För alla dessa tillfällen då översättning är önskvärt i dagens samhälle, finns det alltför få mänskliga översättare. Detta gör att MT blir viktigt att utveckla så att vi får ett väl fungerande komplement till de mänskliga översättare som finns. Det är inte bara bristen på översättare som är ett problem för översättningsbranschen. Ett annat problem är att mänsklig översättning tar lång tid och kostar mycket pengar. En översättare i sig är dyr att anlita och jobbet går oftast inte att lösa alldeles snabbt. Om det till exempel har utvecklats en ny produkt av något slag som ska lanseras i ett land där man behöver översätta en instruktionsbok kan det bli förödande dyrt för företaget i fråga, ifall översättningen blir försenad. Förseningar inträffar lätt om man måste förlita sig på en enda mänsklig översättare. 3 Till alla de som inte tror på MT, och som tänker att i fall man kan utveckla och förbättra MT så kommer den automatiserade översättningen ta över och göra alla översättare arbetslösa, säger Aron att detta aldrig kommer att hända. Anledningen är att materialet som behöver översättas verkar komma från en aldrig sinande källa och det bara vore bra om översättarna kunde få hjälp med de mest tidsödande uppgifterna, som till exempel att slå upp ord i en ordbok. När översättaren får hjälp med detta kommer han istället ha tid till att förbättra och 1 Aron Machine Translation- an introductory guide. (web-upplaga) 2 Aron, s.1 3 Aron, s. 5 2

klargöra det han vill förmedla med sin översatta text och dessutom kunna översätta fler och viktigare texter. Från maskinöversättningens födelse, runt andra världskrigets slut 4 hade man förhoppningen att man med hjälp av det man vet i ett standardlexikon över två språk kunna översätta texter från det ena språket till det andra. Det man trodde vid den här tidpunkten var att en översättning skulle vara bra nog vid översättning ord för ord. Det har visat sig att det inte var så lätt att lyckas med denna uppgift. Enligt Aron är det av stor vikt att ha goda kunskaper om såväl källspråkets som målspråkets vokabulär för att lyckas göra en bra översättning lika viktigt är det att ha kunskap om språkets grammatik. 5 Efter flera bakslag för MT, då man hade insett svårigheterna och förstått att den första förhoppningen gällande MT var för naiv, var det stiltje i forskningen ett tag, fram till 70-talet då maskinöversättningen kom in i sin renässans. Utvecklingen från den första MT har resulterat i flera olika system och försök till en perfekt översättning. Maskinöversättningsforskningen har delat upp sig och det är i USA och Japan som man håller på med den traditionella MT: n, medan man i Europa arbetar mer med Translator Workstations. Translator Workstations är översättningsmiljöer som innehåller komponenter som kan höja produktiviteten på översättare, till exempel översättningsminne. 6 3. Korpusbaserad maskinöversättning 3.1 Textkorpus Enligt Bonniers Svenska Ordbok förklaras ordet korpus med en textmängd som man går igenom som grundval för en ordbok. 7 En korpus kan enligt Merkel delas in i olika typer, beroende på vad för sorts texter de innehåller. 8 Korpusar kan bestå av texter från ett speciellt område, eller vara texter i allmänhet. Vidare kan det vara både talad och skriven text och texterna kan vara enspråkiga, tvåspråkiga eller flerspråkiga. I en artikel av Ahrenberg et. al står det att läsa att det är generellt sant för en korpus, att ju mer information den blir matad 4 Aron, s.13 5 Ibid, s.10 6 Merkel, Magnus Understanding and enhancing translation by parallel text processing, s.27 7 Malmström, Györki, Sjögren Bonniers svenska ordbok. s.290 8 Merkel, s. 8 3

med, desto mer kunskap finns att få ut från den. Författarna menar att detta måste vara sant även för parallella korpusar. 9 Ända sedan 1960-talet har man inom lingvistiken arbetat med korpusar. Från början använde man benämningen för skapandet av en kropp med autentiskt språkdata. 10 Numera är korpuslingvistik mer förknippat med språkmaterial i elektroniskt format och alla de olika sätt på vilka man kan analysera och använda sådana data. 3.2 Parallellkorpus Både enspråkiga och flerspråkiga korpus kan delas upp i parallella och ickeparallella korpus. Den vanligaste korpusen är den som innehåller en eller flera texter, från ett och samma språk. Merkel skriver om att det finns parallella korpusar även inom ett språk, och att dessa används till att jämföra till exempel dialektala skillnader eller skillnader mellan talat och skrivet språk. 11 Även flerspråkiga korpusar kan vara av både parallellt och ickeparallellt slag. Ickeparallella flerspråkiga korpusar kan användas i jämförelsestudier, men i stället för att jämföra en text med sin översättning till ett annat språk kan studien handla om att jämföra en och samma text på två olika språk eller så kan man studera två olika översättningar av en och samma text. Om korpusen är parallell består den av en källtext och dess motsvarande måltext (alltså dess översättning), som faktiskt skulle kunna vara fler än en text. Vad gäller arbete med parallella korpusar, handlar detta främst om tvåspråkiga texter, men det verkar, menar Merkel, som att det i framtiden kommer att behövas även flerspråkiga parallella korpusar. 12 Men han anser att så länge uppgiften med korpusarna är att studera översättning, måste man betrakta flerspråkiga parallella texter som en serie tvåspråkiga parallella korpusar som delar på samma originaltext. Merkel menar att det idag är vanligast med enspråkiga korpusar men att utvecklingen går mot fler och fler tvåspråkiga och flerspråkiga korpusar. De flesta texter i en parallellkorpus är länkade till varandra på meningsnivå. 9 Ahrenberg, Andersson, Merkel., A system for Incremental and Interactive Word Linking, s.1 10 Merkel, s.7 11 Ibid, s.8 12 Ibid, s.9 4

Tex t k orpus Enspråk ig Flerspråk ig Parallel l Ic k eparallell Parallell Ic k eparallell Fig1 Olika typer av korpusar 4. The Linköping Translation Corpus (LTC) LTC består av engelska källtexter översatta till svenska. Texterna som översätts kommer i huvudsak från två olika typer av texter, användarguider till datorprogram och skönlitteratur. Det finns även en dialogtext i korpusen som är maskinöversatt, och som finns där för att man ska kunna jämföra de olika översättningssätten. Det finns sammanlagt åtta texter i korpusen, varav fyra är översatta av människor, tre med hjälp av översättningsverktyg, i första hand översättningsminne och en, som sagt tidigare, med fullkomligt automatiserad översättning. Tabell1. En översikt över LTC Texttyp Originalspråk Målspråk Titel Översättningsmetod Användarguide engelska svenska Microsoft Access Mänsklig trad. Användarguide engelska svenska Microsoft Exel Mänsklig trad. Användarguide engelska svenska IBM OS2 Översättningsminne Användarguide engelska svenska IBM InfoWin Översättningsminne Användarguide engelska svenska IBM Client Access Översättningsminne Roman engelska svenska Gordimer: A guest.. Mänsklig trad. Roman engelska svenska Bellow: To Jerusa Mänsklig trad. Dialog text engelska svenska ATIS dialouges Automatisk (MT) Texterna som är länkade till varandra innehåller också information om hur meningarna mappar varandra. Med mapping menar man, hur antalet meningar av en text överensstämmer med antalet meningar i den översatta texten. Mapping återkommer vi till senare i rapporten. 5

Meningen med en översättningskorpus är antingen att man ska kunna ta fram det som är karaktäristiskt för översättningen i sin helhet, eller om man kan avgöra ifall översättningen är orienterad mot sitt källspråk eller mot målspråket. Översättningskorpusen kan användas för att träna statistiska modeller för maskinöversättning, eller för att hitta ordassociationer. De befintliga översättningar som finns i översättningskorpusen används för att hitta mönster och konstruktioner som kan utgöra en bas vid skapandet av grammatik och komponenter i maskinöversättningsapplikationer. 13 4.1 Jämförelse av texter i en översättningskorpus Med enkla verktyg och genom att analysera generella data från korpusen, det vill säga originaltexten och dess översättning, kan man göra observationer om korpusen. Men för att kunna göra mer exakta och detaljerade observationer måste texterna vara parallella och ha blivit alignade. 14 Detta kommer rapporten att ta upp senare, till en början tittar vi på vad man kan göra med de data man direkt får ut ur korpusen. Det visade sig att de romaner som finns med i korpusen, var de texter som innehöll längst meningar och flest olika ord. Romanerna hade inte ofta samma meningar förekommande mer än en gång, vilket var vanligt i flera av de andra texterna. Man kan utan att ändra något inuti korpusen sätta upp kriterier för att kunna jämföra varje text med sin översättning. Den maskinöversatta texten i korpusen skiljer sig från de andra då den är mycket kortare och inte är uppbyggd på samma sätt som de andra, och därför inte är riktigt jämförbar med resten av texterna. Det går alltså till så att korpusens texter först analyseras oberoende av varandra och därefter kan man jämföra dem för att se hur väl en översättning överensstämmer med sin källa. Arbetet med dessa analyser är av vikt för maskinöversättningssystem, och framtagning av översättningsstöd liksom översättningsminnen och flerspråkiga lexikon. 15 13 Merkel, s.8 14 Ibid, s.70 15 VINNOVA hemsida Korpusbaserad maskinöversättning, s.1 6

Vid jämförelsen mellan en text och dess översättning kunde man se samma mönster i hur texterna var uppbyggda. Korpusen visade att den översatta texten i det stora hela följde sin källtext i fråga om meningslängd, ordmängd med mera. Tabell2. Generell data över originaltexter 16 Access Exel OS2 InfoWin Client Gord Bellow ATIS ORD 179631 141381 127499 69428 21321 197078 66760 2179 MENINGAR 14829 12610 12242 7834 2427 12310 4215 263 UPPREPNINGAR 5361 3807 3333 4116 904 184 4 0 UPPREPNINGAR I % 14,70% 13,62% 13,93% 31,10% 17,55% 0,18% 0,01% 0,00% Tabell3. Generell data över översättningarna 17 Access Exel OS2 InfoWin Client Gord Bellow ATIS ORD 157302 127436 99853 53619 16752 210350 65268 2048 MENINGAR 15079 13020 11943 7735 2457 13427 4285 263 UPPREPNINGAR 5040 3853 3066 4351 933 291 8 0 UPPREPNINGAR I % 11,37% 13,06% 9,84% 39,26% 18,70% 0,31% 0,02% 0,00% Även om siffrorna i tabell 2 och 3 skiljer sig åt, kan man ändå urskilja ett mönster och se att textsammansättningen i originalform och i översatt form liknar varandra. De två romanerna, (Gord och Bellow) har både i original och i översättningen det högsta antalet ord och likaså de meningar med flest antal ord i. Romanerna har dock inte någon hög frekvens av återkommande meningar, vilket stämmer väl överens med hur en roman brukar vara uppbyggd. Jag anser att det inte är något som en romanförfattare borde eftersträva i sitt skrivande och det är inte heller så vanligt att man läser en roman full med upprepningar. Annat man ser i tabellen är att de olika tekniska användarmanualerna är lika i hänseende till antal ord och meningslängd Om man ser till tabellen nedan, finns det bara en enda text som har fler ord på svenska jämfört mot engelska, som är texternas originalspråk, och det är romanen av Gord. Merkel skriver att det kan antas att de svenska översättningarna skall ha färre ord, med tanke på att svenskan har fler sammansatta ord än engelskan, och likaså att den bestämda artikeln the och det engelska verbet do ofta inte har någon motsvarighet i svenskan. 18 Kanske skulle det kunna vara så att just texter av fiktionstyp kan innehålla fler ord i en översättning, men eftersom den andra romanen liksom resten av texterna innehåller färre ord kan man inte dra en slutsats om detta, 16 Merkel, Comparing source and target texts in a translation corpus, s.2 17 Ibid, s.2 18 Ibid, s.2 7

skriver Merkel vidare. En orsak till varför det blir fler ord i en översättning av en roman när det vid andra översättningar blir färre ord, skulle enligt Merkel kunna vara att mer information kan antas bevaras (alternativt läggas till) i fiktionsöversättningar gentemot till exempel manualöversättningar. 19 Tabell4. Förhållande mellan originaltextens och den översatta textens antal meningar, ord och upprepningar Access Exel OS2 InfoWin Client Gord Bellow ATIS MENINGAR 0,98 0,97 1,02 1,01 0,99 0,92 0,98 1 ORD 1,14 1,11 1,28 1,29 1,27 0,94 1,02 1,06 UPPREPNINGAR 1,29 1,04 1,09 0,79 0,94 0,58 0,5 N/A Gällande återkommande meningar i en text hade man två hypoteser innan man började jämföra data ur LTC. Hypoteserna var (a) texter översatta med translation memories kommer att ha minst lika många upprepande meningar i översättningen som i originaltexten och (b) översättare som inte använder sig av translation memories eller andra datorverktyg kommer att svårare för att känna igen upprepningar i originaltexten. Om värdet på upprepningar i Tabell 3 är exakt 1 innebär det att originaltexten och dess översättning innehåller precis lika många upprepade meningar. Är värdet högre än 1 har originaltexten ett högre antal upprepade meningar och är värdet mindre än 1 gäller alltså det motsatta. 20 I tabellen ovan ser vi att InfoWin och Client har värden under 1, vilket alltså innebär att översättningen av dessa texter innehåller fler upprepade meningar än originaltexten. Detta stämmer överens med den första hypotesen, eftersom InfoWin och Client dessutom är texter som är översatta med hjälp av translation memories. De två Microsofttexternas (Access och Exel) resultat stämmer överens med den andra hypotesen och har alltså färre upprepningar i de översatta texterna jämfört med originaltexterna. Det finns en text i korpusen (OS 2) som inte passar in i mönstret, då den har ett högre antal upprepningsmeningar i originaltexten trots att den är översatt med hjälp av translation memories. 21 Som sagt tidigare, finns det en slags verktygslåda för översättningsanalys. De verktyg som finns är implementerade i en grafisk och användarvänlig miljö med namnet DAVE 19 Merkel,Understanding and enhancing translation by parallel text processing, s. 68 20 Merkel, Comparing source and target texts in a translation corpus, s.2 21 Merkel, Comparing source and target texts in a translation corpus, s.2 8

(Diagnosis, Alignment and Verification for the Editor). 22 De olika verktygen används till ett flertal olika saker, till exempel kan de skapa parallella texter, de kan diagnosticera originaltexter och dessa texters översättningar och de kan utvärdera översättningar. Det finns två syften med verktygen, varav det ena är att de kan hjälpa översättare att göra översättningarna mer effektiva och det andra att de kan hjälpa till med att skapa parallella texter. Dessa verktyg var med om att skapa och analysera Linköping Translation Corpus. 5. Word alignment system De automatiska word alignment systems som finns idag är än så länge inte så pass bra att de kan ge fullkomliga alignments. Men eftersom processen att göra samma sak manuellt tar lång tid och därmed också är kostsam, så vore det bra om man kunde samköra människans och datorns färdigheter i detta ämne. Med människans kunskaper skulle man få den exakthet som önskas och med datorns hjälp skulle processen gå snabbare. Ahrenberg et. al anser att ett samarbete mellan människa och datorer i den här uppgiften talar för att man borde ha ett interaktivt system, som direkt kan lära sig av användaren och att den automatiska alignern därmed skulle kunna utvecklas under arbetets gång. 23 Ett word alignment system strävar efter att beskriva hur ord och sammansättningar av ord i originaltexten är relaterade till ord och sammansättningar av ord i den översatta texten. Systemet söker hitta så många motsvarigheter som möjligt till de olika textenheter den har att jobba med. När enheterna har länkats till varandra kan ett lexikon, som är tvåspråkigt, genereras. Det lexikon man får blir specifikt för översättningen och kan senare användas som grund för ett liknande översättningsproblem. Enligt Ahrenberg et. al är de flesta word alignment systems som för närvarande finns automatiska, och de arbetar med parallella korpusar för att generera likheter mellan ordtyper. Word alignment som görs manuellt, har mest använts för att skapa gold standards (referensdata) i utvärderingssyfte. 24 22 Merkel, s.71 23 Ahrenberg, Andersson, Merkel, A System for Incremental and Interactive Word Linking, s.1 24 Ibid, s. 1 9

En fullständigt länkad översättningskorpus skulle vara önskvärd vid maskinöversättning eftersom en sådan skulle utgöra en väldigt bra grund för generering både av statistisk och av lingvistisk data. Överhuvudtaget skulle fullständig word alignment vara bra, eftersom det i flera av översättningsforskningens områden skulle bringa fram bättre resultat. 25 Ahrenberg et. al skriver att det är önskvärt med fullkomlig word alignment, men att det inte är lätt att uppnå. Det är så att även en människa som är expert inom området har svårt att avgöra vad som står i relation till vad i två motsvarande texter. Av denna anledning är det viktigt att systemet får detaljerade riktlinjer. Enligt Merkel kan man se word alignment systems som ett slags verktyg som plockar ut data ur en bitext (det vill säga en text och dess länkade översättning). 26 Ett sådant här system kan tjäna två syften. Det ena, som är det än så länge dominerande, är att ta fram lexikala data för ett tvåspråkigt lexikon. Det andra syftet är att det kan hålla med data i form av fullständiga länkade texter till maskinöversättning och översättningsstudier. 6. The Linköping Word Aligner (LWA) LWA är en automatisk word aligner som har funnits sedan 1997 27. Systemet är knowledgelite, vilket innebär att det inte måste få kunskap från källor som lexikon och grammatik, utan kan lära sig från olika håll. Skillnaden mot ett knowledge-intensive inriktning på ett system är att varje ny input i ett sådant fall måste föregås av en stor mängd lingvistisk information. Merkel menar att i språk där de lingvistiska källorna kommer till korta kan ett knowledge-lite tillvägagångssätt vara den enda möjliga lösningen. 28 Systemet får indata i form av en bitext (originaltexten och dess översättning länkade på meningsnivå) och denna text är uppdelad i mindre delar. Uppgiften för LWA är att kunna länka ihop orden i de båda texterna och utifrån länkarna skapa ett översättningslexikon. Systemet kan ge output i två olika former, antingen som ett översättningslexikon eller som en alignment av en hel text. Exempel på hur utdata kan se ut följer nedan i två figurer. 25 Ahrenberg et. al s.2 26 Merkel, s. 113 27 Ahrenberg et. al s. 2 28 Merkel, s.162 10

Fig2. Output från LWA, alignment av hel text 29 SOURCE: this CHAPTER TELLS YOU HOW TO SET UP MICROSOFT ACCESS ON A STAND- ALONE COMPUTER OR ON A NETWORK WORKSTATION TARGET: I detta KAPITEL BESKRIVS HUR DU INSTALLERAR MICROSOFT ACCESS PÅ EN FRISTÅENDE DATOR ELLER PÅ EN DATOR i ett NÄTVERK chapter=> kapitel (2=>3) tells=> beskrivs (3=>4) you=> du (4=>6) how=> hur (5=>5) to=> i (6=>1) set up=> installerar (8=>7) Microsoft access=> Microsoft access (10=>8) on=> på (11=>10) a=> en (12=>11) stand-alone=> fristående (13=>12) computer=> dator (14=>13) or=> eller (15=>14) on=> på (16=>15) a=> en (17=>16) network=> nätverk (18=>20) workstation=> dator (19=>17) De länkade orden i Fig2 är de som är skrivna med versaler. Siffrorna inom parentes visar förhållandet mellan ordens placering i den engelska respektive den svenska texten. Det engelska ordet chapter, som är det andra ordet i den engelska meningen motsvaras av ordet kapitel som är placerat som ord nummer tre i den svenska översättningen av texten. Fig3. Output från LWA tvåspråkigt lexikon 30 29 Fig2 hämtad från Merkel, s. 123 30 Fig3 hämtad från Merkel, s. 123 11

Source item / / foreign minister foreign policy foreigners foreman foremost forestall forget form / / Target item(s) utrikesministern, utrikesminister, utrikespolitik, utlänningar, ordförande, främsta, främst, fransmännens, glömma, glömmer, form, formen, utgör, gestalt I Fig3 visas hur utdata i form av ett tvåspråkigt lexikon kan se ut. Det händer i vissa fall att ord i källtexten länkas till fler än ett ord i måltexten, som i fallet foreign minister. Algoritmen bakom LWA är iterativ, den upprepar samma process till dess att det inte längre finns något översättningspar kvar att generera eller när den har gått igenom ett i förväg givet antal iterationer. Processen består av att generera översättningspar från texten och reducera texten genom att plocka bort de par som hittats innan nästa körning. Förutom den lingvistiska information som finns i de kommenterade käll- och måltexterna, använder sig systemet av två olika uppsättningar källor för sin process. Dessa källor består av statiska och dynamiska data. Den statiska källan innefattar till exempel fördefinierade lexikon, medan det dynamiska datakällan byggs upp under länkningsprocessens gång. 6.1 Alignmentprocessen I det fall då det finns en användare som kan ändra i systemet, så att det senare kan lära sig saker under processens gång fungerar på följande sätt. (1) Den parallella korpusen blir automatiskt alignad på ord- och frasnivå. (2) Användaren väljer ett antal meningspar av de som redan har blivit automatiskt alignade. (3) Användaren ändrar och rättar det som han anser vara fel och lägger till länkar om han anser att sådana saknas någonstans. När användaren anser att allt är rätt, sparar han den nya versionen. (4) Den dynamiska källan av data ses över och uppdateringar kan göras. (5) Den automatiska länkningsprocessen återupptas och körs på de återstående meningarna. LWA har tillgång till den dynamiska datakällan som har blivit uppdaterad och förbättrad. 12

(6) En ny mängd av meningspar väljs ut och processen körs åter från steg 3. 31 Tack vare att den dynamiska källan växer förbättras systemet i sin automatiska fas, och den person som interagerar med systemet behöver utföra mindre och mindre arbete. 7. Sammanfattning och reflektioner Den här rapporten syftade till att presentera korpusbaserad översättning genom att beskriva två olika projekt, The Linköping Translation Corpus och The Linköping Word Aligner. En korpus består av en eller flera texter, vilka kan vara parallella eller ickeparallella. The Linköping Translation Corpus är en parallell korpus som består av engelska källtexter översatta till svenska. Parallella översättningskorpusar verkar bidra till att utvecklingen för maskinöversättning går framåt. Den största skillnaden mot traditionell maskinöversättning är att korpusen ser till så mycket mer än bara översättning ord för ord. Med hjälp av en översättningskorpus kan man komma fram till mönster för en specifik översättning som sedan kan användas för liknande uppgifter. Man kan med enkla medel göra observationer gällande texterna i korpusen, men för att kunna göra mer detaljerade analyser måste de båda parallella texterna ha blivit länkade till varandra, alignade. För att kunna göra en sådan analys lät man texterna bli länkade av The Linköping Word Aligner. Ur LWA kan man få två olika typer av utdata, antingen som ett tvåspråkigt lexikon eller som en länkning av en hel text. LWA bidrar till en mer exakt analys av korpusen som därmed kan bli bättre för kommande översättningar. LWA är ett system som själv lär sig under tiden som den arbetar och kombinationen mellan människa och dator som jobbar tillsammans tror jag bäddar för den bästa möjliga lösningen för maskinöversättning. 8. Referenser INTERNET 31 Ahrenberg et. al s. 3 13

Ahrenberg, L, Andersson, M, Merkel, M, A System for Incremental and Interactive Word Linking. http://www.ida.liu.se/~magme/publications/ahrenberg-lrec-2002-new.pdf (021003) Arnold D. J., L. Balkan, R. Lee Humphreys, S. Meijer & L. Sadler. Machine Translation: an Introductory Guide. http://www.essex.ac.uk/linguistics/clmt/mtbook (020926) EAMT, The European Association for Machine Translation. What is Machine Translation?. http://www.lim.nl/eamt/mt.html (020926) Merkel, M, Comparing source and target texts in a translation corpus http://www.ida.liu.se/~magme/publications/merkel-comparing.pdf (021004) VINNOVA hemsida http://www.ida.liu.se/~nlplab/koma/projbeskr.shtml (021003) LITTERATUR Györki, Sjögren Bonniers svenska ordbok, 6: e upplagan, (Stockholm, 1994) Merkel, M, Understanding and enhancing translation by parallel text processing, (Linköping 1999) 14