Cristina Eriksson oktober 2001

Relevanta dokument
Språkteknologi. Språkteknologi

Grundläggande textanalys. Joakim Nivre

Grammatisk teori III Praktisk analys

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Convertus - kursplaneöversättning

ANDREAS ISSA SVENSKA SPRÅKET

Statistisk Maskinöversättning eller:

Ordklasser och satsdelar

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Maskinöversättning möjligheter och gränser

Språktypologi och språksläktskap

Gränssnitt för FakeGranska. Lars Mattsson

Inlämningsuppgift: Pronomenidentifierare

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Kursplaneöversättaren. Lina Stadell

Pre-editering och maskinöversättning. Convertus AB

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Språkteknologi för ökad tillgänglighet vilka möjligheter finns?

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

Språkteknologi inom amerikanska försvaret

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Dependensregler - Lathund

Förord KERSTIN BALLARDINI

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Vägar till bättre översättningsprogram

Automatisk översättning

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

Statistisk maskinöversättning

Word- sense disambiguation

Grammatiska metaforer i engelskan och hur de översätts till svenska. Lene Nordrum Engelska institutionen Göteborgs universitet

Datorlingvistisk grammatik

Tekniker för storskalig parsning

Använda Internet. med hjälp av Internet Explorer. Nybörjarguide

Svenska i fokus 1. Provlektion: Tidsordet/objektet i fundamentet. Sidorna plus facit ur Svenska i fokus 1.

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

När kan man lita på maskinöversättning?

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Maskinöversättning idag

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Använda Convertus Kursplaneöversättaren

Lär dig Sindarin Interaktiv lektioner

Välkommen att träna skriva!

Labbrapport LEGO-robot linefollower

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954


Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

Satsdelar Subjekt, predikat och objekt

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Några skillnader mellan svenska och engelska

Tvåspråkighetssatsning Manillaskolan ~^

Grundläggande syntaktiska funktioner och roller

Engelska. Inför provet v. 48. Grammatik. Substantiv uncountables s.124. När man översätter meningar där orden ingår ska man använda följande ord:

Språkteknologi och Open Source

Studiebrev 5. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Arbetsuppgift Skrivning och Grammatik v. 4

Kursbeskrivning. Översättning inom näringsliv och förvaltning, 7,5 hp. Översättning kandidatkurs, GN, 30 hp (TTA450)

WorldPenScan X med mobila enheter

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Öjersjö Storegård, Partille Kommun, vt-07

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Neurolingvistik - Grammatik

Saras bästa studietips

Mål och betygskriterier i Engelska

Maskinöversättning 2008

Grafisk visualisering av en spårbarhetslösning

Textsammanfattning. En uppsats i kursen Språkteknologi, 2D1418. höstterminen Carolin Jonsson. kursledare: Hercules Dalianis

onsdag den 21 november 2012 PRONOMEN

Valet är ditt ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN

1 Vilka ord är substantiv? Läs texten.

Elevers användning av maskinöversättning vid skrivande på främmande språk.

DET FEMTE STEGET. 5.1 Vid Kap Sunion. Detta är havet, ungdomskällan, Venus vagga och Sapfos grav. Spegelblankare såg du sällan Medelhavet, havens hav.

DAB760: Språk och logik

31 tips som gör din text lättare att förstå

Ku soo dhawaada Jaamacadda Göteborg!

Modellsvar för morfologi/syntax och semantik för tenta i lingvistik

Ordbok arabiska - svenska. Denna ordboks webbadress är:

ORDKLASSERNA I. Ett sätt att sortera våra ord

KTH STH TENTAMEN. HI1024:TEN2 - Praktisk tentamen Tid: 8-13, den 18 februari 2012

Word-guide Introduktion

Tid Lokalerna finns i Time Edit. ti 23 jan KMB CL LA. ons 24 jan Läsa:

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Grammatiska strukturer förändras över tid, men finns det någon ordning i förändringsprocessen? Hur var det? Hur är det? Hur blir det?

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk

Lgr 11 - Centralt innehåll och förmågor som tränas:

Studiehandledning för nybörjare

Några skillnader mellan svenska och engelska

Omtenta Svenska - ett andraspråk S S2GA01/04. ht 2014/vt 2015 fredag den 13 mars Inga hjälpmedel! VG G U 0-84

Fredrik Harstad. lärare i svenska, svenska som andraspråk och historia. ABF Vuxenutbildning sedan läroböcker, nationella prov, kursplaner

Vi speakar Svengelska

SVENSKA Inplaceringstest A

Första lektionen Dars e avval

Grammatik skillnader mellan svenska och engelska

Det kanske inte är en fråga om tycke och smak; semi kolon kanske handlar om mod.

Transkript:

Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1

Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner stora resurser på. Det finns flera olika angreppsmetoder för att få en bra översättning. Flera metoder används parrallelt och tre stora angreppssätt är syntaktisk översättning, semantisk översättning och direkt översättning. Dessa elaborerar jag över med några enkla exempel. Både inom det civila och militära så finns det stora besparingar att göra om man kan snabba upp översättningsprocessen. Bara inom EU ska alla skrivna dokument översättas till medlemsländernas språk och inom det militära kan vi bara gissa oss till vilka oerhörda resursbesparingar en snabb och effektiv maskinöversättning skulle ge. Innehåll 1 Inledning 3 2 Maskinöversättning 3 2.1 Syntaktisk översättning...................... 4 2.2 Semantisk översättning...................... 5 2.3 Direkt översättning........................ 6 3 Slutledning 7 2

1 Inledning Som en del av kursen Språkteknologi, 2D1418, som ges under period 1 hösten 2001 av Institutionen för Numerisk Analys och Datalogi vid KTH, ska det lämnas in en kortare uppsats som behandlar ett ämne inom språkteknologin. Jag har valt att skriva om maskinöversättning, ett ämne som jag tycker verkar mycket intressant. Maskinöversättning är dock ett stort område där utvecklingen går framåt, så jag har valt att inrikta denna uppsats mot några olika sätt att angripa översättningsproblematiken. 2 Maskinöversättning Att översätta en text från ett språk till ett annat med hjälp av datorkraft har varit en önskedröm sedan datorernas barndom. Man ville finna interlinguatet, länken mellan alla språk. Om man skulle hitta denna fulländade språkoberoende kunskapsrepresentationen så kunde man med hjälp av en knapptryckning kunna översätta alla dokument från ett språk till ett annat. Såsom mycket annat så började maskinöversättningsutvecklingen inom det militära och kalla krigets dagar. Båda sidor ville ha fullständig kontroll på vad den andra gjorde. Man gjorde då en råöversättning som tittades igenom för att bestämma om man skulle kosta på dokumentet en riktig översättning. Mycket arbete har lagts ner på att utveckla program som kan översätta texter från ett språk till ett annat, men fortfarande används enkla råöversättare då man bara vill ha en idé om vad som står i dokumentet. Vill man däremot ha en bättre översättning så måste det till andra metoder då språken är uppbyggda på olika sätt. Olika språk har inte samma struktur, vissa sätter subjektet före predikatet andra gör tvärtom. Tar man dessutom hänsyn till verbet placering så fins det många olika möjligheter för ett språks utseende. Tempus uttrycks också på flera olika sätt. Ett ord vars betydelse beror på omgivande ord kan i ett annat språk ha ett specifikt ord för varje betydelse. 3

Det finns tre övergripande sätt att angripa maskinöversättningen. Ett sätt är att man kan utgå från det syntaktiska trädet som en mening bildar. Ett annat är att anta att det existerar en interlingua och ett tredje är att direktöversätta meningar. Dessa tre angreppsmetoder är vad jag ska försöka elaborera över här. 2.1 Syntaktisk översättning För att översätta sin mening enligt detta sätt så parsar man först meningen så att man får ett parsträd i det språk som man ska översätta från. Sedan tar man bort de ord som är språkspecifika och inte för handlingen framåt. Nu har man en grundmening i ett träd som man kan ändra i trädet så att det passar det nya språket och som man då översätter rakt av. Nu återstår bara att få rätt form på meningen och sätta dit språkspecifika ord. Nedan visar jag ett exempel där man översätter från engelska till japanska i [3] sid 808. Grundmeningen är: There was an old man gardening. Efter att ha parsat meningen så är den upp delad i följande delar: there was an old man gardening Ordet there har ingen motsvarighet i japanskan så det plockar vi bort, och vi ändrar strukturen på meningen till att bli, an old man, who was gardening, was: ((an old man gardening) was) Japanskan vänder på subjektet och predikatet så det vänder vi på nu: ((gardening an old man) was) Nu gör vi överstättningnen till japanskan, varje syntaktisk del för sig: ((niwa no teire o suru ojiisan) ita) 4

Denna mening går att förstå, men för att den ska vara korrekt så måste vi göra ett par saker till med den. Först så ska vi lägga till ordet ga som behövs i japanskan för att markera subjektet. Sedan ska vi välja rätt verb för subjektet så det blir flytande i språket. Sist så ska vi böja på verben till rätt form. När vi sedan skriver ut det på en mening blir det som följer: niwa no teire o shite ita ojiisan ga ita garden GEN upkeep OBJ do PAST-PROG old man SUBJ was 2.2 Semantisk översättning Semantisk översättning kan också kallas för betydelsebaserad översättning. Den grundläggande tanken är att det finns ett grundläggande interlingua, ett någonting som har betydelse representationen för alla språk. Detta interlingua är helt språkoberoende. Man bygger upp en interlinguansk representation som kan se ut som så här om man använder samma mening som i förra avsnittet, there was an old man gardening. Händelse Gardening Man Agent Number Sg Definiteness Indef Aspekt Form Progressive Past Denna representation säger mycket om vad som sker men inte allt. Tar vi det engelska ordet man så finns det många sätt att översätta det till japanska beroende på de orden runt i kring. Vi har här tappat att det handlade om en gammal man. Man kan då gå ett steg längre och representera om orden så att representationen inte bara bygger på orden i meningen utan man kan översätta dricka till inta, vätska, via munnen vilket är lättare att att ha som universell händelse. 5

Flera av de interlingua som finns idag är mellan två olika språk och då kan det fungera. Men ska man översätta mellan flera språk så kan det vara som i japanskan där det finns speciella ord för äldre bror och yngre bror, medan i svenskan och engelskan så är det två ord. För att översätta mellan engelskan och japanskan så behövs det en liten annorlunda interlingua än det som ska användas till att översätta mellan engelskan och svenskan. 2.3 Direkt översättning Direkt översättning är ungefär vad det låter som. Man översätter direkt fast i flera steg, där varje steg fokuserar på ett speciellt problem. Systemen är ofta byggda med ett språkpar i sinne och åt vilket håll som översättningen ska gå åt. I det exempel som jag visar ur [3] sidan 816 översätter vi en mening från japanska till engelska. Mening som ska översättas: watashihatsukuenouenopenwojonniageta 1. I japanskan använder man inte mellanslag för att visa var ord börjar och slutar. Men vi börjar med en morfoligogisk analys som ger oss följande mening. watashi ha tsukue no ue no pen wo jon ni ageru PAST 2. Vi letar upp de viktigaste orden och översätter dem till engelska: I ha desk no ue no pen wo John ni give PAST 3. Vi tittar på prepositionerna. Orden som blir on ändrar samtidigt på ordföljden för desk och pen. I engelskan så ger man saker till någon: I ha pen on desk wo John to give PAST 6

4. Vi flyttar om ordföljden så att den passar in i SVO och tar bort japanskaartikelord som ej går att översätta.: I give PAST pen on desk John to 5. Sätter in de engelska artiklarna och ändrar ordningen på to och John. I give PAST the pen on the desk to John 6. Slutligen så böjer vi på verbet och den slutliga engelska meningen blir: I gave the pen on the desk to John Det finns flera sätt att använda sig utav direktöversättning. Vissa ordningar passar bättre för vissa språkpar. 3 Slutledning I praktiken så använder man sig utav alla dessa tre angreppsvinklar till att maskinöversätta språk. När man översätter mellan två kända språkpar så kan man beroende på språkens karaktär använda de algoritmer som passar bäst. Om man bara skulle hitta någonting litet som snabbar upp översättningen från ett språk till ett annat så kommer det att ge stora fördelar. Bara inom EU översätts stora mängder text till alla medlemsländernas språk och om man kan snabba upp den processen så är mycket pengar sparade. 7

Referenser [1] Hur genererar datorn text? av Hercules Danianis, http://www.dsv.su.se/ hercules/textgen/frame1textgen.html [2] Textgenerering av Lena Santamarta, 6 juni, 2000, http://www.svenska.sics.se/textanalys/textanalys-gen.htm [3] Speech and Language Processing av Daniel Jurafsky James H. Martin, Chapter 21 - Machine Translation av Nigel Ward 8