Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Relevanta dokument
Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Statistisk maskinöversättning

Cristina Eriksson oktober 2001

Tekniker för storskalig parsning: Grundbegrepp

Statistisk Maskinöversättning eller:

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Maskinöversättning möjligheter och gränser

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Sidor i boken f(x) = a x 2 +b x+c

Vägar till bättre översättningsprogram

Språkteknologi och Open Source

Tekniker för storskalig parsning

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

Sannolikhetsteori. Måns Thulin. Uppsala universitet Statistik för ingenjörer 23/ /14

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Övningshäfte 2: Induktion och rekursion

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående


TDDD92 Artificiell intelligens -- projekt

Välkomna till DIT012 IPGO

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

MATEMATIKENS SPRÅK. Avsnitt 1

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

729G04 - Diskret matematik. Lektion 4

När kan man lita på maskinöversättning?

Vad är matematik? Svaret kanske verkar enkelt. Vi vet alla att det är

Innehåll. Föreläsning 7. Satslogiken är för grov. Samma sak i predikatlogik: Första ordningens predikatlogik. Logik med tillämpningar

Lösningsförslag till tentamen i Språkteknologi 2D1418,

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581

MÖSG ht 2005 Maskinöversättningssystemet MATS

Metoduppgift 4- PM. Inledning: Syfte och frågeställningar:

Tekniken bakom språket

Pre-editering och maskinöversättning. Convertus AB

FMCK Malmö Boris Magnusson. Markering av Endurobana

Lutande torn och kluriga konster!

Checklista för funktionsundersökning

Statistik 1 för biologer, logopeder och psykologer

SMT = ickefixerad maskinöversättning?

Individuellt PM3 Metod del I

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

inte följa någon enkel eller fiffig princip, vad man nu skulle mena med det. All right, men

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret Lektion 1

Problem med stenplattor

Här är två korta exempel på situationer då vi tillämpar den distributiva lagen:

Vardagssituationer och algebraiska formler

Lösningar och kommentarer till uppgifter i 1.1

Språkteknologi för ökad tillgänglighet vilka möjligheter finns?

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Banach-Tarskis paradox

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Prata matte! Syfte. Lärarhandledning. Åk 6-9, Gy. Apelsinexemplet. Multiplikation och oregelbundna verbformer

Livsfilosofins ursprung

Mobil tolkningsapp för ambulanspersonalen

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

Att söka information (med betoning på Internet)

Statistikens grunder HT, dagtid Statistiska institutionen

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping

Korpusbaserad Maskinöversättning

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar

Allmänt. Uppgift. Genetikens dilemma En debatterande uppgift i Genetik. Ekenässkolan Åk 9 Vt-19

Kombinationer och banor i agilityträningen

Internetbaserad språkundervisning

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Svar till vissa uppgifter från första veckan.

Avsnitt 5, introduktion.

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Introduktion till logik

Google Guide: Tips för sökoptimering

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

PRODUKTUTVECKLING 3. CAD & 3D-ritning. Erik Almers

När vi läste Skolverkets rapport Svenska elevers matematikkunskaper

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

729G09 Språkvetenskaplig databehandling

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

1, 2, 3, 4, 5, 6,...

f (a) sin

Introduktion till programmering D0009E. Föreläsning 1: Programmets väg

tidskrift för politisk filosofi nr årgång 17

4 Fler deriveringsregler

1:5 SLUTRAPPORT - POST MORTEN LARS EHRMAN WP

Någonting står i vägen

En dansk version av detta dokument kan laddas ned här: people/hagerman/retningslinjer.pdf (pdf, 500 kb)

Tre misstag som äter upp din tid och hur kan göra någonting åt dem

Linköpings universitet Statsvetenskap 2 METODUPPGIFT 4: Metod-PM. Hur utilitaristiska är de svenska riksdagspartierna?

Word-guide Introduktion

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Ärade herr kansler, herr rektor, herrar dekaner, övriga närvarande,

Andra relationella språk

Maskinöversättning 2008

4.1 Inventering av olika koncept

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Kursplanering i Svenska B

Transkript:

Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se

Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua... 2 Överföringsbaserad översättning... 2 Statistiskt maskinöversättning - en introduktion... 3 Maskinöversättning med hjälp av statistik... 3 Grunderna... 3 Problem... 3 Övervinna problemen... 4 Problem ett: Utforma en modell... 4 Problem två: Skapa beräkningsbara enheter... 5 Problem tre: Värdera parametrarna från steg två... 6 Problem fyra: Översätt... 6 Egna reflektioner och åsikter... 7 Referenser... 8

Inledning En stor fördel med dagens informationssamhälle är den mängd data man kan få tag på. Sedan internet slog igenom på 90 talet har mängden information tillgänglig för varje människa med en internetuppkoppling i stort sett växt till oändlig. Dock finns det ett stort problem med detta, nämligen att informationen kommer på mängder med olika språk. Även om engelska är ett "världsspråk" är det ändå många som inte behärskar det lika bra som sitt modersmål och man skall inte glömma bort Indien och Kina som tar en stor del av världens population. Faktum är att engelska bara kommer på tredje plats i antalet människor som har det som modersmål och blir slagna med ganska stor marginal av framförallt kinesiska (Illustrerad vetenskap, 2011). Detta innebär att det skapas en språklig barriär och mycket av informationen som vi har tillgänglig kan vi inte ta till oss. Eftersom många människor är tvåspråkiga skulle en möjlighet för att råda bot på detta vara att översätta allt manuellt till ett gemensamt språk. Men det stora problemet då är att manuell översättning tar extremt lång tid och det bästa vore om man kunde få översättningen när man väl behövde den eftersom att försöka översätta all information som finns tillgänglig i världen helt enkelt är en omöjlig uppgift. För att inte tala om att först försöka översätta all gammal information och dessutom hinna med och översätta all ny. Det är här maskiner och framförallt maskinöversättning kommer in. Maskinöversättning kan i teorin vara lösningen på ovanstående problem eftersom alla skulle kunna ha ett maskinöversättningsprogram och genast få tillgång till all världens information på sitt eget modersmål när just de behöver det. Men så lätt är det tyvärr inte! För att kunna översätta mellan två språk krävs en enorm förståelse för de bägge språken samt en hel del kreativitet. För om man ska vara riktigt ärlig finns det nödvändigtvis inte bara ett rätt svar utan många gånger är det en smaksak vilket som passar bäst in i just det specifika sammanhanget. Och för att uppfylla termen maskinöversättning måste översättningen ske utan korrigeringar av en människa vilket ökar svårighetsgraden ytterligare. Idag finns det många olika metoder för att försöka tackla översättningsproblemet men en av de modernaste kallas statistisk maskinöversättning och det är hur detta system fungerar jag kommer fokusera på. Detta system används bland annat av Google translate sedan 2007! Detta arbete bygger på ett tidigare verk av Adam Lopez, 2008 och hans arbete är således källan när inget annat anges. Dock är den historiska översikten inspirerad från ett verk av John Hutchins från 1995. 1

Bakgrund och historia Historia Redan i början av 1600 talet föreslogs det att man kunde använda mekaniska ordböcker för att övervinna språkbarriären men det var inte förrän 1937 som George Artsrouni först visade upp en liknande prototyp. I slutet av 50-talet utvecklade IBM ett system för att översätta från Ryska till Engelska som visserligen var långt ifrån bra, men räckte för att få fram grundläggande vetenskaplig information. Detta system användes fram till 70talet av det amerikanska flygvapnet som sedan tog in det klassiska systemet SYSTRAN som än idag används av organisationer världen över. Klassiska designer Direkt översättning Direkt översättning är den äldsta maskinöversättningsmetoden och innebär att man översätter direkt från ett språk till ett annat. Detta gör att direkt översättning har några unika egenskaper som inte gör det speciellt användbart i dagens flerspråkssamhälle. Det största problemet är att det är enkelriktat. Reglerna för översättningen gäller bara åt ena hållet så du kan aldrig översätta tillbaka till ursprungsspråket med denna metod. Dessutom, eftersom det endast fungerar från ett specifikt språk till ett annat specifikt språk är det ingen generell lösning för flera språk. Interlingua Interlingua är en annan klassisk men dock lite modernare metod som försöker råda bot på direkt översättnings bi-språkighet. Med denna metod sker översättningen i två steg istället för ett. Först översätter man ursprungsspråket till ett mellanspråk kallat Interlingua. Detta språk är ett internationellt språk som bygger på det faktum att många språk har rötter från latin och grekiska och således är många ord i de olika språken bara varianter på ett och samma ord från dessa språk. Interlingua har dessutom en förenklad grammatik i jämförelse med vanliga språk. När man väl har översatt ursprungsspråket till interlingua är det sedan bara en fråga om att översätta från interlingua till målspråket. Systemen som bygger på interlingua är specialiserade på antingen översättning till interlingua eller från interlingua vilket gör att varje språk bara behöver två olika system för att kunna tolka och dela med sig information till hela världen. Ett system som översätter ursprungsspråket till interlingua och ett system som översätter interlingua till målspråket. Nackdelarna är dock att långt ifrån alla språk har samma rötter och ju fler språk man vill kunna översätta emellan, ju fler språk måste man kunna sammanfoga till ett gemensamt språk vilket antagligen blir en omöjlig uppgift om man skall ha med alla världens språk. Överföringsbaserad översättning Den metod av de klassiska designerna som än idag håller måttet är den överföringsbaserade översättningen. Den bygger till viss del på interlinguas flerstegsprincip, men istället för att översätta till ett gemensamt språk analyserar man i första steget meningen från ursprungsspråkets morfologiska och syntaktiska särdrag och försöker sedan göra dessa tillräckligt abstrakta för att 2

kunna överföras till målspråket där man sedan kan översätta meningen och behålla särdragen för en mer korrekt översättning där den underliggande betydelsen och tonen i meningen bevaras bättre. Statistiskt maskinöversättning - en introduktion Om man räknar den direkta översättningen som första generationens översättningssystem och interlingua samt det överföringsbaserade systemet som den andra generationen så klassas den statistiska översättningen som den tredje. Det första maskinöversättnings systemet som baserades på enbart statistik presenterades av IMB 1988. Dock började man redan på 1960-talet att experimentera med statistik som en del av ett mer klassiskt system utan några större framgångar. Det speciella med statistiska maskinöversättningssystem är just att man förlitar sig helt, eller iallafall nästan helt, på statistiken och tar i princip inte hänsyn till några lingvistiska regler och egenskaper alls. För att göra detta hanterar statistiska översättningssystem översättningen som ett maskininlärningsproblem. Detta innebär alltså att man med hjälp av stora korpusar översatta till ett eller flera språk, så kallade bikorpusar eller multikorpusar, och en inlärningsalgoritm kan bygga ett nytt översättningssystem. De största fördelarna med detta system är att man kan bygga det på en mycket kort tid samt slipper ta hänsyn till språkets lingvistiska egenskaper och regler. Maskinöversättning med hjälp av statistik Grunderna Uppgiften är att översätta en sekvens av ord från ursprungsspråket S u och förändra det till en sekvens av ord från målspråket S m. Vi betecknar en mening som en sekvens av ord n från ursprungsspråket som u 1 u 2...u n och en mening från målspråket som m 1 m 2...m o. Målet för översättningssystemet är alltså att när den får ett ord u 1 så ska den hitta ett ord m 1 vars betydelse efter översättningen liknar u 1. Men eftersom direktöversättning av ord inte alltid är helt lätt och många ord har flera betydelser samt att det rätta valet oftast handlar om i vilken kontext ordet befinner sig så måste översättningssystemet ha ett system för att kunna välja bland dessa. Dessutom har många språk olika frasuppbyggnader så ett sätt att ordna orden i en ny följd enligt målspråkets regler måste också finnas. Problem För att bygga ett system för statistiskt maskinöversättning är det fyra huvudsakliga problem som måste övervinnas. Dessa är: 1. För det första måste vi finna regler som beskriver hur vi ska omforma en mening från ursprungsspråket till målspråket och sedan göra en modell för hur detta ska ske. 3

2. Nästa steg är att se till att vårat system kan göra bra och välgrundade beslut när det finns oklarheter och tvetydligheter i språket. Detta sker genom att skapa beräkningsbara enheter för att kunna rangordna flera olika alternativ. 3. I detta steg bestämmer vi värdet på de beräkningsbara enheterna vi skapade i steg 2. Detta sker genom maskininlärning. 4. Sist men inte minst ska själva översättningen ske. Givet en sträng söker vi helt enkelt efter den bästa översättningen enligt våran tidigare modell. Övervinna problemen Problem ett: Utforma en modell Modellen är egentligen hela den samlingen regler som systemet kräver för att lyckas översätta meningar från ursprungsspråket till målspråket. Egentligen kan dessa regler skapas hur man vill, men i de statistiska systemen brukar man nästan alltid räkna ut dem från parallell korpusar. Exakt hur detta går till kommer jag inte gå igenom i denna text men finns väl beskrivet i artikeln detta arbetet bygger på. När man väl räknat fram en modell bygger den i de allra flesta fall på en av två formalismer: Ändliga översättare Ändliga översättare bygger i sin tur på teorin om ändliga automater men har här gjorts om så man har två band istället för ett och kan på så sätt producera en översättning samtidigt. I korthet går det ut på att man parar ihop banden med varandra, och när man får en inmatning, till exempel ett tecken, som finns med på första bandet spottar maskinen ur sig motsvarande tecken på det andra bandet. För att göra en modell av detta kan man sedan koppla ihop dessa så ibland kan utmatningen från det andra bandet användas som inmatning på det första bandet igen. Hur dessa sammankopplingar ser ut är själva modellen och översättningen sker antingen ord för ord eller mer vanligt att man översätter ett helt stycke till ett annat stycke. Synkron kontextfri grammatik Synkron kontextfri grammatik bygger istället på den vanliga kontextfria grammatiken som innebär att man skapar regler för hur meningar får byggas med hjälp av lingvistiska egenskaper såsom regeln, åtminstone i svenskan, att en mening är uppbyggd utav en nomen fras och en verb fras. Fördelen när grammatiken är synkron är att man enkelt kan kasta om olika meningar och delar av meningar med redan existerande regler. För att göra en översättning skapar man sedan gemensamma regler för de bägge språken och varje ord kommer att vara lagrat som ett ord på varje språk. Fördelen med denna modell är att träden man bygger upp kommer vara syntaktiskt korrekta och det är som tidigare nämnt mycket enkelt att kasta om delar utav träden utan att den korrekta syntaxen förstörs. 4

Problem två: Skapa beräkningsbara enheter För att kunna hantera osäkerhet finns det många olika sätt. Men det som skiljer just statistiska system från övriga är att i statistiska maskinöversättningssystem ser man det som ett maskininlärningsproblem. Eftersom våra modeller i steg ett kan producera mängder med olika meningar som alla är syntaktiskt korrekta blir vårt mål att med hjälp av sannolikhet beräkna vilken översättning som borde vara den korrekta. Vi vill alltså veta vad sannolikheten är för en mening på målspråket m givet meningen på ursprungsspråket u P(m u). Problemet är bara att denna formel inte beskriver hur vi fått fram m ur u. Detta leder till att vi kan få flera värden på P beroende på vilken metod som använts för att komma fram till m. Därför modifieras formeln till att summan för alla sannolikheter samt m givet alla regler r. Således får vi formeln: P m u = r:y (r,m) P(m, r u). Men nu uppstår ytterligare ett problem, nämligen att när vi använder den nya formeln i modellerna som bygger på ändliga översättare och synkron kontextfri grammatik så kommer det innebära att vi får en exponentiell komplexitet. Så vi förenklar den ytterligare och nöjer oss med enbart P(m, r u) i detta steg eftersom våra modeller kommer föreslå en mening kan vi betygsätta den med denna kortare formel och behöver således inte kontrollera den mot alla möjliga sätt vi kan skapa samma mening eftersom vi redan vet hur vi gjorde. Vårat enda kvarvarande problem är att m, r och u kan anta extremt stora värden, i vissa fall närmast oändliga eftersom meningarna kan vara hur långa som helst och reglerna för att skapa översättningen kan vara hur många som helst. Vi måste därför på något sätt försöka styra dessa regler och meningar i rätt riktning så de inte blir oändligt långa. Detta kan ske på flera olika sätt men jag tänker endast beskriva det med hjälp av generativa modeller. Generativa modeller För att kunna begränsa m, r samt u vill vi finna ett annat sätt att räkna ut P(m, r u). Eftersom kedjeregeln säger att P(x, y) = P(x y) P(y) så kan vi genom att använda Bayes regel bryta ut P(x y) enligt följande: P x y = P x,y P y = P(y x)p(x) P(y) Om vi använder detta på vår formel får vi följande: P m, r u = P(u, r m)p(m) P(u) men eftersom när vi väl översätter kommer P(u) vara konstant (är ju det ordet/meningen vi vill översätta) och således behöver vi inte ta hänsyn till den. Därför får vi slutligen formeln: 5

P m, r u = P(u, r m)p(m) Vi får nu alltså två nya sannolikheter för att få fram samma sannolikhet som tidigare. Dessa är P(m) vilken kallas språkmodellen och P(u, r m) som kallas översättningsmodellen. Fördelen med att ha dessa separata modeller är dels att vi nu kan översätta från målspråket till ursprungsspråket istället och dels att eftersom vi nu beräknar de två sannolikheterna på olika sätt minskar risken för eventuella uppskattningsfel. Exakt hur dessa beräknas hann jag inte med att förklara, men för den intresserade finns detta noggrant beskrivet i artikeln denna text bygger på i del 4.2 på sidan 25. Problem tre: Värdera parametrarna från steg två När vi väl har bestämt hur vi kan räkna ut P(m, r u) måste vi ange värden till alla parametrar vi skapade i steg 2. Ett sätt för att få värden att räkna med är om vi antar att ett parallellkorpus skapades av vår modell och således är korpusen skapad med hjälp av parametervärdena vi vill ha. Vår uppgift nu är att uppskatta vilka parametervärden som användes. Vi vill alltså veta chansen för att ett ord översätts till ett annat givet parametrarna vi räknade fram i steg 2. Orden tar vi från ett korpus som vi kan kalla K. Våra parametrar betecknar vi med Θ. Formeln blir således: Θ = P Θ (K) men eftersom vi dessutom vill finna bästa parametervärdet slänger vi in ett argmax också och får formeln: Θ = argmax P Θ (K). Man kan tycka att denna uträkning vore ganska enkel eftersom om vi vet hur ofta ett ord m förekommer i texten och vi vet hur många gånger n det ordet översats till ett annat ord u blir till exempel värdet på parametern för att översätta m till u helt enkelt n/m. Detta är dock inte så lätt eftersom orden inte nödvändigtvis är exakta översättningar av varandra utan det enda vi kan vara säkra på är att hela meningarna betyder samma sak. Vi kan dock se hur ofta u och m finns i samma mening och således kan vi enkelt räkna ut att om u och m aldrig finns i samma meningar så är parametervärdet för (m u) = 0. För att däremot få reda på det omvända, när vi säkert vet att parametervärdet (m u) <> 0, är en lösning att beräkna den förväntat frekvensen och därifrån få ett uppskattat värde. Denna metod kallas förväntad maximering och går i korthet ut på att givet ett initialt värde på våra parametrar räknar vi igenom alla möjliga sätt att koppa ihop u med m givet dom parametrarna vi startade med. Vi lägger sedan ihop dessa sannolikheter och delar det med sannolikheten för alla möjliga kopplingar i korpusen. Problem fyra: Översätt Sist men inte minst vill vi såklart använda alla våra lösningar på de tidigare problemen nu för att översätta en mening. För att lösa detta behöver vi egentligen bara säga att vi vill hitta en mening m i målspråket som ger den högsta sannolikheten för att givet en regel r översatts från u givet att regeln r genererar en korrekt sträng: m = argmax P(m, r u) ( ˆm:Y ( ˆm,r)) 6

Denna optimering är dock inte helt enkel eftersom även om vi kraftigt begränsat storleken på m r och u kvarstår fortfarande väldigt många möjligheter, speciellt eftersom man vill hitta den bästa lösningen. Sättet man löser detta på är att försöka optimera sökningen, men de exakta detaljerna är specifika för vilken formalism man skapade modellen ifrån och därför anser jag inte det vara relevant i denna avhandling och tas således inte heller upp. Egna reflektioner och åsikter Maskinöversättning är ett stort område som utvecklas med en rasande fart, inte minst med tanke på att datorerna blir allt bättre hela tiden och således ökar möjligheterna för att hitta på nya och intressanta lösningar som kanske inte är de mest optimala rent resursmässigt, men eftersom man har så mycket beräkningskraft i dagens moderna datorer så har man råd med det istället för att till exempel skriva massa exakta regler för hur översättningen ska ske. Jag måste erkänna att jag innan jag började arbetet antog att statistisk maskinöversättning skulle visa sig vara något revolutionerande. Men om sanningen ska fram så är det bara ett snabbt och "smutsigt" sätt att översätta ord utan några revolutionerande skillnader mot generation 1 och 2. Uppenbarligen genererar det förhållandevis bra meningar men den stora skillnaden från de tidigare modellerna är enbart ett effektivt sätt att hantera osäkerhet på och systemet kan därför välja en bättre mening när valet står mellan flera stycken. Men detta sätt att hantera osäkerhet bygger ju i sin tur på redan översatta texter och utan dem vore statistisk maskinöversättning meningslös. Frågan är bara om man någonsin kommer kunna få tillräckligt bra och stora korpusar för att någonsin kunna lära ett sådant här system till perfektion. Dessutom, eftersom mycket av språket bygger på kontext och en känsla tror jag aldrig en maskin kommer lyckas fånga det om inte maskiner först lär sig förstå människors känslor och tankar. Vad jag däremot tror skulle kunna vara ett effektivt sätt att översätta ord/meningar på och som kommer vara sättet maskinöversättning blir i framtiden är att man samlar in alla korrekta meningar i världen och bygger en gigantisk databas som det bara är att slå upp en mening i. Problemet är väl bara om det verkligen finns ett ändligt antal meningar, många hävdar ju att så inte är fallet, men jag skulle tro att man kan samla in en tillräcklig mängd för att om inte annat kunna bygga specialiserade program för specifika ändamål eller verksamhetsområden som aldrig gör fel i översättningen inom just det området. 7

Referenser Hutchins, J. 1995. Machine translation: A brief history Illustrerad vetenskap, Världens 11 mest talade språk. http://illvet.se/manniskan/psykologibeteende/varldens-11-mest-talade-sprak (hämtad 2011-09-16) Lopez, A. 2008. Statistical machine translation 8