Statistisk maskinöversättning

Transkript

1 Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43

2

3 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia Statistisk metod... 3 Brusiga kanalen Uppbyggnad Sannolikheten för språkmodellen Sannolikheten för översättningsmodellen Avkodaren Utvärdering Diskussion Slutsats Referenser... 1

4 Introduktion Översättning från ett språk till ett annat är en svår uppgift som kräver stor förståelse för både källspråket och målspråket som en text ska översättas till. Att översätta ett enstaka ord kan kräva information om kontexten till den skrivna texten som ordet ingår i, eller till och med information om författaren som skrivit texten. Det finns ofta många möjliga meningar som en källspråksmening kan översättas till och det är inte helt lätt att avgöra vilken som är lämpligast. Automatisk maskinöversättning är alltså en svår uppgift och dess historia har träffat på flera hinder att överkomma (Brown, o.a., 1990). Denna rapport kommer fokusera på statistisk maskinöversättning, dess uppbyggnad kommer förklaras och olika metoder presenteras med Philipp Koehns bok som grund (Koehn, Statistical Machine Translation, 2010). Inledningsvis presenteras en sammanfattning av maskinöversättningens historia och avslutningsvis diskuteras den statistiska metoden samt dess historia och framtid. Maskinöversättningens historia. Maskinöversättning syftar till att översätta en text från ett språk till ett annat med en automatisk översättningsprocess. De första idéerna om ett mekaniskt system för översättning kom på 1600-talet, för att överkomma språksvårigheter. I början av 1900-talet kom dock de första konkreta förslagen på hur ett sådant mekaniskt system skulle kunna se ut. Petr Smirnov-Troyanskii föreslog tre steg för maskinöversättning. Första steget konverterade källspråksmeningens ord till grundform, det andra steget översatte källspråkets grundformssekvens till en motsvarande mening i målspråket för att sedan i sista steget konvertera denna grundformsmening till normalform på målspråket. Troyanskii skapade en prototyp som klarade av det andra steget, men trodde att att de tre stegen skulle kunna bli mekaniserade i framtiden. Troyanskiis idéer blev inte särskillt uppmärksammade men 1949 presenterade Warren Weaver i en rapport flera metoder på maskinöversättning och det blev startskottet för området, 1952 hölls den första konferensen för maskinöversättning. Tidigt förstogs det att automatisk maskinöversättning skulle kräva långsiktigt forskande och utvecklande 1

5 för att klara av den språkliga komplexiteten. Den mänskliga inblandningen i systemet ville uteslutas och för att komma dit skulle det krävas mycket kapacitet hos systemet. Georgetown University Leon Dostert startade ett projekt tillsammans med IBM, vilket 1954 resulterade i det första maskinöversättningssystemet, vid demonstrationen översattes 49 ryska meningar till engelska, 250 ord användes och sex grammatiska regler. På 50- och 60-talet fortsatte utvecklingen, olika metoder testades och utvecklades, men få genombrott gjordes, mycket tid gick istället åt till att arbeta med och utveckla hårdvaran till systemen. Stora lexikon växte fram, främst engelska och ryska lexikon, som stod till hjälp för syntaktisk analys och synonymer mellan språken, likaså korpusar med grammatiska regler utvecklades, testades och reviderades. Under denna tid användes olika metoder, så som empiriska, statistiska, lingvistiska och grammatiska i flera kombinationer. Flera stora projekt forskade på maskinöversättning, men misslyckades att åstakomma ett komplett översättningssystem och trots att de flesta grupper forskade utan någon speciell framgång, ligger mycket av denna forskning till grund för den fortsatta forskningen inom maskinöversättning gav ALPAC (Automatic Language Processing Advisory Committee) ut en rapport där de menade att maskinöversättning var mycket långsammare och ineffektivare än mänsklig översättning och att det inte borde satsas mer pengar på maskinöversättning. Trots att rapporten blev hårt kritiserad gjorde den att maskinöversättningsforskning helt stannade upp i USA i nästan 10år, i Europa fortsatte dock forskningen med viss framgång, ett översättningssystem för väderprognoser togs fram och en grund till ett metaspråk för att kunna hantera lingvistiska ordföljder utvecklades. Stort fokus låg på olika interlingua för att kunna hitta logiska relationer i språken. I mitten av 70-talet ansågs dock att interlingua inte fungerade optimalt för maskinöversättning och forskning i området stannade upp. På 80-talet fick maskinöversättningsforskning fart och flera nya, funktionella system uppkom, fördelarna med maskinöversättning blev också mer kännt för allmänheten. Det fanns flera färdiga översättningar mellan språk, vilket minskade 2

6 kostnaderna, eftersom parsning mellan språken redan fanns tillgängligt. Det blev mer kommersiellt under detta årtionde och flera paketlösningar med många parade språk erbjöds. In på 90-talet kom en kunskapsbaserad metod som byggde på sju komponenter och kallades en meningsorienterad maskinöversättning i ett interlingua-paradigm. Fram till 90-talet var metoderna för maskinöversättning mycket inriktade på vilka regler det fanns kring språk och grammatik, dock övergick forskningen mer i en korpusbaserad metod. I slutet på 80-talet presenterade IBM ett experiment på maskinöversättning med statistisk metod med överraskande goda resultat. Statistiska metoder studerades på 60- talet, men utan några framgångsrika resultat och metoden förkastades. På 90-talet växte de korpusbaserade metoderna och blev mycket populära, dock fortsatte forskningen med regelbaserade metoder. Annorlunda från tidigare användes nu också ickelingvistiska regler och konceptuella regler för att översätta. (Hutchins, 1995) Statistisk metod I den statistiska metoden för maskinöversättning ingår tre komponenter; en översättningsmodell, en språkmodell och en avkodningsalgoritm, tilldelat översättningsmodellen och språkmodellen finns sannolikheter. Översättningsmodellens sannolikhet anger sannolikheten att källspråksmeningen är en översättning av målmeningen och språkmodellens sannolikhet är sannolikheten att källspråksmeningen är en korrekt mening på källspråket. Det sker en statistisk analys på källspråksmeningen och den parallella texten som bildar översättningsmodellen och en statistisk analys på källspråksmeningen som bildar språkmodellen, dessa två tillsammas avkodas och den mest troliga översättningsmeningen genereras (Brown, o.a., 1990). Brusiga kanalen. För att avgöra vilken av de möjliga meningarna för en översättning som är den lämpligaste krävs en parameterisering, det innebär att sannolikheter tilldelas meningarna och valet av meningen har en statistisk grund. Av alla 3

7 dessa möjliga meningar räknas en sannolikhet ut för varje meningspar P(K,M) där M är målspråksmeningen, alltså översättningen av källspråksmeningen och K är källspråksmeningen. P(M K) anger hur troligt det är att översättningen M är en översättning av källspråksmeningen K. Vid statistisk maskinöversättning används modellen för den brusiga kanalen, det bygger på ett antagande att en källspråksmening egentligen är en förvrängd mening av målspråksmeningen. Målspråksmeningen passerar en brusig kanal som gör att kanalen genererar meningen på källspråket. Uppgiften för översättaren blir då att återta den ursprungliga översättningen och räkna ut sannolikheten för att källspråksmeningen är en god översättning givet målspråksmeningen (Manning & Schutze, 1999). För att göra detta används Bayes teorem: En sannolikhet för att källspråksmeningen är en översättning av målspråksmeningen räknas ut genom att multiplicera P(M K) (förklarat ovan) med sannolikheten för källspråksmeningen P(K) delat med sannolikheten för målspråksmeningen P(M). Uppbyggnad. Nedan visas en illustration över hur sannolikheten för ett meningspar räknas ut genom de tre olika komponenterna. Utifrån språkmodellen fås en sannolikhet för källspråksmeningen och från översättningsmodellen fås en sannolikhet för målspråksmeningen givet källspråksmeningen, dessa multipliceras och en sannolikhet för meningsparet fås. Avkodaren tar sedan fram den översättning som har störst sannolikhet genom att söka efter den meningen som genererat högst sannolikhet (Brown, o.a., 1990). 4

8 Sannolikheten för språkmodellen. För att räkna ut sannolikheten för språkmodellen ser man till alla ord i meningen, vad är sannolikheten att detta ord är med i meningen givet att resten av orden är det? Detta görs med hjälp av n-gram modeller som anger sannolikheten för ett ord P(w) i förhållande till resten av meningen med hjälp av kedjeregeln P(w1, w2, w3 wn) = P(w1 w2) P(w2 w1) P(w3 w1, w2)... P(wn w1, w2 wn-1). Eftersom ett ord inte kan ses som en enskild parameter utan måste ses i förhållande till resten av meningen, kommer det bli otroligt många parametrar. För att hantera detta kan exempelvis kedjan inte se till hela meningssekvensen, utan endast till ett bestämt antal ord, detta kallas Markovantagande. Exempelvis kan en bigrammodell se ut såhär; P(w1, w2, w3 wn) = P(w1) P(w2 w1) P(w3 w2)... P(wn wn-1) och för att räkna ut sannolikheten för en ordföljd delas frekvensen av ordföljden w1,w2 med frekvensen av w1. Frekvensen är antal gånger ordföljden eller ordet uppkommer i en given korpus (Koehn, Statistical Machine Translation, 2010). Sannolikheten för översättningsmodellen. Det finns flera olika metoder för att beräkna sannolikheten för översättningsmodellen. Nedan presenteras de ordbaserade och frasbaserade metoderna, samt ett litet stycke om syntaxbaserad metod. 5

9 Ordbaserad metod. I ordbaserade modeller används översättning från ord till ord. Det ordet som har högst sannolikhet att översättas till utifrån ett parallellt korpus blir det ord som används. Parallella korpusar är stora datamängder med översättningar mellan språk och ett exempel är Europarl som är ett stort korpus för europeiska språk, utformat för statistiska maskinöversättningsystem. Korpuset innehåller totalt 12 textmängder på olika versioner av europeiska språk (Koehn, Europarl: A Parallel Corpus for Statistical Machine Translation, 2005). Ordningen på orden i en mening som översätts överensstämmer inte alltid mellan språken och för att justera ordningen används en alignmentfunktion. I funktionen anges vilken position ordet har i källspråksmeningen och vilken position det har i målspråksmeningen, exempelvis; a : {1 1, 2 3, 3 2} ordet som är placerat på plats nr 1 i källspråksmeningen har också placering 1 i målspråksmeningen, ordet på placering 2 har dock placering 3 i målspråksmeningen. Med hjälp av denna funktion anges också om målspråksmeningen har fler eller färre ord än källspråksmeningen, eller om en översättning av ett ord ger två ord och vice versa. För att generera en sannolikhet genom en generativ modell används denna formel; e = källspråksmeningen le = längden på källspråksmeningen a = alignment för alla orden i källmeningen till orden i målmeningen f = målspråksmeningen lf = längden på målspråksmeningen E = en normaliseringskonstant Syftet är att räkna ut sannolikheten för källspråksmeningen och ordningen, givet målspråksmeningen genom att multiplicera alla ordpars sannolikheter som ingår i 6

10 meningen med den ordningen på orden som alignmentfunktionen angett. Detta multipliceras sedan med normaliseringskonstanten delat med målspråksmeningens längd plus 1, upphöjt till källspråksmeningens längd. För att räkna ut sannolikheten för ordpar krävs att det finns tillgängliga ordlänkningar mellan orden men fullständiga ordlänkningar är inte alltid tillgängliga via korpusar. Problemet som översättaren då står inför är att om ordlänkningarna finns tillgängliga kan sannolikheten för modellen räknas ut, och om modellen finns tillgänglig kan sannolikheten för ordlänkningarna räknas ut, ofta finns ingen av dessa tillgängliga. För att lösa detta används EM-algoritm (Expectation maximization), algoritmen tilldelar sannolikheter för att göra modellen komplett och tränar sedan modellen i en iterativ process för att söka efter och skatta sannolikheter för ordlänkningarna (Koehn, Statistical Machine Translation, 2010). Frasbaserad. Istället för att översätta enstaka ord översätts hela fraser vid frasbaserad metod, då kan exempelvis den aktuella kontexten påverka översättningen. Källspråksmeningen delas först upp i fraser som ska översättas till målspråket, längre sekvenser av ord översätts då och uttryck kan få en bättre översättning änenstaka ord. Denna metod ser till lexikala och morfologiska variationer och även fyllnadsord inkluderas i översättningarna, vilket gör översättningarna fylligare. För att räkna ut sannolikheten för frasöversättningen används denna funktion: O = sannolikheten för översättningen d = sannolikheten för placeringen För att räkna ut sannolikheten för den översatta frasen f givet källspråksfrasen e multipliceras översättningssannolikheterna för alla fraspar. Detta multipliceras i sin tur med sannolikheterna för placeringen av fraserna. 7

11 För att räkna ut sannolikheten för frasöversättningen används denna formel; Frekvensen av meningsparet (e,f) delas med summan av alla möjliga fraser i källspråket som är länkat till målspråksfrasen. Placeringen av fraserna har betydelse eftersom det är större chans att det är en korrekt översättning om fraserna i meningsparet har samma eller liknande placering som källspråksfrasen. För att räkna ut sannolikheten för placeringen används ett poängssytem som anger hur nära i placering de olika målspråksfraserna ligger källspråksfraserna. Poängen växer exponensiellt, det vill säga att om en fras ligger långt ifrån källspråksfrasen påverkas sannolikheten mycket, medan en liten distans mellan fraserna påverkar sannolikheten lite (Koehn, Statistical Machine Translation, 2010). Fraserna vid frasbaserad översättning är inte indelade i grammatiska fraser så som nominalfraser eller verbfraser, utan icke-grammatiska fraser används, utan några regler tilldelade sig. En annan typ av frasbaserad översättning är syntaxbaserad översättning som använder sig av syntaktiska regler för att översätta en mening, exempelvis används ordklasser eller grammatiska fraser som grund till översättningen. En syntaktisk parser genererar grammatiska strukturer från texter och en sådan använder sig av synkron kontextfri grammatik för att parsa två olika meningar och bilda syntaktiska träd vid översättning. Synkron kontextfri grammatik är sammanfogade grammatiska regler kopplade till två språk, alltså en grammatisk regel för ett språk, matchat med en likvärdig grammatisk regel för ett annat (Koehn, Och, & Marcu, Statistical Phrase-Based Translation, 2003). Avkodaren. Vid avkodningen är målet att hitta den översättningen med högst sannolikhet. Detta är ett exempel på hur detta beräknas vid frasbaserad översättning; 8

12 För att beräkna vilken översättning som har högst sannolikhet multipliceras sannolikheten för den frasbaserade översättningen med placeringssannolikheten och sannolikheten från språkmodellen. argmax står för den kombination som ger det maximala värdet på e, alltså målspråksmeningen. Avkodningen är ett sökproblem som ska hitta den kombination som ger det maximala värdet, ett sådant problem kan snabbt växa exponensiellt och bli ett komplext problem. Det finns olika sökmetoder för att hitta den bästa översättningen och för att lösa sökproblemet. Ett exempel är genom hypotesexpansion, där varje fras i meningen genererar de möjliga efterkommande fraserna i översättningen tillsammans med en sannolikhet och när alla hypoteser genererats väljs den väg med högst sannolikhet. För att lösa problemet med en stor sökrymd används rekombination och nedskrärning. Rekombination kombinerar sökvägar som matchar varandra och nedskärning utesluter dåliga översättningar tidigt i processen. Sådana översättningar som tidigt kan identifieras som olämpliga tas bort och på så sätt minskas sökproblemet och blir hanterbart för systemet. Exempel på andra metoder är A* eller greedy hill climbing som kan användas för att hitta det maximala värdet på översättningen (Koehn, Statistical Machine Translation, 2010). Utvärdering. Det finns olika sätt att utvärdera ett maskinöversättningssystem, helt mänskliga metoder och även automatiska. Automatiska utvärderingar är fördelaktiga då de är billiga och konsekventa till skillnad från de mänskliga metoderna som är tidskrävande och därför dyra. Ett automatiskt utvärdenringssystem använder sig av den översatta meningen gjord av översättningssytemet och en korrekt översättning gjord av en människa och med hjälp av dessa två meningarna utvärderas hur väl systemets mening stämmer överens med den mänskligt översatta meningen (Koehn, Statistical Machine Translation, 2010). 9

13 Ett exempel på ett utvärderingssystem är BLEU som bygger på att en maskinöversättning ska vara så lik en mänsklig översättning som möjligt. Det systemet behöver är en numrerisk metrik som anger hur nära översättningen är och ett parallellt korpus som översättningen kan jämföras mot. För att räkna ut närheten i översättningen används word error rate (WER). WER är en metod som bland annat används för taligenkänning och syftar till att minimera antalet steg för att översätta ett ord till ett annat. Detta mäts med Levenshteinavståndet, som anger likheten hos två meningar. Det finns fyra olika operationer för att räkna ut Levenshteinavståndet, dessa är; (1) borttagning, när systemet tagit bort ett ord ur meningen, (2) tilläggning, när systemet har lagt till ett ord i meningen, (3) substituering, när systemet har bytt ut ett ord i meningen och (4) matchning, när ordet är detsamma. Matchning av ord ger inga poäng, annars räknas avståndet ut genom att addera förekomster av operationerna delat med källspråksmeningens längd. BLEU använder sig främst av jämförelser av n-grams från översättningen med n- grams från referensöversättningarna. Till att börja med räknas antal n-gram matchningar oberoende på placeringen av orden och utifrån dessa frekvenser räknas precisionen ut. Precisionen räknas ut genom att dela antalet matchningar med det totala antalet ord i översättningen. Denna metod används inte enbart på 1-gram, utan på flera och även större sekvenser av meningar i större texter. Vid hög precision på 1-gram anger lämplighet, medan hög precision på större sekvenser anger bra flyt i meningen. Koncishetsstraff läggs till ifall den översatta textens längd inte stämmer överens med referenstextens längd och straffet räknas ut genom att summera de bäst längsmatchade meningarna i översättningen och dela dessa med antal ord i referenstexten. Koncishetsstraffet kan alltså vara mellan 0 och 1 där 1 är en bra översättning. För att räkna ut BLEU-metriken för ett system multipliceras testkorpusens geometriska medelvärde av precisionspoängen med ett exponensiellt koncishetsstraff. BLEU-metriken anges mellan 0 och 1, där 1 är bäst (Papineni, Roukos, Ward, & Zhu, 2002). 10

14 Diskussion Statistisk maskinöversättning är liksom maskinöversättning generellt är ett ungt forskningsområde som är i startgropen i forskningen. Det är ett nytt och explorativt område vilket gör att många olika metoder och varianter undersöks. Genom historien har flera metoder förkastats för att sedan tas upp igen eftersom de problemområden som var svåra att bemästra, nu kan lösas med mer mogen teknik och de resurser som fattades tidigare finns nu åtkomlig. Även större korpusar växer fram och har möjligheten att bli mer genomarbetade, vilket ger större möjlighet till robustare system med högre sannolikheter. Det finns också ett ökande kommersiellt intresse i området, vilket kan resultera i ökade resurser för att skapa en stadig grund för maskinöversättning att stå på i framtiden. Grundtanken att maskinöversättningssystem ska vara helt oberoende av mänsklig översättning verkar dock vara svår att uppfylla. Exempelvis används översättningar gjorda av människor för att träna maskinöversättare på, det är fortfarande människor som gör de lämpligaste översättningarna, då kontext och andra externa influenser har stor påverkan på betydelsen av en mening. En ny metod för maskinöversättning är neurala nätverk som ska kunna se till semantisk information och som är robusta för inlärning och representation. Denna metod kombinerar semantisk och syntaktisk information till både ord, fraser och strukturer (Zhang & Zong, 2015). Neurala när verkar då vara en metod för framtiden då den kombinerar flera av de andra metoderna och har en större kapacitet än de andra, främst för inlärning som kan leda till att människan kommer ha mindre och mindre delaktighet i maskinöversättningssystem i framtiden. Slutsats. Maskinöversättning är ett relativt forskningsområde som är i en utvecklande fas, olika metoder växer fram och resurserna blir mer och mer stabila. Med tillgång till dagens teknik har maskinöversättning stor chans att överkomma de nuvarande problemen och bli en helt automatisk översättningsmetod, utan mänsklig inblandning. 11

15 12

16 Referenser Brown, P. F., Cocke, J., Della Pietra, S. A., Della Pietra, V. J., Jalineck, F., Lafferty, J. D., o.a. (1990). A Statistical Approach to Machine Translation. Computunal Linguistics, Hutchins, J. W. (1995). Machine Translation: A Brief History. Concise history of the language sciences: from the Sumerians to the cognivists, Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. Edinburgh: School of informatics. Koehn, P. (2010). Statistical Machine Translation. Cambridge: Cambridge University Press. Koehn, P., Och, F. J., & Marcu, D. (2003). Statistical Phrase-Based Translation. 03 Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (ss ). Stroudsburg: Association for Computational Linguistics. Manning, C. D., & Schutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. 02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ss ). Stroudsburg: Association for Computational Linguistics. Zhang, J., & Zong, C. (2015). Deep Neural Networks in Machine Translation: An Overview. Intelligent Systems, IEEE,