Joakim Nivre 1 / 37
Vad är maskinöversättning? Översättning är att överföra texter från ett (mänskligt) språk (källspråket) till ett annat (målspråket) på ett sätt som bevarar betydelsen () automatiserar (delvis) processen Helt automatisk översättning Datorstödd (mänsklig) översättning 2 / 37
Vad är bra för? När man behöver få en uppfattning om innehållet (och inte har tillgång till mänskliga översättare): översätta epost och webbsidor få information från källor på olika språk (infosökning) Om man har ett begränsat ordförråd och ett litet antal meningstyper: översätta väderleksprognoser översätta tekniska manualer översätta termer på tekniska möten Om man vill att mänskliga översättare ska koncentrera sig på intressanta/svåra meningar och slippa slå upp okända ord och översätta enkla meningar 3 / 37
Behövs? Översättning är viktigt för flerspråkiga länder (Finland, Belgien, Schweiz... ) internationella organisationer (FN, IMF, WTO... ) multinationella företag och export företag EU har 24 officiella språk och lagar och andra dokument måste översättas till alla språk Översättningsindustrin är en av de snabbast växande branscherna i dagsläget 4 / 37
Olika strategier för System baserade på lingvistisk kunskap Transfersystem Interlingua-system System baserade på statistiska modeller (S) Dominerar både forskning och industri för närvarande Hybridsystem 5 / 37
Transfersystem Ett transfersystem består av en källspråksgrammatik en målsprålsgrammatik transferregler som relaterar k-strukturer till m-strukturer Ett exempel från franska till svenska: (1) Londres London plaît à Sam. är angenämt för Sam. Sam gillar London. 6 / 37
Steg i ett transfersystem 1. Källspråksgrammatiken översätter källspråksmeningen till en underliggande representation (k-ur): Londres plaît à Sam Londres plaire pres Sam 2. Transferreglerna relaterar k-ur till en m-ur: Fransk UR Svensk UR X plaire temp Y Sve(Y) gilla temp Sve(X) Londres plaire pres Sam Sam gilla pres London 3. Målspråksgrammatiken översätter m-ur till en målspråksmening: Sam gilla pres London Sam gillar London 7 / 37
Abstraktionsnivåer Transfer kan tillämpas på olika nivåer: Ord + grammatiska särdrag (som ovan) Partiell syntaktisk analys (chunking) Full syntaktisk analys Transfersystem fungerar bäst för språk med likartad struktur 8 / 37
Interlinguasystem Teoretiskt skulle vi kunna föra analysen ända till ett interlingua = en universell språkobereoende semantisk representation Fördel: För att lägga till ett nytt språk i ett -system, behöver man bara ange regler till och från interlingua-representationen Jämför: Transfersystem kräver dessutom transferregler för varje språkpar 9 / 37
10 / 37
Problem med interlingua Exakt vad ska ingå i interlingua-representationen? Engelska corner = spanska rincón = inre hörn eller esquina = yttre hörn? Ett finkornigt interlingua kan innebära onödigt arbete Japanska har olika ord för äldre bror och yngre bror, så vi måste disambiguera svenskans bror för att översätta till interlingua Om vi sedan översätter till franska, måste vi ignorera disambigueringen och översätta det som frère, vilket bara betyder bror 11 / 37
I stället för att skriva regler för hur översättningen ska gå till, kan vi använda maskininlärning från parallellkorpusar Vi kan kolla hur ofta ett ord översätts till ett annat och välja den mest frekventa översättningen Men hur vet vi hur ett ord översätts? Två fall: Vi har en parallellkorpus med länkning (eng alignment) Vi har en parallellkorpus utan länkning: använd en ordsäck (eng bag of words) Vi kan också lära in länkningen som en del av processen 12 / 37
Meningslänkning Meningslänkning = avgöra vilka källspråksmeningar som översätts till vilka målspråksmeningar Intuitivt ganska lätt, men kan vara svårare i praktiken p.g.a. fri översättning och/eller olika konventioner för interpunktion 13 / 37
Ordlänkning Ordlänkning = avgöra vilka källspråksord som översätts till vilka målspråksord Mycket svårare än meningslänkning att göra automatiskt Men om den är gjord, ger den värdefull information om ett ords översättningsekvivalent 14 / 37
Olika typer av ordlänkning Ett ord kan länkas till ett eller flera ord Ibland är det bäst att länka flera ord till flera ord Exempel från engelska-ryska ett-till-ett: khorosho = well ett-till-flera: kniga = the book flera-till-ett: to take a walk = gulyat flera-till-ett: at least = khotya by ( although if/would ) 15 / 37
Sannolikheter Med ordlänkning är det lätt att beräkna sannolikheter Vad är sannolikheten att engelskans run översätts till correr på spanska? 1. Räkna hur många gånger run förekommer i den engelska delen av parallellkorpusen, t.ex. 500 gånger 2. Räkna hur många av dessa som översätts (länkas till) correr, t.ex. 275 (av 500) 3. Dividera för att få sannolikheten: 275/500 = 0,55 (55%) 16 / 37
Ordsäck Men om vi inte har någon ordlänkning? Hur kan vi veta vilka ord som översätts till vilka ord? Vi kan behandla varje mening som en ordsäck = oordnad samling ord Om ord A förekommer i en mening, noterar vi alla ord i den andra meningen som samförekommande 17 / 37
Exempel Engelska He speaks Russian well. Ryska On khorosho govorit po-russki. Eng Rys Eng Rys He On speaks On He khorosho speaks khorosho He govorit...... He po-russki well po-russki Om vi samlar statistik över tusentals eller miljontals meningar, kommer He att samförekomma oftast med On, speaks med govorit osv. 18 / 37
Exempel Sannolikheter: mening 1 För He i He speaks Russian well/on khorosho govorit po-russki gör vi följande: 1. Räkna antalet ord i den ryska meningen: 4. 2. Ge varje ord lika stor översättningssannolikhet: 1/4 = 0,25 (25%) 19 / 37
Exempel Sannolikheter: mening 2 Om vi också har He is nice./on simpatich nyi., så gör vi följande för He: 1. Räkna antalet möjliga översättningsord: 4 + 2 = 6 Vi räknar inte antalet engelska ord, utan enbart antalet möjliga översättningar 2. Räkna antalet gånger On är översättning = 2 av 6 = 1/3 = 0,33 (33%). Alla andra ord har sannolikheten 1/6 = 0,17 (17%), så On är den bästa översättningen av He 20 / 37
Sannolikheter i översättningsmodeller Översättningsmodell = statistisk modell av hur målspråksmeningen genereras från källspråksmeningen Innehåller t.ex. följande typer av sannolikheter: n(k word) = sannolikheten för att ett källspråksord genererar k målspråksord p-null = sannolikheten för ett tomt ord t(tword sword) = sannolikheten för ett målspråksord givet ett källspråksord (det vi sett hittills) d(tposition sposition) = sannolikheten att ett målspråksord förekommer i en viss position l(word i word i 1 ) = sannolikheten för att ett målspråksord förekommer efter ett annat (språkmodellxs) Men vi behöver ordlänkning för att beräkna dessa sannolikheter (utom språkmodellen) 21 / 37
tatistical Bortom Machine ordsäckar Translation Lecture 3: Word Alignment and Phrase Models p arallel Corpora p... la maison... la maison blue... la fleur... Sta EM... the house... the blue house... the flower... Incomplete data English and foreign words, but no connections between them Ett höna-ägg-problem Chicken and egg problem Om vi hade ordlänkarna, kunde vi beräkna sannolikheterna if we had the connections, we could estimate the parameters of our generative story Om vi hade sannolikheterna, kunde vi beräkna ordlänkarna if we had the parameters, we could estimate the connections hilipp Koehn, University of Edinburgh 7 p.7 22 / 37 Ph
Expectation-Maximization Expectation-Maximization (EM) är en metod för att lära sig sannolikheter och länkar samtidigt EM i ett nötskal 1. gissa sannolikheter (t.ex. likformigt som i en ordsäck) 2. använd sannolikheter för att räkna (viktade) länkar 3. använd länkar för att beräkna sannolikheter 4. upprepa steg 2 och 3 tills man når en slutpunkt 23 / 37
Steg 1 tatistical Machine Translation Lecture 3: Word Alignment and Phrase Models p arallel Corpora p... la maison... la maison blue... la fleur... Sta EM... the house... the blue house... the flower... Incomplete data English and foreign words, but no connections between them Alla länkar lika sannolika Chicken and egg problem if we had the connections, we could estimate the parameters of our generative story if we had the parameters, we could estimate the connections 24 / 37
Efter första iterationen istical Machine Translation Lecture 3: Word Alignment and Phrase Models p Algorithm (3) p... la maison... la maison blue... la fleur...... the house... the blue house... the flower... After one iteration Länkar mellan t.ex. la och the mer sannolika Connections, e.g., between la and the are more likely 25 / 37
Efter nästa iteration tical Machine Translation Lecture 3: Word Alignment and Phrase Models p Algorithm (4) p... la maison... la maison bleu... la fleur... Sta E... the house... the blue house... the flower... After another iteration It Länkar mellan t.ex. fleur and flower är mer sannolika becomes apparent that connections, e.g., between fleur (uteslutningsprincipen) and flower are more likely (pigeon hole principle) 26 / 37
Konvergens tistical Machine Translation Lecture 3: Word Alignment and Phrase Models p M Algorithm (6) p... la maison... la maison bleu... la fleur... Stat IB... the house... the blue house... the flower... p(la the) = 0.453 p(le the) = 0.334 p(maison house) = 0.876 p(bleu blue) = 0.563... Parameter estimation from the connected corpus p.13 27 / 37
tatistical Machine Translation Lecture 3: Word Alignment and Phrase Models p Ordbaserade modeller klarar inte många-till-många översättningar hrase-based Translation p Morgen fliege ich nach Kanada zur Konferenz Tomorrow I will fly to the conference in Canada Foreign input is segmented in phrases any sequence of words, not necessarily linguistically motivated Fraser översätts till fraser Each Fraser phrase kan flyttas is translated om into English Men Phrases ordbaserade are reordered modeller tillåter många-till-en-länkningar, och vi kan använda dem för att extrahera många-till-många See [Koehn et al., NAACL2003] as introduction 28 / 37
dkombinera Word länkningar Alignments p english to spanish bofetada bruja Maria no daba una a la verde Mary did not slap the green witch spanish to english bofetada bruja Maria no daba una a la verde Mary did not slap the green witch intersection bofetada Maria no daba una a la bruja verde Mary did not slap the green witch Ta snittet av länkningar i båda riktningarna section of GIZA++ bidirectional alignments 29 / 37
l Machine Translation Lecture 3: Word Alignment and Phrase Models p Utöka länkningar oved Word Alignments (2) p bofetada Maria no daba una a la bruja verde Mary did not slap the green witch Grow additional alignment points Lägg till länkningar längs diagonalen [Och and Ney, CompLing2003] 30 / 37
Extraherade Statistical Machine Translation fraser Lecture 3: Word Alignment and Phrase Models p Word Alignment Induced Phrases (2) p Mary did not slap the green witch bofetada Maria no daba una a la bruja verde Statisti Wor (Maria, Mary), (no, did not), (slap, daba una bofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no daba una bofetada, did not slap), (daba una bofetada a la, slap the), (bruja verde, green witch) Vi kan nu använda dessa fraser som enheter i vår statistiska modell Frasbaserade statistisk är den mest använda metoden för närvarande Philipp Koehn, University of Edinburgh 37 p.37 (Ma (ver (dab (Ma (no Philipp 31 / 37
Språk varierar mycket Lexikalt: vilka ord de använder Syntaktiskt: hur de sätter ihop ord till meningar Semantiskt: vilka betydelser språkliga uttryck har Pragmatiskt: hur språkliga uttryck används Dessutom kräver översättning kunskap om världen The baby is in the pen. 32 / 37
Lexikal flertydighet Ord kan vara lexikalt flertydiga = ha flera betydelser bank = financial institution or a place along a river can = cylindrical object or the act of putting something into that cylinder or a modal verb expressing possibility 33 / 37
Semantiska relationer Ofta hittar vi (ungefärliga) synonymer mellan två språk: English book = Russian kniga English music = Spanish música Men ord går inte alltid att matcha exakt mellan språk Engelskan är mer generell: Engelskans know motsvaras av franskans savoir ( veta ) eller connaitre ( känna ) English library motsvaras av tyskans Bücherei om det är öppet för allmänheten men av Bibliothek om det är avsett för forskning Engelskan är mer specifik: Tyskans berg motsvaras av hill eller mountain Ryskans ruka motsvaras av hand eller arm 34 / 37
Semantiskt överlapp paw etape jambe journey human leg patte animal animal bird chair human pied foot 35 / 37
Semantisk icke-kompositionalitet En del verb har inte så mycket betydelse, s.k. stödverb Franskans faire une promenade motsvarar engelskans take a walk Holländskans een poging doen motsvarar engelskans make an attempt Dessutom finns idiom = uttryck vars betydelse inte kan härledas från de ingående orden Engelskans kick the bucket ungefär detsamma som svenskans ta ner skylten men det är kanske bättre att översätta med dö och vi vill hantera det annorlunda än kick the ball 36 / 37
av -system Två aspekter av kvalitet Fluency = hur begriplig är översättningen? Fidelity = hur trogen är översättningen originalet? Ett vanligt utvärderingsmått är BLEU, som bygger på n-gram-överlapp med mänskliga översättningar BLEU korrelerar i viss mån med mänskliga bedömningar men bör tas med en nypa salt 37 / 37