Vad är maskinöversättning?



Relevanta dokument
Maskinöversättning 2008

Maskinöversättning möjligheter och gränser

Cristina Eriksson oktober 2001

Språkteknologi (SV2122) Föreläsning 9: Översättning

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Vägar till bättre översättningsprogram

onsdag den 21 november 2012 PRONOMEN

Unit course plan English class 8C

English. Things to remember

Statistisk maskinöversättning

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Isometries of the plane

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson


Maskinöversättning. Johan Boye, KTH

Workplan Food. Spring term 2016 Year 7. Name:

Lektion 3. Anteckningar

Språkteknologi. Språkteknologi

Lösningsförslag till tentamen i Språkteknologi 2D1418,

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Monteringsanvisning Podie T 4100 K

Make a speech. How to make the perfect speech. söndag 6 oktober 13

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Chapter 1 : Who do you think you are?

Språket, individen och samhället VT08

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

LINC MODELL 13. INR SVERIGE AB Kosterögatan 15 SE Malmö 13 EN 1428:2005+A1:2008

Engelska åk 5 höstterminen 2013

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Utvärdering SFI, ht -13

Korpusbaserad Maskinöversättning

MÖSG ht 2005 Maskinöversättningssystemet MATS

Maskinöversättning. F Anna Sågvall Hein

SVENSK STANDARD SS

LÄNKHJUL S3. Monteringsanvisning för: Länkhjul S3

Värmeväxlare - Terminologi. Heat exchangers -Terminology

2.1 Installation of driver using Internet Installation of driver from disk... 3

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

När kartan och verkligheten inte stämmer överens...

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Random Indexing för vektorbaserad semantisk analys

#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Writing with context. Att skriva med sammanhang

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

De senaste åren har det hänt en hel del på ATO Fritid

Automatisk översättning

JTS snabbstartsguide. Endast för användning av utbildad personal

Hur fattar samhället beslut när forskarna är oeniga?

Beijer Electronics AB 2000, MA00336A,

Om transfer i tredjespråksinlärning

Graphs (chapter 14) 1

ARC 32. Tvättställsblandare/Basin Mixer. inr.se

Lösningar på klimatfrågan - värderingar och försanthållanden

Studieteknik för universitetet 2. Books in English and annat på svenska

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Monteringsanvisning benfundament TM 8055, TM 8060, T 8118 K. Art nr ,

Libers språklåda i engelska 7 9: Listening

Bilaga 5 till rapport 1 (5)

CHEMICAL KEMIKALIER I MAT. 700 miljoner på ny miljöteknik. Rester i mer än hälften av alla livsmedel

Adding active and blended learning to an introductory mechanics course

Grammatiska metaforer i engelskan och hur de översätts till svenska. Lene Nordrum Engelska institutionen Göteborgs universitet

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

v.45 (7 nov 11 nov) ring Åk 7 Lektioner Läxa

Språkmöte främjar hjärnan. Emanuel Bylund Centrum för tvåspråkighetsforskning Stockholm universitet

FLERSPRÅKIGHET/ SPRÅKFÖRÄNDRING VT2014. Josefin Lindgren 2/4 2014

Välkommen till kursen Medicinsk orientering 5 hp

LARS. Ett e-bokningssystem för skoldatorer.

Module 6: Integrals and applications

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

EG Utility Användarträff Årets IT-konferens för dig i energibranschenafdas

Online MT output (EN-SE) Kriterier på bra översättning

VAD SKULLE DU HA VALT PDF

HAÖVR, Masterprogram i översättning, 120 högskolepoäng Master's Programme in Translation, 120 credits

Semantisk web i biblioteket

In Bloom CAL # 5. Virka inte v för hårt / don t crochet r to tight. V 35 / r 35 (5) Upprepa v 18. [38 1-lm-bågar / sida och 2 lm / hörn]

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Annonsformat desktop. Startsida / områdesstartsidor. Artikel/nyhets-sidor. 1. Toppbanner, format 1050x180 pxl. Format 1060x180 px + 250x240 pxl.

Listen to me, please!

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

KPMG Secure File Transfer Handledning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Grundläggande textanalys. Joakim Nivre

Windlass Control Panel v1.0.1

Adress 15. August 2014

Mönster. Ulf Cederling Växjö University Slide 1

Preschool Kindergarten

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

NATIVE AMERICANS. Lärandemål. Prov E/C/A- Essay week 11 Vocab test week 7. LPP Native Americans åk 7. Name:

Tjänster, design och innovation. Tjänstedesign, vad är det

Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik

Calculate check digits according to the modulus-11 method

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

SVENSK STANDARD SS-EN ISO 19108:2005/AC:2015

Mödradödlighet bland invandrarkvinnor

Transkript:

Joakim Nivre 1 / 37

Vad är maskinöversättning? Översättning är att överföra texter från ett (mänskligt) språk (källspråket) till ett annat (målspråket) på ett sätt som bevarar betydelsen () automatiserar (delvis) processen Helt automatisk översättning Datorstödd (mänsklig) översättning 2 / 37

Vad är bra för? När man behöver få en uppfattning om innehållet (och inte har tillgång till mänskliga översättare): översätta epost och webbsidor få information från källor på olika språk (infosökning) Om man har ett begränsat ordförråd och ett litet antal meningstyper: översätta väderleksprognoser översätta tekniska manualer översätta termer på tekniska möten Om man vill att mänskliga översättare ska koncentrera sig på intressanta/svåra meningar och slippa slå upp okända ord och översätta enkla meningar 3 / 37

Behövs? Översättning är viktigt för flerspråkiga länder (Finland, Belgien, Schweiz... ) internationella organisationer (FN, IMF, WTO... ) multinationella företag och export företag EU har 24 officiella språk och lagar och andra dokument måste översättas till alla språk Översättningsindustrin är en av de snabbast växande branscherna i dagsläget 4 / 37

Olika strategier för System baserade på lingvistisk kunskap Transfersystem Interlingua-system System baserade på statistiska modeller (S) Dominerar både forskning och industri för närvarande Hybridsystem 5 / 37

Transfersystem Ett transfersystem består av en källspråksgrammatik en målsprålsgrammatik transferregler som relaterar k-strukturer till m-strukturer Ett exempel från franska till svenska: (1) Londres London plaît à Sam. är angenämt för Sam. Sam gillar London. 6 / 37

Steg i ett transfersystem 1. Källspråksgrammatiken översätter källspråksmeningen till en underliggande representation (k-ur): Londres plaît à Sam Londres plaire pres Sam 2. Transferreglerna relaterar k-ur till en m-ur: Fransk UR Svensk UR X plaire temp Y Sve(Y) gilla temp Sve(X) Londres plaire pres Sam Sam gilla pres London 3. Målspråksgrammatiken översätter m-ur till en målspråksmening: Sam gilla pres London Sam gillar London 7 / 37

Abstraktionsnivåer Transfer kan tillämpas på olika nivåer: Ord + grammatiska särdrag (som ovan) Partiell syntaktisk analys (chunking) Full syntaktisk analys Transfersystem fungerar bäst för språk med likartad struktur 8 / 37

Interlinguasystem Teoretiskt skulle vi kunna föra analysen ända till ett interlingua = en universell språkobereoende semantisk representation Fördel: För att lägga till ett nytt språk i ett -system, behöver man bara ange regler till och från interlingua-representationen Jämför: Transfersystem kräver dessutom transferregler för varje språkpar 9 / 37

10 / 37

Problem med interlingua Exakt vad ska ingå i interlingua-representationen? Engelska corner = spanska rincón = inre hörn eller esquina = yttre hörn? Ett finkornigt interlingua kan innebära onödigt arbete Japanska har olika ord för äldre bror och yngre bror, så vi måste disambiguera svenskans bror för att översätta till interlingua Om vi sedan översätter till franska, måste vi ignorera disambigueringen och översätta det som frère, vilket bara betyder bror 11 / 37

I stället för att skriva regler för hur översättningen ska gå till, kan vi använda maskininlärning från parallellkorpusar Vi kan kolla hur ofta ett ord översätts till ett annat och välja den mest frekventa översättningen Men hur vet vi hur ett ord översätts? Två fall: Vi har en parallellkorpus med länkning (eng alignment) Vi har en parallellkorpus utan länkning: använd en ordsäck (eng bag of words) Vi kan också lära in länkningen som en del av processen 12 / 37

Meningslänkning Meningslänkning = avgöra vilka källspråksmeningar som översätts till vilka målspråksmeningar Intuitivt ganska lätt, men kan vara svårare i praktiken p.g.a. fri översättning och/eller olika konventioner för interpunktion 13 / 37

Ordlänkning Ordlänkning = avgöra vilka källspråksord som översätts till vilka målspråksord Mycket svårare än meningslänkning att göra automatiskt Men om den är gjord, ger den värdefull information om ett ords översättningsekvivalent 14 / 37

Olika typer av ordlänkning Ett ord kan länkas till ett eller flera ord Ibland är det bäst att länka flera ord till flera ord Exempel från engelska-ryska ett-till-ett: khorosho = well ett-till-flera: kniga = the book flera-till-ett: to take a walk = gulyat flera-till-ett: at least = khotya by ( although if/would ) 15 / 37

Sannolikheter Med ordlänkning är det lätt att beräkna sannolikheter Vad är sannolikheten att engelskans run översätts till correr på spanska? 1. Räkna hur många gånger run förekommer i den engelska delen av parallellkorpusen, t.ex. 500 gånger 2. Räkna hur många av dessa som översätts (länkas till) correr, t.ex. 275 (av 500) 3. Dividera för att få sannolikheten: 275/500 = 0,55 (55%) 16 / 37

Ordsäck Men om vi inte har någon ordlänkning? Hur kan vi veta vilka ord som översätts till vilka ord? Vi kan behandla varje mening som en ordsäck = oordnad samling ord Om ord A förekommer i en mening, noterar vi alla ord i den andra meningen som samförekommande 17 / 37

Exempel Engelska He speaks Russian well. Ryska On khorosho govorit po-russki. Eng Rys Eng Rys He On speaks On He khorosho speaks khorosho He govorit...... He po-russki well po-russki Om vi samlar statistik över tusentals eller miljontals meningar, kommer He att samförekomma oftast med On, speaks med govorit osv. 18 / 37

Exempel Sannolikheter: mening 1 För He i He speaks Russian well/on khorosho govorit po-russki gör vi följande: 1. Räkna antalet ord i den ryska meningen: 4. 2. Ge varje ord lika stor översättningssannolikhet: 1/4 = 0,25 (25%) 19 / 37

Exempel Sannolikheter: mening 2 Om vi också har He is nice./on simpatich nyi., så gör vi följande för He: 1. Räkna antalet möjliga översättningsord: 4 + 2 = 6 Vi räknar inte antalet engelska ord, utan enbart antalet möjliga översättningar 2. Räkna antalet gånger On är översättning = 2 av 6 = 1/3 = 0,33 (33%). Alla andra ord har sannolikheten 1/6 = 0,17 (17%), så On är den bästa översättningen av He 20 / 37

Sannolikheter i översättningsmodeller Översättningsmodell = statistisk modell av hur målspråksmeningen genereras från källspråksmeningen Innehåller t.ex. följande typer av sannolikheter: n(k word) = sannolikheten för att ett källspråksord genererar k målspråksord p-null = sannolikheten för ett tomt ord t(tword sword) = sannolikheten för ett målspråksord givet ett källspråksord (det vi sett hittills) d(tposition sposition) = sannolikheten att ett målspråksord förekommer i en viss position l(word i word i 1 ) = sannolikheten för att ett målspråksord förekommer efter ett annat (språkmodellxs) Men vi behöver ordlänkning för att beräkna dessa sannolikheter (utom språkmodellen) 21 / 37

tatistical Bortom Machine ordsäckar Translation Lecture 3: Word Alignment and Phrase Models p arallel Corpora p... la maison... la maison blue... la fleur... Sta EM... the house... the blue house... the flower... Incomplete data English and foreign words, but no connections between them Ett höna-ägg-problem Chicken and egg problem Om vi hade ordlänkarna, kunde vi beräkna sannolikheterna if we had the connections, we could estimate the parameters of our generative story Om vi hade sannolikheterna, kunde vi beräkna ordlänkarna if we had the parameters, we could estimate the connections hilipp Koehn, University of Edinburgh 7 p.7 22 / 37 Ph

Expectation-Maximization Expectation-Maximization (EM) är en metod för att lära sig sannolikheter och länkar samtidigt EM i ett nötskal 1. gissa sannolikheter (t.ex. likformigt som i en ordsäck) 2. använd sannolikheter för att räkna (viktade) länkar 3. använd länkar för att beräkna sannolikheter 4. upprepa steg 2 och 3 tills man når en slutpunkt 23 / 37

Steg 1 tatistical Machine Translation Lecture 3: Word Alignment and Phrase Models p arallel Corpora p... la maison... la maison blue... la fleur... Sta EM... the house... the blue house... the flower... Incomplete data English and foreign words, but no connections between them Alla länkar lika sannolika Chicken and egg problem if we had the connections, we could estimate the parameters of our generative story if we had the parameters, we could estimate the connections 24 / 37

Efter första iterationen istical Machine Translation Lecture 3: Word Alignment and Phrase Models p Algorithm (3) p... la maison... la maison blue... la fleur...... the house... the blue house... the flower... After one iteration Länkar mellan t.ex. la och the mer sannolika Connections, e.g., between la and the are more likely 25 / 37

Efter nästa iteration tical Machine Translation Lecture 3: Word Alignment and Phrase Models p Algorithm (4) p... la maison... la maison bleu... la fleur... Sta E... the house... the blue house... the flower... After another iteration It Länkar mellan t.ex. fleur and flower är mer sannolika becomes apparent that connections, e.g., between fleur (uteslutningsprincipen) and flower are more likely (pigeon hole principle) 26 / 37

Konvergens tistical Machine Translation Lecture 3: Word Alignment and Phrase Models p M Algorithm (6) p... la maison... la maison bleu... la fleur... Stat IB... the house... the blue house... the flower... p(la the) = 0.453 p(le the) = 0.334 p(maison house) = 0.876 p(bleu blue) = 0.563... Parameter estimation from the connected corpus p.13 27 / 37

tatistical Machine Translation Lecture 3: Word Alignment and Phrase Models p Ordbaserade modeller klarar inte många-till-många översättningar hrase-based Translation p Morgen fliege ich nach Kanada zur Konferenz Tomorrow I will fly to the conference in Canada Foreign input is segmented in phrases any sequence of words, not necessarily linguistically motivated Fraser översätts till fraser Each Fraser phrase kan flyttas is translated om into English Men Phrases ordbaserade are reordered modeller tillåter många-till-en-länkningar, och vi kan använda dem för att extrahera många-till-många See [Koehn et al., NAACL2003] as introduction 28 / 37

dkombinera Word länkningar Alignments p english to spanish bofetada bruja Maria no daba una a la verde Mary did not slap the green witch spanish to english bofetada bruja Maria no daba una a la verde Mary did not slap the green witch intersection bofetada Maria no daba una a la bruja verde Mary did not slap the green witch Ta snittet av länkningar i båda riktningarna section of GIZA++ bidirectional alignments 29 / 37

l Machine Translation Lecture 3: Word Alignment and Phrase Models p Utöka länkningar oved Word Alignments (2) p bofetada Maria no daba una a la bruja verde Mary did not slap the green witch Grow additional alignment points Lägg till länkningar längs diagonalen [Och and Ney, CompLing2003] 30 / 37

Extraherade Statistical Machine Translation fraser Lecture 3: Word Alignment and Phrase Models p Word Alignment Induced Phrases (2) p Mary did not slap the green witch bofetada Maria no daba una a la bruja verde Statisti Wor (Maria, Mary), (no, did not), (slap, daba una bofetada), (a la, the), (bruja, witch), (verde, green), (Maria no, Mary did not), (no daba una bofetada, did not slap), (daba una bofetada a la, slap the), (bruja verde, green witch) Vi kan nu använda dessa fraser som enheter i vår statistiska modell Frasbaserade statistisk är den mest använda metoden för närvarande Philipp Koehn, University of Edinburgh 37 p.37 (Ma (ver (dab (Ma (no Philipp 31 / 37

Språk varierar mycket Lexikalt: vilka ord de använder Syntaktiskt: hur de sätter ihop ord till meningar Semantiskt: vilka betydelser språkliga uttryck har Pragmatiskt: hur språkliga uttryck används Dessutom kräver översättning kunskap om världen The baby is in the pen. 32 / 37

Lexikal flertydighet Ord kan vara lexikalt flertydiga = ha flera betydelser bank = financial institution or a place along a river can = cylindrical object or the act of putting something into that cylinder or a modal verb expressing possibility 33 / 37

Semantiska relationer Ofta hittar vi (ungefärliga) synonymer mellan två språk: English book = Russian kniga English music = Spanish música Men ord går inte alltid att matcha exakt mellan språk Engelskan är mer generell: Engelskans know motsvaras av franskans savoir ( veta ) eller connaitre ( känna ) English library motsvaras av tyskans Bücherei om det är öppet för allmänheten men av Bibliothek om det är avsett för forskning Engelskan är mer specifik: Tyskans berg motsvaras av hill eller mountain Ryskans ruka motsvaras av hand eller arm 34 / 37

Semantiskt överlapp paw etape jambe journey human leg patte animal animal bird chair human pied foot 35 / 37

Semantisk icke-kompositionalitet En del verb har inte så mycket betydelse, s.k. stödverb Franskans faire une promenade motsvarar engelskans take a walk Holländskans een poging doen motsvarar engelskans make an attempt Dessutom finns idiom = uttryck vars betydelse inte kan härledas från de ingående orden Engelskans kick the bucket ungefär detsamma som svenskans ta ner skylten men det är kanske bättre att översätta med dö och vi vill hantera det annorlunda än kick the ball 36 / 37

av -system Två aspekter av kvalitet Fluency = hur begriplig är översättningen? Fidelity = hur trogen är översättningen originalet? Ett vanligt utvärderingsmått är BLEU, som bygger på n-gram-överlapp med mänskliga översättningar BLEU korrelerar i viss mån med mänskliga bedömningar men bör tas med en nypa salt 37 / 37