Språkteknologi (SV2122) Föreläsning 9: Översättning

Relevanta dokument
Maskinöversättning 2008

Writing with context. Att skriva med sammanhang

Workplan Food. Spring term 2016 Year 7. Name:

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Adding active and blended learning to an introductory mechanics course

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Webbregistrering pa kurs och termin

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

Beijer Electronics AB 2000, MA00336A,

Sri Lanka Association for Artificial Intelligence

12.6 Heat equation, Wave equation

Styrteknik: Binära tal, talsystem och koder D3:1

Module 6: Integrals and applications

Vad är maskinöversättning?

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Vägar till bättre översättningsprogram

Isometries of the plane

Quick Start Guide Snabbguide

Statistisk maskinöversättning

Provlektion Just Stuff B Textbook Just Stuff B Workbook

Tentamen MMG610 Diskret Matematik, GU

Translation Changes in Swedish EBSCOhost Interface

Webbreg öppen: 26/ /

Maskinöversättning möjligheter och gränser

Isolda Purchase - EDI

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Read, work and talk! - och Lgr 11

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

Utvärdering SFI, ht -13

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Fortbildningsavdelningen för skolans internationalisering. Dossier 3. European Language Portfolio 16+ Europeisk språkportfolio 16+ English version

Inkvarteringsstatistik. Göteborg & Co. Februari 2012

Hur fattar samhället beslut när forskarna är oeniga?

Chapter 1 : Who do you think you are?

2.1 Installation of driver using Internet Installation of driver from disk... 3

1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Unit course plan English class 8C

Online MT output (EN-SE) Kriterier på bra översättning

Viktig information för transmittrar med option /A1 Gold-Plated Diaphragm

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

samhälle Susanna Öhman

Ett hållbart boende A sustainable living. Mikael Hassel. Handledare/ Supervisor. Examiner. Katarina Lundeberg/Fredric Benesch

Uttagning för D21E och H21E

Boiler with heatpump / Värmepumpsberedare

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)


Mot hållbar elbilsanvändning

Momento Silverline. To further protect the environment Momento introduces a new coating for our impact sockets - Momento Silverline

What Is Hyper-Threading and How Does It Improve Performance

Support Manual HoistLocatel Electronic Locks

Annonsformat desktop. Startsida / områdesstartsidor. Artikel/nyhets-sidor. 1. Toppbanner, format 1050x180 pxl. Format 1060x180 px + 250x240 pxl.

Stort Nordiskt Vänortsmöte maj Rundabordssamtal Hållbar stadsutveckling, attraktiva städer 20 maj 2016

Mönster. Ulf Cederling Växjö University Slide 1

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Second handbook of research on mathematics teaching and learning (NCTM)

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Installation av F13 Bråvalla

Föreläsning 4 IS1300 Inbyggda system

Datasäkerhet och integritet

Maskinöversättning. F Anna Sågvall Hein

The cornerstone of Swedish disability policy is the principle that everyone is of equal value and has equal rights.

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

onsdag den 21 november 2012 PRONOMEN

SVENSK STANDARD SS :2010

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

SVENSK STANDARD SS-ISO :2010/Amd 1:2010

Do you Think there is a problem with the car traffic to or from the inner city weekdays ?

Grafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:

Module 1: Functions, Limits, Continuity

Studieteknik för universitetet 2. Books in English and annat på svenska

Från extern till intern på tre dagar Erfarenheter från externa lärares pedagogiska kompetensutveckling

SWESIAQ Swedish Chapter of International Society of Indoor Air Quality and Climate

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Här kan du checka in. Check in here with a good conscience

Teknikprogrammet Klass TE14A, Norrköping. Jacob Almrot. Självstyrda bilar. Datum:

Wittgenstein for dummies Eller hur vi gör det obegripliga begripligt. Västerås 15 februari 2017

Protokoll Föreningsutskottet

InstalationGuide. English. MODEL:150NHighGain/30NMiniUSBAdapter

Collaborative Product Development:

Statistisk Maskinöversättning eller:

Cancersmärta ett folkhälsoproblem?

VAD SKULLE DU HA VALT PDF

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

SVENSK STANDARD SS

Arbetsmiljö för doktorander

Good Stuff GOLD A. PROVLEKTION: In The Dogpark

Aborter i Sverige 2008 januari juni

xperia p manual svenska

Preschool Kindergarten

Sara Skärhem Martin Jansson Dalarna Science Park

Arbetsmiljö för doktorander

Spel(ar)kultur. Spelfortbildning april Matilda Ståhl Åbo Akademi

Transkript:

Språkteknologi (SV2122) Föreläsning 9: Översättning Richard Johansson richard.johansson@svenska.gu.se 26 februari 2014

översikt inledning: vad är översättning? djupa metoder: datorn läser och förstår texten generera därefter en översättning utifrån betydelsen ytliga metoder: observera hur ett ord eller en fras brukar översättas i korpusar generera översättningen genom att återanvända fraser utvärdering av översatt text något om verktyg

vad är översättning? givet en text skriven på ett språk (källspråket)... producera en text på ett annat språk (målspråk)... så att de har samma betydelse

behov av översättning I vardagligt, t.ex. jag vill förstå en websida på ryska I översättning av t.ex. skönlitteratur: förmodligen en liten del av den faktiska översättning som görs I exempel på områden där översättning massproduceras: I samhällsinformation t.ex. på Sveriges 5 minoritetsspråk I erspråkiga politiska organisationer t.ex. EU, Finland I manualer I lagar, patent I underrättelseverksamhet

Introduction Automatic translation: a computer program that translates a text in one language (the source) into another language (the target). This is one of the most high-prole areas of NLP, and perhaps its most classical problem Challenges: How to preserve the meaning? [adequacy] How to respect the grammar of the target language [uency]

hjälpmedel för översättare även den som vill göra sin översättning manuellt kan ha nytta av en del olika verktyg: översättningsminnen se t.ex. http://sv.glosbe.com/sv/en/konstig konkordanser terminologidatabaser...

översikt djupa metoder ytliga metoder utvärdering fortsättningen

idealiserad bild av översättningprocessen

klassisk maskinöversättning

ett konstruerat exempel

ett konstruerat exempel

ett konstruerat exempel

ett konstruerat exempel

ett konstruerat exempel

ett konstruerat exempel

mellanrepresentationer i praktiken i praktiken är det svårt att göra någon allmänt användbar mellanrepresentation... och att analysera betydelse i obegränsad text är ett öppet forskningsproblem! däremot kan det fungera bra om vi vet att texterna kommer från något begränsat område

exempel: väderprognoser

exempel: projektet MOLTO http://www.molto-project.eu http://www.molto-project.eu/cloud/ gf-application-grammars

översikt djupa metoder ytliga metoder utvärdering fortsättningen

korpusbaserad maskinöversättning Statistical, corpus-based MT: observe translated corpora, translate new text by recombining fragments of previous examples

korpusbaserad maskinöversättning Statistical, corpus-based MT: observe translated corpora, translate new text by recombining fragments of previous examples

varför korpusbaserad maskinöversättning? praktiskt: det har visat sig oerhört svårt att beskriva betydelse på ett praktiskt sätt förutom i begränsade områden t.ex. väderleksrapporter lingvistiskt: språkproduktion består till stor del av återanvändning av halvfabrikat (jfr t.ex. konstruktionsgrammatik) det nns mycket mer godtycke än vad vi kanske tänker oss! idén om återanvändning av fragment är besläktad den om översättningsminnen

Statistical Machine Translation One of the rst research areas in LT; since late 1940s. Weaver (1949): When I look at an article in Russian, I say This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode. Suggested a noisy channel model inspired by cryptography, very similar to modern SMT we can think of translation as a decryption problem; we are given a signal and want to nd the underlying message Not feasible in the early days of computing, but took o in the 1980s-1990s with the availability of fast computers and availability of data http://www.mt-archive.info/weaver-1949.pdf

Parallel Corpora Statistical models are estimated from parallel corpora A corpus of the same text in two languages Normally hand-aligned on the sentence level IBM research team: Canadian Hansards, EnglishFrench Europarl, http://www.statmt.org/europarl

exempel: Europarl http://spraakbanken.gu.se/korp/?mode=parallel

Corpus-based machine translation

IBM models IBM models are simple word-based translation models There are several variants (IBM models 16) Introduces a crucial concept: word alignment Word-based translation is usually too simple to be useful May still be useful in very closely related language pairs such as SwedishDanish. However, these models are still important today: word alignments and word translation probabilities are used for computing Phrase tables and phrase translation probabilities in phrase-based translation Grammar rule translation probabilities in syntax-based translation

matematiken i IBM-metoderna en central idé i IBM-metoderna och många andra statistiska översättningmetoder är att man använder två sorters sannolikheter: översättning av ord: t.ex. vad är sannolikheten att vård översätts till care? ordföljd: t.ex. vilken ordföljd är sannolikast, nödvändigt vård eller nödvändig vård? man brukar formulera översättningen med följande ekvation: översättning = arg maxt P(T )P(S T )... där P(S T ) betyder översättningssannolikhet, P(T ) ordföljdsssannolikhet, och arg maxt hitta den översatta mening som maximerar sannolikheten

Word alignment example

hur går ordlänkningen till? en parallellkorpus är översatt mening för mening hur länkar vi ord till ord om vi inte vet vad orden betyder? idé: titta vilka ord som brukar förekomma samtidigt i översatta meningar ju oftare de samförekommer, desto säkrare blir vi på att de ska länkas Das ist gut. 0.6 That 0.2 is 0.1 0 good. 0.1 (none)

exempel på länkningar av enskilda ord i Europarl vård, totalt 982 förekomster: 385 care 79 treatment 51 health 43 healthcare 17 the 10 caring

statistik i ordbaserad översättning (IBM) We are given a set of sentence pairs in a parallel corpus. How do we estimate the probabilities the IBM model? Compute the word alignments...... then we can estimate word translation probabilities: P(vård care) = antal vård care antal vård = 385 982

statistiken i ordbaserad översättning: ordföljder ordföljdssannolikheterna tas fram genom att räkna vilka ordföljder som är vanligast i korpusar den kan hjälpa oss att välja mellan olika tänkbara översättningar t.ex. nödvändig vård förekommer 3 gånger i Europarl; nödvändigt vård inte alls fördel med en separat ordföljdsdel: statistiken i den kan konstrueras med enspråkiga korpusar

example: ranking translations with a language model Τη σερβίρουμε χλιαρή. To serve warmly. To be placed lukewarm. Serve it warm....

exempel på hur översättningen går till exempel a small town a { en, ett,... } small { små, liten, litet, lilla, mindre,... } town { stad, staden, städer, samhälle, hemstad... } välj den ordföljd som ger högst sannolikhet översättningssannolikheter för översättning av enskilda ord ordföljdsannolikheter för svenska ordföljder uppgiften att välja den översättning som ger högst sannolikhet brukar kallas avkodning (decoding) observera likheten med ordklassanalys i det här enkla fallet!

översikt igen

Phrase-Based Statistical Translation Phrase-based translation models are a generalization of the word-based models, where translation, distortion and fertility models are dened on phrases instead of words (see, e.g., Koehn, Och and Marcu 2003). Phrases need not be linguistically motivated but can be arbitrary n-grams in the two languages.

Syntax-Based Statistical Translation Synchronous context free grammars (SCFGs): context-free grammar in two dimensions Generates pairs of strings/trees simultaneously Translation: parse the source sentence, simultaneously generate the target sentence

Software for statistical MT GIZA++: Implements IBM models 15. Useful for computing word alignments (http://code.google.com/p/giza-pp) Moses: Reference implementation and research platform for standard phrase-based and syntax-based SMT algorithms (http://www.statmt.org/moses) här nns också till ett par demonstrationssystem som byggts med hjälp av Moses tyvärr verkar inte det nska systemet funka... http://www.statmt.org/moses/?n=public.demos

översikt djupa metoder ytliga metoder utvärdering fortsättningen

Evaluation of machine translation systems MT evaluation is hard! Human judgments: Fluency Adequacy Examples: Reference: Yesterday, stock and commodity prices fell on the world's markets. Output 1: Stock markets and commodity markets fell globally yesterday. Output 2: The stock market fell in Zurich. Output 3: Around globe stock market, and and also, commodities fall yesterday. Output 4: Market and win ball rolling yesterday around electronic highly.

Automatic evaluation methods Human judgments take too much time Automatic judgment: BLEU P1: unigram precision P2, P3, P4: bi-, tri-, 4-gram Weighted mean Brevity penalty BLEU is controversial! People often complain but no alternative is widely accepted.

Do automatic evaluation methods make sense?

utmaningar, t.ex. pronomenreferens det nns en hel del lingvistiska problem vid översättning som vi inte vet hur vi ska lösa, oavsett om vi använder djupa eller ytliga metoder... det verkar som om det i sådana fall krävs att vi faktiskt förstår texten! The house was red. It was Peter who built it.

exempel på utmaningar: ordbetydelse La borsa di studio è cumulabile con il sussidio (Provvidenza) o con altra borsa erogata da altro ente? The scholarship will be combined with the subsidy (Providence) or other bag delivered by another institution? Stipendiet kommer att kombineras med bidraget (Providence) eller annan påse som levereras av en annan institution?

översikt djupa metoder ytliga metoder utvärdering fortsättningen

datorövning 2 använda verktyg för ordklassanalys och syntaktisk analys och förstå varför de beter sig som de gör fredag i T225

nästa föreläsning datorstödd språkinlärning onsdag, C452 (Humanisten) Elena föreslår att den som har en egen laptop tar med sig den