Online MT output (EN-SE) Kriterier på bra översättning



Relevanta dokument
Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Maskinöversättning 2008

Kapitlet är främst en introduktion till följande kapitel. Avsnitt 9-1, 9-2, 9-4 och 9-5 ingår i kursen.

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Mapping sequence reads & Calling variants

Språkpsykologi/psykolingvistik

1 INTRODUKTION SUPERLÄNKAR SCOTS TEXTER ÖVERSÄTTNING RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET

Grammatik för språkteknologer

Eternal Employment Financial Feasibility Study

Styrteknik: Binära tal, talsystem och koder D3:1

Ready for Academic Vocabulary?

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Michael Q. Jones & Matt B. Pedersen University of Nevada Las Vegas

Språkteknologi (SV2122) Föreläsning 9: Översättning

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Isolda Purchase - EDI

4 grundregler. Minneshantering. Problemet. Windows minkrav

Questionnaire on Nurses Feeling for Hospital Odors

Preschool Kindergarten

Questionnaire for visa applicants Appendix A

Quicksort. Koffman & Wolfgang kapitel 8, avsnitt 9

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Sri Lanka Association for Artificial Intelligence

Rastercell. Digital Rastrering. AM & FM Raster. Rastercell. AM & FM Raster. Sasan Gooran (VT 2007) Rastrering. Rastercell. Konventionellt, AM

Från osäkerhet till säkerhet ISO för mätning

The present situation on the application of ICT in precision agriculture in Sweden

Tentamen: Datordel Programmeringsteknik

Uppföljning av etiska krav


FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Webbregistrering pa kurs och termin

Småprat Small talk (stressed vowels are underlined)

Språket, individen och samhället VT08

Partiell parsning Parsning som sökning

Maskinöversättning. Johan Boye, KTH

Writing with context. Att skriva med sammanhang

CUSTOMER READERSHIP HARRODS MAGAZINE CUSTOMER OVERVIEW. 63% of Harrods Magazine readers are mostly interested in reading about beauty

Affärsmodellernas förändring inom handeln

PORTSECURITY IN SÖLVESBORG

Maskinöversättning. F Anna Sågvall Hein

Quick Start Guide Snabbguide

Introduktion till språkteknologi. Datorstöd för språkgranskning

Vägar till bättre översättningsprogram

Chalmers Innovation Seed Fund

Introduktion till migrering till molnet. PART 4: Plattformar för molntjänster

MÖSG ht 2005 Maskinöversättningssystemet MATS

Självkörande bilar. Alvin Karlsson TE14A 9/3-2015

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Tekniker för storskalig parsning

ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN

SVENSK STANDARD SS-EN ISO

TDDD02 Föreläsning 6 HT-2013

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Documentation SN 3102

Measuring child participation in immunization registries: two national surveys, 2001

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Surfaces for sports areas Determination of vertical deformation. Golvmaterial Sportbeläggningar Bestämning av vertikal deformation

Tentamen Marco Kuhlmann

The Optimisation Wheel

Word- sense disambiguation

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

SVENSK STANDARD SS-EN 175

Värmeväxlare - Terminologi. Heat exchangers -Terminology

Webbreg öppen: 26/ /

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Vår anläggning Our venue

Lektion 3. Anteckningar

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Nya möjligheter med M3 Technology. Björn Svensson, Björn Torold

Användarhandbok. MHL to HDMI Adapter IM750

Särskild avgift enligt lagen (2012:735) med kompletterande bestämmelser till EU:s blankningsförordning

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Isometries of the plane

SVENSK STANDARD SS-EN ISO

State Examinations Commission

#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Provlektion Just Stuff B Textbook Just Stuff B Workbook

Not everything that counts can be counted, and not everything that can be counted counts. William Bruce Cameron

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Så gör du din kund nöjd och lojal - och får högre lönsamhet. Tobias Thalbäck Om mätbara effekter av kundnöjdhet

Inkvarteringsstatistik. Göteborg & Co

Episerver Advance Introducing: Episerver Advance. Episerver


Botnia-Atlantica Information Meeting

Nr 17 Överenskommelse med Thailand om radioamatörverksamhet

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Insamlingsforumbilden. Den nya givaren

Module 6: Integrals and applications

Design Service Goal. Hantering av demonterbara delar som ingår i Fatigue Critical Baseline Structure List. Presentatör

Datasäkerhet och integritet

Vad är maskinöversättning?

English. Things to remember

SVENSK STANDARD SS-EN ISO

Transkript:

Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering av översättningsdata Textkonsumtion (lässtöd) online översättning av webbsidor beslutsstöd ( behöver texten översättas i sin helhet? ) Textproduktion (publiceringsstöd) Råöversättning för vidare bearbetning Färdig översättning ( subspråk som väderprognoser) Interaktionsstöd Talöversättning, chat, m.m. Tvärspråklig informationssökning m.m. 1 2 MT system på webben Online MT output (FR-EN) Google translate (http://www.google.se/language_tools) Windows Live Translation (http://www.windowslivetranslator.com/) Yahoo Babelfish (http://babelfish.yahoo.com) Promt (http://www.online-translator.com/)... BRUSSELS CORRESPONDING (Le Monde) They s' Peter-Jan and Aad call, are Dutch and live peacefully in a house of Gers, with a room d' hosts. /... / By depositing their first French income declaration in 2005, they asserted a common imposition. First refusal of l' administration, calling upon the French law which does not recognize the validity d' a marriage between people of the same sex. Helped d' a Parisian lawyer, I Alain Leclerc, the two Netherlanders then claimed l' application of convention signed by France and the rules of the private international law. CORRESPONDING BRUSSELS (The World) They are called Peter-Jan and Aad, are Dutch and live quietly in a home of the Gers, with guests' room. /... / By depositing their first French tax return in 2005, they demanded a common taxation. First refusal of the administration, invoking the French law which does not admit the validity of a marriage between persons of the same sex. Helped by a Parisian lawyer, Miss Alain Leclerc, both Dutchmen then claimed the application of conventions signed by France and rules of private international law. 3 4 Online MT output (EN-SE) Kriterier på bra översättning Imagine that you are an analyst with an investment firm that tracks airline stocks. You're given the task of determining the relationship (if any) between airline announcements of f are increases and the behavior of their stocks the next day. Föreställ dig att du är en analytiker med ett värdepappersföretag som spårar flygbolaget bestånd. Du har fått i uppdrag att bestämma förhållandet (om någon) mellan flygbolag tillkännagivanden av biljettpriset ökar och beteendet hos sina lager nästa dag. Innehållet överensstämmer med originalet Begriplighet (anpassning till läsaren) Textflyt (på målspråket) Automatisk översättning skapar ofta något som har en strukturell överensstämmelse med originalet, men en egen stil och heller inte alltid semantiskt korrekt. 5 6

Jämförelse MT och HT Problem för maskinöversättning Samplingsstorlek 100 meningar Baserat på statistik över icke-obligatoriska strukturella och semantiska förändringar MT Specification Index HT Structural Change Index Form underspecificerar innehållet Flertydighet serve kan t.ex. betyda serva, tjäna, servera, Språkskillnader Lexikala skillnader ( semantiska fält ) Valet mellan alternativa översättningar kräver ofta förståelse av texten som helhet Aunt Petunia (faster eller moster?) Grammatiska skillnader Bestämd vs. obestämd form i svenskan Perfektiv vs. imperfektiv i polska verb 7 8 Problem för maskinöversättning Utvärdering Innehåll underspecificerar form Samma innehåll kan uttryckas på många olika sätt, men alla sätt passar inte lika bra i ett visst textsammanhang. Stilistiska skillnader mellan språk Utvärdering av maskinöversättningssystem använder både experter och automatiska mått. Önskemålet är att komma fram till mått som har hög korrelation med expertutvärdering. Problem: Experter är ofta inte överens, Experter är ofta inte konsekventa Olika mått har visat sig ge bäst korrelation i olika studier... 9 10 Expertutvärdering Experter kan bl.a. användas för att bedöma olika aspekter som innehållsöverenstämmelse och textflyt (adequacy resp. fluency) på en (säg) femgradig skala, rangordna översättningar från olika system, hela meningar enstaka fraser 11 Ofta använda mått på översättning WER (Word error rate) SER (Sentence error rate) BLEU (Bilingual Evaluation Understudy) BLEU = brevity penalty * 1/4 where p n is the amount of n-gram overlap between output and reference document(s) for n=1,2,3,4. NIST (variant av BLEU) Meteor (kan inkorporera synonymer och/eller lemmatisering)... 12

Pyramiddiagrammet över metoder Analysexempel i olika metoder Interlingual representation Källmening: All men are equal Direkt: Syntaktisk transfer: ANALYS Semantisk transfer Syntaktisk transfer SYNTES alla, allt, män, människor, är, finns, likadant, likadana, lika, S NP VP Det N V AP källmening Direktöversättning översättning Semantisk transfer: All(s, x, p, q) & Now(s) & p=man(x) & q=equal(x) All men are equal 13 14 Direktöversättning Direktöversättning Ordbaserad lexikonet som central resurs Fasuppdelad efter olika delproblem taggning, idiom, prepositionsval, ordföljd, ofta kritiserad för att vara ad hoc Även kallat 1:a generationens system Tidigt exempel: SYSTRAN varje fas innebär disambiguering Tokenisering och taggning Ordöversättning Ordföljdsändring tagg kan koda kontext Jmf. betydelsebestämning av ord t.ex. via klasser och omskrivningsregler 15 16 Systemet Apertium Apertium is an open-source machine translation platform, initially aimed at related-language pairs but recently expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides 1. a language-independent machine translation engine 2. tools to manage the linguistic data necessary to build a system 3. linguistic data for a growing number of language pairs. Apertium uses a shallow-transfer machine translation engine which processes the input text in stages, as in an assembly line: de-formatting, morphological analysis, part-of-speech disambiguation, shallow structural transfer, lexical transfer, morphological generation, and re-formatting. Apertium uses finite-state transducers for all lexical processing operations (morphological analysis and generation, lexical transfer), hidden Markov models for part-of-speech tagging, and multi-stage finite-state based chunking for structural transfer. 17 Syntaktisk transfer Baseras på syntaktisk parsning Frasstruktur eller dependensstruktur Syntaktisk transfer Trädtransformationer Ofta top-down modell (för att maximera tillgänglig kontext) Även semantisk kategorisering av ord och fraser 18

Semantisk transfer Statistiska modeller för MT (SMT) Transfer utgår från en semantisk representation Predikat-argument-struktur Ofta även med kvantifikatorer Predikaten kan vara mer eller mindre analyserade (lemman eller lexem) 1. Baserat på den brusiga kanalen översättning som avkodning 2. Avsett för ett givet språkpar och riktning; 3. Central dataresurs är ett probabilistiskt lexikon; 4. Lexikonet skapas genom att bestämma parametervärden i en probabilistisk modell från en parallellkorpus; 5. Språkmodellen skapas utifrån samma korpus; 6. Skillnader i ordföljd utjämnas ibland före träning; 19 20 Maskinöversättning i två dimensioner Analysdjup / Kompositionalitet semantikbaserad syntaxbaserad frasbaserad ordbaserad Statistiska modeller Klassisk modell för statistisk MT The noisy channel model argmax p(e F) = argmax p(e)p(f E) E p(e) Källa E p(e F) Kanal F 21 22 Alternativ motivering Alternativ modell Översättning betraktas som en stokastisk process vars resultat beror av flera okända faktorer: En log-linjär modell uppskattar sannolikheten p(e F) direkt med användning av indikatorer och vikter på dessa. Ê = argmax { w m h m (E,F) } m E F? 23 24

Grunder i SMT Ordlänkning Modellerna uppskattas utifrån parallella korpusar, dvs par av meningar (F k, E k ), där E k är en översättning av F k. Centrala modeller är: översättningsmodellen sannolikheter för översättningar på ordnivå p(f,e). språkmodellen ngram-modeller I do not have any money. Jag har inga pengar. 25 26 Ordlänkning: matrisrepresentation Översättning som dechiffrering En länkning associerar ordpositioner mellan två meningar: källmening och översättning: Sökningen efter Ê kallas dechiffrering ( decoding ) i statistisk MT och använder ofta någon form av heuristik, t.ex. beam search, dvs en gräns sätts för hur många alternativ som systemet kan arbeta med samtidigt. Hypoteser genereras utifrån de statistiska modellerna och utvidgas ett ord, eller en fras, i taget. 27 28 Överföringsmodeller Flera olika statistiska modeller kan skapas: ordöversättningsmodeller p(e f) flyttningsmodeller d(i j) or d(a j, a j-1 ), dvs modeller för hur långt en översättning av ett ord befinner sig från källan. fertilitetsmodeller f(n f) where n=1, 2, dvs modeller för hur många ord ett visst källord ger upphov till i översättningen. Systemet Moses Öppen källkod Frasbaserat Innehåller programmoduler för länkning, frasgenerering och optimering av vikter 29 30

Frasbaserad SMT Moses: översikt Frasbaserad SMT innebär att systemet jobbar med fraser (= ordsekvenser) och deras interna länkar i stället för ord. Detta har generellt visat sig ge bättre översättningsresultat. Skälet är att fraser inkorporerar lokal kontext och omflyttningar och strykningar som ger problem för ordbaserad SMT. Exempel:... did they not show up... ~ kom de inte 31 Preprocessing Tokenization Filtering Lowercasing LM kit Training - Translation models, - Alignments, - Phrase tables, - Reordering models, -... -Language model -Reference translations Tuning -model weights Decoding Evaluation Grå moduler ingår ej! 32 Ordlänkning Syfte Hitta segment på ordnivå (enskilda ord eller flerordsenheter) i parallella korpusar som är varandras översättningar Metod Väg samman faktorer som utmärker översättningspar Samförekomststatistik Ordformer, lemman, ordklasser, m.m. Kognater (= ord som är snarlika, t.ex. international ~ internationell) Kända par från lexikon (always ~ alltid, ) Välj girigt och utifrån mest sannolika alternativ Frasgenerering Fraser kan skapas utifrån en ordlänkning: Träningskorpusen länkas i båda riktningarna, Man kan sedan kombinera dessa via union, (högre recall, sämre precision) skärning, (högre precision, lägre recall) någon utvidgning av skärningsmängden 33 34 Alignment F E Alignment E F 35 36

Union of alignments E - F Intersection of alignments E F 37 38 Growing the intersection Skapa fraser 39 40 Ordkorrespondenser i några datormanualer Automatisk länkning WCR(A,B) = 2cooccur(A,B)100 occur(a)+occur(b) TB(A,B) = cooccur(a,b) occur(b) 41 42

Interaktiv länkning I*Link - användargränssnitt En användare granskar förslag från ett ordlänkningssystem, eller skapar länkar manuellt Att tänka på: Vad är motsvarigheter, egentligen? Anpassa länkning till syftet med resultatet. 43 44 Prestanda Automatiska system Interaktiva system Precision: 60-90% Täckning: 40-70% Precision: >90% Täckning: <100% 45