Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering av översättningsdata Textkonsumtion (lässtöd) online översättning av webbsidor beslutsstöd ( behöver texten översättas i sin helhet? ) Textproduktion (publiceringsstöd) Råöversättning för vidare bearbetning Färdig översättning ( subspråk som väderprognoser) Interaktionsstöd Talöversättning, chat, m.m. Tvärspråklig informationssökning m.m. 1 2 MT system på webben Online MT output (FR-EN) Google translate (http://www.google.se/language_tools) Windows Live Translation (http://www.windowslivetranslator.com/) Yahoo Babelfish (http://babelfish.yahoo.com) Promt (http://www.online-translator.com/)... BRUSSELS CORRESPONDING (Le Monde) They s' Peter-Jan and Aad call, are Dutch and live peacefully in a house of Gers, with a room d' hosts. /... / By depositing their first French income declaration in 2005, they asserted a common imposition. First refusal of l' administration, calling upon the French law which does not recognize the validity d' a marriage between people of the same sex. Helped d' a Parisian lawyer, I Alain Leclerc, the two Netherlanders then claimed l' application of convention signed by France and the rules of the private international law. CORRESPONDING BRUSSELS (The World) They are called Peter-Jan and Aad, are Dutch and live quietly in a home of the Gers, with guests' room. /... / By depositing their first French tax return in 2005, they demanded a common taxation. First refusal of the administration, invoking the French law which does not admit the validity of a marriage between persons of the same sex. Helped by a Parisian lawyer, Miss Alain Leclerc, both Dutchmen then claimed the application of conventions signed by France and rules of private international law. 3 4 Online MT output (EN-SE) Kriterier på bra översättning Imagine that you are an analyst with an investment firm that tracks airline stocks. You're given the task of determining the relationship (if any) between airline announcements of f are increases and the behavior of their stocks the next day. Föreställ dig att du är en analytiker med ett värdepappersföretag som spårar flygbolaget bestånd. Du har fått i uppdrag att bestämma förhållandet (om någon) mellan flygbolag tillkännagivanden av biljettpriset ökar och beteendet hos sina lager nästa dag. Innehållet överensstämmer med originalet Begriplighet (anpassning till läsaren) Textflyt (på målspråket) Automatisk översättning skapar ofta något som har en strukturell överensstämmelse med originalet, men en egen stil och heller inte alltid semantiskt korrekt. 5 6
Jämförelse MT och HT Problem för maskinöversättning Samplingsstorlek 100 meningar Baserat på statistik över icke-obligatoriska strukturella och semantiska förändringar MT Specification Index HT Structural Change Index Form underspecificerar innehållet Flertydighet serve kan t.ex. betyda serva, tjäna, servera, Språkskillnader Lexikala skillnader ( semantiska fält ) Valet mellan alternativa översättningar kräver ofta förståelse av texten som helhet Aunt Petunia (faster eller moster?) Grammatiska skillnader Bestämd vs. obestämd form i svenskan Perfektiv vs. imperfektiv i polska verb 7 8 Problem för maskinöversättning Utvärdering Innehåll underspecificerar form Samma innehåll kan uttryckas på många olika sätt, men alla sätt passar inte lika bra i ett visst textsammanhang. Stilistiska skillnader mellan språk Utvärdering av maskinöversättningssystem använder både experter och automatiska mått. Önskemålet är att komma fram till mått som har hög korrelation med expertutvärdering. Problem: Experter är ofta inte överens, Experter är ofta inte konsekventa Olika mått har visat sig ge bäst korrelation i olika studier... 9 10 Expertutvärdering Experter kan bl.a. användas för att bedöma olika aspekter som innehållsöverenstämmelse och textflyt (adequacy resp. fluency) på en (säg) femgradig skala, rangordna översättningar från olika system, hela meningar enstaka fraser 11 Ofta använda mått på översättning WER (Word error rate) SER (Sentence error rate) BLEU (Bilingual Evaluation Understudy) BLEU = brevity penalty * 1/4 where p n is the amount of n-gram overlap between output and reference document(s) for n=1,2,3,4. NIST (variant av BLEU) Meteor (kan inkorporera synonymer och/eller lemmatisering)... 12
Pyramiddiagrammet över metoder Analysexempel i olika metoder Interlingual representation Källmening: All men are equal Direkt: Syntaktisk transfer: ANALYS Semantisk transfer Syntaktisk transfer SYNTES alla, allt, män, människor, är, finns, likadant, likadana, lika, S NP VP Det N V AP källmening Direktöversättning översättning Semantisk transfer: All(s, x, p, q) & Now(s) & p=man(x) & q=equal(x) All men are equal 13 14 Direktöversättning Direktöversättning Ordbaserad lexikonet som central resurs Fasuppdelad efter olika delproblem taggning, idiom, prepositionsval, ordföljd, ofta kritiserad för att vara ad hoc Även kallat 1:a generationens system Tidigt exempel: SYSTRAN varje fas innebär disambiguering Tokenisering och taggning Ordöversättning Ordföljdsändring tagg kan koda kontext Jmf. betydelsebestämning av ord t.ex. via klasser och omskrivningsregler 15 16 Systemet Apertium Apertium is an open-source machine translation platform, initially aimed at related-language pairs but recently expanded to deal with more divergent language pairs (such as English-Catalan). The platform provides 1. a language-independent machine translation engine 2. tools to manage the linguistic data necessary to build a system 3. linguistic data for a growing number of language pairs. Apertium uses a shallow-transfer machine translation engine which processes the input text in stages, as in an assembly line: de-formatting, morphological analysis, part-of-speech disambiguation, shallow structural transfer, lexical transfer, morphological generation, and re-formatting. Apertium uses finite-state transducers for all lexical processing operations (morphological analysis and generation, lexical transfer), hidden Markov models for part-of-speech tagging, and multi-stage finite-state based chunking for structural transfer. 17 Syntaktisk transfer Baseras på syntaktisk parsning Frasstruktur eller dependensstruktur Syntaktisk transfer Trädtransformationer Ofta top-down modell (för att maximera tillgänglig kontext) Även semantisk kategorisering av ord och fraser 18
Semantisk transfer Statistiska modeller för MT (SMT) Transfer utgår från en semantisk representation Predikat-argument-struktur Ofta även med kvantifikatorer Predikaten kan vara mer eller mindre analyserade (lemman eller lexem) 1. Baserat på den brusiga kanalen översättning som avkodning 2. Avsett för ett givet språkpar och riktning; 3. Central dataresurs är ett probabilistiskt lexikon; 4. Lexikonet skapas genom att bestämma parametervärden i en probabilistisk modell från en parallellkorpus; 5. Språkmodellen skapas utifrån samma korpus; 6. Skillnader i ordföljd utjämnas ibland före träning; 19 20 Maskinöversättning i två dimensioner Analysdjup / Kompositionalitet semantikbaserad syntaxbaserad frasbaserad ordbaserad Statistiska modeller Klassisk modell för statistisk MT The noisy channel model argmax p(e F) = argmax p(e)p(f E) E p(e) Källa E p(e F) Kanal F 21 22 Alternativ motivering Alternativ modell Översättning betraktas som en stokastisk process vars resultat beror av flera okända faktorer: En log-linjär modell uppskattar sannolikheten p(e F) direkt med användning av indikatorer och vikter på dessa. Ê = argmax { w m h m (E,F) } m E F? 23 24
Grunder i SMT Ordlänkning Modellerna uppskattas utifrån parallella korpusar, dvs par av meningar (F k, E k ), där E k är en översättning av F k. Centrala modeller är: översättningsmodellen sannolikheter för översättningar på ordnivå p(f,e). språkmodellen ngram-modeller I do not have any money. Jag har inga pengar. 25 26 Ordlänkning: matrisrepresentation Översättning som dechiffrering En länkning associerar ordpositioner mellan två meningar: källmening och översättning: Sökningen efter Ê kallas dechiffrering ( decoding ) i statistisk MT och använder ofta någon form av heuristik, t.ex. beam search, dvs en gräns sätts för hur många alternativ som systemet kan arbeta med samtidigt. Hypoteser genereras utifrån de statistiska modellerna och utvidgas ett ord, eller en fras, i taget. 27 28 Överföringsmodeller Flera olika statistiska modeller kan skapas: ordöversättningsmodeller p(e f) flyttningsmodeller d(i j) or d(a j, a j-1 ), dvs modeller för hur långt en översättning av ett ord befinner sig från källan. fertilitetsmodeller f(n f) where n=1, 2, dvs modeller för hur många ord ett visst källord ger upphov till i översättningen. Systemet Moses Öppen källkod Frasbaserat Innehåller programmoduler för länkning, frasgenerering och optimering av vikter 29 30
Frasbaserad SMT Moses: översikt Frasbaserad SMT innebär att systemet jobbar med fraser (= ordsekvenser) och deras interna länkar i stället för ord. Detta har generellt visat sig ge bättre översättningsresultat. Skälet är att fraser inkorporerar lokal kontext och omflyttningar och strykningar som ger problem för ordbaserad SMT. Exempel:... did they not show up... ~ kom de inte 31 Preprocessing Tokenization Filtering Lowercasing LM kit Training - Translation models, - Alignments, - Phrase tables, - Reordering models, -... -Language model -Reference translations Tuning -model weights Decoding Evaluation Grå moduler ingår ej! 32 Ordlänkning Syfte Hitta segment på ordnivå (enskilda ord eller flerordsenheter) i parallella korpusar som är varandras översättningar Metod Väg samman faktorer som utmärker översättningspar Samförekomststatistik Ordformer, lemman, ordklasser, m.m. Kognater (= ord som är snarlika, t.ex. international ~ internationell) Kända par från lexikon (always ~ alltid, ) Välj girigt och utifrån mest sannolika alternativ Frasgenerering Fraser kan skapas utifrån en ordlänkning: Träningskorpusen länkas i båda riktningarna, Man kan sedan kombinera dessa via union, (högre recall, sämre precision) skärning, (högre precision, lägre recall) någon utvidgning av skärningsmängden 33 34 Alignment F E Alignment E F 35 36
Union of alignments E - F Intersection of alignments E F 37 38 Growing the intersection Skapa fraser 39 40 Ordkorrespondenser i några datormanualer Automatisk länkning WCR(A,B) = 2cooccur(A,B)100 occur(a)+occur(b) TB(A,B) = cooccur(a,b) occur(b) 41 42
Interaktiv länkning I*Link - användargränssnitt En användare granskar förslag från ett ordlänkningssystem, eller skapar länkar manuellt Att tänka på: Vad är motsvarigheter, egentligen? Anpassa länkning till syftet med resultatet. 43 44 Prestanda Automatiska system Interaktiva system Precision: 60-90% Täckning: 40-70% Precision: >90% Täckning: <100% 45