Pre-editering och maskinöversättning. Convertus AB

Relevanta dokument
Convertus - kursplaneöversättning

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Kursplaneöversättaren. Lina Stadell

Förord KERSTIN BALLARDINI

Maskinöversättning. F Anna Sågvall Hein

Maskinöversättning möjligheter och gränser

Välkommen att träna skriva!

Machine Translation MÖSG F Anna Sågvall Hein

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden

ANDREAS ISSA SVENSKA SPRÅKET

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Fundamentet vad som helst kan vara i fundamentet (men regleras av viktprincipen).

Datum: Date: Provkodr: KTR1 Exam code:

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Cristina Eriksson oktober 2001

Mål och betygskriterier i Engelska

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

729G09 Språkvetenskaplig databehandling

Datorlingvistisk grammatik

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Textstil/tonalitet med Acrolinx

Facit för diagnostiska provet i grammatik

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Bedömda elevexempel i årskurs 1 3

Grundläggande syntaktiska funktioner och roller

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Kursbeskrivning med litteraturlista HT-13

Svenska som andraspra k

Syntax Fras, sats, mening

Maskinöversättning idag

Världens språk, 7,5hp vt 2012

Korpusbaserad Maskinöversättning

Grammatik för språkteknologer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Språkteknologi. Språkteknologi

Lingvistiskt uppmärkt text

Mobil tolkningsapp för ambulanspersonalen

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Antal filmklipp. Sfi - steg

Antal filmklipp. Sfi - steg

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Fraser och satsled. Språkets uppbyggnad. Definitioner. Språkets uppbyggnad. De fem frastyperna. Allmänt om fraser

13. Tema Fritid 4 10 SFI gruppens fritid Övning 3, Modul 5 Fritid hobby Fritid idrott och spel Nöje och umgänge

Maskinöversättning 2008

SYNTAKTISKA FUNKTIONER (forts.) Attribut o Attribut ger ytterligare information om det som nominalfrasen refererar till.

Lektion 4, måndagen den 16 september, Svenska för internationella studenter, kurs 1

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Svensk minigrammatik

Satslära introduktion

Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Grammatik för språkteknologer

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

Vad kan en facköversättare vänta sig av maskinöversättning?

Öjersjö Storegård, Partille Kommun, vt-07

Mening. Sats. Huvudsats. En mening: Jag gillar kaffe men jag gillar inte te. En mening börjar med stor bokstav och slutar med.! eller?

Datorlingvistisk grammatik

Översättningsminnen laboration

Grammatisk teori II Attributvärdesgrammatik

Att analysera andraspråkstexter

Lingvistik I Delmoment: Datorlingvistik

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Datum: Date: Provkodr: KTR1 Exam code:

14. Sammansatta satser

Grammatik för språkteknologer

Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

Några skillnader mellan svenska och engelska

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Vägar till bättre översättningsprogram

Sidan 1. En situation. En modell för satsproduktion. Fri ordföljd. Finska kasus. Bunden ordföljd

ORDKLASSERNA I SVENSKA SPRÅKET

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering

Eleven Eleven är 11 år och går i åk 5. Modersmålet är arabiska. Eleven har haft en normal skolgång.

MÖSG ht 2005 Maskinöversättningssystemet MATS

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Resa med barn bila otroligt mycket ordentligt så gott du kan det här är lättare sagt än gjort oförutsägbara vandra i bergen sola

Lingvistiskt uppmärkt text

Statistisk Maskinöversättning eller:

Praktisk användning av Språkstödet samt språkutvecklande undervisning (language awareness).

Språkteknologi (SV2122) Föreläsning 9: Översättning

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Automatisk översättning

Svenska som andraspråk, Svenska två, svenska för invandrare Vad är det? Duger det inte med vanlig svenska?

Översättningssprint Umeå

Maskinöversättning 2008

Bedömningsgrunder för urvalsprovet i nordiska språk (svenska som modersmål) och nordisk litteratur 2019

Transkript:

Pre-editering och maskinöversättning

Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning från svenska till immigrantspråk i första hand engelska, arabiska, persiska och finska Maskinöversättningsplattform

Convertus Bologna Translation Service upload doc new request submit URL translate text TM no yes preprocess download target MT Convertus Google APE approval post edit

Convertus Bologna Translation Service Integrerad i CMS new request TM no yes preprocess CMS delivery Convertus MT Google APE approval post edit

Översättningsminne svenska-persiska Totalt 9 738 Publicerade ÖS 3 265 (LK: 1 820, 1177: 1 445) Postredigerade ÖS 6 473 (LK: 2 686, 1177: 3 787) Översättningsminne svenska-arabiska Totalt 10 749 Publicerade ÖS 2 686 (LK: 858, 1177: 1 828) Postredigerade ÖS 8 063 (LK: 2 776, 1177: 5 287) Convertus, Anna Sågvall Hein, 2017-09-30

MT med och utan TM Redigeringsprotokoll : sv-ar Poängberäkning: Poäng = Antal orörda ord Totalt ordantal %

MT med och utan TM Redigeringsprotokoll: sv-fa Poängberäkning: Poäng = Antal orörda ord Totalt ordantal %

MT med och utan TM - BLEU Linköpings kommun svenska arabiska BLEU Ren maskinöversättning 38,0 % Med minne (23 träffar) 43,1 % svenska persiska BLEU Ren maskinöversättning 38,9 % Med minne (20 träffar) 45,6 %

Pre-editering Kan omformulering av den svenska källtexten bidra till ökad översättningskvalitet? Kan existerande förenklingslösningar, som till exempel StilLett, användas för datamaskinell pre-editering?

StilLett StilLett (Rennes&Jönsson 2015) använder sig av 7 olika förenklingstyper: Proximation: ( man -> du ) QuoteInvert: ( Hej! sa Kalle. -> Kalle sa: Hej! ) StraightOrder: (omvänd ordföljd -> rak ordföljd) Pass2act : (passiv->aktiv) Decker: (Decker 2003) Split: (Uppdelning av meningar vid konjunktion och subjunktionen som ; duplicering av subjekt) Syntax: (Uppdelning av meningar vid konjunktion) Rennes, Jönsson (2015): A Tool for Automatic Simplification of Swedish Texts

Decker Decker (2003) är en förenklingstyp, som innebär att vissa element tas bort, t.ex. artiklar, som-satser och vissa prepositionsfraser. Dessa typer påverkar sålunda innehållet och lämpar sig inte för pre-editering inför maskinöversättning. Decker (2003): Towards automatic grammatical simplification of Swedish text.

Utvärdering av StilLett Utvecklingskorpusen har körts genom StilLett och översatts till arabiska och persiska med Google (neuralt baserad). Vidare har BLEU-värden tagits fram för maskinöversättningen. De olika typerna har körts var och en för sig och samlat. För förenklingstypen omvänd ordföljd steg BLEU-värdet något för persiskan från 9,46 till 9,52. För arabiskan sjönk det istället från 10,75 till 10,36. För övriga typer sjönk BLEU-värdet för båda språken. Det lägsta värdet (10,17 respektive 9,04) gav split (arabiska) och Decker (persiska). Med alla regler påkopplade sjönk BLEU-värdet till 9,36 för arabiska och 8,49 för persiska. Se vidare, Stadell, Lina, 2017, Utvärdering av StilLett. Convertus. Intern projektrapport.

Tabell Förenklingsmetod Arabiska Persiska - 10,75 9,46 Proximation 10,63 9,26 quoteinvert 10,58 9,30 straightorder 10,36 9,52 syntax 10,52 9,45 pass2act 10,27 9,37 decker 10,45 9,04 split 10,17 9,38 Alla metoder i kombination 9,36 8,49

Nya regler Strängbaserade omskrivningsregler på otaggad text Strängbaserade omskrivningsregler på taggad text Parafrasering med Multra (Sågvall Hein 1997), Convertus transferbaserade maskinöversättningssystem Sågvall Hein, A., 1997, Language Control and Machine Translation. I: Proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation. July 23-25, 1997. St. John's College, Santa Fe, New Mexico.

hen -> han/hon Otaggade strängbaserad regler månadens/periodens vara -> månadens/periodens produkt är med -> är närvarande

Taggade, strängbaserade regler Verb i presens i meningsinledning + du -> Om du + verb Det är + nominalfras + som + verb -> nominalfras + verb tillföra + substantiv -> förse + substantiv + med preposition + substantiv + finns det -> Det finns preposition + substantiv de + substantiv + som -> substantiv + som man (pronomen) -> du

Parafrasering med Multra Initialt adverbial, omvänd ordföljd -> Rak ordföljd, finalt adverbial Från sex månaders ålder kan du ge barnet läkemedel som innehåller ibuprofen. Du kan ge barnet läkemedel som innehåller ibuprofen från sex månaders ålder. Konditionalsats utan bisatsinledare -> Lägg till bisatsinledare Har du många olika kontakter inom hälso- och sjukvården kan du be om att få en fast vårdkontakt. Om du har många olika kontakter inom hälso- och sjukvården kan du be om att få en fast vårdkontakt. Utelämnat hjälpverb i supinumformer -> Lägg till har Om det inte känns bra kan du vända dig till verksamhetschefen för enheten där du fått vård. Om det inte känns bra kan du vända dig till verksamhetschefen för enheten där du har fått vård.

Utvärdering mot testkorpus 1000 översättningssegment Arabiska Persiska Baseline 10,84 9,08 Strängbaserade regler 10,87 9,06 Strängbaserade regler med taggning 10,91 8,91 Multra 10,80 9,00 Strängbaserade regler + regler med taggning Strängbaserade regler + taggning + Multra 10,94 8,90 10,85 8,87

Våra korpusar Grundkorpus 1767 publicerade översättningssegment på svenska, engelska, arabiska och persiska Utvecklingskorpus 500 översättningssegment samplade från grundkorpusen Testkorpus 1000 översättningssegment extraherade från grundkorpusen

Meningslängd Strängbaserade omskrivningsregler på otaggad text, ingen effekt BLEU-värden för alla olika meningslängder i en text en splittrad bild

BLEU baserat på meningslängd Antal ord Antal meningar BLEU Antal ord Antal meningar BLEU 1 22 21,5 19 18 13,6 2 8 10,0 20 19 11,7 3 13 35,0 21 18 10,1 4 13 12,4 22 14 6,2 5 15 6,5 23 9 10,0 6 18 2,2 24 9 7,2 7 21 8,7 25 6 12,9 8 23 9,7 26 10 9,0 9 22 11,0 27 3 4,4 10 16 8,5 28 7 4,7 11 30 10,1 29 1 18,9 12 26 9,6 30 1 3,7 13 24 8,4 31 4 6,0 14 28 8,1 32 2 12,4 15 15 10,2 33 1 16,4 16 19 8,9 34 6 6,9 17 32 8,0 35 4 9,8 18 21 14,5 36 2 7,3

Uppföljning Manuell utvärdering av testresultaten Analys av vilka enskilda regler som givit positiva översättningsresultat Fortsatt regelutveckling och testning

Frågor?