Maskinöversättning 2008

Relevanta dokument
Maskinöversättning. F Anna Sågvall Hein

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Språkteknologi (SV2122) Föreläsning 9: Översättning

Machine Translation MÖSG F Anna Sågvall Hein

Maskinöversättning möjligheter och gränser

Preschool Kindergarten

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Korpusbaserad Maskinöversättning

Statistisk maskinöversättning

Statistisk Maskinöversättning eller:

Maskinöversättning 2008

Barn och läkemedelssäkerhet

District Application for Partnership

Sri Lanka Association for Artificial Intelligence

Assistans med språklig kvalitet Stöd eller irritationsmoment?

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

The Arctic boundary layer

Typografi, text & designperspektiv

Vägar till bättre översättningsprogram

Vad är maskinöversättning?

Lektion 3. Anteckningar

Convertus - kursplaneöversättning

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

MÖSG ht 2005 Maskinöversättningssystemet MATS

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Mönster. Ulf Cederling Växjö University Slide 1

English. Things to remember

Kursplaneöversättaren. Lina Stadell

Könsfördelningen inom kataraktkirurgin. Mats Lundström

Grafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:

Installation Instructions

Det här med levels.?

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Quick Start Guide Snabbguide

Fossilförbannelse? Filip Johnsson Institutionen för Energi och Miljö Pathways to Sustainable European Energy Systems

BTS Group AB (publ) Annual General Meeting 2016 Stockholm, May 10, 2016

P650 - Takscreen. Installationsguide EN

Digital Personvåg MANUAL H

Introduktion till vetenskaplig metodik. Johan Åberg

Kursplan. NA1032 Makroekonomi, introduktion. 7,5 högskolepoäng, Grundnivå 1. Introductory Macroeconomics

IMPORTANT! RETAIN FOR FUTURE REFERENCE PLEASE READ CAREFULLY VIKTIGT! BEHÅLL FÖR FRAMTIDA REFERENS LÄS IGENOM INSTRUKTIONSMANUALEN

FÖRENKLA GENOM STANDARDISERING AV TERMER

Digitala System: Datorteknik ERIK LARSSON

Föreläsning 4 IS1300 Inbyggda system

För att justera TX finns det ett tool med namnet MMDVMCal. t.ex. /home/pi/applications/mmdvmcal/mmdvmcal /dev/ttyacm0

Adding active and blended learning to an introductory mechanics course

Windlass Control Panel v1.0.1

Grafisk teknik IMCDP. Sasan Gooran (HT 2006) Assumptions:

ISO general purpose metric screw threads Selected sizes for screws, bolts and nuts

Grafisk teknik. Sasan Gooran (HT 2006)

Värmeväxlare - Terminologi. Heat exchangers -Terminology

Module 6: Integrals and applications

SAFETY PRECAUTIONS SPECIFICATIONS

Kundfokus Kunden och kundens behov är centrala i alla våra projekt

Enterprise App Store. Sammi Khayer. Igor Stevstedt. Konsultchef mobila lösningar. Teknisk Lead mobila lösningar

ASSEMBLY INSTRUCTIONS SCALE SQUARE - STANDARD

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Rastercell. Digital Rastrering. AM & FM Raster. Rastercell. AM & FM Raster. Sasan Gooran (VT 2007) Rastrering. Rastercell. Konventionellt, AM

Michael Q. Jones & Matt B. Pedersen University of Nevada Las Vegas

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Pre-editering och maskinöversättning. Convertus AB

729G G20 ht 2016 Kursintroduktion, översättningsteori 1. Lars Ahrenberg

ASSEMBLY INSTRUCTIONS SCALE CIRCLE - STANDARD

FORTA M315. Installation. 218 mm.

Översättningsminnen laboration

Swell code book (error taxonomy + examples)

LUNDS TEKNISKA HÖGSKOLA Institutionen för Elektro- och Informationsteknik

3. Klicka på en knapp, tryck på ALT N, eller tryck på ENTER

Bridging the gap - state-of-the-art testing research, Explanea, and why you should care

Interaktion 2 STYRDON, PEKDON OCH ANNAN INTERAKTION ATT RÄKNA MED


Introducing Peer-based Intervention to improve learning in foreign language translation classes

Nathi Skötbord Changing unit Table à langer murale Wickeltisch Verschoontafel Puslebord Cambiador de pared Přebalovací pult Fasciatoio

Luftfartsavdelningen Sektionen för flygutbildning MANUALER VÄLKOMNA EN KORT SAMMANFATTNING AV INNEHÅLLET I RESPEKTIVE MANUAL

ARC 32. Tvättställsblandare/Basin Mixer. inr.se

Measuring child participation in immunization registries: two national surveys, 2001

En bild säger mer än tusen ord?

Quality-Driven Process for Requirements Elicitation: The Case of Architecture Driving Requirements

Introduktion till vetenskaplig metodik. Johan Åberg

Analys och bedömning av företag och förvaltning. Omtentamen. Ladokkod: SAN023. Tentamen ges för: Namn: (Ifylles av student.

CUSTOMER READERSHIP HARRODS MAGAZINE CUSTOMER OVERVIEW. 63% of Harrods Magazine readers are mostly interested in reading about beauty

SAS VIYA JOHAN ELFMAN ROLAND BALI

Country report: Sweden

PROFINET MELLAN EL6631 OCH EK9300

Isolda Purchase - EDI

Scalable Dynamic Analysis of Binary Code

Erfarenheter från Hazop användning på programvara i Arte740. Presentation för SESAM Claes Norelöv 4Real AB

CHALMERS ROCK PROCESSING SYSTEM

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Translation Changes in Swedish EBSCOhost Interface

Materialplanering och styrning på grundnivå. 7,5 högskolepoäng

THISAB Monteringsanvisningar till Brand- och spolposter

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Resultat av den utökade första planeringsövningen inför RRC september 2005

SVENSK STANDARD SS-ISO

ASSEMBLY INSTRUCTIONS SCALE - SYSTEM

SVENSK STANDARD SS-ISO 965/2 Första giltighetsdag Utgåva Sida Registrering

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Application Note SW

Transformator konferens Stavanger /4 Sammanställning av kunskapsläget I Vattenfall och utvecklingen I Sverige

Transkript:

Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning

LABEL byta SOURCE <* verb lex>=byta.vb.1 TARGET <* verb lex>=change.vb.1 TRANSFER LABEL byta-filter SOURCE <* verb lex>=byta.vb.1 <* dir.obj lex>=filter.nn.1 TARGET <* verb lex>=renew.vb.1 <* dir.obj lex>=filter.nn.1 TRANSFER Två lexikala regler i Multraformalismen

Subsumering och unifiering Hand-out

sv-en_linklexicon

sv_stemlexicon

Problem med transferbaserad översättning Det är svårt att få språkbeskrivningen att täcka alla de fall som kan dyka upp Ändå måste systemen vara robusta, dvs. de måste generera en översättning Analysen genererar vanligen många olika alternativ och det måste finnas heuristiker för att välja rätt Översättningarna blir ibland stela

Återanvändning av översättning översättningsminnen översättningslexikon terminologidatabaser statistisk maskinöversättning

Re-use techniques sentence alignment linking source and target sentences pairwise success rate close to 100 % translation memories basis for word alignment

Sentence alignment I oljefilterhållaren sitter en överströmningsventil. The oil filter retainer has an overflow valve. (sventscan3888 1-1) Undvik hudkontakt med kylvätska. Hudkontakt kan medföra irritation. Avoid contact with the skin as this may cause irritation. (sventscan3200 2-1)

Sentence alignment, cont. Skruvarna sträcks vid varje åtdragning, därför får skruvarna i en del förband återanvändas endast ett visst antal gånger. Bolts are stretched each time they are tightened. For this reason, the bolts in some joints should only be reused a certain number of times. (sventscan783 1-2)

Re-use techniques, cont. word alignment linking sub-sentence segments, typically, source and target words and phrases, pair-wise co-occurrence, word similarity, dictionary large-scale processing success rate close to 80 % translation dictionaries bi- or multi-lingual term databases data-driven machine translation

Ord- och fraslänkning Hand-out

Translation dictionaries and terminology data-bases based on word links refinement of word links

Refinement of word alignment data neutralise capital letters where appropriate lemmatise or tag source and target units identify ambiguities search for criteria to resolve them identify partial links compounds? remove or complete them manual revision?

Statistisk maskinöversättning, SMT Återanvändning av stora mängder tidigare översatt text Ingen traditionell språkbeskrivning i form av lexikon, grammatiker och andra språkliga regler

Komponenter Översättningsmodell Språkmodell över målspråket Avkodare

Översättningsmodell Byggs och tränas på en parallellkorpus Kan liknas vid ett översättningslexikon Man strävar efter så stora fragment som möjligt Man bevarar uppgift om länkfrekvens

Språkmodell byggs och tränas på målspråkstext helst från samma domän som översättningsmodellen utformas vanligen som en trigrammodell

Avkodare Söker ut de översättningsalternativ som har den totalt sett största sannolikheten

Software for SMT experiments translation models UPlug (Tiedemann, J. 2003) GIZA++ (Och, F. J. and Ney, H. 2000) Thot (Ortiz-Martínez, D. et al. 2005) language models SRILM (Stolcke, A. 2002) decoder Pharaoh (Koehn 2004)

Success factors in SMT size of training corpus density of training corpus language differences translation direction strategy

Automatisk utvärdering De stora datamängder det handlar om vid SMT och behoven av systematisk och upprepad utvärdering i uppbyggnaden av systemen kräver tillgång till automatiska utvärderingsmetoder Den maskinöversatta texten jämförs med ett el. flera facit gold standard och den formella likheten beräknas Det vanligaste måttet är BLEU går från 0 till 1 beräknas på n-gram

BLEU for Europarl: sv->10 TL

Comments to sv-> TL More training data -> higher bleu Curves flattening out at 16k Relations between language pairs basically stable after 25k Best results sv->da (0.26) Typologically close languages Worst results sv->fi (0.01) Typologically distant languages