Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning
LABEL byta SOURCE <* verb lex>=byta.vb.1 TARGET <* verb lex>=change.vb.1 TRANSFER LABEL byta-filter SOURCE <* verb lex>=byta.vb.1 <* dir.obj lex>=filter.nn.1 TARGET <* verb lex>=renew.vb.1 <* dir.obj lex>=filter.nn.1 TRANSFER Två lexikala regler i Multraformalismen
Subsumering och unifiering Hand-out
sv-en_linklexicon
sv_stemlexicon
Problem med transferbaserad översättning Det är svårt att få språkbeskrivningen att täcka alla de fall som kan dyka upp Ändå måste systemen vara robusta, dvs. de måste generera en översättning Analysen genererar vanligen många olika alternativ och det måste finnas heuristiker för att välja rätt Översättningarna blir ibland stela
Återanvändning av översättning översättningsminnen översättningslexikon terminologidatabaser statistisk maskinöversättning
Re-use techniques sentence alignment linking source and target sentences pairwise success rate close to 100 % translation memories basis for word alignment
Sentence alignment I oljefilterhållaren sitter en överströmningsventil. The oil filter retainer has an overflow valve. (sventscan3888 1-1) Undvik hudkontakt med kylvätska. Hudkontakt kan medföra irritation. Avoid contact with the skin as this may cause irritation. (sventscan3200 2-1)
Sentence alignment, cont. Skruvarna sträcks vid varje åtdragning, därför får skruvarna i en del förband återanvändas endast ett visst antal gånger. Bolts are stretched each time they are tightened. For this reason, the bolts in some joints should only be reused a certain number of times. (sventscan783 1-2)
Re-use techniques, cont. word alignment linking sub-sentence segments, typically, source and target words and phrases, pair-wise co-occurrence, word similarity, dictionary large-scale processing success rate close to 80 % translation dictionaries bi- or multi-lingual term databases data-driven machine translation
Ord- och fraslänkning Hand-out
Translation dictionaries and terminology data-bases based on word links refinement of word links
Refinement of word alignment data neutralise capital letters where appropriate lemmatise or tag source and target units identify ambiguities search for criteria to resolve them identify partial links compounds? remove or complete them manual revision?
Statistisk maskinöversättning, SMT Återanvändning av stora mängder tidigare översatt text Ingen traditionell språkbeskrivning i form av lexikon, grammatiker och andra språkliga regler
Komponenter Översättningsmodell Språkmodell över målspråket Avkodare
Översättningsmodell Byggs och tränas på en parallellkorpus Kan liknas vid ett översättningslexikon Man strävar efter så stora fragment som möjligt Man bevarar uppgift om länkfrekvens
Språkmodell byggs och tränas på målspråkstext helst från samma domän som översättningsmodellen utformas vanligen som en trigrammodell
Avkodare Söker ut de översättningsalternativ som har den totalt sett största sannolikheten
Software for SMT experiments translation models UPlug (Tiedemann, J. 2003) GIZA++ (Och, F. J. and Ney, H. 2000) Thot (Ortiz-Martínez, D. et al. 2005) language models SRILM (Stolcke, A. 2002) decoder Pharaoh (Koehn 2004)
Success factors in SMT size of training corpus density of training corpus language differences translation direction strategy
Automatisk utvärdering De stora datamängder det handlar om vid SMT och behoven av systematisk och upprepad utvärdering i uppbyggnaden av systemen kräver tillgång till automatiska utvärderingsmetoder Den maskinöversatta texten jämförs med ett el. flera facit gold standard och den formella likheten beräknas Det vanligaste måttet är BLEU går från 0 till 1 beräknas på n-gram
BLEU for Europarl: sv->10 TL
Comments to sv-> TL More training data -> higher bleu Curves flattening out at 16k Relations between language pairs basically stable after 25k Best results sv->da (0.26) Typologically close languages Worst results sv->fi (0.01) Typologically distant languages