Vägar till bättre översättningsprogram



Relevanta dokument
Kan man lita på språköversättning med maskin?

Vad kan en facköversättare vänta sig av maskinöversättning?

När kan man lita på maskinöversättning?

Mobil tolkningsapp för ambulanspersonalen

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Utvärdering SFI, ht -13

Maskinöversättning möjligheter och gränser

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

NetBeans 5.5. Avsikt. Projektfönster

Introduktion till programmering SMD180. Föreläsning 1: Programmets väg

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Småprat Small talk (stressed vowels are underlined)

Cristina Eriksson oktober 2001

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Maskinöversättning 2008

Listen to me, please!

Föreläsning 1: Intro till kursen och programmering

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

onsdag den 21 november 2012 PRONOMEN

NetBeans 7. Avsikt. Projektfönster

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

Användarguide för hantering av MySE

Föreläsning 1: Intro till kursen och programmering

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Teknikprogrammet Klass TE14A, Norrköping. Jacob Almrot. Självstyrda bilar. Datum:

Engelska åk 5 höstterminen 2013

VAD SKULLE DU HA VALT PDF

Elevers användning av maskinöversättning vid skrivande på främmande språk.

Quality-Driven Process for Requirements Elicitation: The Case of Architecture Driving Requirements

Kursupplägg. Examination. Föreläsning 1: Intro till kursen och. Kursmaterial. programmering. Kursboken: Programmera med a multimedia approach

[SLUTRAPPORT: DRAWPIXLZ (ANDROID-APP)] Slutrapport. Författare: Zlatko Ladan. Program: Utvecklare av Digitala Tjänster 180P

Kursplaneöversättaren. Lina Stadell

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Workplan Food. Spring term 2016 Year 7. Name:

Med denna aktivitet försöker jag

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock

Introduktion till biblioteket och informationssökning Språk och litteraturer

Kompilatorer och interpretatorer

Inledande programmering med C# (1DV402) Introduktion till programmering

Discovering!!!!! Swedish ÅÄÖ. EPISODE 3 Adjec'ves. Misi.se

Välkommen till. Särskild utbildning för vuxna i Trelleborg

Klassens aktivitet. Inställningar

WorldPenScan X med mobila enheter

Swedbank Mobile Loadtesting. LoadRunner Mobile App protocol

Grammatik, det fixar väl datorn?

Grundläggande programmering DVG A08 & ISG A04. Allmän information. Å vem är jag då. Karlstads Universitet, Johan Öfverberg 1

Semantik och pragmatik

Eclipse. Avsikt. Nu ska ett fönster liknande figuren till höger synas.

Writing with context. Att skriva med sammanhang

Lektion 3. Anteckningar

Grammatik för språkteknologer

Hur du använder My easyfairs. En guide för utställare

HAÖVR, Masterprogram i översättning, 120 högskolepoäng Master's Programme in Translation, 120 credits

3. Klicka på en knapp, tryck på ALT N, eller tryck på ENTER

INNEHÅLLSFÖRTECKNING... 1 INLEDNING ORDBOKEN I VERKTYGSLISTEN ORDBOKEN... 3

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

ANVÄNDARMANUAL HUR INSTALLERA JAG MOBILEPASS PÅ MIN TELEFON ELLER WINDOWS DATOR

Basic Swedish 1. A. typ-prov skriftligt / written exam a) lucktext / text with blanks b) grammatik / grammar c) läsförståelse / reading comprehension

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Om transfer i tredjespråksinlärning

TDDC30. Objektorienterad programmering i Java, datastrukturer och algoritmer. Föreläsning 2 Jonas Lindgren, Institutionen för Datavetenskap, LiU

Kursplan. TY1034 Tyska: Tysk grammatik med textkommentar. 7,5 högskolepoäng, Grundnivå 1. German: German Grammar

Svensk grammatik Ordklasser!

Basic Swedish 1. A. typ-prov skriftligt / written exam a) lucktext / text with blanks b) grammatik / grammar c) läsförståelse / reading comprehension

Språkets struktur och funktion, 7,5 hp

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Språkteknologi och Open Source

Installations- och användarguide. C-Pen med Android

Part of Vitec Software Group. IntoWords Cloud. IntoWords Clouds funktioner

Read, work and talk! - och Lgr 11

#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Studieteknik för universitetet 2. Books in English and annat på svenska

Hörmanus. 1 Ett meddelande. A Varför kommer hon för sent? B Vem ska hon träffa?

JAVAUTVECKLING LEKTION 1

Vad är maskinöversättning?

Programmering för alla!

Några skillnader mellan svenska och engelska

!!! Några verb är oregelbundna vara är var!!!

Lektion 4, måndagen den 8 februari, Svenska för internationella studenter, kurs 1

SpellRight. för Google Docs. Manual för SpellRight för Google Docs

Affärsmodellernas förändring inom handeln

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Maskinöversättning. Johan Boye, KTH

Ordbok arabiska - svenska. Denna ordboks webbadress är:

E V - C E R T I F I K AT: VA R F Ö R A N V Ä N D A D E N S TA R K A S T E S S L AUTENTISERINGSPROCESS?

nå ända fram guide för informatörer som vill nå alla i sverige

Masterenkät. 1. På vilket språk vill du besvara enkäten?/in what language do you wish to answer? Antal svarande: 89. Svenska.

Programmering, grundkurs, 8.0 hp, Elektro, KTH, hösten Programmering: att instruera en maskin att utföra en uppgift, kräver olika språk:

Engelska, år Studieplan och bedömningsgrunder i Engelska för år 7 Moment Mål innehåll Bedömningsgrund Läsa

Boken?!?! Vad är ett program? Kompilerande-Interpreterande Programmeringsmiljö Hello World! Att programmera och ett enkelt program Variabler printf

KAPITEL 6. Verb: preteritum. *imperativ som slutar på p, k, s, t eller x +te. Special (it-verb och oregelbundna verb) T ex: gå-gick, drick-drack

NÄRINGSLIV OCH ARBETE GÄVLE VUXENUTBILDNINGEN. Förteckning över LÄROMEDEL VT-18 KOMVUX

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Neurolingvistik - Grammatik

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Resledaren Användarguide Android Innehåll

Kom igång med Livescribe Desktop

We have come to earth to save humans from Bad Conversion Rates & Web Sites That Suck

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

Vetenskapsfestivalen 2008 Uppmärksamhet, minne och inlärning hur funkar hjärnan?

Transkript:

Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg

Inom fem år, kanske tre, kan mellanspråkig meningsöverföring genom en elekronisk process inom viktiga funktionella områden av ett flertal språk mycket väl att vara verklighet.

Inom fem år, kanske tre, kan mellanspråkig meningsöverföring genom en elekronisk process inom viktiga funktionella områden av ett flertal språk mycket väl att vara verklighet. IBM pressmeddelande 1954

Vad hände sedan? 1966 ALPAC-rapport: översättning med dator blir dubbelt så dyrt som för hand 1989 IBM igen: helautomatisk översättning byggd på statistik från texter 2014 Google translate med 80 språk

Men kan man lita på den? Bäst att experimentera börja med språk som du förstår börja med korta meningar och öka längden Kan du förstå vad dokumentet säger? Skulle du våga publicera översättningen?

Google translate Baserad på statistik översätter allt snabb bra på vanliga meningar oförutsägbar men man kan faktiskt förutsäga en del https://translate.google.com

Experiment med Google translate engelska till svenska my house / my car my new house is very big svenska till engelska min far är svensk min far är inte svensk svenska till norska din far är inte svensk tyska till svenska/engelska er bringt mich um er bringt deinen besten Freund um

GF translate Baserad på grammatik förutsägbar visar konfidensnivåer bra på grammatik kan lämna luckor kan vara långsam http://www.grammaticalframework.org/demos/translation.html

Experiment med GF translate Samma som med Google, samt vad heter din fru svenska till många andra språk.

Översätta med grammatik: hur fungerar det?

Beräkningsregler Datorn kan följa regler mekaniskt - bättre än människan 2 + 2 = 4 365 * 24 * 60 * 60 = 31536000 Här väntar vi oss att datorn alltid gör rätt!

Kompilator Programkod till maskinkod: printf("hello world") 0101011011010001010101010100101001 Här har datorn ersatt människan som översättare!

Grammatikregler Morfologi: böjning känna -> känner, kände, känt, känd, kända Syntax: ordföljd och kongruens den + stor + hus -> det stora huset jag + sova + inte -> jag sover inte om + jag + sova + inte -> om jag inte sover

Kongruens på lång distans Den allra största frågan är fortfarande öppen, och det är inte säkert att ledningen någonsin kommer att nå överenskommelse om den.

Kongruens på lång distans Den allra största problemet är fortfarande öppen, och det är inte säkert att ledningen någonsin kommer att nå överenskommelse om den.

Kongruens på lång distans Den allra största problemet är fortfarande öppen, och det är inte säkert att ledningen någonsin kommer att nå överenskommelse om den.

Kongruens på lång distans Det allra största problemet är fortfarande öppet, och det är inte säkert att ledningen någonsin kommer att nå överenskommelse om det. Detta kan vara svårt för människan men lätt för datorn.

Grammatik i översättning Språk har olika ord olika ordföljdsregler olika kongruensregler Men de kan också uttrycka samma mening ha gemensam abstrakt struktur

Exempel: kompilator Programkod (Java) 1 + 2 * 3 Maskinkod (JVM, Java Virtual Machine) 00000011 00000100 00000101 01101000 01100000

Motsvarigheterna 1 + 2 * 3 00000011 00000100 00000101 01101000 01100000

Abstrakt syntax Add : Exp -> Exp -> Exp Mul : Exp -> Exp -> Exp E1, E2, E3 : Exp Add E1 (Mul E2 E3)

Konkret syntax abstrakt Java JVM Add x y x + y x y 01100000 Mul x y x * y x y 01101000 E1 1 00000011 E2 2 00000100 E3 3 00000101

Konpilering av naturligt språk Abstrakt syntax Pred : Subject -> Verb -> Object -> Sentence Mod : Adjective -> Noun -> Noun Love : Verb Konkret syntax: svenska latin Pred s v o s v o s o v Mod a n a n n a Love love amare

Exempel den kloka kvinnan älskar den fagra mannen femina sapiens virum formosum amat

Problem: ordens flertydighet The pen is in the box. Pennan är i lådan. The box is in the pen. Lådan är i lekhagen. (Bar-Hillel 1963)

Problem: flertydig syntax I ate a pizza with shrimps. I ate a pizza with friends.

Problem: flertydig syntax I ate a pizza with shrimps. I ate a pizza with friends.

Problem: idiomatiska uttryck what is your name vad heter du ej vad är ditt namn comment t appelles-tu ej quel est ton nom kick the bucket -> ta ner skylten finlandsbåt -> ruotsinlaiva

Problem: språkens komplexitet 7000 språk 100.000 ord 10.000.000.000 tvåordskombinationer...

Bar-Hillels slutsats (1963) Fullt automatisk översättning med hög kvalité kommer aldrig att vara möjligt.

Översätta med statistik: hur fungerar det?

Lexikon: ordlinjering Hitta ord som motsvarar varandra, genom att analysera en stor mängd parallella texter. many houses are red but my new house is not red många hus är röda men mitt nya hus är inte rött

Syntax: n-gram Hjälper vid valet av ord i kontext my new house min mitt mina ny nytt nya hus huset

Problem med ordlinjering Översättning kan inkludera lokalisering this computer costs 1000 dollars den här datorn kostar 7000 kronor

Problem: glesa data 100.000 ord 1.000.000 böjningsformer 1.000.000.000.000 2-gram

Problem: beroende på lång distans Kongruens mitt nya hus är mycket stor Um+bringen = kill er bringt deinen besten Freund um

Problem: alla ord är lika viktiga Att negationen saknas kostar inte mycket min far är svensk -> my father is Swedish min far är inte svensk -> my father is Swedish

Who is responsible for the translation? price 500 dollars -> pris 500 kronor producer? consumer?

Slå ihop grammatik och statistik: hybridsystem

Ta det bästa av båda Grammatik böjning ordföljd kongruens Statistik val av ordbetydelse (med n-gram) samling av idiomer (med fraslinjering)

Vårt webbsystem och mobilapp hur de används hur vi byggde dem

5 March 2014 - VR 2013-2017 EU 2010-2013 1998 -

Översättning i färg

Vauquois-triangeln semantisk interlingua syntaktisk transfer ord-för-ord konvertering

Översättningsmodellen: kompilator

The Human Language Compiler Hindi English Swedish Chinese German Abstract Syntax Finnish French Bulgarian Spanish Italian

Semantisk interlingua Den gröna översättningen Begränsad i omfattning Oftast ett speciellt område matematik restaurangfraser

Betydelse beror på område delivery

Betydelse beror på område delivery förlossning (inom medicin) leverans (inom handel)

Syntaktisk transfer Den gula översättningen Obegränsad i omfattning men klarar inte av allt Ej idiomatisk bokstavlig översättning

Ord för ord konvertering Den röda översättningen Klarar ogrammatisk text samt luckor i grammatiken Something is better than nothing

Combination of different grammars

GF source

probability model GF source

probability model GF source GF compiler PGF binary

PGF runtime system PGF binary

user interface PGF runtime system PGF binary

user interface PGF runtime system another PGF PGF binary binary

user interface PGF runtime system another PGF PGF binary binary app

user interface PGF runtime system another PGF PGF binary binary another app

Customized translation system generic user interface PGF runtime system PGF runtime system generic grammar PGF binary app custom user interface

Testa den själv! Android app: Human Language Compiler http://www.grammaticalframework.org/demos/app.html fungerar utan nätuppkoppling både text och tal konfidensfärger grammatisk information 23 MB för 110 språkpar (Google 100MB for 1 pair) Web app http://www.grammaticalframework.org/demos/translation.html

The Human Language Compiler