Verbmobil och dess dialoghantering

Linköpings Universitet Institutionen för Datavetenskap HKGBB0, Artificiell Intelligens Verbmobil och dess dialoghantering

Sammanfattning Verbmobil var ett tvärvetenskapligt projekt under 1993-2000 inom språkteknologi och ett samarbete mellan universitet, forskningscentrum och företag inom informationsteknologi. Chef över projektet var professor Wolfgang Wahlster vid det tyska forskningscentret för artificiell intelligens (DFKI) där också den mesta forskningen bedrevs. Samarbetet var dock internationellt med forskningsinstitut, universitet och företag även i Storbritannien, USA och Japan. Systemet översätter spontant tal till tal mellan tyska, engelska och japanska inom domänen för att boka möten, planera resor och göra hotellreservationer. Vad som är skiljer detta tal-till-talöversättningssystem från andra är att det tar hänsyn till kontexten och det semantiska innehållet samt prosodisk information. Det kan också producera en sammanfattning av dialogens viktigaste slutsatser.

Innehållsförteckning 1 INLEDNING... 1 2 BAKGRUND... 1 2.1 FAS 1... 2 2.2 FAS 2... 2 3 ÖVERSÄTTNING I ALLMÄNHET... 3 4 ANDRA PROJEKT... 4 4.1 JANUS... 4 4.2 MASTOR... 4 5 HUR FUNKAR VERBMOBIL... 4 5.1 DATAINSAMLING... 4 5.2 HUVUDDELARNA... 5 5.3 TRÄNING OCH UTVÄRDERING... 7 6 DIALOGHANTERING... 7 6.1 DIALOGAKTER OCH INNEHÅLLSFÖRSLAG... 8 6.2 DIALOGPROCESSEN...10 7 SAMMANFATTNING...11 8 REFERENSER...12

1 Inledning Det finns många områden inom artificiell intelligens (AI) såsom neurala nät (ANN), genetiska algoritmer eller case-based resoning vilket visar på bredden inom ämnet. AI berör inte bara matematik och datavetenskap utan även biologi, psykologi, lingvistik och filosofi. En generell definition av artificiell intelligens tänker jag inte försöka mig på då det skiljer sig lite mellan vilken forskning man inriktar sig mot eller om man är en anhängare av stark eller svag AI. Denna rapport berör området där datavetenskapen möter språkteknologi och hur man får datorer att översätta talat språk till ett annat talat språk. Jag kommer beskriva systemet Verbmobil vilket kan översätta spontant tal mellan tyska, japanska och engelska inom domänerna förhandla om möten, reseplanering och boka hotell. Jag kommer även fördjupa mig i en del av projektet som har med dialoghantering att göra och försöka förklara dess delar och hur det fungerar. Syftet med Verbmobil var att ta fram ett portabelt system som automatiskt kunde översätta spontant tal till ett annat språk. Man ville inte bara ta hänsyn till syntax och semantik utan även alla andra egenskaper hos spontant tal såsom tvetydigheter, självrättelser, tvekan och prosodi för att öka översättningens exakthet. Som namnet Verbmobil antyder, systemet stöder verbal kommunikation i mobila situationer. Jag börjar med en bakgrundbeskrivning till projektet och de två faserna. Sedan följer en sammanfattning över svårigheterna och frågeställningar kring översättning från tal till tal i allmänhet, följt av en kort beskrivning av två andra tal till tal system. Därefter kommer en redogörelse över Verbmobils huvudkomponenter och hur det egentligen fungerar, som avslutas med en fördjupning i dialoghanteringen. Slutligen sammanfattar jag det hela och diskuterar kring området. Jag har försökt använda svenska begrepp så långt det går, men ibland kan jag ha missat en del av betydelsen eller översatt fel pga bristande kunskaper inom området. I vissa fall står det engelska begreppet inom parantes. 2 Bakgrund 1 Verbmobil pågick under 1993 till 2000 och finansierades av det tyska förbundet för utbildning, vetenskap, forskning och teknologi (BMBF) samt andra intresseorganisationer och företag. Sammanlagt har det finansierats av 115 miljoner DM från BMBF och 51 miljoner DM från andra partners vilket motsvarar ungefär 740 miljoner SEK. Vad som är speciellt för det här projektet är det tvärvetenskapliga angreppssättet och att olika institut och universitet samarbetar med olika moduler av projektet. Vid ett tillfälle var det 33 forskningsgrupper som samarbetade och 135 enheter fördelade på dessa. Den vetenskapliga kontrollen sköttes av det tyska forskningscentrat för artificiell intelligens (DFKI) i Saarbrücken, där också den mesta forskningen bedrevs. Två gånger om året granskades milstolpar och vart annat år uppdaterades målen. En internationell opartisk vetenskaplig styrelse kontrollerade arbetet. Anledningen till bredden på projektet var att få med alla discipliner som behövs för att systemet ska bli så bra och fungerande som möjligt. Det handlar om datavetenskap, språkteknologi, översättningsvetenskap, signalbehandling, kommunikationsvetenskap och 1 Hela detta stycke refereras från Verbmobils hemsida om inget annat anges 1

artificiell intelligens. Med bredden följer också stora krav på att organisera projektet och även tekniska krav. Eftersom olika programmeringsspråk är bra på olika delar och det är uppemot 150 forskare och ingenjörer som samarbetar har man valt att använda språken C, C++, Lisp, Prolog, tcl/tk och Fortran som interagerar inom en objektorienterad mjukvaruarkitektur. 2.1 Fas 1 Projektet delades upp i två faser, den första 1993-1996 och den andra från 1997 till och med september 2000. Den första fasen omfattade domänen att förhandla om möten. 1995 kom det första fungerade systemet, Verbmobil Demonstrator, som presenterades under CeBIT. Systemet kunde känna igen tyskt talat input och hade en vokabulär på 1292 ord. Det kunde analysera tal och sedan översätta till engelska. Slutprototypen för fas 1 presenterades vid CeBIT 1997 och hade en vokabulär på 2500 ord. Det kunde även känna igen japanska och översätta till engelska med en vokabulär på 400 ord. I mindre omfattning kunde även den första fasens prototyp generera japanska. Samma parser används för input av tyska och japanska, men kunskapskällorna var olika, dvs syntax, semantik och lexikon. Systemet kunde också initiera kommunikation såsom Please raise your voice (var snäll och höj rösten) och känna igen felaktiga datum och tidsbegrepp såsom den 30 februari eller 4 p.m. in the morning (kl 16 på förmiddagen). Den första fasens prototyp klarade dock inte av spontant tal utan använde kommando för input, alltså sk push-to-talk knapp. Man använde en mikrofon vid input och processen tog mindre än 6 gånger längden av inputen. Prototypen testades med över 25 000 översättningar och visade på en ungefärlig korrekthet (dvs intentionen upprätthölls) på 74,2 % av de föreslagna översättningarna. Ett exempel på hur dialogen kunde se ut: A: I guess we should meet in September. How about Deiday the first of Septemper? B: (Mouse click) Montag waere mir lieber (Mouse click). Vm: I would prefer Monday. A: Ok, so Moday the third. That s fine with me. What about 11 o clock? B: (Mouse click) Gut, wir treffen uns dann in meinem Buero (Mouse click) Vm: OK, so then we meet in my office. 2.2 Fas 2 I denna fas kan Verbmobil översätta spontana dialoger fram och tillbaka mellan tyska/engelska och tyska/japanska. Vokabulären är på ungefär 10 000 ord mellan tyska och engelska. Det är fortfarande domänberoende inom ovan nämnda områden, men det är kontextkänsligt och känner automatiskt igen när samtalets innehåll ändras. Det är också känsligt för paralingvistiska fenomen såsom känslor och attityder som används vid översättningen. Slutprodukten styrs från en central server vilket innebär att det inte längre är beroende av input från en mikrofon utan man kan använda en vanlig telefon, GSM-telefon eller Internet istället. Man behöver alltså inte längre använda en push-to-talk knapp eftersom Verbmobil känner igen början och sluten på dialogturerna. Detta innebär att man kan använda Verbmobil för telefonkonferenser eller när man ringer någon från sin mobil till dennes mobil. Användarna kan dessutom be om ett utdrag av dialogen som skickas till en fax eller en e-mail. Verbmobil översätter ungefärligt korrekt i över 80 % av fallen och över 90 % för dialoguppgifter (Wahlster, 2000). Det tar Verbmobil ungefär dubbelt så lång tid att översätta som längden på inputet.

3 Översättning i allmänhet 2 Varför är det så svårt att översätta talat språk till ett annat språk och framförallt spontant talat språk? Nedan listas egenskaper för spontant tal som Verbmobil tar hänsyn till och klarar av i stora drag. - Överlappande tal mellan talarna. Verbmobil känner igen början och slut på dialogturer. - Talspråk istället för skriftspråk vilket innebär att man hoppar över vissa ord, dialektala skillnader, självrättelser (i Verbmobils korpus ca 20% av alla dialoger), småord som eh, uhm. - Talspråk har ingen kommatering. Satser byggs upp av betoningar och uppehåll istället. - Svårigheter att anpassa till nya talare. Verbmobil har en mängd metoder för att känna igen olika talare. Det kan gå snabbt vid fåordsyttringar, eller bli mer komplicerat vid långa turer. Man tar hänsyn till talarens akustiska egenskaper, hastigheten och uttalsskillnader såsom dialekter. Bilden nedan visar en konceptuell bild över svårigheterna med att bearbeta språk och översätta mellan språk. Verbmobil tillhör den nedersta delen eftersom det tar hänsyn till kontexten och har domänkunskap. Det förstår tal, om nu maskiner kan göra det, eftersom det listar ut talarens intentioner med vad hon säger, oavsett vilket sätt hon säger det på. Verbmobil kan också tolka tvetydiga ord till dess rätta innebörd i de flesta fallen. Figur 1. Nivåer av språkbearbetning där det blir mer och mer avancerat längre ner. 2 W. Wahlster (2000) om inget annat anges 3

4 Andra projekt Det är inte bara Verbmobil som forskar på tal-till-tal översättning. Användningsområdet är så pass stort och behovet av att förstå varandra utan att tala varandras språk har funnits länge. Verbmobil utgår från att de som ska prata med varandra förstår engelska bättre än vad de själva kan producera och därför använder man sig av engelska som något mellanspråk. Jag har stött på två liknande system, Janus som utvecklades före och under Verbmobil på universitet i USA och Tyskland, samt Mastor som IBM satsade på efter Verbmobil. 4.1 Janus 3 Ett av de största satsningarna av att översätta tal på ett språk till ett annat gjordes vid Carnegie Mellon University i USA i samarbete med Universität Karlsruhe i Tyskland där man har utvecklat ett system som kallas Janus II. Det kan översätta talat språk mellan engelska, tyska spanska, japanska och koreanska och är specialiserat på samtal som handlar om två personer som ska avtala ett möte. För detta krävs en vokabulär på mellan 3000 och 5000 ord beroende på vilken språk som används. Janus II tar ungefär dubbelt så lång tid på sig att översätta som normalt tal och tar hänsyn till det semantiska innehållet. Efter Janus II kom Janus III som är mer generell än föregångaren. 4.2 Mastor 4 IBM initierade 2001 något de kallar Mastor Multilingual Automatic Speech-to-Speech Technology. Då tekniken för text till tal redan finns utnyttjar IBM detta genom att de två som ska tala med varandra talar i var sin mikrofon som är anslutna till datorer. Mastor konverterar talet till text och översätter till det andra språket i text. Denna text visas på den andres bildskärm och datorn läser upp vad som står. Detta är utvecklat mellan engelska och mandarin och vokabulären innehåller över 30 000 ord för båda språken inom domänerna resor, akuta medicinska diagnoser och försvarsinriktat skydd och säkerhet. Mastor används via en bärbar dator eller handdator och presenterades vid konferenser under 2004. 5 Hur funkar Verbmobil 5 Systemet Verbmobil översätter alltså tal i realtid och vad som är speciellt med det är att det inte översätter mening för mening, utan är kontextberoende och utnyttjar betoningar i talet för att få bättre översättning tillsammans med ett minne för tidigare dialoger och domänkunskap. Det innefattar både djup och grund analys av tal med ett brett spektrum av korpusbaserade och regelbaserade metoder. Verbmobil använder resultat från maskininlärning av stora korpusar och lingvisters specialkunskap för att uppnå en tillfredsställande nivå av översättning. Jag ska här ge en översiktsbild över huvudkomponenterna i systemet och vad som händer mellan input och output, men först en beskrivning över datainsamlingen. 5.1 Datainsamling En signifikant del i Verbmobilarbetet var att samla in statistisk data att utgå ifrån och liksom de flesta delar var detta ett omfattande arbete. Man spelade in 182 timmar dialog med 1658 3 Gärdenfors (1997) från hemsida 4 Atrikel om Mastor från hemsidan idg.se. 5 Wahlster (2000) om inget annat anges

olika talare. För att få så representativt kvalitet på ljudet som möjligt spelades allt in parallellt genom olika kanaler: varsin mikrofon för talarna, en mikrofon i rummet och olika telefoner (mobil, stationär, sladdlös). Detta för att systemet skulle tränas till att få olika kvalitet på ljudet. De nästan 80 000 dialogturerna skrevs ner på sk partiturer vilka innehöll 15 raduppdelningar av dialogen i två olika typer av transkription, lexikal ortografi, uttal, fonologi, ord, prosodi, dialogakter, oljud, överlappande tal, syntax, ordkategorier, syntaktisk funktion och prosodisk tillhörighet. Utöver denna monolingvistiska insamling la man till bilingvistiska dialoger och transkriberingar mellan de tre språken. Detta ledde till tre träd, ett för varje språk i Verbmobils korpus med vardera tre delar: morfosyntax, frasstruktur och predikatargumentstruktur. 5.2 Huvuddelarna Slutversionen av Verbmobil innehåller 69 mycket interaktiva moduler. Översättning mellan talat input på ett språk till talat output på ett annat kräver oerhörda mängder kommunikation mellan dessa delar. Parallellprocesser utnyttjas så långt som möjligt för att korta processningstiden, vilket medför att det inte bara är input och output som skickas mellan komponenterna utan även signaler bakåt i systemet, alternativa hypoteser och en hel del värden för sannolikheter och tillit. Figur 2. Schematisk bild över Verbmobils huvudkomponenter. 5

Bilden ovan visar en schematisk bild över systemets moduler. Längst ner visas de olika inputvarianterna, att prata i varsin mikrofon i samma rum, att prata i telefon t.ex. flera parter vid konferenser, via mobiltelefoner eller över Internet. Först skickas inputen till de tre taligenkänningsmodulerna för tyska, engelska eller japanska. Beroende på vilket språk som talas skickas det vidare för prosodianalys. Systemet använder systematiskt prosodisk information i alla delar, men det bearbetas främst i denna modul. Prosodiska ledtrådar såsom varaktighet, tonläge, eftertryck och pauser, hjälper till att upptäcka självrättelser och en sannolikhetsmodell används för att hitta felsägelser och byta ut mot det rätta ordet. Outputen av detta innehåller ord som talaren inte velat yttra såsom uhm, ah och filtreras bort genom en ordhypotestabell (word hypothesis chart (WHG)). WHG går genom tre olika parser baserade på olika syntaktiska kunskapskällor. Alla parser i systemet använder samma format (VIT) på output som är en tabell med flera rader som gör det möjligt för flera tolkningar eller att pussla ihop fragment av olika parsers output. I dessa parser elimineras talljud och stakningar och den prosodiska informationen får olika probabilistiska värden. Resultatet från prosodianalysen används för parsning, dialogförståelse, i översättningsprocessen och talsyntesen. Prosodisk information på ett språk kan t.ex. motsvaras av en lexikal eller en syntaktisk skillnad på ett annat språk. Verbmobil gör korrekta fraser i 93 % av fallen. Ytterligare självrättelser upptäcks senare under den semantiska bearbetningen. Där upptäcks möjliga semantiska tolkningar av innehållet genom olika regler och delar som motsvaras av misstag hos talaren repareras i VIT:en. Efter den prosodiska analysen kombineras en tabellparser och en statistisk parser till ett paket i den integrerade bearbetningen. Dessa ytliga parser producerar trädstrukturer som transformeras till VIT formatet av nästa modul som kallas semantisk konstruktion. Modulen under, djupanalys, baseras på en HPSG (head-driven phrase structure grammar 6 ) parser för en djup lingvistisk bearbetning. Den n bästa vägen från den integrerade bearbetningsmodulen bearbetas av djupanalysen genom en tvåvägs bottom-up parser. Nu går vi tillbaka till den prosodiska analysen och till den andra grenen, mot statistisk översättning. Denna modul börjar bearbeta den bästa hypotetiska meningen från taligenkänningen. Prosodisk information om frastillhörigheter och meningens stil utnyttjas av denna modul. Output blir en sekvens av ord på målspråket tillsammans med ett tillitsmått som används av en selektionsmodul (syns ej i schemat) för att slutligen välja en översättning. Parallellt med den statistiska översättningen gör man en fallbaserad (case-based) översättning. Denna modul består av två komponenter: substring-baserad och A*sökning. Den förstnämnda översättningsmetoden tolkar stegvis asynkroniskt. Delar av meningar av input som finns i korpusen är de grundläggande enheterna i denna del. Den andra översättningsmetoden, A*sökning, söker igenom en mall med 30 000 översättningar där datum, tid och namngivna uttryck är markerade. A*sökningen utreder korsprodukten av dessa uttryck och sedan översätts de till målspråket. Tillbaka till den första grenen och parallellt med den semantiska konstruktionen och djupanalysen hittar man dialogaktsbaserad översättning. Denna del innehåller statistisk klassifikaiton av 19 dialogakter och fler än 300 omvandlare som hittar de huvudsakliga föreslagna innehållet av ett yttrande. Här används dialogminnet som extra material till statistiken. Dialogakten, ämnet och innehållsförslaget representeras av en notation som 6 Russel & Norvig (1995) Denna typ av grammatik är en sk unifier-baserad vilket betyder att det inte spelar någon roll viken i viken ordning reglerna appliceras, man får samma svar ändå.

innehåller 49 nästlade objekt med 95 möjliga attribut som täcker domänerna att förhandla om möte och planera resor. Sedan omvandlas dessa termer till målspråket. Den ytliga lingvistiska presentationen av yttrandet tillsammans med ämnet, den viktigaste informationen och en djup semantisk representation kodas i ett VIT i dialogminnet och utnyttjas av nästa modul, dialog och kontextutvärdering. Upp igen till dialogkomponenten ( dialog semantics i bilden). Denna modul innehåller en processor för kartläggning av pågående dialoghierarkier i olika dialogfaser. Dialogakter är den sista noden i trädet som representerar dialogstrukturer. Information om faser i dialogen används t.ex. under den semantiskbaserade överföringen för tvetydiga begrepp. Slutledningar av dessa tvetydigheter tillhandahålls av dialog och kontextkomponenten vid t.ex. temporala uttryck. Omvandlingsmodulen (transfer i bilden) skriver om vissa semantiska representationer i VIT formatet från källspråket till målspråket. Detta sker på en abstrakt nivå utan morfologiska och syntaktiska resultat. Slutprodukten av Verbmobil innehåller över 20000 omvandlingsregler och processen är väldigt snabb. Den näst sista modulen är en flerspråkig generator som innehåller två komponenter. En mikroplanerare och en syntaktisk realiseringsmodul. Mikroplaneraren får input av omvandlingsmodulen i form av VIT:er och gör en plan för hur meningarna ska se ut. Ordvalen är här nästan klara så den syntaktiska realiseringkomponenten använder LTAG (Lexicalized Tree Adjunct Grammars) 7 grammatiker för att lägga till hjälpverb 8. Sista delen i Verbmobil är de olika talsynteserna för tyska, engelska och japanska. Här finns en stor korpus av talad data som väljs genom grafbaserad enhet. När så är möjligt utnyttjas syntaktisk, prosodisk och diskursinformation som tidigare har processats för att välja bästa talöversättningen. 5.3 Träning och utvärdering Olika maskininlärningsmetoder har använts för att träna korpusen: hidden Markov models, neurala nät, probabilistiska robotar, parser, regelsystem översättningsmodeller och taligenkänningar. De end-to-end utvärderingar man gjort av Verbmobils olika prototyper visar tydligt på vikten av kvalitet och kvantitet av träningskorpusar när man ska göra ett tal-till-tal översättningssystem av spontant tal och som är robust, korrekt och övergripande. 6 Dialoghantering För att översättning av spontant tal ska bli bra och begripligt krävs det en relativt stor mängd kunskap om kontexten. Den här kontexten innehåller kunskap om dialogen och dess semantiska och pragmatiska innehåll. Information är bl.a. nödvändig om parterna vill ha en summering av det viktigaste från dialogen eller en utskrift av argumentationen, förutom själva översättningen. Följande områden går alltså djupare ner i strukturen än den schematiska bilden som beskrivits ovan över modulerna i Verbmobil. 7 Denna typ av grammatik är ett lexikon där varje lexikalt element kopplas ihop med en uppsättning träd som beskriver dess underkategoriseringar och morfosyntaktiska egenskaper (Inrias hemsida 2005-10-21) 8 Becker et al. I Wahlster (2000) 7

6.1 Dialogakter och innehållsförslag När intentionen av ett yttrande ska beskrivas använder sig Verbmobil av dialogakter i en hierarkisk struktur. Denna grund används för dialog- och kontextbearbetning genom att det bildar ett ramverk för symbolisk igenkänning av dialogakter, t.ex. greet, feedback, reject dvs typer av händelse i samtalet. Förutom dialogakter karakteriseras ett yttrande av dess innehållsförslag (propositional content) som det skapas olika representationer av på olika nivåer. Dialogakter (dialog act) beskriver kommunikation i form av grundelement snarare än ord och meningar. De används för att markera viktiga drag i yttranden såsom vilken roll ett yttrande har i förhållande till den övriga dialogen. Då det i princip är omöjligt att översätta allt måste man fånga det mest centrala i dialogen, vilket är att bevara talarens intention med yttrandet. Den här informationen utnyttjas då man har att göra med tvetydigheter inom den semantiska tolkningsmodulen. För att underlätta bearbetningen och förståelse innehåller Verbmobil ett dialogaktschema i form av ett beslutsträd, se tabell nedan. De 32 akter som representerar noder används vid notation och bearbetning. Till trädet hörde en detaljerad manual med regler för vilken nod man ska välja i strukturen. För att träna dialogaktschemat använde man 1505 dialoger på tyska, engelska och japanska som resulterade i 76210 dialogaktsetiketter i partiturformat. Man använde dialogaktschemat när man satte etikett på akterna genom att svara på frågor vid de olika förgreningarna och noder. Studenter för respektive modersmål skrev in etiketterna i ett system som utvecklades för ändamålet, Annotag. De fick tränada och diskuterade svåra dialoger för att försäkra kvaliteten. Man gjorde också reliabilitetsstudier för att uppfylla kvalitetskraven. Tabell 1. Hierarkisk struktur över dialogakterna GREET BYE INTRODUCE CONTROL-DIALOGUE POLITENESS_ FOURMULA THANK DELIBERATE BACKCHANNEL REQUEST_SUGGEST INPUT REQUEST_CLARIFY DERIVATE_ MANAGE_TASK DEFER REQUEST_COMMENT SCENARIO CLOSE REQUEST_COMMIT REFER_TO_ REQUEST DIGRESS SETTING SUGGEST EXCLUDE EXPLAINED_ PROMOTE_TASK INFORM CLARIFY REJECT FEEDBACK GIVE_REASON REJECT COMMIT FEEDBACK_NEGATIVE ACCEPT OFFER FEEDBACK_POSITIVE CONFIRM

Utöver dialogakterna representeras dialogen av innehållsförslag. Det finns två viktiga grundantaganden för denna notation; för det första är Verbmobil uppgiftsorienterat vilket innebär att den information som presenteras är relevant för domänerna. I detta fall innebär det beskrivningar om tid och platser samt vad som är nödvändigt vid resor t.ex. transporter, husrum och nöjen; för det andra är målet att kunna bevara talarens intention, dvs det spelar ingen roll hur man säger något utan vad som sägs. Ett exempel på detta och som Verbmobil inte gör någon skillnad på är de fyra yttranden nedan, med undantag för d) då information om destination följer med. Representationen innehåller alltså att resa någonstans med flyg. a. and I would think, we get there by plane b. le tus take plane c. I would rather take the plane d. I would like to fly to Hannover Ontologin för innehållsförslagen består av två huvudkategorier: objekt och situation, medan kvalitet beskriver egenskaper hos dessa kategorier. Ontologin kan presenteras av en trädstruktur med de tre delarna i toppen. Exempel på objekt är en plats, eller mer abstrakt en tid. En situation kan vara en händelse eller att man reser någonstans. Kvalitet är som sagt en egenskap hos någon av dessa, t.ex. pris för ett rum eller att resa i 1 eller 2 klass. Verbmobil har också koll på fyra områden vilka används vid tvetydiga ord och meningar för att sätta ihop en kontext. Dessa är schemaläggning, resor, ackommodation och nöjen. Verbmobils domäner handlar ofta om temporala uttryck och får således en stor roll i översättningen. Det är dock inte helt problemfritt och man måste ta hänsyn till tre saker; naturligt språk innebär att man pratar om tid och datum på olika sätt och man måste därmed reducera dessa till en gemensam vedertagen representation; spontant tal innebär otydligheter och ofullständig information som måste tolkas; kontexten utvärderas från olika språk men att resonera kring den sker på samma sätt, oberoende av språk så ett tvärlingvistiskt sätt att representera syftet behövs. För att lösa dessa problem inför man ett språk för temporala uttryck (Temporal Expression Language). Det byggs upp från VIT:en och liknar vanligt språk till viss del, t.ex. the third Monday after Easter presenteras som [after (3, dow:mon, holiday:easter)]. Ett yttrande kan alltså beskrivas genom dialogakter och innehållsförslag. För varje dialogakt ges förslag på innehållets innebörd och i tvetydliga fall används information om det övergripande området som nämns ovan. Dialogens område används för att lösa tvetydigheter och producera en adekvat översättning för en specifik situation. Är det t.ex. en temporal eller spatial kontext översätts det tyska ordet nächste till nästa eller närmaste. utt has_action suggest travelling person has_agent Figur 3. Sammanfattande representation av exemplet ovan om att resa med flyg. 9 a1 dialogue_ move_by_ topic act plane d1 d2 person

6.2 Dialogprocessen Den andra delen av dialoghanteringen, dialogmodulen, har med översättning av kontexter att göra samt genereringen av sammanfattningar. Dialogmodulen (ligger i dialog och kontextutvärderingen) innehåller tre komponenter: dialogminne och två processorer. Dialogminnet fungerar som en kommunikationslänk (communication black-board) för processorerna och andra moduler i systemet som har med dialogen och kontexten att göra. Processorerna bearbetar data och för in mer och mer information i dialogminnet för framtida bruk. All dialoghantering och kontextuell information använder alltså samma grund av representationer. Dialogminnet är en centralt lagringsplats för alla dialogturer och får data från olika moduler. Dessa data tillhör olika översättningstyper såsom djup eller ytlig, statistisk eller exempelbaserad och olika uppdelningar av data i dialogakter, ämne, uttryck av innehåll, VIT:en och frasinformation. Dialogminnet måste alltså hålla koll på allt detta och lagrar varje segment med turnummer, början och sluttider samt översättningstyp. En av processorerna (plan processor) används för att känna igen dialogfaser, drag och tillstånd. Faser (t.ex. öppning, förhandling, avslut) används för att klara ut tvetydigheter av vissa ord vid översättning. Det tyska ordet Guten Tag översätts till Hello eller Goodbye, beroende om det är i början eller slutet av dialogen. Drag och tillstånd används längre ner i strukturen och är en grund för hur dialogakten delas upp. Bilden nedan visar hur dialogen delas upp till dialogakter. I toppen är hela dialogen som delas i dialogfaser, följt av tillståndet, drag och slutnoderna representerar dialogakten. De två nedersta nivåerna fås automatiskt från dialogakterna som processas tidigare. Dragen erhålls från en algoritm för grammatikinlärning. Resten är kodat för hand. Figur 4. Planeringsträdet med fyra avsnitt. När man delar upp turerna används både en kunskapsbaserad och en statistisk metod. Först bestämmer man riktningen på stycket som kan vara bakåt, framåt eller neutralt. Med detta menas att en dialogakt som är (FEEDBACK) alltid tittar bakåt och en (SUGGEST) alltid tittar framåt i tiden. När riktningen ändras delas turen upp. Parallellt med denna kunskapsmetod

görs en statistisk beräkning som grundas på en språkmodell som har fått träna på dialogakter istället för ord. En tur (turn) delas upp när båda dessa metoder producerar ett positivt svar. Språkmodellen förutsätter också vilket tillstånd uppdelningen tillhör. Den andra processorn (dialog processor) har inte med kartläggning av dialogen att göra utan mer med dialogminnet. Den hämtar dialogakter och innehållsrepresentationer från dialogminnet och formulerar kontextuella strukturer som blir grundstenarna i summeringen. Enligt författarna handlar summeringen inte om en hel utskrift av vad som sagts utan endast det som alla parter är överens om. Detta innebär just att Verbmobil måste hålla reda på vilka förslag som får en positiv respons, vilka som diskuteras och avböjs, vilka som bara nämns en gång eller de som nämns för att sedan komma på tal senare. Detta hanteras genom att hålla koll på enstaka data som nästlas ihop och skapar förslag medan det har koll på direkta eller indirekta erkännanden och avböjanden. 7 Sammanfattning Verbmobil har över förväntan uppnått sina mål med att skapa ett tal-till-tal översättningssystem. Inte bara klarar det av när parterna träffas, utan man kan använda telefoner och Internet för att tala med varandra på olika språk. En ytterligare egenskap systemet har är att det kan skicka en summering av dialogen via fax eller till sin email. Detta kan vara användbart inom affärsrelationer eller förhandlingar om mötesplatser då man vill ha en utskrift på vad man kommit fram till, summera argumenten och utelämna irrelevanta detaljer. Summering skapas av den semantiska överföringsmodulen och genereringen av naturligt språk där den bästa översättningen väljs från dialogminnet. Stommen i detta är just dialogakterna och dialoghanteringen som ordnar upp dialogens turer. Jag anser att applicering av tal till tal översättning kan bli oändlig då man vill prata med människor i andra länder eller som talar andra språk. Verbmobil är ett god bit på väg, men det krävs ytterligare forskning och utveckling då detta är ett gigantiskt jobb att få ett sånt här system att bli tillräckligt bra för att användas inom vardagsdomäner eller inom fler tillämpningar. Jag förstod det innan också, men nu har jag verkligen insett det enorma arbete som ligger bakom ett översättningssystem. Med tanke på hur dåliga de översättningsprogram av skriven svenska till engelska jag sett, kommer det nog ta ytterligare decennier innan en kommersiellt fungerande tal till tal översättning finns. Många kan säkert tycka att AI-forskning ibland inte är helt relevant för människor idag eller användbar, men här är ett bra exempel på hur man i vardagssituationer kan ha stor nytta av forskningsresultat. 11

8 Referenser Internetreferenser Dokument från Verbmobils hemsida, hämtat 2003-11-10 http://verbmobil.dfki.de/verbmobil/vm.english.mail.30.10.96.html http://verbmobil.dfki.de/verbmobil/vm2.info.us.html LTAG grammatik på Inrias hemsida http://www.inria.fr/rapportsactivite/ra2004/led/id2643751.html läst den 2005-10-21 Mastor, hämtat 2005-10-19: http://www.idg.se/articlepages/200304/25/20030425164304_idg.se300/20030425164304_i DG.se300.dbp.asp Gärdenfors, Peter (1997) Att tala med maskinerna Human IT 3/1997 Hämtad från hemsida http://www.hb.se/bhs/ith/3-97/pg.htm Följande fyra artiklar är hämstade ur Wahlster, Wolfgang (2000) Verbmobil: Foundations of Speech-to-Speech Translation. Springer, Berlin Alexandersson, Jan m.fl. Modeling Negotiation Dialogs. Becker, Tilman m.fl. The Verbmobil Generation Component VM-GECO Kipp, Michael m.fl. Dialog Processing. Wahlster, Wolfgang Mobile Speech-toSpeech Translation of Spontaneous Dialogues: An Overview of the Final Verbmobil System. Russel, Stuart & Norvig, Peter (1995) Artificial Intelligence A Modern Approach. Prentice Hall, New Jersey