Smartkom Ett symmetriskt multimodalt dialogsystem

Smartkom Ett symmetriskt multimodalt dialogsystem andma440 Linköpings universitet Linköping 2007-10-11

Astrakt Rapporten avhandlar den generella strukturen och hur de olika modulerna i Smartkom fungerar och samarbetar för att skapa ett fungerade multimodalt dialogsystem. Smartkom fungerar med symmetriskt multimodalitet, vilket innebär att systemet interagera med användaren i alla dom modaliteter som är tillgängliga som input (gester, tal och ansiktsuttryck).

Innehållsförteckning Systemets arkitektur...1 Modalitetsanalys och fusion...2 Diskursmodul...3 Dynamisk hjälpfunktion och vakthund...4 Modalitetsfission och presentation...5 Flödesschema...6 Diskusson...7 Referenser...8

Inledning Grunden till Smartkom kommer ifrån att när människor interagerar med varandra, så sker detta i flera modaliteter, t.ex. tal, gester och ansiktsuttryck. Detta vill Smartkom implementera i sitt system, med andra ord att man ska interagera och samarbeta med systemet på samma sätt som man interagerar med en annan människa (symmetriskt). För att göra interaktionen naturligare, och hjälpa användaren så har Smartkom skapat en 3D agent (Smartakus) som använder multimodal output i interaktionen med användaren. Därför kan man säga att systemet är symmetriskt, dvs. både systemet och användaren använder multimodal kommunikation. Smartkom fungerar efter vad skaparna kallar situated delegationoriented paradigm vilket sammanfattat innebär att användaren delegerar en uppgift till systemet, som kan ställa följdfrågor för att arbeta för att uppfylla användarens intention.

1. Systemets arkitektur Smartkom är uppbyggt av distribuerad komponent arkitektur, även kallat för multiblackboard system. Integreringsplattformen heter MULTIPLATFORM (Multiple Language Target Integration Platform for Modules). De olika modulerna som utgör systemet kommunicerar genom att skriva till så kallade data pools i systemet. Dessa data pools är i själva verket namngivna meddelandeköer. Som medför att modulerna inte behöver skicka information till en eller flera specifika mottagare direkt. Utan avsändaren skicka medelanden till en hel lista med mottagare, dessa listor lagras i kön. Eftersom modulerna bara skickar iväg informationen till data poolerna och dessa i sin tur lagrar den temporärt (tills mottagarmodulerna läser in informationen) så blir kommunikationen mycket mer effektiv än om modulerna skulle ha direkt kommunicerat med varandra (Herzhog et al. 2003 i Wahlster 2003). Jämfört med systemet GCSI som använder en centralhub som all kommunikation går via. Denna centalhub är en potentiell flaskhals för systemet om den skulle utsättas för den mängd information som hanteras i ett multimodalt dialogsystem (Seenef et al. 1999 i Wahlster2003). All kommunikation mellan modulerna i systemet sker i det modalitetsneutrala språket XML, vilket göra att så länge de enskilda modulerna kan ta emot och skicka information i detta språk kan olika programmeringsspråk användas i modulerna. Fördelen med detta är att det är lätt att införa och byta ut moduler i systemet. Analysmodulerna för inputen fungerar oberoende av varandra (sammanfogas senare i diskurs modulen). På det viset smartkom i realtid byta mellan input moduler. Till Smartkom utvecklades M3L (Multimodal Markup Language) som ett komplett XML språk där alla typer av data inom systemet kan representeras (se Figur1). Ontologin som användes som grund för att representera kunskapen Smartkom kodades i ontologispråket OIL. Detta konverterades med verktyget OIL2XSD (Gurevych et al. 2003 i Wahlster 2003) till ett M3L kompatibelt XML schema. All information i systemet representeras i M3L (se figur 3). Från de tolkningshypoteser som genereras av de olika inputmodulerna, tolkningen efter modalitetsfusionen och presentations målet. Detta är möjligt eftersom M3L är designat för att representation och utbyte av komplex multimodal information. Det innehåller bland annat tolkningssäkerhet, segmenteringsinformation och synkroniseringsinformation. (Wahlster. 2003) Figur 1 : exempel på hur en biograf i Heidelberg representeras i M3L schema(reithinger et al. 2003) 1

2. Modalitetsanalys och fusion Multimodal input jämfört med vanlig standard GUI-input (mus och tangentbord), så är GUIns inmatningssätt väldigt exakt och fördefinierat, medan den multimodala tolkningen ofta är probabilistisk, då flera indatakällor måste analyseras (Oviatt & Cohen 2000). För att reducera osäkerhet och tvetydighet som finns i systemet så används en modalitetsfusion, dvs. att man kombinerar tolkningarna från olika modaliteter till en samlad tolkning. Språkigenkänningssystemet skapar flera betygsatta(tolkningskonfidens) hypoteser om vad som kan ha menats i inputen, och lägger även till en tidstämpel (detta eftersom alla inputs inom en viss tidsram ska kunna sättas ihop till en samlad hypotes om användarens intention). Andra inputs som behandlas med liknande metoder är prosodi, gester och även ansiktsuttryck. Om den samlade hypotesen innehåller tvetydigheter eller konflikter mellan olika modaliteter, så skickas dessa vidare till diskurs modulen (beskrivs nästa stycke) som bedömer och rättar till dessa problem. Det ger på så vis en stabilare grund för att dialogen med systemet blir korrekt tolkad. Smartkom innehåller stöd för flera parallella tolkningsmoduler inom samma modalitet, t.ex. i talet tolkas dels det semantiska innehållet och i prosodianalysen tolkas både satsavgränsning och en avkänning för emotionelltladdat innehåll. Alla dessa tolkningar av samma insignal sker parallellt. Tidstämplarna spelar även roll när det gäller tolkningssäkerhet i kombination med affektiva tillstånd hos användaren, experiment utförda med programmet visar att i tillstånd som glädje och ilska. Helhetsintrycket av ett ansikte är mer beskrivande än de olika delarna tolkade var för sig. Dock när användaren pratar så måste igenkänningen för den affektiva analysen tona ner konfidensvärdet för mun regionen. Eftersom inga konsekventa tillstånd kan urskiljas. Modalitetsfusionen är alltså baserad på dynamiskt uppdaterade konfidens mätningar som beror på synkroniseringen av olika modaliteter (Walster 2003). Intensionsigenkännaren utför rankning av de hypoteser som skickas in, och väljer därefter ut den mest passande som skickas vidare till aktionsplaneraren. Vid skapandet av ansikts- och prosodi igenkännings modulerna till Smartkom så skriver författarna att de flera gånger fått revidera sina kategorier. Detta eftersom att det är svårt att generalisera mänskliga uttryck och uttal under fasta kategorier. I rapporten nämns även att flera av de intressantare fallen hamnat i en uppsamlings kategori. (Steininger et al. 2002) Figur 2: Flödesschema för modalitetsfusion (Reithinger et al. 2003) 2

3. Diskursmodul Denna moduls huvuduppgifter är som sagt att ta lösa konflikter som uppstår mellan tolkningshypoteser, slänga orimliga tolkningshypoteser, samt att sammanföra ny och gammal kunskap. Diskursmodulen lägger även till ytterligare en bedömning om hur bra tolkningshypotesen passar in med tidigare del av dialogen. Sammanslagningen mellan de olika modaliteterna sker dels med unifiering, men framför allt med en metod som heter Overlay (Alexandersson & Becker 2003). Overlay är en operation speciellt designad för framebaserade dialogsystem. Den beräknar den maximalt kompatibla kombinationen av gammal och nya information, där ny information alltid prioriteras. Ett exempel på hur detta kan implementeras i Smartkom är: Användaren undrar vad som visas på bio, Smartkom plockar fram bioprogrammet och visar det, varpå användaren markerar att inget verkar intressant. Användaren frågar istället vad som visas på tv, varpå Smartkom plockar fram en tv-tablå, systemet använder nu operationen Overlay, och likheter mellan den nya och gamla informationen beräknas. Dvs. de två olika medierna jämförs, eftersom likheter finns mellan tv-underhållningen och biofilmerna (Alexandersson & Becker 2003). Eftersom Smartkom är ett multimodalt system krävs att både den verbaliserade och den visualiserade informationen tas med i referensresolutionen, och likaså de spatiala relationerna mellan dessa. Detta sker genom att diskursmodulen får en M3L representation av systemets output. Detta krävs för att systemet ska kunna tolka det som är underförstått i en modalitet, och beskrivet i en annan t.ex. pekande gest och uttalandet den där. Systemet måste följaktligen inte bara förstå användarens multimodala input, utan även dess egen output (Wahlster 2003). När diskursmodulen utfört sin bedömning skickas de hypoteser som inte har förkastas vidare (via modalitetsfusionsmodulen) till Intentionsigenkännaren. Smartkoms diskurs modell har tre olika lager: (figur 2) Domänlager: länkar diskurs objekt med instanser i Smartkoms ontologibaserad domänmodell Diskurs lager: relationer mellan modalitetsobjekt fastställs, samt kopplingar till domänlagret skapas. Modalitetslager: lingvistiska, visuella och gestikulerade objekt, dessa länkas till motsvarande diskurs objekt. Figur 3: Exempel på Diskurs modulen (Walhster 2003) 3

Figurförklaring (figur 2): LO - lingvistiska objekt, talad input VO visuellobjekt, saker som visas för användaren GO gestikulering objekt, gester input DO diskurs objekt, flera objekt i modalitetslagret kan referera till ett diskursobjekt OO ontologi objekt, instanser i domänlagret I detta exempel kan vi se hur användarens initiala input GO 1 (pekning) LO 1 (tv-tablå) tolkas genom lagren, och hur dialogen mellan systemet och användaren leder fram till att systemet programmerar videon för inspelning vid en viss tidpunkt och kanal. 4. Aktionsplanerare Denna funktion har som huvuduppgift att koordinera systemets handlingar. Detta innebär att den måste identifiera handlingen som användaren vill att systemet ska utföra baserat på inkommande information från intensionsigenkännaren och den dynamiska hjälpfunktionen. Planeraren har även till uppgift att interagera med olika applikationer för att sedan välja ut passande för att tillgodose användarens begäran, för att sedan vidarebefordra informationen till presentationsmodulen. Den direkta kommunikationen mellan aktionsplaneraren och applikationerna sköts av funktionsmoduleraren. Denna döljer applikationsspecifika detaljer från planeraren. Därav kan planerarens interface nästan helt baseras på moduleringen av intentionerna i ontologin(wahlster 2003). Planeringen genomförs med hjälp av en dialogtyp som kallas kommunikativa spel (Carlsson 1983). Tanken bakom denna teori är att för att få en fungerande dialog krävs konventioner. Dessa gör så att vissa nya handlingar begränsas av tidigare tagna steg. Dialogen eller spelets gång pre/postvillkår sparas, vilket ger användaren möjlighet att i en dialog, starta en subdialog och sedan återgå till den tidigare. I Smartkom används dessa tre typer av handlingar för det kommunikativa spelet : Begäran instruktioner om att en handling ska utföras. Svar resultatet av begäran returneras. Informera förbereda mottagaren med kontextinformation, inför en eventuell handling innan begäran skickats. Lexikonmodulen informeras om att användaren söker inom filmkategorin, och letar upp relevant information inom kategorin. Modulen skapar även fonetiska vidarebefordrar dessa till språkigenkänningssystemet. Detta gäller endast för områdesspecifika ord som t.ex. filmtitlar osv. 5. Dynamisk hjälpfunktion och vakthund För att hantera förändringar i användarens emotionella status och för att hantera extremt tvetydig information som diskursmodulen inte kan tolka (utan att få för hög tolkningsosäkerhet) har hjälpfunktionen byggts in. De problem som denna modul oftast hanterar är input som gör att diskursmodulen inte kan tolka användarens intention. För att tolka dessa oklara instruktioner behöver hjälpfunktionen ha en djup förståelse om systemets förmåga, dialogsituationen och även information systemets nuvarande tillstånd. Hjälpfunktionen har en skiktad arkitektur med en planeringskomponent i toppen, som djupanalyserar kontext och situation. Planeringsmodulen har en dominant hierarkisk roll, och 4

styr således över vilken information som behöver hämtas från andra moduler i systemet, och även hur de undre lagren ska processa denna information. Oväntade interna fel och konflikter hanteras och analyseras av vakthunden. Den har även som uppgift att uppdatera presentationsmodulen om systemets interntillstånd. Vid hög arbetsbelastning (lång processtid) animeras t.ex. 3D agenten Smartakus som jobbande med en laptop, och signalerar med denna gest att systemet är upptaget (Reithinger et al. 2003). Denna funktion är viktig eftersom användaren vill ha snabb verifiering av att systemet mottagit inputen (Walster 1991). 6. Multimodalfisson och presentation Fissonen, dvs. omvandlingen från den modalitetsfria M3L representationen, till faktisk output sker i flera steg. Presentationsplaneraren översätter M3L koden till ett mer presentationsvänligt format. Detta sker med XSLT översättning, vilket skriver om M3L koden till kod som är närmare den färdiga presentationen. Presentationsplaneraren bryter rekursivt ner den XSLT översatta presentations målet, till primitiva presentationsuppgifter. Detta sker med hjälp av 121st fördefinierade och kontextberoende mallar. Mallarna innehåller instruktioner om vilken outputmodalitet som passar för typen av information. Vilken modalitet som sedan informationen presenteras i, beror på av användaren fördragen modalitet, eller på andra förutsättningar. Dessa kan vara t.ex. skärmstorlek eller att användaren inte aktivt tittar på skärmen. (Wahlster 2003). Resultatet är en hierarkisk presentationsplan som omvandlas till ett skript. I fissionen skickas även instruktioner till modulen som genererar naturligtspråk. Modulen har sin grund i närliggande trädgrammatik (Abeillé & Rambow 2000 i Reithinger et al. 2003). Dess outputbestår av text komplimenterat med information till syntetiseringsmodulen. Syntetiseraren skapar inte bara auditiv output, utan även en fonemtranskription och tidstämpel, som används till läppsynkningen för Smartakus. En specifik delplan genereras för 3D agenten Smartakus. För att Smartakus placering och handlande både ska passa ihop med och förtydliga övrig information som presenteras. Grafiken som genereras av displayhanteraren har vissa grundmallar för t.ex. hur ramen runt en tv-tablå ska se ut. Resten av grafiken genereras dynamiskt från aktionsplanerarens input, t.ex. titlar, kartor och logotyper. Displayhanteraren ser även till att Smartakus läpprörelser synkroniseras med auditiva outputen. Läpprörelserna hos Smartakus är baserad på en mappning mellan fonem och visimer (Reithinger et al. 2003). Figur 4 flödesschema för modalitets fission (Reithinger et al. 2003) 5

7. Flödesschema Visar visuellt hur systemets moduler samarbetar och används för att grafiskt kontrollera hur modulerna kommunicerar. Ger även en tydlig överblick på systemets arkitektur. Figur 5 Flödesschema (Reithinger et al. 2003) 6

8. Diskussion Jag hävdar att multimodal kommunikation är framtiden inom interaktionsdesign. Men Smartkom visar definitiv en trend som jag tror kommer att tilltala människor utan större teknikintresse. Den typen som köper en dator och bara kräver att den ska fungera för basala behov. För denna och vanliga användare kommer konceptet med att föra en dialog och delegera uppgifter till en agent att bli en stor framgång. Idéen att frångå konventionella styrtekniker som tangentbord och mus, för en multimodalt alternativt tycker jag känns extremt lockande. Men det ligger nog långt i framtiden innan det kan bli ett verkligt tänktbart alternativt. Tekniken har långt kvar i utvecklingsstadiet innan den har blivit så pass välfungerande, att någon större produktion av helt multimodala produkter kommer ut på marknaden. 7

9. Referenser Herzog, G., Kirchmann, H., Merten S., Ndiaye, A. Poller, P. (2003): MULTIPLATFORM Testbed: An Integration Platform for Multimodal Dialog Systems. In: Proc. of the HLTNAACL 03 Workshop on the Software Engineering and Architecture of Language Technology Systems (SEALTS), Edmonton, Canada. Gurevych, I., Merten, S., and Porzel, R. Automatic creation of interface specifications from ontologies. In: Proceedings of the HLT-NAACL Workshop on Software Engineering and Architecture of Language Technology Systems (SEALTS), Edmonton, Canada, 2003. Wolfgang Wahlster. 2003. SmartKom: Symmetric multimodality in an adaptive and reusable dialogue shell. In Proceedings of the Human Computer Interaction Status Conference 2003. Oviatt, S.L. and Cohen, P.R. Multimodal Interfaces That Process What Comes Naturally. Communications of the ACM, Vol. 43, No. 3, pp. 45-53, 2000. S. Steininger, F. Schiel, O. Dioubina, and S. Raubold. Development of User-State Conventions for the Multimodal Corpus in SmartKom. In Proceedings of the Workshop Multimodal Resources and Multimodal Systems Evaluation 2002, Las Palmas, Gran Canaria, Spain, pages 33 37, 2002. Reithinger, N.; Alexandersson, J.; Becker, T.; Blocher, A.; Engel, R.; Löckelt, M.; Müller, J.; Pfleger, N.; Poller, P.; Streit, M. & Tschernomas, V. (2003), SmartKom: adaptive and flexible multimodal access to multiple applications, in 'ICMI '03: Proceedings of the 5th international conference on Multimodal interfaces', ACM Press, New York, NY, USA Alexandersson, J. and Becker, T. The formal foundations underlaying Overlay. In: Proceedings of the Fifth International Workshop on Computational Semantics (IWCS-5), Tilburg, The Netherlands, 2003 Wahlster, W. (1991): User and Discourse Models for Multimodal Communication. In: Sullivan, J., Tyler, S. (eds.): Intelligent User Interfaces, New York: ACM Press, 1991, p. 45-67. (Carlsson 1983) Carlson, L. Dialogue Games. Reidel Publishing Company, 1983. 8