LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II
Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem vilket använder talat språk, rörelser och ansiktsuttryck. Smartakus är en 3D agent som använder både multimodal input och output. Systemet är tänkt att vara väldigt användarvänligt och lätt att förstå och det ska framhäva samspelet mellan människa och maskin. Istället för att lösa en uppgift med hjälp av en dialogruta talar man i detta system om för agenten vad man vill ha hjälp med och denna hjälper en att utföra uppgiften.
INNEHÅLL Inledning... 1 Bakgrund... 1 SmartKom... 2 Mål med SmartKom... 2 SmartKom-Public... 2 SmartKom-Mobile... 2 SmartKom-Home/Office... 2 Smartakus... 3 SmartWeb... 3 SmartKom s multimodalitet... 3 Programmering... 4 Konflikter... 4 Diskussion... 6 Referenser... 7
INLEDNING Syftet med arbetet är att få ökad förståelse för hur systemet SmartKom fungerar och ge ökad förståelse för hur det behandlar konflikter. Bakgrund SmartKom är ett multimodalt dialogsystem som kan känna igen tal, rörelser och ansiktsutryck (Wahlster, Reithinger, Blocher). Huvudentreprenören för projektet är det tyska research centret för artificiell intelligens (DFKI) med W. Wahlster som vetenskaplig projektledare, projektet startade år 1999 och varade i cirka fyra år. SmartKom är en uppföljning av projektet Verbmobil (Wahlster, 2000) som är ett system som känner igen tal och naturligt språk och använder några av dess komponenter för förståelse av spontana dialoger. Målet med projektet är att utveckla en agent som är så smart att en oerfaren datoranvändare ska kunna kommunicera med den självförklarande agenten. Input kan ske i både tal, gester och ansiktsuttryck. Systemet kan också interagera med redan existerande system som olika bokningssystem med mera. 1
SMARTKOM Mål med SmartKom 1. Utveckla metoder för analys av flertydigheter på semantisk och pragmatisk nivå. 2. Generalisera avancerade diskursmodeller för talade dialogsystem så att de kan fånga ett brett spektrum av multimodala diskursfenomen. 3. Utforska och utveckla nya begränsningsbaserade och planbaserade metoder för multimodal fission och adaptiv presentationslayout. 4. Interagera alla dessa multimodala kapaciteter i ett återanvändbart effektivt och robust dialogskal som garanterar flexibel konfiguration, domänoberoende och ha plug and play - funktionalitet. (Wahlster, 2006) SmartKom-Public En multimodal kommunikationsmonter som kan finnas på tågstationer, flygplatser med mera för att kunna få reda på information om staden man besöker såsom restauranger, hotell, affärer och nöjen. En till fördel är att man kan komma åt sina personliga standardapplikationer och mejl med hjälp av bredband. SmartKom-Mobile En flyttbar enhet som används i bilen eller som fotgängare. Den fungerar som en bärbar enhet och kan användas som GPS, den talar om för dig vilken väg du ska ta och beräknar om rutten ifall du går eller åker fel. Den kan också berätta om olika platser och sevärdheter för dig om du vill veta mera om dem. SmartKom-Home/Office En portal till informationstjänster som TV-tablå och annan hemelektronik. Kan användas till standardapplikationer som telefon, mejl med mera. Antingen med bara tal eller med både tal och gester. 2
I SmartKom-Mobile och SmartKom- Home/office används touchscreen medan i SmartKom- Public behöver man inte röra skärmen utan det räcker att peka och göra gester i luften. Smartakus Smartakus är en 3D figur som används i systemet för att interagera med användaren. Med hjälp av SDDP (situated delegation-oriented dialog paradigm) ger användaren en uppgift till agenten som försöker lösa problemet, för svårare problem stället agenten fler frågor för att kunna lösa det. Han gör gester för att visa om han inte förstår, att han lyssnar eller att han försöker komma på svaret på en fråga. Figuren är i 3D och är inspirerad av bokstaven i eftersom det är en vanlig symbol för information och det är det han är till för. Om det tar väldigt lång tid för Smartakus att komma på ett svar visas agenten med en laptop som ska symbolisera att systemet arbetar. Detta för att användaren ska veta att systemet har mottagit informationen. SmartWeb Uppföljningsprojektet SmartWeb kan svara på frågor med webben som kunskapsbas. Det är alltså mycket bättre än SmartKom eftersom det har en större kunskapsbas och kan därför svara rätt på fler frågor. Projektet pågick 2004-2008 (Wahlster, 2006). SmartKom s multimodalitet Som jag nämnt tidigare är SmartKom är ett symmetriskt multimodalt system vilket betyder att alla olika input (tal, gester, ansiktsuttryck) också kan ske i output. Systemet måste både förstå användarens multimodala input och sin egen multimodala output. De flesta multimodala system använder endast multimodal fusion eller multimodal fission medan SmartKom använder båda för att kunna känna igen fler ord och förstå bättre. Genom att sammanfoga tal, ansiktsutryck och gester kan SmartKom korrigera igenkänningsfel. Systemet använder alltså flera olika identifierare av endast en modalitet, talet behandlas av tre parallella igenkännare, tal, emotioner och gränser mellan dem. Genom ansiktsigenkänningen kan SmartKom se om man är glad eller arg på ögon, mun, näsa med mera (Wahlster, 2006). 3
Programmering Komponenterna i SmartKom baseras på maskininlärning som betyder att den lär sig av erfarenheter, så ju mer den har varit med om desto bättre är den. För att kunna utföra projektet krävdes mängder av datainsamling (Steininger, 2001). Programmeringsspråken som används är fyra olika: C, C++, Java och Prolog (Wahlster, 2006). All data smartkom använder representeras i M3L (Multimodal Markup Language) som är ett komplett XML-språk som täcker alla datagränssnitt till systemet. M3L definieras av ett 40-tal XML-scheman och är avsedd för representation och utbyte av komplext multimodalt innehåll (Wahlster, 2006). M3L skickar informationen mellan komponenterna i SmartKom, se figur 1. Konflikter Om SmartKom får in två input som säger emot varandra så behandlas den med låg prioritet och får då ingen effekt. Systemet tar hjälp av de andra modaliteterna för att ta reda på vad användaren vill när en inmatning är otydlig. De olika systemen för tal, gester och ansiktsutryck sätter tidsstämplar på inputen och gör hypoteser (tolkningar av vad användaren menat) som betygsätts för att kunna göra en gemensam hypotes om användarens input. Om det dyker upp konflikter i den gemensamma hypotesen mellan de olika modaliteterna skickas de till diskursmodulen och granskas vidare. Diskursmodulen kollar hur bra det passar in tidigare i dialogen, tar bort orimliga tolkningar. Kopplingen mellan modaliteterna sker med unifiering och med Overlay (Wahlster, 2006) som kontrollerar hur kompatibla den nya och den gamla informationen är med varandra och prioriterar alltid den nya informationen. Detta ger fler korrekt tolkade dialoger än ett vanligt system. De hypoteser som inte blivit ratade av unifieringen eller Overlay rangordnas och den mest passande hypotesen skickas till aktionsplaneraren. 4
Figur 1. Exempelkod i M3L. I figur 1 visas hur en person har sagt Jag vill veta mer om denna och visat med handen på en film. SmartKom har hört och sett och sedan förstått vad användaren ville göra och visar då information om filmen Enemy of the State. Presentationsplaneraren bestämmer vad som ska presenteras och det beror på sammanhanget, omgivningen och användaren, till dess hjälp har den 121 presentationsstrategier. Planeraren talar om för text, grafik och animationsgeneratorerna vad de ska göra. 5
DISKUSSION Detta är ett väldigt smart system inom AI eftersom det kan koppla samman olika modaliteter. Systemet kan både förstå tal, gester och ansiktsutryck och även förmedla dessa egenskaper till användaren, detta är en av SmartKom s fördelar. Automatisk taligenkänning vore väldigt enkelt om ett ord gav samma ljudvåg varje gång man sa ordet, men så är tyvärr inte fallet. Därför är taligenkänning inte optimalt. Systemet kan misslyckas med att känna igen ett ord, ta fel på ord eller tro att det är bakgrundsljud eller brus. Men SmartKom har kanske löst detta? Eftersom systemet kopplar ihop talet med munrörelser och gester så får detta system många fler rätt än ett vanligt taligenkänningssystem. 6
REFERENSER Steininger, Silke. (2001) Transliteration of language and labeling of emotion and gestures in SmatKom. Nedladdad 3 september 2012 från http://www.smartkom.org/start_en.html Wahlster, Wolfgang. (2006). SmartKom: Foundations of Multimodal Dialogue Systems. http://www.springerlink.com.lt.ltag.bibl.liu.se/content/jx475u/#section=472938&page=4&loc us=27 Wahlster, W, Reithinger, N, Blocher, N. SmartKom: Multimodal Communication With a Life- Like character. Nedladdad 3 september 2012 från http://www.dfki.de/~bert/eurospeech- 01.pdf Wahlster, Wolfgang. (2000.): Verbmobil: Foundations of Speech- to-speech Translation. Berlin, Heidelberg, New York: Springer 7