Stina Nyman 2012-09-16

Relevanta dokument
Smartkom Ett symmetriskt multimodalt dialogsystem

1. Att lyssna 1. Titta på den som talar. 2. Tänk på vad som sagts. 3. Vänta på min tur att prata. 4. Säg det jag vill säga. 1.

På jakt med geocaching

5 vanliga misstag som chefer gör

Krypande kaninen Karin

Häftiga hästskolampan Hanna

Några övningar att göra

Härliga hörselskydden Hilma

Trassliga trådspelet Troja

Flaxande fjärilen Frida

Så gör du din kund nöjd och lojal - och får högre lönsamhet. Tobias Thalbäck Om mätbara effekter av kundnöjdhet

Många har fått lära sig att inte ta skit från någon. Annika R Malmberg säger precis tvärtom: Ta skit!

Lilla lyckohjulet Lina

1. Bekräftelsebehov eller självacceptans

Slutrapport för Pacman

Granskningsrapport. Brukarrevision. Londongatan Boende för ensamkommande

Öppen data och vad vi kan vinna på att offentliggöra uppgifter! Formatdag i västerås Björn Hagström bjorn.

Viktigt att tänka på i en intervju och de vanligaste fallgroparna. som intervjuar. Ett kostnadsfritt whitepaper utgivet av Level Recruitment

Sammanställning av studerandeprocessundersökning GR, hösten 2010

Självbestämmande och delaktighet

Lathund för webbredaktörer. Så skriver du på webben

Man vill ju inte klaga. Om att framföra och hantera klagomål

Kommuniceramer än ord

Självkänsla. Här beskriver jag skillnaden på några begrepp som ofta blandas ihop.

It-politik Fakta i korthet

Skriv ut korten. Laminera dem gärna. Då håller de längre och kan användas om igen. Klipp ut dem och lägg de röda respektive de gröna i var sin ask.

Har du funderat något på ditt möte...

Barns brukarmedverkan i den sociala barnavården - de professionellas roll för barns delaktighet

Låt eleverna öva på att dra slutsatser om textens handling genom att leta ledtrådar i texten.

Berlinmuren Frågeställning: Vad är Berlinmuren? Orsaker? (Varför byggde man Berlinmuren?) Konsekvenser? Berlinmurens avskaffande.

9B läsning av En komikers uppväxt

Kongressutbildning Med Milena Kraft, mångfaldskoordinator

5. Skill # 2 Inviting Prospects to Understand Your Product or Opportunity. Många posers och amatörer gör dessa fel i början när dom ska bjuda in

Thomas Padron-Mccarthy Datateknik B, Mobila applikationer med Android, 7.5 hp (Distans) (DT ) Antal svarande = 18

Våga Visa kultur- och musikskolor

MagiCAD El & Rör. Varför MagiCAD och varför 2D/3D? Kollisionskontroll. MagiCAD El

POLICYSAMMANFATTNING FRÅN ENTREPRENÖRSKAPSFORUM VARFÖR SILOTÄNKANDE KAN VARA BRA FÖR INNOVATION

Utvärdering av 5B1117 Matematik 3

Förskoleenkäten 2015 Förskoleförvaltningen

En beskrivning av det professionella rådgivningssamtalet

Lyssna, stötta och slå larm!

Tankar om språkundervisning

VÅREN 2015 SNÖVIT 3-8 år lörd 17/1 kl:13:00 & 15:00 ons-tors 21-22/1 kl:9:30 lörd 24/1 kl:13:00 & 15:00 ons-tors 28-29/1 kl:9:30

Motivering och kommentarer till enkätfrågor

Vad ska vi ha varandra till?

Liten introduktion till akademiskt arbete

ELEVHJÄLP. Diskussion s. 2 Åsikter s. 3. Källkritik s. 11. Fördelar och nackdelar s. 4. Samarbete s. 10. Slutsatser s. 9. Konsekvenser s.

Enkät rörande boende för äldre i Krokoms Kommun

MENING MED LIVET? FINNS DET NÅGON

Att köpa ny dator SeniorNet Lidingö Januari-2016

Några små tips om att träna på utsatt fågel

Utvärdering av föräldrakurs hösten 2013

UTVÄRDERING AV UTSTÄLLNINGEN OMÄNSKLIGT/ OM TEKNIK / LÄSKORT OCH LURAR

Sinnena den mänskliga hårdvaran

BARNS SPRÅKUTVECKLING

Församlingens verktygslåda del 2 Av: Johannes Djerf

Lösa konflikter som orsakar skada

kärlekens olika språk

Om du mår bra så mår jag bra! Kan en relation hålla hela livet?

4 av 5 svarat= 80 % 8 av 10 svarat: 80 % Kön Kvinna % 51 Man % 54 Totalsumma: 105. svar ej i samma frekvens

Fjäderns Bokslut 2015

Ledarskap Utbildning & bildning Matematik

Projektpresentation Wapspel

Protokoll studienämndsmöte 1 25/ Rapporter från råd

NHR-möte om en meningsfull fritid på ABF i april 2012

Alla får ligga. strategier i förförelsekonst för den moderna gentlemannen och kvinnan

by Lindquist Heating

Snacket går. Lärarhäfte med kopieringsunderlag. Catarina Littman Carin Rosander BONNIERS

Trygghet 9 Empati 6 Hänsyn 3 Bemötande 2 Tolerans 2 Förhållningssätt 2 Omsorg 2 Respekt 2 Kamrat 1 Ärlighet 1 Omtanke 1 Skyldighet 1 Rättighet 1

TNS SIFO P COM HEM-KOLLEN JUNI 2016

Volymen av bokningar som görs online

André 5A Ht-15. Kapitel 1 Drakägget

Att ge feedback. Detta är ett verktyg för dig som:

KLOKA FRÅGOR OM ÄLDRES LÄKEMEDELSBEHANDLING ATT STÄLLA I SJUKVÅRDEN

ÖKA ENTUSIASMEN. Copyright 2013 Dale Carnagie & Associates, Inc. All rights reserved. be_enthusiastic_060214_gb

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Skaparkultur i skolan

Illustrationer: Hugo Karlsson, Ateljé Inuti Projektledare: Elinor Brunnberg. Mälardalens högskola Text: Kim Talman, Jeanette Åkerström Kördel, Elinor

PMSv3. Om konsten att hålla koll på ett vägnät

Arbeta med NPF (neuropsykiatriska funktionsnedsättningar)

Kvalitetsrapport verksamhetsåret 2014/2015

Hanne Solem Görel Hydén Sätt in stöten! MATEMATIK

Resultatrapport. Järfälla Kommun Äldreomsorg

Berlinmuren Frågeställning: Vad är Berlinmuren? Orsaker? (Varför byggde man Berlinmuren?) Konsekvenser? Berlinmurens avskaffande.

Att bekanta dig med NetBeans programmeringsmiljö och skriva några enkla program med programmeringsspråket Java.

Pedagogiskt material till föreställningen

Hur kan man lyssna på den komplexa patienten?

Det musikaliska hantverket

Borgviks förskola och fritidshem

RAPPORT: ATT UPPLEVA EN UTSTÄLLNING HELT I LJUD. FÖR UTSTÄLLNINGEN VÄRDEFULLT. BAKGRUND..s 2 METOD...s 2 RESULTAT...s 3 9 ANALYS AV WORKSHOP...

Verksamhetsplan Uteförskolan Totte

REAL Fastighetssystemet. REALPortalen Verktyg för den smarta förvaltaren. Fritt, enkelt, säkert. Passar även bra för enskild BRF.

Din skattade profil inför 2012

Lära känna varandra. För äldre barn kan man ställa sig upp och passa bollen med fötterna.

Sanning eller konsekvens LÄS EN FILM. En lärarhandledning. Rekommenderad från åk. 3-6

Talstyrd aktivitetsregistrering/ hänvisning vid frånvaro Användarmanual

Studentguide Adobe Connect Pro

FÖRKORTA DIN VÄG PÅ BANAN

Projekt Västlänken 2015 Projektnummer: TRV 2013/45076 Markör

Transkript:

LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II

Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem vilket använder talat språk, rörelser och ansiktsuttryck. Smartakus är en 3D agent som använder både multimodal input och output. Systemet är tänkt att vara väldigt användarvänligt och lätt att förstå och det ska framhäva samspelet mellan människa och maskin. Istället för att lösa en uppgift med hjälp av en dialogruta talar man i detta system om för agenten vad man vill ha hjälp med och denna hjälper en att utföra uppgiften.

INNEHÅLL Inledning... 1 Bakgrund... 1 SmartKom... 2 Mål med SmartKom... 2 SmartKom-Public... 2 SmartKom-Mobile... 2 SmartKom-Home/Office... 2 Smartakus... 3 SmartWeb... 3 SmartKom s multimodalitet... 3 Programmering... 4 Konflikter... 4 Diskussion... 6 Referenser... 7

INLEDNING Syftet med arbetet är att få ökad förståelse för hur systemet SmartKom fungerar och ge ökad förståelse för hur det behandlar konflikter. Bakgrund SmartKom är ett multimodalt dialogsystem som kan känna igen tal, rörelser och ansiktsutryck (Wahlster, Reithinger, Blocher). Huvudentreprenören för projektet är det tyska research centret för artificiell intelligens (DFKI) med W. Wahlster som vetenskaplig projektledare, projektet startade år 1999 och varade i cirka fyra år. SmartKom är en uppföljning av projektet Verbmobil (Wahlster, 2000) som är ett system som känner igen tal och naturligt språk och använder några av dess komponenter för förståelse av spontana dialoger. Målet med projektet är att utveckla en agent som är så smart att en oerfaren datoranvändare ska kunna kommunicera med den självförklarande agenten. Input kan ske i både tal, gester och ansiktsuttryck. Systemet kan också interagera med redan existerande system som olika bokningssystem med mera. 1

SMARTKOM Mål med SmartKom 1. Utveckla metoder för analys av flertydigheter på semantisk och pragmatisk nivå. 2. Generalisera avancerade diskursmodeller för talade dialogsystem så att de kan fånga ett brett spektrum av multimodala diskursfenomen. 3. Utforska och utveckla nya begränsningsbaserade och planbaserade metoder för multimodal fission och adaptiv presentationslayout. 4. Interagera alla dessa multimodala kapaciteter i ett återanvändbart effektivt och robust dialogskal som garanterar flexibel konfiguration, domänoberoende och ha plug and play - funktionalitet. (Wahlster, 2006) SmartKom-Public En multimodal kommunikationsmonter som kan finnas på tågstationer, flygplatser med mera för att kunna få reda på information om staden man besöker såsom restauranger, hotell, affärer och nöjen. En till fördel är att man kan komma åt sina personliga standardapplikationer och mejl med hjälp av bredband. SmartKom-Mobile En flyttbar enhet som används i bilen eller som fotgängare. Den fungerar som en bärbar enhet och kan användas som GPS, den talar om för dig vilken väg du ska ta och beräknar om rutten ifall du går eller åker fel. Den kan också berätta om olika platser och sevärdheter för dig om du vill veta mera om dem. SmartKom-Home/Office En portal till informationstjänster som TV-tablå och annan hemelektronik. Kan användas till standardapplikationer som telefon, mejl med mera. Antingen med bara tal eller med både tal och gester. 2

I SmartKom-Mobile och SmartKom- Home/office används touchscreen medan i SmartKom- Public behöver man inte röra skärmen utan det räcker att peka och göra gester i luften. Smartakus Smartakus är en 3D figur som används i systemet för att interagera med användaren. Med hjälp av SDDP (situated delegation-oriented dialog paradigm) ger användaren en uppgift till agenten som försöker lösa problemet, för svårare problem stället agenten fler frågor för att kunna lösa det. Han gör gester för att visa om han inte förstår, att han lyssnar eller att han försöker komma på svaret på en fråga. Figuren är i 3D och är inspirerad av bokstaven i eftersom det är en vanlig symbol för information och det är det han är till för. Om det tar väldigt lång tid för Smartakus att komma på ett svar visas agenten med en laptop som ska symbolisera att systemet arbetar. Detta för att användaren ska veta att systemet har mottagit informationen. SmartWeb Uppföljningsprojektet SmartWeb kan svara på frågor med webben som kunskapsbas. Det är alltså mycket bättre än SmartKom eftersom det har en större kunskapsbas och kan därför svara rätt på fler frågor. Projektet pågick 2004-2008 (Wahlster, 2006). SmartKom s multimodalitet Som jag nämnt tidigare är SmartKom är ett symmetriskt multimodalt system vilket betyder att alla olika input (tal, gester, ansiktsuttryck) också kan ske i output. Systemet måste både förstå användarens multimodala input och sin egen multimodala output. De flesta multimodala system använder endast multimodal fusion eller multimodal fission medan SmartKom använder båda för att kunna känna igen fler ord och förstå bättre. Genom att sammanfoga tal, ansiktsutryck och gester kan SmartKom korrigera igenkänningsfel. Systemet använder alltså flera olika identifierare av endast en modalitet, talet behandlas av tre parallella igenkännare, tal, emotioner och gränser mellan dem. Genom ansiktsigenkänningen kan SmartKom se om man är glad eller arg på ögon, mun, näsa med mera (Wahlster, 2006). 3

Programmering Komponenterna i SmartKom baseras på maskininlärning som betyder att den lär sig av erfarenheter, så ju mer den har varit med om desto bättre är den. För att kunna utföra projektet krävdes mängder av datainsamling (Steininger, 2001). Programmeringsspråken som används är fyra olika: C, C++, Java och Prolog (Wahlster, 2006). All data smartkom använder representeras i M3L (Multimodal Markup Language) som är ett komplett XML-språk som täcker alla datagränssnitt till systemet. M3L definieras av ett 40-tal XML-scheman och är avsedd för representation och utbyte av komplext multimodalt innehåll (Wahlster, 2006). M3L skickar informationen mellan komponenterna i SmartKom, se figur 1. Konflikter Om SmartKom får in två input som säger emot varandra så behandlas den med låg prioritet och får då ingen effekt. Systemet tar hjälp av de andra modaliteterna för att ta reda på vad användaren vill när en inmatning är otydlig. De olika systemen för tal, gester och ansiktsutryck sätter tidsstämplar på inputen och gör hypoteser (tolkningar av vad användaren menat) som betygsätts för att kunna göra en gemensam hypotes om användarens input. Om det dyker upp konflikter i den gemensamma hypotesen mellan de olika modaliteterna skickas de till diskursmodulen och granskas vidare. Diskursmodulen kollar hur bra det passar in tidigare i dialogen, tar bort orimliga tolkningar. Kopplingen mellan modaliteterna sker med unifiering och med Overlay (Wahlster, 2006) som kontrollerar hur kompatibla den nya och den gamla informationen är med varandra och prioriterar alltid den nya informationen. Detta ger fler korrekt tolkade dialoger än ett vanligt system. De hypoteser som inte blivit ratade av unifieringen eller Overlay rangordnas och den mest passande hypotesen skickas till aktionsplaneraren. 4

Figur 1. Exempelkod i M3L. I figur 1 visas hur en person har sagt Jag vill veta mer om denna och visat med handen på en film. SmartKom har hört och sett och sedan förstått vad användaren ville göra och visar då information om filmen Enemy of the State. Presentationsplaneraren bestämmer vad som ska presenteras och det beror på sammanhanget, omgivningen och användaren, till dess hjälp har den 121 presentationsstrategier. Planeraren talar om för text, grafik och animationsgeneratorerna vad de ska göra. 5

DISKUSSION Detta är ett väldigt smart system inom AI eftersom det kan koppla samman olika modaliteter. Systemet kan både förstå tal, gester och ansiktsutryck och även förmedla dessa egenskaper till användaren, detta är en av SmartKom s fördelar. Automatisk taligenkänning vore väldigt enkelt om ett ord gav samma ljudvåg varje gång man sa ordet, men så är tyvärr inte fallet. Därför är taligenkänning inte optimalt. Systemet kan misslyckas med att känna igen ett ord, ta fel på ord eller tro att det är bakgrundsljud eller brus. Men SmartKom har kanske löst detta? Eftersom systemet kopplar ihop talet med munrörelser och gester så får detta system många fler rätt än ett vanligt taligenkänningssystem. 6

REFERENSER Steininger, Silke. (2001) Transliteration of language and labeling of emotion and gestures in SmatKom. Nedladdad 3 september 2012 från http://www.smartkom.org/start_en.html Wahlster, Wolfgang. (2006). SmartKom: Foundations of Multimodal Dialogue Systems. http://www.springerlink.com.lt.ltag.bibl.liu.se/content/jx475u/#section=472938&page=4&loc us=27 Wahlster, W, Reithinger, N, Blocher, N. SmartKom: Multimodal Communication With a Life- Like character. Nedladdad 3 september 2012 från http://www.dfki.de/~bert/eurospeech- 01.pdf Wahlster, Wolfgang. (2000.): Verbmobil: Foundations of Speech- to-speech Translation. Berlin, Heidelberg, New York: Springer 7