Betydelsen av en virtuell agents sociala förmåga Adam Altmejd & Aron Vallinder Projektarbete 2006 2007 Katedralskolan Handledare: Ulrika Nordh Abstract When talking to another human being the social elements of the conversation are taken for granted. For about a decade it has been known that this is also the fact when interacting with a computer. This study analyzes this interaction, how the virtual agent s sociability is linked to it, how the agent is perceived and how well the information is taken in and remembered. Using three agents with different degrees of sociability, tests were made on fifty-four high school students. The results show that a more social agent is much preferred to a less social one. Concerning how well the information is remembered the results aren t statistically significant enough to show either higher or lower remembrance using a social agent, though a trend is visible towards a higher intake of information. Concluded by the study is that when designing a virtual agent, a high degree of sociability may help it achieve its goals. Keywords virtual agents, social agents, significance of sociability
Inledning Bakgrund Efter att A.I.-bubblan spruckit förflyttades forskningens fokus till människans förhållningssätt till datorer, istället för dessas eventuella intelligens. Pionjärer inom denna forskning var Byron Reeves och Clifford Nass (1). Deras studier visade att människor behandlar media (såsom figurer på datoroch tv-skärmar) på samma sätt som de behandlar riktiga människor. I en lång rad tester visade de att normer för social interaktion gäller även då denna interaktion sker mellan exempelvis en människa och en datorfigur. Tidigare har man trott att endast i undantagsfall (t. ex då datoranvändaren är oerfaren, distraherad, eller ej tillräckligt gammal för att ha utvecklat en nödvändig verklighetsuppfattning) likställs media med det riktiga livet. Reeves och Nass studier visade dock att även om användaren till stor del är medveten om att den sociala interaktionen inte är på riktigt beter denne sig som om den vore det. Människan svarar på ett beteende hos media på samma sätt som hon gör ifall även agenten var människa. Människan följer samma sociala normer. Reeves och Nass undersökte en rad olika faktorer, varav många är relevanta för vår studie. Vi skall därför kort nämna deras resultat. De visade att människor uppför sig artigt mot datorer på samma sätt som mot andra människor (exempelvis är man mildare i sin kritik då man konfronterar objektet för kritiken personligen än då någon annan ber en att påpeka bristerna); att människor uppskattar och reagerar på smicker även från datorer; att personligheten hos en dator uppfattas på samma sätt som hos människor (dominant kontra submissiv, etc.); att starkt känslouppväckande mediamaterial blir bättre ihågkommet än mindre känslouppväckande sådant. Deras mediaekvation säger kort och gott att media kan likställas med det verkliga livet, vad gäller människors sätt att bemöta det. Det faktum att en bit text eller en figur på en datorskärm uppfattas som social påverkar det känslomässiga svaret så väl som hågkomsten. Det är detta konstaterande som ligger till grunden för vår undersökning. Reeves och Nass visade att medias sociala förmåga påverkar minne och känslomässig respons, men inte hur. Påverkas alla människor på samma sätt av samma media? Det är ett folkpsykologiskt faktum att olika människor trivs bäst tillsammans med olika personlighetstyper. Eftersom människor behandlar media som sociala entiteter borde detta även gälla för denna typ av interaktion. Förvånansvärt få studier har dock gjorts kring hur olika människor svarar. Efter Reeves & Nass studie öppnades i takt med den tekniska utvecklingen ett nytt forskningsfält som bygger mycket på deras slutsatser: så kallade virtuella agenter. En virtuell agent är en människoliknande figur på en datorskärm som programmerats att uppvisa mer eller mindre människoliknande egenskaper. En stor del av användningen av virtuella agenter återfinns i servicesektorn. Många företag väljer att ha en agent som svarar på frågor på sin hemsida. Andra användningsområden det forskas kring är så kallade pedagogiska agenter som bland annat kan användas som instruktörer och coacher. För att kunna jämföra olika agenter krävs en modell för att mäta social förmåga. Andra, nyare studier har visat på olika faktorer som spelar roll för hur social den virtuella agenten uppfattas som. Dessa är saker som normalt förknippas med social interaktion, såsom att vara artig (2), kunna småprata och skämta (3), en förmåga att uttrycka personlighet (4). Det är således dessa faktorer vi vill variera och jämföra i vår studie. 2
Hypotes Vi tror att människorna kommer att föredra en social agent över en ickesocial. En social agent kommer både bli mer omtyckt samt framföra informationen bättre än en ickesocial. Om den sociala interaktionen däremot blir för dominerande, som kan vara fallet hos agent C, tror vi att somliga elever kommer uppleva detta som irriterande. Trots detta kommer agent C uppskattas mer än agent A. Vi tror även att preferenserna kommer att variera från person till person: somliga kommer föredra en social agent, medan andra kommer ogilla sådana, eftersom den sociala interaktionen uppenbarligen inte är på riktigt. Vad gäller människors hågkomst av informationen tror vi att en större social förmåga hos agenten kommer att ge bättre resultat då denna ger fler associationer möjligheter att hänga upp minnet vid något. Metod I undersökningen testas kommunikationen mellan människa och virtuell agent. Via en datorskärm framförs information (bilaga 1) till en person från en virtuell agent. I studien används information från Lunds Tekniska Högskola riktad till gymnasieelever i årskurs 3. Den virtuella agenten presenterar genom tal en text i två delar. I varje parti tilldelas agenten olika social förmåga. Agenten finns i tre olika versioner. Utveckling av agenten För att minska antalet felkällor är utformandet av agenten mycket viktigt. I vår undersökning har vi valt att gestalta den genom en manlig något stiliserad karaktär. Agenten är alltså inte helt mänsklig till utseendet, utan snarare en tecknad figur föreställande en människa. Detta är för att en icke perfekt mänskligt utformad agent uppfattas mycket mindre trovärdig än en icke perfekt stiliserad sådan (5). Vad gäller talet följer det samma princip. Informationen spelades in av en röstskådespelare med så neutral röst som möjligt, för att sedan sägas av den virtuella agenten. Agentens läppar ska röra sig, men på ett monotont sätt som inte följer talets mönster alls. Enligt McGurk-effekten (6) uppfattar åhöraren en kombination av det uttalade ordet och det som spelas upp ifall läpparnas rörelse är lik (men inte helt motsvarande) den rörelse talet skulle ha haft. Eftersom synkroniseringen mellan läpprörelser och tal aldrig kommer att bli perfekt, är det bäst att inte eftersträva denna synkronisering. Slutligen fördes agenten in i den hemsida och miljö den agerade i. Vår agent syns på skärmen i halvbild, ståendes framför en gul bakgrund inspirerad av utformningen av LTH:s hemsida. Under rutan agenten figurerar i finns utrymme för textning av talet. Själva agentskripten finns i Bilaga 6. Figur 1. Utformningen av agenten 3
Till agenternas spelas informationen från LTH in i tre olika versioner. Versionerna skiljer sig inte till varken längd eller information, utan är utformade för olika mycket social interaktion mellan agent och försöksperson. Informationen är indelad i två delar och spelas in enligt följande. Undersökningen Agent A: Strikt ändamålsinriktad ingen social interaktion Agent B: Något social Agent C: Social i lika hög grad som informationsgivande. Försökspersonerna delas upp i tre grupper. Varje grupp får interagera med två olika versioner av agenten. Efter halva presentationen äger en paus rum, var vid den nya personligheten tar vid. Grupperna är följande. Grupp 1 Del 1: Agent A, del 2: Agent C Del 1: Agent C, del 2: Agent A Grupp 2 Del 1: Agent B, del 2: Agent C Del 1: Agent C, del 2: Agent B Grupp 3 Del 1: Agent A, del 2: Agent B Del 1: Agent B, del 2: Agent A Försökspersonerna får från varsin dator gå in på webbsidan där agenten finns. Här får blir de presenterade för agenten som informerar om LTH. Efter halva föreläsningen äger en paus rum, varvid eleven får svara på några frågor för att sedan återigen ta del av presentationen, denna gång av en agent med annan social förmåga. Efter att eleverna är färdiga med presentationen (som tar ungefär 2 minuter) blir de tilldelade varsitt frågeformulär där de i lugn och ro får svara på diverse frågor om deras uppfattning av föreläsningen. Frågeformuläret (bilaga 2) innehåller bland annat frågor för att testa vilken av delarna som tycktes mest om, samt hur delarna påverkat synen på föreläsningsämnet. De är utformade med tanke på att försökspersonerna inte ska kunna gissa vad det är som undersöks. Det finns även några frågor där eleverna uppmanas att skriva fritt. Efter att eleverna genomgått försöket testades även deras hågkomst av informationen. Försökspersonerna indelades i tre lika stora grupper som prövades olika lång tid från undersökningstillfället. Grupp 1: Efter en timme Grupp 2: Efter ett dygn Grupp 3: Efter en vecka 4
Det kan vara viktigt att kontrollera den statistiska signifikansen hos resultaten. Detta görs med ett Chi-Square-test (Chitvå-test) (7). Resultat Frågeformulär Fullständiga resultat, med svar på alla frågor och minnestester finns i bilaga 4. I bilaga 5 finns utdrag ur de fria texter försökspersonerna skrivit. Då den personligt valda favoritdelen räknas ihop med den del som de undersökta tyckte skulle få representera LTH (Se bilaga 2) valde sammanlagt 25% den första. Det var alltså 26 av totalt 103 val som tillskrevs del 1. Endast 5 av dessa gjordes då denna del var mindre social än del 2. Detta resultat är statistiskt signifikant på nivån 0,002 vilket gör det högst troligt att valet beror på agentens sociala nivå. Nedan visas ett diagram över antalet val, och hur dessa fördelats mellan agenter. Antal val 50 45 40 35 30 25 20 15 10 5 0 A B C Figur 2. Diagram över vald agent 5
60 50 40 30 20 val del 2 val del 1 10 0 del 1 mer social del 2 mer social Minnestester Figur 3. Val av del ordnat efter mest social Resultaten beräknades genom att ge poäng för rätta svar i faktatesterna, samt poäng för referande av innehåll (relaterat till en viss del) i fritext. Sammanlagt kunde två poäng erhållas per del, diagrammet nedan visar ett genomsnitt. 2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 en timme en dag en vecka A B C Figur 4. Hågkomst beroende av agent och tid 6
2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 en timme en dag en vecka A social Figur 5. Minnestest social (B & C) mot icke social (A) 2 1,8 1,6 1,4 1,2 1 0,8 0,6 0,4 0,2 0 Del 1 Del 2 Diskussion Figur 6. Delarnas poäng oberoende av agenttyp Frågeformulär Vad som är slående då man betraktar resultaten är att enbart 25 % av valen föll på del 1. Vad beror detta på? Vi har insett att faktafördelningen mellan de två delarna inte var helt jämn. Emedan antalet fakta, d.v.s. mängden information, var likvärdig, gjorde nämnandet av möjligheten till ett utbytesår i del 2 att majoriteten blev överhängande för denna del. Det var utbytesåret som de flesta fann intressant, och därför föll deras val på del 2 (för försökspersonernas åsikter se bilaga 5). Felfördelningen av fakta beror till stor del på att vi trodde att intresset för LTH skulle vara mycket högre; i verkligheten var det bara ett fåtal av försökspersonerna som hade något intresse av 7
att studera där. Därför var utbytesåret mer lockande det har ju egentligen ingenting med LTH att göra. Trots denna miss går det fortfarande att dra slutsatser ur försöket. Av de 26 val som sammanlagt föll på del 1 gjordes enbart 5 då denna del presenterades av en mindre social agent än del 2 (d.v.s. 5 AB, AC och BC kontra 21 BA, CA och CB) Dessa siffror, som alltså är starkt signifikanta, tyder på att det krävs social interaktion för att väga upp för den ojämna faktafördelningen. Om det inte hade varit för skillnaderna i agenternas sociala förmåga borde dessa siffror ha landat på cirka 13 13 istället för 5 21, eftersom antalet agenter i vardera gruppen är lika många. Det måste alltså vara det sociala som står för denna förskjutning. Vår hypotes var att de sociala agenterna skulle föredras samtidigt som agent C som skulle lägga lika mycket fokus på det sociala som på informationen skulle uppfattas som irriterande eftersom den var för social. Figur 2 visar däremot en tydligt stigande trend där agent C är i klar majoritet. Innebär detta att vår hypotes var felaktig? Nej, utan snarare att vi misslyckades med att uppnå de mål vi satte upp för agent C. Om man betraktar texten som denna agent läste upp (bilaga 1) är det tydligt att den sociala interaktionen inte alls tar lika stor plats som informationen. Både agent B och agent C är alltså variationer på den agent B som vi ursprungligen tänkte oss, men C är fortfarande mer social än B. Att vi misslyckades med målet för agent C beror på de begränsningar vi var tvungna att följa: de olika agenterna skulle inte skilja sig åt vad gäller varken tiden presentationen tog eller mängden information som presenterades. Med dessa ramar är det tämligen svårt för att inte säga omöjligt att uppnå vad vi försökte. Implikationerna av detta är möjligtvis att då man konstruerar en virtuell agent behöver man under samma villkor (d.v.s. då man styrs av tid och information) inte tänka på att begränsa agentens sociala förmåga, eftersom denna bara kommer att vara av godo, något som Figur 2 tydligt klargör. Vad innebär det att en social agent är mer omtyckt rent konkret för exempelvis en pedagogisk virtuell agent, vars syfte är att lära ut? Troligen precis samma sak som vid människamänniskainteraktion. En omtyckt lärare lyckas fånga intresset för ämnet bättre än en lärare som uppfattas som tråkig. Att en virtuell agent är social är alltså mycket viktigt för att den skall kunna uppfylla sitt syfte. Minnestester Då man undersöker resultaten av minnestesterna (Figur 4 och Figur 5) blir det ganska uppenbart att dessa resultat inte behandlar någon signifikans eller några tydliga trender. Detta beror huvudsakligen på de allt för små grupperna (54 personer ger grupper med 6 i varje 3 med social del 1 och 3 med social del 2). I Figur 6 syns tydligt hur majoriteten kommit ihåg del 2 bättre. Detta borde influera alla agenter lika mycket, och kan därför inte ha påverkat resultaten nämnvärt. Något annat som förmodligen förändrat utgången väsentligt är att sammanlagt endast 38 av 54 personer lämnade in. Som tur är täcktes alla kategorier, men i vissa endast av ett inlämnat formulär (där det maximalt kunde vara tre). Detta har i resultatredovisningen kompenserats för att på bästa sätt motverka problemet, men det är fortfarande så att borttagandet av vissa personers resultat (eller additionen av ytterligare) kan förändra utfallet helt. 8
Framförallt i Figur 5 syns en trend som antyder att hypotesen vi haft angående hågkomsten av social interaktion är korrekt. Anledningen till att skillnaden ökar så drastiskt i de två senare kolumnerna skulle kunna förklaras med att då händelsen efter en timme fortfarande är så färsk i minnet behöver den inte de extra associationsbanorna som den sociala interaktionen skapar. Självklart är det så att genom social interaktion skapas fler associationer som gör det enklare att komma ihåg händelser. Även om det inte ser ut som att den sociala interaktionen kan motverka hågkomsten kan våra resultat dock inte bevisa detta. Detta skulle kunna vara möjligt genom att den sociala interaktionen exempelvis drar fokus från informationen. Slutsats Det är tydligt när man ser våra resultat att den sociala interaktionen spelar roll. Detta har även tidigare studier indikerat. Exempelvis så har studier visat att textmenyer med empatisk och emotionell information uppskattats mer än sådana utan (8), och att mer uttrycksfulla och sociala agenter bemötts som mer hjälpsamma (9). Även om det i våra resultat går att utläsa en starkt signifikant slutsats skulle det vara lämpligt att i fortsatta studier av denna typ lägga mer tid och fokus på utformningen av den förmedlade faktan. Detta skulle medföra ett mycket tydligare och mer lättolkat resultat. Det är då viktigt att undersöka hur intresset i försöksgruppen riktar sig, eftersom den kan uppfatta en viss information mer intressant än en annan. Trots det ganska intetsägande resultatet av minnestesterna kunde man urskilja en viss tendens åt den teori vi framlägger i vår hypotes. Denna trend skulle antagligen bli tydligare om undersökningen utfördes i betydligt större skala. I försökspersonernas klagomål på agenten (bilaga 5) nämns ofta agentens utseende och röst som stora irritationsmoment. Detta påverkar förmodligen resultaten till liten grad, eftersom koncentrationen störs. Det kan alltså vara viktigt att lägga mer tid på röstinspelningen och designen av agenten. Det är viktigt att förstå att social interaktion är något oerhört komplext, och självklart bemöter inte alla människor social kompetens likadant, oavsett om det gäller en människa eller en virtuell agent. I många tester som gjorts hittas en grupp som reagerar annorlunda än de statistiska resultaten visar (10). Exempelvis människor med Aspergers syndrom som sannolikt inte uppskattar en social agent till lika stor grad (11). Ett annat exempel på betydelsen av att ta hänsyn till användarnas preferenser finns i skillnaden mellan hur introverta och extroverta personer reagerar på den sociala förmågan hos en agent (12). De extroverta bedömer en social agent som mer trovärdig och litar mer på den. Ur detta kan man dra slutsatsen att det är viktigt att anpassa sin agent efter vad den skall uppnå. En naturlig utveckling som vi förmodligen kommer att se i framtiden, är möjligheten för agenten att anpassa sig efter användarens personlighetstyp. De som gillar att småprata kommer alltid att samexistera med de som snarare vill tillgodose sitt informationsbehov. För att detta skall kunna ske så naturligt som möjligt måste agentens personlighetsförändringar ske automatiskt. Som vår studie visar ligger uppskattandet av social interaktion till stor grad i det undermedvetna. I och med välkomnandet av den sociala agenten i varje hem blir vi tvungna att ställa oss moraliska och etiska frågor vi tidigare inte betraktat. En social agent kommer uppenbarligen få oss att reagera mer positivt och inställsamt, men detta behöver inte alltid vara bra. Man skulle exempelvis kunna utnyttja den subjektiva reaktionen vid marknadsföring. 9
Allt eftersom agenterna blir mer lika oss själva, kommer vi bli tvungna att beakta skillnaden mellan en människa och en artificiell varelse. Emedan agenterna aldrig kommer bli intelligenta kommer de kanske övertyga oss om att de är det (13). Är det då dags att instifta rättigheter för våra intelligenta konstruktioner? Stort tack till Agneta Gulz (Lund University Cognitive Science) för intressanta synpunkter samt hjälp med utformningen av undersökningen. Magnus Haake (Institution för Designvetenskaper, Lunds Tekniska Högskola) för programmering av agenterna. Källförteckning (1) Reeves B. & Nass C. (1996) The Media Equation Cambridge University Press New York, NY, USA (2) Wang N., Johnson W. L., Rizzo P., Shaw E. & Mayer R. E. (2005) Experimental evaluation of polite interaction tactics for pedagogical agents Hämtad från http://www.cs.ubc.ca/~conati/532b/papers/motivationwangjohnson.pdf 25/02/07 (3) Bickmore T. (2003) Relational Agents: Effecting Change through Human-Computer Relationships Hämtad från http://www.ccs.neu.edu/home/bickmore/bickmore-thesis.pdf 19/02/07 (4) André E. & Rist T. (2000) Presenting through performing: on the use of multiple lifelike characters in knowledge based presentation systems. IUI 2000, ACM Press, New Orleans, LA, USA (5) Gulz A. & Haake M. (2005) Social and visual style in virtual pedagogical agents. 10 th International Conference on User Modeling, UM05. Hämtad från http://www.di.uniba.it/intint/um05/list-ws-um05.html 06/03/07 (6) McGurk H. & MacDonald J. (1976) Hearing lips and seeing voices, Nature 264, s. 746-748 (1976). (7) McCreery C. (2007) First-year Statistics for Psychology Students Through Worked Examples 1. The Chi-Square Test, Oxford Forum, Hämtad från http://www.celiagreen.com/charlesmccreery/statistics/chisquare.pdf 05/03/07 (8) Klein J., Moon Y. & Picard RW. (2002) This computer responds to user frustration: Theory, Design, Results, and Implications Interacting with computers 14, s. 119-140 (9) Lester J., et al. (1997) The persona effect: affective impact of animated pedagogical agents, CHI 97, s. 359-366 (10) Gulz A. (2005) Social enrichment by virtual characters differential benefits Journal of Computer Assisted Learning 21, s. 405-418 (11) Bashe K. L. & Kirby B. L. (2001) The Oasis Guide to Asperger Syndrome Crown Publishers (12) Bickmore T. & Cassell J. (2001) Relational Agents: A Model and Implementation of Building User Trust CHI 2001 (13) Scaruffi P. (2006) The Nature of Consciousness The Structure of Life and the Meaning of Matter Omniware 10