Hemtentamen Människa-datorinteraktion fortsättningskurs, 2D1622 Paulina Modlitba Media-01 801209-5603 paulina@kth.se
1. DECIDE I artikeln Investigating Intra-Family Communication Using Photo Diaries presenteras en utvärdering av hur familjer i hemmet använder anslagstavlan för kommunikation och samordning av aktiviteter. Utvärderingen genomfördes som en del i ett större projekt och initierades av en intervjustudie, som enligt författarna pekade på att anslagstavlan står i centrum för informationsutbytet i hemmet. Utvärderingsteamet valde att genomföra en indirekt observation, där familjerna själva dokumenterade den dagliga användningen av anslagstavlan genom att under 3-4 veckors tid fotografera tavlan varje gång något togs bort eller lades till. Fotografierna sammanställdes i en dagbok. Metod användes eftersom den möjliggjorde en relativt lång observationsstudie i hushållen, utan att observatörerna direkt behöver inkräkta på familjernas territorium. Studien avslutades med att utvärderingsteamet diskuterade resultatet med respektive familj. Metoden att på detta sätt kombinera flera tekniker för att studera olika aspekter av användningen kallas triangulering, och tillämpas främst för att vidga förståelsen för den aktuella situationen. Observationsstudien användes i syftet att kontextualisera familjernas användning av anslagstavlorna och identifiera möjliga mönster i denna användning. De efterföljande samtalen tillförde familjemedlemmarnas subjektiva intryck och innebar en möjlighet för teamet att inhämta specifika uppgifter som inte framkom i dagböckerna. Möjligen bör även de tidiga intervjustudierna, som låg till grund för observationsstudien, nämnas i sammanhanget. De kvalitetsmässiga aspekterna i artikeln är delvis svårbedömda, eftersom informationen om den avslutande diskussionen är mycket knapp. Följande redogörelse bygger därför uteslutande på observationsstudien. Avsaknaden av metodbeskrivning sänker generellt sett metodens trovärdighet och giltighet, då den i teorin kan ha utförts hur som helst. Objektivitet och påverkan av respondenten är kärnfrågor i intervjusammanhang. Reliabilitet (tillförlitlighet) är ett kvalitetsmått som syftar till att en utvärderingsmetod ska ge samma resultat vid olika tillfällen under förutsättning att studierna utförs under samma förhållanden, och är således starkt kopplat till studiens direkta utförande. Reliabiliteten i den aktuella utvärderingen bör betraktas som förhållandevis låg. Främst på grund av att observatörernas kontroll i princip är obefintlig, i och med att observationen sker på distans. Utvärderingen står och faller med att familjemedlemmarna genomför uppgiften enligt överenskommelsen. Även om familjerna har ambitionen att utföra uppgiften på ett bra sätt, är det lätt hänt att glömma bort att fotografera. Slutligen påverkas reliabiliteten negativt av att antalet observerade familjer är så begränsat, eftersom detta ökar risken för att personliga egenheter leder observatörerna på villovägar. Validitet (giltighet) handlar istället om huruvida en metod utvärderar det den ska utvärdera, och hänger således ihop med både tekniken i sig och utförandet. I utvärderingen i artikeln är validiteten hög, eftersom en observation bör anses vara en relevant metod för att studera hur riktiga familjer till vardags i sin hemmiljö använder anslagstavlan som kommunikationsmedel. Trianguleringen ökar generellt studiens interna validitet. Med ekologisk validitet avses i vilken mån omgivningen i vilken undersökningen genomförs påverkar resultatet. I det aktuella fallet är detta inte ett problem, eftersom studien bygger på att den ska genomföras i en autentisk miljö. Den ekologiska validiteten är i detta avseende relativt hög. Den ekologiska validiteten påverkas dock negativt av att familjemedlemmarna vet om att de studeras, eftersom situationen därmed blir mer konstlad. Vad gäller skevhet skriver författarna själva att dagböcker som metod medför en relativt hög objektivitet, eftersom inte observatörerna lägger sig i aktiviteterna på samma sätt som i till exempel traditionella fältstudier. Däremot är risken stor att testteamets föreställningar påverkar tolkningen av resultatet och de slutsatser som dras. Fokus syftar till i vilken utsträckning studiens resultat kan generaliseras. I artikelstudien är fokus relativt snävt, eftersom den endast täcker tre familjer, som i sin struktur är relativt lika. Resultatet är i bästa fall representativt för IT-mogna barnfamiljer med 1-2 barn. Fokus vidgas av att verkliga familjer observeras i sin naturliga miljö där flera aspekter kan tas i beaktande. Tillämpningen av triangulering breddar också fokus. Artikelns främsta styrka är att författarna redogör för de aspekter som måste beaktas i en studie, såsom bakgrund, syfte, förväntningar, metoder, population, tillvägagångssätt, apparatur och analys av resultatet. Som utomstående får man en relativt bra förståelse för observationsstudien i sin helhet. Illustrationerna över anslagstavlorna vidgar denna förståelse ytterligare. Möjligen kunde författarna nämna något mer om kontakten mellan teamet och familjerna innan (hur urvalet gick till) och under utvärderingens gång (tydliggöra relationen). Vad gäller redovisningen av de efterföljande diskussionerna lämnar artikeln dock mycket övrigt att önska. Författarna nämner ytterst lite om deras syfte, utförande, resultat och hur resultatet påverkade slutsatser och designbeslut. Genom att mer utförligt redogöra för denna del av utvärderingen och tydliggöra hur den kompletterar observationsstudien blir analysen och designbesluten mer relevanta. Ytterligare en betydande svaghet är att författarna inte diskuterar utvärderingens kvalitet och tvistefrågor. Visserligen är den utförliga diskussionen kring val av metod, där bland annat quick-and-dirty tas upp, ett plus. Författarna nämner också att självdokumentation med dagböcker är en teknik med relativt hög objektivitetsnivå, eftersom observatörerna inte blandar sig i dokumentationen. En mer övergripande och kritisk diskussion kring bland annat studiens svagheter och styrkor skulle höja artikelns trovärdighet. Slutligen känns en del av de kvantitativa resultatdata, som redovisas i tabeller och text, i nuvarande form irrelevant. Dels därför att studien till sin natur är kvalitativ, dels därför att efterföljande slutsatser och designbeslut inte tycks ha baserats på dessa fakta. En mer omfattande resultatredogörelse i flödande text samt tydligare koppling mellan resultat och designbeslut är därför önskvärt. 2
2. Datainsamlingstekniker Vid datainsamling inför kravformulering kombineras inte sällan flera olika metoder för att kravdefinitionen ska bli så komplett som möjligt. Eftersom olika metoder belyser olika aspekter av det studerade ger de också olika resultat. Metoderna väljs med omsorg utifrån flera faktorer, såsom det grundläggande syftet med projektet, syftet med den enskilda datainsamlingen, i vilken fas av projektet datainsamlingen genomförs 1, projektteamets kunnighet, ekonomi, tid, tillgången till respondenter samt etiska aspekter. Här nedan följer en kortfattad beskrivning av de vanligaste metoderna, vilka typer av studier de lämpar sig för samt hur de kan kombineras (triangulering). Metoderna kan till exempel kombineras utifrån om de generera kvantitativ (numerisk) eller kvalitativ (icke-numerisk) resultatdata. Efter respektive rubrik anges detta inom parentes. Som tidigare nämnt (se uppgift 1) kan triangulering bidra till att validiteten höjs och fokus vidgas i en studie. Formulär (kvalitativ/kvantitativ). Välutformade formulär är bra för att få svar på specifika frågor från en stor grupp människor och kan med fördel användas närhelst i designprocessen. Metoden lämpar sig bra om respondenterna är spridda över ett stor geografiskt område eller av någon annan anledning är svåra att besöka eller nå. Formulär, beroende på deras omfattning och form, kan också vara att föredra vid tidsbrist, då tidskrävande intervjuer inte är ett alternativ. Tekniken ställer dock höga krav på att respondenten själv svarar på frågorna och skickar tillbaka formuläret. Formulär används oftast i kombination med andra metoder, eftersom kontakt med respondenterna ofta är önskvärt i ett designprojekt. Exempelvis kan formuläret användas för att bekräfta resultatet i en intervju- eller en observationsstudie eller för att samla in testpersonernas subjektiva upplevelse (tillfredsställelse) efter att ha testat ett system eller en prototyp av det. Intervjuer, fokusgrupper och workshops (främst kvalitativ). Intervjuer används ofta i syftet att nå en viss målgrupp. Metoden är ett bra sätt att få respondenterna i denna målgrupp att reflektera över något specifikt. Direktkontakt med respondenten underlättas nämligen insamlandet av specifika uppgifter. Särskilt i mindre strukturerade intervjuer ställer utvärderaren ofta följdfrågor som, särskilt för ovana utvärderare, kan vara svåra att förutse. Dessutom har respondenten möjlighet att ställa frågor om något upplevs som otydligt eller svårt. Intervjuer är oftast också en bra metod för att involvera användaren i designprocessen. Fokusgrupper och workshops är enkelt uttryckt intervjuer som utförs i större grupper. Liksom intervjuer kan dessa metoder vara mer eller mindre strukturerade. Gruppdiskussioner är lämpliga om man exempelvis vill studera olika grupprocesser, såsom samstämmigheten och/eller konflikter bland respondenter eller användare. Metoden passar ofta bra vid studier av barn. Om beställare och slutanvändare aktivt deltar i designprocessen, kan fokusgrupper vara ett bra sätt för deltagarna att upptäcka att alla inte tycker som en själv. Därtill kan metoden bidra till att intervjuerna blir mer dynamiska eftersom respondenterna vågar säga mer och bidrar med nya infallsvinklar som kan vidga diskussionen. En förutsättning för lyckat resultat är dock av grupputvärderingen planeras och struktureras väl. Naturalistisk observation (kvalitativ). Naturalistiska observationer kan med fördel kombineras med intervjuer, eftersom det kan vara svårt för respondenten att i ord beskriva användandet och problem som kan uppstå. Det är inte heller alltid respondenterna är medvetna om sina egna preferenser. Metoden ger designteamet en vidare och mer verklighetstrogen bild av användandet, genom att fylla i detaljer och nyanser som inte annars kommer fram och genom att sätta användandet i ett socialt och organisatoriskt sammanhang. Observationer lämpar sig därför framför allt som komplement till andra metoder. Som tidigare nämnt kan observation med fördel kombineras med intervju av de observerade för att jämföra deras egen beskrivning med det faktiska utförandet. Studera dokumentation (kvalitativ/kvantitativ). Att studera dagböcker, loggböcker, manualer och andra typer av informationskällor kopplade till det som studeras kan vara ett bra sätt att snabbt inhämta information om användandet och dess förutsättningar och kontext. Denna förhållandevis begränsade metod bör framför allt användas som en komplementteknik. Exempelvis kan det vara aktuellt att använda metoden om naturalistiska observationer, exempelvis av tidsmässiga eller etiska skäl, inte är möjliga att genomföra. Användartest med loggning (kvantitativ). Videologgning och loggning används främst för att samla data som kan observeras och analyseras senare. Metodens fördel är att den kan göras helt osynlig, genom att den implementeras som mjukvara i systemet som testas. På detta sätt kan man undvika att störa testpersonerna, även om detta medför en del moraliska problem. Dessutom ger metoden konkret, kvantitativ information om testpersonernas prestation, såsom hur många fel som gjordes, antal knapptryck, tiden det för att utföra en viss uppgift. Metoden används ofta i samband med experiment och bör därför kombineras med mer kvalitativa metoder såsom naturalistisk observation och/eller intervju för att bättre förankra resultatet i verkligheten och användarens upplevelse. 1 Kravformulering genomförs främst i designprocessens inledningsfas, men kan bli aktuellt även i senare faser. 3
3. Användartest av mobiltelefon Jag har designat en mobiltelefon med minimal funktionalitet och förändrad knappsats. Den nya telefonen riktar sig till den stora grupp människor som inte anser sig ha behov av avancerade funktioner och därför efterfrågar en så enkel mobiltelefon som möjligt. Jag vill nu utvärdera telefonens användbarhet genom att mäta tiden det tar att slå in ett telefonnummer samt tiden det tar att skicka ett SMS på den nya mobiltelefonen och jämföra resultatet med motsvarande tider för en mer traditionell mobiltelefon. Förutsättningar. Innan jag kan påbörja utformningen av testet måste jag ta ställning till ett antal grundläggande frågor: Ska testet utföras i naturlig miljö eller isolerat? Ska testet inkludera testpersoner, och i så fall ska det vara experter eller potentiella användare? Hur bör jag gå tillväga för att kvaliteten med avseende på reliabilitet, validitet, ekologisk validitet och skevhet ska vara så hög som möjligt? Frågan angående miljön i vilken testet ska utföras är befogad eftersom mobiltelefoner faktiskt används i de mest varierande situationer. Den typiska mobilanvändaren håller mest stor sannolikhet på med något annat samtidigt; sitter på tunnelbanan eller kör bil exempelvis. Kanske är han stressad eller blir avbruten? Det kan tyckas underligt att diskutera huruvida testpersoner ska involveras i ett användbarhetstest. Möjligheten finns dock att genomföra ett sådant test utan att testpersoner medverkar. Detta sker då i form av en så kallad förutseende evaluering, där olika modeller för att beräkna användbarheten används. Ett exempel är the Keystroke level model, som kortfattat går ut på att summera den uppskattade tidsåtgången för respektive delmoment i en uppgift. Om man dock bestämmer sig för att involvera personer i testet är populationens sammansättning av stor betydelse för resultatet. Den idealiska sammansättningen beror på syftet med testet. Kvalitetsaspekterna diskuteras relativt ingående i uppgift 1. Det viktigaste i sammanhanget är att använda den metod som på bästa sätt mäter det som ska mätas och gör detta på ett tillförlitligt sätt. Paradigm. Testet är till sin natur kvantitativt, varför jag bedömer det vara viktigt att mätningarna görs så exakt som möjligt samt under så liknande förhållande som möjligt. Jag väljer därför att på bekostnad av den ekologiska validiteten tillämpa det kvantitativa paradigmet användbarhetstest. Testet fokuserar endast på själva användarprestationen, och utförs därför i form av ett experimentellt användartest. Med detta menas att det till sin struktur påminner om ett vetenskapligt experiment, eftersom det genomförs isolerat från störande externa faktorer. Inga kvalitativa tekniker, såsom intervjuer eller enkätundersökningar, används i anslutning till testet. Testpopulation. För att inte uppnå en så hög ekologisk validitet som möjligt väljer jag att i testet endast inkludera potentiella användare av den nya mobiltelefonen. De aspekter som jag beaktar vid sammansättning av populationen är kön, ålder och tidigare erfarenhet av mobiltelefoner. Populationen får jag fram genom att genomföra en enkätundersökning, och utifrån resultatet välja ut lämpliga testpersoner. Populationen består sammanlagt av tolv personer, varav hälften är kvinnor. Liksom i målgruppen för den nya mobiltelefonen är spridningen i ålder stor i populationen; den yngsta personen är 10 år och den äldsta är 76 år. Även med avseende på erfarenhet av mobiltelefoner är spridningen stor, för att populationen i så stor utsträckning som möjligt ska motsvara verkligheten. Motivet till den relativt stora populationen är att det kvantitativa resultatets generaliserbarhet därmed blir större och möjligheterna att genomföra en statistisk analys av resultatet förbättras. Teststruktur. Testet omfattar två uppgifter: Ring upp telefonnumret 45 56 81 (A) samt Skicka ett SMS med texten JAG ÄR GLAD till telefonnumret 65 56 33 (B). Det är viktigt att i så stor utsträckning som möjligt undvika att ordningen i vilken testpersonerna utför uppgifterna påverkar resultatet. En sådan effekt kan motverkas med hjälp av counter-balancing, vilket innebär att hälften av populationen först får utföra uppgift A följt av uppgift B, medan andra halvan av populationen utför uppgifterna i omvänd ordning. Dessutom kan ordningen i vilken testpersonerna använder de två mobiltelefonerna också ha inflytande på resultatet, varför grupperna åter delas upp på hälften. Denna uppdelning av populationen görs slumpmässigt för att minska skevheten i testet. Både uppgift A och B anses vara utförda när de har fullföljts. Om testpersonen fastnar får den hjälp av testledaren att gå vidare, men uppgiften bedöms i detta fall vara misslyckad. Apparatur. Resultatet dokumenteras i realtid med hjälp av loggning, där loggningsmjukvaran har integrerats i de båda mobiltelefonerna. Av etiska skäl informeras testpersoner om att denna registrering sker. För att underlätta efterföljande resultatanalys används dessutom videokamera med tidstämpel. Med hjälp av videoinspelningen kan jag få en mer komplett bild av testpersonernas prestationer, exempelvis genom att se var testpersonerna tvekade eller gjorde fel. Det blir också lättare att sålla bland de data som har loggats. Analys av resultatet. De kvantitativa data (tiderna) som användbarhetstestet frambringar sammanställer jag i en tabell och i ett diagram för att tydliggöra eventuella mönster. I det aktuella fallet är datamängden begränsad, vilket gör analysarbetet lättare. Det bör i detta sammanhang påpekas att användartest ytterst sällan bara omfattar kvantitativ mätnings av testpersonernas prestationer. Särskilt om syftet med testet är att jämföra två systems generella användbarhet. Mätning av prestationer belyser bara en aspekt av användandet. För att kunna göra en rättvis och fullständig bedömning krävs därför att man tillämpar triangulering i någon form. Ofta kan det handla om att kombinera en kvantitativ metod med en kvalitativ, såsom en intervju eller en eftertestenkät. Testpersonernas subjektiva upplevelse och tillfredsställelse är minst lika viktig som den faktiska prestationen. Inte sällan integreras den kvalitativa utvärderingen i användartestet i form av ett tänk-högt-protokoll, där testpersonen uppmanas att i realtid kommenterar systemet och användandet. 4
Källhänvisningar Om inget annat anges avser sidhänvisningarna boken Interaction design, Preece et al., 2002 (ISBN 0-471- 49278-7). Uppgift 1 Artikel Investigating Intra-family Communication Using Photo Diary DECIDE sida 348-356 Indirekt observation sida 377 Triangulering sida 335 Reliabilitet, validitet, sida 355-356 ekologisk validitet, skevhet och fokus Uppgift 2 Metoder sida 211-218; http://jthom.best.vwh.net/usability/ Loggning sida 377-378; Faulkner, Christine, 1998, sida 123-124 Uppgift 3 Användbarhetstest sida 341 Användartest sida 430-440, 482-489 (TRIS redesign) Experiment sida 443-447 The Keystroke level model sida 450-452, 485 Paradigm sida 340-343 Teststruktur sida 355-356 Apparatur sida 377-378 Testpopulation sida 440, 447, 486 Analys av resultat http://jthom.best.vwh.net/usability/ 5