Usability testing Johan Åberg
Usability testing Users carry out realistic tasks Observations, thinkaloud, interviews, questionnairs
Why test?
Usability testing vs heuristic evaluation Usability testing Usability testing Usability testing Heuristic evaluation Heuristic evaluation Heuristic evaluation Heuristic evaluation Sketches Paper prototypes HiFi prototypes Working system 4
Usability testing vs heuristic evaluation Effektivitet 100 90 80 70 60 50 40 30 20 10 0 Användbarhetstestning Heuristisk utvärdering Tillfredsställelse Ändamålsenlighet 5
Formative study Questions The most important usability problems? Which aspects of the product works? Anything frustrating? The most common errors? Better product fro eachiteration? Summative study Usabiilty goals reached? New product better than previsous version? Comparison with competing products?
Roles User försöker lösa en given uppgift genom att interagera med prototypen Computer känner till programlogiken och styr gränssnittet. Simulerar datorns respons utan kommentarer Testleader styr testsessionen, ger instruktioner till användaren och efterfrågar åsikter och tankar. Observer antecknar under tystnad
A reasonable number Task formulation Representing the expected usage Max 1 hour, including interviews etc Give the tasks to the user one at a time on separate sheets of paper On the right level of detail Not too many clues Describe what the user must accomplish, not how
Think about Ethical issues Practical preparations Icebreaking Training when needed Never defend the design in front of the user Always do a pilot study with 2-3 persons
Selecting participants Self-repored expertise E.g. beginner, average, expert, Usage frequency Visits per month Experience Days, months, year Activities Used special function
Terminology 1 Within-subjects Between-subject Balancing for learning between tasks Fp Uppg 1 Uppg 2 Uppg3 Uppg 4 Fp1 U1 U2 U3 U4 Fp2 U3 U1 U4 U2 Fp3 U2 U4 U1 U3 Fp4 U4 U3 U2 U1
Terminology 2 Independent variable that which is being manipulated or controlled Characteristics with participants (age, geder, relevant experience) Different designs or prototypes being tested Tasks Dependent variable that which is measured Task success Time SUS score
Usability measures Prestandamått Uppgiftsframgång, tid, fel Problembaserade mått Antal problem, typ av problem Beteende- och psykologiska mått Verbalt beteende, ansiktsuttryck Självrapporterade mått Förväntningsmått, SUS
How and when to use the measures? Beror främst på användbarhetsmålen Men, ofta gäller: I en tidig fas är uppgiftsframgång viktigast Uppgiftsframgång kräver att allvarliga problem är undanröjda (problembaserade mått) Upplevelsen viktig vill användaren använda systemet? Fångas in via beteendemått och självrapporterade mått (korrelation dem emellan?) Tid har ofta ett tröskelvärde (men vilket?) Blir därmed binärt (under eller över tröskelvärdet?)
Performance measures Task sucess Time Errors Efficciency Binäry or diferent levels Time on task Learnability Which errors or amount of errors per task Number of clicks How performance changes over time
Task success - binary Kräver väldefinierade uppgifter med tydliga slutvillkor Hitta priset för soffan Älmhult i standardutförande. OK? Undersök olika sätt att pensionspara. OK?
Task success - example
Task success - example
Meauring time Time-on-task 140 Mean time per task (seconds) 120 100 80 60 40 20 0 Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8
140 120 100 80 60 40 20 Measuring time Time-on-task Mean time per task (seconds) Är det här ett problem? 0 Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8
A better way? 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% % of users who completed the task in less than threshold time Task 1 Task 2 Task 3 Task 4 Task 5
To think about Reasonable threshold values? Start from expert time, double it Handling outliers Discount unreasonable times (long or short) Only successful tasks or all tasks? For failed tasks, if the user decided when to quit, use the time, otherwise don t Measuring time with think aloud? Postpone extensive discussions to after the task has been completed Telling the user about the time measurement? Ask the user to carry out all tasks as quickly and carefully as possibe, without telling about the time measurement. If they ask, tell them that the start time and the end time is being noted.
Uppgiftsframgång Efficiency Combine task completion and time Uppgiftsframgång Effektivitet = Uppgiftsframgång Tid Tid Tid (medel, i min) Task 1 65% 1.5 43 Task 2 67% 1.4 48 Task 3 40% 2.1 19 Task 4 74% 1.7 44 Task 5 85% 1.2 71 Task 6 90% 1.4 64 Task 7 49% 2.1 23 Task 8 33% 1.3 25 Exempel: 0.65 Exempel: 0.65 1.5 0.4333 1.5 = 0.4333 Effektivitet (%)
Example 80% Efficiency (Task success per minute) 70% 60% 50% 40% 30% 20% 10% 0% Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8
1,55 Average effeciency (Tasks successfully completed per minute) 1,5 1,45 1,4 1,35 1,3 1,25 Prototype 1 Prototype 2 Prototype 3 Prototype 4 Antal tasks med uppgiftsframg Efficiency för en användare = Total tid för alla uppgifter Funkar bäst om uppgifterna är ungefär likvärdiga i
Smith, 1996 Lostness N: Antal olika webbsidor som besöks under en uppgift S: Det totala antalet webbsidor som besöks under en uppgift Kategori A Produktsida A1 Produktsida A2 Produktsida A3 R: Det minimala antalet webbsidor som måste besökas för att klara en uppgift Home page Kategori B Produktsida B1 Produktsida B2 Produktsida B3 Produktsida C1 L = sqrt[ T U 1 W + ( Z L = sqrt[ T T 1)W ] U 1 W + ( Z T 1)W ] Kategori C Produktsida C2 Produktsida C3
N = 6 S = 9 R = 3 antal olika noder som besökts totala antalet noder som besökts antal noder som måste besökas Exempel En användare löser en uppgift Home page L = sqrt[ \ ] 1 W + (^ L = sqrt[ \ \ 1)W ] = 0.60 ] 1 W + (^ \ 1)W ] = 0.60 1 1 2 3 4 7 Kategori A Kategori B Kategori C 6 Produktsida A1 Produktsida A2 Produktsida A3 Produktsida B1 Produktsida B2 Produktsida B3 Produktsida 3 C1 8 2 9 Produktsida C2 Produktsida C3 5
Problem-based measures what s a problem? Allt som förhindrar måluppfyllelse Allt som för någon på fel spår Allt som skapar förvirring Allt som skapar ett fel Att inte se något som skulle uppmärksammats Att anta att något är rätt när det inte är det Att anta att en uppgift är klar när den inte är det Att utföra fel funktion Att missförstå något innehåll Att inte förstå navigeringen
Problembaserade mått - detaljer När börjar och slutar ett problem? Granularitet? Flera observatörer?
Allvarlighetsgrad Liten påverkan på användarupplevelse n Stor påverkan på användarupplevelse n Få fp upplever ett problem Låg allvarlighetsgrad Medel allvarlighetsgrad Många fp upplever ett problem Medel allvarlighetsgrad Hög allvarlighetsgrad
Resultat - exempel
Resultat exempel
Resultat - exempel
Resultat - exempel
Resultat - exempel
Konsekvens i problemidentifiering
Bruskällor Deltagare Uppgifter Metod Artefakt Omgivning Moderatorer
Antal deltagare
Beteende och psykologiska mått Verbalt beteende Ansiktsuttryck Eye-tracking Pupillrespons Hjärtfrekvens
Eye-tracking
Eye-tracking video 1
Eye-tracking video 2
Eye-tracking-analys 1
Eye-tracking-analys 2 Top banner Get it Done Online Tools Main Body News/ Features
Self reported measures Förväntningsmått SUS-skalan CSUQ-skalan QUIS-skalan
Expectancy measures Fråga fp om förväntad svårighetsgrad, innan de utför uppgiften Fråga efteråt hur lätt/svårt det verkligen var, omedelbart efter varje uppgift Använd 7-punkts skala i båda fallen Väldigt lätt till Väldigt svårt
För varje uppgift, beräkna två medelvärden Medel för förväntningsvärdet Medel för upplevelsevärdet Visualisera datat som en scatterplot med två axlar Förväntningsvärde Upplevelsevärde De fyra kvadranterna är intressanta
SUS system usability scale Utvecklat vid DEC Består av 10 frågor Kan byta ut website mot system mot produkt
SUS - sammanräkning SUS resulterar i ett helhetsvärde. Värden för individuella frågor säger inget. Beräkning: Varje frågas värde varierar mellan 0 och 4 Fråga 1, 3, 5, 7, och 9 bidrar med positionen minus 1 Fråga 2, 4, 6, 8 och 10 bidrar med 5 minus positionen Multiplicera summan för alla 10 frågor med 2.5 för helhetsvärdet. SUS värden varierar mellan 0 och 100
Beräkningsexempel
Why SUS?
Cont d Upplägg 123 användare testade 2 system (alla testade båda) 5 olika enkäter Varje användare fyllde i samma enkät för båda systemen Ca 25 användare per enkät Resultat Alla 5 enkäter visade att ett av systemen var signifikant bättre än det andra En mängd samples slumpades ut från enkätsvaren (6-14 personer per enkät) Hur många % av respektive enkäts sample visade att rätt system var bättre än det andra?
Why SUS? Frequency Distribution of SUS Scores for 129 Conditions from 50 Studies 50 45 40 35 Frequency 30 25 20 15 10 5 0 <=40 41-50 51-60 61-70 71-80 81-90 91-100 Average SUS Scores