Arne Jönsson 2014-01-09 WEBBKLUSTRING SLUTRAPPORT 1. Inledning Inom projektet har vi utvecklat teknik som gör det möjligt att identifiera webbsidors innehåll och därefter klustra (gruppera) dem så att en användare bara behöver följa en länk istället för att öppna flera sidor med väsentligen samma information. Klustren kan omfatta flera webbsidor med snarlikt innehåll. Detta gör att såväl vanliga användare, som användare med lässvårigheter, inte behöver läsa igenom flera webbsidor med samma innehåll för att få svar på sin sökfråga, utan kan gå direkt till nästa kluster och hoppas hitta svaret där. Vidare presenteras läsbarheten för webbsidorna i varje kluster, och varje webbsida i ett kluster, så att framförallt användare med lässvårigheter kan välja det kluster, eller den webbsida som är enklast att läsa, utifrån läsbarhetsmåtten. 2. Mål och syfte Syftet med projektet var att utveckla en tjänst för effektivare informationssökning och sållande bland information. Huvudmålet var ett verktyg för dokumentdisambiguering, dvs rutiner som letar efter skillnader och likheter i dokument och därmed kan avgöra om olika dokument innehåller samma, eller väldigt snarlik, information. Webbsidor som innehåller information som är tillräckligt snarlik klustras och presenteras som en sökträff. Detta ger en mer effektiv informationssökning då en användare snabbt kan få en indikation om exempelvis en sökträff på dennes favoritsökmotor innehåller information utöver den som finns i en tidigare sökträff och om således ny information är att vänta. Ett viktigt syfte är också att utforma en intuitiv och effektiv design av tjänsten samt att systematiskt utvärdera denna. 3. Projektbeskrivning Projektet tillämpar ett användarcentrerat arbetssätt för att i största möjliga mån tillgodose användarnas behov och mål. Specifikt innebär det att genom skissning, prototypning och användarstudier specificera vilka syften tjänsten bör fylla för olika personer i olika sammanhang. Därtill utreds hur tjänsten ska utformas med avseende på önskvärda brukskvaliteter och sammansättning av funktioner och innehåll, samt användarupplevelse och sammansättning av tjänstens beteenden och form. För att uppnå detta har vi utgått ifrån personor skapade i två andra projekt som syftat till att utveckla tjänster för att öka den digitala delaktigheten, Webblättläst och FriendlyReader. Dessa personor är baserade på fjorton intervjuer, 20-30 minuter långa. Personorna är också baserade på andra källor som rapporter och publicerade intervjustudier. En persona är en fiktiv karaktär som representerar en viss typ av beteenden som observerats hos användarna. Om ett antal användare har uppvisat liknande beteende kan dessa representeras i en persona, som får ett eget namn och bakgrundshistoria. Denna fiktiva användare ökar projektgruppens empati för de verkliga användarna och sammanfattar på ett lättförståeligt sätt de olika beteenden som målgruppen uppvisar. Till varje persona skrivs scenarier som beskriver hur personan använder produkten eller tjänsten. ------------------------------------------------------------------------------------------------------------------------------------------------------------ Sics East Swedish ICT AB email: info@santaanna.se c/o Linköpings universitet tel: 013 28 89 89 Besöksadress: Teknikringen 7 Org.nr 556567-9155 581 83 LINKÖPING
Inom projektet har vi också utnyttjat resultat från det tidigare projektet Webblättläst, framförallt teknik för att rensa texter från ovidkommande information, som t.ex. reklam och länkinformation. Vi har också utnyttjat tekniken att räkna ut en webbsidas läsbarhet utifrån olika läsbarhetsmått. De läsbarhetsmått vi använt är LIX (läsbarhetsindex), OVIX (ordvariationsindex) och NR (nominakvot) Baserat på personor och scenarier har tjänsten Webbklustring utvecklats och därefter iterativt förbättrats utifrån resultat från olika användarundersökningar. Tjänsten presenterar resultatet av en webbsökning som olika kluster där dokument med liknande innehåll grupperats och där läsbarheten anges. Varje kluster kan därefter expanderas och då presenteras de olika dokumenten i klustret, med angivande av läsbarhet. 4. Leverabler Tjänsten och alla rapporter finns tillgängliga via projektets webbsida: http://www.ida.liu.se/projects/webbklustring/ 5. Resultat Projektet har som planerat resulterat i en webbtjänst för klustring av webbsidor samt uträkning av läsbarheten i klustren och de enskilda webbsidorna. Figur 1 visar hur tjänsten ser ut och fungerar. Användaren har sökt på vad kan man laga med silvertejp och här valt att få 30 sidor inlästa och klustrade samt sidorna rangordnade utifrån läsbarhetsmåttet LIX. Reglaget uppe till höger används för att ange antalet dokument som skall klustras, i detta fall 30. Figur 1. Klustring sorterad utifrån LIX I Figur 1 ser man till vänster de 30 sidorna ordnade i 7 kluster, vilket är det maximala antalet kluster vi valt. På den vertikala axeln ser man relevansen hos dokumentklustren utifrån den ordning de kommer ifrån googlesökningen medan den horisontella axeln anger läsbarheten, i detta fall sorterat efter LIX. Väljer man istället att sortera efter läsbarhetsmåttet OVIX sorteras klustren om som i Figur 2. 2
Figur 2. Klustring sorterad efter OVIX Till höger finns alla dokumenten rangordnade efter olika kriterier. I Figur 1 har dokumenten i högerspalten rangordnas utifrån relevans medan Figur 2 visar sorteringen utifrån läsbarhetsmåttet OVIX. För att se vilken information som finns i ett kluster håller man bara musen över klustret och får upp en ruta med en multidokumentsammanfattning. I Figur 3 har musen hållits över det gula klustret (klustret längst till vänster) i Figur 1. I pop-up-fönstret visas dels en multidokumentsammanfattning av de fem dokumenten i klustret och dels värden på de olika läsbarhetsmåtten, Nominalkvot, LIX och OVIX, med såväl de numeriska värdena som de tolkningar av värdena som normalt används. 3
Figur 3. Multidokumentsammanfattning av kluster. I Figur 4 visas de olika dokumenten i ett kluster, i detta fall det ljusblå klustret (klustret längst ner) i Figur 1. Här har de enskilda dokumenten placerats ut efter relevans och läsbarhetsmåttet OVIX. Figur 4. Dokumentnivån Även här kan man med musen över, i detta fall ett dokument, få upp såväl läsbarhetsmåtten som en sammanfattning av dokumentet, Figur 5. Om man sen klickar på ett dokument kommer man till den webbsidan. 4
Figur 5. Sammanfattning av dokument i ett kluster. Det går också att klicka direkt på en länk till ett dokument i högerspalten. 6. Utvärdering och analys Projektets syfte är uppnått såtillvida att vi har en väl fungerande tjänst som kan klustra webbsidor efter innehållslikhet och läsbarhet. Den design av hur kluster presenteras och expanderas har utformats iterativt utifrån kontinuerliga användarundersökningar. 6.1 Utvärdering av resultat Tjänsten har utvärderats i tre undersökningar som kort presenteras i detta avsnitt. Utförliga rapporter av användartesterna finns upplagda på projektets webbsida. Den första användarundersökningen omfattade fem personer som dels fick använda tjänsten samtidigt som de tänkte högt och dels besvarade ett frågeformulär (SUS). De utförde sammanlagt sju olika uppgifter och kortfattat kom vi fram till att tjänsten fungerar bra då texterna som analyseras är någorlunda långa och webbsidorna i övrigt inte innehåller för mycket ovidkommande information. En del förbättringsförslag kom också fram i analysen som implementerades inför andra utvärderingen. Andra utvärderingen utfördes med 10 personer och fokuserade på upplevelsen av att använda tjänsten. I denna studie användes en anpassad version av Product Reaction Cards, som anpassats till svenska, där användarna får ett antal ord att ta ställning till. Dessa rangordnas och användarna skall sedan motivera sitt val. Resultatet kan kortfattat sammanfattas med att tjänsten upplevs som användbar, men förvirrande, långsam och ofärdig. Klustringen ger inte den tydliga uppdelning vi hade hoppats på. Användarna förstår inte direkt att det är olika, men snarlika, svarstyper i de olika klustren. Begreppen kluster, läsbarhet och relevans, som samtliga utgör viktiga delar i gränssnittet, upplevs som otydliga och försämrade upplevelsen. Tredje utvärderingen fokuserade på nyttan av att använda tjänsten. Metoden här var ostrukturerade intervjuer med 10 användare som spelades in och analyserades utifrån nyttokriterier. Många inser nyttan med tjänsten och idén att klustra webbsidor. Man nämner att det framförallt kan ses som ett komplement till vanlig sökning. Multidokumentsammanfattningarna upplevs dock som otillfredsställande vilket ofta beror på att det är för lite text för att ge en vettig sammanfattning 5
av innehållet i flera sidor. SUS gav ingen förbättring trots att vi förbättrat tjänsten, men spridningen var väldigt stor och det var ganska få användare. Vi har haft svårt att under projekttiden få tillräckligt många personer ur målgruppen dyslektiker att använda tjänsten och har därför ännu inte kunnat göra en formell utvärdering av nyttan att använda tjänsten för denna användargrupp. 6.2 Förslag på förbättringar Designen av tjänsten skall omarbetas och undersökas i nya användarstudier. Vi ser också att de olika multidokumentsammanfattningarna är beroende av hur långa texterna är. Ibland består webbsidorna som hämtas till klustringsalgoritmen av lite text och mycket bilder vilket gör såväl klustringen som multidokumentsammanfattningen otydlig. Vi vill undersöka hur detta kan hanteras genom att t.ex. inte multidokumentsammanfatta texter som är för korta och att då istället använda nyckelord för att presentera innehållet i ett kluster. Vi vill vidare lägga till fler läsbarhetsmått, och undersöka hur tjänsten påverkas av olika kombinationer av läsbarhetsmått. 7. Framtida arbeten I vårt fortsatta arbete med att utveckla stöd för att minska det digitala utanförskapet genom tjänster som underlättar tillgång till information på Internet för grupper med speciella behov, ser vi huvudsakligen tre inriktningar för tjänsten: 1. Ny design som mer liknar en traditionell googlesökning. 2. Integrera de andra tjänster som finns inom gruppen, framförallt sammanfattning av dokument och synonymer. 3. Utföra studier med användare ur målgruppen med nya designer och läsbarhetsmått. Tjänsten webbklustring är också en viktig del i det paket av tjänster som vi utvecklar med sikte på att intressera aktörer inom t.ex. offentlig sektor för att underlätta för medborgare med olika typer av lässvårigheter (utlandsfödda, dyslektiker, äldre, etc.) att bli digitalt delaktiga. Nu senast har vi formulerat ett förslag till strategisk innovationsagenda inom området Digital delaktighet i det öppna samhället, ett område där vi arbetar vidare med att finna en finansiär för fortsatt utvecklingsarbete. Utöver att tillgängliggöra tjänsten även via SICS East Swedish ICT ABs webbsida är ambitionen att göra den tillgänglig på webbplatsen Deladigitalt. Kontakt har tagits med Anders Nordh. Linköping den 9 januari 2014 Sture Hägglund VD, SICS East Swedish ICT AB 6