Forum Kista 10 september

Relevanta dokument
Google Guide: Tips för sökoptimering

Snabbguide till Cinahl

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Sammanfattning av informationssökning VT19

E-biblioteket en tjänst från sjukhusbiblioteken

Att söka information (med betoning på Internet)

Sök artiklar i databaser för Vård- och hälsovetenskap

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

So ka artiklar och annan litteratur


Sö ka artiklar öch annan litteratur

Optimering av webbsidor

PubMed (Medline) Fritextsökning


Avtalsform Ramavtal & enstaka köp Namn Söktjänst

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

en översikt av stegen i en systematisk utvärdering

Söka, värdera, referera

Söka artiklar i CSA-databaser Handledning

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Hur man hjälper besökare hitta på en webbplats

Användarhandledning - Sökning av Säkerhetsdatablad i Logistikportalen baserad på SharePoint 2013

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

UB:s sö ktjä nst - Söka artiklar och annan litteratur

Cinahl sökguide. Enkel sökning. Ämnesordsökning

Retriever Mediearkivet

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Sharpdesk Sharpdesk Dokumenthanteringslösning

Användarhandbok StepStones Recruiters Space

Skriv ditt sökord i sökrutan och markera rutan för att föreslå ämnesord (Suggest Subject Terms).

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

Riktlinjer för bedömning av examensarbeten

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Undersök Google. Sida 1 av 9. En digital lektion från

Internets historia Tillämpningar

Öppna EndNote varje gång när du vill samla referenser till ditt bibliotek.

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

Analysverktyget Program Version:

Version: Datum: DynaMaster 5 Golf Övergripande manual

Tentamen på kursen Webbdesign, 7,5 hp

Sökmotoroptimering i e-line

Lathund för Lifos-systemet

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

Etiska regler för sökmarknadsföring via sökmotoroptiering

Biblioteken, Futurum 2017

Undersök Google. Lektionen handlar om att jämföra och pröva källors tillförlitlighet vid informationssökning på internet.

Användarmanualen. Visma Enterprise Content Search. Standard Version 2.0 for Platina. Version 1.1

Sö ka litteratur i ERIC

Om uppsatsmallen vid GIH

Socialtjänstbiblioteket

Evidensbaserad informationssökning

Internet. En enkel introduktion. Innehåll:

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Infobank kvickguide. Kom i gång med Infobank. Logga in till Infobank. Installationsguiden

Sö ka artiklar öch annan litteratur

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

MANUAL FÖR JÄGAREFÖRBUNDETS KRETSAR

En introduktion till SLI.SE

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

YAHOO! SEARCH MARKETING Tips för att öka trafiken

Instruktioner för studenter

Projekt Intelligent Indexering

Lathund för studenter

Web Crawlers. TDTS09, Datornät och internetprotokoll. Denis Golubovic Fredrik Salin Linköpings universitet Linköping

Manual HSB Webb brf

Acrobat 9. Adobe. Grundkurs

Användarhandledning Analys & sök Version: 1.2

Titel: Undertitel: Författarens namn och e-postadress. Framsidans utseende kan variera mellan olika institutioner

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

LUPstudentpapers. Manual Reviewer

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Litteratursökning och referenser. Agenda. Vetenskapliga artiklar (granskade) Ej vetenskapligt granskade källor.

Globala och lokala sökmotorer: En utvärdering av Google, MSN Search och Svesök

Informationssökning - att söka och finna vetenskapliga publikationer Linköpings Universitetsbibliotek

ARBETSMATERIAL. Intern webbsök på Göteborgs universitet

Lathund till VFU-portalen

Från encyklopedier till Google-sökningar

Sö ka artiklar öch annan litteratur

Fråga bibliotekarien. Länkbiblioteket. Sökslussen. Metasökprogrammet Frank och Söksam. biblioteken.fi >

Lathund till PsycINFO (OVID)

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

V I G Å R I G E N O M...

Använda Internet. med hjälp av Internet Explorer. Nybörjarguide

Sökmotormarknadsföring

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Källuppgifter i fysik FAFA55

Det bästa är att kombinera flera olika metoder och källor. TIPS - för informationssökning på webben!

VAD SKULLE DU HA VALT PDF

ANVISNING FÖR UTARBETANDE AV TEKNISK/VETENSKAPLIGA ARTIKLAR OCH LABORATIONSRAPPORTER

PubMed (Public Medline) - sökmanual

Sparbankerna PDF. ==>Download: Sparbankerna PDF ebook By 0

Patientutbildning om diabetes En systematisk litteraturstudie

Snabbguide till dataskydd i forskning

ANVÄNDARTESTNING VID LULEÅ UB Ola Andersson Luleå universitetsbibliotek

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Googles sidrankning - linjär algebra värt en förmögenhet

En liten introduktion till

Transkript:

Inst för Data- och Systemvetenskap Stockholms Universitet Slutseminariedatum Forum 100 164 40 Kista 10 september 2003.................. Författare Anneli Andersson Soo-Im Pettersson Uppsatsnummer DS80 Titel En utvärdering av söktjänster Antal sidor: 38 + 6 bilagor Nyckelord Internet, söktjänst, sökmotor, sökspindel, söksträng, informationshämtning Sammanfattning Med den mängd information som finns tillgänglig på Internet idag är söktjänster närmast en nödvändighet. Några är bättre på att söka viss information än andra, och vid en sökning kan det produceras så många resultatsidor att man inte mäktar leta igenom alla, eller så få resultatsidor att det man söker inte kommer med. Många upplever att det är svårt att hitta begärd information hos söktjänster utan att få fram en mängd oönskade sidor, och syftet med denna uppsats är att undersöka detta problem genom att utvärdera fem söktjänster: AllTheWeb, AltaVista, AskJeeves, Google och MSN Search. I arbetsmetoden ingick två datainsamlingar i form av en enkät och egen testning av söktjänster. Enkätens ena avsnitt användes för att få fram ett urval av söksträngar till egen testning, vilket gav ett bredare och mer representativt underlag än egna formulerade söksträngar. Undersökningen visade att sökresultaten var överlag dåliga. Operatorer som kan förbättra sökresultaten utnyttjades inte till fullo, vilket är en möjlig orsak till detta. Studien visade även att Google var den bästa söktjänsten och att oönskade sidor inte går att utesluta helt, men går att minska ner med en optimal söksträng.

Department of Computer and Systems Sciences Stockholm University/Royal Institute of Technology Abstract An Evaluation of Search Engines an undergraduate thesis by Anneli Andersson & Soo-Im Pettersson Considering the large amount of data available on the Internet today, search engines are essential tools for information seekers. Some are better at retrieving information than others and can produce either an overwhelming search result or such a poor result that the sought information is not covered. Information retrieval is more complex than just entering a key word and expecting a search result to include all information on what was requested, due to the complexity of the human language and the fact that computers can only compare characters. Many people experience difficulties in finding requested information without getting a lot of undesired search results, and the purpose of this essay is to examine this problem by evaluating five search engines: AllTheWeb, AltaVista, AskJeeves, Google and MSN Search. These engines were established during 1995-1999 and they make use of different underlying search technologies. The data was collected through a survey, which was distributed to students at Stockholm University (Department of Computer and Systems Sciences). Parts of the survey were utilized as a basis for the test of the search engines and the test results were evaluated with two different parameters - precision and usability. The calculations and the remainder of the survey support the final analyses. According to the survey, a typical searcher uses Google to retrieve facts on the Internet with the help of the basic search field. She constructs search strings that often contain several words with quotation marks and occasionally the plus character. She often finds what she is looking for among the first twenty links in the search result and utilizes the abstract beneath each link. When the sought information is not included in the search results, she continues her search with AltaVista. The outcome of the study indicates a poor search result. A possible cause could be that the operands, which could improve a search, were not used extensibly. Another possible reason could be that the engines, that use different algorithms and methods, may have been developed with an unreasonable ideal to accommodate the search results to every users' individual needs. The study also shows that Google is the superior engine and undesired results cannot be entirely eliminated, although they can be minimized with an optimized search string.

Innehållsförteckning 1 Inledning... 1 1.1 Bakgrund... 1 1.2 Problem... 1 1.3 Syfte... 2 1.4 Arbetsmetod... 2 1.4.1 Förarbete... 3 1.4.2 Metod för framtagning av utvärderingsmodell... 3 1.4.3 Metod för datainsamling... 4 1.4.4 Metod för utvärdering... 5 2 Söktjänster, sökmotorer och informationshämtning... 6 2.1 Historik... 6 2.2 Uppbyggnad... 6 2.3 Sökmotorer... 7 2.4 Presentation av söktjänsternas teknik och funktion... 8 2.4.1 AllTheWeb... 8 2.4.2 AltaVista... 9 2.4.3 AskJeeves... 10 2.4.4 Google... 12 2.4.5 MSN Search... 13 2.5 Evaluering av informationshämtning... 14 3 Utvärderingsmodell... 17 3.1 Enkät... 17 3.2 Egen testning... 20 3.3 Sammanställning... 21 4 Datainsamling och utvärdering...23 4.1 Enkät... 23 4.1.1 Datainsamling... 23 4.1.2 Utvärdering... 23 4.2 Egen testning... 26 4.2.1 Datainsamling... 26 4.2.2 Utvärdering... 30 4.3 Sammanställning... 33 5 Slutsatser... 34 Litteraturförteckning... 36 Bilagor Bilaga 1: Enkät för söktjänster... 39 Bilaga 2: Testmall för användardefinierade söksträngar... 43 Bilaga 3: Testmall för optimalt definierade söksträngar... 44 Bilaga 4: Medelvärde för användardefinierade och optimalt definierade söksträngar... 45 Bilaga 5: Söktjänsternas relation till varandra... 48 Bilaga 6: Ordlista... 49

1 Inledning "Knowledge is of two kinds. We know a subject ourselves, or we know where we can find information upon it." Boswell (April 1775) I dag har informationssökare tillgång till elektronisk information utifrån en mångfald av hjälpmedel eller teknologier, allt ifrån uppslagsverk på CD-ROM till Internet. År 1998 uppgick antalet webbplatser * på Internet till nästan 3 miljoner och fram till förra året hade mängden trefaldigats [30]. Med denna mängd information som finns tillgänglig är söktjänster* närmast en nödvändighet. Det finns ett stort antal av dem och ingen är den andra lik. Några är bättre på att söka viss information än andra och vid en sökning kan det produceras så många resultatsidor att man inte mäktar leta igenom alla, eller så få resultatsidor att det man söker inte kommer med. 1.1 Bakgrund De söktjänster som numera betraktas vara bland de största är Google*, AllTheWeb*, Yahoo!* och MSN Search*. De anses vara störst i den bemärkelse att de antingen är mest omtalade, flitigt använda [22], eller indexerar* flest sidor [18]. Enligt tester som har gjorts under de senaste två åren visar sig Google vara en av de bättre och även FAST* och AltaVista* når goda resultat [18] [26]. Söktjänster är attraktiva för webbadministratörer då det ur marknadssynpunkt är viktigt att finnas bland sökresultaten, vilket genererar fler besök till deras webbplatser. Det är även attraktivt för användarna som genomför sökningar, då välkända och kommersiellt uppbackade söktjänster oftast betyder att de med stor sannolikhet är väl underhållna och uppdaterade [22]. En söktjänst består vanligtvis av en sökmotor* som i sig består av datorprogram, oftast benämnda spindlar, robotar eller krypare (eng. crawlers). Eftersom det är omöjligt att manuellt indexera så stora mängder av sidor på Internet skapades sökmotorer. Deras uppgift är att samla upp dokument från Internet, spara dem i en databas och därefter indexera med någon typ av algoritm. När sedan en informationssökning utförs, letas sökorden upp i databasen, och i gränssnittet presenteras länkarna till de dokument där ordet förekommer. [14] Språk med lingvistisk mångfald har stor inverkan vid sökning av information. Med språkets komplexitet och det faktum att datorer enbart matchar tecken, följer att informationssökning är mycket mer komplicerat än att bara ange några nyckelord, och därefter förvänta sig att ett sökresultat ska innehålla allt som finns tillgängligt på just det som begärdes. Oavsett den sökstrategi som tillämpas kan det hända att sökningen misslyckas vid första försöket och i sådana fall behöver informationssökaren göra korrigeringar för att förbättra sökresultatet. [13] 1.2 Problem Många användare upplever att det är svårt att hitta begärd information med hjälp av söktjänster utan att få fram hänvisningar till en mängd oönskade sidor. Ett flertal böcker påvisar liknande tendenser och ägnar stor uppmärksamhet åt hur information kan letas fram på det mest effektiva sättet [6] [13] [14]. * Alla ord markerade med en asterisk återfinns i en ordlista sist i dokumentet (bilaga 6). 1

1.3 Syfte Syftet med denna uppsats är att utvärdera söktjänster på Internet. Avgränsning I utredningen ingår söktjänsterna AllTheWeb, AltaVista, AskJeeves*, Google och MSN Search vars respektive sökmotorer är FAST, AltaVista, Teoma*, Google samt Inktomi*. 1.4 Arbetsmetod Arbetet med uppsatsen är indelat i sex steg: förarbete, inledande intervjuer, pilotstudie, datainsamling via enkät och egen testning, samt utvärdering (se figur 1:1). De inledande intervjuerna har framförallt varit till stöd i utformandet av ett utkast till en gruppenkät för kartläggning av olika personers uppfattning om och användning av söktjänster. Gruppenkät valdes med hänsyn till eventuellt bortfall samt tidsåtgången för försökspersoner i jämförelse med diskussionsintervjuer [9] [29]. Däremot förloras möjligheten till förnyad kontakt för granskning av oklara svar [9]. En pilotstudie genomfördes på utkastet innan utformningen av enkäten fastställdes. Enkäten är indelad i tre avsnitt: bakgrundsfrågor, påståenden och testfrågor. Utifrån enkätsvaren från avsnittet med testfrågor utfördes en testning av de fem söktjänster som ingår i utredningen. Testresultaten togs fram med hjälp av formlerna för precision, täckning (eng. recall) [18] och användbarhet, vilka mäter effektiviteten vid informationshämtning (förklaras närmare i kapitel 2.5). Resultatet av egen testning och enkätens två övriga avsnitt låg till grund för utvärderingen. Steg 1: Förarbete Steg 2: Inledande intervjuer Steg 3: Pilotstudie av enkät Bakgrundsfrågor Steg 4: Datainsamling via enkät Påståenden Testfrågor Precision/ Täckning Steg 5: Datainsamling via egen testning Användbarhet Steg: 6 Utvärdering Figur 1:1 Arbetsmetod 2

1.4.1 Förarbete Förarbetet inleddes med slumpmässiga testsökningar av söktjänsterna AltaVista, AskJeeves, Google, MSN Search och WebCrawler* för att få ett första intryck av dem. I samband med detta skickades e-post till söktjänsternas supportavdelningar för att få mer information om deras funktionalitet. Vid ett inledande samtal med Jakob Palme, professor på Institutionen för Data- och Systemvetenskap (DSV), fick vi allmän information om söktjänster. För ytterligare fakta hänvisade han oss till Eriks Sneiders på DSV, som undervisar i teknik för informationssökning på Internet. Eriks Sneiders gav oss material i form av kurskompendier och kan vid behov bidra med expertutlåtanden till vår uppsats. Vidare gjordes efterforskningar i litteratur och på Internet, för att få kunskap om söktjänster och dess bakomliggande sökmotorer med fokus på teknik och funktionalitet. Vi studerade även olika tester gällande söktjänster, vilka har publicerats på webben (Search Engine Watch* och Search Engine Showdown*) och i tidskrifter (PC för alla och Forskning och Framsteg). Parallellt med detta har egen programmering av en sökmotor påbörjats för att bättre förstå tekniken. 1.4.2 Metod för framtagning av utvärderingsmodell Inledande intervjuer Till de inledande intervjuerna formulerades sex frågor så att de inte blev ledande, för att få mer spontana svar. Ordet sökmotor användes i detta tidiga skede innan vi istället tillämpade Svenska datatermgruppens [27] definition som skiljer på orden söktjänster och sökmotorer. 1. Känner du till sökmotorer? 2. Använder du sökmotorer? 3. Använder du bara enkla sökfältet eller även avancerad sökning? 4. Vad använder du sökmotorer till? 5. Tycker du att sökmotorer är bra? 6. Är sättet att söka på bra? Ovanstående intervjufrågor ställdes per telefon till tio personer i vår vänkrets med varierande kunskap om datorer. Samtliga personer svarade på alla frågor och svaren låg till grund för ett första utkast av en enkät. Pilotstudie Efter att ha analyserat svaren på de inledande intervjufrågorna, och med hjälp av litteraturstudier, utformades utkastet av enkäten inför pilotstudien. För att öka möjligheten att få enkäten besvarad utarbetades den så att den inte blev alltför omfattande [12]. Tillsammans med enkäten skapades även ett utvärderingsformulär med ett antal frågor om själva enkäten, för att säkerställa att rätt frågeställningar hade valts ut och uppfattades utan tvetydigheter. Följande frågor ingick: 1. Hur lång tid tog det att fylla i enkäten? 2. Är enkätens utseende/layout bra/tydlig? 3. Är det för många frågor? 4. Är frågorna otydliga/tvetydiga? 5. Övriga kommentarer 3

Under pilotstudien vände vi oss åter till vår vänkrets och delgav dem personligen det första utkastet av enkäten och utvärderingsformuläret. Av de tio tillfrågade personerna deltog samtliga och deras svar bidrog till den slutgiltiga bearbetningen av enkäten. Av pilottestet framkom det att försökspersonerna hellre beskrev hur de tänkte utföra sökningen istället för att ange själva söksträngen. Följaktligen valde vi att ändra utseendet på enkätens testfrågor till att återspegla ett sökfält och en sökknapp som förekommer i gränssnittet hos många av dagens söktjänster (se fråga 8 i bilaga 1). Enkät Enkäten delades in i tre avsnitt: bakgrundsfrågor, testfrågor och påståenden och den omfattar fem faktorer utan inbördes rangordning: Faktor 1: Formulering av söksträngar Faktor 2: Söktjänster Faktor 3: Sökmetod Faktor 4: Sammansättning av söksträngar Faktor 5: Uppfattat sökresultat Genom bakgrundsfrågor ville vi få information om personers användning av Internet och söktjänster. För att ta reda på hur personer formulerar söksträngar så att egen testning av söktjänsterna kunde genomföras, användes testfrågor. Vi valde att formulera söksträngarna på engelska då utbudet av engelska webbsidor är större än de svenska. Dessutom valdes öppna frågor för att inte styra hur försökspersoner formulerar sina söksträngar för att testningen skulle bli så realistisk som möjligt. Ett antal påståenden nyttjades för att få fram vilka söktjänster och sökmetoder som används samt hur söksträngar och sökresultat hanteras. Påståendena formulerades med fastställda svarsalternativ för att få mätbara enkätsvar och för att minimera tvetydigheter. För att få personer att ta ställning till påståendena har en sexgradig skala utan ett medelalternativ avsiktligt utnyttjats. Egen testning Till vår egen testning har följande faktorer valts ut: Faktor 6: Precision - relevans Faktor 7: Precision - träff Faktor 8: Användbarhet Faktor 9: Sökresultat Dessa faktorer, utan inbördes rangordning, användes för att få fram underlag till utvärderingen av söktjänsternas sökresultat vid olika former av informationshämtning. Användbarhet och precision mättes med hjälp av formler för detta (se kapitel 2.5). 1.4.3 Metod för datainsamling Datainsamlingen genomfördes på två sätt, dels med enkät och dels med egen testning av söktjänster. Frågor där försökspersoner inte har färdiga svarsalternativ att välja bland utan ska svara med egna ord. 4

Enkät Enkäten innehållande både fasta och öppna svarsalternativ kopierades i 70 ex. Den delades ut till personer som studerar på DSV i Kista. Detta för att det ofta finns många studerande närvarande i skolans datorsalar vid ett och samma tillfälle vilket underlättar datainsamlingen då den beräknades genomföras under en arbetsdag. Utdelningen gjordes genom att vi gick in i datorsalarna och bad studenterna besvara enkäten och återkom en stund senare för att samla in den. Att vi själva samlade in enkäten var ett sätt att underlätta för försökspersonerna då de slapp söka upp oss för att återlämna den. Dessutom hade vi en förhoppning om att detta tillvägagångssätt skulle minska bortfallet av obesvarade enkäter. Svaren på enkätens bakgrundsfrågor och påståenden ligger direkt till grund för vår utvärdering och enkätsvarens påståenden är presenterade i stapeldiagram. Svaren från enkätens testfrågor strukturerades med en urvalsprocess i flera led för att användas i vår testning av söktjänsterna. Egen testning Egen testning bestod av att testa de fem söktjänsterna som ingår i undersökningen med användardefinierade söksträngar (d.v.s. de utvalda söksträngarna från enkätens testfrågor) och optimalt definierade söksträngar (d.v.s. optimala sökfrågor framtagna utifrån de användardefinierade söksträngarna). De användardefinierade söksträngarna omformulerades till optimalt definierade söksträngar med hjälp av Eriks Sneiders råd för hur sökfrågor optimalt skulle kunna formuleras. För att testningen skulle kunna bedömas konsekvent används kriterierna relevans och träff för varje söksträng: relevans - om de håller sig till ämnet träff - om de innehåller det exakta svaret. Resultatet av testningen är sammanställt i tabeller och ligger till grund för utvärderingen. 1.4.4 Metod för utvärdering Enkäten och den egna testningen användes för att få fram kvalitativa och kvantitativa mätvärden för de faktorer vi har fastställt. Enkätens testfrågor gav oss dessutom underlag till egen testning av söktjänsterna. Resultaten från den egna testningen utvärderades tillsammans med de svar som framkom i enkätens bakgrunds- och påståendedel. Faktorerna som användes är utvärderade med olika metoder. För enkätens faktorer gjordes en sammanfattande bedömning i textform. För testningens faktorer användes formlerna för precision och användbarhet enligt Eriks Sneiders rekommendation. För att kunna utvärdera testningens faktorer används följande bedömning: Dåligt: 0-49 % Bra: 50-79 % Mycket bra: 80-100 % 5

2 Söktjänster, sökmotorer och informationshämtning "Sökmotor: program för indexering av och sökning i stora textmassor, t.ex. samtliga webbsidor på Internet. [...] Flera olika söktjänster kan använda sig av samma sökmotor. [...] Söktjänst: [inom Internet:] tjänst som erbjuds på en webbplats och som är inriktad på att tillhandahålla sökmöjligheter i text på webbsidor och i meddelanden i diskussionsgrupper. [...]" Svenska datatermgruppens ordlista [27] 2.1 Historik Sökmotorer har bara funnits i drygt 10 år men ändå har mycket hänt under denna korta tid. Det första sökverktyget kallat Archie utvecklades år 1990 av Alan Emtage, en student vid McGill-universitetet i Kanada. Ett år senare kom ett alternativ till Archie som hette Gopher. År 1994 lanserades det första sökbara webbregistret* (eng. web directory) och 1995 kom den första meta-sökmotorn*. [16] I slutet av 1995 introducerades AltaVista som höjde ribban för mängden spindlade* webbsidor. Vid en mätning 1997 var HotBot den ledande söktjänsten och Excite* kom tvåa, följt av AltaVista och Infoseek*. Samma år introducerades AskJeeves och Northern Light* och den senare tog över som ledande söktjänst. Redan två månader senare tog AltaVista ledningen med en indexering av 100 miljoner webbsidor men HotBot överträffade AltaVista med över 110 miljoner webbsidor innan årets slut. [18] År 1998 började en del söktjänster ta betalt av de webbplatser som strävade efter en högre rankning i resultatlistorna och året därpå lanserade AltaVista stöd för multimediasökningar på ljud-, video- och bildfiler. Under sommaren 1999 hävdade Northern Light att de hade den största indexeringen på webben. Kort därefter hävdade FAST Search att de hade 200 miljoner webbsidor indexerade vilket då gjorde dem till den största söktjänsten. Samma år tog sig Google in på marknaden med en egen söktjänst. [18] WAP*-sökmotorer började dyka upp i senare delen av år 2000 och året därpå kom Google att inkludera pdf-filer vid indexeringen [18]. Idag hävdar Google att de är den största söktjänsten då de indexerar över 1,3 miljarder webbsidor [11]. 2.2 Uppbyggnad En söktjänst består av två delar (se figur 2:1), en indexdatabas (serversidan) och ett gränssnitt (klientsidan) som underlättar för användaren att skriva in en sökterm [5]. Databasen på serversidan byggs upp och uppdateras av en sökmotor kallad spindel som periodiskt letar sig igenom webbsidor och indexerar sidorna till databasen. Hyperlänkarna som förekommer på webbsidorna gör det möjligt för spindeln att följa länkarna på Internet och extrahera titel, nyckelord och annan relaterad information från HTML*-dokumenten och lagra dessa i databasen. Oftast är hela innehållet i ett HTML-dokument extraherat och indexerat (förutom stoppord, d.v.s. mycket vanliga ord såsom och, den etc.). 6

Databasen består av ett antal organiserade tabeller för att underlätta snabb åtkomst av data. Med antalet ökade webbsidor är det vanligt att sökmotorer är kopplade till fler än en databasserver. När en användare frågar efter en eller flera termer, så letas termerna upp i databasen. Webbsidorna där termerna förekommer blir identifierade och därefter rankade beroende på dess relevans till sökfrågan. De rankade sidornas länkar visas sedan upp i klientens gränssnitt i form av en resultatlista med en kort beskrivning taget från de rankade sidorna så att det ger användaren en uppfattning om sidans innehåll. [5] Alla spindlar har olika sätt att samla informationen från webbsidorna men de största söktjänsterna indexerar all text från varje dokument i sin databas och detta kallas fulltext indexering. En del spindlar kan vara intuitiva genom att veta vilka ord som har en viktig innebörd inom dokumentet och andra kan hitta synonymer till ord och inkludera dessa till indexeringen [14]. Varje söktjänst bedömer rankningen olika och har sin egen algoritm för detta men oftast rankas en sida högre beroende på hur många gånger ordet återfinns på webbsidan. En del söktjänster anser att hög rankning är när ordet förekommer i dokumentets titel eller när ordet är i fet stil. Andra söktjänster bestämmer rankning efter att ha analyserat hur viktig sidan är i förhållande till de länkar som är länkade till sidan. [14] [19] Internet Användare Förfrågan Sökresultat Söktjänst (klient) Indexdatabas (server) Sökmotor (spindel) Figur 2:1 Söktjänsternas uppbyggnad 2.3 Sökmotorer Söktjänster använder sig av olika sökmotorer och är ofta beroende av varandra för att få fram sökresultat. De komplexa sambanden mellan bakomliggande sökmotorer kan vara svåra att överblicka (se bilaga 5). Då sökmotorer är ett hjälpmedel för att hitta information på Internet finns, förutom de mer allmänna, en mängd specialinriktade sökmotorer [21]: multimediasökmotorer gör det möjligt att hitta videofilmer, ljud- och bildfiler nyhetssökmotorer spindlar igenom nyhetswebbplatser svarssökmotorer specialiserar sig mer på att hitta svaret på sökförfrågan än att hitta en viss webbsida barnsökmotorer filtrerar ut webbplatser som inte är lämpliga för barn 7

sökmotorer som letar igenom den osynliga webben*. ämnesspecifika sökmotorer, även kallade vertikala sökmotorer, specialiserar sig på att endast söka ut webbplatser som uteslutande handlar om datorer, finans, juridik, medicin, vetenskap, resor etc. Sökmotorer kan generellt indelas i två grupper: spindelbaserade- och manuellt katalogiserade sökmotorer [21]. Dessa grupper skiljer sig avsevärt åt genom hur de samlar in sin information: Spindelbaserade sökmotorer indexerar regelbundet sin information automatiskt. Spindlarna söker av webben och det som hittas indexeras mot en databas. Om en webbadministratör ändrar sina webbsidor kommer spindelbaserade sökmotorer följaktligen att hitta dessa ändringar. Manuell katalogisering liknar ett referensbibliotek som är manuellt administrerat. Webbadministratörer skickar in en kort beskrivning på webbplatsen för katalogisering. Vid en sökning sker bara matchning mot beskrivningarna som var insända. Att ändra en webbsida utan att ha fått webbplatsen omregistrerad kommer att resultera i att förändringen inte hittas vid en sökning. När söktjänsterna började utvecklas var det vanligast att de antingen presenterade spindelbaserade resultat eller resultat från manuell katalogisering [21]. Numera är det mer vanligt att båda typerna presenteras i sökresultatet, dock brukar den ena typen dominera. 2.4 Presentation av söktjänsternas teknik och funktion Informationen som följer för respektive söktjänst varierar då det har varit svårt att hitta gemensamma nämnare för dessa. Det beror framför allt på att informationen som erhållits från söktjänsterna är partisk och en hel del fakta anses som känslig affärsinformation och går därför inte att få fram. Samtliga söktjänster som ingår i vår undersökning etablerades under åren 1995-1999, är spindelbaserade och använder olika sökmotorer. Det vanligaste sättet att utföra en sökning på är att skriva en söksträng i ett textfält och klicka på en sökknapp eller trycka på returtangenten. Det går även att göra en mer exakt sökning genom att specificera olika tecken såsom plus (+), minus (-) och citationstecken ( ) samt operatorer AND och OR inom söksträngen. En del av söktjänsterna är skiftlägeskänsliga, d.v.s. de skiljer på versaler och gemener. 2.4.1 AllTheWeb Användargränssnitt och sökning AllTheWeb har som målsättning att söktjänsten endast får användas för privat bruk och inte för kommersiellt ändamål. Den sökmotor som används kallas Fast Search & Transfer ASA (FAST). [1] 8

Figur 2:2 Söktjänsten AllTheWeb visad i Internet Explorer Förutom sökfältet (se figur 2:2) kan en mer avancerad sökning tillämpas genom att man fyller i ett formulär med olika alternativ. Det finns också möjlighet att söka på kategorierna nyheter, bilder, video och ljud samt att skräddarsy en egen inställning till sökningen. [2] Teknik AllTheWeb indexerar över 2,1 miljarder webbsidor, drygt 250 miljoner multimedia- och MP3*-filer, stödjer 49 olika språk och uppdaterar sina index var 7:e till 11:e dag [7]. Sökmotorn (FAST) som används av AllTheWeb är uppbyggd med flera parallella servrar i sin arkitektur. Den kan söka igenom 300 miljoner sidor på mindre än en sekund vilket gör denna sökmotor till en av de snabbaste på marknaden. [8] 2.4.2 AltaVista Användargränssnitt och sökning AltaVista har som målsättning att ge tillgång till information för användare i hela världen och satsar på att sätta en standard för söktekniken och hur användare hittar sin information. [3] 9

Figur 2:3 Söktjänsten AltaVista visad i Internet Explorer I likhet med många andra söktjänster finns tillgång till avancerad sökning förutom sökfältet (se figur 2:3). Sökningen är skiftlägeskänslig och tar även hänsyn till diakritiska tecken, såsom é, è, ë, etc., [6] vilket möjliggör en mer nyanserad sökning. Antalet webbsidor som Alta- Vista indexerar uppgår till 700 miljoner. AltaVista fungerar även som en portal* med andra funktionaliteter utöver sökfunktionen. Gränssnittet har ofta förändrats dramatiskt genom årens lopp där funktionaliteter både har bytts ut och omplacerats. [6] Teknik AltaVista använder en egen sökmotor och var först med att använda en full-text indexering på Internet år 1995 [3]. Under 1999 lanserades stöd för sökning av multimedia (ljud/video/bilder). 2.4.3 AskJeeves AskJeeves är en söktjänst som tillhandahåller lösningar för att söka med naturligt språk, svara på frågor och erbjuda avancerad sökteknik för användare och företag. I februari 2003 hade AskJeeves 20 miljoner förfrågningar per dag. [25] 10

Figur 2:4 Söktjänsten AskJeeves visad i Internet Explorer Användargränssnitt och sökning AskJeeves skiljer sig från de flesta söktjänster genom att ha en ikon Ask istället för en search knapp (se figur 2:4). Vid en felstavning ger AskJeeves förslag på korrekt stavning. Då en sökfråga innehåller flera ord är ordföljden av betydelse för att det ska tolkas på rätt sätt. Det finns också möjlighet att söka på ämneskategori. Om man är intresserad av vilka frågor som har ställts flest gånger så finns möjlighet att besöka en sida med tio i topp resultat. För barn upp till 13 år finns en speciellt anpassad sida och det finns även andra alternativ att välja såsom en sida för e-handel och en nyhetssida med aktuella artiklar. [4] Teknik AskJevees använder en teknik kallad Natural Language Processing (NLP*) för att användaren ska kunna formulera en hel fråga på ett naturligt sätt [17]. NLP tekniken från Jeeves Solutions [17] består i huvudsak av: uppdelning av ordsträngar identifikation av ordens grundform strukturering av ord i grupper matchning av ord och strukturer till meningar Teoma är den sökmotor som AskJeeves använder och dess koncept är dynamisk rankning och avancerade algoritmer. En av de utmärkande satsningarna är Subject-Specific Popularity, som i princip innebär att vid en förfrågan hittas alla webbsidor som är relaterade till frågans ämne, och länkarnas popularitet rankas enbart baserat på dessa sidor [28]. 11

2.4.4 Google Google har som målsättning att organisera information från hela världen, så att den blir allmänt tillgänglig och användbar, samt utnyttjar medvetet ett användargränssnitt som är så enkelt och rent som möjligt (se figur 2:5). [23] Figur 2:5 Söktjänsten Google visad i Internet Explorer Användargränssnitt och sökning Google använder sin egen sökmotorteknik [24] med en distribuerad arkitektur bestående av: ett stort antal webbservrar som hanterar formulär och sökresultat indexeringsservrar som lagrar sökbart data dokumentservrar som innehåller hela texten av varje sida som också tillhandahåller lagrade sidor och HTML-versionerna av Acrobat-, Word- och PowerPoint-filer. Förutom sökmotorn som tillhandahåller åtkomst till mer än 3 miljarder webbsidor, erbjuder Google många specialiserade möjligheter (eng. features), för att underlätta för användaren att hitta exakt vad som eftersöks [10]: Vy med lagrade länkar (eng. Cached Links View) är en ögonblicksbild av varje webbsida vid indexeringstillfället, d.v.s. sidor som i princip är exakta kopior på det sökmotorspindeln har hittat. Filtypsökning för icke HTML-filformat, inkluderat pdf-dokument och andra filformat. Jag har tur förbigår det vanliga sökresultatet och visar den första webbsidan som matchar mot sökfrågan. Liknande sidor visar webbsidor som är relaterade till ett visst sökresultat. Webbplatssökning (eng. Site Search) som begränsar sökningen till en specifik webbplats. Rättstavning erbjuder alternativa stavningar till sökfrågan. 12

Teknik Googles sökmotor spindlar webben ungefär 1 gång per månad och hävdar att mer än 35 miljoner icke HTML-filer finns i dess index, inkluderat 22 miljoner pdf-dokument, och har därmed lyckats få tillgång till den osynliga webben. [19] Olikt andra stora söktjänster listar Google upp webbsidor som aldrig har varit besökta. Detta är möjligt därför att den känner till dessa sidor genom att analysera länkarna på sidor som besökts. Google indexerar hela textinnehåll av spindlade sidor och samlar all synlig text men läser i de flesta fallen inte metataggarnas* nyckelord. Liksom hos andra spindelbaserade sökmotorer så undersöks frekvensen av söktermer som dyker upp på en webbsida, för att bestämma hur högt den ska rankas. Utöver detta så tillhandahåller Google också en viss rankning av textstilar. En term som visas i en större typsnittsstorlek eller i fet stil, såsom i en titel, tas med i beräkningen och således blir mindre typsnittsstorlekar inte rankade så högt. Inget av dessa är dominanta faktorer men påverkar den totala ekvationen. [19] 2.4.5 MSN Search Figur 2:6 Söktjänsten MSN Search visad i Internet Explorer Användargränssnitt och sökning Med hjälp av avancerad sökning kan en högre precision uppnås genom att använda ett formulär med olika alternativ utöver det enkla sökfältet. Där kan användaren själv bestämma hur resultatet ska sorteras och även vilka språk, typer av filer och dokumenttitlar som ska ingå i sökningen. Eftersom MSN Search också fungerar som en portal har den på sin första sida en omfattande lista med olika kategorier att välja på såsom nöjen, datorer, arbete, sport, resor m.m. (se figur 2:6). [20] 13

Teknik MSN Search använder sökmotorn Inktomi som kan hantera över 3 miljarder webbsidor. Baserat på användartester är Inktomi ledande på marknaden vad gäller samstämmigheten mellan fråga och resultat. Deras index uppdateras var 10:e till 14:e dag och de sidor som ingår i betald rankning uppdateras varannan dag. [15] 2.5 Evaluering av informationshämtning Evaluering av informationhämtning görs för att besvara en eller flera av följande tre frågor [13]: Vilket är det bästa sättet att konstruera ett informationssystem på? Vilka sökstrategier är mest lämpliga att använda? Vilka karaktärsdrag utmärker en ideal informationssökare? Informationshämtning Det finns två grundläggande principer som är användbara för informationssökaren. Den ena är att minska sökresultatet av icke relevant information utan att förlora alltför mycket relevant information. En möjlighet att uppnå detta är att ersätta ett av de sökord som har använts med ett mera preciserat sökord. Den andra är, vid otillräckligt sökresultat, att utvidga sökningen så att mängden relevant information ökas utan att få en oacceptabelt hög andel av icke relevant information. Detta kan vanligtvis uppnås genom att minska antalet sökord och kan även kombineras med hjälp av operatorn AND. [13] Precision och täckning Formlerna för precision och täckning används i samband med mätning av kapaciteten hos system där information har lagrats (se figur 2:7). [6] Samling av dokument Hämtade och relevanta dokument (HÄMTAT & RELEVANT) Figur 2:7 Evaluering av informationshämtning [18] (författarnas översättning) Precision är måttet på i vilken grad en samling dokument faktiskt motsvarar sökningens önskemål. Ur en mer teknisk aspekt står precision i proportion till mängden relevanta hämtade 14

poster och den totala mängden hämtade poster. Till exempel, om en fråga genererade 10 poster och 6 av dessa anses vara relevanta, då är precisionen 60%. [6] Genom att dividera antalet relevanta hämtade dokument med antalet hämtade dokument får man fram det procentuella värdet av precisionen. [18] precision = antal_relevanta_hämtade_dokument antal_hämtade_dokument Täckning mäter i vilken grad en sökning lyckats hitta alla relevanta dokument i en samling. I ett mer tekniskt perspektiv står täckning i proportion till mängden relevanta hämtade poster och det totala antalet relevanta poster i en databas. Till exempel, om en fråga får fram 4 relevanta poster när det finns 10 relevanta poster i databasen, blir täckningen för denna sökning 40%. Täckning är komplicerat att mäta då det vanligtvis är omöjligt att uppskatta det totala antalet relevanta poster. [6] Genom att dividera antalet relevanta hämtade dokument med totalt antal relevanta dokument i samlingen får man fram det procentuella värdet av täckningen. [18] täckning = antal_relevanta_hämtade_dokument totalt_antal_relevanta_dokument_i_samlingen Sambandet mellan precision och täckning brukar vanligtvis sammanställas i en graf med x- och y-axlar. Mätpunkterna i grafen bildar en kurva som visar om kvaliteten för informationshämtningen är bra eller dålig (se figur 2:8). En sökning som resulterar i många dokument i resultatlistan men där få av dem är relevanta kallas låg precision/hög täckning. Ett resultat med många relevanta men få dokument kallas hög precision/låg täckning. Det idealiska resultatet är där alla relevanta dokument finns med vilket kallas hög precision/hög täckning. Om täckningen är noll, är precisionen odefinierbar och ingen kurva kan ritas. [14] Precision har en tendens att öka och täckning minska när en sökning smalnas av för att reducera sökresultatet. Den motsatta tendensen ökar täckningen men minskar precisionen när en sökning breddas för att utöka sökresultatet. [13] Precision Täckning. orimlig hämtning bra hämtning genomsnittlig hämtning dålig hämtning Figur 2:8 Graf för precision och täckning [18] (författarnas översättning) 15

Trots att precision och täckning har använts i stor utsträckning för att mäta effektiviteten av informationshämtning finns en hel del kritik på brister gällande: ofullständiga mätningar täckningens giltighet som måttenhet problem kring mätning av täckning definieringen av relevans informationssökarens interaktion med systemet vid informationshämtning Användbarhet - egendefinierad formel Användbarhet beräknas genom att dividera antalet träffar av hämtade dokument med det totala antalet relevanta hämtade dokument. användbarhet = antal_träffar_av_hämtade_dokument totalt_antal_relevanta_hämtade_dokument Till exempel, om en fråga får fram 3 träffar utifrån 10 relevanta dokument, blir användbarheten för denna sökning 30%. Användbarhet återspeglar tillförlitligheten av relevanta dokument, där hög procent visar bra tillförlitlighet. Om antalet relevanta sidor är noll är användbarheten odefinierbar. 16

3 Utvärderingsmodell Utvärderingsmodellen består av totalt nio faktorer som ingår i de två datainsamlingarna: enkät och egen testning. 3.1 Enkät Enkäten är uppdelad i tre avsnitt: bakgrundsfrågor, testfrågor och påståenden. Den omfattar fem faktorer utan inbördes rangordning (sammanställt i tabell 3:1 sist i kapitlet). Bakgrundsfrågor För att få en bakgrundsbild av personers användning av Internet och söktjänster har nedanstående frågor tagits fram (se bilaga 1): 1) Hur ofta använder du Internet? 2) Hur länge har du använt Internet? 3) Hur ofta använder du söktjänster? 4) Hur länge har du använt söktjänster? 5) Vilka söktjänster använder du (med en rangordning från 1-5 där 1 är mest använd)? 6) Vilken/vilka slags information söker du? 7) Uppfyller söktjänster dina förväntningar och behov? Dessa användes även som underlag till vår utvärdering, då högre frekvens av användandet av söktjänster kan ge mer tyngd åt de slutsatser som dras. Testfrågor Faktor 1: Formulering av söksträngar Det finns många olika sätt att skriva en söksträng på och de olika skrivsätten är mer eller mindre effektiva för att få fram önskad information. [6] [13] [14] Söksträngarna består vanligtvis av ett eller flera sökord. För att precisera söksträngen kan ett antal operatorer kompletteras till söksträngen och därmed öka sannolikheten att önskad information kommer med i sökresultatet [6] [13]. I syfte att undersöka hur dessa skrivs bad vi försökspersonerna formulera några söksträngar utifrån ett antal framtagna testfrågor. Frågorna är avsiktligt ställda med syftet att ta reda på hur söktjänsternas operatorer används såsom plus (+) och minus (-) tecken, AND och OR samt citationstecken ( ): Hur skulle du på engelska formulera din söksträng i sökfältet: a) för att få fram information om världens högsta berg? b) för att få fram J.R.R. Tolkiens alla förnamn? c) för att få fram den kända monologen som börjar med To be or not to be? d) för att få fram vegetariska maträtter som inte innehåller vitlök? Svaren på dessa frågor användes för att ta reda på hur bra eller dåligt söktjänsternas sökmotorer hanterar olika söksträngskombinationer, och för att kunna mäta hur relevant informationen blev i de sökresultat som visades i jämförelse med den information som önskades. Genom 17

försökspersonernas egna formuleringar erhölls ett bredare och mer representativt urval till testningen än om vi enbart själva hade utformat egna söksträngar. Eftersom enkätfrågorna band försökspersonerna i hög utsträckning, ingick även en mer öppen fråga, för att ta reda på vilken information de själva tog fram och hur de formulerade sina söksträngar. Det skapade möjlighet att välja ut den mest passande formuleringen inför vår egen testning. 9a) Ange någon specifik information som du själv har tagit fram med hjälp av en söktjänst. 9b) Hur formulerade du din söksträng? Påståenden I enkäten fanns en sektion med ett antal påståenden för att få kunskap om vilka söktjänster personer använder. Dessutom kartläggs vilka sökmetoder de använder och hur de hanterar söksträngar och sökresultat. Svarsalternativen är viktade på en skala från 1 till 6 motsvarande: 1 aldrig 2 mycket sällan 3 sällan 4 ofta 5 mycket ofta 6 alltid Faktor 2: Söktjänster På Internet idag finns ett stort antal söktjänster som är mer eller mindre populära. Med denna faktor utreds vilka av de söktjänster som ingår i utredningen som används mest genom följande påståenden (P). P: Jag använder AllTheWeb P: Jag använder AltaVista P: Jag använder AskJeeves P: Jag använder Google P: Jag använder MSN Search Faktor 3: Sökmetod Många söktjänster erbjuder flera alternativa sätt att söka information. Det mest vanliga sättet är att skriva in en söksträng i ett sökfält. Ett annat vanligt alternativ är att använda avancerad sökning, där sökningen underlättas med hjälp av ett formulär. Då sökfältet och formuläret är gemensamt för de fem söktjänsterna som ingår i undersökningen, utvärderas hur dessa två söksätt används gentemot varandra. P: Jag använder det enkla sökfältet P: Jag använder avancerad sökning 18

Faktor 4: Sammansättning av söksträngar Hur söksträngen formuleras i sökfältet är beroende på vad som eftersöks. Med varierande antal ord går det att precisera frågan och minska antalet sidor i sökresultatet. I en söksträng kan ett eller flera ord anges som passar bäst in på det man letar efter. Resultatlistan kan bli onödigt lång om ord såsom homonymer ingår, vilka har olika betydelser. Ett exempel kan vara att söka på bok - men menas då bok i form av litteratur eller menas trädslaget bok? Vid sökning av trädslaget bok kan både trädslag och bok anges i söksträngen, för att selektera bort de webbsidor som har anknytning till litteratur. Nedanstående påståenden används för att ta reda på vilket av alternativen som är vanligast. P: Jag använder endast ett ord i min söksträng P: Jag använder flera ord i min söksträng Olika typer av operatorer och tecken kan användas tillsammans med flera ord för att precisera sökningen och minimera antalet sidor i resultatlistan. Sill AND potatis hittar länkar till dokument som innehåller båda orden sill och potatis. Sill OR potatis hittar dokument som innehåller antingen sill eller potatis samt de dokument som innehåller båda orden. Plustecken gäller för alla ord som definitivt ska finnas med i en sökning och även för att inkludera stoppord i söksträngen, då det är vanligt att sökmotorer exkluderar stoppord. Genom att skriva ett minustecken framför ordet kan ord som inte ska förekomma uteslutas. En sökning av programmeringsspråket Java kan exempelvis formuleras på följande sätt: Java +och +programmeringsspråk alternativt Java kaffe (om sökningen endast gäller svenska webbsidor). Frassökningar är användbara när t.ex. berömda uttalanden eller specifika namn eftersöks. Ord mellan två citationstecken så här kommer att stå tillsammans i samma ordföljd på sidorna som kommer med i sökresultatet, dock tar vissa söktjänster inte med stoppord som angetts inom citationstecken. Följande tre påståenden används för att analysera vilken variant som används mest: P: Jag använder operatorerna AND och OR i min söksträng P: Jag använder plus (+) och minus (-) i min söksträng P: Jag använder citationstecken i min söksträng Faktor 5: Uppfattat sökresultat Beroende på hur frågan formuleras och hur mycket befintlig information som finns tillgänglig på Internet, kan sökresultatet variera i mängd och träffsäkerhet. Söktjänstens databas innehåller endast ett begränsat antal sidor, och sökresultatet i sin tur innehåller ett antal relevanta sidor där den eftersökta information kan finnas med (se figur 3:1). Likljudande ord 19

Befintlig information på Internet Söktjänstens databas Sökresultat Relevanta sidor Eftersökt information Figur 3:1 Eftersökt information på Internet För att få reda på om personer upplever att de får fram den eftersökta informationen används följande påstående: P: Jag får fram exakt det jag var ute efter i min sökning Länkarna i resultatlistan prioriteras olika av sökmotorer och det framgår inte alltid vilka länkar som är mest relevanta för sökningen. Önskvärt är att det man letar efter förekommer bland de främsta länkarna i sökresultatet. Med de två nedanstående påståendena undersöks hur personer uppfattar att begärd information finns med bland de fem respektive tjugo första länkarna i listan: P: Det jag söker kommer med bland de 5 första länkarna i listan med sökresultat P: Det jag söker kommer med bland de 20 första länkarna i listan med sökresultat Om informationen inte hittas inom rimlig tid finns möjligheten att antingen byta till en annan söktjänst, för att där få ett annat urval i resultatlistan, eller att avbryta sökandet. För att få svar på detta ingår påståenden för att bedöma vilket som är mest brukligt. P: Om jag inte får fram relevant information på en söktjänst letar jag vidare på en annan söktjänst P: Om jag inte får fram relevant information på en söktjänst avbryter jag mitt sökande Söktjänster presenterar ett kort utdrag under varje länk i sökresultatet med text från respektive dokument. Det är intressant att få veta hur stor användning personer har av denna text vid sökningar och för att få kännedom om detta används följande påstående: P: Jag har användning av den text som presenteras direkt under varje länk i sökresultatet. 3.2 Egen testning Relevant information som fås fram på Internet har inte samma träffsäkerhet som vid sökning i strukturerade databaser med formellt frågespråk, där det finns en ekvivalens mellan hämtad och relevant information. [18] 20

Att skriva en söksträng hos en söktjänst ger oftast ett resultat, men det betyder inte nödvändigtvis att relevant information erhålls eller att önskad information finns med. Med fyra faktorer utan inbördes rangordning (sammanställt i tabell 3:2) utreds hur ofta detta förekommer, genom att utföra en egen testning. Faktor 6: Precision - relevans Faktor 7: Precision - träff Precision används för att ta reda på med vilket procenttal en söktjänst kan ta fram relevanta dokument bland antalet hämtade dokument [13] [18]. Utifrån de söksträngar som formulerades utreddes precision för hämtad information hos de olika söktjänsterna. Med dessa två ovanstående faktorer mäts precision för båda kriterierna relevans och träff. Faktor 8: Användbarhet Användbarhet visar proportionen mellan antalet träffar och de relevanta hämtade dokumenten. Med denna faktor utreds användbarheten av sökresultaten hos de olika söktjänsterna utifrån de söksträngar som formulerades. Faktor 9: Sökresultat Vid en sökning kan mängden länkar i sökresultatet variera beroende på hur en sökfråga formulerades. Med denna faktor kartläggs antalet länkar som kommer med i det faktiska sökresultatet. 3.3 Sammanställning Nedanstående tabeller visar en sammanfattning av alla faktorer samt koppling till enkätfrågorna. Enkät Faktor Beskrivning Enkätfrågor Faktor 1: Formulering av söksträngar Hur söksträngar formuleras och hur operatorer nyttjas 8a-8d, 9a-9b Faktor 2: Söktjänster Vilka söktjänster som ingår i utredningen som används mest 10a-10e Faktor 3: Sökmetod Vilket av de två söksätten som är vanligast: det enkla sökfältet 10f-10g eller avancerad sökning Faktor 4: Sammansättning Söksträngarnas beståndsdelar, d.v.s. i vilken utsträckning ett 10h-10l av söksträngar eller flera ord används och hur frekvent operatorer nyttjas. Faktor 5: Uppfattat sökresultat Hur sökresultatet och utdragstexten används, hur relevanta länkarna anses vara samt hur man går till väga om relevant information inte finns med i sökresultatet 10m-10r Tabell 3:1 Sammanställning av faktorerna 1-5 21

Egen testning Faktor Faktor 6: Precision - relevans Faktor 7: Precision - träff Faktor 8: Användbarhet Faktor 9: Sökresultat Tabell 3:2 Sammanställning av faktorer 6-9 Beskrivning Precisionen för kriteriet relevans på söktjänsternas sökresultat Precisionen för kriteriet träff på söktjänsternas sökresultat Användbarheten av sökresultaten Det faktiska sökresultatet 22

4 Datainsamling och utvärdering Datainsamlingen och utvärderingen indelades i två delar där enkäten presenteras i den första delen och egen testning i den andra. 4.1 Enkät De faktorer som utvärderas genom enkäten är: Faktor 1: Formulering av söksträngar - hur söksträngar formuleras Faktor 2: Söktjänster - vilka som används mest Faktor 3: Sökmetod - användning av enkel eller avancerad sökning Faktor 4: Sammansättning av söksträngar - söksträngarnas beståndsdelar Faktor 5: Uppfattat sökresultat - hur sökresultaten upplevs och nyttjas. 4.1.1 Datainsamling Datainsamlingen genomfördes på DSV, som nämnts i kapitel 1.4.3, och för att dela ut 70 enkäter tillfrågades 73 studerande om de hade tid att besvara den. Det tog i genomsnitt ca. tio minuter för en försöksperson att fylla i enkäten och hela datainsamlingen tog drygt två timmar. 67 besvarade enkäter samlades in och ytterligare 1 enkät mottogs en dag senare vilket resulterade i 2 externa bortfall. Vid enkätinsamlingen visade många ett stort intresse för ämnet och önskade få mer kunskap om söktjänster och dess användning. 4.1.2 Utvärdering Bakgrundsfrågor Samtliga försökspersoner använder Internet åtminstone några gånger i veckan och hälften har använt Internet i minst 7 år. Knappt 50% av försökspersonerna använder söktjänster dagligen och 35% några gånger i veckan. 35% av försökspersonerna har dessutom använt söktjänster i över 6 år. Google blev överlägset rankad som mest använd. Därefter kom AltaVista, Yahoo!, MSN Search och Evreka. AllTheWeb och AskJeeves var bland de minst använda söktjänsterna. Den dominerande typen av information som eftersöktes var fakta följt av nöjen och bilder. 63 försökspersoner ansåg att söktjänster uppfyller deras förväntningar och behov. Dock framgick det i tillhörande kommentar att de inte var helt nöjda av följande övervägande anledningar: man får inte alltid det man söker efter man får för mycket information som inte har med sökningen att göra alltför många resultat det tar tid att hitta det man söker efter svårt att veta rätt sökbegrepp 23

Testfrågor Faktor 1: Formulering av söksträngar För enkätens testfrågor iakttogs följande tendenser i försökspersonernas formuleringar av söksträngar: operatorerna AND och OR användes i en mycket liten omfattning citationstecken och plustecken användes relativt flitigt för den fritt formulerade testfrågan (se 9a-b i bilaga 1) valde de flesta försökspersonerna att skriva söksträngen på svenska och det framgick att de hade skilda syften med och krav på vad som eftersöktes Påståenden Enkätens tio påståenden har sammanställts och ett medelvärde har beräknats för att kunna utvärdera dessa. Det interna bortfallet blev mellan 0 och 6 obesvarade per påstående. Detta bortfall bedöms vara acceptabelt och torde inte påverka utfallet i nämnvärd grad. Medelvärdet för vikterna (som nämndes i kapitel 3.1, sidan 18) redovisas i fyra diagram (se figurerna 4:1-4:4). Faktor 2: Söktjänster Av de fem söktjänster som ingår i undersökningen var Google markant populärast bland försökspersonerna och används mycket ofta. Figur 4:1 Försökspersonernas genomsnittliga bedömning av vilka söktjänster de använder mest (internt bortfall: a: 6 st, b: 2 st, c: 6 st, d: 0 st, e: 5 st) Faktor 3: Sökmetod Den sökmetod som används mycket ofta av försökspersonerna är det enkla sökfältet i motsats till avancerad sökning som används mer sällan. 24