Högre kvalitet med automatisk textbehandling?

Storlek: px
Starta visningen från sidan:

Download "Högre kvalitet med automatisk textbehandling?"

Transkript

1 NADA Numerisk analys och datalogi Department of Numerical Analysis Kungl Tekniska Högskolan and Computer Science STOCKHOLM Royal Institute of Technology SE Stockholm, SWEDEN Högre kvalitet med automatisk textbehandling? En utvärdering av SUNETs Webbkatalog Daniel Stolpe 11 februari 2003 TRITA-NA-Eyynn Examensarbete i Datalogi om 20 poäng vid Programmet för teknisk fysik, Kungliga Tekniska Högskolan, januari 2003 Handledare på Nada var Hercules Dalianis Examinator var Stefan Arnborg

2 Sammanfattning De viktigaste verktygen för att hitta information på Internet är webbkataloger och sökmotorer. Detta examensarbete utvärderar kvaliteten på SUNETs Webbkatalog både i egenskap av webbkatalog och jämfört med större sökmotorer som Google. Kvaliteten befanns vara god men jag har undersökt möjligheterna att förbättra kvaliteten och/eller effektiviteten med hjälp av automatisk textbehandling. De undersökta teknikerna inkluderar automatiska kategoriseringsförslag, stavningskontroll, stemming, starkare ordning av sökresultat m.m. Flera av dessa visar sig vara lovande. En helautomatisering av registreringsprocessen skulle inte nå upp till nuvarande kvalitetskrav och kan därför inte rekommenderas. Higher Quality by Automatic Text Processing? An Evaluation of the SUNET Web Catalogue Abstract The main tools for finding information on the Internet are search engines and web catalogues. This Master s thesis evaluates the quality of the SUNET Web Catalogue both as a web catalogue and compared to major search engines, like Google. The quality is found to be good but I have explored the possibilities of using automatic text processing for quality and/or efficiency improvement. Techniques explored include automatic categorization suggestions, spell checking, stemming, stronger ordering of search results etc. Several of those were found to be promising. Full automization of the registration process will not meet the present quality demands and thus cannot be recommended.

3 Tack till Hercules Dalianis för handledning. Kollegorna på KTHNOC för uppmuntran. Katalogens medarbetare för tips och synpunkter. Min fru Anna för allt stöd under arbetets gång.

4 Innehåll 1 Inledning Problemet Uppgiften Metoder Varför? Teoretisk bakgrund kategorisering Sökmotor eller webbkatalog Fördelar,nackdelarochvolymproblem Sökmotorer Webbkataloger Automatiskkategorisering Kategoriseringavsöksvar Bralänkar Unsupervisedmethod Supervisedmethod Kategoriseringochklustring Innehållellersammanhang Representation och likhetsmått Boolesksökning Vektorrymdsmodellen Termviktning Stoppord Stemmingochgrundform Koncept,synonymerochtesaurusar Struktur Kvalitet Sökmotorer Uppgiften Närärettsvarbra? Egnaslutsatser FortuneSmallBusiness... 20

5 3.2 Kataloger Kvalitetsbedömning av Webbkatalogen Sökningikataloger Utvecklingsmöjligheter Rättstavning ortografi Teori Identifikationavfelstavadeord Genereringavtroligarättstavadeord Rangordningavkandidater Isoleradeord Tester och tillämpningar Resultatochtolkning Intressanta iakttagelser Närochmotvad? Rekommendationer Utvärdering av Webbkatalogen Administrationsformuläret Regler Allmänt Rubrik URL Beskrivning Kategorier Nyckelord Namn,e-postochgeografi Arbetsgång Anmälningarikön Felkön Posterikatalogen Kategoriträdet Automatiseringavregistreringsförfarandet Testavautomatiskrubriksättning Resultat Tolkningavrubriksättningsresultaten Kategorisering Automatisering Tidigareforskning Egnanoteringar Slutsatseromkategorisering Beskrivningstexter och nyckelord Kvalitetsgranskning

6 6 Slutsatser 49 Referenser 51

7 Kapitel 1 Inledning - Är SUNETs Webbkatalog 1 bra och hur kan den bli bättre? En verksamhet som inte tål att utvärderas är förmodligen inte värd att driva vidare. När SUNETs Webbkatalog (tidigare känd som WWW-katalog) startades 1993 av Rickard Schoultz vid KTHNOC 2 var World Wide Web bara i startgroparna. I Sverige fanns en handfull webbservrar, främst inom universitetsvärlden. Att göra en katalog över den svenska delen av webben var därför snart gjort. Sedan kom boomen::: Under åren som följde var katalogen ett ständigt växande lapptäcke av nya funktioner, ändringar, tillfälliga lagningar m.m. Först 2000 startades det projekt som gav katalogen en riktig databaslösning, en mer dynamisk kategorihantering och ny layout. När detta projekt avslutades hösten 2002 föll det sig naturligt med en grundlig översyn av verksamheten och omvärlden. 1.1 Problemet Exakt vilken infallsvinkel som skulle användas var långt ifrån självklart men någonstans fanns ändå frågeställningen där är katalogen bra och hur kan den bli bättre? För att kunna svara på en sådan fråga måste förstås ordet bra definieras och det delas då upp i två delar: Internt: är katalogen bra i egenskap av katalog? Externt: är katalogen en bra tjänst jämfört med andra typer av konkurrerande tjänster? Båda dessa aspekter inriktar sig på användarsidan. Från finansiärernas synvinkel är det naturligt att även titta på vad som sker bakom kulisserna: Ekonomiskt: är driften effektiv? KTH Network Operation Centre, som fortfarande driver katalogen åt SUNET. 1

8 En förbättring i den aspekten handlar då om möjligheterna att spara tid och pengar med hjälp av ny teknik. Idealt vore förstås att hitta tekniska lösningar som både höjer kvaliteten och effektiviteten. 1.2 Uppgiften Uppgiften kom att bestå av följande delar: Hitta ett kvalitetsmått för webbkataloger och avgöra i vilken mån SUNETs Webbkatalog lever upp till detta. Jämföra i vilken mån webbkataloger konkurrerar med andra typer av informationstjänster, dvs. sökmotorer. En orientering i vilka tekniska lösningar andra funnit. En utvärdering av hur Webbkatalogen fungerar idag. En analys av hur de funna tekniska lösningarna kan tillämpas i Webbkatalogen, hur kvalitet och effektivitet påverkas osv. Målsättningen var, förutom att besvara frågan om Webbkatalogens kvalitet, att presentera goda förslag till nya projekt. Examensarbetet har utförts vid KTHNOC med Hercules Dalianis från gruppen för språkteknologi som handledare, allt inom Nada, KTH. 1.3 Metoder Uppgiften har väsentligen lösts genom systematisk genomgång av hur Webbkatalogen fungerar idag. För varje moment har jag undersökt möjligheter till automatisering och vilka konsekvenser det skulle medföra. Ett alternativ kunde ha varit att i större utsträckning utföra praktiska försök för att se vad som var bra, men det hade förmodligen tagit för lång tid och därmed skulle utvärderingen riskera att bli ofullständig. 1.4 Varför? Det kan vara på sin plats att redan här förklara att driften av manuellt redigerade webbkataloger innehåller en stor del administration, något som kräver stora personella resurser. Om det gick att automatisera hela registreringsförfarandet skulle det innebära en smärre revolution. Det administrativa arbetet utvärderas i detalj i kapitel 5, medan vinsterna med automatisering tas upp närmare i avsnitt

9 Kapitel 2 Teoretisk bakgrund kategorisering Följande kapitel utgör en teoretisk bakgrund till automatisk kategorisering av webbplatser. 2.1 Sökmotor eller webbkatalog WWW (World Wide Web) har sedan mitten av nittiotalet växt närmast explosionsartat. För att hitta rätt i den informationsdjungel detta resulterat i, behövs någon form av karta. De två viktigaste verktygen är sökmotorer och webbkataloger. Begreppen blandas ofta ihop fastän konstruktionerna är väsentligt olika. En sökmotor innehåller alltid tre delar [9]: En spindel (eng. spider, crawler) som letar igenom nätet och hämtar hem sidorna. En indexerare går igenom sidan och indexerar innehållet (orden). En sökmodul som söker i indexet. (Notera under punkt tre att sökmodulen söker i motorns index och alltså inte på själva nätet). Olika sökmotorer använder sedan olika algoritmer för att avgöra vilka sidor som bäst motsvarar användarens frågor. En webbkatalog å andra sidan är (normalt, det är det vi skall titta närmare på) uppbyggd av en grupp mänskliga kategoriserare. Enligt Attardi et al. [2] ingår åtminstone följande steg: Manuell navigering genom webbplatsen. Extraktion av viktig information, summerad i en beskrivning eller sammanfattning. Kategorisering av webbplatsen inom en befintlig kategoristruktur. 3

10 2.2 Fördelar, nackdelar och volymproblem Såväl sökmotorer som kataloger har börjat få vissa volymproblem [2], sökmotorerna därför att träffarna på vanliga frågor blir för många, webbkatalogerna därför att man inte hinner registrera eller kategorisera alla nya webbplatser. I det första fallet är Alta Vista ett tydligt exempel i början var de ledande, tack vare principen we index it all. Senare blev det ett problem för att söksvaren innehöll för mycket brus [5]. (Både för att man rent allmänt fick för många träffar men även på grund av s.k. sökmotorspamming, dvs. sidor som avsiktligt lagt in irrelevanta nyckelord för att ge träff på så många söktermer som möjligt). På fackspråk brukar man [3], [9], [22] använda begreppen precision (eng. precision) och täckning (eng. recall) där precision definieras som antal relevanta träffar delat med antalet givna träffar och täckning är antal givna relevanta träffar delat med totala antalet möjliga relevanta träffar (mer om detta i avsnitt 3.1.2). Alta Vistas problem kan ses som en alltför hög täckning i förhållande till precisionen 1. (Dessa två storheter står ofta i ett visst motsatsförhållande [4]). Enligt Attardi et al. [2], som i sin tur hänvisar till SearchEngineWatch 2 ledde det till en ny inriktning för Alta Vista we index the best. I takt med att indexet ökar så blir det allt svårare att välja rätt nyckelord. Antingen blir träffarna för många eller för få. Spink och Xu [25] har undersökt sökbeteendet hos användare av Excite 3. Denna undersökning ger vid handen att en sökfråga vanligen är kort i två fall av tre innehåller den maximalt två ord och i fyra fall av fem, maximalt tre ord. Dessutom var det genomsnittliga antalet frågor mindre än tre. Söksvaren är normalt många men användaren nöjer sig med att titta på ett fåtal. Om det visas tio träffar per sida så stannar de flesta på första eller andra sidan. Tålamodet är med andra ord litet, man förväntar sig att hitta det man söker fort. Detta är en klar nackdel för okategoriserade sökmotorer. Den idag ledande sökmotorn, Google 4, är mycket bra på att hitta specifik information (sökning på smala begrepp, allra helst sökningar på t.ex. en specifik artikel, organisation eller webbplats). Tack vare införandet av PageRank [21] har man till viss del kunnat komma ifrån sökmotorspammingen, detta genom att rangordna sidorna efter hur viktiga de kan anses vara, oberoende av sökfrågan. PageRank kan ses som ett framgångsrikt försök att komma till rätta med Alta Vistas tidigare refererade problem. Framförallt vid sökning på vida sökbegrepp kan det vara svårt att hitta rätt i en sökmotor. Dels tenderar träffarna att bli osorterade (och därmed oöverskådliga) och dels finns risken att det/de ord man söker på, helt enkelt saknas på relevanta sidor. En sökning på dagstidningar ger t.ex. knappast träff på sådana. Motsva- 1 Vill man vara riktigt noga så handlade det om för hög fallout, se ekvation 3.3, avsnitt har störst index och exponeras förutom i eget namn även på flera av nätets mest besökta webbplatser, se 4

11 rande sökfråga hos t.ex. SUNET ger dock en hänvisning till kategorin /Massmedia/Dagstidningar. Denna leder till en länklista till svenska dagstidningar som kan visas i bokstavsordning eller på annat sätt, efter användarens önskemål. Trots att SUNETs Webbkatalog är en av de riktiga veteranerna (startades 1993 med länkar till de då mycket få svenska webbresurserna) så kan den ses som något av ett svenskt svar på Yahoo! 5 som kom igång i liten skala 1994 [11]. Kommersialiseringen 1995 bidrog också till att sätta en standard, kanske främst vad gäller kategoristrukturen. Några år senare började ett visst missnöje med Yahoo! grassera. Orsaken var att Yahoo! börjat känna av de volymproblem som nämnts tidigare. Som något av en reaktion [19] lanserades Open Directory Project, ODP ODP:s koncept bygger på det som brukar kallas open source allt är öppet, gratis och alla som vill får vara med och hjälpa till. Med hjälp av ett mycket stort antal frivilliga redaktörer har man snabbt samlat ihop ett stort antal länkar. Svagheten i den metoden är förstås den sannolika risken för inkonsekvens (på grund av antalet redaktörer). För att ytterligare röra till begreppen har flera sökmotorer och webbkataloger börjat samarbeta. Yahoo! låter Google ta hand om de sökningar som inte ger några träffar bland de egna länkarna. Google i sin tur samarbetar med ODP, såtillvida att träffar på någon av ODP:s länkar också presenteras med information om i vilken av ODP:s kategorier den återfinns. (Detta dock via ett eget gränssnitt Google Directory 7 ) Sökmotorer Fördelar med sökmotorer: de kan indexera allt tack vare automatiken är de ständigt någorlunda aktuella Nackdelar med sökmotorer: det är svårt att hitta lagom bredd på sökfrågan de är till liten hjälp vid sökning på vida begrepp de kan vara känsliga för sökmotorspamming Webbkataloger Fördelar med webbkataloger det går att navigera sig fram till rätt ämne

12 sökningar på vida begrepp ger ofta träff på relevanta kategorier mängden träffar eller länkar är någorlunda hanterlig det går att söka i en avgränsad kategori eller subträd Nackdelar med webbkataloger det stora mänskliga inslaget i arbetet är dyrt och risken är stor att man inte hinner med att kategorisera alla nya sidor när en sida väl är kategoriserad kan innehållet ändras vilket gör länken inaktuell Attardi et al. [1] skriver (utan närmare förklaring) att användare har visat sig uppskatta kataloger och att värdet på en katalog beror på följande kriterier (dokument kan här ses som ekvivalent med länkar): Klassifikationskvalitet hur intuitiv, komplett, välordnad och koncis den är. Auktoritet hur vederhäftig användaren anser katalogen vara. Riktighet hur välvald kategoriseringen är för ett visst dokument. Konsekvens huruvida liknande dokument är lika kategoriserade. Aktualitet hur snabbt katalogen återspeglar ändringar i dokumentsamlingen. Kompletthet hur många, av de dokument som är relevanta för en viss kategori, som också listas där. Selektivitet hur relevanta dokumenten i en viss kategori är för just den kategorin. De två sista kriterierna står förstås i ett visst motsatsförhållande. I synnerhet en manuellt uppbyggd katalog förväntas ha vissa kvalitetskrav på de länkar som tas med. Å andra sidan är vissa kategorier av det slaget att kompletthet höjer kvaliteten avsevärt. T.ex. eftersträvar SUNETs Webbkatalog att kategorin /Offentlig förvaltning/kommuner skall länka till alla Sveriges kommuner. 2.3 Automatisk kategorisering Webbkatalogernas svagheter handlar väsentligen om den mänskliga faktorn de kräver stora mänskliga insatser, vilket är dyrt och tidsödande. Dessutom är manuell kategorisering i någon mån alltid subjektiv. Kvaliteten på arbetet är helt beroende av kategoriserarnas skicklighet och det kan inte garanteras att resultatet blir bra. Det är därför naturligt att se om man kunde göra samma sak automatiskt. Attardi et al. [2] räknar upp ett antal vinster det skulle medföra: 6

13 besparingar av mänskliga resurser tätare uppdateringar hantering av större mängder data upptäckt och kategorisering av nya webbplatser utan mänsklig inblandning omkategorisering av redan kategoriserade sidor, då de byter innehåll omkategorisering av redan kategoriserade sidor, då kategoristrukturen ändras Lee och Shin [17] föreslår ännu en sak: automatisk identifikation av nya kategorier Det där lät ju bara positivt men hur går det till i praktiken? Beroende på ambition och omständigheter finns olika sätt att gå till väga Kategorisering av söksvar Om vi utgår från en vanlig sökmotor så är första steget mot katalogisering att kategorisera söksvaren. Resultatet blir dock inte en katalog utan just en utbyggd sökmotor. Dessutom handlar det ofta inte om kategorisering i vanlig mening utan om klustring. Skillnaden är att vid kategorisering finns en fördefinierad kategoristruktur medan klustring handlar om att hitta gemensamma egenskaper i den mängd som skall kategoriseras. Den uppenbara fördelen är att kategorierna (eller snarare klustren) stämmer bra överens med innehållet. En nackdel kan vara att uppdelningen inte känns naturlig för användaren. Den här rapporten är tänkt att företrädesvis behandla kategorisering varför jag hänvisar till t.ex. Rosell [23] för djupare behandling av klustring. Principen är dock i korthet att söksvaren grupperas med avseende på något givet likhetsmått, ofta en vektorrymdsmodell eller termviktningsmodell. En sökmotor som fungerar på det sättet är Vivisimo 8. Hsiao Mase [18] har med viss framgång (runt 85% träffsäkerhet) gjort försök med realtidskategorisering av söksvar. Tanken där var att användaren skulle kunna ange sina egna kategorier. Metoden bygger dock på att man har en stor mängd 9 testdata (se avsnitt 2.3.4) vilket gör att den inte blir lika dynamisk som klustring Bra länkar Chakrabarti et al. [7] har prövat att bygga en kategoriserad länksamling med ett begränsat antal bra länkar (min beteckning) i varje kategori. Principerna bygger på Jon Kleinbergs [14] teorier om hubbar och auktoriteter. En hubb definieras som I det aktuella fallet drygt webbplatser. 7

14 en sida utan information om ämnet i sig, men med länkar till bra information. En auktoritet är en sida med relevant ämnesinformation. Det tillkommer också att en bra hubb är en sida som länkar till många bra auktoriteter. En bra auktoritet är länkad från många bra hubbar. Här tar man alltså hänsyn till länkstrukturen vilket förstås kräver en sökspindel som lagrar alla länkar mellan de aktuella sidorna. För att hitta dessa hubbar och auktoriteter går man tillväga på följande sätt: 1. ställ en välformulerad fråga till en sökmotor (t.ex. Alta Vista) 2. plocka ut de t första länkarna (t=200) i en mängd R (kallad root set) 3. för varje sida i R: lägg till alla eller maximalt d sidor som länkar till eller länkas från denna sida (d=50) vilket ger en utökad mängd S 4. förkasta alla interna länkar (vilket definieras som länkar inom samma domän 10 ) 5. iterera fram de bästa hubbarna och de bästa auktoriteterna Resultatet av den här kategoriseringen blev femton hubbar och femton auktoriteter i varje kategori. Detta liknar mer en traditionell webbkatalog än den förra tekniken, men ändå inte riktigt Unsupervised method De metoder som finns för att kategorisera en mängd sidor efter en given kategoristruktur kan delas upp i två typer (se även avsnitt 2.3.4). I det första fallet börjar vi med en tom kategoristruktur, dvs. utan några förkategoriserade sidor att jämföra med. Den metoden kallas på engelska unsupervised, dvs. ungefär oövervakad eller okontrollerad (i det avseende att vi saknar data att kontrollera med). De här metoderna kräver att man för varje kategori skapar en mall eller kategoriprofil, efter vad man tänker hör hemma just där. De sidor som skall kategoriseras jämförs sedan med profilerna och placeras där de passar bäst. Kategoriprofilen (även kallad deskriptor) kan enligt Attardi et al. [2] beskrivas som en mängd viktade nyckelord och meningar. Dessa kan konstrueras manuellt, automatiskt (jämför Supervised method nedan), med träning, statistik eller neurala nätverk Supervised method I det andra fallet (se även avsnitt 2.3.3) har vi redan från början en mängd kategoriserade data, att jämföra med (se t.ex. Mase [18]). På engelska kallas denna mängd normalt training set dvs. träningsmängd. Med hjälp av något likhetsmått jämför man det som skall kategoriseras, med det som redan är kategoriserat. Det här angreppssättet kallas supervised, eftersom den använder sig av en kontrollmängd. 10 Domän är här lika med den del av en datoradress som står före sista punkten. 8

15 2.3.5 Kategorisering och klustring Lee och Shin [17] startar med en fördefinierad kategoristruktur. De sidor som inte passar i någon lövkategori (som saknar underkategorier), men väl i en inre kategori (sådan som har underkategorier), klustras ihop för att hitta nya lämpliga underkategorier. Man har då tagit hänsyn till att en fördefinierad kategoristruktur riskerar att bli alltför statisk. Nya ämnen som inte passar in i givna kategorier dyker ständigt upp. Vissa kategorier riskerar att svämma över för att alltför många sidor passar in där Innehåll eller sammanhang Det helt dominerande sättet att bedöma en webbsidas kategoritillhörighet vid manuell kategorisering är att titta på innehållet. Detta kanske låter självklart och samma principer används ofta även vid automatisk kategorisering. I det senare fallet är det dock möjligt att med hjälp av en sökspindel även titta på webbsidans sammanhang. Attardi et al. [1] gör antagandet att om en webbsida länkar till ett dokument så innehåller den tillräckligt med information för att få någon att vilja läsa det. Därav dras slutsatsen att kännedom om i vilka sammanhang en sida länkas till, är tillräckligt för kategorisering. En fördel med den här metoden är att sidorna inte vittnar om sig själva (vilket inte alltid är helt tillförlitligt) utan istället tar hänsyn till andras uppfattning. (Det jämförs med baksidestexter på pocketböcker, där positiva recensioner i olika tidningar brukar citeras, för att ge högre trovärdighet). Bl.a. Google använder en variant på detta genom att indexera ankartexten 11. Brin och Page [5] poängterar ytterligare en fördel med den varianten, nämligen möjligheten att indexera annat än text (t.ex. bilder). Noterbart är att metoder som tittar på sammanhang ofrånkomligen i viss mån blir snyltande 12 de använder sig av det arbete andra lagt ner. 2.4 Representation och likhetsmått För att kunna jämföra webbsidor med varandra eller med en mall eller profil måste man först bestämma hur det skall göras och vad likheten innebär. Den här frågeställningen dyker naturligt upp även vid konstruktion av en sökmotor på något sätt måste det ju avgöras vilka sidor som skall ge träff vid en viss fråga Boolesk sökning Det mest grundläggande sättet att söka är med hjälp av Booleska 13 operatorer. (En enkel sökfråga som inte explicit innehåller någon sådan operator tolkas ändå som 11 Det som står mellan <A> och </A> i HTML-koden, dvs. det som är klickbart. 12 Attardi et al. [1] kallar det själva parasitical behavior parasitiskt beteende. 13 Efter George Boole , engelsk matematiker. 9

16 om den gjorde det). Sullivan [26] redogör för hur detta är implementerat i några olika sökmotorer. DeegentligaBooleskaoperatorernaär OR, AND ochnot. Ibland förekommer också den kvasibooleska operatorn NEAR.OmA och B är ord i sökfrågan, definieras de tre första som: A OR B innehåller minst ett av A och B A AND B innehåller både A och B NOT A innehåller inte A Om NEAR används så tolkas A NEAR B som att A och B måste finnas i närheten av varandra. (Hur nära beror på implementation). Som Baeza-Yates och Ribeiro-Neto [3] mycket riktigt påpekar är NOT A, dvs. komplementet till A en närmast obegränsad mängd. De föreslår därför istället operatorn BUT där uttrycket A BUT B innehåller A men inte B. (BUT skall därmed snarast tolkas som but not). Boolesk sökning är i sig själv exakt men oviktad, dvs. den tar inte någon som helst hänsyn till hur vanliga eller viktiga orden är, utan jämför bara binärt om orden i sökfrågan förekommer i dokumentet eller inte. På grund av detta kombineras den ofta med någon form av termviktning, se avsnitt Fördelen med den Booleska modellen är att den är enkel och formellt ren [3]. Nackdelen är att den exakta matchningen kan ge för få eller för många träffar, utan att kunna rangordna dessa. Dessutom kan modellen inte hitta dokument som endast delvis stämmer med sökfrågan Vektorrymdsmodellen En tanke är att representera en text med en vektor med lika många dimensioner som antalet unika ord. Normera längden på vektorn så ger skalärprodukten mellan två sådana vektorer ett likhetsmått. Eftersom det ger cosinus för vinkeln mellan vektorerna kallas det ofta cosine measure. Om ~q är sökfrågan och ~ d j är dokument nummer j så ges likheten (hämtat från Baeza-Yates och Ribeiro-Neto [3]) av: sim(d j ;q)= ~d j ffl ~q j ~ d j j j~qj Ett antal andra varianter på likhetsmått återfinns t.ex. hos van Rijsbergen [22]. Nackdelen med dessa är att det inte görs någon skillnad mellan vanliga eller ovanliga ord. Dessutom är ju sökfrågor i sökmotorer rimligen mycket kortare än texterna i sökindexet, varför en direkt jämförelse lätt blir skev. Enligt Sahami et al. [24] så spelar antalet förekomster av ett ord, över ett visst tröskelvärde, ingen roll. Med det antagandet kan man således välja en binär representation. Om det totala antalet ord är J så blir vektorn då en punkt i hörnet av en J-dimensionell hyperkub. 10

17 En sökning enligt vektorrymdsmodellen returnerar alltid ett svar eftersom något dokument alltid uppfyller kriteriet att maximera likhetsfunktionen ovan. Detta innebär dock inte att det automatiskt är relevant för sökfrågan Termviktning Klustring kan ses som en kombination av likhet och olikhet: medlemmarna av ett visst kluster är inbördes lika, medan övriga element är olika. Baeza-Yates och Ribeiro-Neto [3] kallar detta för intra-cluster similarity och inter-cluster dissimilarity. Samma resonemang kan användas för sökfrågor om de matchande dokumenten ses som ett kluster. Ett vanligt sätt att ta hänsyn till att orden är olika viktiga kallas tf*idf [9], vilket utläses term frequency*inverse document frequency. Den första faktorn ger svar på hur vanligt ett visst ord är i en viss text. Ett ord som är vanligt förekommande i två texter antyder att dessa har en viss likhet. För att detta skall vara meningsfullt krävs dock även att samma ord är mindre vanligt i övriga texter (de som vi ovan klassat som olika). Resultatet av detta är att ord som är vanliga i en viss text (eller på en viss webbsida) men totalt sett är ovanliga, (de har alltså hög idf ) ges hög vikt eftersom de förmodligen har högre signifikans för den aktuella texten, än andra ord (med lägre idf ). Den allra enklaste definitionen av tf ij är antal förekomster av ord i itextj, medan idf i kan tas som totala antalet texter delat med antalet texter där ord i förekommer. Eftersom dessa mått inte tar någon hänsyn till texternas längd använder man ofta olika normaliserade varianter [23] Stoppord Ord med mycket hög eller mycket låg dokumentfrekvens har enligt van Rijsbergen [22] låg signifikans. Ord med mycket hög frekvens, dvs. sådana som finns med på alla eller nästan alla sidor (dvs. låg idf ) kallas stoppord. Det kan vara prepositioner, konjunktioner, räkneord, interjektioner [9]. Om texten innehåller orden och, inte, att så säger det inte mycket om innehållet. Dessa ord filtreras därför ofta bort från vektorrepresentationer och index med hjälp av s.k. stoppordslistor, främst av utrymmesskäl. Ord kan även delas upp i betydelsebärande ord och funktionsord. Enligt van Rijsbergen [22] är förekomsten av funktionsord Poissonfördelad. Sannolikheten att ett funktionsord förekommer n gånger i en text är då: P (n) = e x x n för något x som varierar beroende på ord och för ett givet ord är proportionellt mot textens längd. 11 n!

18 2.4.5 Stemming och grundform En mänsklig betraktare ser lätt att ord av olika böjningsformer eller sammansättningar hör ihop. Ett datorprogram gör dock inte det lika lätt. En tanke är att föra över alla ord till grundform eller ordstammar (eng. stemming). Ingenav dessavarianter är perfekt för om orden förs över till grundform så missas kopplingen i t.ex. substantiverade verb, medan stemming riskerar att koppla ihop ord av helt olika betydelse. Stemming ger olika stor effekt beroende på språk. Enligt Dalianis [9] beror det på hur morfologiskt komplext språket är. Tomlinson [27] visar att precisionen med hjälp av stemming kan förbättras 43% på tyska, 30% på holländska, 18% på franska, 16% på italienska, 12% på spanska och 12% på engelska. Precisionen är då mätt vid vid samma täckning (t.ex. 5, 10 och 20 hittade relevanta dokument). Carlberger et al. [6] visar att stemming på svenska kan ge 15% bättre precision och 18% bättre täckning Koncept, synonymer och tesaurusar Avsnitt tog upp en aspekt av att datorprogram för indexering av ord eller termer endast gör binära jämförelser kontrollerar huruvida ordet finns med eller ej dvs. avståndet mellan två ord är antingen noll eller oändligt. Förutom att olika böjningsformer av ett och samma ord bör räknas just som samma ord, är det inte orimligt att anse att synonymer eller andra på något sätt relaterade ord bör få visst genomslag. Resultatet av ett sådant resonemang blir att jämföra koncept, snarare än enskilda ord. Synonymlexika av olika slag är användbara verktyg vid frågeutvidgning (eng. query expansion) i sökmotorer. Sökfrågan utvidgas då till att även omfatta kända synonymer till de ingående orden. Listorna kan genereras manuellt eller genom olika statistiska grepp i dokumentsamlingen. Om N = totala antalet texter, a = (a 1 ;a 2 ;:::a N ) och b = (b 1 ;b 2 ;:::b N ) är vektorer, svarande mot två olika ord där a i = antal förekomster av ordet a itexti och motsvarande för b i, då är skalärprodukten, ~a ffl ~ b ett mått på korrelationen mellan dessa ord [23]. På så sätt fås ett graderat avstånd mellan olika ord. En mer raffinerad metod (än att bara titta på synonymer) är att använda tesaurusar 14, ett slags standardiserade ordböcker som innefattar relationer mellan orden, eller snarare begreppen. En tesaurus listar enligt Lange [16] inte ord utan ordbetydelser. Den fyller enligt Baeza-Yates och Ribeiro-Neto [3] tre funktioner: a) ett standardspråk för indexering och sökning, b) den hjälper användaren att hitta rätt sökord och c) den tillhandahåller en klassificerad hierarki som möjliggör förfining eller utvidgning av sökfrågor. De olika hänvisningar som finns mellan olika begrepp (eller ordbetydelser, enligt ovan) är vidare begrepp (eng. broader term, BT), smalare begrepp (eng. narrower term, NT) och relaterade begrepp (eng. related term, RT). 14 Av grekiska thesauros skattkammare. 12

19 Om inte textförfattarna använt en tesaurus och därmed tillägnat sig ett kontrollerat språk kan tesaurusen istället bli ett verktyg för att mäta konceptlikhet, även när direkt ordlikhet saknas Struktur En ytterligare beaktansvärd aspekt är webbsidornas struktur. I speciella fall kan man ha att göra med texter på en viss karaktäristisk form (t.ex. tidningstexter, där det viktigaste står först och sedan i fallande ordning) men även i ett så brett område som webbsidor i allmänhet kan man ha viss nytta av strukturen. T.ex. är det tänkbart att ord i olika rubriknivåer är viktigare än de som står i löpande text. 13

20 Kapitel 3 Kvalitet Vad innebär det att något är bra? Bättre eller sämre än något annat? I vilket avseende? För att kunna jämföra saker och ting behövs både mätvärden och skalor. Att definiera en bra och rättvisande skala för informationssökning har inte visat sig helt lätt. Stora ansträngningar har lagts ner på detta område. Även om van Rijsbergens [22] utsaga nu har några år på nacken så stämmer den nog fortfarande ganska bra de flesta som jobbar i branschen är överens om att problemet är långt ifrån löst. 3.1 Sökmotorer Varför ta upp sökmotorer igen, när detta skall handla om webbkataloger? Ett viktigt skäl är att klargöra skillnader och likheter, när de två fenomenen kan jämföras och på vilket sätt de konkurrerar Uppgiften För att utvärdera ett program är det viktigt att definiera vilken uppgift programmet skall utföra och om den också utförs. Som redan tagits upp i avsnitt 2.1 består en sökmotor av en spindel, en indexerare och en sökmodul. Jag tänker inte ge mig på någon närmare utredning av hur spindeln och indexeraren fungerar i detalj, utan jag koncentrerar mig på vad som blir resultatet av helheten: sökfunktionen. En grundtanke är att det för en given sökfråga q returneras en svarsmängd B och att det finns en viss mängd relevanta dokument 1 A. Figur 3.1 illustrerar detta sätt att se på världen. Att definiera q och B är trivialt men hur är det med A? Som van Rijsbergen [22] påpekar är relevans ett subjektivt och dessutom ofta något flytande begrepp. Olika användare kan ha olika syn på ett dokuments relevans, för en och samma fråga. När Baeza-Yates och Ribeiro-Neto [3] beskriver sitt sökande efter information om hur fort en jaguar kan springa, blir detta tydligt. Sökfrågan 1 Ordet dokument är vanligt förekommande inom informationssökning. I fallet sökmotorer kan det ses som ekvivalent med webbplats eller webbsida. 14

21 jaguar speed resulterar i ett antal träffar om bilar, dataspel, amerikansk fotboll mm, som säkert har en viss relevans till sökfrågan i någon aspekt helt utan att ge något svar på den fråga de ville ha besvarad. A B Figur 3.1. Relevanta dokument A, och funna dokument B. Ett slags relevans som beskrivs av van Rijsbergen kan faktiskt sägas vara objektiv och det är logisk relevans. Denna relevans definieras genom logisk konsekvens och frågorna måste kunna formaliseras enligt klassisk logik som P och :P i de enklaste fallen. Jämför detta och satser av typen P ^ Q och P _ Q med Booleska operatorer i avsnitt Om frågan var Är väte en halogen? blir satserna Väte är en halogen ( P ) och Väte är inte en halogen ( :P ) ingående satser. En delmängd av alla lagrade meningar (eller dokument) är en premissmängd till en ingående sats om och endast om den ingående satsen är en logisk konsekvens av denna delmängd. En minsta premissmängd till en ingående sats är minsta möjliga premissmängd i det avseendet att om en av dess medlemmar togs bort skulle den ingående satsen inte längre vara en logisk konsekvens av den resulterande mängden. Ett dokument är logiskt relevant till en sökfråga om och endast om det tillhör en minsta premissmängd av dokument till en ingående sats tillhörande denna sökfråga. Detta kan dock bara ses som ett specialfall med begränsad användning. Normalt brukar man i testsammanhang använda sig av några kända dokumentsamlingar där de rätta svaren är kända [3], [22]. Jämför även med likhetsmåtten som beskrivs i avsnitt 2.4. Av dessa är vektorrymdsmodellen (2.4.2) ett exempel på en graderad relevans, till skillnad från det binära mått som blir resultatet av rent Booleska jämförelser. Järvelin och Kekäläinen [12] påpekar också möjligheten att ett dokument kan vara delvis relevant. Sammanfattningsvis kan uppgiften beskrivas som att för sökfrågan q returnera ett så bra svar B som möjligt När är ett svar bra? Frågan om vilka svar som är bra, hänger förstås tätt ihop med vad som är relevant. Det verkar enkelt att tänka sig att B = A, vore det optimala svaret. Ett bra svar borde då innebära att B är så likt A som möjligt. Det finns olika sätt att uppnå 15

22 detta, t.ex. genom att maximera A B och minimera A B. Jämför med den schematiska översikten i tabell 3.1. Eftersom antalet sökträffar varierar både beroende på hur frågan är formulerad och hur många relevanta dokument det finns om olika ämnen blir det mer rättvisande med en normalisering. Beroende på vad man normaliserar mot får man olika typer av mått: Normalisering av antalet funna och relevanta dokument mot totala antalet funna dokument Precision = ja Bj jbj (3.1) ger ett mått som premierar förmågan att filtrera bort irrelevanta dokument ur söksvaret. Om man istället normaliserar mot totala antalet relevanta dokument Recall = ja Bj jaj (3.2) fås ett mått som betonar förmågan att returnera så många relevanta svar som möjligt. Som alternativ till ekvation 3.1 kan antalet irrelevanta funna dokument normaliseras mot totala antalet irrelevanta dokument Fallout = ja Bj jaj (3.3) mäts istället förmågan att filtrera bort irrelevanta dokument ur dokumentsamlingen. Tabell 3.1. Schema över relevans/icke-relevans, funna eller ej. N är totala antalet dokument i samlingen. Efter van Rijsbergen [22]. Relevanta Ej relevanta Funna A B A B B Ej funna A B A B B A A N Att engelska beteckningar används i ekvationerna beror på att riktigt bra svenska översättningar saknas. Precision kan förstås lika gärna vara svenska. Den betydelse av engelskans recall som ligger närmast till hands här är minne eller hågkomst. Om en person återger den information hon inhämtat är recall ett mått på hur mycket hon kommer ihåg 2. En annan översättning som också används i avsnitt 2.2 är täckning, vilket även det ger en bild av vad det rör sig om hur väl svaret täcker in mängden relevanta dokument. Fallout betyder biverkningar eller sidoeffekter och är förstås något som helst skall vara så lågt som möjligt, idealt noll. Av de här enkelt definierade begreppen har de flesta fastnat för att precision/recall är ett bra mått på prestanda. Att ange t.ex. 80% precision på en sökfråga som returnerat svar säger dock inte särskilt mycket mer än att 200 träffar saknar 2 Jämför med uttrycket total recall perfekt minne. 16

23 relevans. Som redan antytts är det vanligt att relevans mäts graderat och att sökträffarna rangordnas med avseende på grad av relevans. Då användaren i exemplet ovan knappast orkar leta igenom samtliga träffar kan det vara rimligare att ange precision vid en viss recall. Antag att en sökfråga q returnerat svaren B q = fb 1 ;b 2 ;b 3 ;:::b 40 g och att det finns relevanta dokument A q = fa 1 ;a 2 ;a 3 ;a 4 ;a 5 g. Antag för enkelhetens skull vidare att A q B q (dvs. för hela B q har vi 100% recall) och A q = fb 1 ;b 3 ;b 7 ;b 12 ;b 37 g. Detta kan då plottas som i figur 3.2. För att få en mer generell bild tas ett medelvärde över flera sökfrågor [3], [22]. 120 P/R kurva Precision/% Recall/% Figur 3.2. Precision som funktion av recall (täckning). Baeza-Yates och Ribeiro-Neto föreslår två andra presentationssätt: medelprecision efter sedda dokument och R-precision. I exemplet ovan är precisionen efter varje nytt relevant dokument 1; 0.67; 0,43; 0,33 och 0,14. Medelvärdet blir då 0,51. Om totala antalet relevanta dokument jaj = R så tas precisionen efter det R:te hittade dokumentet. I exemplet ovan är R =5och precisionen för de 5 första träffarna är 2=5 =0; 4. Är det här bra då? Precision/recall har som tidigare nämnts fått stort genomslag men det finns trots detta en rad invändningar. Baeza-Yates och Ribeiro-Neto nämner följande: 1. För att kunna avgöra maximal recall krävs detaljerad kunskap om hela dokumentsamlingen. För så stora datamängder som Internet är det inte rimligt. Det måste bli en ungefärlig uppskattning av något slag. 2. Precision/recall är relaterade mått som fångar olika aspekter av sökresultatet. Det vore ofta bättre att ha ett enda mått. 17

24 3. De här måtten tas på svaret från en enskild fråga. I moderna system är interaktion viktig. Det kan krävas flera steg att nå fram till rätt resultat. Det kan då vara mer relevant att mäta hur informativt systemet är. 4. Definitionen och inte minst de visade tillämpningarna förutsätter en linjär ordning av sökträffarna. Det kan passa sämre för system med en svagare ordning. När det gäller punkt 1 så kan man mäta relativ recall om man jämför flera sökalgoritmer med samma frågor på samma dokumentsamling. I jakten på ett alternativ enligt punkt 2 för van Rijsbergen fram en rad alternativ: S = P + R (3.4) BK = P + R 1 (3.5) Q = R F R + F 2RF (3.6) V = 1 1 2( 1 P )+2(1 R ) 3 (3.7) 1 E = 1 (3.8) 1 2 ( 1 P )+ 1 2 ( 1 R ) I ekvationerna och även fortsättningsvis, om inget annat anges, är P =precision, R =recall och F =fallout, enligt ekvationerna Ekvation 3.8, det s.k. E measure kan härledas från tabell 3.1 igen. Om vi tar sikte på idealfallet A = B blir avvikelsen från detta tillstånd ett naturligt mått. Den del av A och B som inte är gemensam är A 4 B = A [ B A B, dvs. den symmetriska differensen. Normalisera detta mot den totala mängden av A och B så får vi: ja 4 Bj E = (3.9) jaj + jbj vilket är samma sak som ekvation 3.8. Observera att denna funktion skall minimeras. Genom att införa parametern ff (ekvation 3.10) kan man välja vilken av P och R som skall prioriteras (ekvation 3.11). Med fi istället fås den form som refereras av Baeza-Yates och Ribeiro-Neto (ekvation 3.12). ff = 1 fi 2 +1 (3.10) 1 E = 1 ff( 1 P )+(1 (3.11) ff)( 1 R ) E = 1 fi P + fi2 R De senare föreslår som alternativ det harmoniska medelvärdet, F hm 3. 2 F hm = 1 P + 1 R 3 Ej att förväxlas med F som i fallout, i t.ex. ekvation 3.6 (3.12) (3.13) 18

25 Järvelin och Kekäläinen [12] påpekar att dokument med högre relevans är mer värdefulla för användaren, än sådana med en lägre grad av relevans. På grund av att sannolikheten att användaren alls skall titta på ett dokument minskar för varje placering längre ner i söksvaret, föreslår de ett mått kallat cumulated gain eller ungefär ackumulerad vinst. De använder då ett graderat (0 till 3 poäng) relevansmått där mycket relevanta dokument ges tre poäng, ganska relevanta dokument två poäng, marginellt relevanta dokument en poäng och resten (irrelevanta dokument) noll poäng. Dessa poäng förs in i en vinstvektor G där G(i) = antal poäng för dokumentet rankat i söksvaret på plats i.t.ex.: G =(3; 2; 3; 0; 0; 1; 2; 2; 3;:::) Då kan vi införa ackumulerad vinstvektor CG(i) som definieras rekursivt enligt: CG(i) = ( G(1) om i =1 CG(i 1) + G(i) annars Därefter viktas poängen ner efter placering i söksvaret. Då en linjär viktning anses för brant väljs istället en logaritmisk vikt. Vilken bas b som skall användas kan ställas in efter tålamod. DCG(i) = 8 < : G(1) om i =1 DCG(i 1) + G(i) log i annars Detta mått premierar alltså system som förmår presentera dokument med hög relevans tidigt i söksvaret. Det kan ses som en mer graderad och mer viktad variant på R-precision, beskrivet på sidan 17. Ett annat besläktat mått som först föreslogs av Cooper 4 presenteras av van Rijsbergen [22]: expected search length (ESL) eller förväntad söklängd, där längden syftar på det arbete man behöver lägga ner för att hitta det man söker. Coopers grundtes var att det primära syftet med ett informationshanteringssystem är att i så hög utsträckning som möjligt bespara användarna arbetet med att undersöka och förkasta irrelevanta dokument i jakt på relevanta dokument. Det sökta måttet blir därmed denna besparing, vilken kan jämföras med det arbete man kunde förväntas behöva lägga ner vid en slumpmässig genomgång av dokumentsamlingen. En viktig tanke hos Cooper är också uppdelningen i olika frågetyper beroende på informationsbehov: användaren kan tänkas leta efter 1 relevant dokument, ett godtyckligt antal n dokument, alla relevanta dokument osv. Om informationsbehovet var n relevanta dokument så definieras söklängden som antalet irrelevanta dokument som måste undersökas innan behovet är tillgodosett (dvs. innan n relevanta dokument hittats). Om rankningen inte är strikt linjärt ordnad, utan systemet ordnat funna dokument i nivåer med flera (förmodat 4 COOPER, W.S. 1968: Expected search length: a single measure of retrieval effectiveness based on weak ordering action of retrieval systems. Journal of the American Society for Information Science. Vol. 19. Sidor

26 lika relevanta) dokument i varje nivå, beräknas rimligen istället ett väntevärde. (Se t.ex. van Rijsbergen [22] för en mer utförlig beskrivning). Därmed kommer man runt punkt 4 på sidan 18. En viktad variant på detta, med avseende på informationsbehov och tätheten i relevanta dokument för den aktuella frågan fås genom att jämföra med expected random search length (ERSL) vilket kan definieras som: ERSL n jaj = (3.14) jaj +1 där A definieras enligt tabell 3.1 och n är det efterfrågade antalet dokument, relevanta till sökfrågan q. Den förväntade vinsten kan sedan skrivas som: Expected search length reduction factor = Egna slutsatser ERSL(q) ESL(q) ERSL(q) (3.15) Vad resonemanget i föregående avsnitt försökte visa var att kvalitetsmätning av sökmotorer och liknande informationshanteringssystem är ett svårt ämne. Man måste definiera vad det egentligen är man vill mäta men även bedöma om själva måttet är bra. Cooper sätter fingret på en viktig punkt när han påpekar att det finns olika frågetyper baserat på informationsbehov. För en frågeställning av den typen Är väte en halogen? som diskuterades i avsnitt räcker ju ett (av säkert flera) bra svar, B A. En annan typ av mycket specifik fråga gäller sökandet efter en specifik artikel eller webbplats B = A; jaj = 1. Frågan kan också gälla samtliga museer i Stockholm (jaj = N, för användaren okänt antal), där samliga dessa men inget annat efterfrågas. En bra sökmotor tillgodoser användarens informationsbehov, utan onödigt brus. Ett bra söksvar innehåller relevanta dokument, inbördes sorterade efter relevans. Precision/recall är ett ganska trubbigt mått för dels är recall ibland helt ointressant (t.ex. när det räcker med ett bra svar, eller när sökfrågan är så bred att antalet relevanta träffar är mycket stort) och i de fall då enstaka eller ett fåtal träffar är tillräckligt, är precision i hela svaret mindre betydelsefullt. Ackumulerad vinst kan med fördel användas för att utvärdera olika sökfunktioner på samma datamängd. DCG(5) eller DCG(10) kan ge ett bra mått på informationen i de 5 eller 10 första träffarna Fortune Small Business För att ge en bild av vad användarna egentligen bedömer vill jag referera till en artikel i nättidningen Fortune Small Business [20], kallad Grading the Search Engines, dvs. betygssättning på sökmotorer. De testade AllTheWeb.com, Google.com, MSN.com, Overture.com, Teoma.com, WiseNut.com och Yahoo.com (namnen enligt den form de förekom i artikeln och webbadresserna förstås på samma sätt) och målet var att hitta den bästa sökmotorn. Samma sökfrågor (vissa innehållande 20

27 avsiktliga felstavningar, bindestreck, flertydiga ord eller frågor på naturligt språk) ställdes samtidigt till alla sökmotorer och därefter bedömdes kvaliteten på de tio första träffarna, organisation och struktur, avancerad sökning och extra finesser. Vinnare blev kanske lite överraskande Yahoo! (som alltså använder Googles sökmotor, se avsnitt 2.2, sidan 5). Utmärkande var framförallt att länkarna är försedda med en ordentlig rubrik, en kort precis beskrivning samt en kategorihänvisning kort sagt, att det egentligen är en webbkatalog::: 3.2 Kataloger Det förtjänar att upprepas att webbkataloger inte är sökmotorer. Vad som hänt de senaste åren 5 är dock att fler och fler samarbeten dykt upp, t.ex. Google & ODP, Yahoo! & Google 6 och AltaVista & LookSmart. Varför det blivit så och vad som kännetecknar en bra katalog skall här utredas något närmare Kvalitetsbedömning av Webbkatalogen Redan i avsnitt nämndes ett antal kriterier från Attardi et al. [1] på vad som kännetecknar en bra webbkatalog, just som katalog. Hur väl uppfyller SUNETs webbkatalog dessa? Klassifikationskvalitet hur intuitiv, komplett, välordnad och koncis den är. Det här gäller kategoristrukturen som är en hierarkisk trädstruktur med 16 rötter, ursprungligen inspirerad av Yahoo!. För att bli mer intuitiv finns ett antal symboliska korslänkar mellan olika delar av träden. Som exempel kan nämnas Danssport dvs. tävlingsdans. Skall man då leta under Dans eller under Sport? Kategorin visar sig ligga som /Nöjen och fritid/dans/danssport men kan lika gärna nås som /Nöjen och fritid/sport/danssport. För att hålla strukturen komplett har något som kan liknas vid organisk tillväxt tillämpats när en kategori blir för stor delas den upp i underkategorier. Det kan också vara så att en ny länk inte passar in i någon befintlig kategori. Om den representerar ett tillräckligt väldefinierat ämnesområde kan det räcka för att skapa en ny kategori. Se även avsnitt 5.4. Beskrivningstexter på kategorisidorna är tänkta att förtydliga strukturen. Som extra finess kan kategorierna inte bara sorteras i bokstavs- eller datumordning. Länkarna kan även ordnas eller sållas efter geografisk hemvist. Det sistnämnda alternativet, som även innehåller en zoomfunktion är en slags virtuell finkategorisering som inte minst är användbar i kategorier med många länkar, vilka annars är svåra att överblicka. Auktoritet hur vederhäftig användaren anser katalogen vara. 5 En utveckling som pågått åtminstone sedan 1996 då Inktomi, började förse olika portaler med sökmotorer. 6 Precis före julen 2002 rapporterades att Yahoo! istället köper Inktomi. 21

28 I kraft av ålder startades 1993, när WWW nätt och jämnt fanns i Sverige, kopplingen till den akademiska världen och SUNETs/KTHNOCs namn inom Internet i Sverige (SUNET var det första IP-nätet i Sverige och från början styrdes det mesta från eller via SUNET/KTHNOC) gör att auktoriteten får anses hög. Att katalogen är helt fri från reklam ger förmodligen ett seriöst intryck. (Annars finns alltid misstanken att det går att köpa sig bättre exponering). Riktighet hur välvald kategoriseringen är för ett visst dokument. Här sätts det manuella arbetet på prov. Tydliga definitioner och hög noggrannhet krävs. Ibland kan en dialog med branschfolk vara givande, för att reda ut hur ett ämnesområde bäst delas upp. Att anmälarna meddelas om beslutad kategorisering och har möjlighet att överklaga beslut, ger goda möjligheter till en riktig bedömning. Om katalogen står fast vid ett fattat beslut bör det kunna motiveras. Konsekvens huruvida liknande dokument är lika kategoriserade. Det här kan innebära vissa svårigheter. Det finns gränsdragningar som kan vara svåra att uppfatta. Varför ligger t.ex. vissa författare under /Näringsliv/Arbete/Författare och andra under /Kultur/Litteratur/Författare? Svaret är att den förra kategorin är avsedd för svenska aktiva författares egna webbplatser, även för kommersiella syften, medan den senare kategorin är ämnad för övriga författare och därmed väsentligen innehåller författarporträtt och sidor av biografisk natur. Andra orsaker till inkonsekvens beskrivs i avsnitt Att vissa företeelser riskerar att kategoriseras inkonsekvent beror normalt på att de har beröringspunkter med flera kategorier (dvs. de kan passa in på flera håll) samt att det är flera personer som arbetar med kategorisering vilket alltid innebär en risk för olika bedömning. Att kategoriseringsbeslutet ändå ligger helt i händerna på den egna personalen och att av anmälarna föreslagen kategorisering endast är ett förslag, möjliggör ändå en konsekvent behandling. För att minimera riskerna för inkonsekvent kategorisering är det viktigt med tydliga riktlinjer. Det gäller då inte bara kategoridefinitioner som tidigare nämnts utan även att man gör en samlad bedömning av svårplacerade företeelser. Aktualitet hur snabbt katalogen återspeglar ändringar i dokumentsamlingen. Detta knyter an till den tröghet som nämns i avsnitt under punkt 8 på sidan 37. Att inte ta in länkar av kortvarig natur, underlättar arbetet med att hålla katalogen aktuell. Värre är det med den nackdel som nämns i avsnitt 2.2.2: att innehållet ändras efter registrering och kategorisering. Att manuellt granska samtliga länkar fortlöpande låter sig inte göras utan en mycket stor arbetsinsats med motsvarande lönekostnader. Istället används två automatiska verktyg. Sedan hösten 1996 kontrolleras nåbarheten för samtliga länkar i katalogen, tre gånger per vecka. För en länk som vid upprepade tillfällen inte fungerar väntar följande åtgärder: två misslyckade försök leder till en varning via e-post, fyra misslyckade försök renderar en ny varning samt att länken göms (inte längre visas i katalogen, men finns 22

Innehåll. Informationssökning språkteknologiska hjälpmedel

Innehåll. Informationssökning språkteknologiska hjälpmedel Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är

Läs mer

Hur man hjälper besökare hitta på en webbplats

Hur man hjälper besökare hitta på en webbplats Forskare vid Stockholms Universitet ger råd Hur man hjälper besökare hitta på en webbplats Av: Jacob Palme Filnamn:URL: http://dsv.su.se/jpalme/web-structure/hitta-webben.pdf Senast ändrad: 04-02-19 11.43

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Klustring av svenska tidningsartiklar

Klustring av svenska tidningsartiklar Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier

Läs mer

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING. Av Erik Lindgren 810110-8218 soft@kth.se

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING. Av Erik Lindgren 810110-8218 soft@kth.se 2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING Av Erik Lindgren 810110-8218 soft@kth.se SAMMANFATTNING Föreliggande uppsats behandlar ämnet sökmotoroptimering.

Läs mer

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska

Läs mer

Att söka information (med betoning på Internet)

Att söka information (med betoning på Internet) Att söka information (med betoning på Internet) - en sökguide för distansstuderande 1. Var finns informationen? 2. Hur söker man? Sökstrategier 3. Olika informationskällor, hjälpmedel vid informationssökning

Läs mer

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV! GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV! GRATIS SEO, SÖKOPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV! INNEHÅLL Introduktion 3 Varför det är nödvändigt att tänka på SEO 4 SEO-tips för planering

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Tillämpad programmering CASE 1: HTML. Ditt namn

Tillämpad programmering CASE 1: HTML. Ditt namn Tillämpad programmering CASE 1: HTML Ditt namn 18 [HTML] Din handledare vill se din skicklighet i att använda HTML-koden. Du ska utveckla en webbplats om ditt intresse, inriktning eller gymnasiearbete.

Läs mer

Söka, värdera, referera

Söka, värdera, referera KTH ROYAL INSTITUTE OF TECHNOLOGY Söka, värdera, referera Ika Jorum, jorum@kth.se Definiera Vad behöver jag veta? Kommunicera Citera och argumentera korrekt Hitta Var och hur kan jag hitta information?

Läs mer

http://www.youtube.com/watch?v=jpenfwiqdx8

http://www.youtube.com/watch?v=jpenfwiqdx8 http://www.youtube.com/watch?v=jpenfwiqdx8 1 Sökmotoroptimering SEO En introduktion för webbredaktörer 2 Agenda Var är vi på väg? Hur fungerar sökmotorer? Hur går det till när jag söker? Hur hänger det

Läs mer

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi. Sökplan TDDD39 Perspektiv på informationsteknologi Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi. Anvisningar Sökplanen påbörjas

Läs mer

Checklista. 10 saker du behöver ha på plats för SEO 2019

Checklista. 10 saker du behöver ha på plats för SEO 2019 Checklista 10 saker du behöver ha på plats för SEO 2019 2/9 Rom byggdes inte på en dag, och det gör heller inte din hemsidas synlighet i sökmotorer. För detta krävs det sökmotoroptimering (Search Engine

Läs mer

Optimering av webbsidor

Optimering av webbsidor 1ME323 Webbteknik 3 Lektion 7 Optimering av webbsidor Rune Körnefors Medieteknik 1 2019 Rune Körnefors rune.kornefors@lnu.se Agenda Optimering SEO (Search Engine Optimization) Sökmotor: index, sökrobot

Läs mer

Sök artiklar i databaser för Vård- och hälsovetenskap

Sök artiklar i databaser för Vård- och hälsovetenskap Sök artiklar i databaser för Vård- och hälsovetenskap Bibliografiska databaser eller referensdatabaser ger hänvisningar (referenser) till artiklar och/eller rapporter och böcker. Ibland innehåller referensen

Läs mer

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per.

Sökmotoroptimering. Per Svanström SMM. Online Communication Manager. Web Intelligence. /persvanstrom /in/persvanstrom /profiles/per. Sökmotoroptimering SEO SEM Per Svanström Online Communication Manager SMM Web Intelligence /persvanstrom /in/persvanstrom /profiles/per.svanstrom www.knowit.se Copyright 2011 294 miljarder epost skickas

Läs mer

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se Tänk kreativt! Informationssökning Ha ett kritiskt förhållningssätt! Informationssökning steg för steg Innan du börjar behöver du formulera en fråga. Vad vill du hitta information om? Att utgå från: -

Läs mer

WEBBKLUSTRING SLUTRAPPORT

WEBBKLUSTRING SLUTRAPPORT Arne Jönsson 2014-01-09 WEBBKLUSTRING SLUTRAPPORT 1. Inledning Inom projektet har vi utvecklat teknik som gör det möjligt att identifiera webbsidors innehåll och därefter klustra (gruppera) dem så att

Läs mer

http://www.sm.luth.se/~andreas/info/howtosearch/index.html

http://www.sm.luth.se/~andreas/info/howtosearch/index.html & ' ( ( ) * +, ', -. / ' 0! 1 " 2 # 3 / /! 1 $ 4, % 5 # 3, http://www.sm.luth.se/~andreas/info/howtosearch/index.html Andreas Tips och trix till sökningar i Cyberrymnden Här försöker jag att gå igenom

Läs mer

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd

Läs mer

Biblioteken, Futurum 2017

Biblioteken, Futurum 2017 Biblioteken, Futurum 2017 Om PubMed PubMed innehåller mer än 27 miljoner referenser till tidskriftsartiklar inom biomedicin, omvårdnad, odontologi m.m. PubMed är fritt tillgänglig men om du använder länken

Läs mer

Sammanfattning av informationssökning VT19

Sammanfattning av informationssökning VT19 729G19 Tillämpad kognitionsvetenskap Sammanfattning av informationssökning VT19 För godkänt projekt på kursen 729G19 skall man haft ett handledningstillfälle i informationssökning och sammanfattning av

Läs mer

SEO Sökmotoroptimering

SEO Sökmotoroptimering SEO Sökmotoroptimering Aaron Axelsson Presentation Head of SEO på Brath sedan 3 år Tidigare flera byråer i Sverige Head of SEO inom gambling Började som pokerskribent 2007 SEO sedan 2010 Sökmotoroptimering

Läs mer

Sö ka litteratur i ERIC

Sö ka litteratur i ERIC 1 Sö ka litteratur i ERIC Det finns två ingångar om man vill söka i databasen ERIC: Via webben gratis version från the Education Resources Information Center: Denna version kan vara bra att känna till

Läs mer

Snabbguide till Cinahl

Snabbguide till Cinahl Christel Olsson, BLR 2008-09-26 Snabbguide till Cinahl Vad är Cinahl? Cinahl Cumulative Index to Nursing and Allied Health Literature är en databas som innehåller omvårdnad, biomedicin, alternativ medicin

Läs mer

WEBB365.SE. Hur skriver man sökmotoroptimerade texter

WEBB365.SE. Hur skriver man sökmotoroptimerade texter Hur skriver man sökmotoroptimerade texter Introduktion Det finns mycket man kan göra för att lyckas på nätet och att skriva sökmotoroptimerade texter är definitivt en av de viktigare. I korta ordalag kan

Läs mer

Googles sidrankning - linjär algebra värt en förmögenhet

Googles sidrankning - linjär algebra värt en förmögenhet Googles sidrankning - linjär algebra värt en förmögenhet Outline 1 Sökmotorer 2 Grafteori Linjär algebra 3 Målet Utifrån användarens sökord lista de mest relevanta webbsidorna. Dessutom i en ordning som

Läs mer

Sökmotormarknadsföring

Sökmotormarknadsföring Sökmotormarknadsföring Kenth Johansson kejo@tomegroup.se Bakgrund Sökmotorer Sökmotoroptimering Hitta rätt nyckelord Hur får jag fler klick på min sida i sökresultatet? Genomgång av några verktyg Sökmotorannonsering

Läs mer

Projekt Intelligent Indexering

Projekt Intelligent Indexering Projekt Intelligent Indexering Uppdragsgivare: Harald Kjellin, Institutionen för Data och Systemvetenskap, KTH Deltagare i projektgruppen: Biörklund, Mathias webside ansvarig Erneholm, Mattias vice projektledare

Läs mer

Logik. Dr. Johan Hagelbäck.

Logik. Dr. Johan Hagelbäck. Logik Dr. Johan Hagelbäck johan.hagelback@lnu.se http://aiguy.org Vad är logik? Logik handlar om korrekta och inkorrekta sätt att resonera Logik är ett sätt att skilja mellan korrekt och inkorrekt tankesätt

Läs mer

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare Fibonacci / översättning från engelska IBSE Ett självreflekterande(självkritiskt) verktyg för lärare Riktlinjer för lärare Vad är det? Detta verktyg för självutvärdering sätter upp kriterier som gör det

Läs mer

Mall för en kortare rapport/uppsats

Mall för en kortare rapport/uppsats Mall för en kortare rapport/uppsats Detta dokument beskriver vad som ska ingå i en kortare vetenskaplig rapport. Du kommer att skriva rapporter på denna form i ett antal kurser under din utbildning, t.ex.

Läs mer

Mälardalens högskola

Mälardalens högskola Teknisk rapportskrivning - en kortfattad handledning (Version 1.2) Mälardalens högskola Institutionen för datateknik (IDt) Thomas Larsson 10 september 1998 Västerås Sammanfattning En mycket viktig del

Läs mer

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4 Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 014-015 Denna lektion ska vi studera rekursion. Lektion 4 Principen om induktion Principen om induktion är ett vanligt sätt att bevisa

Läs mer

Framsida På framsidan finns:

Framsida På framsidan finns: Framsida På framsidan finns: Rubriken på hela arbetet Namnet på den eller de som gjort arbetet Klass Någon form av datering, t.ex. datum för inlämning eller vilken termin och vilket år det är: HT 2010

Läs mer

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter. Sid 1 (6) Skriva för webb Att skriva för webben handlar om att skriva kort och enkelt för att fånga läsaren. Relevant innehåll Fundera över vad läsaren vill veta. Skriv för målgruppen. Sovra i materialet.

Läs mer

Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder

Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder Att utnyttja semantiska länkstrukturer vid sökning i hyperlänkade dokumentmängder Adam Blomberg d98-abl@d.kth.se Abstract Genom att analysera inte enbart individuella dokument och dess textinnehåll utan

Läs mer

Manual HSB Webb brf 2004 03 23

Manual HSB Webb brf 2004 03 23 TERMINOLOGI I Polopoly används ett antal grundläggande begrepp för publicering och hantering av information, eller innehåll som det också benämns. Nedan följer en kort genomgång av denna grundläggande

Läs mer

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som

Läs mer

Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet

Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet Titel på examensarbetet på två rader Dittnamn Efternamn Examensarbete 2013 Programmet Titel på examensarbetet på två rader English title on one row Dittnamn Efternamn Detta examensarbete är utfört vid

Läs mer

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek Informationssökning - att söka och finna vetenskapliga artiklar! Mikael.Rosell@liu.se 013-282248 Linköpings Universitetsbibliotek 2 FEM saker ni SKA ta med er härifrån! Välja ut och använda relevanta databaser

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Söka artiklar i CSA-databaser Handledning

Söka artiklar i CSA-databaser Handledning På Malmö högskola har vi flera databaser via CSA, bl.a. Sociological Abstracts, Social Services Abstracts, ERIC och PsychInfo, det betyder att gränssnittet för dessa databaser ser likadana ut. Om du har

Läs mer

1 Duala problem vid linjär optimering

1 Duala problem vid linjär optimering Krister Svanberg, april 2012 1 Duala problem vid linjär optimering Detta kapitel handlar om två centrala teoretiska resultat för LP, nämligen dualitetssatsen och komplementaritetssatsen. Först måste vi

Läs mer

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel. Euroling SiteSeeker Sökning som en tjänst för webbplatser, intranät och e-handel. Euroling and SiteSeeker SiteSeeker högpresterande sökplattform Webbplatser, intranät och e-handel som en Appliance eller

Läs mer

Ekvivalensrelationer

Ekvivalensrelationer Abstrakt datatyp för disjunkta mängder Vi skall presentera en abstrakt datatyp för att representera disjunkta mängder Kan bl.a. användas för att lösa ekvivalensproblemet avgör om två godtyckliga element

Läs mer

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I 13 NOVEMBER 2012 Idag ska vi titta på: Sökprocessen: förberedelser inför sökning, sökstrategier Databaser: innehåll, struktur Sökteknik:

Läs mer

WEBBLÄTTLÄST SLUTRAPPORT

WEBBLÄTTLÄST SLUTRAPPORT Arne Jönsson 2012-07-23 WEBBLÄTTLÄST SLUTRAPPORT 1. Inledning Inom projektet WebbLättLäst har vi utvecklat teknik för att automatiskt rangordna svenska webbsidor efter hur läsbara de är. Detta gör att

Läs mer

Internets historia Tillämpningar

Internets historia Tillämpningar 1 Internets historia Redan i slutet på 1960-talet utvecklade amerikanska försvaret, det program som ligger till grund för Internet. Syftet var att skapa ett decentraliserat kommunikationssystem som skulle

Läs mer

YAHOO! SEARCH MARKETING Tips för att öka trafiken

YAHOO! SEARCH MARKETING Tips för att öka trafiken YAHOO! SEARCH MARKETING Tips för att öka trafiken Vill du hitta fler sätt att öka trafiken till din webbplats? På de här sidorna hittar du 25 tips som hjälper dig att locka kunder till din webbplats. Prova

Läs mer

Avtalsform Ramavtal & enstaka köp Namn Söktjänst

Avtalsform Ramavtal & enstaka köp Namn Söktjänst Sveriges Radio AB Utvärdering Ekonomiskt mest fördelaktigt Helt anbud Avtalsform Ramavtal & enstaka köp Namn Söktjänst Diarie SR 1332 Ansvarig upphandlare Catherine Finér Detta dokument är en kopia på

Läs mer

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Litteraturstudie Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Vad är en litteraturstudie? Till skillnad från empiriska studier söker man i litteraturstudier svar på syftet

Läs mer

Automatisk textsammanfattning

Automatisk textsammanfattning Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

So ka artiklar och annan litteratur

So ka artiklar och annan litteratur 1 So ka artiklar och annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur vare sig du letar efter böcker eller artiklar. Sökrutan är nästan det första du lägger märke till. Bakom

Läs mer

"Distributed Watchdog System"

Distributed Watchdog System Datavetenskap Emma Henriksson Ola Ekelund Oppositionsrapport på uppsatsen "Distributed Watchdog System" Oppositionsrapport, C-nivå 2005 1 Sammanfattande omdöme på exjobbet Projektet tycks ha varit av

Läs mer

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Titel Mall för Examensarbeten (Arial 28/30 point size, bold) Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP

Läs mer

Sö ka artiklar öch annan litteratur

Sö ka artiklar öch annan litteratur 1 Sö ka artiklar öch annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur. Sökrutan är nästan det första du lägger märke till. Bakom denna sökruta döljer sig en databrunn och

Läs mer

Måldriven, informationscentrerad webbdesign

Måldriven, informationscentrerad webbdesign Måldriven, informationscentrerad webbdesign Linus Forsell Digitala Distributionsformer vid Högskolan Väst, Trollhättan, Sverige linus.forsell@student.hv.se 1 Abstrakt I den här essän kommer måldriven och

Läs mer

BLOGG PETER WALTONEN @ DPI.FI

BLOGG PETER WALTONEN @ DPI.FI BLOGG PETER WALTONEN @ DPI.FI WordPress är en väldigt användbar nätportal, som kan användas både som blogg men även för att bygga upp din hemsida på nätet. Verktygen är lätta att använda och det erbjuds

Läs mer

Google Guide: Tips för sökoptimering

Google Guide: Tips för sökoptimering Google Guide: Tips för sökoptimering Google Guide Digital publikation www.intankt.se, Intankt Författare: Adam Ahlgren Typsnitt: Calibri, 11 punkter Formgivning: Intankt Omslagsfoto: Google Stockholm,

Läs mer

Kort om World Wide Web (webben)

Kort om World Wide Web (webben) KAPITEL 1 Grunder I det här kapitlet ska jag gå igenom allmänt om vad Internet är och vad som krävs för att skapa en hemsida. Plus lite annat smått och gott som är bra att känna till innan vi kör igång.

Läs mer

Statistik från webbplatser

Statistik från webbplatser Statistik från webbplatser problem och möjligheter Ulf Kronman Föredragets huvuddelar Frågorna och motfrågorna Vilka frågor ställer chefen, BIBSAM och ISO? Varför ställer webmastern krångliga motfrågor?

Läs mer

Källkritisk metod stora lathunden

Källkritisk metod stora lathunden Källkritisk metod stora lathunden Tryckt material, t ex böcker och tidningar, granskas noga innan det publiceras. På internet kan däremot alla enkelt publicera vad de önskar. Därför är det extra viktigt

Läs mer

Lär dig skriva för webben

Lär dig skriva för webben Lär dig skriva för webben Start Academy Martin Johansson, Copywriter på StartCommunication martin.johansson@startcommunication.com Lär dig skriva för webben Tack vare internet och en uppsjö av digitala

Läs mer

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8 Föreläsning 5: Analys och tolkning från insamling till insikt Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera resultat: noggrann

Läs mer

Mångdubbla din försäljning med målsökande marknadsföring

Mångdubbla din försäljning med målsökande marknadsföring Mångdubbla din försäljning med målsökande marknadsföring Av alla besökare i en webbutik är det statistiskt sett bara en liten andel som handlar något. Tänk om du kunde återengagera den stora andelen potentiella

Läs mer

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh EXJOBBSOPPOSITION Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh Rapportens titel: Domän-Webb-Applikations-Fuzzer(DWAP) introduktion och implementation Opponent: Viktor Gummesson Var det

Läs mer

Algoritmer: Från kaos till ordning? Bild från Pixabay

Algoritmer: Från kaos till ordning? Bild från Pixabay Algoritmer: Från kaos till ordning? Bild från Pixabay Centralt innehåll i SO, årskurs 7-9 Lektionen kommer beröra följande centrala innehåll: Olika slags medier, deras uppbyggnad och innehåll, till exempel

Läs mer

UB:s sö ktjä nst - Söka artiklar och annan litteratur

UB:s sö ktjä nst - Söka artiklar och annan litteratur 1 UB:s sö ktjä nst - Söka artiklar och annan litteratur Innehåll Börja här... 2 Logga in... 2 Mitt konto... 3 Adressändring... 3 Spara sökresultat... 4 Sökhistorik & litteraturbevakning... 5 Söka, välja,

Läs mer

Bättre webb för barn och unga!

Bättre webb för barn och unga! Bättre webb för barn och unga! Utdrag av bilagor till rapporten Genomlysning av webbinfo om psykisk ohälsa för barn och unga för projektet Psynk i november 2014 Bilagorna är personabeskrivningar, anvisning

Läs mer

Skriv! Hur du enkelt skriver din uppsats

Skriv! Hur du enkelt skriver din uppsats Skriv! Hur du enkelt skriver din uppsats Josefine Möller och Meta Bergman 2014 Nu på gymnasiet ställs högra krav på dig när du ska skriva en rapport eller uppsats. För att du bättre ska vara förberedd

Läs mer

Vad är Internet? Innehåll: Inledning Vad är Internet? Om du kan Internetadressen Söka på Internet Länklistor Övningar Repetition

Vad är Internet? Innehåll: Inledning Vad är Internet? Om du kan Internetadressen Söka på Internet Länklistor Övningar Repetition Vad är Internet? Innehåll: Inledning 1 Vad är Internet? 2 Om du kan Internetadressen 3 Söka på Internet 6 Länklistor 9 Övningar 10 Repetition 11 Kortfattad repetition 9 6 Inledning Välkommen till Nyfiken

Läs mer

Träd och koder. Anders Björner KTH

Träd och koder. Anders Björner KTH 27 Träd och koder Anders Björner KTH 1. Inledning. Det är i flera sammanhang viktigt att representera information digitalt (d.v.s omvandla till sviter av nollor och ettor). Beroende på vilka villkor som

Läs mer

Business research methods, Bryman & Bell 2007

Business research methods, Bryman & Bell 2007 Business research methods, Bryman & Bell 2007 Introduktion Kapitlet behandlar analys av kvalitativ data och analysen beskrivs som komplex då kvalitativ data ofta består av en stor mängd ostrukturerad data

Läs mer

Evidensbaserad informationssökning

Evidensbaserad informationssökning Vetenskapligt förhållningssätt Evidensbaserad informationssökning Anna Wilner, NU-biblioteket www.nusjukvarden.se/nubiblioteket Mail: biblioteket.nu@vgregion.se Tel: 010-435 69 40 Jessica Thorn, Biblioteket

Läs mer

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till? 1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till? Att lära sig via metaforer innebär att man drar nytta av kunskap som användaren redan har,

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

Representationer. Henrik Artman KTH

Representationer. Henrik Artman KTH Representationer Henrik Artman KTH 1 Vad jag vill ha sagt Formella modeller riskerar att överrationalisera arbete Risken att fastna i fixeringar av systemen Metaforer kan vara stödjande Projekt behöver

Läs mer

Betygskriterier för bedömning av uppsatser på termin 6, ht14

Betygskriterier för bedömning av uppsatser på termin 6, ht14 Betygskriterier för bedömning av uppsatser på termin 6, ht14 Till studenter Allmänna krav som ska uppfyllas men som inte påverkar poängen: Etik. Uppsatsen ska genomgående uppvisa ett försvarbart etiskt

Läs mer

Etiska regler för sökmarknadsföring via sökmotoroptiering

Etiska regler för sökmarknadsföring via sökmotoroptiering Etiska regler för sökmarknadsföring via sökmotoroptiering Innehåll Etiska regler för sökmarknadsföring via sökmotoroptimering 2 1. Syfte och tillämplighet 3 2. Definitioner 3 3. Allmänna bestämmelser 3

Läs mer

Dags för en ny söktjänst på KTH

Dags för en ny söktjänst på KTH Dags för en ny söktjänst på KTH Agenda 1. Varför ett nytt sökprojekt? 2. Krav 3. Urvalsprocess 4. Frågebatteri 5. Lite teknik 6. Demo GSA GSS Krav och behov 1. Tjänsten ska kunna driftas i molnet och lokalt

Läs mer

Information Retrieval. Information Retrieval (IR)

Information Retrieval. Information Retrieval (IR) Information Retrieval Johan Boye, KTH Information Retrieval (IR) Att hitta relevantinformation i en stor mängd texter (och/eller bilder, audio, video, programkod, biomedicinsk data, ) Användaren ger en

Läs mer

Sökmotoroptimering. Hur gör jag min sida sökmotorvänlig?

Sökmotoroptimering. Hur gör jag min sida sökmotorvänlig? Sökmotoroptimering Hur gör jag min sida sökmotorvänlig? Hur gör jag min sida sökmotorvänlig?...2 Vad är Metataggar?...2 Metataggarnas betydelse...2 Metataggar i Jetshop...2 Title...2 Meta description...3

Läs mer

Version: 1.0.1 Datum: 2012-05-23. DynaMaster 5 Golf Övergripande manual

Version: 1.0.1 Datum: 2012-05-23. DynaMaster 5 Golf Övergripande manual Version: 1.0.1 Datum: 2012-05-23 DynaMaster 5 Golf Övergripande manual Innehållsförteckning 1 Inledning 3 1.1 Systemkrav 3 2 Logga in 4 3 Översikt 5 4 Verktygsfält och funktioner 6 4.1 Översikt gränssnitt

Läs mer

V I G Å R I G E N O M...

V I G Å R I G E N O M... I N F O R M A T I O N S S Ö K N I N G V I G Å R I G E N O M... Booleska operatorer Trunkering Frassökning Wildcards Blocksökning Tips B O O L E S K A O P E R A T O R E R AND När du vill att ditt resultat

Läs mer

Peter Hellström. PH-Digital Marketing peter.hellstrom@digitalmarketing.fi www.digitalmarketing.fi

Peter Hellström. PH-Digital Marketing peter.hellstrom@digitalmarketing.fi www.digitalmarketing.fi Peter Hellström PH-Digital Marketing peter.hellstrom@digitalmarketing.fi www.digitalmarketing.fi Internet, trender och Google sökmotor Sökmotoroptimering = SEO, Search Engine Optimization Sökmotormarknadsföring

Läs mer

Om uppsatsmallen vid GIH

Om uppsatsmallen vid GIH Om uppsatsmallen vid GIH Här kan du läsa om och se exempel på hur din uppsats vid GIH ska se ut. Uppsatsmallen (.dotxfil) som du kan spara ner och skriva i finns på www.gih.se/uppsats. Huvudrubrik, dvs

Läs mer

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster

Hur effektiva är de egentligen? en evaluering av tre webbaserade söktjänster MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:37 ISSN 1404-0891 Hur effektiva är de egentligen? en evaluering av tre webbaserade

Läs mer

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1 Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut

Läs mer

NKRR. Regelskrivning i praktiken

NKRR. Regelskrivning i praktiken Sida: 1 (13) NKRR Regelskrivning i praktiken Innehåll Sida: 2 (13) 1 Inledning... 3 1.1 Förkortningar och begrepp... 3 2 Ändringshistorik för dokumentet... 4 3 Bakgrund... 5 3.1 Regler i NKRR... 5 3.2

Läs mer

Kompletteringsmaterial. K2 Något om modeller, kompakthetssatsen

Kompletteringsmaterial. K2 Något om modeller, kompakthetssatsen KTH Matematik Bengt Ek Maj 2008 Kompletteringsmaterial till kursen SF1642, Logik för D1 och IT3: K2 Något om modeller, kompakthetssatsen Vi skall presentera ett enkelt (om man känner till sundhets- och

Läs mer

Funktioner. Räta linjen

Funktioner. Räta linjen Sidor i boken 14-143, 145-147 Funktioner. Räta linjen Här följer en dialog mellan studenten Tor-Björn (hädanefter kallad TB) och hans lärare i matematik Karl-Ture Hansson (nedan kallad KTH). När vi möter

Läs mer

Föreläsning 6: Analys och tolkning från insamling till insikt

Föreläsning 6: Analys och tolkning från insamling till insikt Föreläsning 6: Analys och tolkning från insamling till insikt FSR: 1, 5, 6, 7 Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera

Läs mer

TDDD92 Artificiell intelligens -- projekt

TDDD92 Artificiell intelligens -- projekt jonas.kvarnstrom@liu.se 2018 TDDD92 Artificiell intelligens -- projekt Individuella uppgifter UPG2: Individuell skriftlig rapport 2 Vad? Läsa och förstå vetenskaplig litteratur Varför? Framtiden: Inte

Läs mer

PubMed (Medline) Fritextsökning

PubMed (Medline) Fritextsökning PubMed (Medline) PubMed är den största medicinska databasen och innehåller idag omkring 19 miljoner referenser till tidskriftsartiklar i ca 5 000 internationella tidskrifter. I vissa fall får man fram

Läs mer

4 Fler deriveringsregler

4 Fler deriveringsregler 4 Fler deriveringsregler 4. Dagens Teori Derivatan av potensfunktioner. Potensfunktioner med heltalsexponenter, som du redan kan derivera, kallas polynomfunktioner, som till exempel: f(x) = 2x4 x3 + 2x

Läs mer