Under huven på sökmotorerna SFIS CyberTools 2010 05 20 05 Jonas Fransson www.jonasfransson.com
Frågeställningar Sökmotorernas konstruktion och arbetssätt Hur fungerar egentligen en sökmotor som Google? Hur rankas träffarna i träfflistan? Vad är PageRank och TrustRank? Sökmotorernas innehåll Vad indexeras av sökmotorerna och vad indexeras inte? Är begreppen "osynliga webben" och "djupa webben" fortfarande relevanta? Hur kan man hitta information som inte är indexerad av sökmotorerna? Alternativ ti till sökmotorerna På vilka sätt kan den sociala webben utnyttjas vid informationssökning? Hur kan du använda ditt nätverk? Hitta bilder, ljud och video Hur kan man använda sökmotorerna för att finna multimediafiler? Vilka specialsöktjänster ilökjä finns det för bilder, ljud och video? Finns det speciella sökstrategier för multimedia?
Innehåll 1. Inledning med informationsbeteende 2. Sökmotorernas konstruktion och arbetssätt 3. Alternativ till sökmotorerna 4. Hitta bilder, ljud och video
Information behaviour, seeking, searching och retrieval Information behaviour Seeking Searching IR Tom Wilsons Onion Model, 1999 (extended)
IS&R (Ingwersens modell) IR (informaiton retrieval) IIR (interactive IR) Information searching Information seeking (IS) Information seeking and retrieval (IS&R)
Illustration från: Rüger, S. M. (2010). Multimedia information retrieval. [San Rafael, CA]: Morgan & Claypool. Sökprocessen
Berrypicking Bates, M. (1989). The Design of Browsing and Berrypicking Techniques. http://www.gseis.ucla.edu/fac ulty/bates/berrypicking.html / yp
Information Foraging Theory (IFT) Från biologin: Optimal foraging theory Jägare och samlare Biologiska och kognitiva begränsningar Max input 1,2 2,3 kbit/s Begränsad energi Vi försöker optimera vår Vi försöker optimera vår informationsinhämtning automatiskt!
IFT: Kostnad nytta nytta Maximera användbar information per söktid användbar info söktid MAX
Information scent (IFT) Optimera navigationsvalen baserat på lokala ledtrådar: Metadata i katalog Baksidetext i bok Struktur på webbplats
Information patches Patch = samling sammanhållen information Exempel: Täfflit Träfflista i sökmotor Webbplats Hll Hylla på bibliotek, t.ex. Abfba När är det bäst att överge den aktuella patchen och gå vidare till nästa?» Pirolli, P. (2007). Information foraging theory: adaptive interaction with information. Oxford: Oxford University press.» http://www2.parc.com/istl/projects/uir/publications/items/ /i tl/ t / i / ti /it / UIR 1999 05 Pirolli Report InfoForaging.pdf
Olika typer av sökningar i webbsökmotorer Informational avsikten är att finna information T.ex. information scent eller biltest Navigational avsikten är att hitta en specifik webbplats Tex T.ex. google scholar eller sfis Transactional avsikten är att utföra en aktivitet på en webbplats T.ex. download eller köpa Broder, A. (2002). A taxonomy of web search. SIGIR Forum, 36(2), 3 10.
Ytterligare indelning Informational Directed Undirected Find List Navigational Advice Transactional Jansen, B. J., Booth, D. L., & Spink, A. (2008). Determining the informational, navigational, and transactional intent of web queries. Information Processing & Management, 44(3), 1251 1266. Navigation to transactional Navigation to informational online Obtain Download Searchengine engine results page Interact
Fördelning mellan typerna Broder (2001) Jansen m.fl. (2008) Informational 48 % 80 % Navigational 20 % 10 % Transactional 30 % 10 % OBS! Olik t d ä d B d ä d l l ( h OBS! Olika metoder användes, Broder använde logganalys (och användarenkät) och Jansen m.fl. använde automatisk logganalys utifrån ett manuellt förarbete.
Spänningar på webben 1. Sökmotorernas strävan efter relevanta träfflistor. 2. Publicisternas strävan efter hög placering i sökmotorernas träfflistor. 3. Användarnas krav på precision i sökmotorerna. 4. Sökmotorernas kamp mot spam och manipulation. 5. Webbens storlek, föränderlighet och snabba tillväxt. t
Webbsök och den långa svansen
Typer av söktjänster Sökmotorer Vertikal söktjänst Samlar och indexerar information automatiskt, t.ex. Google, Bing Katalog Länksamling men ämneshieraki, skapa av människor, t.ex. Open Directory Project Metasökmotor Tjänst som söker och sammanställer information från olika sökmotorer och kataloger, t.ex. Clusty, Metacrawler Söker eller innehåller bara information om ett ämne Specialiserad söktjänst Bara hanterar en typ av material, t.ex. bilder eller video Eller en specifik filtyp, t.ex. pdffiler Sociala nätverkstjänster Användarna laddar upp och delar material, t.ex. Flickr och Youtube
Under huven på sökmotorerna 2 SÖKMOTORERNAS KONSTRUKTION, ARBETSSÄTT OCH INNEHÅLL
Hur fungerar egentligen en sökmotor som Google? Hur rankas träffarna i träfflistan? Vad är PageRank och TrustRank? Vad indexeras av sökmotorerna och vad indexeras inte? Är begreppen "osynliga webben" och "djupa webben" fortfarande relevanta? Hur kan man hitta information som inte är indexerad av sökmotorerna?
Referenser och citeringar i vetenskaplig litteratur Exempel från Web of knowledge... och Google scholar
Referenser och citeringar
Auktoritet Många inlänkar Innehåll med auktoritet
Hubb Många utlänkar Länkar till mycket relevanta sidor
PageRank i citeringsanalys i av länkar på webben Hur viktig en sida är på webben Inlänkarna studeras Anti spam Logaritmiskt Förenklas till PR värde 1 10 PR5 >> PR4 statiskt värde, beräknas om varje månad
Exempel PR www.lu.se PR 8 www.lub.lu.se PR 8 www.kultur.lu.se PR 7 www.db.dk PR 7 www.sfis.nu PR 5 www.jonasfransson.com PR 0 www.internetbrus.com PR 7 http://bibliobuster.wordpress.co m/ PR 5 www.google.se PR 8 www.google.com PR 10 http://wikipedia.org PR 9 http://se.wikipedia.org PR 7 http://www.pagerankme.com/ /
PageRank ill. 1
PageRank ill. 2 PR = förenklat PageRank värde på sida (1 10).
PageRank ill. 3 PR = förenklat PageRank värde på sida (1 10).
HITS Länkanalysmetod, alternativ till PageRank Hubbar och auktoriteter beräknas automatiskt för varje sökning. Mycket beräkningar > större kostnad + tar tid Tillämpades i Teoma
TrustRank 1 PageRank räcker inte längre då spammare allt bättre lärt sig utnyttja PageRanks styrkor och svagheter. Begreppet TrustRank (TR) kommer ursprungligen från en algoritm skapad för att stoppa spamsidor. Googles tillämpning av principerna går också under namnet TrustRank, men hur exakt det fungerar inte är inte känt.
TrustRank 2 domänens ålder och historik Ny domän? Eller har den bytt ägare ofta? Inlänkar Har inlänkar tillkommit sakta över tid eller över en natt? Kommer länkarna från viktiga sidor eller från mer tvivelaktiga sidor? utlänkar Är utlänkarna till bra sidor eller till mer tvivelaktiga? Och till vem länkar de sidorna? kontaktuppgifter Innehåller webbplatsen kontaktuppgifter som telefonnummer, adress, postnummer eller epostadress? internlänkning Försöker webbplatsen pusha för de sidor som har stor konkurrens i sökmotorerna, tex t.ex. genom att länka från sidor med annat ämnesinnehåll?
TrustRank3 uppdatering dt av innehållet Hur ofta uppdateras webbplatsen? Är det någon som bryr sig dess innehåll? kluster tillhörighet Är webbplatsen sammanlänkad med andra med liknande innehåll? ämne Handlar webbplatsen som ämnen som porr, spel eller allmänna mediciner? sidans integritet Finns det brutna länkar och länkbilder, långa laddningstider eller andra fel?
Bias genom Rank metoderna Som det dtverkar blö belönas gamla webbplatser även i TrustRank, och inte bara genom PageRank, genom att man ser till domänens ålder och antalet inlänkar (som ackumuleras över tid). Båda Rank metoderna verkar också förstärka redan starka webbplatser (i praktiken tidigtstartade amerikanska webbplatser), så sökmotorerna är inte demokratiska i det hänseendet. Ur den här synvinkeln kan det dtvara motiverat t med t.ex. europeiska sökmotorer, där man t.ex. kan vikta domäner som.se och.fr högre i förhållande till.com (för att pusha för europeiska webbsidor framför äldre amerikanska med fler inlänkar).
Sökmotorerna, en konservativ kraft PR + TR > vissa webbplatser Gamla Stora Amerikanska Engelskspråkiga Självförstärkande genom klickanalys Demokratiskt problem?
Svensk version i: Fransson, J. (2007). Effektivare informationssökning på webben: En handbok i konsten att söka information. Ronneby: HEXA.
En algoritm
Alfabetiskt Kronologiskt Populäritet LIBRIS webbsök
Övning Gör följande sökningar i LIBRIS webbsök och studera träfflistans rankning. Informationssökning internet (fritext) Abfba (klassifikation SAB) (klassifikation DCC) Ser du något mönster i rankningen? Hur bra är rankningen?
Principskiss över sökmotor Svensk version i: Fransson, J. (2007). Effektivare informationssökning på webben: En handbok i konsten att söka information. Ronneby: HEXA. Se även: http://www.jonasfransson.com /2 sokmotorer/
Frågeoberoende delar Bild från: Langville, A.N. & Meyer, C.D. (2006). Google's PageRank and beyond: the science of search engine rankings. Princeton, N.J.: Princeton University Press.
Synligt/osynligt i Google Fransson, J. (2007). Effektivare informationssökning på webben: En handbok i konsten att söka information. Ronneby: HEXA. Se även: http://www.jonasfransson.com /11 osynliga webben/
Olika delar av osynliga webben 1. Dåligt rankade webben 2. Oindexerade webben 3. Privata webben / Skyddade webben 4. Verkligt osynliga webben 5. Färska webben / Sociala webben? 6. Försvinnande webben 7. Icke existerande webben http://www.jonasfransson.com/11 osynliga webben/
Sökning i djupa webben: Pipl
Bing Olika täckning
Indexens storlek 10 100 miljarder webbsidor Vad är en webbsida? Statisk HTML Dynamisk HTML Bloggpost Tweet? Statusmeddelande i Facebok?
Metadata Metadata är viktigt för i många fall är det bara metadatan vi söker i, inte i fulltexten om det rör sig om text och när det gäller annan typ av material (ljud, bild, video) kan viännu inte söka i själva innehållet.
Metadata i sökmotorerna Metadata kan finnas i sidhuvudet på HTMLsidor under META TAG och META DESCRIPTION. Används i viss utsträckning i träfflistan (Google lite, Yahoo mycket).
Länkar som metadata i sökmotorerna Länkarna med ankartext och omgivande text blir metadata (taggar) för den länkade sidan. Fördelar: de har hög relevans är svåra att spamma och tillför rankningen sociala aspekter (länkning är en ganska social företeelse).
Länkar som metadata ill integritet i sökmotor Bra sammanfattning kring integritet Google och integritet it t intressant om Google user privacy
Google bombing...miserable failure......miserable failure......miserable failure... Bild: http://en.wikipedia.org/wiki/file:google_bomb_miserable_failure.png
Övning Välj ett ämne och sök på 2 5 sökord i Google, utan andra begränsningar. Studera resultatet. Begränsa sökningen till olika filtyper pdf, ppt och doc i tur och ordning. Vilka typer av material får du i träfflistan? Jämför med sökningen utan begränsning. Begränsa sedan den första sökningen till en specifik webbplats (relevant för ämnet). Resultat? Begränsa sökning i Avancerad sökning eller genom filetype: respektive site:
Sökstrategier & sökteknik Fransson, J. (2007). Effektivare informationssökning på webben: En handbok i konsten att söka information. Ronneby: HEXA. Kapitel 7: Sökstrategier http://www.jonasfransson.com/7 sokstrategier/ Kapitel l8: Sökteknikk http://www.jonasfransson.com/8 sokteknik/
Under huven på sökmotorerna 3 [SOCIALA] ALTERNATIV TILL SÖKMOTORERNA
På vilka sätt kan den sociala webben utnyttjas vid informationssökning? Hur kan du använda ditt nätverk?
Taggning Social tagging är metadata som tillförts av producent eller konsument (utan kontroll) Användarperspektiv och vokabulär: Tag typer Många traditionella, ämnestaggar Färre nya värderande, personliga taggar Breda, generella taggar Många förkortningar och stavfel
Olika typer av taggar 1. beskrivande (ex. google, osynligawebben, skidskytte) 2. resurs (ex. blogg, bok, video) 3. ägare/källa (ex. dn, studentlitteratur) 4. åsikt (ex. intressant, snygg) 5. egen referens (jag, mitt) 6. organisera för uppgift (ex. uppsats, arbete, todo)
Taggar spänning mellan: personliga < > sociala unika < > standardiserade frihet < > kontroll amatör < > expert En modell informationsbeteende i sociala tagging system (s.48): http://www.aaai.org/ocs/index.php/icwsm/09/paper/view/212/407
Användning Folksomnier för upptäckt (explorative search) och för personlig informationhantering Taxonomier för sökning (information retrieval)
Sociala bokmärkestjänster Spara länkar Tagga Annotera Söka Tagg Populära Senaste Andra användare
Exempel på bokmärkestjänster Delicious Digg Blinklist Diigo Stumble Upon (explorativ) Connotea (akademisk) Citeulike (akademisk)
Delicious: information foraging
http://delicious.com/echicom/echi
Taggarens egen webbsida
Och publikationer om info scent
StumbleUpon
Uppgift sociala bokmärkestjänster Dlii Delicious (www.delicious.com) dlii Välj ett smalt ämne inom ditt fält. Sök påett par centrala termer som taggar. Vad hittar du? Intressant? Relevant? Kan du säga något om användarna som använder de aktuella taggarna? StumbleUpon (www.stumbleupon.com) Gå till StumbleUpon och välj ett ämnesområde Testa att Stumble Vad tycker du? Ev. användningsområden?
När institutioner blir personliga
Sociala nätverkstjänster Facebook LinkedIn Orkut (Googles, stor i Indien) + alla andra tjänster där man har vänner Intressegrupper med forum Skicka ut förfrågningar
Mikrobloggar Max 140 tecken/inlägg Blogg/statusmeddelande/snabbmeddelande Twitter Jaiku (uppköpt av Google)
Twitterinlägg (Tweets)
Topsy Topsy is a new kind of search engine, with a new way of looking at the Internet. Topsy py doesn t think the Internet is a collection of documents. Or even a web of documents. Topsy sees the Internet as a stream of conversations.» http://labs.topsy.com/about
Mikrobloggsöktjänster Twingly Topsy Twitter search Tweepz (söka Twitteranvändare) Söka på: Fritext Upphovsman Hashtag #
Hitta twittrare
Uppgift mikrobloggsök Sök i Tweepz (www.tweepz.com) efter någon (bekant eller känd) som twittrar. Klicka på namnet för att komma till Twitter. På Twitter får du upp personens tweets. Vad handlar de om? Allmänintresse eller personlig kommunikation? Klicka på en hashtag (t.ex. #google) för att få fram tweets uppmärkta med hashtaggen. Intressant? Relevant?
Under huven på sökmotorerna 4 HITTA BILDER, LJUD OCH VIDEO
Hur kan man använda sökmotorerna för att finna multimediafiler? Vilka specialsöktjänster finns det för bilder, ljud och video? Finns det speciella sökstrategier för multimedia?
Informationsbehov bilder innehåll och form Westman, S. (2009) Image User s Needs and Searching Behaviour i Information Retrieval: Searching in the 21st Century.
Vad indexerar sökmotorerna vid text? Brödtext Rubriker Sidans titel Sidans URL (webbadress) Text i länkar till sidan Länkning mellan sidor (länkanalys) Relevansen beräknas genom t.ex. Sökordens frekvens Var orden förekommer Sökordens förhållande i texten Sidans populäritet (inlänkar)
Vad indexeras av multimedia filer? Filnamn Filtyp Alt tag (alternativ bildtext) Text nära bilden eller länken till ljud & video URL Mycket mindre metadata om informationen än vid text Svårare Såaeatt beräkna relevans ee Plus webbsidans populäritet (t.ex. PageRank) Metadata = information om information
Google bildsökning Andra avancerade sökmöjligheter än i webbsök. Storlek på bilden/bildfilen Olika filtyper (webbilder) Biprodukt vid indexering av webbsidor
Första träffen i Google (Shanghai)
Bing: bilder av människor Inte så lätt för en maskin!
Picsearch Svensk bild sökmotor med mer än 3 miljarder (3000 miljoner) bilder www.picsearch.com com Fördelar Familjevänlig Högre relevans
Picsearch (2) Sökning på københavn > 116 000 bilder
Picsearch (3) köpenhamn > 9900 bilder copenhagen > > 12 400 bilder
Filtyp yp (i Google)
Videosökning i Blinkx g http://www.blinkx.com/
Videosökning i i Google längd Aktualitet Med text Olika källor
Bilder i Flickr: tags
Flickr Användargenererad metadata Metadata
Uppgift Flickr Sök i Flickr efter bilder på Malmö eller Lund. Avgränsa sökningen till bilder med rättigheter att använda i icke kommersiella syften. Begränsa ytterligare till endast historiska bilder. Resultat? Antal bilder Rättigheter Upphovsman
Strategi: Söka på olika språk Eftersom söktjänsterna inte använder bildegenkänning (recognition) så blir sökorden avgörande och olika språk ger olika resultat. Picsearch københavn 116 000 köpenhamn 9900 copenhagen 12 400 Google bilder (google.se) g københavn 218 000 köpenhamn 153 000 copenhagen 28 200 000
Ljudsöktjänst www.findsounds.com
Träfflista för ljud (Findsounds)
Sökstrategi: Flera sökord Att kombinera flera sökord snävar in betydelsen av varje ord. Sökkontexten blir tydligare för varje ord och precisionen bättre. Men varje gång gförloras relevanta träffar. motorcycle 136 000 000 motorcycle sound 48 400 000 motorcycle sound harley davidson 10 500 000 motorcycle sound harley davidson mp3 1 800 000
Wikimedia Commons
Uppgift Wikimedia Sök efter bilder på statyn av Carl von Linné som finns i Lund. Hur många bilder hittar du? Var i Lund står statyn?
Vem kan ha informationen? Digitala arkiv Vblogs = video blogs
Eller streaming? Webinar
Strategier sammanfattning 2 stegs sökning Filtype Sökord som pekar Byta språk Flera sökord Metadata i sociala tjänster Vertikala söktjänster