Sökningen på webben Användaren och Information Retrieval-systemen Användaren: Hur anger man en sökfråga? Hur tolkar man sökresultatet?



Relevanta dokument
Dublin Core i praktiken En undersökning av hur Dublin Core används inom fem svenska söktjänster

Can we Trust Web-page Metadata?

Dublin Core i Sverige en minsta gemensam nämnare eller...?

Välkommen till informationssökning via webben. Tips om sökningar inför uppsatsskrivandet med klickbara länkar.

1 Detta fält hämtar värdet från den primära adressen på webbplatsen. Kontrollera att den primära adressen stämmer under "Webbplatsinställningar".

Guide för Innehållsleverantörer

Snabbguide för publicering i Drupal för ki.se

» RSS - Bygg din egen RSS!

Använda SYV-spindeln

Introduktion till metadata i leveranser av elektroniska dokument till KB

Uppdaterad Registrera avhandling i DiVA

Stefan Andersson SVEP. Övergripande mål - SVEP. Harmonisering av metadatabeskrivningar för elektroniskt publicerade dokument

Axiell Arena Visa BOOK-IT:s resurser

Metadata i e-pliktleveranser

Publikationstyp Konferensbidrag

Uppdaterad Registrera avhandling i DiVA

Vad är Internet? Innehåll: Inledning Vad är Internet? Om du kan Internetadressen Söka på Internet Länklistor Övningar Repetition

Registrera konstnärlig output i DiVA. Uppdaterad

Publikationstyp Kapitel i bok, del av antologi

Registrera konstnärlig output i DiVA. Uppdaterad

Geodataportalen - Metadata -Webbformulär för redigering av metadata

ALEPH ver. 18 ALEPH Digital Asset Module (ADAM)

Sök artiklar i databaser för Vård- och hälsovetenskap

Sammanfattning av informationssökning VT19

Insamlingsverktyg - teknisk beskrivning av metadataformuläret

Delrapport DP3. FGS för paketstruktur för e-arkiv Bilaga 1 METS

Registrera konstnärlig produktion i DiVA. Uppdaterad


Webforum. Nya funktioner i version Senast uppdaterad:

Webbplats analys cofra.it

Webbplats analys omeopatiamilano.com

Hantera informationspaket i system för bevarande

Publikationstyp Artikel i tidskrift, Artikel, forskningsöversikt och Artikel, recension


SEO Sökmotoroptimering

E-pliktleverans via RSS-feeds

Produktion och distribution av digitala ljudböcker

ditt självständiga arbete i DiVA

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

KN - Seminarium. (Litteratursökning)

Optimering av webbsidor

Övergången till RDA i Sverige Katarina Synnermark (RDA-redaktionen) Fredrik Klingwall (XL-utveckling)

Registrera/publicera avhandling (sammanläggningsavhandling)

Instruktioner för studenter

Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

ditt självständiga arbete i DiVA

CBI-biblioteket. Presentation för CBI:s intressentförening Eva Lundgren

Instruktion för användning av referensbibliotek i VISS version 3

E-PLIKT E-PLIKT FÖR GÖTEBORGS UNIVERSITET

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

FEM ENKLA KNEP SOM HJÄLPER DIG SYNAS BÄTTRE PÅ GOOGLE

Råd gällande vokabulärer för kommuners och landstings arbete med länkade öppna data

Manual till publiceringsverktyg

Manual för Typo3 version 4.2

Registrera och publicera i DiVA

Registrera i DiVA. en lathund för rapportering inom Miljöövervakningen till Naturvårdsverket

Högskolebiblioteket i Halmstad Manual för registrering av uppsats i DiVA

ÅA:s bloggverktyg komplett guide

Lathund - webbsidor och filer

Att söka information (med betoning på Internet)

Typo 3 version Utbildningsmaterial för redaktörer. Senast uppdaterad

Publicera material i Blackboard

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA

FÖA110 Informationssökningsövningar facit

ARBETSMATERIAL. Intern webbsök på Göteborgs universitet

Välkommen till Studiekanalen.se

Version: Datum: DynaMaster 5 Golf Övergripande manual

Registrera monografiavhandling

Manual för publicering av studentuppsats/examensarbete i DiVA Uppdaterad

- LATHUND MED Tips och exempel för dig som ska skriva en källförteckning

ditt självständiga arbete i DiVA

Sökmotormarknadsföring

Webbplats analys playhousenightclub.com

DP1 och DP2. Stefan Andersson, Eva Müller Enheten för digital publicering, Uppsala universitetsbibliotek.

Mötesplats inför framtiden Borås april Anna Alwerud Netlab Lunds universitetsbibliotek

Greda en databas över genusforskare. Berith Backlund. Paper presenterat vid konferensen oktober 2009 i Borås

Webbplats analys askgeek.io

Manual: Skapa egna ansökningsformulär

Lathund för att publicera dokument i EPI-server

Checklista för kursmall i Pingpong

Fråga bibliotekarien. Länkbiblioteket. Sökslussen. Metasökprogrammet Frank och Söksam. biblioteken.fi >

Produktion och distribution av digitala ljudböcker

Webbplats analys ipchecker.us

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

Registrera monografiavhandling

RDA i Sverige Katarina Synnermark Olle Johansson RDA-redaktionen

Ellibot 1.0. Interaktivmedia Content Management System. Publicera för webben

Surfa till adressen och logga in med dina vanliga användaruppgifter.

Lathund: Skapa egna ansökningsformulär

Anvisningar till doktoranden för e-spikning/epublicering av doktorsavhandlingar i GUPEA

So ka artiklar och annan litteratur

WWW. Exempel på klientsidan. Överföring av en html-fil. Snyggare variant. Verkligt format. Meddelandeformat för begäran HTTP

Åtkomst Du kommer till ditt system via en webblänk som erhålles från oss. Via denna länk ges tillgång till sökning i bibliotekets katalog.

Bevaka vetenskapliga tidskrifter med hjälp av RSS

Webbplats analys akcpdistributor.de.cutestatvalue.com

Biblioteket DiVA publikationsdatabas vid Röda Korsets Högskola

WWW och informationsåtervinning

Transkript:

Sökningen på webben Användaren och Information Retrieval-systemen Användaren: Hur anger man en sökfråga? Hur tolkar man sökresultatet? IR-systemet: Hur skall återvunna dokument rankas? Hur skall intressanta dokument väljas ut? Sökmotorer Skillnad mellan traditionellt IR-system och sökmotorer på WWW: de sistnämnda lagrar inte de indexerade dokumenten Centraliserad arkitektur ( crawler skickar förfrågningar till webbplatserna), t ex Google Fördelad arkitektur t ex Harvest 1

Rankning Olika rankningsfunktioner: Cosinusmåttet (vektormodellen) Boolean spread Vector spread Most cited PageRank Komponent i Google:s rankningsalgoritm Självrankande system Tar hänsyn till inkommande länkar PR(a) = rankningsvärdet för sidan a C(p i ) = antalet utgående länkar från p i PR( a) = q + (1 q) n i i= 1 C( pi ) PR( p OBS! exempel: Sidan med inkommande länkar värderas högre än sidan med utgående länkar (se formulen) ) 2

Vad är metadata? Meta- (fr. grekiska): med, bland, efter data om data, eller (strukturerad) information om olika resurser eller objekt, eller uppgifter som möjliggör för oss att identifiera, lokalisera och organisera (digitala) resurser i lokala eller distribuerade samlingar 3

Av samma skäl som när det gäller fysiska objekt SÖKNING - för att hitta resurser om ett visst ämne. Ämnesord, författarnamn/upphov Varför använda metadata? LOKALISERING - för att återfinna en resurs som man vet finns. Upphov, titel, årtal, identifikatorer, språk, format SELEKTION / KÄLLKRITISKA ASPEKTER - för att analysera och bedöma resursen. upphov, utgivare, titel, årtal för publicering och uppdatering, målgrupp, källa, del av större verk, beskrivning... 4

Olika formattyper för metadata Kännetecken för formaten Format (exempel) BAND 1 BAND 2 BAND 3 Enkla format Strukturerade format Rika, fullödiga format Anpassade efter sammanhanget Framväxande standarder Internationellt standardiserade Fulltextindexering Grundläggande Strängt reglerade fält fältstruktur Altavista, Yahoo! Dublin Core MARC Ur Dempsey, L. & Heery, R. (1997-03-19). DESIRE: Project Deliverable. http://ukoln.ac.uk/metadata/desire/overview/overview.pdf 5

Mängden resurser på t ex webben. Varför utveckla nya system för metadata? De system som finns (t ex MARC, AACR2) är komplicerade att använda för icke-specialister. Var placerar man metadata? i html-filen i separat fil som man länkar till från html-filen i en separat databas 6

Dublin Core Metadata Element Set Dublin, Ohio, USA 1995 : OCLC :s hemsida. Core kärna : det viktigaste http://dublincore.org/ DC är väl lämpat att beskriva dokument och dokument-liknande objekt. Grundprinciperna i Dublin Core Simplicity of creation and maintenance DC grundelement hållas så enkla och lätta som möjligt för att även icke- specialister ska kunna använda det. Commonly understood semantics Den terminologi och grammatik som Dublin Core är uppbyggd av ska vara allmänt begriplig. International scope Från början utarbetades Dublin Core Element Set på engelska men versioner på andra språk har gjorts och flera är på gång. En svensk översättning är under utveckling (Stina Degerstedt på Kungliga Biblioteket). Extensibility Dublin Core utvecklas på ett sådant sätt att det finns möjlighet att bygga ut regelsamlingen med fler element och kvalificerare när behovet efter mer precisa beskrivningar uppstår. 7

Hur konstrueras DC? 15 olika fält: INNEHÅLL: DC.Title, DC.Subject, DC.Description, DC.Type, DC.Source, DC.Relation, DC.Coverage UPPHOV: DC.Creator, DC.Publisher, DC.Contributor, DC.Rights IDENTIFIKATION, TID OCH TEKNIK DC.Date, DC.Format, DC.Identifier, DC.Language Inget fält är obligatoriskt Alla fält kan upprepas vid behov http://dublincore.org/documents/dces/ 8

Att uttrycka preciseringar (qualifiers) TYPBETECKNINGAR (element refinements) - en precisering av elementet, t ex DC.Title.Alternative DC.Date.Created SCHEME-TILLÄGG (encoding scheme) - en precisering av värdet som beskriver vilken standard eller praxis som styr utformningen av fältets innehåll, t ex name= DC.Subject scheme= SAB content= Abdb name= DC.Date scheme= ISO8601 content= 2000-02-01 9

Informationen lagras i fält Hur skapar man DC? fälten har namn som skrivs med vanliga bokstäver alla fältnamn inom DC inleds med DC Lättast genom att använda ett DC-formulär fyll i uppgifterna kopiera de DC-uppgifter som skapas klistra in dem i <HEAD>-delen av HTML-filen 10

Formulär hittar man bl.a. hos följande tjänster: Nordic Metadata Projects (http://www.ub.lu.se/cgi-bin/nmdc.pl) Nordisk Metadata har idag bästa DC-generatorn för allmänt bruk. Formuläret är lätt att läsa, innehåller boxar för samtliga Dublin Core-element, har hjälptexter samt popup-menyer för val av språk, ämnesordslistor m.m. DC-dot (http://ukoln.ac.uk/metadata/dcdot/) UKOLN (UK Office for Library and Information Networking, University of Bath) står för denna Dublin Core Generator. Här skriver man in URL:en på en sida och får en (eller ett försök till) automatgenerering av Dublin Core som man sedan kan redigera i efterhand. Det går att få metadata utskriven i formaten HTML eller RDF/XML. Svesök (http://www.svesok.kb.se/user/submit/) Denna DC-generator på Kungl. biblioteket används framför allt när man vill anmäla sin sida till Svesöks länkkatalog över svenska webbsidor. Man måste inte platsa i länkkatalogen för att använda generatorn, det går alldeles utmärkt att bara välja "skapa metadata" och att sedan kopiera och klistra in i sitt eget dokument. 11

Exempel <head> <title>högskolan i Borås - </title> <!--Glöm ej att skriva titel..--> <!--Här börjar Dublin core--> <meta name="dc.title" content=" "> <!--Titel, samma som i <title>.--> <meta name="dc.description" content=" "> <!--Kort sammanfattning av vad sidan handlar om. Detta syns i resultatlistan vid sökningar.--> <meta name="dc.identifier" content=" "> <!--Den Url som sidan ligger på, t ex http://www.hb.se --> <meta name="dc.creator.corporatename" CONTENT="Högskolan i Borås"> <!--Den enhet som har gjort webbsidan --> <meta NAME="DC.Publisher" CONTENT="Högskolan i Borås"> <!--Den ansvariga utgivaren. I vårt fall blir det samma som i DC.Creator.CorporateName--> <meta NAME="DC.Publisher.Address" CONTENT="info@hb.se"> <!--Kontaktadress--> 12

<meta name="dc.subject" content> <!--Ämnesord. Välj ämnesord som beskriver sidans innehåll. Om du har flera ämnesord: gör en metatag för varje ord. Skriv helst obestämd form singular. Tänk dig in i användarens situation. Vem vänder sig sidan till? Använd ord som du tror att den tänkte användaren kanske använder i sökningen. Använd gärna synonymer. Dela också upp ord, t ex: "bibliotekarie, utbildning, bibliotekarieutbildning". Skriv ej ett ämnesord flera gånger. Om ett ord förekommer flera gånger, kan det finnas risk att sidan utesluts ur sökmotorn eller att sidan läggs sist i sökmotorns rankingsordning. --> <meta NAME="DC.Date.Created" CONTENT=" "> <!-- OBS, valfritt. Datum för när sidan skapades. Använd formatet 1999-12-01--> <meta NAME="DC.Date.Modified" CONTENT=" "> <!-- OBS, valfritt. Datum för när sidan senast uppdaterades. Använd formatet 1999-12-01. Observera att detta datum måste ändras för hand varje gång sidan ändras. --> <meta NAME="DC.Language" Scheme="ISO639-2" CONTENT="swe"> <!--Det språk sidan är skriven på. Om texten är på engelska - skriv "eng" istället för "swe".--> <meta NAME="DC.Type" CONTENT="Text. Hemsida (organisation etc)"> <!--Typ av sida. --> <meta NAME="DC.Format" CONTENT="text/html (.htm.html)"> <!--Format på sida. --> <link href="http://purl.oclc.org/dc/documents/rec-dces-19990702.htm" rel="schema.dc"> <!--Länk till dokument där man kan läsa mer om de olika elementen i Dublin Core.--> <!--Slut på Dublin Core.--> 13

<!--Nedan följer dubbleringen av de metadata som behövs för att dokumenten ska kunna hittas bättre i de sökmotorer som ej använder Dublin Core--> <meta name="description" content=" "> <!--Samma som i "DC.Description". Kort sammanfattning av vad sidan handlar om. Detta syns i resultatlistan vid sökningar--> <meta name="keyword" content=" "> <!--Samma som "DC.subject". Ämnesord som beskriver vad dokumentet handlar om. Vid fler ämnesord går det bra att här skriva dem efter varandra med kommatecken mellan. Ex. äpple, päron. Skriv helst obestämd form singular.--> </head> 14

Vad bör förses med DC? Finns inga bestämda regler - ingen är förbjuden att lägga DC till sina resurser. DC kan även användas för att beskriva traditionella, fysiska resurser, t ex böcker eller tidskriftsartiklar i pappersformat Hur tillämpas DC idag? I ett stort antal projekt, ofta initierade från bibliotekshåll och ofta inom söktjänster som inriktar sig på resurser inom en viss disciplin. DC har än så länge dåligt stöd i de stora kommersiella söktjänsterna 15

Svagheter inom dagens DC Diffus status för formatet Gott om nationella särlösningar på detaljnivå Beaktas lite i söktjänster som AltaVista, Google Flexibelt DC kan vara en kärna som byggs ut lokalt Användarvänligt Styrkan inom DC Upplevs som mindre krävande än MARC-formaten Har bättre gränssnitt mot expertsystem Ger en struktur som kan samarbeta med MARC 16

Svenska söktjänster som använder Dublin Core Rättskällan - en nationell portal för juridik (Stockholms universitet) http://www.sub.su.se/rattskallan/ Skånewebben "Skånewebben är Sveriges första regionalt avgränsade ingång till kvalitetsbedömda Internetresurser och utgör med sina katalogiserade länkar en digital Skånesamling." http://www.skanewebben.nu/skweb.zap Information om: http://msb2.malmo.se/bibliotek/lansbibliotek/skanewebben/index.htm Studera.nu (Högskoleverket) Högskoleverkets webbtjänst för studieinformation. http://studera.nu Svenska miljönätet (Naturvårdsverket) Här får man information om Sveriges miljö och svenskt miljöarbete. http://smn.environ.se/miljonat/sokning/sokning.htm 17

Sverige direkt (Riksdagen) Vägvisare till samhällsinformation. http://www.sverigedirekt.gov.se/ Svesök (Kungl. biblioteket) Söktjänst för alla svenska webbresurser. Primär målgrupp är de svenska biblioteken. http://www.svesok.kb.se/search/ Uppsala universitet - Avhandlingar - Elektronisk spikning http://publications.uu.se/theses/ Uppsala universitet Webbkatalog Metadatamärkningar i Dublin Core tillämpas på vissa av universitetets webbresurser (utbildningsdatabasen, forskningsguiden och pressmeddelanden). http://publications.uu.se/metadata/ 18