Sökningen på webben Användaren och Information Retrieval-systemen Användaren: Hur anger man en sökfråga? Hur tolkar man sökresultatet? IR-systemet: Hur skall återvunna dokument rankas? Hur skall intressanta dokument väljas ut? Sökmotorer Skillnad mellan traditionellt IR-system och sökmotorer på WWW: de sistnämnda lagrar inte de indexerade dokumenten Centraliserad arkitektur ( crawler skickar förfrågningar till webbplatserna), t ex Google Fördelad arkitektur t ex Harvest 1
Rankning Olika rankningsfunktioner: Cosinusmåttet (vektormodellen) Boolean spread Vector spread Most cited PageRank Komponent i Google:s rankningsalgoritm Självrankande system Tar hänsyn till inkommande länkar PR(a) = rankningsvärdet för sidan a C(p i ) = antalet utgående länkar från p i PR( a) = q + (1 q) n i i= 1 C( pi ) PR( p OBS! exempel: Sidan med inkommande länkar värderas högre än sidan med utgående länkar (se formulen) ) 2
Vad är metadata? Meta- (fr. grekiska): med, bland, efter data om data, eller (strukturerad) information om olika resurser eller objekt, eller uppgifter som möjliggör för oss att identifiera, lokalisera och organisera (digitala) resurser i lokala eller distribuerade samlingar 3
Av samma skäl som när det gäller fysiska objekt SÖKNING - för att hitta resurser om ett visst ämne. Ämnesord, författarnamn/upphov Varför använda metadata? LOKALISERING - för att återfinna en resurs som man vet finns. Upphov, titel, årtal, identifikatorer, språk, format SELEKTION / KÄLLKRITISKA ASPEKTER - för att analysera och bedöma resursen. upphov, utgivare, titel, årtal för publicering och uppdatering, målgrupp, källa, del av större verk, beskrivning... 4
Olika formattyper för metadata Kännetecken för formaten Format (exempel) BAND 1 BAND 2 BAND 3 Enkla format Strukturerade format Rika, fullödiga format Anpassade efter sammanhanget Framväxande standarder Internationellt standardiserade Fulltextindexering Grundläggande Strängt reglerade fält fältstruktur Altavista, Yahoo! Dublin Core MARC Ur Dempsey, L. & Heery, R. (1997-03-19). DESIRE: Project Deliverable. http://ukoln.ac.uk/metadata/desire/overview/overview.pdf 5
Mängden resurser på t ex webben. Varför utveckla nya system för metadata? De system som finns (t ex MARC, AACR2) är komplicerade att använda för icke-specialister. Var placerar man metadata? i html-filen i separat fil som man länkar till från html-filen i en separat databas 6
Dublin Core Metadata Element Set Dublin, Ohio, USA 1995 : OCLC :s hemsida. Core kärna : det viktigaste http://dublincore.org/ DC är väl lämpat att beskriva dokument och dokument-liknande objekt. Grundprinciperna i Dublin Core Simplicity of creation and maintenance DC grundelement hållas så enkla och lätta som möjligt för att även icke- specialister ska kunna använda det. Commonly understood semantics Den terminologi och grammatik som Dublin Core är uppbyggd av ska vara allmänt begriplig. International scope Från början utarbetades Dublin Core Element Set på engelska men versioner på andra språk har gjorts och flera är på gång. En svensk översättning är under utveckling (Stina Degerstedt på Kungliga Biblioteket). Extensibility Dublin Core utvecklas på ett sådant sätt att det finns möjlighet att bygga ut regelsamlingen med fler element och kvalificerare när behovet efter mer precisa beskrivningar uppstår. 7
Hur konstrueras DC? 15 olika fält: INNEHÅLL: DC.Title, DC.Subject, DC.Description, DC.Type, DC.Source, DC.Relation, DC.Coverage UPPHOV: DC.Creator, DC.Publisher, DC.Contributor, DC.Rights IDENTIFIKATION, TID OCH TEKNIK DC.Date, DC.Format, DC.Identifier, DC.Language Inget fält är obligatoriskt Alla fält kan upprepas vid behov http://dublincore.org/documents/dces/ 8
Att uttrycka preciseringar (qualifiers) TYPBETECKNINGAR (element refinements) - en precisering av elementet, t ex DC.Title.Alternative DC.Date.Created SCHEME-TILLÄGG (encoding scheme) - en precisering av värdet som beskriver vilken standard eller praxis som styr utformningen av fältets innehåll, t ex name= DC.Subject scheme= SAB content= Abdb name= DC.Date scheme= ISO8601 content= 2000-02-01 9
Informationen lagras i fält Hur skapar man DC? fälten har namn som skrivs med vanliga bokstäver alla fältnamn inom DC inleds med DC Lättast genom att använda ett DC-formulär fyll i uppgifterna kopiera de DC-uppgifter som skapas klistra in dem i <HEAD>-delen av HTML-filen 10
Formulär hittar man bl.a. hos följande tjänster: Nordic Metadata Projects (http://www.ub.lu.se/cgi-bin/nmdc.pl) Nordisk Metadata har idag bästa DC-generatorn för allmänt bruk. Formuläret är lätt att läsa, innehåller boxar för samtliga Dublin Core-element, har hjälptexter samt popup-menyer för val av språk, ämnesordslistor m.m. DC-dot (http://ukoln.ac.uk/metadata/dcdot/) UKOLN (UK Office for Library and Information Networking, University of Bath) står för denna Dublin Core Generator. Här skriver man in URL:en på en sida och får en (eller ett försök till) automatgenerering av Dublin Core som man sedan kan redigera i efterhand. Det går att få metadata utskriven i formaten HTML eller RDF/XML. Svesök (http://www.svesok.kb.se/user/submit/) Denna DC-generator på Kungl. biblioteket används framför allt när man vill anmäla sin sida till Svesöks länkkatalog över svenska webbsidor. Man måste inte platsa i länkkatalogen för att använda generatorn, det går alldeles utmärkt att bara välja "skapa metadata" och att sedan kopiera och klistra in i sitt eget dokument. 11
Exempel <head> <title>högskolan i Borås - </title> <!--Glöm ej att skriva titel..--> <!--Här börjar Dublin core--> <meta name="dc.title" content=" "> <!--Titel, samma som i <title>.--> <meta name="dc.description" content=" "> <!--Kort sammanfattning av vad sidan handlar om. Detta syns i resultatlistan vid sökningar.--> <meta name="dc.identifier" content=" "> <!--Den Url som sidan ligger på, t ex http://www.hb.se --> <meta name="dc.creator.corporatename" CONTENT="Högskolan i Borås"> <!--Den enhet som har gjort webbsidan --> <meta NAME="DC.Publisher" CONTENT="Högskolan i Borås"> <!--Den ansvariga utgivaren. I vårt fall blir det samma som i DC.Creator.CorporateName--> <meta NAME="DC.Publisher.Address" CONTENT="info@hb.se"> <!--Kontaktadress--> 12
<meta name="dc.subject" content> <!--Ämnesord. Välj ämnesord som beskriver sidans innehåll. Om du har flera ämnesord: gör en metatag för varje ord. Skriv helst obestämd form singular. Tänk dig in i användarens situation. Vem vänder sig sidan till? Använd ord som du tror att den tänkte användaren kanske använder i sökningen. Använd gärna synonymer. Dela också upp ord, t ex: "bibliotekarie, utbildning, bibliotekarieutbildning". Skriv ej ett ämnesord flera gånger. Om ett ord förekommer flera gånger, kan det finnas risk att sidan utesluts ur sökmotorn eller att sidan läggs sist i sökmotorns rankingsordning. --> <meta NAME="DC.Date.Created" CONTENT=" "> <!-- OBS, valfritt. Datum för när sidan skapades. Använd formatet 1999-12-01--> <meta NAME="DC.Date.Modified" CONTENT=" "> <!-- OBS, valfritt. Datum för när sidan senast uppdaterades. Använd formatet 1999-12-01. Observera att detta datum måste ändras för hand varje gång sidan ändras. --> <meta NAME="DC.Language" Scheme="ISO639-2" CONTENT="swe"> <!--Det språk sidan är skriven på. Om texten är på engelska - skriv "eng" istället för "swe".--> <meta NAME="DC.Type" CONTENT="Text. Hemsida (organisation etc)"> <!--Typ av sida. --> <meta NAME="DC.Format" CONTENT="text/html (.htm.html)"> <!--Format på sida. --> <link href="http://purl.oclc.org/dc/documents/rec-dces-19990702.htm" rel="schema.dc"> <!--Länk till dokument där man kan läsa mer om de olika elementen i Dublin Core.--> <!--Slut på Dublin Core.--> 13
<!--Nedan följer dubbleringen av de metadata som behövs för att dokumenten ska kunna hittas bättre i de sökmotorer som ej använder Dublin Core--> <meta name="description" content=" "> <!--Samma som i "DC.Description". Kort sammanfattning av vad sidan handlar om. Detta syns i resultatlistan vid sökningar--> <meta name="keyword" content=" "> <!--Samma som "DC.subject". Ämnesord som beskriver vad dokumentet handlar om. Vid fler ämnesord går det bra att här skriva dem efter varandra med kommatecken mellan. Ex. äpple, päron. Skriv helst obestämd form singular.--> </head> 14
Vad bör förses med DC? Finns inga bestämda regler - ingen är förbjuden att lägga DC till sina resurser. DC kan även användas för att beskriva traditionella, fysiska resurser, t ex böcker eller tidskriftsartiklar i pappersformat Hur tillämpas DC idag? I ett stort antal projekt, ofta initierade från bibliotekshåll och ofta inom söktjänster som inriktar sig på resurser inom en viss disciplin. DC har än så länge dåligt stöd i de stora kommersiella söktjänsterna 15
Svagheter inom dagens DC Diffus status för formatet Gott om nationella särlösningar på detaljnivå Beaktas lite i söktjänster som AltaVista, Google Flexibelt DC kan vara en kärna som byggs ut lokalt Användarvänligt Styrkan inom DC Upplevs som mindre krävande än MARC-formaten Har bättre gränssnitt mot expertsystem Ger en struktur som kan samarbeta med MARC 16
Svenska söktjänster som använder Dublin Core Rättskällan - en nationell portal för juridik (Stockholms universitet) http://www.sub.su.se/rattskallan/ Skånewebben "Skånewebben är Sveriges första regionalt avgränsade ingång till kvalitetsbedömda Internetresurser och utgör med sina katalogiserade länkar en digital Skånesamling." http://www.skanewebben.nu/skweb.zap Information om: http://msb2.malmo.se/bibliotek/lansbibliotek/skanewebben/index.htm Studera.nu (Högskoleverket) Högskoleverkets webbtjänst för studieinformation. http://studera.nu Svenska miljönätet (Naturvårdsverket) Här får man information om Sveriges miljö och svenskt miljöarbete. http://smn.environ.se/miljonat/sokning/sokning.htm 17
Sverige direkt (Riksdagen) Vägvisare till samhällsinformation. http://www.sverigedirekt.gov.se/ Svesök (Kungl. biblioteket) Söktjänst för alla svenska webbresurser. Primär målgrupp är de svenska biblioteken. http://www.svesok.kb.se/search/ Uppsala universitet - Avhandlingar - Elektronisk spikning http://publications.uu.se/theses/ Uppsala universitet Webbkatalog Metadatamärkningar i Dublin Core tillämpas på vissa av universitetets webbresurser (utbildningsdatabasen, forskningsguiden och pressmeddelanden). http://publications.uu.se/metadata/ 18