Handläggare Stina Degerstedt Datum 2018-06-07 Dnr 6.3-2018-166 Ämnesbeskrivning. Rapport från en workshop utförd av gruppen Metadata, Forum för nationell bibliotekssamverkan och utveckling 1(7)
Förord Den här rapporten är en sammanställning av ett arbete utfört av gruppen Metadata som ingår i Forum för nationell bibliotekssamverkan och utveckling, en plattform där biblioteken ges möjlighet att gemensamt lyfta och diskutera frågor och behov som är aktuella på nationell nivå och som administreras av Kungliga biblioteket (KB). När gruppen tillsattes 2016 ville man koncentrera arbetet till ett par olika fokusområden. Ett sådant prioriterat fokusområde var ämnesbeskrivning och våren 2017 genomförde gruppen en workshop 1 kring detta ämne. Resultatet från workshopen har sedan bearbetats och slutligen formulerats under tre huvudrubriker Automatgenerering av ämnesord och klassifikationskoder, Utöka systemet Svenska ämnesord (sao) samt Kontrollerad kontra okontrollerad vokabulär. Under varje rubrik ges en beskrivning av nuläge samt några rekommendationer för framtiden. Gruppen, vars uppgift på ett övergripande plan har varit att stödja och ge input till det praktiska arbete och de strategiska diskussioner kring metadata som förs på KB, kommer att avslutas i och med halvårsskiftet 2018. Mer information finns på gruppens webbplats 2. Personer som medverkat och bidragit till innehållet i den här rapporten: Krister Andréason, Mölndals stadsbibliotek Miriam Björkhem, Kungliga biblioteket Lisbeth Byström, Myndigheten för tillgängliga medier Stina Degerstedt, Kungliga biblioteket Lena Hagberg, Stockholms universitet Marika Holmblad, Kungliga biblioteket Helena Lindblom, Umeå universitet Anna Lindqvist, Stockholms stadsbibliotek Lars Nordesjö, Karolinska institutet Anders Renman, FMV - Försvarets materielverk Marianne Svanberg, Luleå tekniska universitet Karl Tännerus, Uppsala stadsbibliotek Magnus Velander, Mälardalens högskola Astrid Wolff Feychting, Umeå stadsbibliotek 1 Själva workshopen ägde rum i KB:s lokaler 25 april 2017 och leddes av en extern workshopledare från Konsultbolag1 vid namn Ann-Cathrine Wernolf. 2 http://www.kb.se/bibliotek/forum-for-nationell-bibliotekssamverkan-och-utveckling/metadata/ 2(7)
Sammanställning av workshop 2017-04-25 Målbeskrivning för workshopen Biblioteken lägger ner en hel del resurser på att ämnesbeskriva de böcker och andra medier som man har i sina samlingar. Med att ämnesbeskriva menas först och främst att beskriva ämnet för till exempel en bok med hjälp av klassifikationskoder och ämnesord hämtade från kontrollerade vokabulärer (listor). Man gör detta utifrån antagandet att ju bättre ämnesbeskrivning desto enklare blir det för användarna att hitta det de söker i bibliotekskatalogen man får mer specifika och relevanta träffar helt enkelt. Manuell ämnesbeskrivning är mycket resurskrävande. Den elektroniska utgivningen gör att mängden material som biblioteken har att arbeta med ökar drastiskt medan bibliotekens resurser inte gör det, snarare tvärtom. Vad biblioteken behöver jobba med är att hitta olika alternativa sätt att ämnesbeskriva som både är bra för användarna men också är mer resurssnåla för biblioteken. Att låta maskiner skapa klassifikationskoder är ett sätt och det görs sådana försök på flera håll. Men automatisk klassifikation är kanske inte hela svaret på problemet. Här finns en hel del frågor som behöver ställas. För det första måste vi utgå från användarnas behov vad är bra för dem? Och då blir nästa fråga att svara på vad som är bra för vilken typ av användare studenten, forskaren, nöjesläsaren, skolbarnet, personen med annat modersmål, användaren med särskilda behov och så vidare. Hur står sig bibliotekens kontrollerade vokabulärer (klassifikationskoder och ämnesordslistor) mot mer fria ordsökningar? Vad kan vi lära oss från de stora sökmotorerna, till exempel Google? Kan vi bli bättre på återbruk av information från annat håll, till exempel från förlag? Målet för den här workshopen var att dels lyfta fram och konkretisera de här frågorna på ett tydligt sätt, dels att försöka komma fram till var de största behoven finns och var det är möjligt eller nödvändigt med förbättringar. Med resultatet från workshopen finns nu ett underlag för fortsatta diskussioner, samt några förslag på konkreta aktiviteter och råd till KB kring hur man bör gå vidare med de här frågorna. 3(7)
Automatgenerering av ämnesord och klassifikationskoder Nuläge Ämnesbeskrivning (ämnesord och klassifikationskod) görs i Libris idag manuellt utifrån en innehållsmässig bedömning av katalogisatören. Kvalitetssäkring görs genom validering mot Svenska ämnesord (SAO) och genom jämförelser med hur andra bibliotek har valt att ämnesbeskriva. Ansvaret för ämnesbeskrivningar i Libris ligger på alla deltagande bibliotek. Ämnesbeskrivningar i katalogposter kan även kvalitetssäkras i efterhand genom kollektiva ändrings- och meddelanderutiner. I vissa fall sker det ett automatiskt inflöde av ämnesbeskrivningar till Libris via automatiska importer från till exempel Digitala Vetenskapliga Arkivet, DiVA. Dessa ämnesbeskrivningar kan tillhöra en standardiserad struktur, men kan också vara helt fria ämnesbeskrivningar som den enskilde författaren har valt. Libriskatalogisatörer behöver lära sig att hantera detta inflöde genom att bygga upp kunskap om olika vokabulärer. För att uppnå kvalitet och konsistens i arbetet med ämnesbeskrivningar måste katalogisatörerna även hålla sig uppdaterade om de olika förändringar i till exempel SAO och Dewey som sker kontinuerligt. Katalogisatören behöver även säkerställa konsistens mellan manifestationer. Det inträffar till exempel att en bok kan ha fått en ämnesbeskrivning i sin fysiska form och en annan ämnesbeskrivning i sin digitala form. Användaren söker ofta i fritext och nöjer sig med det. Om ämnesbeskrivningar används är det något som kan tas med i en vidare sökprocess, där användaren har upptäckt och sökt vidare på de ämnesbeskrivningar som den har funnit i sökresultatet i katalogposten eller i sökmotorns filtreringsfunktion. Det kan vara svårt att hitta rätt ord eller formulering från en kontrollerad ordlista och därför kan det krävas undervisning i informationssökning innan sökningen blir effektiv. För personer med funktionsvariation kan kontrollerade termer till och med vara oanvändbara. Kontrollerade ämnesbeskrivningar används dock av bibliotekarier i referensarbetet. Rekommendationer Vi ser ett antal områden där arbetet med ämnesbeskrivningar kan utvecklas utifrån de behov som vi tror att användaren har. Områdena och prioriterade åtgärder listas nedan. Konsistenta ämnesbeskrivningar o Det bör införas processer och verktyg för att säkerställa att ämnesbeskrivningarna görs konsistenta oberoende av manifestation. 4(7)
o Vid import av ämnesbeskrivningar ska en verifiering/validering ske så att respektive ämnesbeskrivning kan hanteras utifrån uppsatta regler, till exempel en matchning mot huvudvokabulären. Automatiserade ämnesbeskrivningar o Det bör införas maskinanalyser av text, ljud och bild med syfte att hitta stöd för automatiserade ämnesbeskrivningar. Detta förutsätter ett utökat samarbete med mediaproducenter och aggregatorer. Användargenererade ämnesbeskrivningar o Det bör skapas processer och verktyg för självlärande vokabulärer. Dessa skapas och utvecklas baserat på vad användarna faktiskt har sökt på. Detta kräver analyser av sökloggar och ett samarbete med systemleverantörer. Intelligenta söksystem o Söksystemen bör utvecklas så att ämnesbeskrivningar klustras, det vill säga att relevanta sökträffar fås trots att olika avledningar eller varianter av ord har använts. Krav på leveranser o Att ämnesbeskrivning bör finnas i leveranser, att det går att identifiera vilken standard det är. Bättre verktyg som hjälp för katalogisatören o Mer användarvänligt gränssnitt mot de ämnesords- och klassifikationssystem som används. Utöka systemet Svenska ämnesord (SAO) Nuläge och rekommendationer Olika termer för olika målgrupper (typiska användare) Olika bibliotekstyper har användare med olika behov när det gäller ämnesord och sökingångar. Dessa behov behöver specificeras och samordnas till exempel genom arbetsgrupper med konkreta uppdrag för att därigenom utöka Svenska ämnesord. Genreord ger möjligheter till fördjupade genrer utifrån specialintressen. En välinsatt fantasyläsare nöjer sig inte med genrebeskrivningen Fantasy. Även motiv och andra beskrivande begrepp är av intresse. Möjligheten att använda mer specifika ämnesord där målgruppen har behov av detta skulle förbättra systemet. Det finns även behov av att uttrycka andra saker än ämne med kontrollerad vokabulär för att göra det lättare att bygga söktjänster och filter på den data som finns inlagd. Ett exempel kan vara att uttrycka målgrupper, som barnböcker för olika läsåldrar eller läromedel för olika utbildningsnivåer. Målgruppsdata finns 5(7)
idag ofta hos förlagen och borde kunna användas även i bibliotekskataloger. Ett annat exempel är uppgifter om tillgänglighetsgrad som finns att hämta från en del förlag. Beskrivning av tillgänglighetsgrad med ämnesord Vilka standarder finns för att uttrycka läsbarhet och texter med olika anpassningar på grund av funktionsvariationer? Lix är ett system, finns det andra? MTM bör utreda frågan och rekommendera hur Bibliotekssverige ska göra. KB bör därefter besluta om en standard. Eftersom behovet är stort är det av största vikt att arbetet kommer igång. Mappning idag och i framtiden Mappning mellan olika system och olika språk är av stor vikt. Idag mappas olika system. KB mappar exempelvis SAO mot LCSH, DDK och BARN; Karolinska Institutet Universitetsbiblioteket (KIB) mappar MeSH på svenska mot engelska; ONIX och Thema från bokhandeln mappas mot SAB-systemet. Framöver är det önskvärt att alla parter (exempelvis bibliotek, systemleverantörer, förlag och slutanvändare) bidrar till arbetet under samordning av KB. Med hjälp av sökloggar från olika bibliotek skulle ämnesordssystemen kunna byggas på och inkludera fler hänvisningar och förkortningar samt kunna fånga upp förändrat språkbruk. Om man vill använda sökloggar bör man utreda om några juridiska hinder finns. En framtid med länkad data är en förutsättning för att mappandet ska fungera fullt ut. Kontrollerad kontra okontrollerad vokabulär Nuläge Idag kan alla googla vilket gör det lättare att lära sig använda en friare sökmetod. Att använda okontrollerad vokabulär vid sökning kräver ingen inlärningstid, man kommer snabbt igång och sökningen blir mer tillåtande, nyanserad och dynamisk. En fritextsökning som ger många sökträffar gör dock träfflistan oöverskådlig. Okontrollerad vokabulär som sökmetod kan vara användbart för användare verksamma inom samma ämnesområde som använder samma termer. De som inte behärskar det interna språket riskerar däremot att bli utestängda och får svårt att konstruera relevanta sökfrågor. En heltäckande sökning är svår att göra om inte termerna är väl definierade. Saknas tillräcklig metadata, till exempel i form av abstract eller innehållsförteckning, i katalogposten begränsas resultatet ytterligare. Mappning 6(7)
mellan olika ämnesordssystem är också svårare att göra med en okontrollerad vokabulär. Sökresultatet blir oförutsägbart och svårt att bedöma. En kontrollerad vokabulär däremot ger exakta sökmöjligheter och träffar men kräver god områdeskunskap vid söktillfället. Saknas detta behövs stöd och handledning men vid användning av tesaurus ser man relationer och får hjälp att hitta rätt term. Även om användaren inte själv har expertkunskapen inom ämnet ger en kontrollerad vokabulär stringens och möjlighet till mappning mot andra kontrollerade vokabulärer. Det går också att på ett säkrare sätt matcha vanliga ordlistor mot en kontrollerad vokabulär, dock måste termer kontinuerligt aktualiseras och revideras. Reflektioner och rekommendationer Hur användaren vill kunna söka är förstås olika för olika målgrupper. En del vill söka frågebaserat medan andra vill kunna söka direkt i en webbläsare. Idag gör användarna ofta google-sökningar. Är det en Siri-i-katalogen-metod vi skulle vilja ha? Ska katalogen kanske kunna ge inspiration till feelgood-läsning? Oavsett sökmetod ska det vara tydligt hur söksystemet ger svar. Det är viktigt att kunna specificera hur många träffar man behöver och på vilken nivå. Man behöver en lots in i söksystemet samt information och möjlighet till hjälp av experter. Det skulle vara önskvärt med ett framtida system som är interaktivt och självlärande och öppet för användarnas olika sökmetodiker. Ett användarvänligt system mappar sökningar med okontrollerade vokabulär mot auktoriserade ämnesord och kan på så sätt ändå ge bra sökträffar. Användarna skulle till och med själva kunna vara delaktiga i att manuellt koppla ihop fria indextermer med kontrollerad vokabulär och hjälpa till att skapa en intelligent kombination av kontrollerad, okontrollerad, användargenererad, ämnesords- och autoindexerad vokabulär. Vi skulle vilja ha en back end-struktur som innehåller kontrollerade ämnesord, med en front end som ger möjlighet till självlärande sökningar men riskerar ett alltför avancerat söksystem att bli tekniktungt och därmed långsamt? 7(7)