Projektrapport En gemensam portal för akademisk fulltextpublicering vid svenska universitet och högskolor. Akademisk Forskning online



Relevanta dokument
Interoperabilitet Harmonisering av beskrivningar och beskrivningsformat för fulltextpublicerade dokument

Stefan Andersson SVEP. Övergripande mål - SVEP. Harmonisering av metadatabeskrivningar för elektroniskt publicerade dokument

DP1 och DP2. Stefan Andersson, Eva Müller Enheten för digital publicering, Uppsala universitetsbibliotek.

Högskolans e-publicering från projekt till etablerad verksamhet

E-PLIKT E-PLIKT FÖR GÖTEBORGS UNIVERSITET

MÖTE SVEP DP

Open APC Sweden. Nationell öppen databas över publicerings- kostnader för öppet tillgängliga artiklar

Open Access i Sverige

- nya möjligheter att göra forskningen tillgänglig. Vetenskaplig publicering och Open Access Karlstads universitet, 18 februari 2010

DiVA systemägarmöte. Stefan Andersson & Aina Svensson Uppsala 14 november 2013

Open access ett nationellt perspektiv

Välkommen till informationssökning via webben. Tips om sökningar inför uppsatsskrivandet med klickbara länkar.

Slutrapport. Arbetsgruppen för Högskolans e-publicering. Till Forum för bibliotekschefer, Sveriges universitets- och högskoleförbund (SUHF)

Forskningsbiblioteken som aktörer i publiceringsfrågor

SwePub. Samlad ingång till och redovisning av svensk vetenskaplig publicering

Hur tänker KB ta hand om högskolornas e-publikationer?

SwePub. Framtid. Funktio ner. Bakgrund

DSpace som system för årsredovisning av forskning. Linda Gustafsson Bibliotek och IT, Malmö högskola. Mötesplats Open Access april 2007

Biblioteket DiVA publikationsdatabas vid Röda Korsets Högskola

Expertnätverket för statliga bibliotek. DiVA. Urban Ericsson Förvaltningsledare DiVA

Marie Gustafsson. Böcker. Böcker. Tidningar och. Utskrifter

Open access och innovation

Open Access-policy för vetenskaplig publicering vid Umeå universitet

DiVA KTH:s publikationsdatabas Manual Uppdaterad

Open access vid svenska lärosäten

Öppen tillgång till forskningsdata Forskarsamhället i förändring

Interoperabilitetsfrågor i svenskt perspektiv

UTBILDNING I E-PLIKT VID GÖTEBORGS UNIVERSITET

Programvarudesign för samarbete. Mötesplats Open Access Urban Andersson, Göteborgs UB Peter Hansson, Chalmers bibliotek

Nationell databrunn - möjligheter och behov

Open access.se underlag för styrgrupp den 16 september

Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08.

Open Access-publicering vid svenska lärosäten - en kartläggning 2011

DiVA publikationsdatabas vid Södertörns högskola

DiVA kort systembeskriving

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Samverkan och nätverk inom ABM-området. Infrastruktur i samverkan. 11 november Gunnar Sahlin.

Linnaeus University Press Verksamhetsbeskrivning

Open Access perspektiv från ett lärosätes ledning. Stefan Bengtsson Rektor Malmö högskola Prorektor/vice VD Chalmers -1107

Kvalitetssäkringsarbete ur systemperspektiv

Elektronisk publicering. Registrering och inskickande av pdf-filer på Luleå tekniska universitets webbsida.

Linnaeus University Press Verksamhetsbeskrivning

Stockholms universitetsbibliotek. Snabbt, innovativt och relevant

Front 2014 ett taktfast projekt

Studentuppsatser/Examensarbeten registreras men fulltextpublicering sker frivilligt.

Svep : slutrapport projekt 3, 4 och 5

Digital arkivering och historiklagring Anastasia Pettersson och Anders Kölevik

Insamlingsverktyg - teknisk beskrivning av metadataformuläret

Rapport Version 1.0 Johan Aldén Sida 1 av Rapport Förstudie Elevadministration och schemaläggning Sambruk

Verksamhetsplan 2017 KTH biblioteket

Minnesanteckningar från möte med styrgruppen för Forum för bibliotekschefer 15 september 2006

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

LUP = Mer pengar till forskning?

Fi2xml-meddelande Arkitektur

Registrera och publicera i DiVA

Svensk nationell datatjänst, SND BAS Online

Presentationen i korthet

Svensk Nationell Datatjänst

Den fortsatta utvecklingen av rättsinformationssystemet

SKÖRDNING AV LOKALA DATAKÄLLOR I XML. Marika Lundqvist Umeå universitetsbibliotek

Biblioteksresurser. Vt 2014 Tanja Donner

Recycling metadata DiVA Libris - SwePub. Bodil Gustavsson, Stockholms universitetsbibliotek Mötesplats Open Access 2014

Mediaplan för KTH Biblioteket. Version 1.1

EDLocal EDLocal tillgängliggör digitalt kulturarvsmaterial från lokala och regionala aktörer genom European Digital Library (EDL)

Introduktion till rättsinformationssystemet

Interoperabilitet för en sammanhållen förvaltning. Karl Wessbrandt KommITS konferens i Göteborg den 11 maj 2006

VETENSKAPSRÅDETS UPPDRAG: SAMORDNA DET NATIONELLA ARBETET MED ATT INFÖRA ÖPPEN TILLGÅNG TILL FORSKNINGSDATA

Verksamhetsplan Stockholms universitetsbibliotek

Söka artiklar i CSA-databaser Handledning

Forum för nationell bibliotekssamverkan och utveckling

LIBRIS - framtidsfrågor

Nordiska arkivdagar. Forskarnas röst och digitalt material

Forum för nationell bibliotekssamverkan och utveckling

UMEÅ UNIVERSITET Sociologiska institutionen Avdelningen för biblioteksoch informationsvetenskap. Forskningsbibliotek och elektronisk publicering

Svensk nationell datatjänst, SND BAS Online

Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson

Open Access till Nobelpristagares nyckelpublikationer

Ja: Ändra i den befintliga registreringen om du vill redigera eller komplettera uppgifter

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Slutrapport Projektet OCR-tolkning för indexering av,

Hantera informationspaket i system för bevarande

OpenAccess.se aktuella frågor

Ett svenskt digitalt tidskriftsarkiv en förstudie kring de upphovsrättsliga frågorna

Handledning för uppsatsadministratörer

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

Sök artiklar i databaser för Vård- och hälsovetenskap

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Övergången till RDA i Sverige Katarina Synnermark (RDA-redaktionen) Fredrik Klingwall (XL-utveckling)

Elektronisk publicering TNMK30

Registrera och publicera i DiVA

Inledning. Innehållet i förslaget. Alternativa lösningar. Utrikesdepartementet

Nationella riktlinjer för öppen tillgång till vetenskaplig information

Hej! Mer information, pappersenkät, support och definitioner når du via

Registrera och publicera i DiVA. 1. Sök i DiVA för att kontrollera om publikationen redan är registrerad.

Greda en databas över genusforskare. Berith Backlund. Paper presenterat vid konferensen oktober 2009 i Borås

OA-idealet på väg att bli norm för god publicering

Open access och nya publiceringsvägar

Nu tar vi arkiven till en ny digital nivå - slutrapport Författare: projektledare Johan Eriksson

Registrera monografiavhandling

Transkript:

Projektrapport En gemensam portal för akademisk fulltextpublicering vid svenska universitet och högskolor Akademisk Forskning online Eva Müller med flera Enheten för digital publicering Uppsala universitetsbibliotek Tjänsteleverantör Webbportal Repository Transformering Transformering OAI-PMH XML ODBC ARKIV 1 ARKIV 2... (Oracle) (SQL Server) ARKIV N (okänd) Uppsala, April 2003

Innehåll Sammanfattning...1 Bakgrund och annat parallellt projekt...3 Resultat...4 Resultatspridning...5 Kartläggning av publiceringsverksamhet vid svenska universitet/högskolor med fokus på tekniska lösningar...6 Bakgrund och frågeställning...6 Resultatanalys...6 Tekniska lösningar...8 Organisatoriska former för akademisk publicering...8 Gemensam ingång till publicerad information...10 Tjänst för exponering av metadata i olika format...11 Teknisk bakgrund och demo av den gemensamma söktjänsten...12 Lagring...12 Exponering...12 Harvesting/överföring...13 Återvinning...13 Problem som har lösts / problem som skall lösas...15 Överföring av metadatan...15 Kvalitet på metadata...15 Nivåer på tjänsterna...16 Hur/skall vi gå vidare?...18 På kort sikt...18 På lång sikt...19 Interoperabilitet och varför är det viktigt?...20 Rekommendationer från förstudien...21

Förkortningar BIBSAM DiVA EDT KB KTH MARC OAI OAI-PMH OCLC SLU SQL S-WoBA S-WoPEc URN:NBN UU UUB XML XSL XSLT Kungl. bibliotekets avdelning för nationell samordning och utveckling Digitala Vetenskapliga Arkivet Electronic Theses and Dissertations Kungliga biblioteket Kungliga tekniska högskolan Machine-Readable Cataloging Open Archives Initiative Open Archives Initiative - Protocol for Metadata Harvesting Online Computer Library Center Sveriges lantbruksuniversitet Select Query Language Scandinavian Working Papers in Business Administration Scandinavian Working Papers in Economics Uniform Resource Name: National Bibliographic Number Uppsala universitet Uppsala universitetsbibliotek Extensible Markup Language Extensible Stylesheet Language Extensible Stylesheet Language Transformations

Sammanfattning Svensk forskning har hög kvalitet. Digital publicering är idag den bästa metoden för snabb och vidsträckt spridning av dess resultat. För att ge full effekt åt informationsspridningen krävs metadata som kan fångas upp (harvestas) av aktörer som använder dessa data för att bygga informationstjänster. Målet med pilotprojektet En gemensam portal för akademisk publicering vid svenska universitet och högskolor var att undersöka möjligheter till att bygga upp en portal för akademisk publicering med hjälp av metadataöverföring genom OAI-PMH. Utgångspunkten var att kunna återanvända en del av komponenterna som tagits fram för att bygga upp en portal i ramen för Digitala Vetenskapliga Arkivet (DiVA). Det visade sig att detta inte var möjligt. Istället skapades en enklare sökingång till insamlade metadata. Flera metoder och program för metadatainsamling, harvesting och lagring av metadata undersöktes. På samma sätt som DiVA-portal, kunde portalen fylla två viktiga funktioner: en gemensam ingång till publicerad material och en gemensam källa för att sprida metadata i enhetlig form. Genom denna praktiska tillämpning belystes en hel del interoperabilitetsproblem. Det kan konstateras att de tekniska problemen var relativt enkla att lösa. Större problem var knutna till kvaliteten på metadata, framförallt tolkning av formatet, beskrivningsnivåerna och vokabulärer. Frågor diskuterades vid ett seminarium i Uppsala. Deltagare på seminariet var ense om att i första hand skapa en interimistisk lösning genom att överföra metadata via OAI-PMH/alternativa metoder till en gemensam lagringsplats och därifrån sprida de vidare i en enhetlig form. Detta för att snabbt göra alla arkiv i Sverige OAI-PMH-kompatibla. Vidare kan en gemensam metadatalagringsplats göra det möjligt att standardisera och även vara bas för meningsfulla tjänster. Detta lämnar även utrymme för diskussion av interoperabilitetsfrågor för forskningsmaterial i allmänhet. Denna strategi kommer på sikt leda till att svenska arkiv kan samverka på ett meningsfullt sätt och på ett enkelt sätt integreras i t. ex. ett portalgränssnitt. 1

En viktig förutsättning är dock även att de tekniska frågorna ges tillräckligt utrymme i det fortsatta utvecklingsdiskussionen. De rekommendationer som lämnas här syftar till att på lång sikt bygga upp en mera konsistent miljö för utbyte, spridning och återvinning av metadata om forskningspublikationer. Projektet rekommenderar Att utvärdera de existerande publiceringssystem utifrån interoperabilitetsperspektiv Att skapa en interimistisk lagringsplats för att sprida metadata om framförallt avhandlingar via OAI-PMH i enhetligt format Att utarbeta rekommendationer på vokabulärer med konkreta exempel av tillämpningsapplikationer Att utarbeta en översikt över olika nivåer på tjänsterna med konkreta metadatamodeller som stödjer dessa nivåer Att dessa frågor bör prioriteras i den kommande BIBSAM-utlysningen och ett antal nya projekt med detta fokus bör startas 2

Bakgrund och annat parallellt projekt Vid Uppsala universitetsbibliotek finns sedan tre år tillbaka en Enhet för digital publicering. Inom ramen för ett nu avslutat projekt (DiVA, fas 1) 1 har ett nytt system för elektronisk publicering tagits fram. Systemet gör det möjligt att via ett fungerande arbetsflöde publicera både i tryck och elektroniskt, långtidslagra och sprida information om forskningsmaterial som publicerats via systemet. Våren 2002, i samband med att delar av detta nya system har tagits i drift, har flera universitet och högskolor anslutit sig till systemet. På så sätt bildades en samarbetsgrupp och sammanlagt 4 universitet och 1 högskola samarbetar kring dessa frågor och använder det system för elektronisk publicering som utvecklas vid Uppsala universitetsbibliotek. Dessa universitet är Stockholms, Umeå, Uppsala och Örebro, samt Södertörns högskola. Inom ramen för detta samarbete har den tekniska lösningen för Digitala vetenskapliga arkivet (programpaket DiVA) anpassats och det grafiska gränssnittet individualiserats för alla deltagare. Även ett gemensamt gränssnitt till publicerad information har skapats. Gruppen har enats om att Akademisk forskning online är ett lämpligt namn för en sådan webbplats. 2 Eftersom det finns flera universitet/högskolor som publicerar sina dokument elektroniskt och eftersom det finns ett behov att diskutera samt lösa vissa problem gemensamt har BIBSAM gett oss en möjlighet att inom ramen för en pilotstudie undersöka vad som behövs för att kunna delta i en gemensam webbplats och vilka tekniska lösningar som är lämpliga för överföring och insamling av metadata från andra universitet/högskolor som använder andra tekniska lösningar för elektronisk publicering. Det ursprungliga målet för projektet var att utveckla en demo av en gemensam portal för fulltextpublicerade dokument vid svenska universitet/högskolor. I portalen skulle i första hand information om avhandlingar, forskningsrapporter och annat akademisk forskning finnas; i andra hand även publicerade examensarbeten. 1 http://publications.uu.se/epcentre/projects.xsql?lang=sv 2 http://publications.uu.se/portal/ 3

Under hösten 2002 har ett annat BIBSAM-finansierat projekt startats. Projektet Samordning av söktjänster och metadatarepositorier för examensarbeten inriktade sig enbart på examensarbeten. Genom att UU deltog i båda dessa projektet kunde man dra nytta av ex-jobbs-projektet och inom ramen för projektet Akademisk Forskning Online har vi anpassat oss och koncentrerat oss på frågor specifika för akademisk publicering och därmed bredda fokus. Som exempel på detta kan vi nämna den enkla metadatamodell man har tagit fram i projektet för examensarbeten och som vi analyserar utifrån akademisk forskning och bygger vidare på i våra rekommendationer på nivåer och kompatibilitet. Sammanfattningsvis kan man säga att med fokus på akademisk forskning kommer frågor om interoperabilitet tydligare fram. Resultat Projektet resulterade i en kartläggning av tekniska lösningar som används för publiceringsverksamheten vid svenska universitet/högskolor och i en demo-tjänst av ett sökgränssnitt till insamlade metadata från flera olika arkiv. I ramen för detta demo har flera olika metadatainsamlingsprogram (harvesting) undersökts, samt även program för exponering av metadata enligt OAI-PMH. För att kunna demonstrera styrka i användningen av en gemensam vokabulär för bläddring, har en gemensam kategorilista implementerats i DiVA portalen. Genom en praktisk jämförelse mellan kvalitet på insamlade metadata från olika källor och mellan den DiVA baserade portalen kunde man lämna en del rekommendationer som främjar interoperabilitet och samverkan mellan olika svenska fulltextarkiv och andra informationstjänster. Vid ett avrapporteringsseminarium var deltagarna ense att det är viktigare att genast skapa förutsättningar för alla fulltextarkiv OAI-PMH-kompatibilitet genom en interimlösning än att bygga en gemensam portal för alla svenska universitet och högskolor. Därför bör interoperabilitetsfrågor undersökas vidare. 4

Resultatspridning Projektet har presenterats vid följande tillfällen: Seminarium på Ultuna biblioteket, september 2002 Ansvarsbiblioteksmöte för humaniora organiserad av UUB, i november 2002 Ansvarsbiblioteksmöte för teknik organiserad av KTH, i december 2002 Möten med styrgruppen för elektronisk publicering vid UU, 2002 + våren 2003 Ett seminarium där projektet avrapporterades ägde rum den 5 mars. 3 Projektet kommer även att redovisas på en internationell konferens ETD 2003 i Berlin. 4 3 För deltagarlistan, programmet och presentationer se http://publications.uu.se/afo/ 4 Electronic Theses & Dissertation - http://www.hu-berlin.de/etd2003/ 5

Kartläggning av publiceringsverksamhet vid svenska universitet/högskolor med fokus på tekniska lösningar Bakgrund och frågeställning Ingen systematisk genomgång av de tekniska lösningarna som används för elektronisk publicering vid svenska universitet och högskolor har tidigare gjorts. Viss information kan spåras i den studie som KTHB gjorde i ramen för Ansvarsbiblioteket för teknik med grundvetenskaper 5 förra året som fokuserar på hantering av avhandlingar. Vår utgångspunkt var att det publiceras mycket material genom vissa centraliserade system, och att det i många fall är biblioteken som är den drivande kraften. För vårt projekt var det relevant att ta reda på både omfattningen på publiceringen men även vilka system/tekniska lösningar som används för publicering av metadata om fulltextdokument/elektronisk publicering idag. Vi ställde även frågan om systemen stödjer OAI-PMH eller andra protokoll som främjar den tekniska interoperabiliteten. Resultatanalys Vid närmare undersökning visade det sig, att omfattningen på publiceringen inte var så stor som vi förväntade oss. Det finns flera universitet som samlar metadata om de egna forskarnas produktion (avhandlingsdatabaser, bibliografiska databaser) men bara några få har tagit steget ut mot fulltextpublicering i större skala. Det finns några få aktörer som har publicerat mycket forskningsmaterial, speciellt avhandlingar. Det har även publicerats en hel del forskningsrapporter, de flesta genom det BIBSAM-stödda projektet vid Handelshögskolan i Stockholm S-WoPEc & S-WoBa, och oftast dock utan 5 Kartläggning av universitetetsbibliotekens aktiviteter med avseende på elektronisk publicering av avhandlingar http://www.kb.se/bibsam/ansvbibl/kthb/edissar.doc 6

direkt inblandning av biblioteket. 6 Vidare finns det enstaka universitet som publicerar egna elektroniska tidskrifter med nytt material. På en del universitet finns det planer på att vidareutveckla möjligheten att publicera även denna typ av material, t. ex. bland deltagare i DiVAsamarbetsprojektet. De två system som används för elektronisk publicering av forskningsmaterial stödjer båda OAI-PMH (DiVA 5 universitet/bibliotek + eprints 1 universitet). 7 Flera lärosäten planerar dock att antingen övergå till ett nytt system eller håller på att utveckla ett själva och vill satsa på OAI- PMH kompabilitet i de nya systemen. Av kartläggningen har även framkommit att flera universitet/högskolor står i startgroparna när det gäller nya e-publiceringsprojekt, dock mest inriktade på examensarbeten. Detaljerna framgår av bilaga 1. Några sammanfattande siffror: 8 Typ av publikation Internet-tjänst Antal universitet/högskolor Avhandlingar Spikning 3 Information om 12 nya avhandlingar Abstract 13 (pdf/text html) Fulltext 13 (pdf) Forskningsrapporter Tidskrifter Examensarbeten S-WoPec/ S-WoBA Andra 5 3 (text/html; i vissa fall kombinerad med pdf) 7; flera planerar att starta med examensarbeten (pdf) 6 Det har skrivits mycket om S-WoPEc och S-WoBA, därför koncentrerar vi oss på de outforskade fälten. 7 I ramen för ex-jobbs-projektet http://www.lub.lu.se/lucep/activities/oai-etc/ har skapats en modul för OAI export för Lotus Notes, som används på BTH i databasen för examensarbeten. Malmö högskolan har planer på att installera denna modul i sin Lotus Notes databas och använda den även för publicering av forskningsmaterial. 8 Materialet i bilagan 1 delades ut vid tre av presentationerna och det kom lite feedback på uppgifterna. Om information om just ditt lärosäte inte stämmer, hör av er till oss för vidare komplettering. 7

I mars 2003 var uppskattningsvis 1100 avhandlingar från svenska universitet tillgängliga i fulltext på Internet. Sex tidskriftstitlar i fulltext kunde spåras till svenska universitet/bibliotek och ca 2500-3000 examensarbeten. Tekniska lösningar Som framgår av vår undersökning, finns det ett antal tekniska lösningar som används för elektronisk publicering av metadatan om fulltexter. Man kan dela upp dem i två olika grupper textbaserade lösningar utan databasstöd och databasbaserade lösningar. De databaser som används i de flesta fall är relationsdatabaser (Access, MySQL, SQL-server, PostgreSQL, Oracle) och Lotus Notes. När det gäller paket-lösningar dvs. publiceringssystem används Eprints (1 universitet; bygger på MySQL) och DiVA (5 universitet/högskolor, bygger under en övergångstid på Oracle. Just nu befinner sig DiVA i ett övergångsstadium från en relationsdatabas till en XML-databas). Komplexitet på de tekniska lösningar och komplexitet på tjänster som de möjliggör skiljer sig avsevärt. Från enkla webbsidor med enbart bläddringsmöjlighet till en komplex webbplats med strukturerad sökning, stöd för URN:NBN, flöde för metadata till olika system (OAI-PMH gränssnitt, poster i olika format, flöde till LIBRIS) och elektronisk pliktleverans till KB och långtidslagring. Av kartläggningen framgick även att många universitet/högskolor ser sig omkring och vill satsa på ett system för att rationalisera sitt arbete eller för att de befinner sig i planeringsstadiet för ett e-publiceringsprojekt. Det vore nyttigt att en oberoende utvärdering görs av tekniska lösningar som används i Sverige / finns tillgängliga. Det skulle bidra till att BIBSAM/andra organ kunde ge välbelagda rekommendationer baserade på kriterier som t. ex. komplexitet på tjänsterna, framtidspotential och kostnader. Organisatoriska former för akademisk publicering Trots att vår undersökning koncentrerade sig på de tekniska lösningarna, kom frågan om organisatoriska former up. En grundligare undersökning låg utanför vårt intresse och kunde inte rymmas i ramen för detta projekt. Av den information vi fick ta del av, kan man dra en slutsats att en stabil organisation och finansiering av verksamheten har direkt samband med 8

volymen av publicerat material. Organisatoriska former varierar mycket. Det glädjande är att det finns ett antal bibliotek vid svenska universitet och högskolor som har fått uttalat stöd och uppdrag från sin moderorganisation att ta hand om elektronisk publicering. Dock har man bara i enstaka fall även fått igång en fungerande organisation och en ekonomisk modell för drift och produktion. Vid ett flertal av biblioteken drivs elektronisk publicering i projektform utan några klara framtidsplaner och i några fall även utan en extern finansiering. Det finns även universitet som har bestämt att elektronisk publicering skall drivas utanför biblioteket, men oftast är bibliotekspersonal inblandad i någon form. 9

Gemensam ingång till publicerad information Målet för projektet var att skapa en gemensam ingång till fulltextpublicerade dokument vid svenska universitet och högskolor. Av undersökningen framkom att det huvudsakligen finns tre publikationstyper som publiceras elektroniskt genom bibliotekens försorg eller med inblandning av biblioteken avhandlingar (doktorsavhandlingar, licenciatavhandlingar), forskningsrapporter, examensarbeten. I enstaka fall även elektroniska tidskrifter. Den mest omfattande publiceringen sker när det gäller avhandlingar. Uppskattningsvis har 1200 avhandlingar publicerats elektroniskt (030401). 9 Därför har vi i första hand inriktat oss på att lyfta upp information om avhandlingar. Avhandlingar är även den typ av publikationer som är mest intressant för en inhemsk publik. Många av universiteten ser avhandlingar som möjlighet att sprida information om lärosätets forskning och det är inte ovanligt att avhandlingar är omskrivna i form av pressmeddelanden och artiklar i dagspressen. En gemensam portal med publicerade avhandlingar/andra forsknings dokument vid svenska universitetet och högskolor kan fylla följande funktioner: Ge en snabb orientering över den pågående forskningen inom olika forskningsfält Ge en samlad ingång till information för allmänheten tredje uppgiften Ge möjlighet att snabbt delta i internationella tjänster genom att exponera metadata från en gemensam källa (tex. ETD katalog) Ge möjlighet att dra nytta av den pågående utvecklingen på områden som långtidslagring och URN:NBN 10. Det är inte troligt att alla som publicerar avhandlingar/annat forskningsmaterial i dagsläget kan snabbt enas om gemensamma riktlinjer när det gäller den tekniska och semantiska interoperabiliten och därför föreslår vi att bygga upp / skapa förutsättningar stegvis. Det bör dock 9 Om man inte räknar S-WoPEc / S-WoBA som drivs med BIBSAM:s stöd, dock utan i många fall utan en direkt inbladning av biblioteken. Som undantag kan nämnas Ekonomikums bibliotek i Uppsala som använder ett lokalt system för att publicera forskningsrapporter och metadata sedan överförs till S-WoPEc / S-WoBA. 10 Drivs som ett samarbetsprojekt mellan KB och UUB/Enheten för digital publicering 10

understrykas att fem lärosäten i Sverige 11 redan har enats om användning av en ett gemensamt XML schema for fulltextdokument och är därmed interoperabla i mycket hög grad. 12 Tjänst för exponering av metadata i olika format Av undersökningen framkom att i dagsläget är det bara 6 universitet/högskolor som publicerar forskningsmaterial och stödjer OAI.- PMH. Dessa använder publiceringssystem (EPrints eller DiVA) DiVA stödjer genom användning av välspecificerat XML-schema dessutom andra format (MARC21, DC, Endnote mm. 13 ) och URN:NBN. Schemat ger även möjlighet att beskriva metadata för långtidslagring och används på detta sätt i KB:s långtidslagringsarkiv. Genom att deltagare i DiVA-samarbetet har enats om att metadata för harvesting i OAI-PMH blir tillgängliga direkt från DiVA-portalen 14 har gemensamma regler för implementering av OAI-PMH (både sets och metadataformat) möjligtgjorts. Denna strategi visade sig också betydelsefull för informationsspridning för de deltagare i portalen som har publicerat få dokument, eftersom man redan från början kan erbjuda ett stort antal fulltextdokument och därmed öka intresset för harvesting som görs av stora aktörer. I ramen för Bibsamsprojektet testade vi att överföra metadata från OAI kompatibla arkiv 15 och från ett arkiv som inte stödjer OAI 16, och det med hjälp av alternativa metoder. Förslaget var även att göra dessa metadata tillgängliga för OAI-harvesting från en gemensam ingång. På detta sätt skulle även andra funktioner/tjänster som utvecklades i ramen för DiVA projektet kunna återanvändas och erbjudas även till andra universitet. Som exempel kan vi nämna metadataflödet för att kunna delta i URN:NBN eller automatisk generering av en basic MARC post. Som utvecklas vidare i följande avsnitt vidade det sig snart att det inte räcker med att skapa förutsättningar för den tekniska interoperabiliten och att frågor om olika nivåer på tjänsterna som skall stödjas och därmed harmonisering av metadata som skall samlas in/överföras bör diskuteras vidare. Inte helt oväntat - frågan om semantisk interoperabilitet återkommer även här. 11 Stockholms universitet, Södertörns högskola, Umeå universitet, Uppsala universitet, Örebro universitet. 12 http://publications.uu.se/schema/1.0/diva.xsd 13 Exempel http://publications.uu.se/theses/abstract.xsql?dbid=3339 ; se längst ner på sidan 14 http://publications.uu.se/portal 15 I dagsläget SLU, Stockholms universitet, Södertörnshögskolan, Umeå universitet, Uppsala universitet, Örebro universitet. 16 KTHB avhandlingsdatabas 11

Teknisk bakgrund och demo av den gemensamma söktjänsten Projektet gav oss ett tillfälle att testa olika tekniska lösningar för exponering, överföring/harvesting, lagring och återvinning av metadatan. En introduktion till hur OAI-PMH fungerar i praktiken finns tillgänglig på projektets sidor. 17 I ramen för projektet har ett gemensamt sökgränssnitt till överförda metadata skapats. Utgångspunkten för projektet var att kunna återanvända Diva-portalens 18 komponenter i så stor utsträckning som möjligt. Det har väldigt snabbt visats att detta inte var möjligt pga. kvalitet på tillgängliga/överförda metadata (både olika tolkningar av standarder, men även problem med granulariteten på metadatan i de ursprungliga tjänsterna och på grund av olika vokabulärer). Därför har en enklare sökgränssnitt skapats. Lagring Metadatan lagras i en så kallad native XML-databas i rent XML format. Vi testade olika produkter som är fritt tillgängliga och bestämde oss att i den konkreta applikationen använda databasen exist 19. En kommenterad översikt över databaser som testades finns på projektets sidor. 20 Exponering Sex arkiv som ingick i pilotstudien var OAI-PMH-kompatibla och metadata kunde hämtas direkt genom harvesting. Som en alternativmetod till OAI-PMH för överföring av metadata från icke-kompatibla arkiv gjordes först en konvertering till ett XML-format. Sedan harvestade vi data. Denna metod är mycket enkel att implementera och användes tidigare i ett projekt vid UU där en metadatakatalog från olika källor byggdes. 21 17 Ta gärna del av introduktionen om du inte är bekant med protokollet http://publications.uu.se/afo/ 18 http://publications.uu.se/portal/ 19 http://exist-db.org/ 20 http://publications.uu.se/afo/ 21 http://publications.uu.se/metadata/ 12

Harvesting/överföring Även för harvesting undersöktes ett antal olika mer eller mindre färdigskrivna program som harvestar databaser med hjälp av OAI-PMH. I vår applikation använde vi en harvester som är utvecklad av OCLC. 22 Vi har vidareutvecklat programmet så att insamlade metadataposter direkt kan bäddas in i RDF (efter att de har hämtats från ett OAI Repository med OAI- PMH) och automatiskt sparas i en XML-databas. Återvinning 23 Som nämns tidigare har överförda poster varit av skiftande kvalitet både när det gäller olika tolkningar av standarder 24 men även problem med granulariteten på metadatan i de ursprungliga tjänsterna samt icke kompatibla vokabulärer. Därför har ett enklare sökgränssnitt skapats. Eftersom metadataposterna sparas som XML i en XML-databas kan de enkelt sökas fram och användas på olika sätt. I vårt exempel har vi genom användning av XSL och XSLT skapat en enkel sökfunktion och träfflista. Genom att posterna är inbäddade i RDF öppnas även en möjlighet till att för informationsåtervinning använda ävem verktyg som är baserade på RDF. Detta öppnar ytterliggare möjligheter och är ett bra exempel på den tekniska interoperabiliteten. För en sammanfattning över de tekniska lösningarna se projektets hemsida. 25 22 http://www.oclc.org/research/software/oai/harvester.shtm 23 http://publications.uu.se/afo/search.html 24 Trots att i ramen för OAI-PMH använder man simple DC, något som bör vara enkel att efterströva, visade de harvestade poster en variation i tolkningar av formatet 25 projektets hemsida: http://publications.uu.se/afo/ 13

Teknisk lösning Webbportal XQuery, XML, XSL, HTML Repository (XML database) XML OAI-PMH Harvester Transformering XML ARKIV 1 DiVA ARKIV 2 SLU ARKIV 3 KTH 14

Problem som har lösts / problem som skall lösas Överföring av metadatan Själva överföringen och underhållet av databasen innebar inte några stora problem. Sedan de tekniska problemen löstes (dvs. sedan vi anpassade och fick igång en fungerande harvester för överföring av metadata samt ett bra sätt att spara dem) har allting fungerat bra. Genom den tidigare erfarenheten från metadataprojektet och genom testet som genomfördes i ramen för detta projekt vet vi att alternativa metoder (ett gemensamt XML-schema) för exponering och överföring av metadatan är lika effektiva som fullt stöd för OAI-PMH, men betydligt enklare att implementera för dem som levererar information. Genom den undersökning av publiceringsverksamhet som föregick den tekniska implementeringen visade det sig att enbart få publicerande högskolor/universitet stödjer OAI-PMH. Flera av dem som inte stödjer OAI- PMH idag planerar att övergå till nya verktyg för publicering. Att bestämma sig för tekniska lösningar, implementera dem och driftsätta kan ta sin tid. Därför under en övergångsperiod kan alternativa metoder vara ett snabbt, billigt och enkelt genomförbart instrument för den tekniska interoperabiliteten. Ett förslag från seminariet var att satsa på en interimistisk lösning för OAI-PMH kompatiblitet som kan driftsättas snabbt. I ramen för detta kan även andra interoperabilitetsfrågor diskuteras. Kvalitet på metadata De praktiska testerna som genomfördes visade att kvaliteten på överförda metadatan var skiftande. De metadata som var tillgängliga för harvesting från alla tjänster (den minsta gemensamma nämnare) var simple DC metadata. I vår analys har vi även inkluderat några poster från det parallella projektet som omfattar examensarbeten och poster framställda vid 15

Ekonomikums bibliotek vid UU som är en del av S-WoPec/S-WoBA och även DiVA portalen 26 Problem som vi upptäckte kan man sammanfatta som: Tolkning av formatet Olika nivåer på beskrivningar (granularitet) Slarvfel (felstavningar) Ej kompatibla vokabulärer För att kunna skapa en gemensam ingång till information i form av strukturerad sökning men även för att kunna implementera OAI-PMH på ett meningsfullt sätt behöver man komma överens om konkreta tolkningar av formatet, obligatoriska nivåer på beskrivningar och vokabulärer. Som har nämnts tidigare har redan fem universitet i Sverige kommit överens om användning av ett XML-schema lämpligt för akademiska publikationer. Vid rätt användning förebygger schemat att dessa interoperabilitetsproblem uppstår. I ramen för detta schema har även vokabulärer fastställts. 27 Vissa av frågorna har även uppmärksammats i ramen för projektet Samordning av söktjänster och metadatarepositorier för examensarbeten dock på en förenklad nivå som inte gör det möjligt att skapa avancerade tjänster men som kan vara användbart på just examensarbeten om antalet inte blir för stort. Med stigande antal publikationer riskerar man att tjänsterna som använder bara enkla metadata inte blir särskilt användbara. Nivåer på tjänsterna Förutsättningen för mera avancerade tjänster är att metadata som ligger till grund för tjänsterna är av en jämn kvalitet när det gäller formatet och tolkning av formatet, men även de vokabulärer och beskrivningsnivåer som används. Vid seminariet i Uppsala presenterades ett antal tänkbara nivåer för metadata. Den högsta nivån var representerad i DiVA XML-schema. Den 26 Dessa poster som nyligen överfördes till DiVA från en annan lösning genomgår en uppgradering till den standarden det XML- schema som används i ramen för DiVA portalen. Genom att vi hade möjlighet att analysera dem i ramen för detta projekt kunde vi upptäcka en del inkonsekvenser i tolkningen av DC och använda dessa poster som ett illustrerande exempel. 27 http://publications.uu.se/schema/1.0/diva.xsd 16

lägsta nivån är representerad i tjänster som är baserade på simple DC. Ett exempel på sådan tjänst är den demoportal som skapades för detta projekt. 28 Som exempel på nivåerna kan man t. ex. bestämma vad som krävs (vilka metadata och vilka vokabulärer) för att kunna delta i OAI-PMH baserade tjänster och producera simple DC metadata/ MARC XML för att kunna delta i URN:NBN för att kunna delta i DiVA portalen med mera En konkret tillämpning som efterfrågades i samband med presentationen av projektet på Ansvarsbiblioteksmötet för humaniora var möjlighet att integrera information om spikade/nyutkomna avhandlingar i ämnesportalerna, t. ex. Agora 29. Detta kan uppnås genom att utöka det minimiformat som simple DC representerar med t. ex. spikningsdatum, ansvarig institution och en gemensam kategori/ämnesvokabulär. En del av dessa uppgifter skulle kunna skapas direkt i den lagringsplatsen för metadata som föreslås genom en mappning mellan tex. en institution och Agoras kategorilista. 28 http://publications.uu.se/afo/search.html 29 http://agora.uu.se 17

Hur/skall vi gå vidare? På kort sikt På seminariet i Uppsala i mars 2003 där projektet avrapporterades diskuterades ett antal konkreta förslag på hur man kan gå vidare med projektet. Ett av förslagen är att satsa på interimistisk lösning för OAI-PMHkompatibilitet. Detta kan både skapa möjlighet att uppmärksamma och gemensamt lösa vissa interoperabilitetsfrågor men även påskynda internationell spridning av metadata om forskningspublikationer, speciellt avhandlingar. I ramen för den gemensamma lagringsplatsen kan man även berika metadata genom t. ex. logiska operationer och mappningar. Detta möjliggör att även de arkiven som inte fullt ut stödjer den gemensamma metadatastandard som tagits fram för lagringsplatsen närmar sig denna standard. Ett exempel är om levererade metadata saknar t. ex. publikationstyp då man på ett enkelt sätt kan komplettera denna uppgift utan att det ursprungliga arkivet behöver byggas om. Detta kan ha betydelse för icke OAI.-PMH-kompatibla arkiv som funderar på att övergå till nya tekniska lösningar men som ändå vill sprida information om sin forskning. Förslaget vidare gör det möjligt att i ett relevant forum och på ett konkret sätt diskutera interoperabilitetsfrågor. Det skapar goda förutsättningar för att komma fram till överenskommelser och rekommendationer som kommer att bli genomförbara. Förslaget handlar alltså om att snabbt komma fram till konkreta och användbara lösningar. En skiss över den tekniska lösningen följer på nästa sida 18

Innehållsleverantör OAI-PMH Berikning av metadata Repository Transformering Transformering OAI-PMH XML ODBC ARKIV 1 ARKIV 2... (Oracle) (SQL Server) ARKIV N (okänd) På lång sikt Genom att dessa frågor diskuteras och konkreta överenskommelser och rekommendationer tas fram och används i praktiken, kommer man ha möjlighet att återanvända resurserna i många olika sammanhang. Den interimistiska lösningen kommer då inte längre fylla någon funktion. Denna strategi kommer på sikt leda till att svenska arkiv kan samverka på ett meningsfullt sätt. 19

Interoperabilitet och varför är det viktigt? Nyckelordet när det gäller interoperabilitet är att ha möjlighet att utbyta och återanvända information i så stor utsträckning så möjligt. Interoperabilitet har sammanfattats på ett bra sätt av t. ex. Paul Miller 30 : To be interoperable, one should actively be engaged in the ongoing process of ensuring that the systems, procedures and culture of an organisation are managed in such a way as to maximise opportunities for exchange and reuse of information, wheteher internally or externally. Genom bland annat våra praktiska tester framkom ganska klart att det är interoperabilitetsfrågor som bör prioriteras under de närmaste perioden. Det handlar förstås om den tekniska interoperabiliteten men framförallt om den semantiska interoperabiliteten. Det räcker alltså inte med att man förlitar sig på vedertagna standarder och rekommendationer. Tolkningen av dessa och egna utvidgningar kan man inte standardisera. För detta behövs en dialog och en rad överenskommelser mellan aktörer som vill vara interoperabla. Målet är ju att skapa en möjlighet att återanvända information i så stor utsträckning som möjligt och att kunna bygga meningsfulla tjänster. Bibliotek, och i synnerhet de digitala biblioteken, är inte längre isolerade. Därför bör man verkligen ta dessa frågor på allvar. Genom ett par konkreta förslag läggs grunden för olika nivåer på interoperabilitet och vad som krävs för att kunna integrera publicerade resurser i olika redan existerade tjänster samt skapa nya meningsfulla tjänster. Den fortsatta dialogen kräver dels policy övervägningen och förståelse för informationsteknologins centrala betydelse. Annars förlorar de svenska forskningsbibliotek lätt sin nu gripbara möjlighet att leda de närmaste årens utvecklingsarbete. 30 Miller, P 2002, Interoperability. What is it and Why should I want it? Ariadne Issue 24. http://www.ariadne.ac.uk/issue24/interoperability 20

Rekommendationer från förstudien Att utvärdera existerande publiceringssystem utifrån interoperabilitetsperspektiv En oberoende utvärdering av de publiceringssystem som används i Sverige / finns tillgängliga 31 bör göras. I utvärderingen bör hänsyn tas till komplexiteten av tekniska lösningar och tjänster som systemet stödjer, till möjligheten att återanvända information (teknisk och semantisk interoperabilitet), långtidslagring. Det vore nyttigt att även ta fram beräkning på anskaffningskostnader (för systemet men även t. ex. beräkningar på hur mycket det kostar att anpassa fritt tillgängliga system och hur lång tid det tar innan de tas i drift) och driftkostnaderna och andra faktorer som t. ex. hur mycket en enskild institution skall kunna påverka den framtida utvecklingen av systemet. Att skapa en interimistisk lagringsplats för att sprida metadata om framförallt avhandlingar via OAI-PMH i enhetligt format Att skapa en interimistisk lösning genom att överföra metadata från icke OAI-PMH kompatibla fulltextarkiv med hjälp av alternativa metoder (ett gemensamt XML-schema) till en gemensam lagringsplats kommer innebära att alla arkiv i Sverige snabbt blir OAI-PMH kompatibla. Denna metod är billig och enkel att implementera. Detta kommer även bidra till att metadata kan harmoniseras och större interoperabilitet kan uppnås både på kort och lång sikt. En tjänst för exponering av metadata med OAI PMH bör kopplas till denna plats. Att utarbeta rekommendationer på vokabulärer med konkreta exempel av tillämpningsapplikationer Rekommendationer för sets struktur och vokabulärer lämpliga för forskningsdokument (semantisk konsistens i metadata) tas fram. Att utarbeta en översikt över olika nivåer på tjänsterna med konkreta metadatamodeller som stödjer dessa nivåer 31 Några av dem i alfabetisk ordning: DiVA, D-Space, EPrints, GreenStone 21