Följande publikationer skulle digitaliseras:

Relevanta dokument
Rolf-Allan Norrmosse. SCB:s erfarenheter av digitalisering av Bidrag till Sveriges officiella statistik (BiSOS) Paper presenterat vid konferensen

SCB:s erfarenheter av digitalisering av Bidrag till Sveriges officiella statistik (BiSOS)

Verktyg för analys och teckenigenkänning av tabeller (VATT)

Systemet för den officiella statistiken i Sverige

Slutrapport. Utbildningsforskning och reformpolitik under 50 år speglad i Torsten Huséns arbetsbibliotek

Projektplan. Digitalisering av Kattresan

E-PLIKT E-PLIKT FÖR GÖTEBORGS UNIVERSITET

Digitalisering. enligt Kungliga biblioteket

Sammanfattning. 1. Inledning

Allmänna riktlinjer för katalogisering av e-tidskrifter och e-böcker Antagna av Expertgruppen för LIBRIS Samkatalog,

Libris för folkbiblioteken!

Allmänna riktlinjer för katalogisering av e-tidskrifter och e-böcker Antagna av Expertgruppen för LIBRIS Samkatalog,

Digital dokumenthantering för ABM II:1

Slutrapport Projektet OCR-tolkning för indexering av,

Val av samlingar Nationalbiblioteket Digitaliserings- och konserveringstjänsten

Samverkan och nätverk inom ABM-området. Infrastruktur i samverkan. 11 november Gunnar Sahlin.

Statens historiska museers digitaliseringsstrategi

Verktyg för analys och teckenigenkänning av tabeller (VATT)

Riktlinjer och mål för digitaliseringsarbete

Mediaplan för KTH Biblioteket. Version 1.1

Policy för förvärv och medieurval vid Mittuniversitetets bibliotek

Bevarandestrategi för Uppsala universitetsbibliotek. Beslutad av Biblioteksnämnden

Innehåll 2 Inledning 3 Uppgiften 3 Hjälpmedel 3 Undertitel eller anmärkning? 4 Anmarkning: bibliograf i ochleller bilaga 6

Biotopskydd och naturvårdsavtal på skogsmark 2015 JO1402

Avgifter/hyror för nybyggda lägenheter

Förskoleverksamhet och skolbarnsomsorg: Barn och personal per 15 oktober 2009 UF0123

Utgivning och försäljning av litteratur

Sammanställning av tillvägagångssätt och erfarenheter vid litteratursökning på uppdrag av Nationellt kompetenscentrum Anhöriga, januari 08-maj 08.

Metadata utvecklingslinjer omvärldsbevakning. Innehåll. Expertgruppen för metadata. Version

Hantering av verksamhetsinformation

Skyddad natur 2007 MI0603

Demografisk analys 2011 Innehållsförteckning Administrativa uppgifter... Kvalitetsdeklaration... 4

Program Strategi Policy Riktlinje. Digitaliseringsstrategi

E-plikten. Expertgruppen för metadata 20 maj

Medieplan. för Högskolebiblioteket i Skövde

Studentuppsatser/Examensarbeten registreras men fulltextpublicering sker frivilligt.

Integration - Analys 2008 LE0105

Prisutveckling på el och naturgas samt leverantörsbyten, 2011 EN0304. Innehållsförteckning

Forskningsbiblioteken som aktörer i publiceringsfrågor

Demografisk analys: På egna ben. En beskrivning av ungas flytt från föräldrahemmet

E-plikt för kommuner och myndigheter

Förutsättningar för gallring efter skanning 1 (5) Tillsynsavdelningen Datum Dnr RA /1121 Håkan Lövblad

Nationell databrunn - möjligheter och behov

Skyddad natur. Statistiska centralbyrån SCBDOK (11) MI0603. Innehåll

Hur tänker KB ta hand om högskolornas e-publikationer?

Taxeringsutfallet Taxeringsår 2013, inkomstår 2012 OE0701

Det fanns en dröm! En berättelse om övergången från mikrofilmad dagspress till digital

Ajtte & sametinget: Det är en fördel att enkelt kunna hämta in poster från andra bibliotek.

Jordbruksstatistisk Årsbok 2014 JO1901

ATT FRAMSTÄLLA OCH LAGRA ELEKTRONISKA HANDLINGAR. en handledning för myndigheter i Västra Götalandsregionen och Göteborgs Stad

När: Fredag 18:e november :15 Vem: Peter Fredin & Daniel Jansson Var: Libris användargrupp katalogisering

En metadatadriven arkitektur/plattform. Johan Erikson, SCB

GÖTABIBLIOTEKEN. PM för katalogansvariga i Göta

UTBILDNING I E-PLIKT VID GÖTEBORGS UNIVERSITET

Stockholms universitetsbibliotek MEDIEPLAN

VAL AV SAMLINGAR FÖR DIGITALISERING - KONSERVERINGSÅTGÄRDER. Stina-Maria Brantberg Konservator

Taxeringsutfallet Deklarationsår 2014, beskattningsår 2013 OE0701

Hälso- och sjukvårdens verksamhet statistik om vårdtillfällen, vårdtid, operationer, läkarbesök

Bevarande och gallring av webbplatsinnehåll riktlinjer för myndigheter

Statistik om hälso- och sjukvårdspersonal antal legitimerade och arbetsmarknadsstatus

Registrera/publicera i DiVA

Biblioteksstatistik Projekt och Planer

Prioritet. Varför digitalisera? Apparater; i allmänhet. Datorn

KVALITETSDEKLARATION

Stockholms universitetsbibliotek. Snabbt, innovativt och relevant

Koppla. Stimulera. Katalysera

Bebyggd mark i strandskyddsområden 2006, 2009 MI0807

ATT FRAMSTÄLLA OCH LAGRA ELEKTRONISKA HANDLINGAR

Biotopskydd och naturvårdsavtal på skogsmark 2008 JO1402

PROJEKTBESKRIVNING fastställd av styrgruppen

Verksamhetsplan Stockholms universitetsbibliotek

Forum för nationell bibliotekssamverkan och utveckling

Slutrapport. Arbetsgruppen för Högskolans e-publicering. Till Forum för bibliotekschefer, Sveriges universitets- och högskoleförbund (SUHF)

Kungl. bibliotekets kunskapsstrategi

KB, E-boken och den egna digitaliseringen.

Öppna Samlingar Tema Resor

Publikationstyp Kapitel i bok, del av antologi

Vision KB:s syfte, vision och målbild

Biotopskydd och naturvårdsavtal på skogsmark 2011 JO1402

SCB-Indikatorer 2014 AA0101

Biotopskydd och naturvårdsavtal på skogsmark 2012 JO1402

Förskoleverksamhet och skolbarnomsorg: barn och personal per 15 oktober 2007

Befolkningsframskrivningar

PM - statusrapport e-böcker

STATISTIKENS FRAMSTÄLLNING

Publikationstyp Konferensbidrag

Medieplan. för Högskolebiblioteket i Skövde

Registrera konferenspublikationer i DiVA

Marie Gustafsson. Böcker. Böcker. Tidningar och. Utskrifter

Allmänna val, valresultat 2006 ME0104

Europaparlamentsval, valresultat 2009 ME0109

Samhällets utgifter för kultur Referensår Produktkod KU05

Biotopskydd och naturvårdsavtal på skogsmark 2013 JO1402

Ett specialbibliotek om Sverige

Statskontorets myndighetsanalys

Öppen tillgång Nationella riktlinjer

Metadata i e-pliktleveranser

Digital dokumenthantering

Bidrag till Sveriges officiella statistik. M, Postverket. Generalpoststyrelsens

Transkript:

Rolf-Allan Norrmosse, Statistiska centralbyrån, Stockholm Digitalisering av Bidrag till Sveriges officiella statistik (BiSOS) och andra tryckta statistiska publikationer 2006-2011 Projektet pågick mellan och syftade till att med strukturellt stöd digitalisera och tillgängliggöra bokverket Bidrag till Sveriges officiella statistik (BiSOS) på internet. BiSOS är det viktigaste och mest omfattande verket med svensk officiell statistik från mitten av 1800-talet till 1900-talets början. Verket är indelat i 23 ämnesområden eller serier. Totalt består verket av 145 000 sidor text och tabeller fördelat på 1495 häften med utvik i färg, gråskala och svartvit. Riksbankens Jubileumsfond (RJ) bekostade digitalisering, bildfångst (skanning), teckenigenkänning (OCR-tolkning) och framställning av publiceringsfärdig pdfpublikation samt bilder i formatet TIFF, medan SCB bekostade upphandling, projektledning, preparering av materialet, kvalitetssäkring och publicering på SCB:s webbplats samt katalogisering i den nationella biblioteksdatabasen LIBRIS. Efter genomförd upphandling tecknades avtal i juli 2007 med Logica (tidigare VM-data) om tjänsten digitalisering. Som underleverantör för hela tjänsten använde Logica Infodisk Modo (tidigare Infodisk Media), Riga, Lettland. I maj 2009 var BiSOS digitalisering färdig. Tidsplanen hölls. Arbetet kostade totalt 1,2 milj. kr av det beviljade anslaget på 4 milj. kr. Följande publikationer skulle digitaliseras: föregångare till BiSOS 1811-1857 4 serier i Sveriges officiella statistik 1911-2001 De 6 tidiga serierna av statistiska meddelanden 1912-1953 samt Statistiska centralbyråns stencilerade publikationer 1952-1963 Index Statistiska meddelanden 1963-2001 Statistisk tidskrift 1860-1913, som innehåller Sveriges officiella statistik i sammandrag. Sammandragen är föregångare till Statistisk tidskrift för Sverige 4 serier med statistik från Kommerskollegium 1899-1962 Återstående monografier i serien Historisk statistik för Sverige Precis som för BISOS tillhör denna statistikforskningens infrastruktur och även Sveriges kulturarv. Genom digitalisering kan originalpublikationerna skyddas från slitage och bevaras. Att den digitala versionen blir fritt tillgänglig över internet är till nytta inte enbart för forskningen utan även för den enskilde medborgaren. 1

Verktyg för analys och teckenigenkänning av tabeller (VATT) : en förstudie Många kunder eller användare har behov av att återanvända och bearbeta tabellerna. Att teckentolka tabellerna kräver i dag stora manuella insatser, eftersom tabeller är uppställda på allehanda sätt. För att tillgodose denna efterfrågan behövs ett tabellanalysverktyg som på ett kostnadseffektivt sätt kan få över statistiska uppgifter till databaser eller kalkylark. SCB ville i en förstudie undersöka, om det finns något tabellverktyg tillgängligt på marknaden, som kunde anpassas till en statistikproducents behov, eller, om det inte fanns, avsåg SCB att beräkna kostnaden för att utveckla ett sådant verktyg. I förstudien togs fram ett antal typfall på hur tabeller har varit uppbyggda sedan 1811. Denna förstudie har inte kunnat genomföras. Projektets resultat och resonemang om dessa Publicering på SCB:s webbplats Det viktigast resultatet av projektet Digitalisering av Bidrag till Sveriges officiella statistik (BiSOS), inklusive fortsatt digitalisering av tryckta statistiska publikationer för BiSOS återstående anslag, är att de digitaliserade publikationerna har publicerats på SCB:s webbplats under Hitta statistik > Historisk statistik och därmed blivit fritt tillgängliga på internet. Dessutom katalogiseras både den digitaliserade och den tryckta versionen i den nationella biblioteksdatabasen LIBRIS. Bildfiler i formatet TIFF Ett annat resultat är att bildfångstens kvalitet är så hög att denna aldrig behöver göras om. Det var inte möjligt att inom projektets ekonomiska ramar OCR-tolka tabellerna med tillfredsställande kvalitet. Vi bedömde att det var bättre att spara alla bildfiler i formatet TIFF, vilket är viktigt av flera skäl. Formatet är arkivgodkänt av Riksarkivet. Vi har tillgång till originalen och kan, när tekniken medger, göra en bra OCR-tolkning av tabeller. Bilderna arkiveras/sparas okomprimerat i formatet TIFF. Överföring av tabelldata till databaser eller kalkylark Detta kommer SCB att dra nytta av i det kommande projektet Verktyg för analys och teckenigenkänning av tabeller (VATT) en förstudie. Teckenigenkänning (OCR-tolkning) Innehållsförteckningar är viktiga, eftersom dessa oftast innehåller många relevanta ord, och därför bör vara så korrekta som möjligt. Kraven på OCR-tolkning fastställdes till följande krav på korrekthet på tecken- och ordnivå: Svenska innehållsförteckningar: 99,9 % Franska och engelska innehållsförteckningar: 99,5 % Annan text: 85 % 2

Ett särskilt problem med text från 1800-talet är att stavningssättet var ett annat än det som används i dag. Språkdata vid Göteborgs universitet har Olof Dahlins ordbok från 1855 i digital version och SCB har fått lov att låta leverantören använda denna vid OCRtolkningen. För att få den kvalitet vi eftersträvar på OCR-tolkningen jämför man alla ord mot denna ordbok. Om ordet inte finns i ordlistan visas det för OCR-operatören som då manuellt godkänner alternativt korrigerar ordet. På detta sätt har korrektheten blivit betydligt högre än i våra krav. Dahlins ordbok blir kompletterad med nya ord och det är denna nya Dahlins ordbok som vi skickar tillbaka till Språkdata för framtida forskning. OCR-verktyget klarade även av frakturstil utan ändring av SCB:s krav på korrekthet. URN:NBN:SE identifikator för digitala häften och bildfiler I väntan på att e-plikt (leveransplikt av elektroniska publikationer till Kungl. biblioteket) ska komma för digitaliserade tryckta publikationer, har den unika identifikation URN:NBN:SE:SCB används. URN:NBN betyder Universal Resource Name och detta namn ändras aldrig. SCB är Statistiska centralbyråns domän. Från URN:NBN länkas till rätt fil via en särskild dator på KB, som håller reda på den aktuella url-adressen. URN:NBN är framtidssäker och har använts som identifikator för våra digitaliserade böcker och för bildfiler i formatet TIFF. Arbetssätt och metoder Här ges några exempel på arbetssätt och metoder både vid upphandling och i digitaliseringsarbetet: Leverantörens arbetsmetoder och rutiner har granskats för att minimera SCB:s arbete med kvalitetssäkring. Beskrivningsblad för att kommunicera med leverantören har skapats. En särskild inledningssida har införts för att beskriva föregångare, efterföljare och översiktspublikationer, samt digitaliseringsinformation och URN:NBN. Dokumentegenskaper har beskrivits med metadata för att förbättra sökresultaten. Vissa inställningar har införts för att presentera det digitala häftet på ett optimalt sätt för användaren, t.ex. att hela bokuppslag alltid visas. Mervärden och förbättringar Projektet strävade att bevara det goda i det tryckta originalet och samtidigt åstadkomma en användarvänlig digital version. Resultatet blev mervärden eller förbättringar jämfört med den tryckta förlagan Skapad innehållsförteckning om sådan saknas. Innehållsförteckning finns alltid i början av ett häfte och är klickbar. I innehållsförteckningen har vid behov även länkats till annan innehålls- eller tabellförteckning. Bokmärken har länkats till lägsta nivå. 3

Liggande tabeller eller text har vridits till stående. Serie- och/eller volymuppgift har lagts till titelsidan om de saknas i den tryckta förlagan. Om en karta, utvikssida eller sida i ett häfte saknades, har inför digitalisering inlån skett från ett annat bibliotek. Det finns exempel på att den digitala versionen har blivit det enda fullständiga exemplaret. Användaren i centrum Projektet har arbetat med användaren i centrum. Angreppssättet har varit att få användarvänliga pdf-publikationer tillgängliggjorda på ett användarvänligt sätt. Varje serie inleds med en kort presentation på www.scb.se under Hitta statistik > Historisk statistik. Totalt har 450 000 sidor eller 2 800 böcker digitaliserats. Arbetets integrering i myndigheten samt hur arbetet kommer att vidareföras Själva arbetet med digitaliseringen har ökat kunskaperna om historisk statistik hos bibliotekspersonal, kundservice och övriga enheter på SCB. Information om vilken statistik som har digitaliserats har lagts ut på SCB:s webbplats i anslutning till det ämnesområde statistiken tillhör. Kunskapen om och tillgängligheten till digitaliseringen har därmed ökat för SCB:s personal. Nya forskningsfrågor som har genereras genom projektet Digitaliseringen underlättar användning av BiSOS och andra digitaliserade publikationer vid skrivning av forskningsrapporter eller uppsatser. En del tidigare mindre använda serier har resulterat i rapporter vid universiteten på grund av digitaliseringen. Webbstatistik över de digitaliserade publikationerna i SCB:s biblioteks regi visar att användningen av de digitala versionerna är större än de tryckta. Mest använt är Statistisk årsbok för Sverige och Befolkningsstatistiken (BiSOS A). På SCB:s webbplats har under Hitta statistik skapats ingången Historisk statistik, som innehåller de digitaliserade publikationerna. Publikationslista 1 Bakgrund till det material som skall digitaliseras. I: Avtal 2007-07-02 mellan SCB och VM-data Infra Solutions AB. Bilaga 1. Tjänstebeskrivning. Revision 1 2008-11-01. Framtagen inför upphandling av BiSOS 4

2 Digitalisering av Bokverket Bidrag till Sveriges officiella statistik (BiSOS) : Infodisk Media Report / Infodisk Media, Riga, Lettland. Teknisk beskrivning som togs fram av leverantören inför avslutning av BiSOS digitalisering i maj 2009. 3 Norrmosse, Rolf-Allan (SCB): Projekt Digitalisering och tillgängliggörande av bokverket Bidrag till Sveriges officiella statistik (BiSOS), 1851/55-1910. I: Att ge tillgång till äldre tryckta statistikpublikationer i dagens digitala värld vid tre nordiska centralbyråer. - Statistikermöte i Köpenhamn aug 2010. 4 Norrmosse, Rolf-Allan (SCB): SCB:s erfarenheter av digitalisering av Bidrag till Sveriges officiella statistik (BiSOS). Paper presenterat vid Konferensen Mötesplats inför framtiden, Bibliotekshögskolan i Borås, oktober 2009. 5 Digitaliserade publikationer i SCB:s regi med anslag 2006 från Riksbankens Jubileumsfond 6 Publikationer m.m. som inte rymts i anslag 2006 för digitalisering från Riksbankens Jubileumsfond. 7 Källa SCB 2009:2 om digitalisering av Statistisk årsbok för Sverige. 5