Rolf-Allan Norrmosse, Statistiska centralbyrån, Stockholm Digitalisering av Bidrag till Sveriges officiella statistik (BiSOS) och andra tryckta statistiska publikationer 2006-2011 Projektet pågick mellan och syftade till att med strukturellt stöd digitalisera och tillgängliggöra bokverket Bidrag till Sveriges officiella statistik (BiSOS) på internet. BiSOS är det viktigaste och mest omfattande verket med svensk officiell statistik från mitten av 1800-talet till 1900-talets början. Verket är indelat i 23 ämnesområden eller serier. Totalt består verket av 145 000 sidor text och tabeller fördelat på 1495 häften med utvik i färg, gråskala och svartvit. Riksbankens Jubileumsfond (RJ) bekostade digitalisering, bildfångst (skanning), teckenigenkänning (OCR-tolkning) och framställning av publiceringsfärdig pdfpublikation samt bilder i formatet TIFF, medan SCB bekostade upphandling, projektledning, preparering av materialet, kvalitetssäkring och publicering på SCB:s webbplats samt katalogisering i den nationella biblioteksdatabasen LIBRIS. Efter genomförd upphandling tecknades avtal i juli 2007 med Logica (tidigare VM-data) om tjänsten digitalisering. Som underleverantör för hela tjänsten använde Logica Infodisk Modo (tidigare Infodisk Media), Riga, Lettland. I maj 2009 var BiSOS digitalisering färdig. Tidsplanen hölls. Arbetet kostade totalt 1,2 milj. kr av det beviljade anslaget på 4 milj. kr. Följande publikationer skulle digitaliseras: föregångare till BiSOS 1811-1857 4 serier i Sveriges officiella statistik 1911-2001 De 6 tidiga serierna av statistiska meddelanden 1912-1953 samt Statistiska centralbyråns stencilerade publikationer 1952-1963 Index Statistiska meddelanden 1963-2001 Statistisk tidskrift 1860-1913, som innehåller Sveriges officiella statistik i sammandrag. Sammandragen är föregångare till Statistisk tidskrift för Sverige 4 serier med statistik från Kommerskollegium 1899-1962 Återstående monografier i serien Historisk statistik för Sverige Precis som för BISOS tillhör denna statistikforskningens infrastruktur och även Sveriges kulturarv. Genom digitalisering kan originalpublikationerna skyddas från slitage och bevaras. Att den digitala versionen blir fritt tillgänglig över internet är till nytta inte enbart för forskningen utan även för den enskilde medborgaren. 1
Verktyg för analys och teckenigenkänning av tabeller (VATT) : en förstudie Många kunder eller användare har behov av att återanvända och bearbeta tabellerna. Att teckentolka tabellerna kräver i dag stora manuella insatser, eftersom tabeller är uppställda på allehanda sätt. För att tillgodose denna efterfrågan behövs ett tabellanalysverktyg som på ett kostnadseffektivt sätt kan få över statistiska uppgifter till databaser eller kalkylark. SCB ville i en förstudie undersöka, om det finns något tabellverktyg tillgängligt på marknaden, som kunde anpassas till en statistikproducents behov, eller, om det inte fanns, avsåg SCB att beräkna kostnaden för att utveckla ett sådant verktyg. I förstudien togs fram ett antal typfall på hur tabeller har varit uppbyggda sedan 1811. Denna förstudie har inte kunnat genomföras. Projektets resultat och resonemang om dessa Publicering på SCB:s webbplats Det viktigast resultatet av projektet Digitalisering av Bidrag till Sveriges officiella statistik (BiSOS), inklusive fortsatt digitalisering av tryckta statistiska publikationer för BiSOS återstående anslag, är att de digitaliserade publikationerna har publicerats på SCB:s webbplats under Hitta statistik > Historisk statistik och därmed blivit fritt tillgängliga på internet. Dessutom katalogiseras både den digitaliserade och den tryckta versionen i den nationella biblioteksdatabasen LIBRIS. Bildfiler i formatet TIFF Ett annat resultat är att bildfångstens kvalitet är så hög att denna aldrig behöver göras om. Det var inte möjligt att inom projektets ekonomiska ramar OCR-tolka tabellerna med tillfredsställande kvalitet. Vi bedömde att det var bättre att spara alla bildfiler i formatet TIFF, vilket är viktigt av flera skäl. Formatet är arkivgodkänt av Riksarkivet. Vi har tillgång till originalen och kan, när tekniken medger, göra en bra OCR-tolkning av tabeller. Bilderna arkiveras/sparas okomprimerat i formatet TIFF. Överföring av tabelldata till databaser eller kalkylark Detta kommer SCB att dra nytta av i det kommande projektet Verktyg för analys och teckenigenkänning av tabeller (VATT) en förstudie. Teckenigenkänning (OCR-tolkning) Innehållsförteckningar är viktiga, eftersom dessa oftast innehåller många relevanta ord, och därför bör vara så korrekta som möjligt. Kraven på OCR-tolkning fastställdes till följande krav på korrekthet på tecken- och ordnivå: Svenska innehållsförteckningar: 99,9 % Franska och engelska innehållsförteckningar: 99,5 % Annan text: 85 % 2
Ett särskilt problem med text från 1800-talet är att stavningssättet var ett annat än det som används i dag. Språkdata vid Göteborgs universitet har Olof Dahlins ordbok från 1855 i digital version och SCB har fått lov att låta leverantören använda denna vid OCRtolkningen. För att få den kvalitet vi eftersträvar på OCR-tolkningen jämför man alla ord mot denna ordbok. Om ordet inte finns i ordlistan visas det för OCR-operatören som då manuellt godkänner alternativt korrigerar ordet. På detta sätt har korrektheten blivit betydligt högre än i våra krav. Dahlins ordbok blir kompletterad med nya ord och det är denna nya Dahlins ordbok som vi skickar tillbaka till Språkdata för framtida forskning. OCR-verktyget klarade även av frakturstil utan ändring av SCB:s krav på korrekthet. URN:NBN:SE identifikator för digitala häften och bildfiler I väntan på att e-plikt (leveransplikt av elektroniska publikationer till Kungl. biblioteket) ska komma för digitaliserade tryckta publikationer, har den unika identifikation URN:NBN:SE:SCB används. URN:NBN betyder Universal Resource Name och detta namn ändras aldrig. SCB är Statistiska centralbyråns domän. Från URN:NBN länkas till rätt fil via en särskild dator på KB, som håller reda på den aktuella url-adressen. URN:NBN är framtidssäker och har använts som identifikator för våra digitaliserade böcker och för bildfiler i formatet TIFF. Arbetssätt och metoder Här ges några exempel på arbetssätt och metoder både vid upphandling och i digitaliseringsarbetet: Leverantörens arbetsmetoder och rutiner har granskats för att minimera SCB:s arbete med kvalitetssäkring. Beskrivningsblad för att kommunicera med leverantören har skapats. En särskild inledningssida har införts för att beskriva föregångare, efterföljare och översiktspublikationer, samt digitaliseringsinformation och URN:NBN. Dokumentegenskaper har beskrivits med metadata för att förbättra sökresultaten. Vissa inställningar har införts för att presentera det digitala häftet på ett optimalt sätt för användaren, t.ex. att hela bokuppslag alltid visas. Mervärden och förbättringar Projektet strävade att bevara det goda i det tryckta originalet och samtidigt åstadkomma en användarvänlig digital version. Resultatet blev mervärden eller förbättringar jämfört med den tryckta förlagan Skapad innehållsförteckning om sådan saknas. Innehållsförteckning finns alltid i början av ett häfte och är klickbar. I innehållsförteckningen har vid behov även länkats till annan innehålls- eller tabellförteckning. Bokmärken har länkats till lägsta nivå. 3
Liggande tabeller eller text har vridits till stående. Serie- och/eller volymuppgift har lagts till titelsidan om de saknas i den tryckta förlagan. Om en karta, utvikssida eller sida i ett häfte saknades, har inför digitalisering inlån skett från ett annat bibliotek. Det finns exempel på att den digitala versionen har blivit det enda fullständiga exemplaret. Användaren i centrum Projektet har arbetat med användaren i centrum. Angreppssättet har varit att få användarvänliga pdf-publikationer tillgängliggjorda på ett användarvänligt sätt. Varje serie inleds med en kort presentation på www.scb.se under Hitta statistik > Historisk statistik. Totalt har 450 000 sidor eller 2 800 böcker digitaliserats. Arbetets integrering i myndigheten samt hur arbetet kommer att vidareföras Själva arbetet med digitaliseringen har ökat kunskaperna om historisk statistik hos bibliotekspersonal, kundservice och övriga enheter på SCB. Information om vilken statistik som har digitaliserats har lagts ut på SCB:s webbplats i anslutning till det ämnesområde statistiken tillhör. Kunskapen om och tillgängligheten till digitaliseringen har därmed ökat för SCB:s personal. Nya forskningsfrågor som har genereras genom projektet Digitaliseringen underlättar användning av BiSOS och andra digitaliserade publikationer vid skrivning av forskningsrapporter eller uppsatser. En del tidigare mindre använda serier har resulterat i rapporter vid universiteten på grund av digitaliseringen. Webbstatistik över de digitaliserade publikationerna i SCB:s biblioteks regi visar att användningen av de digitala versionerna är större än de tryckta. Mest använt är Statistisk årsbok för Sverige och Befolkningsstatistiken (BiSOS A). På SCB:s webbplats har under Hitta statistik skapats ingången Historisk statistik, som innehåller de digitaliserade publikationerna. Publikationslista 1 Bakgrund till det material som skall digitaliseras. I: Avtal 2007-07-02 mellan SCB och VM-data Infra Solutions AB. Bilaga 1. Tjänstebeskrivning. Revision 1 2008-11-01. Framtagen inför upphandling av BiSOS 4
2 Digitalisering av Bokverket Bidrag till Sveriges officiella statistik (BiSOS) : Infodisk Media Report / Infodisk Media, Riga, Lettland. Teknisk beskrivning som togs fram av leverantören inför avslutning av BiSOS digitalisering i maj 2009. 3 Norrmosse, Rolf-Allan (SCB): Projekt Digitalisering och tillgängliggörande av bokverket Bidrag till Sveriges officiella statistik (BiSOS), 1851/55-1910. I: Att ge tillgång till äldre tryckta statistikpublikationer i dagens digitala värld vid tre nordiska centralbyråer. - Statistikermöte i Köpenhamn aug 2010. 4 Norrmosse, Rolf-Allan (SCB): SCB:s erfarenheter av digitalisering av Bidrag till Sveriges officiella statistik (BiSOS). Paper presenterat vid Konferensen Mötesplats inför framtiden, Bibliotekshögskolan i Borås, oktober 2009. 5 Digitaliserade publikationer i SCB:s regi med anslag 2006 från Riksbankens Jubileumsfond 6 Publikationer m.m. som inte rymts i anslag 2006 för digitalisering från Riksbankens Jubileumsfond. 7 Källa SCB 2009:2 om digitalisering av Statistisk årsbok för Sverige. 5