Slutrapport Projektet OCR-tolkning för indexering av,

2011-05-13/PB Slutrapport Projektet OCR-tolkning för indexering av, och sökning i, inskannade dokument Projektorganisation Projektarbetet har bedrivits med lokala arbetsgrupper i både Uppsala och i Umeå. Utöver detta har projektet haft en gemensam och övergripande projektgrupp, sammansatt av representanter från båda biblioteken. Grupperna har initialt haft uppstartsmöte i Umeå och i Uppsala, gjort studiebesök på KB och Statens Musikbibliotek för att studera olika OCRtolkningsprojekt och tagit del av erfarenheter från internationella projekt, t.ex IMPACT. Därutöver har grupperna haft lokala möten på respektive ort, samt haft telefonkonferenser och i övrigt kommunicerat via e-post. I projektets senare skede har även Göteborgs Universitetsbibliotek involverats och knutits till projektet i egenskap av ägare till programvaran IPAC, utveckling av denna samt därmed sammanhörande licens- och upphovsrättsliga frågor. Syfte Syftet med projektet har varit att bygga ett system för digitaliserade kortkataloger/katalogsidor som ger bättre sökmöjligheter, ökad synlighet och bättre kvalitet. Systemet skall kunna hantera OCR-tolkade katalogkort/katalogsidor, visa skannad bild simultant med OCR-tolkad text, maskinindexera innehållet i OCR-tolkningen för fritextsökning och ge användarna möjlighet att tillföra och rätta information. Bakgrund Medan uppgifter om i princip all modern litteratur vid våra forskningsbibliotek finns tillgängliga online i lokala och nationella databaser är läget annorlunda 1

när det gäller bibliotekens stora samlingar av äldre tryckt material. Katalog- och beståndsuppgifter för det äldre materialet finns fortfarande till största delen tillgängliga endast via fysiska kort- och lappkataloger placerade i bibliotekslokalen. Vissa av de äldre katalogerna har blivit digitaliserade och tillgängliga som webbaserade bildkataloger med begränsad sökbarhet och därmed också begränsad möjlighet till åtkomst av information. Vi vill med detta projekt åstadkomma en webbaserad prototyp till digital kortkatalog med utökad funktionalitet, som visar både digitala bilder (skannade eller fotograferade) av katalogkort/katalogsidor och kortens/sidornas OCR-tolkade text. Via denna ska användarna ges möjlighet att söka både via indexsökning, men också via fritextsökning. Systemet ska också innehålla en publik rättningsfunktion för OCR-tolkade data ( crowdsourcing ). Med detta system ska biblioteken kunna producera och tillgängliggöra äldre kort/lappkataloger. Test OCR-tolkning Projektet inleddes med tester av OCR-progammet Abbyy på på ett urval av katalogkort i lokala kataloger både i Umeå (Bilaga 1: Lönar det sig? Om ocrtolkning av kortkataloger. Erfarenheter från systematiska tester vid Umeå universitetsbibliotek, maj 2011) och i Uppsala (Bilaga 2 :OCR-tolkning av kataloger vid Uppsala UB lägesrapport september 2010). Förutom Abbyy har även Omnipage testats. Katalogkorten har valts ut via slumpmetoden enligt den metod som beskrivs av M. Carl Drott i artikeln Random Sampling : a Tool for Library Research (i College & Research Libraries, 30 (1969), 119 125). Programmen har gett ett gott resultat på maskinproducerade katalogkort. Systembygge Med utgångspunkt från behovsanalys och gemensamma diskussioner har projektgruppen utarbetat en kravspecifikation (Bilaga 3: Kravspecifikation för 2

fritextsökning och användarmedverkan, samt bilaga 4 : Tillägg till kravspecifikation) för ett system, som innehåller komponenter för bildvisning av skannad bild simultant med OCR-tolkning, maskinindexering, sökning (indexoch fritextsökning) samt användarmedverkan. Upphandling Kravspecifikationen blev föremål för upphandling. Upphandlingen sköttes av Uppsala Universitets upphandlingsenhet och den blev klar under januari då köporder(bilaga 5 : Köporder gällande vidareutveckling av IPAC) gjordes hos Devo IT AB 2011-02-02. Själva avtalet om att bygga OCR-funktionaliteten slöts 2011-02-28 (Bilaga 6 : Avtal gällande vidareutveckling av IPAC). Systembyggnad Systemet byggdes enligt kravspecifikation och de tillägg till kravspecifikationen som var resultat av våra diskussioner. Systemet blev tillgängligt för projektgruppen i mitten av mars, som en testversion via länken http://94.254.124.228/ocrtest. Därefter har funktionerna testats av både Umeå UB och Uppsala UB. Vissa buggar som uppkommit har rättats och en del justeringar har därutöver gjorts vad gäller presentation av sökresultat och webbdesign. Till systemet har också en systembeskrivning levererats (Bilaga 7 : Digital kortkatalog med fritextsökning och användarmedverkan). OCR-funktionaliteten kommer att kunna integreras som option i IPACsystemet men den kommer även att finnas som fristående modul möjlig att användas även på andra produkter än IPAC. Systemet kommer att vara tillgängligt kostnadsfritt för universitet och högskolor efter önskemål. Test/Katalogproduktion - Slutsats Under testperioden av OCR-modulen OCR-tolkades för projektets räkning cirka 2000 katalogkort ur Alfen Umeå UB:s äldre alafabetiska katalog, för att utgöra 3

underlag för test av systemet i miljö. För att få en uppfattning av hur systemet fungerar med större datavolymer laddades prototypen med resterande 44000 ocr-tolkade kort. Efter att ha testat de olika funktionerna moderering av OCRtolkade data (användarmedverkan), sökning på index och fritext, presentation av sökresultat, med mera, så har vi funnit att OCR-modulen fungerar tillfredsställande, enligt kravspecifikation och beställning. Funktionaliteterna finns och fungerar, se Bilaga 7: (Systembeskrivning Devo) Digital kortkatalog med fritextsökning och användarmedverkan. Framåtblick Denna utveckling ska vara fritt tillgänglig för statliga universitet och högskolor och möjliggöra för biblioteken att själva producera och tillgängliggöra äldre kataloger med maskinproducerade katalogkort. Modulen ska även kunna användas utanför IPAC för andra produkter. Vi ska nu ta systemet i bruk fullt ut, använda det på befintliga äldre kortkataloger i IPAC och även för nyproduktion av äldre kortkataloger. I projektet har vi begränsat oss till maskinskriven normaltext men även andra former av text skulle kunna undersökas framöver. OCR-tolkningen kan förbättras. Modern maskinskriven text ger normalt ett mycket bra resultat vid en ocr-tolkning. Vi har under vårt arbete med dessa begränsade pilotundersökningar och i projektet i övrigt lärt oss att det här finns stora utvecklingsmöjligheter. På katalogkorten kan tolkningen störas om det finns stämplar, handskrivna tillägg, understrykningar och spärrad skrift mm. Viktigt är att använda metoder för att maskinellt identifiera olika typer av kort. Det är möjligt att förbättra resultatet av tolkningen av katalogkort så att det går att matcha katalogkorten direkt mot andra lokala, nationella eller internationella system. I princip rör det sig om att definiera upp olika typer av mallar, där man identifierar olika typer av katalogkort utifrån vilken typ av information som finns i vilken position på korten. Detta för att automatiskt kunna tolka 4

författare, titel, signum etc och föra in detta i rätt fält i en databas. Det har inte funnits utrymme att närmare testa detta inom ramen för det här projekt. Detta är något som University Innsbruck Library framgångsrikt arbetat med. Det vore värdefullt att kunna göra motsvarande försök på svenska kortkataloger, eventuellt i samarbete med University Innsbruck Library. Användarmedverkan, crowdsourcing, blir en allt vanligare metod för att släppa in användarna och ge dem verktyg och möjlighet att tagga, rätta eller tillföra information. Vi har i den prototyp som utvecklats inom projektet implementerat viss funktionalitet inom detta område men det är ett område som går att utveckla vidare. Marknadsföring Projektet har tidigare presenterats den 21 oktober 2010 i Umeå på konferensen Digitalisera nu! vägval, strategier, framtid. Resultatet av projektet och marknadsföring av slutprodukten kommer framöver att göras i olika sammanhang vid seminarier, möten och konferenser som rör digitalisering och katalogfrågor. Pia Bodå Projektledare Mats Danielsson Umeå universitetsbibliotek Uppsala universitetsbibliotek 5

Bilagor: Bilaga 1: Lönar det sig? Om ocr-tolkning av kortkataloger. Erfarenheter från systematiska tester vid Umeå universitetsbibliotek, maj 2011) Bilaga 2: OCR-tolkning av kataloger vid Uppsala UB lägesrapport september 2010 Bilaga 3: Kravspecifikation för Digital kortkatalog - med fritextsökning och användarmedverkan Bilaga 4: Tillägg till Kravspecifikation för Digital kortkatalog med fritextsökning och användarmedverkanbilaga 5: Köporder gällande vidareutveckling av IPAC Bilaga 6: Avtal gällande vidareutveckling av IPAC Bilaga 7: (Systembeskrivning Devo) Digital kortkatalog med fritextsökning och användarmedverkan Bilaga 8 : Ekonomisk redovisning för projektbidrag från Kungl. Biblioteket Bilaga 9: Bilaga Resor Ekonomisk redovisning för projektbidrag från Kungl. Biblioteket avseende projektet OCR-tolkning för indexering av, och sökning i, inskannade dokument 6