Verktyg för analys och teckenigenkänning av tabeller (VATT)

Kommunikationsavdelningen Rolf-Allan Norrmosse DOKUMENTTYP 2013-12-30 Verktyg för analys och teckenigenkänning av tabeller (VATT) förstudie Bild av tabellsida i tiff etc. Digitaliseringsprocess av en tabell 1. Tiff-bild av sida med tabell 3. OCR-tolkning, rättning, kontrollräkning, etc..pdf.csv 2. Uppsättning av tabell analys av tabell, tabellegenskaper, etc. Kalkylark / Databas Projektrapport Bilagor Dnr: 51-KB722-2012 Beslutsnr: Natsam 2012:39 Statistiska centralbyrån 2013

2(11) BILAGOR Bilaga 1 Bilaga 2 Bilaga 3 Tabell med tabellegenskaper Rolf-Allan Norrmosse Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker Joakim Lennartsson 3 4 Production_ABBYY.xls PRODUCTION_ABBY Y.XLS Bilaga 4 Undersökning av programvaror/verktyg som finns för digitalisering av tabeller Lars Lindam-Olsson 9

3(11) Tabell över tabellegenskaper Rolf-Allan Norrmosse Bilaga 1 Kod Beskrivning Period Period T00 Tabellidentitet (TabId) är tabellens urn:nbn och utgör den unika identiteten -1910 1911- för tabellen. urn:nbn:se:scb-sinne-1935_d033 Tabellen ryms på en tiffbild. urn:nbn:se:scb-1965-bsm6505_d039-d040 Tabellen består av 2 eller flera tiffbilder. urn:nbn:se:scb-bi-a0-5101_d087_1 Tabellen ryms på övre delen av en tiffbild. urn:nbn:se:scb-bi-a0-5101_d087_2 Tabellen ryms på nedre delen av en tiffbild. Urn:nbn innerhåller även uppgift om till vilken digienhet tabellen tillhör. dnnn anger sida från digienhetens början. T01 Tusenavgränsare: mellanslag / komma / punkt / ingen. -1910 1911- T02 Decimaltecken: komma / förhöjd punkt ( ) / punkt. -1910 1911- Förhöjd punkt (Middle dot) förekommer 1859 till 1953. T03 Decimaler efter förhöjd punkt skrivs i mindre grad än heltal. T.ex.: 3 14. 1911- T04 Decimaler skrivs i mindre grad än heltal. -1910 Ören skrivs i mindre grad än kronor. T05 Bråktal i stället för decimaler. 1 riksdaler=48 shillingar, 1 shilling=12 runstycken. Skörd räknas i kubikfot och i tunnor. -1910 T06 + / - föregår värden i någon kolumn. -1910 1911 T07 i cell: Inget finns att redovisa -1910 1911- T08. i cell: Logiskt omöjlig uppgift. 1911- T09 * i cell: Preliminär uppgift 1911- T10» Upprepning av text ovan. -1910 1911 T11 Vertikal summering: Ja. -1910 1911- T12 Horisontal summering: Ja. -1910 1911- T13 Ingen summering finns. 1911- T14 Vissa värden hålls ihop med vertikalt klammer / horisontellt klammer. -1910 1911- T15 Vissa värden summeras inom vertikalt klammer / horisontellt klammer. -1910 T16 Vertikal text finns i tabellen. -1910 T17 Anmärkningar finns. -1910 1911- T18 Fotnoter finns. -1910 1911- T19 Inget vertikalt rutnät i tabellen. 1911- T20 Sidan indelad i x tabeller i en ram. -1910 T21 Tabellen löper horisontellt över x sidor. -1910 T22 Tabellen löper vertikalt över x sidor / spalter. -1910 1911- T23 Tabellen löper vertikalt över x bokuppslag, dvs. x 2 sidor. -1910 1911- T24 Tabell mindre än en sida. -1910 1911- T25 Tabellen löper över x sidor horisontellt med kolumner numrerade från 1 till y. -1910 Vissa kolumner kan vara överhoppade. T26 Antal sidor: -1910 1911- T27 Sidan storlek anges som höjd bredd i cm. T. ex Sidans storlek: 28 97 cm. -1910 1911- Sidans storlek anges endast om den avviker från bokens normalsida. T28 Text med fraktur. -1910 T29 Antal tiffbilder: -1910 1911-

4(11) Bilaga 3 Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker Joakim Lennartsson, Göteborgs universitet, Ekonomiska biblioteket Syfte: Att undersöka om forskare inom universitetsvärlden använder någon typ av verktyg vid digitalisering av tabeller i tryckta statistiska publikationer. Viktigt att nå så många forskare som möjligt. Metod: Att i första hand kontakta forskare på Göteborgs universitet och framförallt på Handelshögskolan där jag redan har en god kontakt med många och som jag vet att använder mycket statistik för sin forskning. Att utifrån dessa kontaktnamn även få tips på kollegor både inom och utanför Göteborgs universitet. För att inte missa några forskare gick jag också ut med ett gruppmejl till hela Handelshögskolans personal. Jag kontaktade SND (Svensk nationell datatjänst) som sammanställer statistiken som görs på SOM-institutet i Göteborg. Gick också ut med gruppmejl till hela universitetsbibliotekets personal för att eventuellt få tips på forskare från andra fakulteter med namn som jag inte redan kände till. Kontaktade även en speciell person som arbetar med ett digitaliseringsprojekt på Göteborgs universitetsbibliotek. Frågade slutligen den nationella nätverksgruppen för ekonomi och statistik för att få reda på om någon har tips på någon forskare från sitt lärosäte. Lista på namn jag har kontaktat med mejladress: Claes.alvstam@handels.gu.se Arne.bigsten@economics.gu.se Ola.olsson@economics.gu.se Måns.söderblom@economics.gu.se Jan.bohlin@econhist.gu.se Svante.prado@econhist.gu.se Christer.lundh@econhist.gu.se Peter.esaiasson@pol.gu.se Marianne.frisen@statistics.gu.se Iris.alfredsson@snd.gu.se Erik.sirra@ub.gu.se Martin.henning@keg.lu.se Kerstin.enflo@ekh.lu.se Kirk.scott@ekh.lu.se Martin.dribe@ekh.lu.se Patrick.svensson@ekh.lu.se

5(11) Mats.olson@ekh.lu.se Gruppadresser jag kontaktat: Guball@ub.gu.se = all personal på Göteborgs universitets bibliotek. Hgu-alla@handels.gu.se = all personal på Handelshögskolan Nätverk för ekonomi och statistik: http://www.ub.gu.se/info/samansvar/nationell/ekon/medlemmar/ Har för samtliga jag skickat mejl till använt ungefär samma typ av mall för att på enklaste sätt förklara VATT projektet och min roll i det hela att undersöka hur det ser ut i universitetsvärlden. Dvs. se om forskare använder någon typ av verktyg vid digitalisering av tabeller i tryckta statistiska historiska publikationer. Undersökningen: Har inte fått svar från alla jag skickat brev till men redovisar de svar jag fått och det visar sig att det finns lite olika uppfattningar och att man arbetar på olika sätt i Lund jämfört med Ekonomisk historia i Göteborg. Verkar dock vara mest aktuellt för ett ämne som Ekonomisk historia och till viss del ämnet kulturgeografi. Speciellt svårt att få svar från gruppadresser. Många jag fått svar från ställer sig också mycket positiva och är intresserade av detta projekt. Svar från personer som svarat på mina mejl eller info via personlig träff eller telefon. Ställde först frågan till Erik Sirra på Göteborgs UB, när jag såg att det skulle äga rum ett öppet seminarium på UB angående projektet ArkA-D och plattformen Alvin, då Göteborgs universitetsbibliotek ingår i ett utvecklingsprojekt finansierat av Riksbankens Jubileumsfond tillsammans med Lunds och Uppsalas universitetsbibliotek och stiftbiblioteket i Linköping. Detta projekt skall bygga ett digitalt arkiv för allt som digitaliseras vid dessa bibliotek. Plattformen skall fungera som en databas för arkivsamlingarna. UB har utvecklat en funktion: Alvin som på ett smidigt sätt skall kunna lägga in böcker och tidskrifter som är digitaliserade och så att de lagras i Alvin. Fick följande svar om detta även skulle kunna fungera för statistik: Hej Joakim Vad kul att du är intresserad. Du är välkommen. Nej, systemet publicerar och arkiverar redan digitaliserade och OCR-tolkade resurser. Det du söker efter ligger i digitaliseringen av materialet. Tabeller är onekligen en svårighet för tabeller kan se ut på många olika vis och att de ska då tolkas så att man får ut rätt data i rätt cell. Vi liksom KB kör en Abbyy-server för vår OCR-tolkning men, KB som hat testat mycket med SOU:er kom fram till att det inte duger för tabeller. Vi arbetar med ett annat OCR-projekt där vi ska bygga en OCR-server på Tesseract, men vi kommer inte att specifikt titta på tabeller i det sammanhanget. Jag kan bara önska er lycka till i projektet och det ska bli intressant att läsa resultaten Nästa steg var att kontakta SND(Svensk nationell Datatjänst) http://snd.gu.se/ som lagrar data från SOM-institutets undersökningar och fick följande svar angående om de arbetar med någon typ av verktyg: Kontaktade här Iris Alfredsson.

6(11) Hej Joakim, Det verkar vara ett intressant projekt ni har tillsammans med SCB. De data som vi får hit till SND är, med några få undantag, födda digitalt. För ca 25 år sedan hade vi ett projekt där vi scannade in tabeller från folkbokföringen, men det har hänt mycket på verktygsfronten sedan dess. I SND:s uppdrag ingår inte heller att vi själva sammanställer statistik. Det är snarare metadata till överlämnad rådata som vi sammanställer. Min rekommendation är att du pratar med Erik Siira på Digitala tjänster, men honom har du säkert redan varit ikontakt med. Tyvärr så är vi inte till så stor hjälp i det här fallet. Vi vill emellertid väldigt gärna veta vad som händer i projektet. Och hör gärna av dig om du har ytterligare frågor! Nästa steg var att kontakta ett antal forskare på Handelshögskolan som jag dels har ett gott samarbete med och som jag vet att arbetar mycket med statistiska data för sin forskning. Frågan ställdes först till Claes Alvstam på Kulturgeografi och fick följande svar: Hej Joakim! Ursäkta sent svar - det är som vanligt extremt hektiskt. När det gäller digitalisering av historisk statistik gjorde vi ett antal s.k. infrastruktursatsningar under min tid på Riksbankens Jubileumsfond. Huvuddelen av projekten berörde de ekonomiskhistoriska institutionerna i Sthlm och Lund, så den bästa kompetensen finns egentligen där, speciellt om det handlar om att överföra tabelldata från bilder till databaser och Excel. Dock är det ett antal personer på ek. hist. här i Gbg, som säkert skulle vara intresserade av att medverka, t.ex. Jan Bohlin och Christer Lundh. Båda har (tror jag) lång erfarenhet av liknande arbeten. Jag har en kollega i Lund (Martin Henning), som arbetat ihop med Lennart Schöns grupp i ek. hist. Hon heter Kerstin Enflo, och har sysslat med skapande av långa dataserier av regional produktionsstatistik, delvis på europeiskt plan, dvs. i samarbete med Eurostat. Du skulle även kunna ringa Martin, som vi hoppas kunna värva till Gbg inom kort. Själv plockar jag ofta data från IMF/DOTS eller IMF/IFS m.fl. och överför till Excel-ark. Databaserna fungerar f.ö. utan anmärkning just nu - det har blivit ett helt nytt sätt att arbeta. Återkom gärna om Du vill prata mer! Jag är ju som bekant 'nörd' inom detta område, även om jag mest sysslat med nyare data. Här fick jag som sagt tips på bra kontakter på Ekonomisk historia på GU och även i Lund. Fick genast två positiva svar från nämna kontakter på GU: Det första från Jan Bohlin på Ekonomisk historia. Hej Joakim, Jag har använt mig av ett OCR-program som heter ABBYY Fine Reader för att digitalisera tabelldata från bilder eller pdf-filer. Data kan då omvandlas till tabeller i Excel-format. Även andra här på institutionen har jobbat på det sättet, bl.a. Svante Prado. Svante har framför allt arbetat med ett projekt att digitalisera historisk lönestatistik. Kontakta gärna honom! OCR är väldigt arbetsbesparande jämfört med att manuellt mata in data. Fast man måste ändå räkna med att programmet inte alltid läser in data rätt, så det innebär en hel del kontroll och korrigeringar i efterhand.

7(11) Med tanke på att även OCR av inskannade data innebär mycket manuellt arbete har jag också provat att lägga ut arbete till en firma i Indien. Det arbete som utfördes var av hög kvalitet. Det finns en uppsjö firmor i Indien som sysslar med digitalisering av data. Med hjälp av internet är det ganska lätt att administrera sådant arbete. Man kan exempelvis ladda upp de pdf-filer man vill ha digitaliserade på en delad disk i molnet (dropbox, google drive eller något liknande) och sedan kan firman ladda upp det färdiga resultatet till samma delade drive, eller helt enkelt skicka det som bilaga med vanlig e-post. Jag gjorde en gång en grov beräkning att det skulle ta 25-30 helårsarbetsår att digitalisera hela BISOS med hjälp av OCR. När det rör sig om så stora datamängder innebär det en väldigt stor stor kostnadsbesparing att använda sig av arbetskraft som kan utföra arbetet till en bråkdel av kostnaden. Fick också samma svar från Svante Prado på Ekonomisk historia som berättade om den historiska lönestatistiken och att det varit många fallgropar med systematiska fel av tecken som skall rättas och vilket som tar mycket tid. Svante nämnde också Indien som ett alternativ att skicka bort all statistik och få arbetet gjort snabbt och effektivt. Svar från Arne Bigsten, Nationalekonomi GU Nja jag vet inte om vi har någon som arbetar mera direkt med sådant här, men du kanske kan kolla med Ola Olsson eller Måns Söderbom om de kan ha några insikter här. Svar från Martin Henning Department of Human Geography, Lund. Hej Joakim. Intressant. Jag har en hel del att säga i denna fråga. Det är nog lättast per telefon. I morgon kan du nå mig på 0704-665336när som helst mellan 9.30 och 15. Fredag funkar också mellan samma tider. Telefonsamtal: Lund har arbetat med historisk data på regionalnivå och Europeisk nivå. BNP 1900-, sysselsättningsstatistik och industristatistik. Ambitionen att digitalisera är stor och man har i Lund låtit tre studenter arbeta med att knappa in statistiken. Det är fråga om begåvade studenter som också hela tiden är observanta på eventuella felkällor. Det är också viktigt att man har en stor kunskap om den historiska statistiken för att arbeta med tidsserier och känna igen olika typer av data etc. Finns ju också problem med den historiska statistiken som är speciell eftersom långa tidsserier kan skilja sig åt på olika sätt mellan åren och även tryckfelsaspekten som också alltid finns. Arbetet har också varit en väldigt bra skola för dessa studenter som funnit det lärorikt och berikande. Har ej heller varit något större kostnad. Att skicka statistiken till ett annat land är inte något som Lund förespråkar, eftersom de som då matar in den oftast inte har något som helst kunskap om statistiken och risken för fel blir ju ändå större. Med andra ord så går kvalitetsaspekten före kvantiteten, även om den mänskliga faktorn alltid finns med. Svar från Kerstin Enflo: Lunds universitet: Hej Joakim! Vad trevligt att höra av dig och vilket spännande samarbetsprojekt som ni initierar! Jag har arbetat en del med BISOS och historisk statistisk för Sverige och Norden, men har då alltid använt studenter till att skriva in det material som jag varit intresserad av. Jag har hört

8(11) talas om ABBYY FineReader, men från vad jag hört så tar det ungefär lika lång tid att tvätta filerna efter att man läst in dem, som det tar att skriva in serierna för hand. Jag är mycket intresserad av ert projekt och skulle gärna få mer information om era planer och resultat. Hör gärna av er och om ni har någon hemsida så skicka gärna en länk. Svar från Kirk Scott: Hej Joakim, Jag är förmodligen fel person att kontakta eftersom jag jobbar nästan enbart med redan digitaliserade data från SCBs register. Jag cc:ar Martin Dribe, Patrick Svensson och Mats Olson som alla håller på med digitalisering av historiska data på olika sätt. De kan kanske hjälpa dig. (Ej något erhållet svar från dessa tre personer.) Svar från Marianne Franzen statistiska forskningsenheten GU: (Ej något erhållet svar från dessa tre personer.) Hej! Jag är övertygad om att det finns bra möjligheter att överföra tabelldata från bilder (tiff-filer) eller pdf publikationer till kalkylark med vanliga gratis program. Tyvärr kan jag inte tipsa om namn på kommersiell produkt som är speciellt bekväm att använda för ert ändamål. Det bör dock någon IT-expert kunna göra. SCB bör ha kunskapen.lycka till med projektet! Svar från Ola Ohlsson Nationalekonomi GU Hej Joakim, Jag har inte använt ett sådant verktyg som du beskriver.

9(11) Sammanfattningsvis: Det verktyg som några arbetar med är ABBYY FineReader och som verkar användbart för att överföra till excellark, men dess nackdel är att det blir en hel del feltolkningar gällande tecken, då mycket manuellt arbetet måste läggas ned för att rätta till detta. Mao kräver mycket tid och förslag finns på att istället skicka allt till Indien som gör hela arbetet för en ganska låg summa pengar. Enligt Svante Prado är det ända systemet som finns på marknaden. Marianne Franzén säger dock att det säkert finns system på marknaden, men kan inte tipsa om en kommersiell produkt som finns på marknaden. Martin Henning från Lund hade en helt annan uppfattning om det hela och menade att den historiska statistiken är mycket svår med olika tecken etc. och det finns många anledningar till att ett system läser in fel eftersom historisk statistik är speciellt svår med olika tecken, skillnader mellan olika år och även den kan innehålla olika typer av fel. Martin berättade att i Lund har man arbetat helt manuellt och låtit tre studenter knappa in alla statistik manuellt. Detta gör att man hela tiden har en stor kontroll att hitta fel och även att kontrollera fel i statistiken man matar in. Det går snabbare med ett verktyg som ABBYY FineReader, men det blir snarare fråga om kvantitet än god kvalitet. Martin tyckte inte heller att det är så bra att skicka bort statistiken till ett annat land, eftersom de som då arbetar med den inte har någon kunskap om statistiken och då inte heller kan upptäcka eventuella fel som finns etc. Samma svar ger också Kerstin Enflo från Lund som menar att det tar lika lång tid att rätta till filerna efter det att man läst in den som det tar att skriva in tidsserierna för hand. Intressant här att det var en sådan stor skillnad mellan Göteborg och Lund gällande sättet att digitalisera historisk statistik. Erik Sirra från Göteborgs UB framhåller också att tabeller är svåra att digitalisera eftersom de kan se ut på många olika sätt. KB har ju testat mycket SOU:er med en ABBYY-server för OCRtolkning och kommit fram till att detta system inte duger för tabeller. Detta är något man kan väga för och emot respektive tillvägagångssätt. Många av de som givit någon typ av svar har också berättat att de ställt sig mycket positiva till detta projekt och gärna vill få information om hur det kommer att löpa. Forskarna är också självfallet lika positiva till att fungera som kontaktlänkar. Länk till sida om ABBYY FineReader 11: http://www.abbyyeu.com/lp/cj/fr11/se/ Länk till användarmanual: http://www.abbyy.com/fr11guide_sw.pdf

10(11) Verktyg för digitalisering av tabeller Lars Lindam-Olsson Bilaga 4 Min uppgift var att Undersöka vilka programvaror/verktyg som finns för digitalisering av tabeller och bedöma om de kan vara av intresse att studera närmare i projektet När jag funderar över arbetet så inser jag att vi saknar någon idé om hur digitaliserat data ska lagras vilket också påverka val av verktyg, jag utvecklar det närmare i slutet på dokumentet. Jag har försökt hitta information på nätet för att hitta referenser till liknande projekt eller erfarenheter från digitalisering av tabeller. De referenser till liknande projekt jag hittat har handlat om att skanna in tabeller men inga om uttolkning av data från bilderna. Det finns också en samstämmighet över att det är ett problem att fånga data i tabeller. Tyvärr har tiden inte räckt för att närmare titta på de verktyg som refereras eller ta kontakter för en närmare utvärdering. Bästa verktygsreferenserna för datafångst från tabeller. ABBYY http://www.abbyy.com/ OmniPage Capture SDK, http://australia.nuance.com/for-business/by-product/omnipage/csdk/index.htm Andra möjliga verktygs som refereras. CuneiForm/OpenOCR LEADTOOLS [11] VeryPDF, har ett gränssnitt för att fånga struktur men vet ej om det kan automatiseras. http://www.verypdf.com/app/pdf-to-table-extractor-ocr/user-guide.html Utvecklings plattform för datafångst. Accusoft /Pegasus har verktygslådan ImageGear som består av komponenter för att bygga egna verktyg runt skanningsprocessen. De har också färdiga system för datafångst men de verkar inriktade på traditionell skanning av formulär och fakturor etc. Kan kanske vara ett alternativ att de bygger ett anpassat system för oss. http://www.accusoft.com/ Eventuell kontaktperson Tamir Hassan, som har stor erfarenhet av datafångst av tabeller från PDF, dock ej PDF-images. Har medverkat i utvecklingen av två verktyg. Tabula och GraphWrap

11(11) Diskussion Det finns en samstämmighet över att det är ett problem att fånga data i tabeller och inget verktyg verkar ha fullt ut löst problemen. Därför tror jag verifieringen (korrigeringar av tolkade tabellavgränsningar/cellvärden etc.) kommer att kräva den största arbetsinsatsen och ett effektivt verktyg för det arbetet är viktigt. När jag tittar på de typtabeller och försöker strukturera tabellerna så inser jag att vi saknar någon idé om hur digitaliserat data ska lagras för att vara användbart. När data digitaliseras måste verktyget/verktygen lagra det på något sätt för att bli sökbart och användbart. Jag inser att strukturen i tabellen är viktig för att avgöra vad enskilda celler står för och det blir också ett krav på de verktyg vi utvärderar. Om man har ett målformat för lagring styr det hur verktyget/verktygen vid digitalisering används. Om man lagrar tabelldata i en databas tillsammans med metadata för cellerna så kan man inte bara ta ut data som t.ex. Excel-filer utan man kan också länka ihop tabeller och ge möjligt att skapa tidsserier för att t.ex. följa en utveckling. För att digitalisera innehållet i historiska tabeller så verkar detta projekt vara först ut men många är intresserade av att digitalisera tabeller. Kanske kan fler (länder) vara intresserade av ett generellt verktyg för detta. Jag tror att det mesta finns färdigt men är för generellt. Med en tydlig målplattform och digitaliseringsprocess kanske det är enklast att kravställa och beställa ett anpassat verktyg som använder befintlig teknik.