Kommunikationsavdelningen Rolf-Allan Norrmosse DOKUMENTTYP 2013-12-30 Verktyg för analys och teckenigenkänning av tabeller (VATT) förstudie Bild av tabellsida i tiff etc. Digitaliseringsprocess av en tabell 1. Tiff-bild av sida med tabell 3. OCR-tolkning, rättning, kontrollräkning, etc..pdf.csv 2. Uppsättning av tabell analys av tabell, tabellegenskaper, etc. Kalkylark / Databas Projektrapport Dnr: 51-KB722-2012 Beslutsnr: Natsam 2012:39 Statistiska centralbyrån 2013
2(20) Innehåll 1 Inledning... 3 2 Bakgrund och syfte... 3 2.1 Bakgrund... 3 2.2 Syfte... 5 2.3 Mål för projektet... 5 3 Nedan följer ett par utredningar och undersökningar... 6 3.1 Typtabeller med tabellegenskaper Rolf-Allan Norrmosse... 6 3.2 Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker Joakim Lennartsson, Göteborgs universitet, Ekonomiska biblioteket... 13 3.3 Exempel på digitalisering vid Statistics Greece... 14 3.4 Undersökning av programvaror/verktyg som finns för digitalisering av tabeller Lars Lindam-Olsson... 14 3.5 Kartläggning av utvecklingsverktyg Tim Forsström... 15 4 Test av ABBYY FlexiCapture 10 i juni 2013... 16 5 Webbmöte för presentation och diskussion av ABBYY:s prototyp för teckenigenkänning av tabeller baserade på typfall (cases) 1-3, 5-6 den 21 augusti 2013... 17 6 Möte mellan SCB och OptoSweden hos SCB den 18 september 2013... 18 7 Resultat av VATT - förstudie... 19 8 Hur går SCB vidare?... 20 Bilaga 1-4 ingår i: Projektrapport. Bilagor
3(20) 1 Inledning Statistiska centralbyrån (SCB) ansökte 2012 hos Kungl. biblioteket (KB) om projektbidrag 2013 till projektet: Verktyg för analys och teckenigenkänning av tabeller (VATT) förstudie. KB beviljade bidrag med 281 000 kr till projektet. Projektarbetet kommer att utföras i samarbete med Göteborgs universitetsbibliotek, Ekonomiska biblioteket (GUB). Följande medlemmar har ingått i projektet: Rolf-Allan Norrmosse, SCB Tim Forsström, SCB Lars Lindam-Olsson, SCB Hans Ljungberg, SCB Joakim Lennartsson, GUB projektledare, förste bibliotekarie biträdande projektledare, systemutvecklare systemutvecklare bibliotekarie bibliotekarie Ekonomiska biblioteket Följande personer har ingått i projektets styrgrupp: John Kling Rolf-Allan Norrmosse Hans Ljungberg beställare inom SCB projektledare bibliotekarie 2 Bakgrund och syfte 2.1 Bakgrund Efter förstudie och tester sökte SCB 2006 hos Riksbankens Jubileumsfond (RJ) anslag med strukturellt stöd för digitalisering och tillgängliggörande på internet av bokverket Bidrag till Sveriges officiella statistik (BiSOS), vilket publicerades under SCB:s första 50 år. RJ beviljade 4 miljoner kr för digitalisering 2007-2010. Anslaget räckte till BiSOS på 145 000 sidor text och tabeller samt till ytterligare 305 000 sidor. Därefter har digitaliseringen fortsatt. Biblioteksnyttan av den omfattande digitalisering av tryckta statistiska publikationer som SCB har gjort sedan 2007 är stor. Under 2011 användes våra digitaliserade publikationer 86 000 gånger. På scb.se är tabellerna tillgängliga som bilder, men det går inte att överföra till kalkylark eller databaser. Ett viktigt resultat är att bildfångstens kvalitet är så hög att denna inte behöver göras om. Det var inte möjligt att inom BiSOS-projektets ekonomiska ramar OCR-tolka tabellerna med tillfredsställande kvalitet. Det var bättre att spara/arkivera bilderna okomprimerat i formatet tiff, som är ett av Riksarkivet (RA) godkänt format. SCB har tillgång till originalen och kan, när tekniken medger, göra en analys och OCR-tolkning av tabeller.
4(20) Bok/ Häfte/ etc. Digitaliseringsprocess av en bok WWW.SCB.SE 1. Bildfångst. 2. OCR-tolkning 3. Framställning av presentationsfärdig PDFpublikation PDF Tiff-filer 1. Bildfångst 2. OCR-tolkning av innehållsförteckning och löpande text. 3. Framställning av presentationsfärdig pdf-publikation Resultatet ska vara pdf-publikation och bilder i formatet tiff. Bild av tabellsida i tiff etc. Digitaliseringsprocess av en tabell 1. Tiff-bild av sida med tabell 2. Uppsättning av tabell analys av tabell, tabellegenskaper, etc. 3. OCR- Tolkning, rättning, kontrollräkning, etc..pdf.csv Kalkylark / Databas 1. Tiff-bild av sida med tabell. 2. Uppsättning av tabell; tabellegenskaper, etc. 3. OCR-tolkning, rättning, kontrollräkning, etc. 4. pdf-fil för verifieringen, Kommaseparerad fil (.csv) för överföring av tabelldata till kalkylark eller databas.
5(20) Att kunna överföra tabelldata från bilder eller pdf-publikationer till databaser eller kalkylark efterfrågas starkt av våra användare. SCB får också frågor både svenska, nordiska och internationella kunder, som använder SCB:s digitaliserade material. Både forskare och studenter skulle ha nytta av detta inom sina olika ämnen. Självklart gäller det även verksamma bibliotekarier inom olika bibliotekstyper. 2.2 Syfte Syftet med förstudien är att undersöka, om det finns något Verktyg för analys och teckenigenkänning av tabeller (VATT) tillgängligt på marknaden. Ett befintligt verktyg kan behöva anpassas. I förstudien ska från det material, som SCB har digitaliserat, tas fram ett antal typfall på hur tabeller har varit uppbyggda sedan 1811. Med verktyget ska tabeller kunna analyseras och teckentolkas med inga eller ett fåtal fel. Kontrollräkning ska kunna göras. Verktygets resultat när en tabell har bearbetats ska vara att tabelldata kan föras över till databaser eller kalkylark. 2.3 Mål för projektet Effektmål Statistik görs mera tillgänglig och möjligheterna att utnyttja det statistiska materialet ökar. Riskerna för fel vid användningen av äldre statistik blir väsentligt mindre när man kan överföra de inskannade filerna direkt istället för att enskilda användare ska manuellt överföra tabellinnehållet. Projektmål/huvudmål Syftet med förstudien är att undersöka om det finns något verktyg för analys och teckenigenkänning av tabeller tillgängligt på marknaden. Ett befintligt verktyg kan behöva anpassas. I förstudien ska från det material som SCB har digitaliserat, tas fram ett antal typfall på hur tabeller har varit uppbyggda sedan 1811. Med verktyget ska tabeller kunna teckentolkas med inga eller ett fåtal fel. Kontrollräkning ska kunna göras. Delmål Vad ska levereras i tidsordning: 1. Ett par utredningar och undersökningar a. Ta fram typtabeller samt strukturera upp typtabellerna, dvs. identifiera tabellegenskaperna b. Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker c. Exempel på digitalisering vid Statistics Greece d. Undersökning av programvaror/verktyg som finns för digitalisering av tabeller e. Kartläggning av utvecklingsverktyg 2. Ev. studium av en utvecklingspattform för OCR-verktyg utvecklat av Abbyy (kurs). Test av typexempel 3. Test av ABBYY FlexiCapture 10 i juni 2013 4. Webbmöte för presentation och diskussion av ABBYY:s prototyp för teckenigenkänning av tabeller baserade på typfall (cases) 1-3, 5-6 den 21 augusti 2013 5. Möte mellan SCB och OptoSweden hos SCB den 18 september 2013 6. Resultat av VATT - förstudie 7. Hur går SCB vidare?
6(20) Aktiviteter 1. Typtabeller m. m - typtabeller - tabellegenskaper - metadata - beskrivningsblad för digitala tabeller - projektet beslutar att arbeta endast med tabeller från 1911 och framåt - ev. leverans av digitala tabeller som e-plikt 2. EU / biblioteksvärlden 3. Undersökning av programvaror/verktyg som finns för digitalisering av tabeller 4. Kartläggning av utvecklingsverktyg 5. Ev. studium av en utvecklingsplattform för OCR-verktyg utvecklat av ABBYY (kurs) 6. Test av ABBYY FlexiCapture 7. Web meeting presenting and discussing the ABBYY prototype for table recognition based on the provided cases 1-3,5-6 on 21 August 2013 8. Möte mellan SCB och OptoSweden hos SCB den 18 september 2013 Uppdrag åt OptoSweden att: - arbeta igenom case 3 enligt beskrivningsblad - infoga en Skrivyta under tabellen för kommentarer - beskriva hur kontroll i vertikal och horisontal summering kan göras i tabell - fundera på hur fotnot från en cell med siffror kan göras - leverera resultatet av digitaliserad tabell som pdf för verifiering och csv för överföring till databas eller kalkylark. 3 Nedan följer ett par utredningar och undersökningar 3.1 Typtabeller med tabellegenskaper Rolf-Allan Norrmosse Typtabeller När SCB har digitaliserat tryckta statistiska böcker publiceras den färdiga pdfpublikationen (s.k. digienhet) på SCB:s webbplats. Vid sidan om pdf:erna levereras även en bild av varje sida i formatet tiff. En tabell som ska digitaliseras finns på en eller oftast på flera tiffbilder. Den tryckta statistiken är ofta indelad i en textdel och en särskild tabellbilaga där varje tabelltitel föregås av en kod. Texten innehåller inte alltid men ofta så kallade texttabeller. Ibland föregås titel till en texttabell av en littera eller kod. En tabell innehåller inte endast rader och kolumner av siffror utan också förspalt till vänster om rutmönstret och överspalt över detta. Till tabellen finns också en titel. Annat som är knutet till tabellen är noter och anmärkningar, som ibland inte finns på samma plats i publikationen som tabellen. I Statistisk årsbok för Sverige finns ett särskilt kapitel med källhänvisningar till alla tabeller. Ibland samlade man ett fåtal tabeller i en inramning till en större enhet, som kan vara lämpligt att behålla. Detta gäller befolkningsstatistiken från första hälften av 1800-talet, som vart femte år hade ett generalsammandrag. Jordbruksstatistiken från andra hälften av 1800-talet hade 76 kolumner där endast de i regionen/området relevanta används. I serien Folkmängden i administrativa områden 1910-1961 är Tabell 1 indelad i undertabeller för Stockholms stad och alla 24 länen. Anmärkningar till länen och dess indelningar finns i ett särskilt avsnitt.
7(20) För att ta fram typtabeller har vi gått igenom en hel mängd tabeller från 1811 och fram till 2001. Genom att strukturera upp typtabeller har vi kunna identifiera tabellegenskaper. Tabellegenskaper Eftersom våra digitaliserade tryckta publikationer har kommit ut under nästa 200 år återspeglas detta i tabellegenskaperna. En tvåsiffrig kod med inledande T identifierar en tabellegenskap. Några exempel: T01. Tusenavgränsare: mellanslag / komma / punkt / ingen. T02. Decimaltecken: komma / förhöjd punkt ( ) / punkt. Förhöjd punkt (Middle dot) förekommer 1859 till 1953. T04 Decimaler skrivs i mindre grad än heltal. Ören skrivs i mindre grad än kronor. T05 Bråktal i stället för decimaler. 1 riksdaler=48 shillingar, 1 shilling=12 runstycken. Skörd räknas i kubikfot och i tunnor. T06 + / - föregår värden i någon kolumn. { (klammer) kan ha olika funktion; ibland läsanvisning (T14), ibland summa (T15). Summeringar kan vara vertikal eller horisontal (T13, T15). Dessa är lämpliga för att kunna utföra kontroller; Summan av OCR:ade värden = OCR:at värde i summacellen. En tabell kan vara flera sidor lång och löpa vertikalt över x bokuppslag, dvs. x 2 sidor (T23). Slutligen att Noter (T18) och Anmärkningar (T17) är särskilt viktigt att tala om, eftersom de kan finnas på annan plats i boken än tabellen.
8(20) Tabell med tabellegenskaper Kod Beskrivning Period Period T00 Tabellidentitet (TabId) är tabellens urn:nbn och utgör den unika identiteten för tabellen. -1910 1911- urn:nbn:se:scb-sinne-1935_d033 Tabellen ryms på en tiffbild. urn:nbn:se:scb-1965-bsm6505_d039-d040 Tabellen består av 2 eller flera tiffbilder. urn:nbn:se:scb-bi-a0-5101_d087_1 Tabellen ryms på övre delen av en tiffbild. urn:nbn:se:scb-bi-a0-5101_d087_2 Tabellen ryms på nedre delen av en tiffbild. Urn:nbn innerhåller även uppgift om till vilken digienhet tabellen tillhör. dnnn anger sida från digienhetens början. T01 Tusenavgränsare: mellanslag / komma / punkt / ingen. -1910 1911- T02 Decimaltecken: komma / förhöjd punkt ( ) / punkt. -1910 1911- Förhöjd punkt (Middle dot) förekommer 1859 till 1953. T03 Decimaler efter förhöjd punkt skrivs i mindre grad än heltal. T.ex.: 3 14. 1911- T04 Decimaler skrivs i mindre grad än heltal. -1910 Ören skrivs i mindre grad än kronor. T05 Bråktal i stället för decimaler. 1 riksdaler=48 shillingar, 1 shilling=12 runstycken. Skörd räknas i kubikfot och i tunnor. -1910 T06 + / - föregår värden i någon kolumn. -1910 1911 T07 i cell: Inget finns att redovisa -1910 1911- T08. i cell: Logiskt omöjlig uppgift. 1911- T09 * i cell: Preliminär uppgift 1911- T10» Upprepning av text ovan. -1910 1911 T11 Vertikal summering: Ja. -1910 1911- T12 Horisontal summering: Ja. -1910 1911- T13 Ingen summering finns. 1911- T14 Vissa värden hålls ihop med vertikalt klammer / horisontellt klammer. -1910 1911- T15 Vissa värden summeras inom vertikalt klammer / horisontellt klammer. -1910 T16 Vertikal text finns i tabellen. -1910 T17 Anmärkningar finns. -1910 1911- T18 Fotnoter finns. -1910 1911- T19 Inget vertikalt rutnät i tabellen. 1911- T20 Sidan indelad i x tabeller i en ram. -1910 T21 Tabellen löper horisontellt över x sidor. -1910 T22 Tabellen löper vertikalt över x sidor / spalter. -1910 1911- T23 Tabellen löper vertikalt över x bokuppslag, dvs. x 2 sidor. -1910 1911- T24 Tabell mindre än en sida. -1910 1911- T25 Tabellen löper över x sidor horisontellt med kolumner numrerade från -1910 1 till y. Vissa kolumner kan vara överhoppade. T26 Antal sidor: -1910 1911- T27 Sidan storlek anges som höjd bredd i cm. T. ex Sidans storlek: 28 97 cm. Sidans storlek anges endast om den avviker från bokens normalsida. -1910 1911- T28 Text med fraktur. -1910 T29 Antal tiffbilder: -1910 1911- Tabellen över tabellegenskaper finns även som Bilaga 1 i Bilagor.
9(20) Typtabeller - tabellegenskaper 1. Tabelltitel i innehåll / bokmärken 2. Tabellegenskaper Innehållsförteckning >> Tab. 10. Folkmängden efter kön och ålder i ett- och femårsklasser 1.1.1965, s. 37-38. T00. urn:nbn:se:scb-1965-bsm6505_d039-d040 T01. Tusenavgränsare: mellanslag. T11. Vertikal summering: Ja. T19. Inget vertikalt rutnät i tabellen. T22. Tabellen löper vertikalt över 4 halva sidor. T26. Antal sidor: 2. T29. Antal tiffbilder: 2 3. Anmärkning 4. Titel på digienhet Tabell uppdelad i ettårsklasser, femårsklasser och i annan klassindelning. BSM6505. Ingår i //scb.se >> Hitta statistik >> Historisk statistik >> Sveriges officiella statistik >> Befolkningsstatistik >> Statistiska meddelanden >> B 1965:5 urn:nbn:se:scb-1965-bsm6505 urn_nbn_se_scb-bsm6505_t039.tif urn_nbn_se_scb-bsm6505_t040.tif Kommentarer: 1. Tabelltitel i innehåll / bokmärken hänvisar till digienhetens pdf. Tabelltiteln visas som den ser ut i boken och på vilka sidor tabellen finns. 2. Tabellegenskaper börjar alltid med T00, Tabellidentitet (TabId) är urn:nbn:se:scb-1965- bsm6505_d039-d040. Häftets beteckning bsm6505 ingår i alla urn:nbn som tillhör häftet. Det finns ytterligare 6 tabellegenskaper. 3. Anmärkning. Här står att tabellen har tre klassindelningar men det nämns endast två i tabelltiteln. 4. Titel på digienhet hänvisar till den digitaliserade bokens eller häftets titel. Tabell 10 ingår i Statistiska meddelanden häfte nr B 1965:5. Titel på digienhet är här bsm6505, som är ett statistiskt meddelande inom befolkning 1965:05. Häftets har urn:nbn:se:scb-1965- bsm6505. Tiffbilderna på de två sidorna med tabellen är också urn:nbn men slutar på t039.tif resp. t040.tif och talen markerar bildernas nummer från filens/digienhetens början.
Typfall 3: Tiffbilder på den tabell som beskrivs på föregående sida. 10(20)
Typfall 1. Hämtat ur Det civila veterinärväsendet 1933 Exemplifierar liggande text och vertikala summor Nedflyttningstecken för län Tabell över uppslag. Även tabelltitel, fotnoter och anmärkningar över uppslag 11(20)
Typfall 2 T02. Decimaltecken: förhöjd punkt ( ). Följ röd pil. T18. Fotnoter finns under tabellen 12(20)
13(20) 3.2 Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker Joakim Lennartsson, Göteborgs universitet, Ekonomiska biblioteket Det verktyg som några arbetar med i Göteborg är ABBYY FineReader och som verkar användbart för att överföra till Excellark, men dess nackdel är att det blir en hel del feltolkningar gällande tecken, då mycket manuellt arbetet måste läggas ned för att rätta till detta. Med andra ord kräver detta system mycket tid och i Göteborg har man även valt att skicka tabellerna till en firma i Indien som gör hela arbetet för en ganska låg summa pengar. Enligt en forskare på Göteborgs universitet, på ekonomisk historia är det enda systemet som finns på tillgängligt på marknaden, medan en annan forskare på Göteborgs universitet, statistik säger att det säkert finns flera system på marknaden, men kan inte tipsa om någon kommersiell produkt som är användbar. En forskare i Lund, ekonomisk historia hade en helt annan uppfattning om det hela och menade att den historiska statistiken är mycket svår med olika tecken etc. och det finns många anledningar till att ett system läser in fel eftersom historisk statistik är speciellt svår med olika tecken, skillnader mellan olika år och även den kan innehålla olika typer av fel. han berättade att i Lund har man arbetat helt manuellt och låtit tre studenter knappa in alla statistik manuellt. Detta gör att man hela tiden har en stor kontroll att hitta fel och även att kontrollera fel i statistiken man matar in. Det går snabbare med ett verktyg som ABBYY FineReader, men det blir snarare fråga om kvantitet än god kvalitet. Forskaren tyckte inte heller att det är så bra att skicka bort statistiken till ett annat land, eftersom de som då arbetar med den inte har någon kunskap om statistiken och då inte heller kan upptäcka eventuella fel som finns etc. Samma svar ger en annan kollega från Lund som menar att det tar lika lång tid att rätta till filerna efter det att man läst in den som det tar att skriva in tidsserierna för hand. Intressant här är att det var en sådan stor skillnad mellan Göteborg och Lund gällande sättet att digitalisera historisk statistik. Digitaliseringsansvarig från Göteborgs UB framhåller också att tabeller är svåra att digitalisera eftersom de kan se ut på många olika sätt. KB har ju testat mycket SOU:er med en ABBYY-server för OCR-tolkning och kommit fram till att detta system inte duger för tabeller. Detta är något man kan väga för och emot respektive tillvägagångssätt. Många av de som givit någon typ av svar har också berättat att de ställt sig mycket positiva till detta projekt och gärna vill få information om hur det kommer att löpa. Forskarna är också självfallet lika positiva till att fungera som kontaktlänkar. Se vidare Bilaga 2 i Bilagor till VATT förstudie.
14(20) 3.3 Exempel på digitalisering vid Statistics Greece Svar från Statistics Greece på förfrågan i e-post om Statistics Greece har använt ABBYY Flexicapture 10 Distributed Edition: It's a fact, that the Hellenic Statistical Authority decided to use OCR technology in the capturing and processing of its two biggest surveys, namely the Agriculture Census 2009 (19 million pages) and the Population Census 2011 (38 million pages). The software used was Abbyy Flexicapture 10 Distributed Edition, with a site license enabling the processing of unlimited pages through unlimited stations used for various processing (scanning, recognition, data verification, verification - logical checks,export etc.). The software proved to meet our requirements and deadlines, enabling a lot of users to work simultaneously, both in-house employees and remote, through thick and thin (web) clients respectively. Attached, you will find a sample of the production reports of a certain period, showing the processed pages (organized in batches), and the simultaneous users, so that you take an idea of the work volume (Se Bilaga 3. Production_abbyy.xls i Bilagor till VATT förstudie). 3.4 Undersökning av programvaror/verktyg som finns för digitalisering av tabeller Lars Lindam-Olsson När man försöker hitta referenser till verktyg för digitalisering av tabeller finner man en samstämmighet över att det är ett problem att fånga data i tabeller och inget verktyg verkar ha fullt ut löst problemen. De referenser till liknande projekt som hittats har handlat on att skanna in tabeller till bilder men inget om uttolkning av data från bilderna. Kravet på ett verktyg är bra tolkning av bilder men problemen att fånga data innebär att verifieringen (korrigeringar av tolkade tabellavgränsningar / cellvärden etc.) troligen kommer att kräva den största arbetsinsatsen. Fokus på ett effektivt verktyg måste därför vara på tolkningen för att minska arbetsinsatsen, men verifieringen måste också vara effektiv att använda. När data digitaliseras måste verktyget/verktygen lagra det på något sätt för att bli sökbart och användbart. Om man har ett målformat för lagring är det också ett krav på de verktyg vi utvärderar. En sökbar lagring vore att man lagrar tabelldata i en databas tillsammans med metadata för cellerna så kan man inte bara ta ut data som t.ex. Excel-filer utan man kan också länka ihop tabeller och ge möjligt att skapa tidsserier för att följa en utveckling. För att digitalisera innehållet i historiska tabeller så verkar detta projekt vara först ut men många är intresserade av att digitalisera tabeller. Kanske kan fler (länder) vara intresserade av ett verktyg för detta. Den mesta av funktionaliteten finns redan men verktygen är för generella för att passa våra specifika
15(20) behov. Med en tydlig målplattform och digitaliseringsprocess kanske det är enklast att kravställa och beställa ett anpassat verktyg som använder befintlig teknik. Det finns inga färdiga verktyg/programvaror för digitalisering av vår typ av tabeller men de två verktyg som oftare refereras för datafångst från tabeller är: ABBYY http://www.abbyy.com/ OmniPage Capture SDK, http://australia.nuance.com/for-business/by-product/omnipage/csdk/index.htm Det verktyg som oftast refereras är ABBYY men då för relativt enkla tabellstrukturer. Se även Bilaga 4 i Bilagor till VATT förstudie. 3.5 Kartläggning av utvecklingsverktyg Tim Forsström ABBYY FlexiCapture Jag har kommit fram till samma slutsats som Lars vad gäller verktygen, ABBYY är det som verkar lämpligast. Jag har varit med på en förevisning av ABBYY FlexiCapture som anordnats via OptoSweden, ABBYY s partner i Sverige. Programmet har många tilltalande aspekter: Komplett arbetsflöde, dvs man kan köra produktion från ax till limpa utan att behöva bygga egna program, vilket man skulle behöva om man använder rena API:er. Man kan sätta upp dokumenttyper så systemet automatiskt känner av vilken typ av dokument det rör sig om. Tolkningen sker därefter beroende på dokumenttypen. Man kan arbeta via "tjocka klienter" eller tunna klienter eller från en webbplats beroende på hur man sätter upp systemet. Det är även skalbart uppåt från desktop applikation till distribuerat system. API för.net, Java, VB-Script finns ifall det skulle behövas. MS-SQL eller ORACLE i botten. Dokumenterad databas så att man kan själv hämta information ifall man skulle behöva. Verifiering av data kan ske på två sätt, en vanlig operatör verifierar endast tecken. En superanvändare verifierar dokumentlogiken samt har översikt över dokumentet. På så sätt kan man ha ovana användare som inte behöver få särskild träning för att verifiera tecken. Tabeller kräver enligt kontakten på ABBYY litet mer i uppsättningen av dokumenttypen än vanliga dokument. En vanlig dokumenttyp kan systemet i princip självt lära sig med exempeldokument. För dokument, som är svårare att särskilja, kan behövas att man "lär upp" systemet manuellt i ett administrationsverktyg.
16(20) 4 Test av ABBYY FlexiCapture 10 i juni 2013 Från ABBYY rekvirerade vi tillgång till FlexiCapture för test. Denna utfördes under ett par dagar i juni 2013. Eftersom ingen i projektet hade kört programmet förut var det till början ganska svårt att komma igång och få till en bra uppsättning av en typtabell. Våra IT-experter hade dock tidigare använt liknande program tidigare. Andra dagen gick det mycket bättre och vi kom på hur man sätter upp tabellerna på ett enklare sätt än vi provat tidigare. Efter en del finjusteringar fick vi bra resultat från några olika typtabeller. En av (de snällare) tabellerna behövdes inte rättas alls utan tolken klarade det helt. Administrationsdelen av systemet har en viss inlärningströskel. För att få ut bästa möjliga ur systemet torde en utbildning vara på sin plats. Inga försök gjordes för att få systemet att automatiskt känna igen de olika dokumenttyperna. Inte heller provades att sätta upp flera deltabeller på en sida eller flersidiga tabeller. Tolkning Tolken är en av de bästa som finns på marknaden och gjorde ett bra jobb på materialet vi testade. Dock var det en del tryckta siffror som, tolken inte lyckades med, men de var även svåra att se med ögonen så det var inte så konstigt. Rättning Rättning av osäkra/otolkbara tecken var föredömligt enkel och man kunde se på skärmen vilket tecken som tolkats till vad och man kunde enkelt och snabbt åtgärda felen. Utdata Det finns flera olika möjligheter till utdata. Under dessa dagar valde vi att prova PDF med fulltextsökning. Resultatet blev mycket gott. (Dock kunde man inte rakt av kopiera texten från PDF en och lägga in i t.ex. Excel.) Kanske kan man göra vissa valideringar och även kanske sammanslagningar till tidsserier i SQL databasen för att sedan exportera ut materialet. Det finns många möjligheter. Slutsats Programmet verkar mycket kapabelt och enligt Greklands statistikbyrå även kunna klara stora volymer dokument. Till vår kontakt på ABBYY i München har vi skickat ett mail där vi frågar om vi kan ha en enkel webbkonferens med dem och OptoSweden. Vi skulle vilja diskutera med dem och visa några av våra tabeller och höra vad de anser att vi kan klara av efter att ha gått kurs hos dem. En annan fråga som vi tog upp i projektet var frågan att be om en mer specifik utbildning för vårt material, dvs. att man sitter med en konsult eller liknande som hjälper till att sätta upp dokumenten i stället för att delta i en utbildning.
17(20) 5 Webbmöte för presentation och diskussion av ABBYY:s prototyp för teckenigenkänning av tabeller baserade på typfall (cases) 1-3, 5-6 den 21 augusti 2013 Sven Diedrich, ABBYY Europé, München, Tyskland presenterade prototypen baserad på typfall 1-3, 5-6 för projektet och OptoSweden. Projektet hade skickat exempel på 5 olika typtabeller för att utröna ifall de kunde tolkas och hanteras av FlexiCapture. Anteckningar från demo av FlexiCapture. Enligt ABBYY kan alla 6 typtabellerna tolkas (det blev fel med materialet till typ 4 så den kunde inte testas av ABBYY). De hade gjort demo på typ 3 och 5 som de visade oss, kommentarer nedan: Typ 1 De anmärkte på bildkvaliteten, tecken flöt ihop (vi var medvetna om det när vi skickade materialet). Typ 2 Decimaltecknen tolkades som minustecken, vilket kan automatiskt via en regel omvandlas till decimal (Man byter ut det första minustecknet från höger till ett decimaltecken.). Typ 3 Man hade använt sig av Repeating Group istället för Table. Typ 4 Utgått. Typ 5 Man hade gjort egna datatyper för kolumner med pos./neg. siffror: Man kan göra regel för att ersätta + tecken med tomt tecken, även tolka tomma celler som 0. Typ 6 Kan hanteras som typ 3 fast det är lite mer komplext. Slutsats FlexiCapture visade kunna våra typtabeller på ett utmärkt sätt. Verifieringen fungerade bra liksom hanteringen av förhöjd punkt som decimaltecken. Programmet är utan tvekan kompetent. Uppsättningen av en tabell tar tid, varför SCB till en början bör inrikta sig på serier som innehåller årligen utkommande tabellbilagor. Börja med statistik fr.o.m. 1911 och gå sedan bakåt i tiden. Det blev också helt klarlagt att det är för tidigt att gå en systemkurs för att på sikt kunna påverka utvecklingen av plattformen. Förmodligen skulle det vara bättre att låta förstudien åtföljas av en pilotstudie av en viktig komplex serie som t.ex. Folkmängden inom administrativa områden den 31 december, som omfattar åren 1910-1961. Vidare bestämdes att OptoSweden och SCB skulle ha ett möte om VATT förstudie samt dess avslutning och fortsättning.
18(20) 6 Möte mellan SCB och OptoSweden hos SCB den 18 september 2013 Syfte med mötet: Bakgrund projektet Verktyg för analys och teckenigenkänning av tabeller (VATT) - förstudie samt dess avslutning och fortsättning, som huvudsakligen bekostas av KB. Förstudien ska avslutas under år 2013. Eftersom det är för tidigt att under hösten delta i en systemkurs hos ABBYY har OptoSweden fått i uppdrag att arbeta igenom typfall 3 enligt följande beskrivningsblad: Beskrivningsblad Statistiska meddelanden. B ; 1965:05 Tab. 10. Folkmängden efter kön och ålder i ett- och femårsklasser 1.1.1965 = Population by sex and age in one- and five-year groups. Ingår i: Statistiska meddelanden ; B 1965:05, s. 37-38. Kommentar 1. Tabellen är uppdelad i Ettårsklasser samt i Femårsklasser jämte en annan klassindelning. 2. Kontrollräkning. Varje klassindelning har en vertikal summeringsrad som föregås av Summa. 3. Sist under tabellen anges Diginfo enligt följande rader Diginfo: Digitaliserad av Statistiska centralbyrån (SCB) 2013 urn:nbn:se:scb-1965-bsm6505_d039-d040 Dokumentegenskaper i digitab Identifikator Bildfiler urn:nbn:se:scb-1965-bsm6505_d039-d040 urn_nbn_se_scb-1965-bsm6505_t039.tif urn_nbn_se_scb-1965-bsm6505_t040.tif Filnamn urn_nbn_se_scb-1965-bsm6505_d039-d40.csv urn_nbn_se_scb-1965-bsm6505_d039-d40.pdf Tab. kod Ingår i digienheten med urn:nbn som ingår i serien Tabelltitel Tab. 10 Folkmängden efter kön och ålder i ett- och femårsklasser 1.1.1965 = Population by sex and age in one- and five-year groups Folkmängdsförändringar kommunsvis under år 1964, s. 37-38. urn:nbn:se:scb-1965-bsm6505 Statistiska meddelanden. B. - Statistiska centralbyrån, 1963-1965 Häfte / Nummer B 1965:05 Institution Statistiska centralbyrån Utgivningsår start 1965
19(20) Utgivningsår slut 1965 Täckningstid start 1965 Täckningstid slut 1965 Tabellegenskaper T01. Tusenavgränsare: mellanslag. T11. Vertikal summering: Ja. T19. Inget vertikalt rutnät i tabellen. T22. Tabellen löper vertikal över 4 halva sidor. T26. Antal sidor: 2. T29. Antal tiffbilder: 2. Resultat En färdig analys och OCR-tolkning av tabellen med en detaljerad beskrivning hur arbetet har gått till. Inga fel finns efter teckentolkning av tabellen. Vertikal och horisontell summering enligt regel i respektive kolumner. Skrivyta att användas för kommentarer, som t.ex. att ett värde har korrigerats vid verifiering av tecken. Tabellen har överlämnats till SCB som pdf-fil och kommaseparerad fil (.csv), vilken kan överföras till kalkylark eller databas. OptiSweden arkiverar hur detta arbete har utförts på så sätt att detta kan ligga till grund för en eventuell pilotstudie. 7 Resultat av VATT - förstudie Efter undersökningar och tester rekommenderar projektet VATT förstudie ABBYY FlexiCapture 10 Distributed eller annan systemleverantör som levererar: Bra uppsättning av en tabell Teckentolkning av god kvalitet Rättning av osäkra/otolkbara tecken är föredömligt enkel och på skärmen kan man se vilket tecken som tolkats till vad och åtgärda felen Olika möjligheter till utdata såsom pdf-fil och csv-fil Csv-fil kan enkelt föras över till kalkylark eller databas Möjlighet till kundanpassning Eftersom uppsättningen tar tid bör SCB börja med årligen återkommande tabeller, som ingår i en bok, som utkommer i en serie under flera år så att uppsättningen kan återanvändas.
20(20) 8 Hur går SCB vidare? I arbetet har följande punkter identifierats som SCB kan arbeta vidare med: börja med tabeller från 1911-2001, fortsätt därefter med åren 1858-1910 för att sluta med åren 1811-1857 se över möjligheter för att kunna starta en pilotstudie med serien Folkmängden i administrativa områden 1910-1961 tillsammans med OptoSweden eller annan leverantör använda en unik identifikator t.ex. urn:nbn som identifikation av tabeller. Urn:nbn används redan för böcker och tidskriftshäften upprätta för tabeller särskilda beskrivningsblad med metadata, tabellegenskaper och som beskriver hur tabeller i en tidserie förändras över tiden se över vilken information som bör finnas i anslutning till tabellen, t.ex. identifikator, serietillhörighet, källhänvisningar, skrivyta för komplettering av tabell, hyperlänk till dokumentegenskaper, diginfo anpassning av programvaran till att kontrollräkna vertikal och horisontal summering. besluta hur den digitaliserade tabellen ska relateras till moderpublikation och ska publiceras