Verktyg för analys och teckenigenkänning av tabeller (VATT)

Storlek: px
Starta visningen från sidan:

Download "Verktyg för analys och teckenigenkänning av tabeller (VATT)"

Transkript

1 Kommunikationsavdelningen Rolf-Allan Norrmosse DOKUMENTTYP Verktyg för analys och teckenigenkänning av tabeller (VATT) förstudie Bild av tabellsida i tiff etc. Digitaliseringsprocess av en tabell 1. Tiff-bild av sida med tabell 3. OCR-tolkning, rättning, kontrollräkning, etc..pdf.csv 2. Uppsättning av tabell analys av tabell, tabellegenskaper, etc. Kalkylark / Databas Projektrapport Dnr: 51-KB Beslutsnr: Natsam 2012:39 Statistiska centralbyrån 2013

2 2(20) Innehåll 1 Inledning Bakgrund och syfte Bakgrund Syfte Mål för projektet Nedan följer ett par utredningar och undersökningar Typtabeller med tabellegenskaper Rolf-Allan Norrmosse Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker Joakim Lennartsson, Göteborgs universitet, Ekonomiska biblioteket Exempel på digitalisering vid Statistics Greece Undersökning av programvaror/verktyg som finns för digitalisering av tabeller Lars Lindam-Olsson Kartläggning av utvecklingsverktyg Tim Forsström Test av ABBYY FlexiCapture 10 i juni Webbmöte för presentation och diskussion av ABBYY:s prototyp för teckenigenkänning av tabeller baserade på typfall (cases) 1-3, 5-6 den 21 augusti Möte mellan SCB och OptoSweden hos SCB den 18 september Resultat av VATT - förstudie Hur går SCB vidare? Bilaga 1-4 ingår i: Projektrapport. Bilagor

3 3(20) 1 Inledning Statistiska centralbyrån (SCB) ansökte 2012 hos Kungl. biblioteket (KB) om projektbidrag 2013 till projektet: Verktyg för analys och teckenigenkänning av tabeller (VATT) förstudie. KB beviljade bidrag med kr till projektet. Projektarbetet kommer att utföras i samarbete med Göteborgs universitetsbibliotek, Ekonomiska biblioteket (GUB). Följande medlemmar har ingått i projektet: Rolf-Allan Norrmosse, SCB Tim Forsström, SCB Lars Lindam-Olsson, SCB Hans Ljungberg, SCB Joakim Lennartsson, GUB projektledare, förste bibliotekarie biträdande projektledare, systemutvecklare systemutvecklare bibliotekarie bibliotekarie Ekonomiska biblioteket Följande personer har ingått i projektets styrgrupp: John Kling Rolf-Allan Norrmosse Hans Ljungberg beställare inom SCB projektledare bibliotekarie 2 Bakgrund och syfte 2.1 Bakgrund Efter förstudie och tester sökte SCB 2006 hos Riksbankens Jubileumsfond (RJ) anslag med strukturellt stöd för digitalisering och tillgängliggörande på internet av bokverket Bidrag till Sveriges officiella statistik (BiSOS), vilket publicerades under SCB:s första 50 år. RJ beviljade 4 miljoner kr för digitalisering Anslaget räckte till BiSOS på sidor text och tabeller samt till ytterligare sidor. Därefter har digitaliseringen fortsatt. Biblioteksnyttan av den omfattande digitalisering av tryckta statistiska publikationer som SCB har gjort sedan 2007 är stor. Under 2011 användes våra digitaliserade publikationer gånger. På scb.se är tabellerna tillgängliga som bilder, men det går inte att överföra till kalkylark eller databaser. Ett viktigt resultat är att bildfångstens kvalitet är så hög att denna inte behöver göras om. Det var inte möjligt att inom BiSOS-projektets ekonomiska ramar OCR-tolka tabellerna med tillfredsställande kvalitet. Det var bättre att spara/arkivera bilderna okomprimerat i formatet tiff, som är ett av Riksarkivet (RA) godkänt format. SCB har tillgång till originalen och kan, när tekniken medger, göra en analys och OCR-tolkning av tabeller.

4 4(20) Bok/ Häfte/ etc. Digitaliseringsprocess av en bok 1. Bildfångst. 2. OCR-tolkning 3. Framställning av presentationsfärdig PDFpublikation PDF Tiff-filer 1. Bildfångst 2. OCR-tolkning av innehållsförteckning och löpande text. 3. Framställning av presentationsfärdig pdf-publikation Resultatet ska vara pdf-publikation och bilder i formatet tiff. Bild av tabellsida i tiff etc. Digitaliseringsprocess av en tabell 1. Tiff-bild av sida med tabell 2. Uppsättning av tabell analys av tabell, tabellegenskaper, etc. 3. OCR- Tolkning, rättning, kontrollräkning, etc..pdf.csv Kalkylark / Databas 1. Tiff-bild av sida med tabell. 2. Uppsättning av tabell; tabellegenskaper, etc. 3. OCR-tolkning, rättning, kontrollräkning, etc. 4. pdf-fil för verifieringen, Kommaseparerad fil (.csv) för överföring av tabelldata till kalkylark eller databas.

5 5(20) Att kunna överföra tabelldata från bilder eller pdf-publikationer till databaser eller kalkylark efterfrågas starkt av våra användare. SCB får också frågor både svenska, nordiska och internationella kunder, som använder SCB:s digitaliserade material. Både forskare och studenter skulle ha nytta av detta inom sina olika ämnen. Självklart gäller det även verksamma bibliotekarier inom olika bibliotekstyper. 2.2 Syfte Syftet med förstudien är att undersöka, om det finns något Verktyg för analys och teckenigenkänning av tabeller (VATT) tillgängligt på marknaden. Ett befintligt verktyg kan behöva anpassas. I förstudien ska från det material, som SCB har digitaliserat, tas fram ett antal typfall på hur tabeller har varit uppbyggda sedan Med verktyget ska tabeller kunna analyseras och teckentolkas med inga eller ett fåtal fel. Kontrollräkning ska kunna göras. Verktygets resultat när en tabell har bearbetats ska vara att tabelldata kan föras över till databaser eller kalkylark. 2.3 Mål för projektet Effektmål Statistik görs mera tillgänglig och möjligheterna att utnyttja det statistiska materialet ökar. Riskerna för fel vid användningen av äldre statistik blir väsentligt mindre när man kan överföra de inskannade filerna direkt istället för att enskilda användare ska manuellt överföra tabellinnehållet. Projektmål/huvudmål Syftet med förstudien är att undersöka om det finns något verktyg för analys och teckenigenkänning av tabeller tillgängligt på marknaden. Ett befintligt verktyg kan behöva anpassas. I förstudien ska från det material som SCB har digitaliserat, tas fram ett antal typfall på hur tabeller har varit uppbyggda sedan Med verktyget ska tabeller kunna teckentolkas med inga eller ett fåtal fel. Kontrollräkning ska kunna göras. Delmål Vad ska levereras i tidsordning: 1. Ett par utredningar och undersökningar a. Ta fram typtabeller samt strukturera upp typtabellerna, dvs. identifiera tabellegenskaperna b. Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker c. Exempel på digitalisering vid Statistics Greece d. Undersökning av programvaror/verktyg som finns för digitalisering av tabeller e. Kartläggning av utvecklingsverktyg 2. Ev. studium av en utvecklingspattform för OCR-verktyg utvecklat av Abbyy (kurs). Test av typexempel 3. Test av ABBYY FlexiCapture 10 i juni Webbmöte för presentation och diskussion av ABBYY:s prototyp för teckenigenkänning av tabeller baserade på typfall (cases) 1-3, 5-6 den 21 augusti Möte mellan SCB och OptoSweden hos SCB den 18 september Resultat av VATT - förstudie 7. Hur går SCB vidare?

6 6(20) Aktiviteter 1. Typtabeller m. m - typtabeller - tabellegenskaper - metadata - beskrivningsblad för digitala tabeller - projektet beslutar att arbeta endast med tabeller från 1911 och framåt - ev. leverans av digitala tabeller som e-plikt 2. EU / biblioteksvärlden 3. Undersökning av programvaror/verktyg som finns för digitalisering av tabeller 4. Kartläggning av utvecklingsverktyg 5. Ev. studium av en utvecklingsplattform för OCR-verktyg utvecklat av ABBYY (kurs) 6. Test av ABBYY FlexiCapture 7. Web meeting presenting and discussing the ABBYY prototype for table recognition based on the provided cases 1-3,5-6 on 21 August Möte mellan SCB och OptoSweden hos SCB den 18 september 2013 Uppdrag åt OptoSweden att: - arbeta igenom case 3 enligt beskrivningsblad - infoga en Skrivyta under tabellen för kommentarer - beskriva hur kontroll i vertikal och horisontal summering kan göras i tabell - fundera på hur fotnot från en cell med siffror kan göras - leverera resultatet av digitaliserad tabell som pdf för verifiering och csv för överföring till databas eller kalkylark. 3 Nedan följer ett par utredningar och undersökningar 3.1 Typtabeller med tabellegenskaper Rolf-Allan Norrmosse Typtabeller När SCB har digitaliserat tryckta statistiska böcker publiceras den färdiga pdfpublikationen (s.k. digienhet) på SCB:s webbplats. Vid sidan om pdf:erna levereras även en bild av varje sida i formatet tiff. En tabell som ska digitaliseras finns på en eller oftast på flera tiffbilder. Den tryckta statistiken är ofta indelad i en textdel och en särskild tabellbilaga där varje tabelltitel föregås av en kod. Texten innehåller inte alltid men ofta så kallade texttabeller. Ibland föregås titel till en texttabell av en littera eller kod. En tabell innehåller inte endast rader och kolumner av siffror utan också förspalt till vänster om rutmönstret och överspalt över detta. Till tabellen finns också en titel. Annat som är knutet till tabellen är noter och anmärkningar, som ibland inte finns på samma plats i publikationen som tabellen. I Statistisk årsbok för Sverige finns ett särskilt kapitel med källhänvisningar till alla tabeller. Ibland samlade man ett fåtal tabeller i en inramning till en större enhet, som kan vara lämpligt att behålla. Detta gäller befolkningsstatistiken från första hälften av 1800-talet, som vart femte år hade ett generalsammandrag. Jordbruksstatistiken från andra hälften av 1800-talet hade 76 kolumner där endast de i regionen/området relevanta används. I serien Folkmängden i administrativa områden är Tabell 1 indelad i undertabeller för Stockholms stad och alla 24 länen. Anmärkningar till länen och dess indelningar finns i ett särskilt avsnitt.

7 7(20) För att ta fram typtabeller har vi gått igenom en hel mängd tabeller från 1811 och fram till Genom att strukturera upp typtabeller har vi kunna identifiera tabellegenskaper. Tabellegenskaper Eftersom våra digitaliserade tryckta publikationer har kommit ut under nästa 200 år återspeglas detta i tabellegenskaperna. En tvåsiffrig kod med inledande T identifierar en tabellegenskap. Några exempel: T01. Tusenavgränsare: mellanslag / komma / punkt / ingen. T02. Decimaltecken: komma / förhöjd punkt ( ) / punkt. Förhöjd punkt (Middle dot) förekommer 1859 till T04 Decimaler skrivs i mindre grad än heltal. Ören skrivs i mindre grad än kronor. T05 Bråktal i stället för decimaler. 1 riksdaler=48 shillingar, 1 shilling=12 runstycken. Skörd räknas i kubikfot och i tunnor. T06 + / - föregår värden i någon kolumn. { (klammer) kan ha olika funktion; ibland läsanvisning (T14), ibland summa (T15). Summeringar kan vara vertikal eller horisontal (T13, T15). Dessa är lämpliga för att kunna utföra kontroller; Summan av OCR:ade värden = OCR:at värde i summacellen. En tabell kan vara flera sidor lång och löpa vertikalt över x bokuppslag, dvs. x 2 sidor (T23). Slutligen att Noter (T18) och Anmärkningar (T17) är särskilt viktigt att tala om, eftersom de kan finnas på annan plats i boken än tabellen.

8 8(20) Tabell med tabellegenskaper Kod Beskrivning Period Period T00 Tabellidentitet (TabId) är tabellens urn:nbn och utgör den unika identiteten för tabellen urn:nbn:se:scb-sinne-1935_d033 Tabellen ryms på en tiffbild. urn:nbn:se:scb-1965-bsm6505_d039-d040 Tabellen består av 2 eller flera tiffbilder. urn:nbn:se:scb-bi-a0-5101_d087_1 Tabellen ryms på övre delen av en tiffbild. urn:nbn:se:scb-bi-a0-5101_d087_2 Tabellen ryms på nedre delen av en tiffbild. Urn:nbn innerhåller även uppgift om till vilken digienhet tabellen tillhör. dnnn anger sida från digienhetens början. T01 Tusenavgränsare: mellanslag / komma / punkt / ingen T02 Decimaltecken: komma / förhöjd punkt ( ) / punkt Förhöjd punkt (Middle dot) förekommer 1859 till T03 Decimaler efter förhöjd punkt skrivs i mindre grad än heltal. T.ex.: T04 Decimaler skrivs i mindre grad än heltal Ören skrivs i mindre grad än kronor. T05 Bråktal i stället för decimaler. 1 riksdaler=48 shillingar, 1 shilling=12 runstycken. Skörd räknas i kubikfot och i tunnor T06 + / - föregår värden i någon kolumn T07 i cell: Inget finns att redovisa T08. i cell: Logiskt omöjlig uppgift T09 * i cell: Preliminär uppgift T10» Upprepning av text ovan T11 Vertikal summering: Ja T12 Horisontal summering: Ja T13 Ingen summering finns T14 Vissa värden hålls ihop med vertikalt klammer / horisontellt klammer T15 Vissa värden summeras inom vertikalt klammer / horisontellt klammer T16 Vertikal text finns i tabellen T17 Anmärkningar finns T18 Fotnoter finns T19 Inget vertikalt rutnät i tabellen T20 Sidan indelad i x tabeller i en ram T21 Tabellen löper horisontellt över x sidor T22 Tabellen löper vertikalt över x sidor / spalter T23 Tabellen löper vertikalt över x bokuppslag, dvs. x 2 sidor T24 Tabell mindre än en sida T25 Tabellen löper över x sidor horisontellt med kolumner numrerade från till y. Vissa kolumner kan vara överhoppade. T26 Antal sidor: T27 Sidan storlek anges som höjd bredd i cm. T. ex Sidans storlek: cm. Sidans storlek anges endast om den avviker från bokens normalsida T28 Text med fraktur T29 Antal tiffbilder: Tabellen över tabellegenskaper finns även som Bilaga 1 i Bilagor.

9 9(20) Typtabeller - tabellegenskaper 1. Tabelltitel i innehåll / bokmärken 2. Tabellegenskaper Innehållsförteckning >> Tab. 10. Folkmängden efter kön och ålder i ett- och femårsklasser , s T00. urn:nbn:se:scb-1965-bsm6505_d039-d040 T01. Tusenavgränsare: mellanslag. T11. Vertikal summering: Ja. T19. Inget vertikalt rutnät i tabellen. T22. Tabellen löper vertikalt över 4 halva sidor. T26. Antal sidor: 2. T29. Antal tiffbilder: 2 3. Anmärkning 4. Titel på digienhet Tabell uppdelad i ettårsklasser, femårsklasser och i annan klassindelning. BSM6505. Ingår i //scb.se >> Hitta statistik >> Historisk statistik >> Sveriges officiella statistik >> Befolkningsstatistik >> Statistiska meddelanden >> B 1965:5 urn:nbn:se:scb-1965-bsm6505 urn_nbn_se_scb-bsm6505_t039.tif urn_nbn_se_scb-bsm6505_t040.tif Kommentarer: 1. Tabelltitel i innehåll / bokmärken hänvisar till digienhetens pdf. Tabelltiteln visas som den ser ut i boken och på vilka sidor tabellen finns. 2. Tabellegenskaper börjar alltid med T00, Tabellidentitet (TabId) är urn:nbn:se:scb bsm6505_d039-d040. Häftets beteckning bsm6505 ingår i alla urn:nbn som tillhör häftet. Det finns ytterligare 6 tabellegenskaper. 3. Anmärkning. Här står att tabellen har tre klassindelningar men det nämns endast två i tabelltiteln. 4. Titel på digienhet hänvisar till den digitaliserade bokens eller häftets titel. Tabell 10 ingår i Statistiska meddelanden häfte nr B 1965:5. Titel på digienhet är här bsm6505, som är ett statistiskt meddelande inom befolkning 1965:05. Häftets har urn:nbn:se:scb bsm6505. Tiffbilderna på de två sidorna med tabellen är också urn:nbn men slutar på t039.tif resp. t040.tif och talen markerar bildernas nummer från filens/digienhetens början.

10 Typfall 3: Tiffbilder på den tabell som beskrivs på föregående sida. 10(20)

11 Typfall 1. Hämtat ur Det civila veterinärväsendet 1933 Exemplifierar liggande text och vertikala summor Nedflyttningstecken för län Tabell över uppslag. Även tabelltitel, fotnoter och anmärkningar över uppslag 11(20)

12 Typfall 2 T02. Decimaltecken: förhöjd punkt ( ). Följ röd pil. T18. Fotnoter finns under tabellen 12(20)

13 13(20) 3.2 Undersökning om forskare inom universitetsvärlden har använt något verktyg (motsv.) vid digitalisering av tabeller i tryckta böcker Joakim Lennartsson, Göteborgs universitet, Ekonomiska biblioteket Det verktyg som några arbetar med i Göteborg är ABBYY FineReader och som verkar användbart för att överföra till Excellark, men dess nackdel är att det blir en hel del feltolkningar gällande tecken, då mycket manuellt arbetet måste läggas ned för att rätta till detta. Med andra ord kräver detta system mycket tid och i Göteborg har man även valt att skicka tabellerna till en firma i Indien som gör hela arbetet för en ganska låg summa pengar. Enligt en forskare på Göteborgs universitet, på ekonomisk historia är det enda systemet som finns på tillgängligt på marknaden, medan en annan forskare på Göteborgs universitet, statistik säger att det säkert finns flera system på marknaden, men kan inte tipsa om någon kommersiell produkt som är användbar. En forskare i Lund, ekonomisk historia hade en helt annan uppfattning om det hela och menade att den historiska statistiken är mycket svår med olika tecken etc. och det finns många anledningar till att ett system läser in fel eftersom historisk statistik är speciellt svår med olika tecken, skillnader mellan olika år och även den kan innehålla olika typer av fel. han berättade att i Lund har man arbetat helt manuellt och låtit tre studenter knappa in alla statistik manuellt. Detta gör att man hela tiden har en stor kontroll att hitta fel och även att kontrollera fel i statistiken man matar in. Det går snabbare med ett verktyg som ABBYY FineReader, men det blir snarare fråga om kvantitet än god kvalitet. Forskaren tyckte inte heller att det är så bra att skicka bort statistiken till ett annat land, eftersom de som då arbetar med den inte har någon kunskap om statistiken och då inte heller kan upptäcka eventuella fel som finns etc. Samma svar ger en annan kollega från Lund som menar att det tar lika lång tid att rätta till filerna efter det att man läst in den som det tar att skriva in tidsserierna för hand. Intressant här är att det var en sådan stor skillnad mellan Göteborg och Lund gällande sättet att digitalisera historisk statistik. Digitaliseringsansvarig från Göteborgs UB framhåller också att tabeller är svåra att digitalisera eftersom de kan se ut på många olika sätt. KB har ju testat mycket SOU:er med en ABBYY-server för OCR-tolkning och kommit fram till att detta system inte duger för tabeller. Detta är något man kan väga för och emot respektive tillvägagångssätt. Många av de som givit någon typ av svar har också berättat att de ställt sig mycket positiva till detta projekt och gärna vill få information om hur det kommer att löpa. Forskarna är också självfallet lika positiva till att fungera som kontaktlänkar. Se vidare Bilaga 2 i Bilagor till VATT förstudie.

14 14(20) 3.3 Exempel på digitalisering vid Statistics Greece Svar från Statistics Greece på förfrågan i e-post om Statistics Greece har använt ABBYY Flexicapture 10 Distributed Edition: It's a fact, that the Hellenic Statistical Authority decided to use OCR technology in the capturing and processing of its two biggest surveys, namely the Agriculture Census 2009 (19 million pages) and the Population Census 2011 (38 million pages). The software used was Abbyy Flexicapture 10 Distributed Edition, with a site license enabling the processing of unlimited pages through unlimited stations used for various processing (scanning, recognition, data verification, verification - logical checks,export etc.). The software proved to meet our requirements and deadlines, enabling a lot of users to work simultaneously, both in-house employees and remote, through thick and thin (web) clients respectively. Attached, you will find a sample of the production reports of a certain period, showing the processed pages (organized in batches), and the simultaneous users, so that you take an idea of the work volume (Se Bilaga 3. Production_abbyy.xls i Bilagor till VATT förstudie). 3.4 Undersökning av programvaror/verktyg som finns för digitalisering av tabeller Lars Lindam-Olsson När man försöker hitta referenser till verktyg för digitalisering av tabeller finner man en samstämmighet över att det är ett problem att fånga data i tabeller och inget verktyg verkar ha fullt ut löst problemen. De referenser till liknande projekt som hittats har handlat on att skanna in tabeller till bilder men inget om uttolkning av data från bilderna. Kravet på ett verktyg är bra tolkning av bilder men problemen att fånga data innebär att verifieringen (korrigeringar av tolkade tabellavgränsningar / cellvärden etc.) troligen kommer att kräva den största arbetsinsatsen. Fokus på ett effektivt verktyg måste därför vara på tolkningen för att minska arbetsinsatsen, men verifieringen måste också vara effektiv att använda. När data digitaliseras måste verktyget/verktygen lagra det på något sätt för att bli sökbart och användbart. Om man har ett målformat för lagring är det också ett krav på de verktyg vi utvärderar. En sökbar lagring vore att man lagrar tabelldata i en databas tillsammans med metadata för cellerna så kan man inte bara ta ut data som t.ex. Excel-filer utan man kan också länka ihop tabeller och ge möjligt att skapa tidsserier för att följa en utveckling. För att digitalisera innehållet i historiska tabeller så verkar detta projekt vara först ut men många är intresserade av att digitalisera tabeller. Kanske kan fler (länder) vara intresserade av ett verktyg för detta. Den mesta av funktionaliteten finns redan men verktygen är för generella för att passa våra specifika

15 15(20) behov. Med en tydlig målplattform och digitaliseringsprocess kanske det är enklast att kravställa och beställa ett anpassat verktyg som använder befintlig teknik. Det finns inga färdiga verktyg/programvaror för digitalisering av vår typ av tabeller men de två verktyg som oftare refereras för datafångst från tabeller är: ABBYY OmniPage Capture SDK, Det verktyg som oftast refereras är ABBYY men då för relativt enkla tabellstrukturer. Se även Bilaga 4 i Bilagor till VATT förstudie. 3.5 Kartläggning av utvecklingsverktyg Tim Forsström ABBYY FlexiCapture Jag har kommit fram till samma slutsats som Lars vad gäller verktygen, ABBYY är det som verkar lämpligast. Jag har varit med på en förevisning av ABBYY FlexiCapture som anordnats via OptoSweden, ABBYY s partner i Sverige. Programmet har många tilltalande aspekter: Komplett arbetsflöde, dvs man kan köra produktion från ax till limpa utan att behöva bygga egna program, vilket man skulle behöva om man använder rena API:er. Man kan sätta upp dokumenttyper så systemet automatiskt känner av vilken typ av dokument det rör sig om. Tolkningen sker därefter beroende på dokumenttypen. Man kan arbeta via "tjocka klienter" eller tunna klienter eller från en webbplats beroende på hur man sätter upp systemet. Det är även skalbart uppåt från desktop applikation till distribuerat system. API för.net, Java, VB-Script finns ifall det skulle behövas. MS-SQL eller ORACLE i botten. Dokumenterad databas så att man kan själv hämta information ifall man skulle behöva. Verifiering av data kan ske på två sätt, en vanlig operatör verifierar endast tecken. En superanvändare verifierar dokumentlogiken samt har översikt över dokumentet. På så sätt kan man ha ovana användare som inte behöver få särskild träning för att verifiera tecken. Tabeller kräver enligt kontakten på ABBYY litet mer i uppsättningen av dokumenttypen än vanliga dokument. En vanlig dokumenttyp kan systemet i princip självt lära sig med exempeldokument. För dokument, som är svårare att särskilja, kan behövas att man "lär upp" systemet manuellt i ett administrationsverktyg.

16 16(20) 4 Test av ABBYY FlexiCapture 10 i juni 2013 Från ABBYY rekvirerade vi tillgång till FlexiCapture för test. Denna utfördes under ett par dagar i juni Eftersom ingen i projektet hade kört programmet förut var det till början ganska svårt att komma igång och få till en bra uppsättning av en typtabell. Våra IT-experter hade dock tidigare använt liknande program tidigare. Andra dagen gick det mycket bättre och vi kom på hur man sätter upp tabellerna på ett enklare sätt än vi provat tidigare. Efter en del finjusteringar fick vi bra resultat från några olika typtabeller. En av (de snällare) tabellerna behövdes inte rättas alls utan tolken klarade det helt. Administrationsdelen av systemet har en viss inlärningströskel. För att få ut bästa möjliga ur systemet torde en utbildning vara på sin plats. Inga försök gjordes för att få systemet att automatiskt känna igen de olika dokumenttyperna. Inte heller provades att sätta upp flera deltabeller på en sida eller flersidiga tabeller. Tolkning Tolken är en av de bästa som finns på marknaden och gjorde ett bra jobb på materialet vi testade. Dock var det en del tryckta siffror som, tolken inte lyckades med, men de var även svåra att se med ögonen så det var inte så konstigt. Rättning Rättning av osäkra/otolkbara tecken var föredömligt enkel och man kunde se på skärmen vilket tecken som tolkats till vad och man kunde enkelt och snabbt åtgärda felen. Utdata Det finns flera olika möjligheter till utdata. Under dessa dagar valde vi att prova PDF med fulltextsökning. Resultatet blev mycket gott. (Dock kunde man inte rakt av kopiera texten från PDF en och lägga in i t.ex. Excel.) Kanske kan man göra vissa valideringar och även kanske sammanslagningar till tidsserier i SQL databasen för att sedan exportera ut materialet. Det finns många möjligheter. Slutsats Programmet verkar mycket kapabelt och enligt Greklands statistikbyrå även kunna klara stora volymer dokument. Till vår kontakt på ABBYY i München har vi skickat ett mail där vi frågar om vi kan ha en enkel webbkonferens med dem och OptoSweden. Vi skulle vilja diskutera med dem och visa några av våra tabeller och höra vad de anser att vi kan klara av efter att ha gått kurs hos dem. En annan fråga som vi tog upp i projektet var frågan att be om en mer specifik utbildning för vårt material, dvs. att man sitter med en konsult eller liknande som hjälper till att sätta upp dokumenten i stället för att delta i en utbildning.

17 17(20) 5 Webbmöte för presentation och diskussion av ABBYY:s prototyp för teckenigenkänning av tabeller baserade på typfall (cases) 1-3, 5-6 den 21 augusti 2013 Sven Diedrich, ABBYY Europé, München, Tyskland presenterade prototypen baserad på typfall 1-3, 5-6 för projektet och OptoSweden. Projektet hade skickat exempel på 5 olika typtabeller för att utröna ifall de kunde tolkas och hanteras av FlexiCapture. Anteckningar från demo av FlexiCapture. Enligt ABBYY kan alla 6 typtabellerna tolkas (det blev fel med materialet till typ 4 så den kunde inte testas av ABBYY). De hade gjort demo på typ 3 och 5 som de visade oss, kommentarer nedan: Typ 1 De anmärkte på bildkvaliteten, tecken flöt ihop (vi var medvetna om det när vi skickade materialet). Typ 2 Decimaltecknen tolkades som minustecken, vilket kan automatiskt via en regel omvandlas till decimal (Man byter ut det första minustecknet från höger till ett decimaltecken.). Typ 3 Man hade använt sig av Repeating Group istället för Table. Typ 4 Utgått. Typ 5 Man hade gjort egna datatyper för kolumner med pos./neg. siffror: Man kan göra regel för att ersätta + tecken med tomt tecken, även tolka tomma celler som 0. Typ 6 Kan hanteras som typ 3 fast det är lite mer komplext. Slutsats FlexiCapture visade kunna våra typtabeller på ett utmärkt sätt. Verifieringen fungerade bra liksom hanteringen av förhöjd punkt som decimaltecken. Programmet är utan tvekan kompetent. Uppsättningen av en tabell tar tid, varför SCB till en början bör inrikta sig på serier som innehåller årligen utkommande tabellbilagor. Börja med statistik fr.o.m och gå sedan bakåt i tiden. Det blev också helt klarlagt att det är för tidigt att gå en systemkurs för att på sikt kunna påverka utvecklingen av plattformen. Förmodligen skulle det vara bättre att låta förstudien åtföljas av en pilotstudie av en viktig komplex serie som t.ex. Folkmängden inom administrativa områden den 31 december, som omfattar åren Vidare bestämdes att OptoSweden och SCB skulle ha ett möte om VATT förstudie samt dess avslutning och fortsättning.

18 18(20) 6 Möte mellan SCB och OptoSweden hos SCB den 18 september 2013 Syfte med mötet: Bakgrund projektet Verktyg för analys och teckenigenkänning av tabeller (VATT) - förstudie samt dess avslutning och fortsättning, som huvudsakligen bekostas av KB. Förstudien ska avslutas under år Eftersom det är för tidigt att under hösten delta i en systemkurs hos ABBYY har OptoSweden fått i uppdrag att arbeta igenom typfall 3 enligt följande beskrivningsblad: Beskrivningsblad Statistiska meddelanden. B ; 1965:05 Tab. 10. Folkmängden efter kön och ålder i ett- och femårsklasser = Population by sex and age in one- and five-year groups. Ingår i: Statistiska meddelanden ; B 1965:05, s Kommentar 1. Tabellen är uppdelad i Ettårsklasser samt i Femårsklasser jämte en annan klassindelning. 2. Kontrollräkning. Varje klassindelning har en vertikal summeringsrad som föregås av Summa. 3. Sist under tabellen anges Diginfo enligt följande rader Diginfo: Digitaliserad av Statistiska centralbyrån (SCB) 2013 urn:nbn:se:scb-1965-bsm6505_d039-d040 Dokumentegenskaper i digitab Identifikator Bildfiler urn:nbn:se:scb-1965-bsm6505_d039-d040 urn_nbn_se_scb-1965-bsm6505_t039.tif urn_nbn_se_scb-1965-bsm6505_t040.tif Filnamn urn_nbn_se_scb-1965-bsm6505_d039-d40.csv urn_nbn_se_scb-1965-bsm6505_d039-d40.pdf Tab. kod Ingår i digienheten med urn:nbn som ingår i serien Tabelltitel Tab. 10 Folkmängden efter kön och ålder i ett- och femårsklasser = Population by sex and age in one- and five-year groups Folkmängdsförändringar kommunsvis under år 1964, s urn:nbn:se:scb-1965-bsm6505 Statistiska meddelanden. B. - Statistiska centralbyrån, Häfte / Nummer B 1965:05 Institution Statistiska centralbyrån Utgivningsår start 1965

19 19(20) Utgivningsår slut 1965 Täckningstid start 1965 Täckningstid slut 1965 Tabellegenskaper T01. Tusenavgränsare: mellanslag. T11. Vertikal summering: Ja. T19. Inget vertikalt rutnät i tabellen. T22. Tabellen löper vertikal över 4 halva sidor. T26. Antal sidor: 2. T29. Antal tiffbilder: 2. Resultat En färdig analys och OCR-tolkning av tabellen med en detaljerad beskrivning hur arbetet har gått till. Inga fel finns efter teckentolkning av tabellen. Vertikal och horisontell summering enligt regel i respektive kolumner. Skrivyta att användas för kommentarer, som t.ex. att ett värde har korrigerats vid verifiering av tecken. Tabellen har överlämnats till SCB som pdf-fil och kommaseparerad fil (.csv), vilken kan överföras till kalkylark eller databas. OptiSweden arkiverar hur detta arbete har utförts på så sätt att detta kan ligga till grund för en eventuell pilotstudie. 7 Resultat av VATT - förstudie Efter undersökningar och tester rekommenderar projektet VATT förstudie ABBYY FlexiCapture 10 Distributed eller annan systemleverantör som levererar: Bra uppsättning av en tabell Teckentolkning av god kvalitet Rättning av osäkra/otolkbara tecken är föredömligt enkel och på skärmen kan man se vilket tecken som tolkats till vad och åtgärda felen Olika möjligheter till utdata såsom pdf-fil och csv-fil Csv-fil kan enkelt föras över till kalkylark eller databas Möjlighet till kundanpassning Eftersom uppsättningen tar tid bör SCB börja med årligen återkommande tabeller, som ingår i en bok, som utkommer i en serie under flera år så att uppsättningen kan återanvändas.

20 20(20) 8 Hur går SCB vidare? I arbetet har följande punkter identifierats som SCB kan arbeta vidare med: börja med tabeller från , fortsätt därefter med åren för att sluta med åren se över möjligheter för att kunna starta en pilotstudie med serien Folkmängden i administrativa områden tillsammans med OptoSweden eller annan leverantör använda en unik identifikator t.ex. urn:nbn som identifikation av tabeller. Urn:nbn används redan för böcker och tidskriftshäften upprätta för tabeller särskilda beskrivningsblad med metadata, tabellegenskaper och som beskriver hur tabeller i en tidserie förändras över tiden se över vilken information som bör finnas i anslutning till tabellen, t.ex. identifikator, serietillhörighet, källhänvisningar, skrivyta för komplettering av tabell, hyperlänk till dokumentegenskaper, diginfo anpassning av programvaran till att kontrollräkna vertikal och horisontal summering. besluta hur den digitaliserade tabellen ska relateras till moderpublikation och ska publiceras

SharePoint apps. SharePoint Apps. Elias Haddad Dany Abdelke. Examensarbete inom information- och programvarusystem, grundnivå Högskoleingenjör

SharePoint apps. SharePoint Apps. Elias Haddad Dany Abdelke. Examensarbete inom information- och programvarusystem, grundnivå Högskoleingenjör SharePoint Apps Examensarbete inom information- och programvarusystem, grundnivå Högskoleingenjör Degree Project in Information and Software Systems First Level Stockholm, Sweden 2013 Kurs II121X, 15hp

Läs mer

WEBBASERAT ÄRENDEHANTERINGSSYSTEM Web Based Ticketing System

WEBBASERAT ÄRENDEHANTERINGSSYSTEM Web Based Ticketing System WEBBASERAT ÄRENDEHANTERINGSSYSTEM Web Based Ticketing System Alexander Brodin Erik Peterson EXAMENSARBETE 2012 DATATEKNIK Detta examensarbete är utfört vid Tekniska Högskolan i Jönköping inom ämnesområdet

Läs mer

ETL-verktyg för datavaruhus

ETL-verktyg för datavaruhus Examensarbete vid institutionen för datavetenskap Umeå Universitet Författare: Johan Unger Handledare: Tommy Jakobsen (ABB Power Technology Products AB) Johan Karlsson (Umeå Universitet)

Läs mer

Användarcentrerad design i utvecklingsprocessen av Monitor Mobile K R I S T I N A R O M A N

Användarcentrerad design i utvecklingsprocessen av Monitor Mobile K R I S T I N A R O M A N Användarcentrerad design i utvecklingsprocessen av Monitor Mobile K R I S T I N A R O M A N Examensarbete Stockholm, Sverige 2013 Användarcentrerad design i utvecklingsprocessen av Monitor Mobile K R I

Läs mer

EXAMENSARBETE. Informationshantering med ett anpassat ärendehanteringssystem. Anette Dalsfelt, Elisabeth Wikström

EXAMENSARBETE. Informationshantering med ett anpassat ärendehanteringssystem. Anette Dalsfelt, Elisabeth Wikström 2001:118 EAMENSARBETE Informationshantering med ett anpassat ärendehanteringssystem Anette Dalsfelt, Elisabeth Wikström Data- och systemvetenskapliga programmet C-nivå Institutionen för Industriell ekonomi

Läs mer

UTBILDNINGSFÖRVALTNINGEN IKT-FUNKTIONEN

UTBILDNINGSFÖRVALTNINGEN IKT-FUNKTIONEN UTBILDNINGSFÖRVALTNINGEN IKT-FUNKTIONEN UTREDNING Projekt: Författare: Version: Elever i behov av särskilt IT-stöd v3.3.017 Förvaltning/avdelning: Godkänd av beställare: Senast ändrad: Utbildningsförvaltningen,

Läs mer

Björn Andersson Martin Meijer ASP och PHP En jämförelse mellan de båda teknikerna

Björn Andersson Martin Meijer ASP och PHP En jämförelse mellan de båda teknikerna Datavetenskap Björn Andersson Martin Meijer ASP och PHP En jämförelse mellan de båda teknikerna Examensarbete, C-nivå 10 poäng 2003:25 ASP och PHP En jämförelse mellan de båda teknikerna Björn Andersson

Läs mer

Webbdesign. En undersökning av en offentlig webbsidas utarbetande. Stefan Eriksson

Webbdesign. En undersökning av en offentlig webbsidas utarbetande. Stefan Eriksson Webbdesign En undersökning av en offentlig webbsidas utarbetande Stefan Eriksson Institutionen för informatik Programmet för Systemvetenskap Examensarbete på kandidatnivå, 15 hp SPB 2015.34 Abstract The

Läs mer

Elektroniska böcker på bibliotek Bibliotekariers och användares syn på elektroniska böcker utifrån intervjuer och samtal

Elektroniska böcker på bibliotek Bibliotekariers och användares syn på elektroniska böcker utifrån intervjuer och samtal KANDIDATUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:6 Elektroniska böcker på bibliotek Bibliotekariers och användares syn på elektroniska

Läs mer

Bevarande av webbsidor

Bevarande av webbsidor Bevarande av webbsidor Ett gemensamt projekt mellan LTU och LDB-centrum 2008-2009 Lena Lindbäck LDB-centrum 2009-09-04 1. INLEDNING...- 3-2. BAKGRUND...- 4-2.1 SYFTE OCH MÅL... - 4-2.2 METOD... - 5-2.3

Läs mer

Arkiv för lokalt inlästa talböcker

Arkiv för lokalt inlästa talböcker Arkiv för lokalt inlästa talböcker En förstudie gjord inom Biblioteksdirektionen vid Lunds universitet på uppdrag av Bibsam av Karin Ohrt och Ann-Sofie Zettergren i samarbete med Christel Berg, Avdelningen

Läs mer

Den agila utvecklingen

Den agila utvecklingen Den agila utvecklingen En jämförelse mellan teori och praktik Agile Development A Comparison between Theory and Practice JENNIE HÄGGLUND JOHANNA FRE MARIA KARLSSON Examensarbete/Kandidatuppsats i Informatik

Läs mer

C-UPPSATS. Införandet av elektronisk handel. Hur tar man sig över de hinder som finns? Kristoffer Ljungqvist. Luleå tekniska universitet

C-UPPSATS. Införandet av elektronisk handel. Hur tar man sig över de hinder som finns? Kristoffer Ljungqvist. Luleå tekniska universitet C-UPPSATS 2007:176 Införandet av elektronisk handel Hur tar man sig över de hinder som finns? Kristoffer Ljungqvist Luleå tekniska universitet C-uppsats Data och systemvetenskap Institutionen för Industriell

Läs mer

Bibliotek Väl Befinnande

Bibliotek Väl Befinnande Umeå Universitet Sociologiska institutionen Biblioteks- och informationsvetenskap kandidatprogram Självständigt uppsatsarbete, 15hp Bibliotek Väl Befinnande Utvärdering av Vindelns kommunbiblioteks hälsosatsning

Läs mer

Bildgalleri Musicstage.se

Bildgalleri Musicstage.se Beteckning: Institutionen för matematik, natur- och datavetenskap Bildgalleri Musicstage.se Jeff Gaude Markus Hedström juni 2009 Examensarbete, 15 högskolepoäng, B Datavetenskap Datavetenskap Examinator:

Läs mer

The Undisputable Connection to SPCS En sammankoppling av Visma SPCS och MS Outlook. Gustav Wilhelmsson och Thomas Woxberg

The Undisputable Connection to SPCS En sammankoppling av Visma SPCS och MS Outlook. Gustav Wilhelmsson och Thomas Woxberg Examensarbete The Undisputable Connection to SPCS En sammankoppling av Visma SPCS och MS Outlook av Gustav Wilhelmsson och Thomas Woxberg LITH-IDA-EX-ING--06/007--SE 2006-06-05 Linköpings universitet Institutionen

Läs mer

Searchanalytics. Kandidatarbete inom Data- och informationsteknik. Institutionen för Data- och informationsteknik

Searchanalytics. Kandidatarbete inom Data- och informationsteknik. Institutionen för Data- och informationsteknik Searchanalytics Kandidatarbete inom Data- och informationsteknik Vincent Andersson Jonathan Daugaard David Svensson Mattias Warnqvist Institutionen för Data- och informationsteknik CHALMERS TEKNISKA HÖGSKOLA

Läs mer

Hantering av ändrings- och tilläggsarbeten En studie på SVEVIA

Hantering av ändrings- och tilläggsarbeten En studie på SVEVIA Hantering av ändrings- och tilläggsarbeten En studie på SVEVIA Examensarbete inom högskoleingenjörsprogrammet Byggingenjör LILLY BENGTSSON & KRISTINA PANDUREVIC Institutionen för Bygg- och miljöteknik

Läs mer

Diagnostikverktyg för tolkning av kommunikation Examensarbete

Diagnostikverktyg för tolkning av kommunikation Examensarbete T Diagnostikverktyg för tolkning av kommunikation Examensarbete ALESANDRO SANCHEZ MARTIN SONESSON Data- och informationsteknik CHALMERS TEKNISKA HÖGSKOLA Göteborg, Sverige, 2012 Innehållet i detta häfte

Läs mer

God användbarhet med Scrum

God användbarhet med Scrum En studie av ISO 9241-anpassad systemutveckling Kandidatuppsats, 15 högskolepoäng, INFK01 i Informatik Framlagd: Juni, 2009 Författare: Handledare: Claus Persson Examinator: Eric Wallin Lars Fernebro Titel:

Läs mer

Handbok i utvärderingsarbete Prestationsindikatorer för biblioteksverksamhet

Handbok i utvärderingsarbete Prestationsindikatorer för biblioteksverksamhet SVENSK BIBLIOTEKSFÖRENINGS SPECIALGRUPP FÖR KVALITETSARBETE OCH STATISTIK Handbok i utvärderingsarbete Prestationsindikatorer för biblioteksverksamhet av Johan Edgren Tomas Friberg Christina Jönsson Adrial

Läs mer

C-UPPSATS. Företagsportaler

C-UPPSATS. Företagsportaler C-UPPSATS 2006:216 Företagsportaler En jämförelse mellan en standardlösning och egenutveckling Daniel Barsk Luleå tekniska universitet C-uppsats Data och systemvetenskap Institutionen för Industriell ekonomi

Läs mer

Beslutsstöd för marknadscontrollers

Beslutsstöd för marknadscontrollers UPTEC STS 08016 Examensarbete 30 hp Mars 2008 Beslutsstöd för marknadscontrollers En fallstudie av informationsbehov hos kundföretag Christoffer Edkvist Abstract Decisiontool for marketcontrollers Christoffer

Läs mer

Tidsuppföljning i tiden

Tidsuppföljning i tiden Tidsuppföljning i tiden En studie i hur företag gör planering och uppföljning av tid inom entreprenadbranschen Niklas Frisell & Erika Svensson Självständigt arbete 15 hp Grundnivå, G2E Affärsledarskap-

Läs mer

Att skriva och presentera rapporter

Att skriva och presentera rapporter Att skriva och presentera rapporter Förord Skriftlig och muntlig kommunikation har blivit allt mer viktiga inslag i universitetsutbildningarna. Arbetsgivare, inom näringslivet och den akademiska världen,

Läs mer

Utveckling av webbaserade e-handelssystem i små företag

Utveckling av webbaserade e-handelssystem i små företag 2004:044 SHU EXAMENSARBETE Utveckling av webbaserade e-handelssystem i små företag HENRIK FRISK PERNILLA SELBERG Samhällsvetenskapliga och ekonomiska utbildningar SYSTEMVETENSKAPLIGA PROGRAMMET C-NIVÅ

Läs mer

Lagring av dynamiska skärmvyer Slutrapport

Lagring av dynamiska skärmvyer Slutrapport Lagring av dynamiska skärmvyer Slutrapport Caroline Andersson Tommy Lindgren Freddie Rosenberg Handledare: Jörgen Nilsson Institutionen för industriell ekonomi och samhällsvetenskap Avdelningen för Data-

Läs mer

Massdigitalisering och kvalitativ digitalisering En jämförelse av digitaliseringen på nationalbiblioteken i Norge och Sverige

Massdigitalisering och kvalitativ digitalisering En jämförelse av digitaliseringen på nationalbiblioteken i Norge och Sverige MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2009:11 ISSN 1654-0247 Massdigitalisering och kvalitativ digitalisering

Läs mer

EXAMENSARBETE WEB SERVICES. Visioner Fördelar Nackdelar OSCAR HÄGGLUND CHARLOTTE SWANSTRÖM. Samhällsvetenskapliga och ekonomiska utbildningar

EXAMENSARBETE WEB SERVICES. Visioner Fördelar Nackdelar OSCAR HÄGGLUND CHARLOTTE SWANSTRÖM. Samhällsvetenskapliga och ekonomiska utbildningar 2004:022 SHU EXAMENSARBETE WEB SERVICES Visioner Fördelar Nackdelar OSCAR HÄGGLUND CHARLOTTE SWANSTRÖM Samhällsvetenskapliga och ekonomiska utbildningar SYSTEMVETENSKAPLIGA PROGRAMMET C-NIVÅ Institutionen

Läs mer

2005:6. Avropa användbart! Vägledning för bedömning av användbarhet vid avrop från ramavtal

2005:6. Avropa användbart! Vägledning för bedömning av användbarhet vid avrop från ramavtal 2005:6 Avropa användbart! Vägledning för bedömning av användbarhet vid avrop från ramavtal Innehållsförteckning Innehållsförteckning...3 Förord...5 1 Inledning...7 1.1 Vad handlar vägledningen om?...7

Läs mer