Kort om optisk inläsning av text

Uppsala universitet Institutionen för lingvistik 07-08-21 Kort om optisk inläsning av text Bengt Dahlqvist 1. Inläsning av text med dator Mekanisk, dvs icke-mänsklig, inmatning av information till en dator eller ett informationssystem har använts i olika former under lång tid. Text i kodad form, t.ex. som hål i hålkort, kunde behandlas redan på 1800-talet via diverse hålkorts- och remsläsare (Hollerith, IBM osv). Även den betydligt senare tekniken OMR kan med hjälp av optisk inläsning omvandla streck och markeringar på papper till t.ex. ASCII-tecken i en dator. Under senare decennier har det tillkommit tekniker för att med dator direkt tolka tryckt eller t.o.m. handskriven text och generera textfiler. 1

Man kan särskilja mellan följande tekniker: MICR (Magnetic Ink Character Recognition) OMR (Optical Mark Recognition) OCR (Optical Character Recognition) MICR är en teknik som främst användes av banker från och med 50-talet för att läsa av bokstäver och siffror från t.ex. bankchecker. Fig. 1. Exempel på streckkoder, avsedda för scanning. OMR är den allra enklaste formen av teckentolkning. Här gäller det bara att känna igen enstaka markeringar i vissa bestämda lägen på originalet. OMR används flitigt vid arbete med enkäter av skilda slag, exempelvis Högskoleprovet. Ett annat exempel på OMR är den numera så vanliga streckkodsavläsningen inom detaljhandeln. Fig. 2. Det standardiserade OCR(A) typsnittet. OCR är ett samlingsnamn på metoder för att med dator läsa in och tolka text med hjälp av optisk utrustning. OCR har använts flitigt av bl.a. bankernas checkhanteringssystem allt sedan 50-talet. Ett antal standardiserade typsnitt definierades tidigt för att underlätta denna verksamhet. Numera kan de kommersiella OCR-systemen hantera i stort sett godtyckliga typsnitt och teckenstorlekar. OCR-system har därför fått en mycket central betydelse vid textinläsning av skilda slag. 2

Fig. 3. Det standardiserade OCR(B) typsnittet. Avancerad bildbehandling och bildanalys används till AI-forskningens igenkänningsförsök av handskriven text. En par kommersiella system för detta ändamål har framtagits under senare tid, även om prestandan är relativt låg för system som inte tränats upp för en viss handstil. 2. Vad är en bildinläsare? En bildinläsare är en maskin för optisk/elektronisk avläsning av original till digital form. Avläsningen görs bildpunkt för bildpunkt kolumnvis och radvis med en viss upplösning, t.ex. 600 dpi (dots per inch). Originalet blir så att säga indelat i ett rutnät där varje dot (bildpunkt eller pixel) får ett visst värde beroende på originalets svärta eller färg. Bildinläsaren är vanligtvis ansluten till en dator, där instruktioner hämtas och data lämnas. Det finns ett antal olika typer av bildinläsare, t.ex.: handscanner trumscanner flatbäddsscanner Alla tre typerna av bildinläsare arbetar med optiska sensorer vilka läser av och omvandlar den analoga ljussignalen till en digital signal, lämplig för databehandling. En handscanner förs med handen över den bild eller text som skall scannas in. En trumscanner har ett original fastsatt på en roterande trumma medan den optiska sensorn är fast monterad. I en flatbäddsscanner läggs originalen eller matas fram via en arkmatare ett och ett på en avsökningsyta av glas, varvid en array av optiska sensorer (vanligen av s.k. CCD-typ) söker av originalet linjevis. En bildinläsare kan arbeta i olika upplösning. En vanlig sådan är 300x600 dpi (dots per inch), dvs ungefär samma upplösning som en laserskrivare använder vid utskrift. Det finns även bildinläsare som kan arbeta med högre upplösning, t.ex. 600x1200 dpi eller ännu finare bildrepresentation. Mjukvarumässigt kan dessutom denna upplösning förfinas genom interpolation till t.ex. 2400x2400 dpi. För varje bildpunkt på det avlästa originalet digitaliseras bildens våglängdsinformation. Det finns för denna uppgift både färg- och monokroma bildinläsare. En monokrom bildinläsare ger en digital bild där varje bildpunkt (pixel) har ett gråskalevärde, t.ex. mellan 0 och 255, från vitt till svart. Detta innebär att i princip en byte (kan anta 2 8 =256 olika värden) kan användas för att lagra varje svärtningsgrad för varje enskild bildpunkt. En färgbildinläsare 3

gjorde tidigare tre automatiska inläsningar efter varandra i olika ljusvåglängdsområden, motsvarande rött, grönt och blått. Detta för att få en färgbildsrepresentation enligt den s.k. RGB metoden. Dagens färgbildinläsare klarar samma uppgift med ett pass. Fig. 4. Kvantifieringsfel orsakar skilda resultat vid upprepad inscanning av samma tecken. Digitaliseringsprocessen är i princip inte reproducerbar vid höga upplösningar pga brus och osäkerhet i den optisk-mekaniska processen. Detta innebär att man sällan får exakt samma digitala representation av den inscannade bilden vid upprepning, även om samma original används. Resultatet av scanningsprocessen, dvs den digitaliserade representationen av originalet, skickas till datorn och lagras som en bildfil. Dessa bildfiler lagras, oftast komprimerade, i något standardiserat grafikformat, t.ex. i TIFF, GIF eller CCITT format. Det vanliga är att bildinläsare ger 8-bits eller 24-bits (för monokrom respektive färgscanning) information för varje bildpunkt, men numera finns även 36-bits bildinläsare. Digitala bilder används sedan vidare för många olika syften. 3. Vad gör ett OCR program? Ett OCR program arbetar på den från bildinläsaren levererade digitala bilden och försöker att känna igen tecken (bokstäver ur ett alfabet) i denna. Denna process genomförs genom någon form av mönsterigenkänning. Hastigheten kan exempelvis vara drygt 30 sekunder för en A4- sida, med 150 tecken per sekund för scanning och 40 tecken per sekund för OCR-tolkning. De korrekt igenkända tecknen skrivs sedan över till en textfil i något lämpligt format, t.ex. i något ordbehandlingsformat (Word, Word Perfect etc) eller som en vanlig ASCII-text. Användaren av OCR-systemet kan ofta styra beteendet på programmet på en rad punkter genom att bestämma: ljuskontrast och upplösning vid scanning område för OCR-tolkning (sätta fönster el marginaler) ingående alfabet och specialtecken huruvida icke igenkända tecken skall korrigeras manuellt om programmet ska arbeta i inlärningsmode, dvs tränas upp på nya tecken format för output, t.ex. typ av ordbehandlingsfil Ofta är det möjligt för användaren att spara sina inställningar, t.ex. egen träningsfil, för senare användning på likartad text. Många OCR-program körs parallellt med själva scanningen, även i batch-mode (satsvis bearbetning till motsats mot interaktiv) varvid man kan placera 4

originalen i en arkmatare och återkomma när hela texten eller boken är både inscannad samt tolkad och texten finns färdig i en textfil. Bland PC-program för OCR märks främst OmniPage, Textbridge och Recognita. Det förstnämnda är installerat vid institutionen och beskrivs särskilt nedan. Andra större system finns, även stand-alone dylika, t.ex. Kurtzveil. Själva teckentolkningen som OCR-programmet genomför är ofta en teoretiskt mycket komplicerad process. Den algoritm som ligger bakom ett allmänt OCR-program har oftast följande steg i omvandlingen från en bildfil av enstaka numeriska pixelvärden till en textfil: 1. I bilden, isolera zoner med text (och grafik). 2. I zonerna, isolera enstaka rader av text. 3. För varje funnen rad, isolera enstaka tecken. 4. Identifiera, via någon metod, varje tecken. 5. Leverera teckenströmmen till datorns textfil. Moderna OCR-program klarar av att leverera både text och grafik i originalets layout (t.ex. spaltvis). Punkt 4, teckenigenkänningen, är naturligtvis det centrala för varje OCR-program. Tecknet i bilden har isolerats, t.ex. i en rektangulär area. På denna görs vissa mätningar av s.k. egenskaper (features), vilka på förhand har visat sig vara signifikanta vid igenkänning av tecken. Dessa egenskaper kan vara relaterade till förekomst av viss yta, vissa räta linjer eller kurvor. Som exempel, säg att en egenskap är antalet ändpunkter som tecknet ifråga har. På så sätt får man genast en grov uppdelning av alfabetet A-Z enligt följande: Antal ändpunkter Tecken 0 B, D, O, Q 1 G, P 2 A, C, I, J, L, M, N, R, S, U, V, Z 3 E, F, T, Y 4 H, K, X Via mätningar av ytterligare egenskaper kan programmet, via statistiska metoder, mäta vilket tecken man troligast har att göra med. Dvs. man klassar sitt observerade tecken med hjälp av dess egenskaper till en av ett antal tillgängliga kategorier (en för varje tecken i alfabetet). En kategori oidentifierade tecken (s.k. rejects) bör också finnas i det fall det funna tecknet inte tillräckligt starkt påminner om något tidigare känt tecken. Fig. 5. Tecken funna och avgränsade i en bild. För att få fram egenskaper utförs lågnivåoperationer på bildens enstaka bildelement (pixels) i syfte att få fram mätbara kvantiteter. Exempel kan vara krympning av tecken till viss pixelbredd utan att avbrott i tecknet fås (skelettering), anpassning av linje- eller kurvsegment mot tecknets kontur. Mätning av längd, bredd och yta av tecknets ingående komponenter etc. 5

OCR-program kan även känna igen tecken genom att använda sig av matematiska metoder för konturanalys, där det funna tecknet matchas mot samtliga ingående tecken i det använda alfabetet. Även andra medotder för jämförelse mot fördefinierade mallar (template matching) finns. Om tillräcklig grad av likhet mot ett känt tecken uppnås, bestämmer sig OCRprogrammet för att tecknet är igenkänt. Fel kan identifieringsprocessen kan uppstå på två sätt: Programmet klarar inte av att identifiera tecknet Programmet felklassar tecknet, och fel resultat erhålls Fel av det första slaget kan korrigeras manuellt om programmet har en i correct and learn - funktion. När fel uppstår, anger användaren interaktivt i dialog med programmet vilket tecken det skall vara. Avancerade OCR-program kan på detta sätt lära sig att känna igen dessa tecken bättre och bättre för varje gång de påträffas. Fel av det andra slaget kommer man åt genom korrekturläsning av den erhållna textfilen, antingen manuellt eller via automatisk rättstavningskontroll direkt i OCR-programmet (via inbyggt lexikon) eller i ett separat ordbehandlingsprogram. 4. Optisk läsning med OmniPage Pro Fig. 6. Ikon för OmniPage. OmniPage Pro är ett Windows-program för OCR-bearbetning av dokument. Programmet arbetar tillsammans med en bildinläsare, i vårt fall en Agfa StudioScan II, och läser in en bild av ett dokument. Denna segmenteras i zoner med text vilka OCR-tolkas allt eftersom bildytan optiskt avscannas. Texten kan genomgå en stavningskontroll via en modul Language Analyst i OmniPage som ytterligare förbättrar det färdiga resultatet. Den tolkade texten kan sedan skickas vidare och lagras i en textfil. Om inläsningen fortsätter med flera originalsidor och med samma output-fil, så läggs den nya texten successivt till den redan existerande filen. Gången vid en inscanning är följande: 1. Placera originalet på därvid avsedd plats i bildinläsaren. 2. Gör de val av inställningar som önskas vad gäller kontrast, upplösning, inläsningsområde, teckenuppsättning, egen inställningsfil etc. 3. Scanna in en bild av texten. Svara på interaktiva frågor. 4. Välj lagringformat och spara den erhållna texten. 6

Under scanningsprocessen visas tolkningen i ett fönster, där man kan se de tolkade tecknen varefter de kommer fram. Om man har begärt korrigerings- och upplärningsmöjligheter, så promptas användaren allteftersom oidentifierade tecken påträffas. Observera att det även finns möjlighet att spara hela den scannade bildfilen, i olika bildformat, t.ex. TIF eller PCX format, för senare bearbetning eller OCR tolkning. Fig. 7. Huvudfönster för OmniPage Pro. I OmniPage-fönstret finns överst en menyrad för val av funktion och submenyer. Uppe till vänster en AUTO-knapp för start av bildinläsare och OCR-tolkning. I ett fönster kommer den inscannade dokumentsidan upp och i ett textfönster följs OCR-processen steg för steg. Först delas sidan upp, segmenteras, i mindre zoner eller textrutor. Därefter följer själva OCRtolkningen tecken för tecken. Hur man kör OmniPage Pro från Windows: 1. Dubbelklicka på ikonen OmniPage. 2. Från menyraden, kontrollera inställningar (eller använd load settings): 7

Markera språk så att rätt språk är valt. Markera auto för kontrast (brightness). 3. Klicka på AUTO för att starta bildinläsning och OCR-tolkning. 4. När dokumentet är klart, välj Arkiv, Spara som och ange filnamn samt filformat (det finns 64 olika), t.ex. Word for Windows. 5. Gör eventuella ändringar med check recognition och spara på nytt. 6. Lämna OmniPage genom Arkiv, Avsluta och svara nej på fråga om Spara Caeredokument. Fig. 8. Fönster för OmniPage Pro under OCR-processen. 8

Fig. 9. Fönster för OmniPage Pro efter avslutad OCR-process. Enligt en användare gäller följande prestanda för OmniPro (förmodligen för en 486, scanner ej angiven, så ta detta med en nypa salt): Scanning och OCR-tolkning av en vanlig bok (200 sidor) tar 2.5 timmar. Redigering av resultat, rättning av fel ("~" characters) tar 4 timmar. Korrekturläsning av hela texten tar ytterligare 4 hours. Vidare: Omedelbart efter scanningen är högst 2% av orden felaktiga. Efter korrigering av uppenbara fel är 0.2% av orden fortfarande fel (ca ett fel/sida). 6. Resultatförbättring OmniPage tillhandahåller en rad metoder för att förbättra resultatet vid OCR-tolkningen. Här följer en kort översikt. 9

Klicka för att visa en drop-down lista med förslag. Ersätter det aktuella ordet i texten med det ord som står i trextfältet Change To. Fig. 10. Interaktivt fönster i OmniPage vid Check recognition -mode. Check recognition mode Det är möjligt att gå igenom och ändra alla tecken som OmniPro inte känner igen själv (förslag ges av programmet). Language analyst Denna modul kan vara aktivt eller inaktivt vid teckentolkningen. Den slår upp osäkra ord i ett intern språkspecifikt lexikon och rättar enligt vissa regler. De rättade orden färgmarkeras. Egen ordbok Det är möjligt att skapa och editera egna ordböcker. Manuella zoner Istället för att låta OmniPage segmentera sidan automatiskt kan detta göras manuellt. Fördelen med detta är att varje zon kan tilldelas en mängd tillåtna tecken. Om man t.ex. vet på förhand att en viss del av sidan endast kommer att innehålla siffror ritas en zon runt denna del och en mängd som bara innehåller siffrorna 0-9 definieras. Teckenmängden (den som innehåller siffrorna) tilldelas sedan till zonen och effekten blir att OmniPage begränsar teckentolkningen för denna zon till tecken ur mängden. Träna OmniPage OmniPage kan specialtränas att känna igen svåra tecken. Träningen går till så att användaren får upp en lista med bilder på alla tecken och kan direkt tala om att en viss bild svarar mot ett visst tecken. 10

7. OCR direkt i MS Office 2003 Senare versioner av MS Office har inbyggd funktionalitet för scanning och OCR. Fig. 11. Dokumentskanning i Windows XP startas via val från startknappen och Office. Hur programmet för OCR i Ofice startas framgår i figur 11 ovan. Gränssnittet visas i figur 12 nedan. Med knappen Scan startas bildläsaren och en bild läses in. Alternativt kan man använda en redan lagrad bildfil. Fig. 12. Programmet Document Scanning i Office. Olika inställningar för programmet kan bestämmas av användaren via knappen Preset options. 11

Några av dessa val framgår av figurerna 13 och 14 nedan. Fig. 13. Val för output. Fig. 14. Val av arbetsgång. När bilden väl har tolkats kan den sändas som text till Word, se fig 15 på omstående sida. Korrekturläsning av resultatet är som vanligt troligen nödvändigt. 12

Fig. 15. Inskannad bildfil kan sändas som text direkt till ordbehandlare. 13