-Projekt- FMA170- Bildanalys



Relevanta dokument
Nonogram

Precis som var fallet med förra artikeln, Geogebra för de yngre i Nämnaren

ZWCAD har stöd för VBA och Lisp program så alla funktioner som ni tidigare har skapat kan användas direkt utan anpassning.

Ett enkelt OCR-system

Mitutoyo lanserar helt nya Surftest SJ-210.

Projekt i bildanalys Trafikövervakning

TANA17 Matematiska beräkningar med Matlab

Bildanalys för vägbeläggningstillämplingar

ANVÄNDARGUIDE. ViTex

Övningsuppgift 2 Datalogi I 2I1027/2I1035/2I1046

Hantering av högkostnadsskyddet för tandläkarvård i KPI

Kursplanering för EE3D i kursen Programmering 1, 100p.

TANA17 Matematiska beräkningar med Matlab

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Skolan för Datavetenskap och kommunikation PROGRAMMERINGSTEKNIK FÖRELÄSNING 15

Tillämplingar av bildanalys

Fingerprint Matching

Laboration 3. Funktioner, vektorer, integraler och felskattning

Laboration 3. Funktioner, vektorer, integraler och felskattning

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

SLUTRAPPORT: TEXAS HOLDEM 4 FRIENDS

Enkät- och analysverktyg

Nya Aquila använder senaste versionen av våra verktyg: UniPaaS 1.9 (tidigare Magic), samt Crystal Reports version 12 (idag kör ni på version 8).

En stiligare portal Laboration 3

DATALAGRING. Ämnets syfte

SIF GUIDELINES 1 GUIDELINES 2017

3. Hämta och infoga bilder

Undervisningen i ämnet programmering ska ge eleverna förutsättningar att utveckla följande:

Partiklars rörelser i elektromagnetiska fält

Sju sätt att visa data. Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete

06. Skapa bildsegment

Detta är en större uppdatering som innehåller ett flertal kraftfulla förbättringar. Vi rekommenderar alla kunder att göra denna uppdatering.

Grafisk manual. Innehåll. Kontakt:

Objektorienterad programmering Föreläsning 2

Joakim Jonsson jj222kc. Minesweeper. Individuellt Mjukvaruprojekt Joakim Jonsson

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Vektorkartor för mobila terminaler

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Procedurell grottgenerator och eld i GLSL. Marcus Widegren

Bruksanvisning för programmet Ordramar 3.1.0

fem områden för smartare marknadsföring

Din manual ARCHOS 604 WIFI

BG306A Strukturmekanik, bärverksanalys MT129A Finita elementmetoden

Prestandautvärdering samt förbättringsförslag

NYTTJANDEAVTAL MICROBUTIK PREMIUM

Vad ingår i de olika dataprogrammen?

TAIU07 Matematiska beräkningar med Matlab

Komma igång med Qlikview

Kap Dubbelintegraler.

Teman för föreläsningen. Gestaltlagarna Layout Typografi

Formel/Funktion Hur Används till

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

RASP Termikprognos Stefan Löfgren, Avesta Segelflygklubb

David A, Pär E, Magnus F, Niklas G, Christian L CHALMERS INLÄMNING3. IKOT Grupp B4

Dagbok Mikael Lyck

Innehåll Introduktion... 3 InteractiveScene.config... 3 Scener <scenes>... 3 Typsnitt <fonts>... 3 Övergångar <transitions>...

+Överskådlighet Normalt sätt blir ett program skrivet i det procedurella paradigmet överskådligt. Modifikationer på delproblem kan ske med lätthet.

DFA2 Design For Assembly

Elevuppgift: Bågvinkelns storlek i en halvcirkel

Beräkningsmetoder för superellipsens omkrets

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Lathund till Publisher TEXT. Skriva text. Importera text. Infoga text. Dra och släpp

Sammanträdesdatum Utredning om möjligheterna att införa Open Sourceprogram i kommunens datorer

Specifikation av kandidatexjobb

SAMMANFATTANDE BEDÖMNING ST-SPUR-inspektion

Implementering av listpriser som mätvariabel för nya bilar i KPI

REDIGERA PLYMEDIA-TEXTER med Subtitle Workshop 2.5.1

Det här dokumentet är tänkt som en minnesanteckning. programmet och är alltså inte tänkt att förklara allt.

antoni lacinai Framgångsrika kundsamtal

HAND TRACKING MED DJUPKAMERA

Snake. Digitala Projekt (EITF11) Fredrik Jansson, I-12 Lunds Tekniska Högskola,

Lite verktyg och metoder Illustrator CS2

Datum: , , , ,

Copy Cat Laboration 4

Temperaturmätare med lagringsfunktion DIGITALA PROJEKT EITF11 GRUPP 14, ERIK ENFORS, LUDWIG ROSENDAL, CARL MIKAEL WIDMAN

Manual för visionutv.net Redigera

Linköpings Tekniska Högskola Instutitionen för Datavetenskap (IDA) Torbjörn Jonsson, Erik Nilsson Lab 2: Underprogram

Filhanterare med AngularJS

Expansionskärl för dricksvatteninstallationer

Trumfkorten 100-programmets lärostig

Rapport från refraktions- och reflektionsseismiska mätningar i. området Färgaren 3, Kristianstad

ANDREAS REJBRAND Elektromagnetism Coulombs lag och Maxwells första ekvation

Föreläsning 9: Talteori

VINDKRAFTSUTREDNING FÖR ARVIDSJAURS KOMMUN TILLÄGG TILL ÖVERSIKTSPLAN KOMPLETTERING AV SAMRÅDSREDOGÖRELSEN

Programmeringsteknisk översiktskurs för yrkeshögskoleprogram

Skolan för Datavetenskap och kommunikation. Programmeringsteknik. Föreläsning 16

Opponenter: Erik Hansen Mats Almgren Respondent: Martin Landälv ioftpd-verktyg

Extramaterial till Matematik X

Detta är inte en ny grafisk profilhandbok utan version 2.0 enklare, tydligare och med fokus på innehållet i kommunikationen, inte utseendet.

Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5

Fysikalisk mätning av vägmarkeringars area

Frågor och svar - Diagnostisk prov ht14 - Webbutveckling 1

INNEHÅLLSFÖRTECKNING. Sida 3. Övergripande regler. Sida 4. Logotyp. Logotyp alternativ. Sida 5. Sida 6. Färger. Sida 7. Typsnitt.

Rapport Digitala Projekt EITF11 Grupp 4 Axel Sundberg, Jakob Wennerström Gille Handledare: Bertil Lindvall

De nya givarna Frivilligorganisationernas Insamlingsråd. Mats Levin

Revisionsrapport. Granskning av efterarbetes- och uppföljningsprocessen efter avslutad upphandling inom Båstad Kommun.

Grafisk Teknik. Rastrering. Övningar med lösningar/svar. Sasan Gooran (HT 2013)

SPAK01, spanska, kandidatkurs

Omsorgen Användarhandledning

6-1 Datainsamling, tabeller och diagram Namn:

Transkript:

-Projekt- FMA170- Bildanalys Karl Berggren, 820503-2454 d02kb@student.lth.se Andreas Helgegren, 811119-2715 d02ah@student.lth.se Handledare: Håkan Ardö hakan@debian.org 30 november 2007

1 Projektide Undertexter på DVD-skivor är sparade som fyrfärgsbilder som placeras överfilmennärdenspelasupp.ommanspararendvd-filminågotannat format, t.ex. xvid, för att spara utrymme känns det dock onödigt att spara dessa texter som bilder. Det finns dessutom ett flertal filformat för att spara undertexter som text, vilken sedan kan renderas över videoströmmen med valfritt typsnitt. Målet med detta projekt är att skriva ett program som använder textigenkänning på undertextbilderna och sedan sparar dessa som text. Beroende på hur snabbt arbetet fortgår är det även önskvärt att implementera export av texten till ett fungerande format för text-baserade undertexter. För att få bästa möjliga prestanda kommer vi utveckla programmet i programspråket C. Detta medför att all önskadvärd funktionalitet måste implementeras på egen hand. 2 Utförande 2.1 Segmentering Ensubtitlekanfördetotränadeögatenbartbeståavsvartaochvitafärger, dådettainteärfalletutanbeståravhela4färgerharvivaltattstrukturera en färgmatris som innehåller de önskade färgerna. Färgmatrisen skickas med som attribut tillsammans med hela undertextbilden som sedan segmenterasix-ledochy-led.detendaviegentligengörärattsummera antalet pixlar som överrensstämmer med färgmatrisen. Envanligundertextkanseutungsåhär: Närvisedanharprojiceratundertexteniy-ledservivaribildensom raderna förhåller sig. 1

Projectionen i y-led blir en massa mindre staplar som representerar alla bokstäverna. Denna bilden är utdragen får en av våra debugfunktioner där båda raderna är projiceras samtidigt. I verkligheten är det bara en rad som kommer projiceras. Resultatet blir likt ett stapel-diagram där staplarna representerar var i undertexten bokstäverna befinner sig. För att kunna fånga upp bokstäver såsomåäochöharviimplementeratenlookaheadsomarbetarutefteren flexibel konstant, i dagsläget satt till hela 5 pixlar. Eftersom vi arbetar med segmentring både i x och y-led har vi strukturerat upp en segmenteringsmatris som fungerar för både rad- och bokstavs-segment. Det ända som egentligen kan försvåra segmenteringen är den aktuella fonten. Många undertexter inehåller fonten Italic som förhåller sig aningen sne. Fonter med väldigt små mellanrum mellan bokstäverna kan också ställa till problem då vår segmentering kommer tyda dessa som en ända stor bokstav. En önskvärd implementering skulle vara att segmentera alla bokstäverna med hjälp av 4- eller 8-neighbour principen. 0 1 0 1 a 1 0 1 0 1 1 1 1 b 1 1 1 1 Detta skulle medföra att även överlappade bokstäver skulle kunna segmenteras ut. 2.2 Identifikationsdata För att kunna identifiera bokstäverna i varje segment genererar vi identifikationsdata för olika bokstäver. Vi beräknar följande mätdata: 1. Antalet fyllda pixlar i segmentet. 2

2. Masscentrum för segmentet i x-led 3. Masscentrum för segmentet i y-led 4. Antalet vertikala kantpunkter. 5. Antalet horizontala kantpunkter. 6. Antalet hörnpunkter. Vissa av dessa beräkningar tordes vara ganska självklara, nedan följer en genomgång för hur de mer avancerade beräkningarna utförs. 2.2.1 Masscentrum i x/y-led För denna beräkning utnyttjas projectionsfunktionaliteten som vi skrivit för att lösa segmenteringen. Genom att projecera det aktuella segmentet på respektive-axeln och samtidigt räkna antalet fyllda pixlar i varje index kan man sedan utnyttja en enkel integral för att hitta bilden masscentrum i denna led. genom att summera utmed projectinoen kan man nämligen läsa avvärdetdärsummanuppgårtillomkring 50%avdettotalaantaletpixlar. 2.3 Antal vertikala kantpunkter Förattkunnalösadettaproblemvarvitvugnaattförstimplemeteraen funktionfördiskretfaltiningic.förattfåframdevertikalakanternai bilden använde vi sedan faltiningsfiltret [1 1] vartefter de kvarstående pixlarna kunde summeras. 2.4 Antal horizontella kantpunkter Förattfåframdehorizontellakanternaibildenvifaltiningsfiltret [1 1] T vartefter de kvarstående pixlarna kunde summeras. 2.5 Antalhörnpunkter Genom att använda följande faltningsfilter plockade vi fram hörnpunkter ur segmentet. [ ] 1 1 1 1 Summan av dessa pixlar utgjorde sedan vårt sista igenkänningsfeature. 3

3 Resultat En första observation är att vårt program uppfyller de mål på prestanda som vi haft som med projektet. Jämfört med motsvarande matlabimplementation märker man en avsevärt förbättring. Igenkännigen fungerar tillfredställande för enklare subtitles där extravaganser som italic fonts och liknande saknas. Eftersom vi inte hunnit färdigställa inläsning av subtitles direkt från PES paket har vi dock inte kunnat genomföra några storskaliga tester. 4