Numerisk analys och datalogi, KTH Tony Lindeberg Lösningar till tentamen i 2D42 Datorseende gk 22 4 6 llmänt: För de teorifrνagor där svaren pνa uppgifterna direkt stνar att finna i kurslitteraturen ges i dessa lösningar endast referenser till relevanta avsnitt. Uppgift : ffl subjektiv kontrast/simultaneous contrast: se avsnitt 2..3 i Gonzalez och Woods (22). ffl Butterworths lνagpassfilter: se avsnitt 4.3.2 i Gonzalez och Woods (22) eller föreläsningsanteckningarna Image enhancement by filtering". ffl homeomorf filtrering: se avsnitt 4.5 i Gonzalez och Woods (22) eller föreläsningsanteckningarna Image enhancement by filtering". ffl `K-means clustering: se föreläsningsanteckningarna Pixelklassificering" ffl rektifiering: se föreläsningsanteckningarna Stereogeometri" ffl horoptern: se föreläsningsanteckningarna Stereogeometri" ffl run-length-kodning: se föreläsningsanteckningarna Representation, morfologi" eller sidorna 452 453 i Gonzalez och Woods (22). Uppgift 2: (a) Märkning av sammanhängande komponenter: se föreläsningsanteckningarna Digital geometri" eller avsnitt 9.5.3 i Gonzalez och Woods (22). (b) Relationen mellan frekvensvariablerna i kontinuerliga respektive diskreta Fouriertransformen: se föreläsningsanteckningarna Samplingsteoremet och DFT" eller instruktionerna till Laboration 2. Uppgift 3: För att transformera ett plant omrνade under perspektivavbildningen kan man använda sig av att den speciella egenskap som innebär att sνadana transformationer kan beskrivas genom matrismultiplikation av koordinatvektorer i homogena koordinater. Detta innebär att det finns nνagon matris med matriselement a ij sνadan att samtliga givna bildkoordinater (x k ;y k ) T kan transformeras till koordinater (x k ;y k )T i ett plant världskoordinatsystem enligt k @ x k y k = @ a a2 a3 a2 a22 a23 a3 a32 a33 @ x k y k se föreläsningsanteckningarna Image formation" för ytterligare detaljer. Ett möjligt förfarande för denna typ av uppgift bestνar sνaledes av följande steg:
ffl Ställ upp korrespondenser mellan avmätningar av bildpositionerna (x k ;y k ) T för de punkter som har kända koordinater (x k ;y k )T i planet. ffl För varje sνadant par av punkter, eliminera k och ställ upp tvνa homogona ekvationer där k eliminerats och som innebär linjära villkor av formen ρ b T k a = b T 2k a = pνa koeffienterna a ij samlade till en vektor a (se ytterligare detaljer i föreläsningsanteckningarna Image formation") ffl Givet minst 4 sνadana punktkorrespondenser (helst betydligt fler), samla dessa ekvationer till ett homogent ekvationsssystem pνa formen Ba = där varje punktkorrespondens ger upphov till tvνa rader i matrisen B. Lös därefter detta ekvationssystem i minstakvadratmening med SVD. Detta ger de aktuella värden pνa a ij för den inversa perspektivtransformationen frνan bildplanet till det plana världskoordinatsystemet. ffl För punkter (x l ;y l ) T för vilka endast bildmätningar är tillgängliga, beräkna motsvarande plana världskoordinater (x l ;y l )T enligt l @ x l y l = @ a a2 a3 a2 a22 a23 @ x l y l a3 a32 a33 Uppgift 4: (a) För att reducera belysningsvariationerna i en bild kan man förslagsvis anpassa en linjär eller kvadratisk modell till intensitetsvariationerna i bakgrunden och subtrahera denna variation frνan originalbilden innan klassificering utförs, se föreläsningsanteckningarna Pixelklassificering" för ytterligare detaljer. Eventuellt kan metoden ocksνa kombineras med homeomorf filtrering, som beskrivs i avsnitt 4.5 i Gonzalez och Woods (22). (b) För att öka den lokala kontrasten i en grνanivνabild kan man dels anvνanda sig av grνanivνatransformationer som exempelvis histogramutjämning (se avsnitt 3.3. i Gonzalez och Woods (22) eller föreläsningsanteckningarna `Grνanivνatransformationer"`) och dels högpass- eller bandpass-filtrering (se avsnitt 4.4 i Gonzalez och Woods (22) eller föreläsningsanteckningarna Image enhancement by filtering"). Uppgift 5: Metoden för differentialgeometrisk kantdetektion via non-maximum suppression liksom metoden för kantdetektion via nollgenomgνangar till Laplace-operatorn beskrivs i föreläsningsanteckningarna Kantdetektion" samt instruktionen till Laboration 3. 2
Dessa metoder uppvisar likheter i avseendet att för bνada metoderna gäller att kanterna definieras som nollgenomgνangar för ett differentialuttryck som involverar derivator upp till ordning 2. De faktiska utseendena för dessa differentialuttryck skiljer sig dock νat. I praktiken visar det sig att kanternas lägen sammanfaller för raka kanter medan kanternas lägen kommer att skilja sig νat för krökta kanter. Vidare involverar kantdetektion via non-maximum suppression ett ytterligare teckenvillkor för ett differentialuttryck som innehνaller derivator upp till ordning tre. Detta teckenvillkor förhindrar detektion av falska kanter, där gradientmagnituden uppvisar ett minimum i gradientriktningen. Uppgift 6: (a) Gällande definitionerna av de morfologiska operationerna dilatation, erosion, öppning och slutning, se kapitel 9 i Gonzalez och Woods (22) eller föreläsningsanteckningarna Representation, morfologi". Resultatet av att applicera dessa operationer pνa det binära objektet framgνar av nedanstνaende figur. Dilation Erosion Slutning Öppning Schematisk illustration av resultatet av att applicera dilatation, erosion, slutning och öppning pνa det binära objektet i uppgift 6(a). 3
(b) Gällande pyramidrepresentation, se föreläsningsanteckningarna Theory of a visual front-end". (c) Gällande definitionen av disparitet, se föreläsningsanteckningarna Stereogeometri". Gällande metoder för att beräkna disparitetskartor, se föreläsningsanteckningarna Stereomatchning". (d) Gällande faktoriseringsförfarandet för en bildsekvens med affina projektioner av punktformade objekt, se instruktionen till Laboration 4 respektive utdraget ur avsnitt 7.2 ur Hartley och Zisserman. Uppgift 7: (a) En Taylorutveckling av ordning tvνaav den givna operatorn r 2 8 med steglängden h i horisontell x-led och k ivertikal y-led ger r 2 8L(x; y) = L(x h; y + k) + L(x; y + k) + L(x + h; y + k) + = @ L(x h; y) - 8L(x; y) + L(x + h; y) + L(x h; y k) + L(x; y k) + L(x + h; y k) f(x; y) hfx + h2 2 f xx + kfy + k2 2 f yy + O(h; k) 3 + f(x; y)+kfy + k2 2 f yy f(x; y)+hfx + h2 2 f xx + kfy + h2 2 f yy f(x; y) hfx + h2 2 = f xx 8f(x; y) + f(x; y)+hfx + h2 2 f xx f(x; y) hfx B + h2 2 f xx kf y + k2 2 f yy @ f(x; y) kfy + k2 2 f yy + O(h; k) 3 C + f(x; y)+hfx + h2 2 f xx kf y + h2 2 f yy = 3(h 2 L xx + k 2 L yy)+o(h; k) 3 ßfmed h = k = samt försummande av resttermeng ß 3(L xx + L yy) = 3r 2 L: Dvs, operatorn r 2 8 utgör en diskret approximation till den kontinuerliga Laplaceoperatorn, multiplicerad med en faktor 3". (Man kan vidare lätt visa att resttermen O(h; k) 3 i detta fall reduceras till O(h; k) 4.) (b) För stelkroppsrörelse med ren translation (ingen rotation) gäller att det optiska flödet utgνar frνan expansionscentrum, som ligger i skärningspunkten mellan bildsfären och rörelseriktningen. Utifrνan denna egenskap kan vi beräkna de sökta vinkelhastigheterna enligt följande: (i) I denna punkt är rörelseflödet riktat rakt nedνat. Med ett koordinatsystem med origo i observatörens fokalpunkt, horisontell X-axel, vertikal Y -axel och Z-axeln parallell med rörelseriktningen, kommer punkten pνa marken att ha koordinaterna (X; Y; Z) T = (;h;d) T = 4
(; :2; 3:) T (enhet m) och hastigheten ( _X; _Y; _Z) = (; ;v) = (; ; 9=3:6) (enhet m/s). För att bestämma den momentana vinkelhastigheten _ fi ivertikal led, kan vi derivera projektionsekvationerna i följande form vilket med de givna värdena ger ψ Z Y _ Y _Z _fi = + Y 2 fi = arctan y f = arctan Y Z! = hv h 2 + d 2 ß :9ffi =s (ii) I denna punkt är rörelseflödet riktat rakt bakνat. Pga rotationssymmetrin för rörelsefältet, är den momentana vinkelhastigheten lika stor som för en punkt P som befinner sig pνa samma höjd som observatören, men pνa avstνandet q d 2 = d 2 + h2 där d2 = 3 m. Koordinaterna för P i förhνallande till observatören är (X; Y; Z) T = (d 2 ; ; )T = ( 3:; ; ) T och hastigheten νaterigen ( _X; _Y; _Z) =(; ; v) =(; ; 9=3:6) (enhet m/s). För att bestämma den momentana vinkelhastigheten _ff i horisontell led för P, deriverar vi projektionsekvationen ff = arctan x f = arctan X Z vilket med de givna värdena ger ψ Z _X X _Z _ff = + X2! = v d 2 ß 47:7ffi =s (iii) För dessa punkter kommer rörelsefältet att vara horisontellt riktat. Punkterna kan parametriseras enligt (X; Y; Z) T =(X; ;d3) T där X 2 [ ; ] m och d3 = 3: m och deras relativa hastighet i förhνallande till observatören är ( _X; _ Y; _Z) = (; ;v3) = (; ; =3:6). För att bestämma den momentana vinkelhastigheten _ff, deriverar vi ff = arctan x f = arctan X Z vilket med de givna värdena ger ψ! Z _X X _Z _ff = + X2 = v 3X X 2 + d 2 3 ß2 [ :8; =s :8]ffi Eftersom X << d3 i detta fall, kommer variationen inom detta intervall att kunna approximeras väl som ett linjärt beroende av X. 5
(c) (iv) Detta problem har samma struktur som uppgift (iii) ovan. Enda skillnaden är att punkten ges av(x; Y; Z) T =(d4x; ;d4z) T =( 5:; :; 3:) och att den relativa hastigheten är ( _X; Y; Z) =(; ;v4) =(; ; 8=3:6). Den horisontella vinkelhastigheten blir sνaledes _ff = + X2 ψ Z _X X _Z! = v 4d4x d 2 4x + d2 4z ß 5:5 ffi =s (i) Entropin för en punktkälla som genererar K olika typer av symboler med de relativa frekvenserna p k (k = ::K) definieras enligt H = P K k= p k log 2 p k.entropin för denna källa är sνaledes H = (:36 log 2 :36 + :2 log 2 :2 + :7 log 2 :7 + : log 2 : +:7 log 2 :7 + :5 log 2 :5 + :2 log 2 :2 + : log 2 :) ß 2:45 (ii) Efter applicering av den algoritm som beskrivs pνa sidorna 44 442 i avsnitt 8.4. i Gonzalez och Woods (22) respektive i föreläsningsanteckningarna Bildkompression" kan vi skapa följande kodordsträd.62.26.36.5..8.7.3.5..2..38.7.2 vilket via konventionen att uppνatriktade bνagar svarar mot ettor och nedνatriktade bνagar mot nollor ger upphov till nedanstνaende kodord symbol frekvens kodord S.36 S 2.2 S 3.7 S 4. S 5.7 S 6.5 S 7.2 S 8. (iii) Med l k betecknande kodlängden för kodord nummer k, är medelordlängden L = P K k= p k l k. Numeriskt fνar vi L =:36 Λ 2+:2 Λ 2+:7 Λ 2+: Λ 3+ :7 Λ 4+:5 Λ 5+:2 Λ 6+: Λ 6 ß 2:52 (iv) Transformkodning beskrivs i avsnitt 8.5.2 i Gonzalez och Woods (22) samt i föreläsningsanteckningarna Bildkompression". 6