Datorseende. Niels Chr Overgaard Januari 2010

Datorseende Niels Chr Overgaard Januari 2010

Allmänt Föreläsningar: 14x2h, ti 15-17 + to 13-15 Övningar: 7x2h, fr 8-10 Labbar: 4x2h (obligatoriska) Inlämningsuppgifter: 5 stycken (obligatoriska) Projekt: startar lp4 (valfritt) Poäng: 6hp (9hp med projekt) Godkänd på kursen: Godkända labbar +godkända inlämningsuppgifter +muntligt prov Överbetyg (4 eller 5): Godkänd på kursen (som ovan) +skriftlig hemtenta

Datorseende kan vara svårt http://web.mit.edu/persci/people/adelson/checkershadow_illusion.html

Innehåll F1 Introduktion F2 Euklidisk, affin och projektiv geometri F3 Kameramodellering F4 Kant- och hörndetektion F5 Epipolar geometri F6 Stereo F7 Följning, matchning och anpassning F8 Multipel-vy geometri F9 Rekonstruktionsmetoder och optimering F10 Igenkänning F11 Vysyntes, ytor och silhouetter F12 Gästföreläsning: Medicinsk bildanalys och formmodeller F13 Reserv (ev. Variationsmetoder inom datorseende) F14 Reserv+repetition.

Datorgrafik Bildbehandling Bildanalys Datorseende Datorgrafik Givet databas S och en algoritm T: Generera relevant bild B. S T B

Bildbehandling Givet bild B: Behandla den på något sätt. Bildanalys Givet bild B och en modell för T: Behandla bilden på något sätt.

Datorseende Givet bild B och en modell för T: Dra relevanta slutsatser om S. Datorseende syftar till att i artificiell form (oftast mjukvara i datorer) återskapa funktioner som finns i det mänskliga seendet. Till exempel: Igenkänning Navigering Rekonstruktion Närliggande områden Artificiell intelligens: Avancerat beslutsfattande på en högre nivå. Fotogrammetri: Noggranna tredimensionella mätningar med hjälp av avancerade kameror utan krav på beräkningstid. Datorseende: Befinner sig någonstans mellan artificiell intelligens och fotogrammetri, ofta krav på snabba och automatiska algoritmer.

Datorgrafik Kamerarörelse bild scenmodell

Datorseende Det omvända (inversa) problemet till datorgrafik kamerarörelse Bild (bilder) scenstruktur

Tillämpningar Autonoma system, truckar robotar, bilar. 3D-modellering, CAD, VRML. Medicin, röntgen, tomografi. Underhållning, augmented reality. Övervakning, igenkännning, biometri. Etc.

Rekonstruktion

VRML-modellering

Vysyntes

Augmented Reality Visuellt guidad kirurgi

Medicinsk bildbehandling

Igenkänning

Tillämpning: Sport www.sportvision.com Kräver (1) noggrann kameraregistrering; (2) en färgmodell för att skilja bakgrund från förgrund

3D Scanning Scanning Michelangelo s The David 2 miljarder polygoner, noggrannhet.29mm Digital Michelangelo project (Stanford)

Omöjliga figurer Antag att alla ytor är plana Finns det något tredimensionellt objekt som ger denna bild? I detta fallet: NEJ

Olika typer av ögon Hos levande varelser finns olika visuella system: Kameraöga: (t ex människor, spindlar) Ljuset fokuseras av en lins. Det fokuserade ljuset registreras av en retina. Ger en skarp bild. Det finns även djur med hålkameraögon utan linser, t ex Nautilus. Spegelöga: (t ex kammussla) Ljuset fokuseras av en spegel, och registreras av en retina. Ger suddigare bild men kräver mindre plats. Facettöga: (t ex insekter, krabbor) varje lins kopplad till en sensor. Ger stort synfält för litet öga. Det finns även facettögon av spegeltyp, t ex kräftor. Icke-fokuserande öga: (primitiva djur) Ljuset fokuseras inte. Ger suddig bild men mycket ljuskänslig.

Det mänskliga ögat Nästan sfäriskt med en medeldiameter på ca 20 mm. Ljuset fokuseras på näthinnan (retinan) av linsen. Retinan är ca 0.1 mm tjock och består av ca 130 miljoner fotoreceptorer. Dessa sitter tätast i mitten av ögat. Varje receptor absorberar ljus med våglängder mellan 400 nm och 700 nm. Det finns två huvudtyper av receptorer. Stavar: De flesta receptorer är stavar. Dessa är mer ljuskänsliga och registrerar ingen färginformation. Flera stavar kan vara hopkopplade till en nervcell. Tappar: Det finns ca 7 miljoner tappar. Dessa är lokaliserade till mitten av ögat och är färgkänsliga. Varje tapp är kopplad till en nervcell.

Hålkameran Camera Obscura Pinhole camera Reinerus Gemma-Frisius första avbildning av Camera obscura 1544

Datorseende vt-10 Föreläsning 1 Matematisk modell för hålkameran En klassisk hålkamera inverterar Det avbildade objektet. Leon Battista Alberti, c:a 1435 Albertis och Dürers kameror gör Inga inverteringar. Albrecht Dürer c:a 1525 26

Olika koordinatsystem I de flesta fall kan man inte använda samma koordinatsystem för att beskriva kameran som för att beskriva de 3D-punkter som projiceras på bildplanet, eftersom kamerans läge i förhållande till objektet normalt inte är känd. Således måste vi använda olika koordinatsystem för objektet och för kameran. Det finns (åtminstone) tre intressanta transformationer: Euklidiska transformationer Affina transformationer Projektiva transformationer (Likformighetstransformation = Euklidisk + global skalning) Relationen mellan dessa koordinatsystem kan beskrivas med hjälp av en geometrisk transformation.

Euklidisk transformation Rotation + translation Bevarar avstånd och relativa vinklar. Likformighetstransformation= Euklidisk + skalning

Affin transformation Bevarar kvoter mellan avstånd och parallellitet. Ändrar på vinklar.

Projektiv transformation Bevarar varken avstånd eller relativa vinklar. Bevarar inte parallellitet.

Varför inte använda hålkameran? Om hålet är för stort medelvärde av många riktningar resulterar i utsmetade bilder Om hålet för litet diffraktioner påverkar bilden Allmänt, hålkameran resulterar i mörka bilder pga endast ett fåtal ljusstrålar från en viss punkt träffar bildplanet

Aberrationer Uppkommer då fokallängden varierar på grund av att linsen ej är perfekt. Bilden blir då oskarp. Sfäriska aberrationer: fokallängden avtar från bildens centrum mot periferin. Astigmatism: fokallängden varierar då man rör sig i en cirkel runt principalpunkten Kromatiska aberrationer: fokallängden varierar med ljusets våglängd

Distortioner Variationer av projektionen av olika punkter på grund av att linsen inte är perfekt. Radiell distortion: Litet nära principalpunkten, ökar mot periferin. Tangentiell distortion: Vanligtvis försumbar.