Datorseende Niels Chr Overgaard Januari 2010
Allmänt Föreläsningar: 14x2h, ti 15-17 + to 13-15 Övningar: 7x2h, fr 8-10 Labbar: 4x2h (obligatoriska) Inlämningsuppgifter: 5 stycken (obligatoriska) Projekt: startar lp4 (valfritt) Poäng: 6hp (9hp med projekt) Godkänd på kursen: Godkända labbar +godkända inlämningsuppgifter +muntligt prov Överbetyg (4 eller 5): Godkänd på kursen (som ovan) +skriftlig hemtenta
Datorseende kan vara svårt http://web.mit.edu/persci/people/adelson/checkershadow_illusion.html
Innehåll F1 Introduktion F2 Euklidisk, affin och projektiv geometri F3 Kameramodellering F4 Kant- och hörndetektion F5 Epipolar geometri F6 Stereo F7 Följning, matchning och anpassning F8 Multipel-vy geometri F9 Rekonstruktionsmetoder och optimering F10 Igenkänning F11 Vysyntes, ytor och silhouetter F12 Gästföreläsning: Medicinsk bildanalys och formmodeller F13 Reserv (ev. Variationsmetoder inom datorseende) F14 Reserv+repetition.
Datorgrafik Bildbehandling Bildanalys Datorseende Datorgrafik Givet databas S och en algoritm T: Generera relevant bild B. S T B
Bildbehandling Givet bild B: Behandla den på något sätt. Bildanalys Givet bild B och en modell för T: Behandla bilden på något sätt.
Datorseende Givet bild B och en modell för T: Dra relevanta slutsatser om S. Datorseende syftar till att i artificiell form (oftast mjukvara i datorer) återskapa funktioner som finns i det mänskliga seendet. Till exempel: Igenkänning Navigering Rekonstruktion Närliggande områden Artificiell intelligens: Avancerat beslutsfattande på en högre nivå. Fotogrammetri: Noggranna tredimensionella mätningar med hjälp av avancerade kameror utan krav på beräkningstid. Datorseende: Befinner sig någonstans mellan artificiell intelligens och fotogrammetri, ofta krav på snabba och automatiska algoritmer.
Datorgrafik Kamerarörelse bild scenmodell
Datorseende Det omvända (inversa) problemet till datorgrafik kamerarörelse Bild (bilder) scenstruktur
Tillämpningar Autonoma system, truckar robotar, bilar. 3D-modellering, CAD, VRML. Medicin, röntgen, tomografi. Underhållning, augmented reality. Övervakning, igenkännning, biometri. Etc.
Rekonstruktion
VRML-modellering
Vysyntes
Augmented Reality Visuellt guidad kirurgi
Medicinsk bildbehandling
Igenkänning
Tillämpning: Sport www.sportvision.com Kräver (1) noggrann kameraregistrering; (2) en färgmodell för att skilja bakgrund från förgrund
3D Scanning Scanning Michelangelo s The David 2 miljarder polygoner, noggrannhet.29mm Digital Michelangelo project (Stanford)
Omöjliga figurer Antag att alla ytor är plana Finns det något tredimensionellt objekt som ger denna bild? I detta fallet: NEJ
Olika typer av ögon Hos levande varelser finns olika visuella system: Kameraöga: (t ex människor, spindlar) Ljuset fokuseras av en lins. Det fokuserade ljuset registreras av en retina. Ger en skarp bild. Det finns även djur med hålkameraögon utan linser, t ex Nautilus. Spegelöga: (t ex kammussla) Ljuset fokuseras av en spegel, och registreras av en retina. Ger suddigare bild men kräver mindre plats. Facettöga: (t ex insekter, krabbor) varje lins kopplad till en sensor. Ger stort synfält för litet öga. Det finns även facettögon av spegeltyp, t ex kräftor. Icke-fokuserande öga: (primitiva djur) Ljuset fokuseras inte. Ger suddig bild men mycket ljuskänslig.
Det mänskliga ögat Nästan sfäriskt med en medeldiameter på ca 20 mm. Ljuset fokuseras på näthinnan (retinan) av linsen. Retinan är ca 0.1 mm tjock och består av ca 130 miljoner fotoreceptorer. Dessa sitter tätast i mitten av ögat. Varje receptor absorberar ljus med våglängder mellan 400 nm och 700 nm. Det finns två huvudtyper av receptorer. Stavar: De flesta receptorer är stavar. Dessa är mer ljuskänsliga och registrerar ingen färginformation. Flera stavar kan vara hopkopplade till en nervcell. Tappar: Det finns ca 7 miljoner tappar. Dessa är lokaliserade till mitten av ögat och är färgkänsliga. Varje tapp är kopplad till en nervcell.
Hålkameran Camera Obscura Pinhole camera Reinerus Gemma-Frisius första avbildning av Camera obscura 1544
Datorseende vt-10 Föreläsning 1 Matematisk modell för hålkameran En klassisk hålkamera inverterar Det avbildade objektet. Leon Battista Alberti, c:a 1435 Albertis och Dürers kameror gör Inga inverteringar. Albrecht Dürer c:a 1525 26
Olika koordinatsystem I de flesta fall kan man inte använda samma koordinatsystem för att beskriva kameran som för att beskriva de 3D-punkter som projiceras på bildplanet, eftersom kamerans läge i förhållande till objektet normalt inte är känd. Således måste vi använda olika koordinatsystem för objektet och för kameran. Det finns (åtminstone) tre intressanta transformationer: Euklidiska transformationer Affina transformationer Projektiva transformationer (Likformighetstransformation = Euklidisk + global skalning) Relationen mellan dessa koordinatsystem kan beskrivas med hjälp av en geometrisk transformation.
Euklidisk transformation Rotation + translation Bevarar avstånd och relativa vinklar. Likformighetstransformation= Euklidisk + skalning
Affin transformation Bevarar kvoter mellan avstånd och parallellitet. Ändrar på vinklar.
Projektiv transformation Bevarar varken avstånd eller relativa vinklar. Bevarar inte parallellitet.
Varför inte använda hålkameran? Om hålet är för stort medelvärde av många riktningar resulterar i utsmetade bilder Om hålet för litet diffraktioner påverkar bilden Allmänt, hålkameran resulterar i mörka bilder pga endast ett fåtal ljusstrålar från en viss punkt träffar bildplanet
Aberrationer Uppkommer då fokallängden varierar på grund av att linsen ej är perfekt. Bilden blir då oskarp. Sfäriska aberrationer: fokallängden avtar från bildens centrum mot periferin. Astigmatism: fokallängden varierar då man rör sig i en cirkel runt principalpunkten Kromatiska aberrationer: fokallängden varierar med ljusets våglängd
Distortioner Variationer av projektionen av olika punkter på grund av att linsen inte är perfekt. Radiell distortion: Litet nära principalpunkten, ökar mot periferin. Tangentiell distortion: Vanligtvis försumbar.