Numerisk analys och datalogi, KTH (Uppdaterat 21 januari 2003) Tony Lindeberg 2D1420 Datorseende gk (Period 3; VT 2003) för D3, D4, E4, F4, (L4, M4, T4) och doktorander. Lärare Kursledare och föreläsare är Tony Lindeberg, (08 790 62 05, tony@nada.kth.se). Mottagning: enligt överenskommelse i rum 13.11A pνa Fiskartorpsvägen 15A. Kursassistenter är Ivan Laptev (epost: laptev@nada.kth.se, tfn 08 790 66 46) och Ola Ramström (epost: olar@nada.kth.se, tfn 08 790 62 03) Kursböcker Följande kursbok användes i kursomgνangen period 3 νar 2003: ffl M. Sonka, V. Hlavac and R. Boyle: Image Processing, Analysis and Machine Vision", 2nd edition, Brooks/Cole Publishing Company, 1999. Denna bok finns att köpa pνa Kνarbokhandeln och ger en relativt bred täckning av omrνadena bildbehandling, bildanalys, datorseende och bildkompression. Om du önskar en mer utförligare beskrivning för delarna om bildbehandling och bildkompression, kan följande bok rekommenderas: ffl R. C. Gonzalez and R. E. Woods: Digital Image Processing", Addison- Wesley, 2002. Kursen och examinationen av kursen läggs upp pνa ett sνadant sätt att du kan skriva tentan och göra laborationerna utgνaende frνan endera boken i kombination med övrig litteratur (inkluderande föreläsningsanteckningarna). Kursbunt ffl Kursprogram (denna text) ffl Datorseendekursen: Syfte, förväntningar och studieteknik ffl Utdrag ur kapitel 3 ur S. Coren, L. M. Ward and J. T. Enns: Sensation and Perception", Harcourt Brace College Publishers, 1999. ffl Utdrag ur kap 1, 13.5 och 17.2 ur R. Hartley and A. Zisserman: Multiple- View Geometry in Computer Vision", Cambridge University Press, 2000. ffl Utdrag ur kap 3.1 3.3, 4.2 4.4 ur R. C. Gonzalez and R. E. Woods: Digital Image Processing", Addison-Wesley, 1992. ffl Utdrag ur kapitel 3, 6, 12 och 14 ur B. K. P. Horn: Robot Vision", MIT Press, 1986 ffl Orienterande översiktsartikel Scale-space: A framework for handling image structures at multiple scales"
ffl Utdrag ur kap 2 ur R. O. Duda and P. E. Hart, Pattern Classification", 1973. ffl Utdrag ur kap 8 ur R. A. Johnson and D. W. Wichern, Applied Multivariate Statistical Analysis", Prentice Hall, 1998. ffl Utdrag ur kapitel 4, 10 och A.6 ur E. Trucco and A. Verri Introductory Techniques for 3-D Computer Vision", Prentice-Hall, 1998. ffl Orienterande översiktsartikel MPEG Digital Video-Coding Standards" ffl Tvνa gamla tentamina med lösningar (02 03 06, 02 04 06) ffl Övningsuppgifter ffl Allmänna laborationsanvisningar ffl Laboration 1: Elementära bildoperationer ffl Laboration 2: Filtreringsoperationer ffl Laboration 3: Kantdetektion och Houghtransformen ffl Laboration 4: Stereogeometri ffl Föreläsningsanteckningar (se separat förteckning) Kursbunten kan köpas pνa Nadas studentexpedition. Priset är preliminärt 250 kr och inkluderar material som delas ut under kursen. Kopiorna ur boken av Nalwa omfattas däremot inte av kursbunten. Nadas studentexpedition finns pνa Osquars Backe 2 (plan 2) och har öppet mνandag-fredag 9.45 11.30, mνandag-torsdag 12.45 14.15. Telefon 08 790 80 77. E-post: studentexp@nada.kth.se. Kursuppläggning Varje läsvecka under veckorna 4 9 i period 3 hνalles föreläsningar enligt följande schema: Veckodag Tid Vecka Sal Mνandag 10 12 4 9 D3 Tisdag 15 17 4 9 E2 Torsdag 10 12 4 9 E2 Fredag 15 17 4 9 E2 Dessutom arrangeras terminalövningar/redovisningstillfällen för laborationerna minst fyra timmar varje vecka. Tider för dessa kommer att bestämmas i samrνad med kursdeltagarna, och annonseras pνa föreläsningarna samt pνa kursens hemsida.
Preliminär kursdisposition vecka 4: Introduktion (2 h) Orientering om biologiskt seende (2 h) Perspektivavbildningen, bildsampling, belysning (2 h) Digital geometri, grνaskaletransformationer (2 h) Teorin klar för lab 1 vecka 5: Linjära system, faltningsoperationen, Fouriertransformen (2 h) Egenskaper hos Fouriertransformen, samplingsteoremet, DFT, FFT (2 h) Bildförbättring med linjär och olinjär filtrering, restaurering (2 h) Övningstillfälle 1 (2 h) Teorin klar för lab 2 Deadline för lab 1 vecka 6: Kantdetektion (2 h) Multiskalrepresentation, särdragsextraktion (2 h) Segmentering via pixelklassificering (2 h) Spatial segmentering och Houghtransformen (2 h) Teorin klar för lab 3 vecka 7: Bilddeskriptorer, principalkomponentanalys (2 h) Morfologi, tolkning av streckteckningar (2 h) Textursegmentering och form frνan textur (2 h) Övningstillfälle 2 (2 h) Deadline för lab 2 vecka 8: Stereogeometri (2 h) Stereomatching (2 h) Rörelse (4 h) Teorin klar för lab 4 vecka 9: Bildkompression (4 h) Övningstillfälle 3 (2 h) Resurs (2 h) Deadline för lab 3 Tentamen Deadline för lab 4
Kursinformation pνa Internet Till kursen finns en hemsida med aktuell kursinformation. Under denna annonseras bla information om laborationstillfällen, uppdateringar av läsanvisningarna, samt uppdateringar av utdelat kursmaterial. Dess adress är http://www.nada.kth.se/nada/kurser/kth/2d1420/aktuellt.html och kursdeltagarna rekommenderas att besöka denna sida regelbundet Examination och kurskrav För godkänt pνa kursen krävs godkänd tentamen och godkända laborationer. Kurslitteraturen ska läsas pνa egen hand parallellt med kursen. Föreläsningarna och laborationerna kan ej fullständigt täcka kursmaterialet. Förutom de läsanvisningar som uppdateras kontinuerligt pνa www-sidorna, kommer mer detaljerade anvisningar att finnas inför tentamen. Laborationer Laborationskursen bestνar av tre obligatoriska laborationer (Lab1, Lab2, Lab3) samt en frivillig laboration (Lab4) som görs i Matlab i grupper om tvνa personer. Studenter som vill jobba ensamma fνar det, men vid redovisningstillfällen har tvνapersonersgrupper företräde. Enstaka laborationer fνar inte sparas till annan kursomgνang. Fullgörs inte alla laborationerna inom ett νar mνaste samtliga göras om. Handledning Om du behöver handledning till den vägledda laborationen fνar du det enklast genom att söka upp kursledaren eller assistenten vid laborationsredovisningarna (om du har stort behov av hjälp, boka gärna en redovisningssystem i det datoriserade bokningssystemet), eller genom att kontakta kursledaren i samband med föreläsningarna. Du kan ocksνa kontakta assistenterna via epost eller telefon, eller besöka kursledaren pνa hans mottagningstid (boka isνa fall tid först via datorpost). Frνan tidigare kursomgνangar har vi erfarenheten att behovet av handledning är individuellt och varierar mycket. Vidare är belastningen pνa handledarna ofta hög under de veckor som det deadline" (bonusgräns) för en laboration, medan handledarna ofta har stor ledig kapacitet under övriga veckor. Om du tror att du kan vara hjälpt av individuell handledning, vill vi därför starkt rekommendera att du följer rνadet att pνabörja laborationerna sνa snart som möjligt, och dra nytta av handledarnas större möjligheter att hjälpa dig under de laborationspass dνa belastningen är lνag. I kursdispositionen ovan framgνar när (hela) teoridelen för respektive laboration har gνatts genom pνa föreläsningarna. Vi vill ocksνa att sνa mνanga studenter som möjligt försöker att redovisa sina laborationer i god tid före deadline". Av förklarliga skäl kan vi omöjligen ta fler redovisningar de sista dagarna än vad dessa laborationspass rymmer. Vid laborationstillfällena har studenter som bokat tid för labredovisning eller handledning företräde. Om du är i behov av detaljerad handledning kan det därför vara lämpligt att du utnyttjar möjligheten att boka en tid med det datoriserade bokningssystemet.
Hederskodex Grundregeln är att det jobb du gör i kursen (laborationer och tentamen) ska du göra själv, förutom att laborationerna kan göras i tvνamannagrupper. Vid redovisning av laborationer ska bνada i gruppen kunna redogöra i detalj även för vad laborationskamraten skrivit. Ibland, speciellt när man skriver program, kan det vara nödvändigt att frνaga nνagon annan (en kamrat eller en handledare) om hjälp med att hitta fel. Detta är tillνatet förutsatt du ger ett skriftligt erkännande till den som hjälpte till, lämpligen i form av en kommentar överst i dokumenationen av din laboration, som talar om vem som hjälpt dig med vad. Du mνaste förstνa hela den färdiga lösningen, även de delar du fνatt hjälp med. Varje annan form av samarbete och utnyttjande av andras lösningar betraktas som ett brott mot hederskodexen och kan bestraffas, t.ex. genom att du förlorar alla bonuspoäng eller fνar göra en ny uppgift. >>Kursregistrering << Endast de teknologer som delfakulteten lagt in i Ladok som studerande pνa en kurs kan godkännas pνa kursen. Vill du läsa denna valfria kurs mνaste du alltsνa först välja kursen vid ditt fakultetskansli, som mνaste godkänna ditt val. Doktorander behöver ett intyg frνan handledaren samt prefekten vid respektive institution pνa en speciell blankett. Alla som vill gνa kursen mνaste dessutom registera sig i Nadas kursadminstrationssystem res". Detta görs med kommandot res checkin dsgk03 pνa nνagon av Nadas unixdatorer. Registrera dig sνa snart som möjligt! Före första labbtillfället pνa kursen, bör du ocksνa ansluta dig till kursen med NADAs kursadministrationsprogram course join dsgk03 Detta kommando ger inställningar till din datormiljö och ser bl.a. till att modulfiler som hör till kursen laddas in i din datormiljö. Dessutom kontrolleras vid varje inloggning om det kommit nνagra nya meddelanden frνan kursledaren. När du är klar med kursen ger du kommandot course leave dsgk03 för att νaterställa effekterna av course join dsgk03. Kurskatalog Kursen har tvνa huvudkataloger pνa Unixdatorerna /info/dsgk03 /info/nada-kurser/datorseende-gk/ Under den senare katalogen finns initieringsfiler, testbilder, Matlab-rutiner och liknande som har med kursen att göra. För ytterligare information, se filen /info/nada-kurser/datorseende-gk/info
Bonuspoäng Vi tillämpar ett bonussystem för att uppmuntra studenterna att ligga i fas med undervisningen. För laborationer som redovisas i tid erhνalles bonuspoäng enligt: Antal laborationer klara i tid Antal bonuspoäng 1 1 2 3 3 5 4 7 Summan av dessa poäng adderas till den pνa tentamen uppnνadda poängsumman. Ovan nämnda bonuspoνang fνar tillgodoräknas gällande gränsen för godkänt pνa tentamen. Utöver detta kan Laboration 4 ge upp till tre extra betygshöjande bonuspoäng, de senare extra bonuspoνangen kan dock ej tillgodoräknas gällande gränsen för godkänt. Dessa poäng gäller endast vid det ordinarie tentamenstillfället och vid första omtentamenstillfället. När du är inloggad kan du se vilka laborationer som är godkända genom att ge kommandot res show dsgk03 Tentamen Tid och plats för ordinarie tentamen är lördag den 8 mars 2003 kl. 8.00 13.00 i sal L21-22, L41-42. Tillνatna hjälpmedel är miniräknare, ett handskrivet (icke-kopierat) A4-blad med anteckningar, samt formelsamlingen Beta". Anteckningsbladet inlämnas med tentamen och νaterfνas dνa denna rättats. Tentamensresultatet anslνas högst fyra veckor efter tentamen pνa institutionens anslagstavla pνa plan 3. Eventuella klagomνal pνa rättningen lämnas in skriftligen till kursledaren inom tre veckor frνan det att tentamensresultatet anslagits. Betygssättning Pνa tentamen ges betygen U (underkänt), 3 (godkänt), 4 (bra) och 5(väl godkänt). KTH-studenter erhνaller samma betyg pνa kursen som pνa tentamen. SU-studenter erhνaller betyget VG om de fνar en 5:a eller en 4:a som ligger närmare en 5:a än en 3:a. övriga SU-studenter med godkänd tentamen fνar betyget G. Anmälan till tentamen Du behöver inte anmäla dig till tentamen. (Anmälan har tidigare varit obligatorisk för vissa studenter, men Nada använder sig inte av detta system längre.)
Nadas terminalsalar Kνarkortet ger tillträde till Nadas terminalsalar dygnet runt, men terminalsalarna är dagtid ofta bokade för andra kurser. Titta pνa www-sidan http://www.nada.kth.se/datorer/ för att se vilka tider som är bokade. Allmän handledare finns tillgänglig i terminalsalarna pνa plan 4 vissa tider varje vardag. Om du har tillgνang till en Internetanslutning hemifrνan, kan du ocksνa göra laborationerna i ett Matlab-system pνa en egen dator. Redovisning av laborationerna mνaste dock göras pνa en dator i Nadas terminalsalar och pνa en redovisningstid som bokas pνa vanligt sätt. Synpunkter pνa kursen Eftersom denna kurs kommer att ges för mνanga studenter under flera νars tid, och kursen dessutom uppdateras i νar, är vi tacksamma för synpunkter pνa kursen. En kursutvärdering kommer att göras. Synpunkter kan lämnas till läraren. Utbildning och forskning i datorseende Denna kurs ges av CVAP-gruppen (Computational Vision and Active Perception Laboratory) vid Nada, som forskar i datorseende och dess tillämpningar. För närvarande bestνar gruppen av cirka 30 forskare och doktorander. CVAP har ett brett internationellt kontaktnät och samarbetar med ett flertal av de ledande forskningsgrupperna i Europa och USA. Om du är intresserad av examensarbete, doktorandstudier eller ytterligare forskarkurser i detta ämne, kontakta kursledaren. Frνan kursens hemsida finns ett antal länkar till www-sajter gällande datorseende, bildanalys, bildkompression, robotik och biologiskt seende.
Läsanvisningar till 2D1420 Datorseende gk (Period 3; VT 2003) Denna sida ger en översiktlig vägledning till den litteratur som hör ihop med respektive kursavsnitt. Som generell vägledning till läsandet rekommenderas att du utgνar frνan föreläsningsanteckningarna för att fνa en sammanfattande översikt över respektive avsnitt samt ett urval över prioriterat material. Den övriga kurslitteraturen ger därefter en fylligare beskrivning av respektive avsnitt, och i vissa fall mer bakgrundsinformation. OBS! Dessa läsanvisningar är upplagda sνa att du kan tillgodogöra dig kursen utifrνan endera av de primära kursböckerna: ffl M. Sonka, V. Hlavac and R. Boyle: Image Processing, Analysis and Machine Vision", 2nd edition, Brooks/Cole Publishing Company, 1999. ffl R. C. Gonzalez and R. E. Woods: Digital Image Processing", Addison-Wesley, 2002. Den största fördelen med boken av Sonka etalär att den ger en relativt bred täckning av omrνadet, och utgör en bra referens för vidare arbete i omrνadet. Dock är det tekniska materialet emellanνat rätt kortfattat, speciellt gällande ren bildbehandling och bildkompression, varför kompletterande material lämnas i form av utdrag ur annan litteratur. Boken av Gonzalez och Woods ger en betydligt mer utförlig beskrivning gällande de rena bildbehandlingsdelarna, bildkompressionsdelen samt ett vissa moment i bildanalys, och kan i vissa avseenden vara lättare att tillgodogöra sig. Dock saknas i denna bok material om rent datorseende, liksom för vissa väsentliga moment i bildanalys. Kursen och examinationen läggs dock upppνa ett sνadantsätt att du kan skriva tentan och göra laborationerna utgνaende frνan endera boken i kombination med övrig litteratur (inkluderande föreläsningsanteckningarna). OBS! Dessa läsanvisningar kan komma att revideras under kursens gνang, och uppdateringarna annonseras pνa kursens hemsida. ffl Introduktion: Sonka (1999) kap 1 (ori), 9.1, Gonzalez och Woods (2002) kap 1 (ori) Föreläsningsanteckningar: "Introduktion och översikt" ffl Orientering om biologiskt seende: Utdrag ur Coren et al (1999) kap 3, Gonzalez & Woods (2002) 2.1-2.2 (ori.) Föreläsningsanteckningar: Biologiskt seende" ffl Bilder, perspektivavbildning, sampling: Sonka (1999) 6.2.7 dubbelförhνallandet, 9.2.1, 9.2.2 kameramodell, 9.3.1 radiometri, 4.2 geometriska transformationer, Utdrag ur Hartley och Zisserman 1.1-1.5 Gonzalez & Woods (2002) 2.3 (ori), 2.4, 5.11.2 Föreläsningsanteckningar: Image formation" ffl Digital geometri: Sonka 2.3 metrik, distanstransform, sammanhängande komponent, del av 6.1 algoritm för sammanhängande komponenter, 11.5.2 skelett Gonzalez & Woods (2002) 2.5, 11.1.5 Föreläsningsanteckningar: Digital geometri" ffl Bildförbättring med punktbearbetning: Sonka (1999) 4.1 grνaskaletransformationer, histogramutjämning Utdrag ur Gonzalez ochwoods (1992) avsnitt 4.2.1 enkla grνaskaletransformationer Gonzalez & Woods (2002) 3.1-3.4 Föreläsningsanteckningar: Grνanivνatransformationer" ffl Linjära system, Fouriertransformationer, samplingsteoremet: Sonka (1999) 12.1 linjära system, 12.2 Fouriertransformen, 12.4 DCT Utdrag ur Gonzalez & Woods (1992) 3.1-3.3
Gonzalez & Woods (2002) 4.2.1-4.2.2, 4.2.4, 4.6 Föreläsningsanteckningar: Linjära operatorer", Fouriertransformen", Samplingsteoremet och DFT". Fouriertransformer behandlas ocksνa i föreläsningsanteckningarna om grundläggande bildbehandlingsoperationer samt till viss del i teoriavsnitten till Laboration 2. ffl Bildförbättring med spatial filtrering, bildrestaurering: Sonka (1999) 4.3.1 filtreringsoperationer, 4.4 restaurering, 12.7 transformer Utdrag ur Gonzalez & Woods (1992) 4.2.3, 4.2.4, 4.3, Utdrag ur Horn 6.8-6.9. Gonzalez och Woods (2002) avsnitt 3.5-3.8, 4.2.3, 4.3-4.5, 5.1-5.9 Föreläsningsanteckningar: Image enhancement by filtering", Sharpening and restoration" ffl Kantdetektion: Sonka (1999) 4.3.2, 4.3.3, 4.3.5, 5.2.1 kantdetektion Gonzalez och Woods (2002) 10.1 Föreläsningsanteckningar: "Kantdetektion", Teoriavsnittet till Laboration 3 ffl Särdragsdetektion och multiskalrepresentation: Översiktsartikeln Scale-space: A framework for handling image structures at multiple scales" Sonka (1999) 4.3.4, Utdrag ur Trucco och Verri (1998) avsnitt 4.3 Föreläsningsanteckningar: Theory of a visual front-end" ffl Klassificering: Sonka (1999) 5.1.1, 5.1.2 tröskling, 7.2.1, 7.2.2 klassifikation, 7.2.4 klusteranalys Gonzalez & Woods (2002) 10.3, 12.1-12.2.2 Utdrag ur Duda och Hart (1973) kap 2 Bayesisk klassificering Utdrag ur Horn 14.3-14.9 elementära klassifikationsmetoder. Föreläsningsanteckningar Pixelklassificering" ffl Segmentering, Houghtransformen: Sonka (1999) 5.3.1, 5.3.2, 5.3.3, 5.3.5 merging, splitting, split-merge, region growing, del av 6.1 beräkning quad-tree, 5.2.6 Houghtransformen Gonzalez och Woods (2002) 10.2, 10.4-10.6 Föreläsningsanteckningar Segmentering, Houghtransformen", ffl Representation, morfologi: Sonka (1999) 6.2.1-6.2.3 konturdeskriptorer, 6.3.1 regionsdeskriptorer, 6.3.2 momentdeskriptorer Utdrag ur Horn (1986) 3.2 momentdeskriptorer binära objekt Utdrag ur Johnson och Wichern (1998) kap 8 principalkomponentanalys Utdrag ur Trucco och Verri (1998) avsnitt 10.4 igenkänning principalkomponenter G & W (2002) 11.1-11.3.2, 11.3.4, 11.4, 9.2-9.5 Föreläsningsanteckningar Representation, morfologi, ffl Textur: Sonka (1999) kap 14, Föreläsningsanteckningar Textur", ffl Stereo: Sonka (1999) 9.2.5, 9.2.6, 9.2.7 epipolarlinjegeometri, 9.2.8 bestämning av fundamentala matrisen, 9.2.9 rektifiering Utdrag ur Trucco och Verri: 7.3-7.3.5, 7.4.1. Föreläsningsanteckningar Stereogeometri", Stereomatchning" ffl Rörelse: Sonka (1999) 15.1 temporala differenser, 15.2.1 optiskt flöde, 15.2.4 rörelseanalys Utdrag ur Hartley och Zisserman (2000) 13.5 affin faktorisering Föreläsningsanteckningar Rörelse I", Rörelse II" ffl Bildkompression: Sonka (1999) 13.1 entropi, 13.2 tranformkodning, 13.3 prediktionskodning, 13.9 JPEG,MPEG Gonzalez och Woods (2002) 8.1-8.6 (kanalkapacitet och överföringsfel ingνar ej) Översiktsartikeln av Sikora (1987) MPEG Digital Video-Coding Standards" (ori) Föreläsningsanteckningar Bildkompression"
Läsanvisningarna ovan hänvisar till följande material: ffl M. Sonka, V. Hlavac and R. Boyle: Image Processing, Analysis and Machine Vision, 2nd edition, PWS Publishing, 1999. ffl R. C. Gonzalez and R. E. Woods: Digital Image Processing, 2nd edition, Addison- Wesley, 2002 ffl R. C. Gonzalez and R. E. Woods: Digital Image Processing, Addison-Wesley, 1992 ffl S. Coren, L. M. Ward and J. T. Enns: Sensation and Perception", Harcourt Brace College Publishers, 1994. ffl B. K. P. Horn: Robot Vision, MIT Press, 1986. ffl V. S. Nalwa: A Guided Tour of Computer Vision, Addison-Wesley, 1993. ffl E. Trucco and A. Verri: Introductory Techniques for 3-D Computer Vision, Prentice- Hall, 1998. ffl R. Hartley and A. Zisserman: Multiple-View Geometry in Computer Vision, Cambridge University Press, 2000. ffl R. O. Duda and P. E. Hart, Pattern Classification, 1973. ffl R. A. Johnson and D. W. Wichern, Applied Multivariate Statistical Analysis, Prentice Hall, 1998. De första tvνa böckerna i denna utgör kursböcker till kursen. Övriga böcker kan rekommenderas som fördjupnings- och referenslitteratur.