Kamerabaserad positionsbestämning av mark- och luftbrisader Examensarbete D, 2 20 p. Institutionen för Datavetenskap, Umeå universitet 2004-02-19 Författare: Markus Jusslin, c98mjn@cs.umu.se Per Lundqvist, c98plt@cs.umu.se Handledare: Niclas Börlin Sammanfattning. Rådande metoder för positionsbestämning av nedslag för artillerigranater kräver manuell inmätning eller omfattar system som är geografiskt bundna till en speciell plats. Dessa system är i mångt och mycket beroende av manuell hjälp och har begränsade möjligheter att positionsbestämma luftbrisader. I denna studie undersöks möjligheten att använda kameror kopplade till en dator som alternativ lösning, där förhoppningen är att få ett relativt billigt, bärbart system med hög noggrannhet och som utöver detta även kan mäta in luftbrisader.
ii
Innehållsförteckning 1 Inledning... 1 1.1 Bakgrund... 1 1.2 Målsättning... 1 1.3 Upplägg... 2 2 Beskrivning av CAMPOS... 3 2.1 Syfte och användningsområde... 3 2.2 Tilltänkt uppställning... 3 2.3 Krav och funktioner... 4 2.4 Fördelar med CAMPOS... 5 2.5 Nackdelar/begränsningar hos CAMPOS... 5 3 Realiserbarhetsanalys... 7 3.1 Inledning... 7 3.2 Triangulering... 7 3.2.1 Kamerornas antal och inbördes vinkel... 7 3.2.2 Målområdets storlek, bildupplösning och kamerornas avstånd till målområdet... 9 3.3 Kamerakalibrering... 11 3.3.1 Kalibrering med hjälp av 2D- till 3D-punktkorrespondenser... 13 3.3.2 Kalibrering med hjälp av 2D- till 2D-punktkorrespondenser... 16 3.3.3 Begränsad kamerakalibrering... 16 3.4 Bildanalys... 17 3.4.1 Visuell approximation av brisad- och nedslagspunkt... 17 3.4.2 Lokalisering av bildruta för nedslag... 18 3.4.3 Inmätning av bilder... 19 3.5 Insamling Mätdata... 19 3.5.1 Hårdvara... 19 3.5.2 Mjukvara... 21 3.5.3 Hårdvaruundersökning... 22 3.6 Sammanfattning Realiserbarhetsanalys... 23 4 Designval... 25 4.1 Inledning... 25 4.2 Kameror och överföringsmedium... 25 4.2.1 Antalet kameror... 25 4.2.2 Vinkel mellan kameror... 26 4.2.3 Kameratyp... 26 4.2.4 Dataöverföring... 26 4.2.5 Utvecklingsmiljö... 26 iii
4.3 Uppställning och kalibrering av kameror... 27 4.3.1 Uppställning... 27 4.3.2 Kamerakalibrering... 28 4.4 Mjukvarukomponenter... 32 4.4.1 Relationsdiagram... 32 4.5 Sammanfattning designval... 32 5 Teoretisk analys av detektering... 33 5.1 Inledning... 33 5.2 Beskrivning av detektering... 33 5.3 Algoritmbeskrivning... 35 5.3.1 Övergripande beskrivning av detektering... 35 5.3.2 Algoritmen för detektering... 35 5.4 Förslag på förändringar... 35 5.5 Testmetoder... 36 5.5.1 Test av noggrannhet... 36 5.5.2 Test av precision... 37 5.5.3 Test av exekveringstid... 37 5.5.4 Val av tröskelvärden... 37 5.6 Testresultat detektering... 38 5.6.1 Manuell verifiering... 38 5.6.2 Test av precision... 40 5.6.3 Test av exekveringstid... 42 5.6.4 Test av arean hos detektering... 45 5.7 Sammanfattning av analys av detektering... 46 6 Teoretisk analys av kalibrering och triangulering... 49 6.1 Teoretisk beskrivning av kalibrering... 49 6.1.1 Direct Linear Transform... 49 6.1.2 Ickelinjär minimering... 51 6.1.3 Begränsad kamerakalibrering... 52 6.1.4 Linsdistorsion...54 6.2 Teoretisk beskrivning av triangulering... 55 6.2.1 Mittpunktsmetoden... 55 6.2.2 Linjär triangulering... 55 6.2.3 Epipolargeometri och minimering av återprojektionsfelet... 57 6.3 Resultat... 59 6.3.1 Simulering... 59 6.3.2 Resultat kalibrering... 64 6.3.3 Slutsats och sammanfattning kalibrering... 70 6.3.4 Resultat triangulering... 72 6.3.5 Slutsats och sammanfattning triangulering... 79 7 Avslutning... 81 7.1 Fortsatt undersökning... 81 7.2 Avslutande ord... 82 iv
8 Referenser... 83 9 Ordlista... 85 A Hårdvaruundersökning... 87 A.1 Kameror... 87 A.1.1 Digitala videokameror... 87 A.1.2 Analoga videokameror... 88 A.1.3 Digitala stillbildskameror... 89 A.1.4 Högupplösta industrikameror... 90 A.1.5 Höghastighetskameror... 91 A.1.6 Förkalibrerade kameror... 92 A.1.7 Sammanfattning och diskussion... 92 A.2 Överföringsmedia... 93 A.2.1 FireWire... 93 A.2.2 Ethernet... 94 A.2.3 RadioLAN... 94 A.2.4 USB 2.0... 95 A.2.5 Bluetooth... 95 A.2.6 S-Video... 96 A.2.7 CameraLink... 96 A.2.8 KVM Extender... 96 A.3 Bärbar dator... 98 A.3.1 Gränssnitt... 98 A.3.2 Hårddiskar... 98 A.3.3 Internminne... 98 A.3.4 Strömförsörjning... 98 B Interlacing... 99 C Krav... 103 C.1 Krav på tillstånd och lägen hos systemet... 103 C.2 Funktionella krav på systemet... 104 C.2.1 Generellt... 104 C.2.2 Operationella funktioner hos CAMPOS... 106 C.2.3 Systemfunktioner... 107 C.2.4 Användbarhetsfunktioner... 108 C.3 Krav på externa gränssnitt hos systemet... 109 C.3.1 Identifiering av gränssnitt och diagram... 109 C.3.2 IF GUI... 110 C.3.3 IF Nätverk... 110 C.3.4 IF Kameror... 111 C.3.5 IF Extern lagring... 111 C.3.6 IF Statistik... 111 C.4 Krav på interna gränssnitt hos systemet... 111 C.5 Krav på systemets interna data... 111 v
C.6 Krav på adaption... 112 C.7 Skyddskrav... 112 C.8 Säkerhetskrav... 112 C.9 Miljökrav på systemet... 112 C.10 Krav på datorresurserna... 113 C.11 Kvalitetskrav på systemet... 113 C.12 Begränsningar på design och konstruktion av systemet... 113 C.13 Personalrelaterade krav... 113 vi
1 Inledning 1.1 Bakgrund Den här rapporten är en del i ett examensarbete som har utförts vid Umeå Universitet åt företaget AerotechTelub under perioden Augusti 2003-Januari 2004. Det finns ett intresse av ett system som klarar av att automatiskt positionsbestämma både marknedslag och luftbrisader vid skjutning med granatkastare och artilleri med hög noggrannhet. Systemet förväntas kunna utföra positionsbestämning i realtid och snabbt kunna generera utvald statistik. Befintliga system kräver manuell inmätning vilket inte ger sökt noggrannhet, är tidskrävande och svårhanterligt. Ett kamerabaserat system som arbetar i realtid möjliggör för ett större antal inmätta testskjutningar per dag än vad som är möjligt med manuella inmätningar och tillför nya möjligheter att arkivera filmer och resultat, utöver de automatiska beräkningar som assisterar operatören av systemet. Att göra mätningar med hjälp av bilder är en relativt gammal och etablerad vetenskap (fotogrammetri), men kombinationen av de krav som ställs på bärbarhet, realtidsberäkningar och den relativt stora målvolymen vari positionsbestämning ska kunna utföras tillför svårigheter som gör problemställningen kring detta system delvis outforskat. Denna rapport består av en teoretisk undersökning och behandlar möjliga tillvägagångssätt och deras för- och nackdelar. I de sista kapitlen behandlas förväntad noggrannhet för systemet som är beräknad helt och hållet beräknad med datorsimuleringar. Detta bör alltså ses som ett första steg i en undersökning om möjligheterna för ett positionsbestämningssystem av det här slaget, där en fortsättning vore att utföra praktiska undersökningar. 1.2 Målsättning Målsättningen är att undersöka möjligheterna med att utveckla ett system för positionsbestämning med hjälp av videokameror och bildanalys. Undersökningen ska ta upp de problem som kan uppstå samt ett konkret förslag på en fullständigt system. De viktigaste frågeställningarna undersökningen ska behandla är: Hur ska kalibreringen av kameror ske? Med vilken noggrannhet måste kamerorna kalibreras för att systemet ska uppnå önskad noggrannhet? Hur ska triangulering av världskoordinater ske från inmätta korresponderande bildpunkter? Vilken uppställning av kamerorna ger bäst resultat för trianguleringen? Vilka metoder för bildanalysens detektering är lämpliga för att kunna möta realtidskrav? Vilken hårdvara möter kraven ställda på noggrannhet och bildöverföring? 1
1.3 Upplägg Rapporten kommer i huvudsak att redogöra för problem och möjliga lösningar för punkterna i målsättningen ovan. Den består av delar från de fyra olika dokument som producerats till företaget AerotechTelub under examensarbetets gång. Rapporten kommer först att ge en utökad bild av det efterfrågade systemets kravspecifikation i kapitel 2 Beskrivning av CAMPOS. I efterföljande kapitel 3 Realiserbarhetsanalys beskrivs problemställningen för de olika huvudkomponenterna och behandlar även olika metoder och tillvägagångssätt för implementation av systemet. kapitel 4 Designval tar upp ett konkret val av ett system för att visa hur ett faktiskt system skulle kunna vara uppbyggt med dess för- och nackdelar. I de efterföljande kapitlen 5 Teoretisk analys av detektering och 6 Teoretisk analys av kalibrering och triangulering analyseras de respektive delarna och testresultat redovisas. Rapporten avslutas i kapitel 7 Avslutning med rekommenderad fortsatt undersökning och tackord. 2
2 Beskrivning av CAMPOS 2.1 Syfte och användningsområde CAMPOS (Camera-based Position Targeting System) är ett bärbart system som ska användas i fredstid för att verifiera en granats exakta punkt vid nedslag på marken eller brisad i luften. Systemet ska användas vid testskjutningar med artilleripjäs eller granatkastare av både barlastade och skarpa granater. Avsikten är att förkorta tiden som krävs för manuell inmätning och samtidigt ha en väldigt hög noggrannhet genom att använda sig av ett datorbaserat system som använder sig av bildbehandling. CAMPOS ska kunna betjänas av en operatör och ska förutom positionsbestämning även tillhandahålla kalibrering av kameraparametrar vilket måste utföras varje gång systemet ställs upp. CAMPOS ska tillhandahålla möjlighet för automatisk detektering av position för nedslag/luftbrisad men även möjlighet för operatören att manuellt ange position för nedslag/luftbrisad. 2.2 Tilltänkt uppställning CAMPOS består av 2 eller fler kameror, (K1 och K2), som filmar ett kubiskt målområde om 100x100x100 m i x-, y-, och z-led. Dessa kameror är kopplade mot en bärbar dator där en operatör befinner sig skyddad enligt militära bestämmelser. Luftbrisad/nedslag inom målområdet detekteras automatiskt av programvaran eller manuellt av operatören och felet i förhållande till vald referenspunkt presenteras för operatören vid datorn. 3
100 m PC K1 T R 100 m PC = dator K1 = kamera 1 K2 = kamera 2 T = träffpunkt R = referenspunkt K2 Figur 1. Principskiss av CAMPOS sedd uppifrån. Kamerorna filmar även i höjdled vilket inte visas. Ingen information om avstånd kan fås ur bilden, den relativa skalan är ej korrekt. CAMPOS är inte låst vid att endast använda sig av 2 kameror. 2.3 Krav och funktioner Det finns en mängd olika krav ställda på CAMPOS, en fullständig redovisning av alla krav finns i bilaga C Krav. Här följer de viktigaste och mest grundläggande kraven som inför störst begränsningar på implementationen av systemet: CAMPOS ska tillhandahålla stöd för kalibrering av anslutna kameror. CAMPOS ska tillhandahålla en manuell positionsbestämning, där användaren anger i det grafiska gränssnittet var nedslaget/luftbrisaden skett. CAMPOS ska även medge en automatisk positionsbestämning där programmet ger ett förslag på positionen av nedslaget/luftbrisaden åt användaren. Positionsbestämning ska ske med bättre noggrannhet än 0,1 m i x-, y-, och z-led för granatkastare och 1-2 meters noggrannhet för artilleripjäs. Barlastad granat ska kunna detekteras. CAMPOS ska kunna mäta två granatnedslag med tidsintervall på 0 till 5 sek. Bomavstånd ska kunna beräknas mot valfri referenspunkt inom eller i anslutning till målvolymen. Koordinater ska sparas och senare kunna presenteras i ett sammanställt rapportformulär som innehåller alla koordinater, grafisk beskrivning av alla träffar, presentation av medelvärde, spridning och RMS. Resultat ska kunna exporteras till Excel. CAMPOS ska kunna användas utomhus på en geografisk obunden plats. CAMPOS ska kunna användas av en enda person och vara bärbart. 4
För att skydda användaren så ska CAMPOS ställas upp så att användaren antingen befinner sig på skyddad plats t.ex. i en bunker eller på ett tillräckligt stort avstånd till målområdet. Avstånd till målområdet ska följa de militära skyddsbestämmelserna. Skydd av utrustningen kommer att ske i förhållande till utrustningens värde och utan att försämra positionsbestämningens noggrannhet. 2.4 Fördelar med CAMPOS Med CAMPOS ska användaren kunna verifiera en granats exakta punkt vid nedslag på marken eller brisad i luften. Detta ska kunna ske i realtid utan manuell inmätning. Eftersom positionsbestämningen ska ske i realtid kommer CAMPOS att möjliggöra ett större antal inmätta testskjutningar per dag än vad som är möjligt med manuell inmätning. CAMPOS kan spela in och spara flera nedslag/luftbrisader och sedan utföra statistiska analyser av deras nedslags/brisadpunkter. Manuell efterbearbetning och korrektion är möjlig. All logik finns färdig i programvaran för de beräkningar som behövs utföras. Inga manuella beräkningar krävs. Kräver mindre personal för inmätning det räcker med en operatör. 2.5 Nackdelar/begränsningar hos CAMPOS Eftersom CAMPOS använder sig av visuell positionsbestämningsteknik blir systemet begränsat till att användas när sikten är god, d.v.s. ej i nattetid, vid dimma, i skog o.s.v. Systemet kan få problem med brus från motljus, vågor m.m. Detta kan medföra att filmerna blir svåra/omöjliga att analysera. Eftersom kameror och dataöverföringsutrustning (hubbar, kablage m.m.) måste befinna sig nära målområdet riskerar de att bli träffade av splitter o.s.v. Detta innebär att man måste ha reservdelar tillgängliga. 5
6
3 Realiserbarhetsanalys 3.1 Inledning Det här kapitlet beskriver problemställningen kring systemet CAMPOS och tar upp metoder och tillvägagångssätt för implementation av systemet. Prioritet har lagts på att beskriva hur pass realiserbart ett sådant system är där metoder och prestandauppgifter beskrivs översiktligt med en praktisk, snarare än en teoretisk förhållning till problemet. De delar som behandlas här är de delar i systemet som identifierats som huvudfunktioner i systemet, d.v.s. kalibrering, triangulering, detektering och överföring. I kapitel 3.2 Triangulering beskrivs vilken påverkan som antalet kameror, kamerornas bildupplösning och hur uppställningen av kameror i förhållande till målvolymen har på trianguleringen. I kapitel 3.3 Kamerakalibrering beskrivs tillvägagångssätt för olika kalibreringsmetoder och deras problem och eventuella lösningar. I kapitel 3.4 Bildanalys beskrivs några problem och tillvägagångssätt vid detektering av nedslag i filmsekvenser. Detektering att ett nedslag skett i bilden och detektering var ett nedslag skett i bilden beskrivs som två separata problem. I kapitel 3.5 Insamling mätdata kommer de komponenter som behövs för att överföra bilder av målvolymen till operatören att beskrivas. För den hårdvara som behövs (kameror, överföringsmedium och bärbar dator) beskrivs de viktigaste egenskaperna och vilka krav som kommer att ställas på dem. En hårdvaruundersökning av olika kameratyper och överföringsmedium samt en kort beskrivning av krav och alternativ på mjukvara redovisas. 3.2 Triangulering 3.2.1 Kamerornas antal och inbördes vinkel För att utföra positionsbestämning krävs minst två kameror men det finns ingen teoretisk övre begränsning på antalet kameror som kan användas. Fler kameror ger en högre noggrannhet i positionsbestämningen men till en kostnad av följande: mera komplicerad uppställning, fler kameror som ska kalibreras, längre beräkningstid vid kalibrering, längre beräkningstid vid positionsbestämning, större mängd data som skickas till datorn och ska behandlas i realtid, dyrare system (kablage och övrig hårdvara utöver kamerorna) och större risk för att systemet ska haverera p.g.a. splitter. Noggrannheten måste utvärderas praktiskt och ställas mot de resurser i fråga om pengar, bandbredd, beräkningskapacitet som finns tillgängligt. Vinkeln mellan kamerorna har stor inverkan på noggrannheten vid positionsbestämningen. För det här systemet finns endast möjligheten att ställa alla kameror i markplan och därför övervägs ej uppställningar där kamerorna 7
t.ex. befinner sig ovanför eller under målområdet. För bästa resultat ska de tillgängliga kamerorna filma ur sådana vinklar som tillför så mycket ny ickeredundant information som möjligt. Detta innebär att fler än två kameror ska placeras i en vinkel av (360/antal kameror) grader runt målområdet. För två kameror är dock den optimala vinkeln 90 grader. Exempelvis så får två kameror som står näst intill mitt emot varandra i 180 grader väldigt hög noggrannhet i höjd- och sidled men dålig noggrannhet i djupled. Sett ur samma perspektiv får två kameror som står i 90 graders vinkel mot varandra mycket bättre resultat i djupled och lite sämre i sidled (eftersom djupled för den ena kameran motsvarar sidled för den andra). Den bättre noggrannheten som fås i djupled väger upp den lilla försämring som fås i sidled och en vinkelrät uppställning är att föredra då kraven på noggrannhet är lika stor i alla led. Figur 2. Kamerornas inbördes vinkel till varandra och dess inverkan på noggrannheten vid positionsbestämning. Den positionsbestämda punkten ligger i korsningen mellan de heldragna strålarna. Osäkerheten visas som streckade linjer kring den heldragna strålen. Det område som dessa strålknippen bildar gemensamt ett parallellogram vid korsningen av strålarna ger en bild av osäkerheten i positionsbestämningen av punkterna. (Bilden är hämtad från Hartley, Zisserman [9]). Kameror som är placerade nästintill parallellt med varandra används framförallt i system med mindre noggrannhetskrav eller har begränsade utrymmesmöjligheter som t.ex. robotar. Sådana system kan använda sig av andra hjälpmedel som t.ex. laser för att kompensera för noggrannhetsförlusten i djupled. Men i ett positionsbestämningssystem som CAMPOS finns det ingen anledning att inte utnyttja så mycket av området som möjligt. Det har förstås påverkan på hanterbarheten hos systemet och kostnaden för ev. extra utrustning såsom kablage. Systemet är dock flexibelt i den meningen att kamerornas inbördes vinkel enbart har betydelse för noggrannheten men inte för funktionaliteten i övrigt. Det kan finnas yttre omständigheter som gör att en uppställning med två kameror i 90 grader mot varandra är omöjlig, t.ex. vid skjutning över vatten eller p.g.a. skymmande objekt i naturen varvid det är möjligt att placera kamerorna på ett annat sätt men till en kostnad av mindre noggrannhet. Den fysiska uppställningen av kamerorna med avseende på antal och vinkel påverkar alltså hur den förväntade noggrannheten vid positionsbestämningen förändras beroende på position i målområdet. Detta illustreras för ett exempel på två och fyra kameror i figur 3 nedan. Observera att detta inte är någon exakt illustration utan snarare en bild av den noggrannhet som enbart beror av kamerornas antal och vinkel. Den slutliga totala noggrannheten bestäms av ytterligare ett flertal andra faktorer som: kamerornas optik, upplösning och frame rate; noggrannhet vid kalibrering; var i målvolymen nedslag sker; noggrannhet vid detektion av punkt för nedslag i bilden, etc. 8
Figur 3. (Vänster bild) Ungefärlig bild av noggrannheten för två kameror sett uppifrån i målområdet. Kamerorna är markerade som pilar. Svarta områden representerar hög noggrannhet och gråa representerar mindre noggrannhet. Högst noggrannhet fås i områden som filmas av alla kameror och är nära kamerorna. För fyra kameror (höger bild) fås högst noggrannhet i centrum av målområdet. Observera att detta bara är ungefärliga illustrationer av hur noggrannheten förändras beroende på plats i målområdet. 3.2.2 Målområdets storlek, bildupplösning och kamerornas avstånd till målområdet För bästa möjliga resultat vid kalibrering och positionsbestämning bör kameror med mycket bra optik och hög upplösning användas. Men det finns en gräns för vad som kan nyttjas för detta användningsområde, speciellt med tanke på risken för splitter och kostnaden för sådan precisionsutrustning. Figur 4. Till vänster visas en kamera (markerad som en pil) som filmar in mot målområdet (den streckmarkerade kuben). Den snedstreckade sidan på målvolymen är den bortre sidan sett från kameran. Motsvarande bild i kameran visas till höger. Notera att det synliga målområdet inte fyller ut bilden helt och hållet p.g.a. att sidan är kvadratisk till skillnad från bildytan. Många filmformat är inte kvadratiska, d.v.s. de ger inte liksidiga bilder i höjd- och sidled vilket inte korrelerar bra med målområdets kvadratiska form. Detta får till effekt att en del av den tillgängliga bildupplösningen går till spillo (se figur 4 ovan). Antag att hela den främre sidan av målområdet visas så mycket det går i en bild med en upplösning på 720 576 pixlar och ett målområde på 100 x 100 x 100 m. Det ger 576 pixlar till förfogande i både höjd- och sidled och en maximal upplösning på 0,17136 m/pixel i framsidan av målområdet för varje kamera i både höjd- och sidled. Detta ger ett ungefärligt mått på begränsningar för olika bildupplösningar och 9
ger en bild av vilka krav som ställs på att den automatiska och den manuella detekteringen av korrekt punkt i bilden för nedslag/luftbrisad. För att ligga under ett fel på maximalt 2 m måste bildkoordinaten bestämmas till ett fel på maximalt 11,520 pixlar och för ett fel på maximalt 0,1 m gäller ett maximalt fel på 0,57600 pixlar. Till detta fel i detekteringen tillkommer som tidigare sagts även felet i modellanpassningen av kameraparametrarna och linsdistorsionen respektive osäkerheten i trianguleringen varför dessa mått är osannolikt optimistiska då de förutom detta även grundar sig på antagandet att målområdet och kamerabilden matchar varandra exakt. En noggrannhet i bestämningen av korrekt bildkoordinat under pixelnivå är teoretiskt möjlig om detekteringen kan utföra någon slags tyngdpunktsberäkning för att komma fram till rätt punkt, vilket är möjligt under de bästa förutsättningar. Manuell detektering kan underlättas av en digital uppförstorning av bilden och automatisk detektering kan beräkna nedslags-/brisadpunkten m.h.a. tyngdpunktsberäkning på det rökmoln som uppkommer. Förutsättningarna för detektionen ändras mellan olika skjutningar och uppställningar och bestäms av ett flertal faktorer. Ljusförhållanden ändras, rökmolnets form är oförutsägbart och beror av typ av ammunition (storlek, skarp vs barlastad, luft vs nedslag, vind, marktyp), terrängen kan vara kuperad och innehålla objekt i naturen som sten och träd som kan skymma delar av rökmoln och nedslagsplats. Dessa faktorer påverkar förmågan att detektera rätt nedslags-/brisadpunkt i bilden. En genomsnittlig noggrannhet under pixelnivå är ej trolig och det är alltså inte troligt att komma under ett fel på 0,57600 pixel vare sig automatisk eller manuell detektering används. I figur 4 illustreras följden av att ha skild geometrisk form på målområdets sidor och filmformatet vilket i praktiken begränsar en upplösning på exempelvis 720 576 pixlar till att endast utnyttja 576 pixlar i både höjdoch sidled. Detta kan undvikas genom att specificera målområdet till samma höjd-/sidoförhållande som det filmformat som används. Med en upplösning om 720 576 och med ett målområde på 100 m i sidled fås en höjd om 80 m. Hela bilden används vilket ger en upplösning om 0,13888 m/pixel i alla riktningar till skillnad från tidigare 0,17136 m/pixel. En annan konsekvens av att ha skiljd geometrisk form på målområdet och bildformatet är att det blir svårare att ställa upp systemet så att hela höjden av målområdet är synligt för kamerorna. Men om sidorna för målområdet är angivna kan markeringar göras i bilden som anger inom vilka gränser i bilden dessa yttre markeringar ska ligga. 100 m 100 m 100 m Figur 5. Exempel på kamerauppställning sett uppifrån. Målområdet markeras som den streckade kvadraten och kameran som den svarta cirkeln med dess synfält markerad som två streck som tangerar målområdets två nedre hörn. Kameran befinner sig på ett avstånd av 100 m ifrån den främre sidan av målområdet och 200 m ifrån den bakre. Upplösningen är 200/100 = 2 gånger sämre i den bakre sidan jämfört med den främre givet att så mycket som möjligt av den främre sidan filmas av kameran. Om det främre antas fylla ut bilden helt och hållet så bestäms upplösningen i det bakre området av kvoten mellan avståndet till den bakre sidan och avståndet till den främre sidan sett från kameran (se figur 5 nedan). Med 10
samma uppställning som exemplet ovan och ett avstånd av 100 m till den främre sidan och 200 m till den bakre sidan fås 200/100 * 0,17136 = 0,34722 m/pixel. Om kamerorna placeras långt ifrån målområdet kan skillnaden i upplösning mellan främre delen av målområdet och bakre delen minimeras förutsatt att den främre sidan fyller ut kamerabilden helt och hållet. Med ett avstånd på 500 m till framkanten fås en maximal upplösning för föregående exempel om 6/5*0,17136 = 0,20833 m/pixel. Förutom att skillnaden i upplösning inom målområdet utjämnas ges också fördelen av att utrustningen utsätter sig för mindre risk för skador ifrån splitter i och med att de befinner sig på ett längre avstånd ifrån centrum av riskområdet. Men systemet blir känsligare för förändringar i kamerornas orientering, d.v.s. en ev. förändring av kamerornas orientering får större negativ effekt på ett längre avstånd än ett kortare eftersom det inför en större grad av misstämmelse mellan de kalibrerade parametrarna jämfört med samma påverkan på kameror som är placerade närmare målområdet. Utöver detta så inför användningen av mycket zoom även en högre grad av linsdistorsion. Det är tydligt att positionsbestämningen påverkas direkt av upplösning men det finns en risk att den även påverkas indirekt p.g.a. sämre anpassade parametrar i kalibreringsskedet då kalibreringen även påverkas av en lägre bildupplösning. Det kan leda till att parametrarna blir sämre anpassade respektive att det blir svårare att detektera korrekt bildkoordinat på en bild med lägre upplösning än motsvarande högupplöst bild. Frågan är hur mycket påverkan en skillnad i upplösning ger. Det finns även en gräns när kostnaden för att gå upp i upplösning blir för dyrt i fråga om bandbredd, beräkningshastighet och pris. För detta måste praktiska undersökningar göras. 3.3 Kamerakalibrering Kameracentrum C Y X. Objekt Avbildat Objekt. Z Y Bildplan Principalpunkt Bildplan C Fokallängd Z Figur 6. (Vänster) Avbildning av ett objekt på kamerans bildplan. Bildkoordinater bestäms ur skärningen mellan bildplanet och linjen mellan världskoordinaten och kameracentrum. (Höger) Motsvarande sett rakt från sidan med x-axeln pekandes rakt in mot pappret fokallängden bestäms av avståndet mellan kameracentrum och principalpunkten. Den matematiska modell som används för att beskriva en projektiv kamera baseras på den klassiska pinnhålskameran. Modellen bygger på centralprojektion av punkter i rummet till ett bildplan som ligger mellan kameracentrum och de avbildade punkterna (se figur 6 ovan) till skillnad från verkligheten där ljusstrålarna bryts via linsen och projiceras mot ett kameracentrum mellan linsen och bildplanet. Detta resulterar i en modell som är 11
mycket lätt att räkna på då den enbart beskriver det linjära förhållandet mellan världskoordinater och bildkoordinater. Den ignorerar den mellanliggande linsen helt och hållet och resulterar ej i en upp och nedvänd avbildning. Modellen delas upp i externa och interna kameraparametrar. De externa parametrarna beror av kamerans position och orientering i rummet i förhållande till ett valt koordinatsystem och de interna parametrarna beror av kamerans interna egenskaper och inställningar. De externa parametrarna består av tre st. vinklar för orientering och tre st. parametrar (x, y och z) för kameracentrum. De interna parametrarna består av: principalpunkt motsvarande punkt i bildplanet för linsens centrum, fokallängd avstånd mellan principalpunkt och kameracentrum, skalfel ickekvadratiska pixlar i CCD-elementet (d.v.s. skillnad i skala i x- och y-led), skevhet ev. snedvinklighet mellan bildplanets axlar. Tillsammans beskriver dessa interna och externa kameraparametrar en linjär avbildning mellan bildkoordinater och världskoordinater. Kameramodellen avbildar punkter i rymden till punkter i bildplanet och tvärtom från punkter i bilden till strålar i rymden. Pinnhålskameramodellen förutsätter ett linjärt förhållande mellan punkter i världen och punkter i bildplanet, d.v.s. att världskoordinater, bildkoordinater och kameracentrum är kolinjära. I vanliga optiska kameror förstörs kollineariteten mellan ingående och utgående ljusstrålar vid linsbrytningen och resulterar i ett fenomen som kallas för linsdistorsion. Den tydligaste effekten av detta är krökning av raka linjer. Linsdistorsion kan beskrivas på flera sätt. Radiell linsdistorsion är en funktion av avståndet till ett distorsionscentrum och medför att punkter förskjuts från centrum vid positiv radiell distorsion och förskjuts in mot centrum vid negativ radiell distorsion. Effekten uppstår på grund av att strålarna bryts olika mycket i centrum av linsen och i utkanten av linsen och är en oundviklig egenskap som alltid finns p.g.a. linsens form. Dess omfattning kan dock minimeras med varsam design. Tangentiell linsdistorsion innebär en förskjutning av en punkt i bilden orsakad av att komponenterna i linsen ej är korrekt sammansatta. Vidvinkelkameror och kameror med billiga linser kan uppvisa stor linsdistorsion men linsdistorsionen påverkas även av fokalavståndet, där kortare fokalavstånd medför ökad linsdistorsion och vice versa. I moderna flygfotokameror är linsdistorsionen liten, i en del fall försumbar [24]. I vanliga s.k. konsumentkameror är ofta den radiella linsdistorsionen avsevärt mycket större än i flygfotokameror. Undersökningar har visat att den tangentiella delen av linsdistorsionen ofta är försumbar i jämförelse med den radiella linsdistorsionen [24]. Valfritt antal parametrar kan användas för att beskriva radiell linsdistorsion men fler än 3 är inte bara onödigt men kan även tillföra större fel i beräkningen p.g.a. överparametrisering. Normalt sett används upp mot 2-3 men vad som är lämpligt måste testas praktiskt. Kamerakalibrering består i att bestämma kamerans interna och externa parametrar och graden av linsdistorsion. Det är en nödvändig och avgörande del för att få god noggrannhet när metrisk information ur bilder ska erhållas. Det är värt att nämna att ibland räknas linsdistorsion som en intern parameter men det görs inte i det här dokumentet. Kamerakalibrering finns utförligt beskriven inom fotogrammetri och datorseende [1, 2, 9, 17, 24]. Den vanliga definitionen av kamerakalibrering inom fotogrammetri brukar vara vad som i det här dokumentet kallas för intern kamerakalibrering. För att inga missförstånd ska uppstå så används därför uttrycken extern respektive intern kamerakalibrering för kalibrering av externa respektive interna kameraparametrar. Uttrycket kalibrering kan förekomma där missförstånd ej anses kunna uppstå, d.v.s. det har i sammanhanget kungjorts att det exempelvis är intern kamerakalibrering som diskuteras. Kalibrering påbörjas när kamerorna har ställts upp. En mängd tillvägagångssätt för detta finns tillgängliga och två skiljda metoder beskrivs senare. Oavsett vilken metod för kalibrering som används krävs det att information om kända världskoordinater tillförs utifrån med hög noggrannhet (GPS, teodolit, eller liknande) för att kamerornas koordinatsystem ska överensstämma med världskoordinatsystemet, där världskoordinatsystemet 12
definieras som det koordinatsystem som används vid skjutningarna till skillnad från kamerornas individuella koordinatsystem. Efter slutförd kalibrering av samtliga kameror på plats får ej deras placering och orientering respektive zoom och fokus ändras. Om någon av dessa parametrar ändras måste kamerorna kalibreras om. Någon form av automatisk bildbehandling kommer att krävas vid kalibreringen för att få bildkoordinater ur kalibreringsobjektet. Detta beskrivs vidare i kapitel 3.4 Bildanalys. 3.3.1 Kalibrering med hjälp av 2D- till 3D-punktkorrespondenser Med hjälp av världskoordinaterna för en mängd referenspunkter och motsvarande bildkoordinater kan en kameras interna och externa parametrar respektive linsdistorsion beräknas [9, 12]. Beräkningen av interna och externa kameraparametrar kan utföras på olika sätt. Direkta metoder såsom DLT (direct linear transform) beräknar parametrarna i ett steg men tar ej hänsyn till linsdistorsion. Iterativa metoder som utför en minstakvadrat-anpassning av parametrarna ger en lösning med högre noggrannhet och kan ta hänsyn till linsdistorsion. Dessa iterativa metoder kräver mer beräkningskraft, har en högre känslighet för störda indata vilket ger svårighet att ange tillräckligt bra startapproximationer, riskerar att ej konvergera mot ett globalt minimum och kräver att goda stoppkriterier anges [9]. Genom att kombinera DLT-algoritmen med någon vanlig ickelinjär optimeringsmetod såsom Levenberg-Marquardt [19] och använda lösningen från DLT-algoritmen som startapproximation till den ickelinjära optimeringen undviks problemet med att välja bra startvärden. Minst 5½ punktkorrespondenser krävs men fler punktkorrespondenser ger noggrannare lösning. Hartley och Zisserman [9] rekommenderar minst 28 punktkorrespondenser men upp mot ett hundratal punkter är vanligt till en bekostnad av beräkningshastighet. Dessa punktkorrespondenser kan fås på två olika sätt: antingen genom avbildningar av ett speciellt utformat kalibreringsobjekt rymmandes en mängd kända referenspunkter eller genom ett flertal avbildningar av ett homogent objekt (endast en referenspunkt) på olika kända placeringar i världskoordinatsystemet. 3.3.1.1 Kalibrering med ett homogent kalibreringsobjekt Alla kameror filmar ett gemensamt, homogent kalibreringsobjekt som syns för alla kameror samtidigt. Objektet filmas i olika positioner i målområdet där för varje position dess världskoordinat också bestäms med hjälp av ett annat instrument såsom GPS med hög noggrannhet. Detta utförs på så många olika positioner inom målområdet som är möjligt för att få tillräckligt många punktkorrespondenser. Kalibreringsobjektet är synligt för alla kameror samtidigt och ska vara lätt att detektera. En tillräckligt stor sfär som alla kameror kan utföra tyngdpunktsberäkningar på är ett lämpligt objekt för den här uppgiften [18, 25]. Det finns dock ett par stora nackdelar med den här ansatsen: Resultatet av kalibreringen blir lidande ifall positionerna för kalibreringsobjektet inte är spridda runt hela kamerans synfält, vilket är svårt om inte nästintill omöjligt att göra för en målvolym om 100 m i höjdled (se figur 7 nedan). Punkterna kommer att vara väl spridda på marknivå och när alla punkter ligger i ett plan kan det leda till dåligt anpassade parametrar eftersom kameramodellen bestäms av punkter från en liten delmängd av bilden. Positionsbestämning på andra områden i bilden såsom luftbrisader blir speciellt lidande av detta. Vid varje kalibreringsposition tar alla kameror en bild vilket antingen kräver en yttre kontrollsignal eller att kamerorna är synkroniserade. 13
Figur 7. (Vänster bild) Kalibrering i ett målområde om 100 x 100 x 100 m. Pilarna representerar två kameror, kuben visar på målområdet och prickarna representerar positioner för kalibreringsobjektet. Om varje sida i målområdet som pekar mot kamerorna antas fylla ut bilden helt och hållet kommer punkterna att ligga längst ner i bildkanten för en kamera (höger bild) vilket ger dåligt resultat vid kalibreringen. För varje position måste ett annat positionsbestämningssystem användas (t.ex. GPS) för att bestämma dess världskoordinater. Det kan vara väldigt tidskrävande och komplicerat även för det minsta fallet med endast ca 30 punktkorrespondenser. Alla världskoordinater måste överföras till datorn. Risken för felaktiga korrespondenser existerar då både rätt yttre världskoordinat måste bestämmas och införas i beräkningen och även motsvarande bildruta (för att få exakt motsvarande bildkoordinat) till detta måste användas. 3.3.1.2 Kalibrering med kalibreringsmönster Figur 8. (Vänster bild) Kalibreringsmetod 2. Varje kamera (markerad som en pil) kalibreras individuellt mot ett speciellt utformat, plant kalibreringsobjekt med ett på förhand känt kalibreringsmönster med noggrant kända världskoordinater (minst 30 st., endast 9 visas här för att förenkla illustrationen). Kalibreringsobjektet avbildas så att så mycket som möjligt av dess mönster ligger utspritt på bildens yta (höger bild). Genom att utföra kalibreringen individuellt för varje kamera på ett stillastående kalibreringsobjekt som fyller upp hela kamerans synfält kan problemet med dålig spridning av punktkorrespondenser undvikas (se figur 8). Kalibreringsobjektet består av ett lättdetekterat mönster av referenspunkter vars inbördes position relativt ett valt origo i objektet är känt på förhand. Bildkoordinater för referenspunkterna kan extraheras ur en avbildning av objektet och eftersom motsvarande världskoordinater är kända kan en kameramodell som avbildar världskoordinater till bildkoordinater beräknas. 14