Januar 22 ISSN 65-942 Metodrapport Tomas Hallberg En kort ntrodukton tll prncpalkomponenttransformaton och kanonsk dskrmnantanalys av multspektrala data x 2 σ A σ W σ W2 x Sensorteknk Box 65 58 Lnköpng
TOTALFÖRSVARETS FORSKNINGSINSTITUT Sensorteknk Box 65 58 Lnköpng FOI-R--382--SE Januar 22 ISSN 65-942 Metodrapport Tomas Hallberg En kort ntrodukton tll prncpalkomponenttransformaton och kanonsk dskrmnantanalys av multspektrala data
Utgvare Rapportnummer, ISRN Klassfcerng Totalförsvarets Forsknngsnsttut - FOI FOI-R--382--SE Metodrapport Sensorteknk Box 65 58 Lnköpng Forsknngsområde 4. Spanng och lednng Månad, år Projektnummer Januar 22 E336 Verksamhetsgren. Forsknng för regerngens behov Delområde 42. Spanngssensorer Författare/redaktör Tomas Hallberg Projektledare Ingmar Renhorn Godkänd av Rapportens ttel Uppdragsgvare/kundbetecknng Försvarsmakten Teknskt och/eller vetenskaplgt ansvarg Tomas Hallberg En kort ntrodukton tll prncpalkomponenttransformaton och kanonsk dskrmnantanalys av multspektrala data Sammanfattnng (högst 2 ord) Denna rapport ger en överskt över två algortmer för multspektral dataanalys: prncpalkomponent-transformen (PC-transform) och den kanonska dskrmnantanalysen (KDanalys). Algortmerna används fltgt nom multspektral och hyperspektral fjärranalys för klassfcerng och dentferng av olka objekt, oftast olka typer av grödor, vegetatoner och mneraler. Båda algortmerna tar fram en uppsättnng egenvektorer eller flterfunktoner som nkluderar de delar av den spektrala karaktärstken som behövs för optmal klassfcerng men exkluderar redundanta data. Medan PC-transformen behandlar de olka spektralklasserna globalt utan hänsyn tll ensklda spektralklassers karaktärstk, maxmerar KD-analysen kvoten mellan varansen mellan klasser och varansen nom klasser, vlket optmerar klasseparatonen. Nyckelord Prncpalkomponenttransform, kanonsk dskrmnantanalys, multspektral, vektorrum Övrga bblografska uppgfter Språk Svenska ISSN 65-942 Antal sdor: 2 s. Dstrbuton enlgt mssv Prs: Enlgt prslsta
Issung organzaton Report number, ISRN Report type FOI Swedsh Defence Research Agency FOI-R--382--SE Methodology report Sensor Technology P.O. Box 65 SE-58 Lnköpng Research area code 4. C 4 ISR Month year Project no. January 22 Customers code E336. Polcy Support to the Government Sub area code 42. Survellance sensors Author/s (edtor/s) Tomas Hallberg Project manager Ingmar Renhorn Approved by Report ttle (In translaton) Sponsorng agency Swedsh Armed Forces Scentfcally and techncally responsble Tomas Hallberg A short ntroducton to the prncpal components transformaton and the canoncal dscrmnant analyss of multspectral data Abstract (not more than 2 words) Ths report revews shortly two dfferent algorthms for multspectral data analyss: the prncpal components transform (PC transform) and the kanoncal dscrmnant analyss (KD analyss). These algorthms are wdely used n multspectral and hyperspectral remote sensng for classfcaton and dentfcaton of dfferent objects, e.g. dfferent types of crops, vegetaton and mnerals. Both the algorthms fnd a set of egenvectors or flter functons whch nclude the spectral features whch are necessary for optmal classfcaton but exclude redundant spectral data. Whle the PC transform treats the dfferent spectral classes globally wthout concern to class structure n the data the KD analyss wll maxmze the rato between the among-class varance and the wthn-class varance, by whch class separaton s optmzed. Keywords Prncpal components transform, canoncal dscrmnant analyss, multspectral, vector space Further bblographc nformaton Language Swedsh ISSN 65-942 Pages 2 p. Prce acc. to prcelst
INNEHÅLLSFÖRTECKNING SID. Inlednng 5 2. Prncpalkomponenttransformaton 5 3. Kanonsk dskrmnantanalys 8 4. Exempel, 3 klasser av syntetska spektra 5. Referenser 2
. Inlednng Denna rapport ämnar ge en kort ntrodukton tll två olka algortmer för transformaton av multspektrala data; prncpalkomponenttransformaton (PC-transformaton) och kanonsk dskrmnantanalys (KD-analys) [-4]. Dessa metoder förekommer ofta nom mult- och hyperspektral fjärranalys av blddata, framförallt för att kunna välja ut de vktgaste delarna av spektraldata med optmal klassfcerng, vlket även kan ses som en typ av datakomprmerng för att ta bort redundanta data. Vd multspektral fjärranalys används ett total spektralband medan upp tll några hundra kan förekomma vd hyperspektral fjärranalys. Intenstetsvärdet för en vss pxel en bld nom ett vsst spektralt ntervall eller band kan beskrvas av ett vektorvärde ett vektorrum. Detta vektorrum har lka många axlar eller dmensoner som det fnns spektrala komponenter eller band för varje pxel. Matematskt fnns prncp ngen gräns för antalet dmensoner man kan hantera, medan dock t. ex. transmssonslänken mellan en fjärranalys-satellt och dess mottagarcentral på jorden har en begränsad bandbredd, eller hårddskutrymmet som data lagras på är begränsat. Om man vll presentera data vsuellt är v begränsade tll maxmalt tre dmensoner. Sålunda fnns det flera skäl tll att komprmera spektraldata. För tllämpnngen denna rapport är huvudsyftet att utfrån en större spektral dmenson välja ett fåtal spektralband som bäst representerar eller klassfcerar ett vsst objekts spektrala sgnatur. Dessa utvalda spektralband kan för en sensor realseras ett antal olka optska flter. 2. Prncpalkomponenttransformaton PC-transformen är även känd som Hotellng-, Karhunen-Loève- och egenvektor-transform. Den är grunden en statstsk analys av blddata där specellt varans och korrelaton av data analyseras. Prncpalkomponenterna för en stokastsk multvarerande varabel är baserade på en lnjär transformaton vlken ger cke-korrelerade varabler med successvt mnskande varans. Transformatonen av data sker lnjärt va rotaton vektorrummet (eller feature space) va en ny uppsättnng ortogonala basvektorer, d.v.s. prncpalkomponenterna. Sålunda reduceras dmensonen av vektorrummet genom att framhäva spektralkomponenter med störst vkt. De med mnst vkt (redundanta data) kan tas bort, samtdgt som felet mnmeras. Betrakta en multspektral bldkub med N pxlar, med den spektrala vektorn x utmed den 3:e dmensonen fgur. Den spektrala dmensonen för x är här lka med k. I ett 2-D vektorrum kan spektralvektorerna llustreras som fgur 2. x x 2 x N x x x = x x 2 3 k Fgur. En multspektral bldkub med spektrala komponenter x. 5
Fgur 2. Ett tvådmensonellt vektorrum med ndvduella pxelvektorer och medelvektorn m. Medelvektorn m beräknas genom m = N N x = () För att få ett mått på sprdnngen av data vektorrummet beräknas kovaransmatrsen, S x S N T x = ( x m)( x m) N - = (2) Dagonalelementen S x är varansen av data (per spektralband) medan övrga element matrsen beskrver korrelatonen av data, där höga värden betyder stor korrelaton medan låga värden betyder lten korrelaton. Jämför här med elementen ρ j korrelatonsmatrsen ρ = j υ υ j υ jj (3) där ν j är element kovaransmatrsen, ν och ν jj är varansen av :te respektve j:te spektralbandens data. Sålunda beskrver ρ j korrelatonenmellanbandochbandj. Idén är nu att transformera data från ett vektorrum med en vss korrelatonsgrad tll ett annat med så låg korrelaton som möjlgt. Detta reducerar antalet nödvändga dmensoner. Transformera från vektorrummet x tll vektorrummet y med operatorn Φ enlgt y=φ Τ x där Φ är en matrs med egenvektorer φ tll S x egenvärdesproblem skall lösas, Φ Λ = WS x Φ (4) med egenvärden λ matrsen Λ. Följande (5) där W som är en dagonalmatrs med vktkoeffcenter eventuellt måste nkluderas för att nolla områden spektra där atmosfären absorberar kraftgt (denna nollnng kan dock göras drekt spektrumet). I Matlab löser man egenvärdesproblemet enkelt genom kommandot eg eller egs 6
([Φ, Λ ]=eg(ws x ) eller [Φ, Λ ]=egs(ws x,n)), där n anger antalet önskade egenvektorer och egenvärden). Prncpalaxlarna rangordnas efter storlek på egenvektorernas egenvärden, så att den första prncpalaxeln vlken motsvaras av den första egenvektorn, har det största egenvärdet, o.s.v. Transformen resulterar att data (d.v.s. φ x) utmed den :a prncpalaxeln (y ) uppvsar störst varans, vlken successvt mnskar för varje lägre rangordnad prncpalaxel. I det nya vektorrummet y är data ej korrelerade förhållande tll prncpalaxlarna. Detta kan vsas genom att för kovaransmatrsen S y för det nya rummet är elementen utanför dagonalen lka med noll, d.v.s. S y λ = λ 2 λ k där dagonalelementen λ är egenvärden för S x. Fgur 3 vsar att spektralvektorerna det nya vektorrummet nte är korrelerade och att varansen för datamängden är störst utmed den första prncpalaxeln. x 2 y-vektorrummet y y 2 x x-vektorrummet Fgur 3. Illustraton av ett modferat koordnatsystem y vlket pxelvektorerna har ckekorrelerade komponenter. Det medelkvadratska felet R mellan x och y ges av R = N = λ K = λ = N λ = K + (6) vd valet av K basfunktoner av maxmalt N stycken och med egenvärdena λ arrangerade avtagande storleksordnng. V konstaterar således att om K=N så är felet lka med noll. Felet mnmeras genom att välja egenvektorer assocerade med de största egenvärdena. I fgur 4 llustreras som exempel några olka egenvektorer rangordnade efter assocerat egenvärde avtagande storleksordnng. Några olka tolknngstps gällande egenvektorerna kan här nämnas [3,4]. Vktg nformaton fnns spektrum där värdet för egenvektorn avvker sgnfkant från noll. Vdare kan nollgenomgångarna för egenvektorerna ofta vara bandkanter. Fgur 4 vsar även det faktum att den första egenvektorn nnehåller lågupplöst spektral nformaton medan senare egenvektorer nnehåller allt mer högupplöst nformaton. 7
Egenvektor Egenvektor 2 Våglängd (godtycklg skala) Våglängd (godtycklg skala) Egenvektor 3 Egenvektor 4 Våglängd (godtycklg skala) Våglängd (godtycklg skala) Fgur 4. Exempel på egenvektorer rangordnade storleksordnng efter assocerat egenvärde. 3. Kanonsk dskrmnantanalys Nackdelen med PC-transformen är dock att kovaransmatrsen S x är global, d.v.s. oberoende av ndvduella spektralklasser. Den kanonska dskrmnantanalysmetoden optmerar klasseparatonen [5], vlket llustreras fgur 5. x 2 a y 2 y x 2 b σ A σ W2 σ W x x Fgur 5. Ett hypotetskt 2-D vektorrum med två klasser som nte är separerade varken de ursprunglga spektralbanden eller någon av prncpalaxlarna enlgt fgur a medan fgur b vsar en axel erhållen från den kanonska analysmetoden utmed vlken klasserna är separerade. I KD-analysen opmeras varansen som råder mellan klasserna tllsammans med den som råder nom klasserna på så sätt att följande kvot maxmeras 8
σ σ 2 A = 2 W varans mellan klasser varans nom klasser FOI-R--382--SE (7) Följande två kovaransmatrser beräknas, S w för nom klasser (N ) L SW = S = N s (8) med L som antalet klasser, N antalet spektra klass, N s är det totala antalet spektra nklusve samtlga klasser och S är kovaransmatrsen för klass, och S A för mellan klasser, S L T A = ( m m )( m m ) L = (9) m L N = N = s m () där m är medelvektorn för klass och m är den globala medelvektorn. Maxmal klasseparerng fås nu genom att maxmera kvoten λ = σ σ 2 A 2 W = d d T T S S A W d d () där d är optmal projektonsrktnng. Maxmerng fås genom λ = d (2) vlket kan reduceras tll ( S λs W ) d A = (3) eller mera generellt skrver v ( S Λ S W ) D A = (4) med Λ som en dagonalmatrs med egenvärdena λ och D en matrs med egenvektorer d. V söker nu lösnngen tll denna generalserade egenvärdesekvaton. Detta löses Matlab genom [D,Λ]=eg(S A,S W )förs A D=S W ΛD. Som ett ssta steg normalseras den kanonska karaktärstken förhållande tll S W D T S W D = I (5) som skapar en sfärsk fördelnng nom klasserna. Transformatonen som ger maxmal klasseparerng ett vektorrum y är således 9
y = D T x (6) vlken kallas för en kanonsk dskrmnantfunkton. Den första kanonska axeln eller den första kanonska dskrmnantfunktonen d (med det största egenvärdet), ger maxmal dskrmnerng mellan klasserna förhållande tll de andra kanonska axlarna. Dessa dskrmnantfunktoner är allmänhet nte ortogonala förhållande tll varandra. Vd beräknngen erhålles L- egenvektorer med egenvärden >. 4. Exempel, 3 klasser av syntetska spektra För att belysa skllnaden mellan PC- och KD-analysen exemplferas metoderna med tre olka klasser av syntetska spektra,med 2 spektra varje klass samplade nom 9 olka spektralband, enlgt fgur 6. Fgur 6. Spektra för de tre olka klasserna X, X2 och X3. Svart tjock lnje är medelspektrum för respektve klass. Egenvektorer och egenvärden beräknas för PC-analysen (genom ekv. (), (2) och (5)) och fgur 7a ges de tre egenvektorerna som har de största egenvärdena (6, 4 och 3). Erhållna egenvektorerna för KD-analysen (L- stycken) vsas fgur 7b (genom ekv. (), (2), (8)-(), (4) och (5)). Spektraldata transformeras för PC- och KD-analysen genom ekv. (4) respektve (5). Klassernas fördelnng det så erhållna vektorrummet med PC-analysen vsas 2-D och 3-D fgur 8 och v konstaterar att maxmal varans av data fås utmed den första prncpalaxeln. Resultatet av KDanalysen fgur 9 vsar att klasserna är tydlgare separerade och mera sfärskt fördelade jämfört med resultaten fgur 8.
a b Fgur 7. Egenvektorerna med de tre största egenvärdena för PC-transformen tllsammans med medelspektra för de tre klasserna vsas (a) medan (b) vsar de två erhållna egenvektorerna från KD-analysen. b a Fgur 8. Data transformerat med de av PC-analysen erhållna egenvektorerna φ, φ 2 och φ 3 plottat 2-D (a) och 3-D (b). Fgur 9. Data transformerat med de av KD-analysen erhållna egenvektorerna d och d 2.
5. Referenser Rchards, J.A., Ja, X, Remote Sensng Dgtal Image Analyss, An Introducton, 3:e upplagan, Sprnger-Verlag Berln Hedelberg New York, ISBN 3-54-6486-7, 999. 2 Schowengerdt, R.A., Remote Sensng, Models and Methods for Image Processng, 2:a upplagan, Academc Press, ISBN -2-62898-6, 997. 3 Chen, C-C.T, Landgrebe, D.A., A Spectral Feature Desgn System for the HIRIS/MODIS Era, IEEE transactons on geoscence and remote sensng, 27 (6) 68, 989. 4 Wersma, D.J., Landergebe, D.A., Analytcal Desgn of Multspectral Sensors, IEEE transactons on geoscence and remote sensng, GE-8 (2) 8, 98. 5 Fsher, R.A., The Utlzaton of Multple Measurements n Taxonomc Problems, Annals of Eugencs, 7, 79-88, 936. 2