Fjärranalys av skog med multivariata modeller

Relevanta dokument
Metodik för skattning av skogliga variabler

Metodik för skattning av skogliga variabler

Nationell skogliga skattningar från laserdata. Swedish University of Agricultural Sciences Forest Remote Sensing

Metodik för skattning av skogliga variabler

Laserskanning för bättre beslut i skogsbruket - nu eller i framtiden?

Skogliga grunddata. Produktkatalog för öppna geodata

Skogliga grunddata produktbeskrivning. Innehållsförteckning 1(5)

Skogliga grunddata. Produktkatalog för öppna geodata inom geodatasamverkan

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Prediktion av skogliga variabler med flygburen laserskanning

Vad kan fjärranalystekniken bidra med?

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Regressions- och Tidsserieanalys - F1

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Finansiell statistik. Multipel regression. 4 maj 2011

Skogliga skattningar med 3D data från flygbilder - Framtiden efter NNH

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Hur du laddar ner skogliga grunddata samt information om kartprodukterna

Skogliga grunddata produktbeskrivning

Laserskanning Nya möjligheter för skogsbruket. Swedish University of Agricultural Sciences Forest Remote Sensing

Laboration 4 R-versionen

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

MVE051/MSG Föreläsning 7

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 12: Regression

7.5 Experiment with a single factor having more than two levels

Distribution av skogliga grunddata. Swedish University of Agricultural Sciences Forest Remote Sensing

Linjär regressionsanalys. Wieland Wermke

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Regression med Genetiska Algoritmer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

SKOGLIGA TILLÄMPNINGAR

STATISTISK ANALYS AV KOMPLEXA DATA

Examinationsuppgifter del 2

Multipel Regressionsmodellen

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F7

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

MVE051/MSG Föreläsning 14

F3 Introduktion Stickprov

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

3 D data från optiska satelliter - Skogliga tillämpningar

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

InStat Exempel 4 Korrelation och Regression

TAMS65 - Seminarium 4 Regressionsanalys

Laboration 4 Regressionsanalys

F7 Polynomregression och Dummyvariabler

Lektionsanteckningar 11-12: Normalfördelningen

Grundläggande matematisk statistik

Skogliga grunddata samt datum för laserskanning teknisk specifikation

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Uppgift a b c d e f (vet ej) Poäng

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Manual för beräkningsverktyget Räkna med rotröta

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Matematisk statistik för B, K, N, BME och Kemister

Regressions- och Tidsserieanalys - F3

Hur kan skogsbruket utnyttja laserscanningen som Lantmäteriet genomför över hela Sverige?

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Föreläsning 4. Kap 5,1-5,3

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Regressions- och Tidsserieanalys - F8

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

SLUs forskning om 3D fjärranalysdata för kartering och skattning av skog och fjällvegetation

Två höjdtilldelningsmetoder för trädhöjder

Härledning av Black-Littermans formel mha allmänna linjära modellen

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsning 15: Faktorförsök

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Transkript:

Umeå Universitet Kandidatexamensuppsats Statistik C2, 15hp Fjärranalys av skog med multivariata modeller Student: Dan Arvidsson Fredrik Westerlund Handledare: Mathias Lundin VT 2016

Sammanfattning Studien omfattar forskningsområdet fjärranalys av skog, data från luftburen laserskanning och fältmätningar används för att konstruera statistiska modeller. De variabler som estimeras är volym, grundytevägd medelhöjd, grundytevägd medeldiameter, grundyta och biomassa. Estimerade värden kan tillämpas för att beskriva skogens egenskaper, t.ex. med internetbaserade karttjänster. Syftet med studien är att utvärdera två multivariata modellers förmåga att predikterar skogen runtom i Sverige. Huvudsakliga målet är att skapa modeller med ett lågt procentuellt rotmedelkvadratfel (RM SE%) vid prediktion. I studien används multivariat linjär regression och Curds & Whey. Studien resulterade i multivariata modeller som har liknande resultat med avseende på RM SE%. De har lägst för grundytevägd medelhöjd och högst för grundyta. I förhållande mot varandra är Curds & Whey marginellt bättre vid prediktion av skogens variabler.

Remote sensing using multivariate models Abstract This study covers the research area remote sensing of forest, data from air born laser scanning and field measurement is used to design statistical models that estimate forest variables. The variables estimated is stem volume, average tree height, stem diameter, biomass and basal area. The estimated values can then be applied on for example internet based mapping service, to provide information and to get a better view of the forest in Sweden. The main purpose of this study is to evaluate two multivariate models ability to predict the forest in Sweden, considering the lowest relative root mean square error (RM SE%) when predicting. The statistical models used is Multivariate linear regression and Curds & Whey. The study resulted in multivariate models with similar outcomes regarding to RM SE%, lowest for average height and highest for basal area. Comparing the two models against each other, Curds & Whey had a fractional advantage in predicting the variables of the forest.

Populärvetenskaplig sammanfattning Sverige är ett land med stora mängder skog och av den totala landarealen består drygt hälften av produktiv skogsmark, de vanligaste trädslagen är gran, tall och björk. I kombination med fjärranalysdata och inventeringsdata kan statistiska modeller uppskatta skogens egenskaper som volym, grundyta, medelhöjd m.m. Uppskattade värden kan appliceras på exempelvis internetbaserade karttjänster där enskilda individer eller företag kan söka på skogsmark och erhålla en övergripande bild på skogsområden. Syfte med studien är att utvärdera två statistiska modellers förmåga att uppskatta skogens egenskaper. Studien resulterade i modeller som har liknande resultat med avseende på felmarginal. Lägst felmarginal för medelhöjd och högst för grundyta. Vid jämförelse mot varandra finns det en marginell skillnad mellan de två modellerna när skogens variabler uppskattas.

Tillkännagivande Först och främst vill vi tacka hela statistiska institutionen vid Umeå universitet och Mathias Lundin vår handledare som hjälpt oss under projektets gång. Utöver det vill vi också tacka Sveriges lantbruksuniversitet (SLU) som låtit oss tagit del av deras data och givit oss möjligheten att expandera våra kunskaper inom den svenska skogen och dess egenskaper. John Kidd för hans hjälp genom att bidra med koder för Curds & Whey. Slutligen R Project for Statistical Computing och dess genemskap som gör R till det fantastiska program det är idag.

Innehållsförteckning 1 Inledning 1 1.1 Bakgrund............................. 1 1.2 Syfte................................ 2 1.3 Begränsningar........................... 2 2 Datamaterial 3 2.1 Inventeringsdata......................... 3 2.2 Laserskanningsdata........................ 5 2.3 Rensning av data......................... 7 2.4 Sammansättning av blocken................... 8 3 Modeller 9 3.1 Multivariat linjär regression................... 9 3.2 Curds & Whey.......................... 12 3.2.1 Standardisering av data................. 12 3.2.2 Kanonisk korrelationsanalys och dess implementering i C&W.......................... 13 3.2.3 Utförande av C&W................... 14 4 Utvärdering 16 4.1 Beskrivning av rotmedelkvadratfel............... 16 4.2 Repeterad k-faldig korsvalidering................ 16 4.3 RMSE%.............................. 17 5 Resultat 18 5.1 Multivariat linjär regression och Curds & Whey........ 18 6 Diskussion 23 7 Referenser 25 8 Appendix 28

Tabellförteckning 1 Beskriving av responsvariabler. Källa: Skogsstyrelsen, 2016.. 4 2 Deskriptiv data - Södra blocken................. 5 3 Deskriptiv data - Norra blocken................. 5 4 Metrikdata från FUSION..................... 7 5 Korrelationsmatris för samtliga responsvariabler........ 12 6 Modellernas förklaringsvariabler................. 18 7 Koefficientmatris för MVR.................... 19 8 Koefficientmatris för C&W.................... 19 9 Utvärderingsvärden för MVR................... 20 10 Utvärderingsvärden för C&W.................. 20 11 Korrelationsmatris för predikterade värden med MVR..... 28 12 Korrelationsmatris för predikterade värden med C&W..... 28

Figurförteckning 1 Kontrollplatser för inventeringsdata runt omkring i Sverige. Källa: Nilsson et al. 2016..................... 3 2 (a) Vilken typ av skanner samt blockens indelning, (b) Om skanningen skett vid lövad (under sommartider när det varit löv på träden) eller icke-lövad (under vintertider när inga löv har funnits på lövträden) och (c) Vilket år skanningen utförts. Källa: Nilsson et al. 2016..................... 6 3 Rödmarkerade observationer tillhör observationer med nollvärden för antingen inventeringsdata eller laserskanningsdata samt observationer med orealistiska värden.............. 8 4 Volym = 1, Biomassa = 2, Grundyta = 3, HGV = 4 och DGV = 5. Röda horisontella linjen representerar den genomsnittliga förbättringen för samtliga responsvariabler, 0.22%. 21 5 Spridningsdiagram för variabeln DGV mot Grundyta. Den vänstra grafen illustrerar de faktiska värdena och den högra grafen de predikterade för MVR................. 22 6 Spridningsdiagram för variabeln HGV mot Grundyta. Den vänstra grafen illustrerar de faktiska värdena och den högra grafen de predikterade för C&W................. 22

1 Inledning Första kapitlet i uppsatsen ger en bakgrund till uppsatsämnet fjärranalys av skog. Kapitlet kommer vidare presentera studiens huvudsakliga syfte samt ett avsnitt om studiens begränsningar. 1.1 Bakgrund Sverige är ett land med stora mängder skog och av den totala landarealen består drygt hälften av produktiv skogsmark, de vanligaste trädslagen är gran, tall och björk. Den produktiva skogsmarken ägs till 50 % av privatägda och statsägda aktiebolag, resterande del ägs av enskilda skogsägare (Skogsstyrelsen, u.å). Betydande faktorer som kan påverka tillväxten av skogen är klimatet samt markens bördighet. Skogen växer bättre i varma förhållanden och sämre i kalla, vilket resulterar i att södra Sverige har en högre tillväxttakt än i norra delen. Förädlingen har en stor ekonomisk betydelse, det medför att information om skogen blir allt mer eftertraktat för skogsägaren (Skogsstyrelsen, u.å). Fjärranalys är ett forskningsområde med möjligheten att ta fram information om skogens utseende genom användning av satellitbilder, flygbilder, radar m.fl. Genom att kombinera fjärranalysdata och inventeringsdata kan statistiska modeller estimera skogliga variabler. Inventeringsdata består av data från fysiska kontrollmätningar. Vidare kan estimerade värden appliceras på exempelvis internetbaserade karttjänster där enskilda privatpersoner eller aktiebolag kan söka på skogsmark. Skogsägaren kan genom det ta del av informationen om t.ex. skog som är intressant att köpa, produktiva bestånd, områden som ska röjas och eventuellt gallras. I tidigare studie inom området estimerades tre statistiska modeller med hjälp av insamlad data från luftburen laserskanning (Holmgren 2004, 543-553). Studien innefattar prediktion av skogliga variabler med linjär regression som skattar samtliga responsvariabler var för sig. Följande resulterade med ett procentuellt rotmedelkvadratfel (RMSE%) mellan 3 % till 20 % vid 1

prediktion. Sjödin (2010, 20) har också studerat fjärranalys av skog med flygburen laserskanning som resulterade i RMSE% på ca 5 % till 16 %. Det har vidare skapat ett intresse för att studera området fjärranalys av skog från ett nytt perspektiv. Istället för att skapa linjära regressionsmodeller för varje enskild responsvariabel kommer vår studie att modellera samtliga responsvariabler i samma modell. Det innebär att responsvariablerna associerade med studien estimeras med samma förklaringsvariabler. Genom att göra separata modeller för respektive responsvariabel kan t.ex. orimliga kombinationer av volym och beståndshöjd uppstå. Unikt med vår studie är att förhoppningsvis undvika kombinationerna med förväntningen att skapa en modell som ger lägre RM SE% för samtliga responsvariabler. 1.2 Syfte Syftet med studien är att konstruera multivariata modeller som kan ge goda prediktioner och en övergripande bild av skogsområden i Sverige. Estimeringarna ska kunna användas som underlag när skogsägare ska ta andra beslut gällande sin skog. Med det i åtanke är ett stort fokus att sträva efter att minimera RM SE% vid prediktion. 1.3 Begränsningar Institutionen för skoglig resurshushållning vid Sveriges lantbruksuniversitet (SLU) i Umeå har givit oss möjligheten att studera fyra olika områden i Sverige, två från norra delen av landet och två från södra. Varje område innehåller totalt 350 st observationer och 105 st variabler. Studien begränsas till de fyra utvalda områdena och trots att de är specifikt utvalda kan de förhoppningsvis beskriva Sveriges produktiva skogsmark. 2

2 Datamaterial I uppsatsens andra kapitel beskrivs det aktuella datamaterialet som bearbetas i rapporten. Det insamlade data besta r av tva skilda element, observationer och variabler fra n inventeringsdata respektive laserskanningsdata. 2.1 Inventeringsdata Den fo rsta delen av data besta r av ma tningar fra n inventeringar utfo rda av Riksskogstaxeringen (2015, 7). Varje a r tas stickprov fra n markytor runt omkring i Sverige pa endera 10 meters radie eller 7 meters radie (Figur 1). Provytor med radie 10 meter a r platser som a terbeso ks var femte a r medans ytor pa 7 meter endast ma ts en ga ng. I ytorna utfo rs kontrollma tningar fo r skogliga variabler t.ex. volym, grundyta, grundyteva gd medeldiameter (DGV), grundyteva gd medelho jd (HGV) och biomassa (Tabell 1). (a) Kontrollarea:π 102 (b) Kontrollarea:π 72 Figur 1: Kontrollplatser fo r inventeringsdata runt omkring i Sverige. Ka lla: Nilsson et al. 2016. 3

Tabell 1: Beskriving av responsvariabler. Källa: Skogsstyrelsen, 2016. Responsvariabler Beskrivning Volym Mäts i skogskubikmeter per hektar (m 3 sk/ha) och definieras som hela stamvolymen inklusive bark ovan stubbskäret. Biomassa Uttrycks som ton torrsubstans (TS) per hektar (tont S/ha) och är trädet i sin helhet, stubbe, stam, grenar, barr, kottar m.m. Grundyta Arean för ett tvärsnitt genom en trädstam, alternativt den sammanlagda arean för tvärsnitt genom ett flertal träd. Mäts i kvadratmeter per hektar (m 2 /ha). HGV Uttrycks i meter (m). Beräknas i relation till grundytan, varje träds höjd multipliceras med dess grundyta, därefter summeras värdena för att sedan divideras med summan av grundytorna. DGV Uttrycks i centimeter (cm). Beräknas i relation till grundytan, varje träds diameter multipliceras med dess grundyta, därefter summeras samtliga värden för att sedan divideras med summan av grundytorna. Tabellerna 2 & 3 visar medelvärde respektive standardavvikelse för variablerna i de fyra blocken, värdena är baserade på markytor som återbesöks var femte år. Blocken från norra Sverige har inventerats under vegetationssäsongen, dvs mätningarna har skett på lövad skog. Data från södra delen bestod både av lövad och icke-lövad skog vid mätningstillfällena. Det finns en markant skillnad när samtliga beroende variabler jämförs mellan norra och södra blocken, där medelvärdena samt spridning är högre för södra. 4

Tabell 2: Deskriptiv data - Södra blocken. Block 1 Medelvärde SD Block 2 Medelvärde SD Volym 201.91 146.61 Volym 164.50 128.98 Biomassa 141.23 91.58 Biomassa 126.25 90.01 Grundyta 23.20 12.39 Grundyta 20.28 20.28 HGV 16.34 7.25 HGV 14.39 14.39 DGV 21.82 10.96 DGV 19.30 19.30 Tabell 3: Deskriptiv data - Norra blocken. Block 1 Medelvärde SD Block 2 Medelvärde SD Volym 100.6 66.84 Volym 101.6 81.61 Biomassa 82.58 51.25 Biomassa 69.81 58.35 Grundyta 16.55 8.83 Grundyta 15.62 9.69 HGV 11.03 4.34 HGV 11.85 4.79 DGV 16.05 6.95 DGV 16.19 7.32 2.2 Laserskanningsdata Den andra delen av datamaterialet baseras på laserskanningsmätningar där Sveriges 40.7 miljoner hektar mark har delats upp i flertal block, totalt 397 st (Figur 2), varav varje block har en yta på ca 25 km 50 km (Lantmäteriet, 2015, Bilaga A). Landets yta har därefter skannats av med flygplan från en höjd mellan 1700 m-2700 m ovanför marken där en laserskanner registerar antalet returer i formen av ett punktmoln (Lantmäteriet, 2015, 4). Följande process har pågått under en längre period och i slutet av 2015 hade sammanlagt 98 % av den totala produktiva skogsmarken skannats, det motsvarar ca 22.6 miljoner hektar (Lantmäteriet, 2015, 5). Mätningarna för blocken i norra Sverige har skett främst under våren och sommaren medan i södra delen under hösten och vegetationssäsongen (Lantmäteriet, 2015, 3). Ett flertal varianter av laserskanningstyper har använts under insamlingen av 5

data, bland annat Optech och Leica (Lantma teriet, 2015, 22). (a) Skanner (b) Lo vad/icke-lo vad (c) A r Figur 2: (a) Vilken typ av skanner samt blockens indelning, (b) Om skanningen skett vid lo vad (under sommartider na r det varit lo v pa tra den) eller icke-lo vad (under vintertider na r inga lo v har funnits pa lo vtra den) och (c) Vilket a r skanningen utfo rts. Ka lla: Nilsson et al. 2016. Programvaran FUSION och data som samlats in fra n laserskanningen har tillsammans konstruerat ett antal olika metriker bland annat ho jdmetriker, totala antalet returer och alla returer ho gre a n 1.5 meter fra n markytan (McGaughey 2015). Tabellen nedan beskriver ett urval av variabler som kan ta nkas vara intressanta och anva ndbara fo r att besvara syftet i rapporten. 6

Tabell 4: Metrikdata från FUSION. Variabelnamn Beskrivning ElevP80 80:e höjdpercentilen ElevP40 40:e höjdpercentilen Nr1stRet Antal förstareturer Nr3stRet Antal tredjereturer Scanner Vilken typ av skanner Season Lövad eller icke-lövad skog P1stGT1p5 Procentuell andel returer högre än 1.5m Tot1stRet Totalt antal förstareturer 2.3 Rensning av data I ursprungsdata från SLU har ingen bearbeting av datamaterialet från deras sida utförts, dvs det finns hel del ofullständiga observationer. Antingen finns inventeringsdata medan laserskanningsdatan inte är tillgänglig eller vice versa. De kan vara ett resultat av att inventeringen och laserskanningen skett på olika tidpunkter. I samtliga block förekommer det avvikande observationer som kan tänkas påverka den skattade multivariata modellen på ett negativt sätt. Observationer med felaktiga eller saknade värden bör rensas bort för att inte erhålla artificiella resultat. 7

Figur 3: Rödmarkerade observationer tillhör observationer med nollvärden för antingen inventeringsdata eller laserskanningsdata samt observationer med orealistiska värden. Vid bedömning av vilka observationer som eliminerats utgick vi framför allt från responsvariabeln HGV och höjdmetriken ElevP95. Figur 3 ovan visar fyra spridningsdiagram över variablerna och de observationer som anses vara avvikande. Rödmarkerade är enligt oss avvikande på grund av värden som skiljer sig från övriga samt de med noll värden för antingen höjdmetriken ElevP95 eller HGV. Processen har använts på samtliga fyra block och totalt har 114 st observationer tagits bort eller drygt 8.1 % av den totala andelen. 2.4 Sammansättning av blocken För att konstruera en statistisk modell som besvarar syftet i rapporten har vi valt att sammanlänka samtliga block till ett data. En kombination av både norra respektive södra Sverige, blandning av skanningstyper och en mix av lövad/icke-lövad skog. Datamaterialet innehåller nu alla observationer förutom de som har tagits bort vid rensning enligt 2.3. 8

3 Modeller Modeller som används i studien är multivariat multipel linjär regression och Curds & Whey. Den förstnämnda tar ej hänsyn till korrelationen mellan responsvariablerna som estimeras (Velu och Reinsel 1998, 1-14). Med andra ord, det kan finnas viktig information som inte nyttjas. Curds & Whey har däremot egenskapen att den använder korrelationen av responsvariabler för att öka precisionen vid estimering (Breiman och Friedman 1997, 3). 3.1 Multivariat linjär regression Multipel linjär regression (MR) är inom statistiken en allmänt känd modell som i stor utsträckning används för att studera ett statistiskt samband mellan en responsvariabel och två eller flera förklaringsvariabler (Schinka och Velicer 2003, 511). Förklaringsvariablerna kan vara både kategoriska- och kontinuerliga. Modellen uttrycks på matrisform nedan: Y (n 1) y 1 y 2. y n =. X (n (p+1)) 1 x 11 x 12 x 1p 1 x 21 x 22 x 2p...... 1 x n1 x n2 x np β ((p+1) 1) β 0 β 1. β p + ε (n 1) ε 1 där Y (n 1) omfattar samtliga observationer på responsvariabeln (Johnson och Wichern 2007, 361). Varje rad i X (n (p+1)) består av p st förklaringsvariabler plus intercept och kolumnerna innehåller n observationer på de p förklaringsvariablerna. β ((p+1) 1) är en kolumnvektor bestående av okända betakoefficienter som estimeras. Slutligen är residualerna ε (n 1) en kolumnvektor med responsvariablernas feltermer. ε 2.. ε n, MR har under matrisform antagandena E(ε (n 1) ) = 0 (n 1) och Cov(ε) = E(εε T ) = σ 2 I, där I är identitetsmatrisen (Rencher och Christensen 2012, 323-324). 9

I ett scenario vid modellering av flera responsvariabler samtidigt är multivariat multipel linjär regression (MVR) en tänkbar modell att använda, det kan ses som en utbyggnad av MR (Izenman 2008, 159). Till skillnad från MR söks ett samband mellan q responsvariabler och en uppsättning av p st förklaringsvariabler (Rencher och Christensen 2012, 337). MVR kan således i matrisform uttryckas: Y (n q) y 11 y 12 y 1q y 21 y 22 y 2q...... y n1 y n2 y nq =. X (n (p+1)) 1 x 11 x 12 x 1p 1 x 21 x 22 x 2p...... 1 x n1 x n2 x np. β ((p+1) q) β 01 β 02 β 0q β 11 β 12 β 1q. β p1 β p2 β pq... +.. ε (n q) ε 11 ε 12 ε 1q ε 21 ε 22 ε 2q..... ε n1 ε n2 ε nq där varje responsvariabel antas följa sin egen regressionsmodell. Matrisen med förklaringsvariablerna dvs X (n (p+1)), har samma storlek som i MRmodellen (Johnson och Wichern 2007, 387-388). Vidare innehåller varje enskild rad i Y (n q) värden av q beroende variabler, samt varje kolumn består av n observationer på en av de q variablerna (Rencher och Christensen 2012, 337-338). Notera även att β ((p+1) 1) från MR-modellen med okända betakoefficienter är i det här fallet en matris av storleken β ((p+1) q). Residualerna är nu ε (n q)., Antaganden för MVR under matrisform är E(ε (i) ) = 0, där ε (i) är varje responsvariabels observerade felterm av de n obersvationerna. Vidare gäller även att Cov(ε (i), ε (k) ) = σ ik I, där i, k = 1, 2,..., q. Oberservationerna i varje kolumn för ε (n q) antas vara oberoende från varandra men responsvariablernas feltermer för varje rad i ε kan vara korrelerade (Johnson och Wichern 2007, 388). 10

MVR-modellens β ((p+1) q) estimeras genom minstakvadratmetoden, dvs alla univariata minsta kvadratskattningar samlas ihop till en matris: ˆβ ((p+1) q) = [(X T X) 1 X T Y (1). (X T X) 1 X T Y (2).. (X T X) 1 X T Y (q) ], som även kan betecknas enligt (1) nedan (Johnson och Wichern 2007, 389). Värt att notera varje kolumn i Y (n q) = [Y (1). Y (2).. Y (q) ] använder samma X (n (p+1)) -matris när de olika koefficienterna estimeras (Rencher och Christensen 2012, 339-340). Det innebär att varje enskild responsvariabel nyttjar exakt samma information från förklaringsvariablerna. [ ] ˆβ (1). ˆβ (2).. ˆβ (q) = ˆβ ((p+1) q) = (X T X) 1 X T Y (1) Vidare används ˆβ ((p+1) q) för att beräkna Ŷ(n q), dvs den matris som innehåller alla predikterade värden av responsvariablerna. De skattade koefficienterna utnyttjas också vid beräkning av ˆε (n q). Johnson och Wichern (2007, 388-389) uttrycker de enligt: Predikterade värden: Ŷ (n q) = X ˆβ = X(X T X) 1 X T Y Residualer: ˆε (n q) = Y Ŷ = [I X(XT X) 1 X T ]Y Tidigare nämndes att Velu och Reinsel (1998, 1-14) anser att en nackdel med MVR är att den inte tar hänsyn till korrelationen mellan responsvariablerna i Y (n q). Breiman och Friedman (1997, 5) är också kritisk mot MVR, de menar att när flera responsvariabler påvisar en hög korrelation kan andra metoder prestera bättre. För att ytterligare förbättra prediktionerna hos modellen skulle det vara värt att tillämpa informationen från korrelationen. Tabell 5 nedan sammanfattar korrelationen mellan responsvariablerna i datamaterialet. 11

Tabell 5: Korrelationsmatris för samtliga responsvariabler. Variabler Volym Biomassa Grundyta HGV DGV Volym 1 0.98 0.94 0.85 0.73 Biomassa 0.98 1 0.96 0.80 0.71 Grundyta 0.94 0.96 1 0.66 0.57 HGV 0.85 0.80 0.66 1 0.91 DGV 0.73 0.71 0.57 0.91 1 3.2 Curds & Whey Curds &Whey (C&W) är en multivariat krympningsmetod som använder den kanoniska korrelationen för att krympa vanliga linjära regressionsskattningar (OLS). Breiman och Friedman (1997, 3) menar att korrelationen kan användas för att öka precisionen vid prediktering. C&W har i tidigare studier visat positiv effekt på prediktionsförmågan när flera responsvariabler modelleras samtidigt (Breiman och Friedman 1997, 5). Studien har jämfört med andra statistiska modeller som partial least square, rank regression och ridge regression. Kidd (2014, 13-53) har också visat positiv framgång med användning av metoden. Eftersom responsvariablerna i tabell 5 ovan demonstrerar en hög korrelation anser vi att det skulle vara av intresse att genomföra C&W på datamaterialet från SLU. 3.2.1 Standardisering av data Ett vanligt förekommande problem för multivariata modeller är att variabler ofta är mätt på olika skalor. Det är något som bör beaktas innan genomförandet av C&W-proceduren. Kidd (2014, 7) menar att en eller flera variabler kan ha en betydligt större påverkan på resultatet än andra om de inte är normaliserade. Vid användning av C&W standardiseras både responsvariablerna respektive förklaringsvariablerna på grund av den kanoniska korrelationen (Kidd 2014, 7). Genom att standardisera data sätts variabler på samma skalor för att undvika extrema avvikelser. Om inte det genomförs kan vissa responsvariabler på en högre skala även påverka 12

prediktionerna för andra responsvariabler. Standardiseringen sker genom att subtrahera varje observation med medelvärdet och sedan dividera med standardavvikelsen. Det innebär att samtliga variabler har medelvärde noll och varians ett. 3.2.2 Kanonisk korrelationsanalys och dess implementering i C&W Härdle och Simar (2007, 321-330) menar att den kanoniska korrelationsanalysen innebär att fastställa och kvantifiera linjära samband mellan två uppsättning av variabler. Alternativt kan det ses som ett sätt för att mäta styrkan mellan två uppsättningar av variabler. Analysen strävar efter att maximerar korrelationen mellan en linjärkombination av den ena uppsättningen variabler och en linjärkombination från den andra uppsättningen. Därefter hittas ytterligare linjära kombinationer som maximerar korrelationen mellan varandra med restriktionen att de inte är korrelerade med första paret (Johnson och Wichern 2007, 539-540). Den kanoniska korrelationsanalysen är ursprungligen skapad av Hotelling (1936, 321-377). För att visa en kortfattad matematiskt beskrivning över hur den kanoniska korrelationsanalysen utnyttjas i C&W, låt oss anta att t T y (q 1) och v T x (p 1) är linjära kombinationer, där y = (y 1, y 2,..., y q ) T = {y i } q 1 och x = (x 1, x 2,..., x p ) T = {x j } p 1. Här strävas det efter att hitta vektorerna t R q och v R p som maximerar korrelationen hos de linjära kombinationerna (Breiman och Friedman 1997, 8). Kanoniska korrelationen beräknas genom korrelationen mellan de kanoniska koordinaterna via: {c k = corr(t T k y, vt k x)}k 1, (2) det leder till K st kanoniska korrelationer. Läsaren hänvisas till Brieman och Friedman (1997, 8-9) för en mer utförlig beskrivning av (2). K definieras som minimum av antigen respons- eller förklaringsvariablerna (K = min(p, q)) samt måste antagandet q p gälla (Brieman och Friedman 1997, 8). I C&W tillämpas även vektorerna t k för att bilda T (q q) -matrisen vars rader består av kanoniska koordinater (Kidd 2014, 4-5). 13

Vidare används kanoniska korrelationerna för att beräkna krympningsfaktorn: d i = (1 r)(c 2 i r), där i = 1, 2,..., q (3) (1 r)c i2 + r 2 (1 c i2 ) Varje d i -värde representerar krympningen för respektive responsvariabel och kan tillsammans bilda diagonal matrisen D (q q) = diag{d 1,..., d q } (Brieman och Friedman 1997, 9-13). Beräkningen defineras sådant att de endast kan anta ett värde mellan 0 d i 1. Termen r betecknas p/n, där p står för antalet förklaringsvariabler och n antalet observationer (Kidd 2014, 8). 3.2.3 Utförande av C&W Den icke-modifierade version, dvs OLS definieras som: p ŷ i = y i + ˆβ ij (x j x j ),, där i = 1, 2,..., q, j=1 ˆβ ij är OLS-skattade koefficienter, ŷ i är det predikterade värdet för responsvariabel i, termen x j anger det observerade värdet för förklaringsvariabel j och x j medelvärdet för respektive förklaringsvariabel. Det genomsnittliga värdet av responsvariabeln betecknas y i. Brieman och Friedman (1997, 4-5) har påvisat att den modifierade krympningsmetoden kan överträffa OLS vid prediktering med användning av ỹ i, där ỹ i anger predikterade värdet för responsvariabeln vid genomförande av C&W. Följande definieras som: q ỹ i = y i + h ik (ŷ k y k ), där i = 1, 2,..., q, (4) k=1 h ik är faktorn som baseras på beräkningar av krympningstermen d i samt transformeringen till och från de kanoniska koordinaterna. Predikterade värdena ŷ k är från OLS-skattningarna och y k anger det genomsnittliga värdet för respektive responsvariabel. Termen y i är den samma som i ickemodifierade versionen. 14

För att förenkla noteringarna när stegen av C&W-proceduren beskrivs kan de i matrisform betecknas ỹ = {ỹ i } q 1, ŷ = {ŷ i} q 1 och H = [h ik] R q q, där H = T 1 DT (Brieman och Friedman 1997, 4-5). Ekvation (4) kan således definieras enligt: ỹ = Hŷ Metoden sammanfattas nedan av Breiman och Friedman (1997, 9): till det observerade kanoniska koordinatsys- I Transformera y = {y i } q 1 temet, y = T y. II Utför OLS för varje y i på x = {x j} p 1 där i = 1, 2,..., q, som i sin tur ger ŷ = {ŷ i }q 1. III Krymp varje ŷ i med faktorn d i (3) vilket leder till ỹ = {d i ŷ i }q 1. IV Transformera tillbaka till det ordinarie y-koordinatsystemet genom, ỹ = T 1 ỹ. 15

4 Utvärdering I det fjärde kapitlet kommer modellernas tillvägagångssätt vid utvärdering att beskrivas. Termer som RM SE, RM SE% och k-faldig korsvalidering diskuteras. 4.1 Beskrivning av rotmedelkvadratfel Rotmedelkvadratfelet (RM SE) är ett mått på skillnaden mellan predikterade och faktiska värden, ett lågt värde indikerar på goda prediktioner. RM SE definieras som roten ur medelkvadratfelet (M SE) vilket beräknas genom: RMSE = MSE = 1 n n (y m ŷ m ) 2, där y m är det observerade värdet m för responsvariabeln, ŷ m anger de predikterade värdet för observation m och termen n är antalet observationer (James, Witten, Hastie och Tibshirani 2015, 29-30). Notera att i C&W används ỹ m istället för ŷ m. m=1 4.2 Repeterad k-faldig korsvalidering Inom statistiken är k-faldig korsvalidering (KV ) en användbar algoritm för att estimera prediktionsfel. James et al. (2015, 181-184) menar att ur ett Bias-Variance-Trade Off-perspektiv anses k = 10 ej drabbas av hög bias eller varians. I KV delas data slumpmässigt upp i k st lika stora delar. En av de k delarna utgör testdata och övriga k 1 träningsdata, dvs först utgör en del testdata och resterande träningsdata, sedan utgör andra delen testdata och övriga träningsdata, osv. Beräkningen uttrycks enligt: KV = 1 k k MSE i, där i = 1, 2,..., k, i=1 KV utgör genomsnittet av k st beräknade M SE-värden. 16

Vidare kan processen upprepas genom (s k)-faldig korsvalidering, data slumpas om innan varje KV -repetition. Det innebär att vi beräknar ett medelvärde av s st repeterade korsvalideringar. Definieras enligt: MKV = 1 s s KV l, där l = 1, 2,..., s, l=1 I studien används k = 10 och s = 50. 4.3 RMSE% Inom fjärranalys av skog är RM SE% ett vanligt förekommande mått för att fastställa en modells prediktionsförmåga. Generellt sett använder måttet sig av RSM E-värdet och uttrycks på följande vis: ( ) RMSE RMSE% = 100 %, y där y anger medelvärdet för den observerade responsvariabeln. I vår studie används värdet från den upprepade KV -processen MV K istället för RMSE med förhoppning om en robustare estimering av RM SE%. 17

5 Resultat I resultatavsnittet kommer de två metoderna associerade med studien att utvärderas enligt kap 4, värdena utvärderas både separat och sedan gentemot varandra. 5.1 Multivariat linjär regression och Curds & Whey Förklaringsvariablerna som användes vid prediktion sammanfattas i tabell 6 nedan. I båda fallen tillämpades n = 1286, p = 10 och q = 5. De skattade koefficienterna för MVR redogörs i tabell 7, vilket är skattningar av β ((p+1) q) som beräknas enligt ekvation (1). Motsvarade koefficienter för C&W i tabell 8. Tabell 6: Modellernas förklaringsvariabler. Koefficienter β 0,q β 1,q β 2,q β 3,q β 4,q β 5,q β 6,q β 7,q β 8,q β 9,q β 10,q Variabelnamn Intercept Season Scanner ElevP30 ElevP40 Nr3rdRet ElevLCV ElevCV ElevMADmed ElevL4 ElevL1 18

Tabell 7: Koefficientmatris för MVR. Volym Biomassa HGV DGV Grundyta ˆβ 0,1 : 3.98 ˆβ0,2 : 3.96 ˆβ0,3 : 0.77 ˆβ0,4 : 1.79 ˆβ0,5 : 3.04 ˆβ 1,1 : 0.34 ˆβ1,2 : 0.78 ˆβ1,3 : 0.35 ˆβ1,4 : -0.12 ˆβ1,5 : 0.16 ˆβ 2,1 : -0.32 ˆβ2,2 : -0.47 ˆβ2,3 : -0.42 ˆβ2,4 : -0.02 ˆβ2,5 : -0.16 ˆβ 3,1 : 0.07 ˆβ3,2 : 0.09 ˆβ3,3 : -0.33 ˆβ3,4 : -0.05 ˆβ3,5 : 0.09 ˆβ 4,1 : -0.19 ˆβ4,2 : -0.22 ˆβ4,3 : -0.42 ˆβ4,4 : -0.12 ˆβ4,5 : -0.04 ˆβ 5,1 : 0.16 ˆβ5,2 : 0.11 ˆβ5,3 : 0.05 ˆβ5,4 : -0.02 ˆβ5,5 : 0.03 ˆβ 6,1 : -6.87 ˆβ6,2 : 7.97 ˆβ6,3 : 1.47 ˆβ6,4 : 4.78 ˆβ6,5 : -3.42 ˆβ 7,1 : -0.52 ˆβ7,2 : -6.31 ˆβ7,3 : -0.24 ˆβ7,4 : -1.74 ˆβ7,5 : 0.39 ˆβ 8,1 : 1.19 ˆβ8,2 : 1.08 ˆβ8,3 : 1.02 ˆβ8,4 : 0.22 ˆβ8,5 : 0.42 ˆβ 9,1 : 4.47 ˆβ9,2 : 4.49 ˆβ9,3 : 6.35 ˆβ9,4 : 1.64 ˆβ9,5 : 1.15 ˆβ 10,1 : 0.72 ˆβ10,2 : 0.51 ˆβ10,3 : 1.73 ˆβ10,4 : 0.31 ˆβ10,5 : 0.04 Tabell 8: Koefficientmatris för C&W. Volym Biomassa HGV DGV Grundyta ˆβ 0,1 : 3.49 ˆβ0,2 : 3.50 ˆβ0,3 : 0.84 ˆβ0,4 : 1.80 ˆβ0,5 : 2.81 ˆβ 1,1 : 0.35 ˆβ1,2 : 0.77 ˆβ1,3 : 0.35 ˆβ1,4 : -0.09 ˆβ1,5 : 0.16 ˆβ 2,1 : -0.27 ˆβ2,2 : -0.42 ˆβ2,3 : -0.41 ˆβ2,4 : -0.02 ˆβ2,5 : -0.13 ˆβ 3,1 : -0.07 ˆβ3,2 : -0.04 ˆβ3,3 : -0.30 ˆβ3,4 : -0.05 ˆβ3,5 : 0.02 ˆβ 4,1 : -0.19 ˆβ4,2 : -0.21 ˆβ4,3 : -0.42 ˆβ4,4 : -0.11 ˆβ4,5 : -0.03 ˆβ 5,1 : 0.14 ˆβ5,2 : 0.09 ˆβ5,3 : 0.06 ˆβ5,4 : -0.02 ĥ 5,5 : 0.02 ˆβ 6,1 : -6.32 ˆβ6,2 : 7.85 ˆβ6,3 : 2.88 ˆβ6,4 : 4.88 ˆβ6,5 : -2.81 ˆβ 7,1 : 0.37 ˆβ7,2 : -5.15 ˆβ7,3 : -1.18 ˆβ7,4 : -1.79 ˆβ7,5 : 0.59 ˆβ 8,1 : 0.90 ˆβ8,2 : 0.79 ˆβ8,3 : 1.06 ˆβ8,4 : 0.21 ˆβ8,5 : 0.28 ˆβ 9,1 : 3.89 ˆβ9,2 : 3.88 ˆβ9,3 : 6.51 ˆβ9,4 : 1.60 ˆβ9,5 : 0.88 ˆβ 10,1 : 0.92 ˆβ10,2 : 0.71 ˆβ10,3 : 1.69 ˆβ10,4 : 0.31 ˆβ10,5 : 0.13 19

Resultatet av de fem responsvariabler som utvärderats genom RM SE% sammanställs i tabell 9 och 10, där variabeln HGV har lägst värde. Biomassa och volym har liknande resultat medan grundyta har högst. Tabell 9: Utvärderingsvärden för MVR. Variabler RM SE% Biomassa 14.204 Volym 13.262 HGV 9.175 DGV 15.993 Grundyta 21.661 Tabell 10: Utvärderingsvärden för C&W. Variabler RM SE% Biomassa 14.199 Volym 13.261 HGV 9.171 DGV 15.991 Grundyta 21.652 20

I förhållande till MVR har C&W en minimal förbättring av RMSE%. Skillnaderna kan illustreras bättre i figur 4 nedan, den vertikala axeln beskriver förändringen C&W har i relation till MVR och den horisiontella axeln namnger responsvariablerna. Figur 4: Volym = 1, Biomassa = 2, Grundyta = 3, HGV = 4 och DGV = 5. Röda horisontella linjen representerar den genomsnittliga förbättringen för samtliga responsvariabler, 0.22%. 21

Figurerna 5 och 6 nedan visar exempel på spridningsdiagram där korrelationen mellan faktiska värden skiljer sig från de predikterade (se tabell 5 respektive tabell 11-12 i appendix). Figur 5: Spridningsdiagram för variabeln DGV mot Grundyta. Den vänstra grafen illustrerar de faktiska värdena och den högra grafen de predikterade för MVR. Figur 6: Spridningsdiagram för variabeln HGV mot Grundyta. Den vänstra grafen illustrerar de faktiska värdena och den högra grafen de predikterade för C&W. 22

6 Diskussion Studien baserades på forskningsområdet fjärranalys av skog där det huvudsakliga syftet var att utvärdera två multivariata modeller, MVR och C&W. Efter utvärdering framgick det att båda kan användas för att prediktera skogens variabler. C&W hade en minimal fördel med avseende på RM SE%. Värdena i tabell 9 respektive 10 indikerar att modellerna har en god förmåga att prediktera grundytevägd medelhöjd men mindre bra på att estimera grundytan. Resultaten i relation till Holmgrens (2004, 543-553) tidigare forskning har vi liknande RMSE%, där HGV gav lägst värde. I förhållande till Sjödins (2010, 20) studie har vi ett genomsnittligt lägre värde på volym och biomassa men ett betydligt högre på grundyta. I överlag är RMSE% i vår studie relativt snarlika tidigare studier. En nackdel att prediktera med samma förklaringsvariabler är att de kan ha olika påverkan på responsvariablerna. Det kan till viss del förklara skillnaderna mellan RM SE% för biomassa, volym, HGV, DGV och grundyta. Trots påvisad hög korrelation mellan responsvariablerna enligt tabell 5 förbättrades inte prediktionsvärdena nämnvärt vid använding av C&W i jämförelse med MVR. Värt att notera i vårt fall där r = p/n är nära noll, som medför att d i -värdena i ekvation (3) blir väldigt nära 1. Kvar blir då approximativt c 2 i /c2 i som leder till en ytterst liten krympningseffekt och kan vara en anledningen till den minimala förbättringen för C&W i förhållande till MVR. Tabell 7 och 8 visar även att koefficienterna är likartade varandra, vilket återigen pekar på att slutgilta resultaten blir väldigt lika. 23

Vidare kan det också konstateras att orimliga kombinationer som uppstår vid separata linjära regressionsmodeller även förekommer i MVR och C&W. Genom att betrakta figur 5 och 6 ses ett tydligt mönster där spridningsdiagrammen med predikterade värden har betydligt mindre spridning än de faktiska. Det kan även jämföras i korrelationsmatriserna tabell 5 och tabell 11-12, samtliga korrelationer för predikterade värden demonstrerar ett högre värde än korrelationen för faktiska. Graferna samt korrelationsmatriserna indikerar på att modellerna inte resulterar i naturliga kombinationer mellan en del av responsvariablerna och därmed inte når ett av de önskvärda resultaten som studien strävade efter. Inför framtida studier för att förbättra prediktioner med multivariata modeller kan det vara värt att ta med fler block utspridda över landet. Enligt tabellerna 2 och 3 finns en klar skillnad på medelvärdena mellan norra och södra blocken vilket beror på tillväxttakten (högre fuktighet och genomsnittligt varmare temperatur över åren). Vid modellering på följande data så hade det varit värt att dela in i två delar av landet, södra och norra Sverige. Det skulle möjligtvis kunna förbättra prediktionerna genom att göra separata modeller för respektive del. 24

7 Referenser Andreas Alfons (2012). cvtools: Cross-validation tools for regression models. R package version 0.3.2. http://cran.r-project.org/package=cvtools. Breiman, L. och Friedman, J. 1997. Predicting Multivariate Responses in Multiple Linear Regression. Journal of the Royal Statistical Society: Series B. 59 (1): 3-54. doi: 10.1111/1467-9869.00054. Holmgren, J. 2004. Prediction of tree height, basal area, and steam volume in forest and using airborne laser scanning. Scandinavian Journal of Forest Research. 19 (6): 543-553. doi: 10.1080/02827580410019472. Hotelling, H. 1936. Relations Between Two Sets of Variates. Biometrika. 28 (3-4): 321-377. doi: 10.2307/2333955. Izenman, A.J. 2008. Modern Multivariate Statistical Techniques. 1 st ed. New York: Springer. James, G., Witten, D., Hastie, T. och Tibshirani, R. 2014. An Introduction to Statistical Learning with Applications in R. 6 th ed. New York: Springer. Johnson, R.A. och Wichern, D.W. 2007. Applied Multivariate Statistical Analysis. 6 th ed. Upper Saddle River, N.J.: Pearson Prentice Hall. Kidd, J. 2014. Implementation and Application of the Curds and Whey Algorithm to regression Problems. Diss., Utah state university. Kidd, J. 2014. curds: Performs functions related to the Curds and Whey algorithm. R package version 1.0. Lantmäteriet. 2015. Produktions- och skanningsområden. https://www. 25

lantmateriet.se/globalassets/kartor-och-geografiskinformation/hojddata/ produktbeskrivningar/laserdat.pdf (Hämtad 2016-04-25). McGaughey, R.J. 2015. Fusion/LDV: Software for LIDAR Data Analysis and Visualization. Manual. Seattle: United State Department of Agriculture, Forest Service, Pacific Northwest Research Station, University of Washington. Nilsson, M., Nordkvist, K., Jonzen, J., Lindgren, N., Axensten, P., Wallerman, J., Egberth, M., Larsson, S., Nilsson, L., Eriksson, J och Olsson, H. 2016. A nationwide forest attribute map of Sweden derived using airborne laser scanning data and field data from the national forest inventory. Manuscript. Umeå: Sveriges lantbruksuniversitet. R Core Team. 2013. R: A language and environment for statistical computing. R Foundationfor Statistical Computing, Vienna, Austria. http: //www.r-project.org/. Rencher, A.C. och Christensen, W.F. 2012. Methods of Multivariate Analysis. 3 rd ed. New York: Hoboken John Wiley & Sons. Schinka, J.A. och Velicer, W.F. 2003. Handbook of Psycology. 2 nd ed. Chichester: Willey. Research methods in psychology. Skogsstyrelsen. 2016. Kartor med skogliga grunddata. http://www.skogsstyrelsen. se/aga-och-bruka/skogsbruk/karttjanster/laserskaning/ (Hämtad 2016-06-12). Skogsstyrelsen. u.å. Vem äger skogen. http://www.skogsstyrelsen.se/ Upptack-skogen/Skog-i-Sverige/Fakta-om-skogen/Vem-ager-skogen/ (Hämtad 2016-04-16). 26

Skogsstyrelsen. u.å. Virket från skogen. http://www.skogsstyrelsen.se/ Upptack-skogen/Skog-i-Sverige/Fakta-om-skogen/Virket-fran-skogen/ (Hämtad 2016-04-16). Sjödin, M. 2010. Skattningar i gallringsskog med hjälp av flygburen laserskanning. Diss., Sveriges lantbrukdsuniversitet. Sveriges lantbruksuniversitet. 2015. Riksskogstaxeringens permanenta provytor. http://www.slu.se/sv/webbtjanster-miljoanalys/statistik-om-skog/ skogsdata/ (Hämtad 2016-04-12). Velu, R. och Reinsel, G.C. 1998. 1 st ed. New York: Springer. Multivariate Reduced-Rank Regression. Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2009. 27

8 Appendix Tabell 11: Korrelationsmatris för predikterade värden med MVR. Variabler Volym Biomassa Grundyta HGV DGV Volym 1 0.994 0.997 0.992 0.958 Biomassa 0.994 1 0.994 0.993 0.969 Grundyta 0.997 0.994 1 0.985 0.949 HGV 0.992 0.993 0.985 1 0.983 DGV 0.958 0.969 0.949 0.983 1 Tabell 12: Korrelationsmatris för predikterade värden med C&W. Variabler Volym Biomassa Grundyta HGV DGV Volym 1 0.995 0.999 0.994 0.962 Biomassa 0.995 1 0.995 0.996 0.974 Grundyta 0.999 0.995 1 0.992 0.985 HGV 0.994 0.996 0.992 1 0.986 DGV 0.962 0.974 0.985 0.986 1 28