Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige

Relevanta dokument
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Analys av bostadsrättspriset i Stockholms innerstad

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Regressionsanalys av lägenhetspriser i Spånga

Föreläsning 12: Regression

Regressions- och Tidsserieanalys - F4

Multipel regressionsanalys av variabler som påverkar priset på bostadsrätter i stor-stockholm

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Linjär regressionsanalys. Wieland Wermke

Sänkningen av parasitnivåerna i blodet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F19, (Multipel linjär regression forts) och F20, Chi-två test.

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Multipel Regressionsmodellen

Regressionsanalys av huspriser i Vaxholm

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Läs noggrant informationen nedan innan du börjar skriva tentamen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Lektionsanteckningar 11-12: Normalfördelningen

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Sammanställning över fastigheten

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Matematisk statistik, Föreläsning 5

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Repetitionsföreläsning

En analys av variabler som påverkar bostadsrättspriser i Stockholms kommun - En multipel regressionsanalys över tiden

Regressions- och Tidsserieanalys - F7

NÄR SKA MAN SÄLJA SIN BOSTAD?

Sammanställning över fastigheten

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Regressions- och Tidsserieanalys - F1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Prediktion av villapris

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Sammanställning över fastigheten

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Föreläsning 4. Kap 5,1-5,3

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

, s a. , s b. personer från Alingsås och n b

Sammanställning över fastigheten

10.1 Enkel linjär regression

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

LABORATION 3 - Regressionsanalys

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Metod och teori. Statistik för naturvetare Umeå universitet

Laboration 2 multipel linjär regression

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

LABORATION 3 - Regressionsanalys

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Regressionsanalys av bostäder i Ekerö kommun

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Sammanställning över fastigheten

Obligatorisk uppgift, del 1

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Sammanställning över fastigheten

Regressions- och Tidsserieanalys - F5

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

F11. Kvantitativa prognostekniker

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Skogsbruksplan. Viggen Dalby Torsby Värmlands län. Fastighet Församling Kommun Län. Ägare. Gunnel Dunger

7.5 Experiment with a single factor having more than two levels

Medicinsk statistik II

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Skogsbruksplan. Norrbottens län

Industriell matematik och statistik, LMA /14

Läs noggrant informationen nedan innan du börjar skriva tentamen

Skogsbruksplan. Fastighet Församling Kommun Län. Eksjöhult 1:39 Högstorp Ulrika Linköping Östergötlands län. Ägare

Regressions- och Tidsserieanalys - F1

OBS! Vi har nya rutiner.

Uppgift 1. Produktmomentkorrelationskoefficienten

Laboration 4 R-versionen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Sammanställning över fastigheten

Statistik och epidemiologi T5

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Skogsbruksplan. Borlänge Kommun2011 Stora Tuna Borlänge Dalarnas län. Fastighet Församling Kommun Län. Ägare. Borlänge Kommun

Skogsbruksplan. Stig Rönnqvist mfl Pastorsvägen UMEÅ Töre Sbs

TENTAMEN I MATEMATISK STATISTIK

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

F13 Regression och problemlösning

Föreläsning 12: Linjär regression

Transkript:

Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige Simon Wallin simwal@kth.se Samuel Jangenstål samjan@kth.se Handledare: Henrik Hult Kurs: SA104X Examensarbete inom Teknisk Fysik, grundnivå. Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan 22 maj 2015

Matematisk Statistik Förord Vi vill tacka Martin Lindskog med medarbetare från Areal för den data som projektet grundas på. Utan dem hade arbetet inte varit möjligt. Vi vill även tacka vår handledare Henrik Hult för hans stöd och vägledning samt Simon Wallins morfar Bertil Hovmark för idén till arbetet. 2

Matematisk Statistik Sammanfattning I denna studie utformas en prediktionsmodell för försäljningspriser på skogsfastigheter i Sverige. Syftet är att ge marknadsaktörer ett verktyg för att bedöma till vilket pris skogsfastigheter i Sverige förväntas säljas. Modellen bygger på multipel linjär regressionsanalys av skogsfastigheter sålda av fastighetsförmedlaren Areal mellan 2012 och 2014. De förklarande faktorerna som ingår i modellen är geografiskt läge, virkesförråd, bonitet, befolkningstäthet och huggningsklasser. Modellen lyckas prediktera försäljningspriset med en förklaringsgrad på 90.0 procent, vilket är tillräckligt högt för att målet ska anses vara uppfyllt. Denna studie har utöver prediktionsmodellen också funnit intressanta strukturella samband. Abstract In this study, a prediction model for selling prices of forest properties in Sweden is constructed. The purpose is to give the market operators a tool for estimating the expected selling prices of properties. The model is based on multiple linear regression analysis of forest properties sold by the real estate company Areal between 2012 and 2014. The explanatory factors used in the model are geographical position, standing stock of timber, standing volume fertility, population density and cutting classes. The model succeeds in predicting the selling price with a coefficient of determination at 90.0 percent, which is high enough for the aim to be considered fulfilled. Beyond the prediction model, this study has also found interesting structural relations. 3

INNEHÅLL Matematisk Statistik Innehåll 1 Inledning 6 1.1 Bakgrund............................. 6 1.2 Syfte................................ 7 1.3 Tillvägagångssätt......................... 7 2 Teori 8 2.1 Multipel linjär regression..................... 8 2.1.1 Indikatorvariabel..................... 8 2.1.2 Indikatorvariabelfällan.................. 8 2.1.3 Minstakvadratanpassning................ 9 2.1.4 T-test........................... 10 2.1.5 Förklaringsgrad...................... 11 2.1.6 Extremvärden....................... 11 2.2 Gauss-Markovs antaganden................... 12 2.2.1 Icke normalfördelade residualer............. 12 2.2.2 Heteroskedasticitet.................... 12 2.2.3 Multikolinjäritet..................... 14 3 Metod 16 3.1 Variabler.............................. 16 3.1.1 Virkesförråd........................ 17 3.1.2 Y-koordinat........................ 17 3.1.3 Bonitet.......................... 17 3.1.4 Tätort........................... 18 3.1.5 Storstad.......................... 18 3.1.6 Befolkningstäthet..................... 18 3.1.7 Huggningsklasser..................... 18 3.1.8 Tillväxt.......................... 19 3.1.9 Träslagsfördelning.................... 19 3.1.10 Skogsmarksareal..................... 19 3.2 Data................................ 19 3.3 Tranformation av variabler.................... 20 4 Resultat 21 4.1 Breda modellen.......................... 21 4.1.1 Tillförlitlighet....................... 21 4.1.2 Parametervärden..................... 23 4.2 Långa modellen.......................... 24 4.2.1 Tillförlitlighet....................... 25 4.2.2 Parametervärden..................... 25 4

INNEHÅLL Matematisk Statistik 5 Diskussion 27 5.1 Modelljämförelse......................... 27 5.2 Multikolinjäriteter........................ 27 5.3 Strukturanalys.......................... 28 5.4 Felkällor.............................. 29 5.4.1 Obehandlade förklarande faktorer............ 29 5.4.2 Kvalitativa förklarande faktorer............. 29 5.4.3 Slumpmässiga avvikelser................. 29 5.5 Prediktion............................. 30 5.6 Förslag på fortsatta studier................... 30 6 Slutsats 31 7 Referenser 32 8 Appendix 33 5

Matematisk Statistik 1 Inledning 1.1 Bakgrund Skogen har historiskt sett utgjort en stark drivkraft för Sveriges ekonomi. Den är en av landets viktigaste naturtillgångar och över 50 procent av Sveriges landareal består av skogsmark [1]. Skogsindustrin omsätter över 200 miljarder årligen och står för ungefär 12 procent av Sveriges varuexport [2]. Tidigare har Lantbruksnämnden reglerat försäljningen av skogsfastigheter och sedan 1990 sker den på en fri marknad [3]. Försäljning sker ofta via en mäklarfirma och ibland förekommer budgivning på fastigheten. En skogsfastighets värde beror dels på produktionsvärden i form av lönsamhet från försäljning av fastighetens virke. Dessutom tillkommer övriga värden exempelvis markvärden, tomtbildningsmöjligheter samt rekreativa värden [4]. Figur 1: Skogsmarksprisers utveckling under 10 år (kr/m 3 sk). Det senaste decenniet har skogsfastighetsmarknaden varit svårförutsägbar och stora prissvängningar har förekommit, se Figur 1 [5]. Prissvängningarna har lett till svårigheter för marknadens aktörer att bedöma fastigheters försäljningspris. Det finns många faktorer som behöver tas med i beräkningen, vilket skapar behov för en träffsäker prediktionsmodell. Denna studies frågeställning lyder: Hur väl kan försäljningspriset på skogsfastigheter predikteras? 6

1.2 Syfte Matematisk Statistik 1.2 Syfte Syftet med denna studie är att utforma en modell som predikterar försäljningspriset på skogsfastigheter med hjälp av kvantifierbara förklarande faktorer. Dessa faktorer är sådana som påverkar värdet hos en fastighet och därmed avgör försäljningspriset. Målet är att ge marknadsaktörer ett verktyg för att bedöma till vilket pris en fastighet förväntas säljas. Utöver att skapa prediktionsmodellen diskuteras även de förklarande faktorernas strukturella samband med försäljningspriset. 1.3 Tillvägagångssätt Modellen utformas med hjälp av multipel linjär regressionsanalys på skogsfastigheter i Sverige sålda av förmedlaren Areal under åren 2012 till 2014. Prediktionsmodellen baseras därefter på de skattade parametervärdena. Denna studie är avgränsad till skogsfastigheter samt gårdar med skogsmark. Vid försäljning av skogsfastigheter betalar köparen för hela fastigheten med eventuella byggnader och åkermarker inkluderade i försäljningspriset. Dock har Areal fördelat köpeskillingen mellan de ingående komponenterna, bland annat med hjälp av taxeringsvärdet och därför kan skogsmarkens andel av försäljningspriset betraktas separat. Det innebär att inverkan från exempelvis byggnader och åkermarker på en fastighets försäljningspris exkluderas. 7

Matematisk Statistik 2 Teori 2.1 Multipel linjär regression I multipel linjär regressionsanalys uppskattas värdet av en beroende variabel y (även benämnd responsvariabel) med hjälp av ett antal förklarande faktorer x j (även benämnda kovariater). Varje kovariat i en datapunkt kommer påverka den beroende variabeln y med en faktor β j (även benämnd parameter) enligt: y = k β j x j. (1) j=0 I (1) är k antalet kovariater som betraktas. Värdet på x 0 sätts till konstant lika med ett och därmed motsvarar värdet på β 0 det värde som den beroende variabeln y antar om alla andra kovariater x j har värdet noll. Ett annat namn för β 0 är intercept. 2.1.1 Indikatorvariabel Indikatorvariabler är användbara i en modell för att beskriva faktorer som inte är kvantifierbara. En indikatorvariabel är en kovariat som antar värdet ett eller noll beroende på om en given egenskap är närvarande eller frånvarande hos en datapunkt [6]. Exempel på en sådan är huruvida en skogsfastighet ligger nära en tätort (värde ett) eller inte nära en tätort (värde noll). x ij = { 1, om fastigheten ligger nära en tätort. 0, annars. (2) 2.1.2 Indikatorvariabelfällan En grupp indikatorvariabler kan vara ömsesidigt exklusiva, vilket innebär att en och endast en av dem får anta värdet ett för varje given datapunkt enligt: x ij = 1, i. (3) j Om en grupp ömsesidigt exklusiva kovariater existerar måste en av indikatorvariablerna i gruppen uteslutas från regressionen [6]. Detta för att undvika fullständig multikolinjäritet, vidare beskrivet under sektion 2.2.3. Kovariaten som utesluts benämns hädanefter som benchmark. 8

2.1 Multipel linjär regression Matematisk Statistik En grupp kovariater som inte är indikatorvariabler kan också vara ömsesidigt exklusiva om summan av deras värden är samma för varje datapunkt enligt: I (4) är C en godtycklig konstant. 2.1.3 Minstakvadratanpassning x ij = C, i. (4) j Parametrarna β j uppskattas genom en minstakvadratanpassning av kända observationer till följande modellen enligt: y i = k j=0 ˆβ j x ij + e i. (5) I (5) är ˆβ j minstakvadratskattningen av β j och e i är avvikelsen från modellen i varje datapunkt i, hädanefter benämnd felet eller residualen. Residualerna från minstakvadratanpassningen följer normalekvationerna: k x ji ê i = 0. (6) j=0 Skattningen på residualen beskrivs av: ê i = y i k x ij ˆβj. (7) Om β j är någon annan skattning av β j så definieras denna skattnings residual ẽ i enligt: k ẽ i = y i x ij βj. (8) Skillnaden β j mellan minstakvadratskattningen och någon annan skattning av β j definieras enligt: Ur (7), (8) och (9) erhålls: ẽ i = y i k x ij βj = j=0 j=0 j=0 β j = ˆβ j β j. (9) k x ij ˆβj + ê i j=0 k x ij βj = j=0 k x ij β j + ê i. (10) j=0 9

2.1 Multipel linjär regression Matematisk Statistik Från (6) erhålls att erhålls därmed: k x ij β j och ê i är ortogonala. Från Pythagoras sats j=0 ẽ i 2 = x ij β j 2 + ê i 2 ê i 2. (11) Därmed visas det att minstakvadratanpassning ger skattningar av parametrarna med de minsta residualerna. För att detta ska gälla måste dock Gauss-Markovs antaganden vara uppfyllda [6]. Dessa behandlas vidare under sektion 2.2. Ur (5) och (6) erhålls följande uttryck för parametrarna ˆβ j : ˆβ j = (x ji x ij ) 1 x ji y i. (12) 2.1.4 T-test T-testet är en hypotesprövningsmetod som används för att kontrollera att värdet hos de förklarande variablernas parametrar är statistiskt signifikanta. Om så inte är fallet bör de plockas bort från regressionsmodellen. För varje parametervärde prövas nollhypotesen H 0, som säger att parametervärdet β j för den förklarande faktorn x j är lika med noll och att responsvariabeln y är oberoende av den kovariaten. Alternativhypotesen H A säger tvärtemot att kovariaten x j har en påverkan på responsvariabeln genom att parametervärdet β j för den förklarande faktorn är skilt från noll. Hypotesprövningen beskrivs enligt: H 0 : β j = 0. (13) H A : β j 0. (14) Hypoteserna prövas genom att beräkna ett t-värde enligt: t j = I (15) är σ den skattade standardavvikelsen. ˆβ j σ( ˆβ j ). (15) Sannolikheten för att en t-distribution ska ge ett högre absolutbelopp än det erhållna t-värdet kallas för p-värde. P-värdet beskriver dessutom sannolikheten för att nollhypotesen gäller. Om p-värdet är mindre än signifikansnivån som väljs, förkastas nollhypotesen till förmån för alternativhypotesen. Dessa kovariater benämns hädanefter som signifikanta kovariater. Signifikansnivån väljs i denna studie till 5 procent [7]. 10

2.1 Multipel linjär regression Matematisk Statistik 2.1.5 Förklaringsgrad Förklaringsgraden R 2 är ett mått på hur stor del av variationerna hos den beroende variabeln y som förklaras av kovariaterna x j. Alltså är förklaringsgraden ett mått på hur träffsäker modellen är. Linjära samband mellan variablerna följer: k V ar(y) = V ar( x j ˆβj ) + V ar(ê). (16) R 2 definieras då enligt: R 2 = j=0 V ar( k x j ˆβj ) j=0 V ar(y) = 1 V ar(ê) V ar(y). (17) Enligt (17) ökar förklaringsgraden om residualerna minskas. Dock ökar R 2 även då fler förklarande faktorer tas med i modellen. Om många förklarande faktorer inkluderas kan förklaringsgraden överskattas. Därför finns det ett korrigerat R 2 -värde som tar hänsyn till antalet kovariater enligt: R 2 = R 2 (1 R 2 k ) n k 1. (18) I (18) motsvaras antalet datapunkter av n och antalet kovariater av k. I denna studie används den korrigerade förklaringsgraden R 2 som mått på förklaringsgraden [7]. 2.1.6 Extremvärden Extremvärden är observationer som skiljer sig kraftigt från de övriga observationerna i en regression. För att erhålla en korrekt modell är det viktigt att exkludera extremvärden eftersom de kan förvränga uppskattningen av regressionsparametrarna. För att se hur mycket en observation påverkar modellen kan Cook s-avstånd undersökas. Cook s-avståndet uppskattar till vilken utsträckning de beräknade regressionsparametrarna förändras när den i:te observationen tas bort från modellen enligt: n (ŷ l ŷ l(i) ) 2 l=0 d i = k MSE. (19) Medelkvadratsumman M SE för residualerna definieras som: MSE = 1 n (ŷ i y i ) 2. (20) n Om d i > 1 anses den i:te observationen vara ett extremvärde [6]. i=1 11

2.2 Gauss-Markovs antaganden Matematisk Statistik 2.2 Gauss-Markovs antaganden Minstakvadratanpassning av data ger endast den bästa möjliga skattningen av parametrarna om Gauss-Markovs antaganden är uppfyllda. Här beskrivs brott mot dessa antaganden. 2.2.1 Icke normalfördelade residualer I multipel linjär regressionsanalys antas residualerna e i vara normalfördelade. Om så inte är fallet kan systematiska fel förekomma i modellen. Detta beror på centrala gränsvärdessatsen som visar att summan av många okända fördelningar alltid konvergerar till en normalfördelning. För att undersöka att residualerna är normalfördelade plottas felens distribution och jämförs med en normalfördelning. Om distributionerna följer varandra kan man anta att felen är av slumpmässig karaktär. Om så inte är fallet måste regressionsmodellen omformuleras [7]. 2.2.2 Heteroskedasticitet När variansen hos residualerna e i inte är konstanta över de predikterade värdena på responsvariabeln råder heteroskedasticitet. Detta innebär att feltermens varians V ar(e i ) kan beskrivas som en funktion av den beroende variablen y i. Motsatsen till detta kallas homoskedacticitet. Heteroskedasticitet kan upptäckas i ett residualdiagram där man plottar residualerna mot predikterade värden på responsvariabeln. Om residualerna inte är jämnt fördelade över de predikterade värdena på responsvariabeln är det en indikation på heteroskedasticitet [7]. Ett grafiskt exempel på heteroskedasticitet presenteras i Figur 2 : 12

2.2 Gauss-Markovs antaganden Matematisk Statistik Figur 2: Exempel på residualdiagram med heteroskedasticitet. Ett grafiskt exempel på homoskedasticitet presenteras i Figur 3 : Figur 3: Exempel på residualdiagram med homoskedasticitet. Om heteroskedasticitet råder bör modellen omformuleras. Exempelvis kan variabler införas eller transformeras med hjälp av en funktion [7]. 13

2.2 Gauss-Markovs antaganden Matematisk Statistik 2.2.3 Multikolinjäritet Multikolinjäritet är ett problem som inträffar då för hög korrelation råder mellan de förklarande variablerna, vilket kan leda till höga standardavvikelser och det kan göra kovariater insignifikanta. Problemet upptäcks genom att studera korrelationen mellan de förklarande variablerna exempelvis genom att plotta variablerna mot varandra enligt Figur 4 : Figur 4: Multikolinjäritet mellan förklarande variablerna X och Y. Ett mått på en kovariats grad av multikolinjäritet är variance of inflation factor, härifrån förkortat VIF. VIF ger ett värde som mäter hur mycket variansen på de skattade parametrarna ökar på grund av multikolinjäritet. För varje förklarande faktor j skapas en ny regressionsmodell där den valda förklarande faktorn är responsvariabel och de övriga förklarande faktorerna är kovariater. Regressionsanalys för de nya modellerna utförs enskilt där förklaringsgraden Rj 2 för den j:te förklarande variabeln kan bestämmas. VIF för det motsvarande parametervärdet ˆβ j beräknas enligt: V IF ( ˆβ 1 j ) = 1 Rj 2 VIF-värden mellan 5-10 tyder på hög multikolinjäritet. (21) 14

2.2 Gauss-Markovs antaganden Matematisk Statistik Om för hög multikolinjäritet inträffar behöver modellen omformuleras. Det finns flera tänkbara metoder för att undvika multikolinjäritet. En sådan är att sammanfoga variablerna genom att exempelvis multiplicera eller dividera variablerna med varandra. Multikolinjäritet är dock ett större problem för strukturanalyser än för prediktionsmodeller Fullständig multikolinjäritet uppstår i en regression mellan två förklarande variabler om regression mellan enbart dessa kovariater ger en förklaringsgrad på 1. Multikolinjäritet är till en viss grad acceptabelt men fullständig multikolinjäritet gör att första faktorn i högerledet i (12) blir singulär och parametrarna kan inte skattas. Då måste en av de förklarande variablerna tas bort [6]. 15

Matematisk Statistik 3 Metod Modellen som frågeställningen eftersträvar bygger på parameterskattningarna från regressionen med den högsta möjliga förklaringsgraden samtidigt som Gauss-Markovs antaganden är uppfyllda. Regressionen görs i det statistiska analysprogrammet SPSS. Förklarande faktorer som i preliminära regressioner får ett p-värde på över 0.05 förkastas i senare regressioner och ingår därför inte i prediktionsmodellen. För att extremvärden inte ska förvränga modellen exkluderas fastigheter som har Cook s-avstånd större än 1. 3.1 Variabler Den beroende variabeln heter försäljningspris och avser en fastighets försäljningspris per areal i enheten kronor per hektar skog. Valet motiveras med att modellen blir träffsäkrare när triviala linjära samband som priset gentemot arealen utesluts. Eftersom responsvariabeln mäts per areal kommer samtliga extensiva kovariater vara representerade med intensiva storheter som också anges per areal. De studerade kovariaterna redogörs i sektionerna 3.1.1-3.1.10. Där redogörs även hypoteser gällande deras inverkan på modellen. Försäljningspriset justeras varken efter konsumentprisindex eller skogsprisindex eftersom under tiden data är inhämtad har båda legat på en tillräckligt stabil nivå för att inte ha någon inverkan på modellen [5][8]. Figur 5: Konsumentprisindex mellan 2012 och 2014. 16

3.1 Variabler Matematisk Statistik 3.1.1 Virkesförråd Beskriver hur stor virkesvolym som för närvarande finns på fastigheten. Anges i enheten kubikmeter skog per hektar. Till följd av en tidigare strukturanalys förväntas kovariaten virkesförråd korrelera positivt med försäljningspris då ett större virkesförråd möjliggör en mer omfattande avverkning av skogen [9]. 3.1.2 Y-koordinat Beskriver hur långt norrut fastigheten ligger med hjälp av Y-koordinaten i det geodetiska referenssystemet SWEREF- 99, där Y-koordinaten är positionen i den syd-nordliga axeln. Kovariaten Y- koordinat förväntas korrelera negativt med försäljningspris då befolkningstätheten samt tillgången till infrastruktur generellt sett är sämre i norra Sverige än i södra Sverige. Dessutom möjliggör klimatet i södra Sverige en högre bördighet än i norra Sverige [5]. I Figur 6 ser man en trend mellan högre försäljningspriser och sydligare läge. 3.1.3 Bonitet Bonitet är ett mått på skogsmarkens naturliga virkesproducerande förmåga och kallas i vissa sammanhang för bördighet. Enheten är skogskubikmeter per hektar och år [10]. Till följd av en tidigare strukturanalys förväntas kovariaten bonitet korrelera positivt med försäljningspris i och med att en högre bördighet antas ge en bättre tillväxt. Det föreligger dock en risk för multikolinjäritet mellan bonitet och Y-koordinat [11]. Figur 6: Försäljningspriset hos de undersökta fastigheterna markerade på en Sverigekarta. 17

3.1 Variabler Matematisk Statistik 3.1.4 Tätort En indikatorvariabel som antar värdet ett om avståndet mellan fastigheten och en tätort är mindre än en kilometer, annars antar den värdet noll. Definitionen på en tätort är en sammanhängande bebyggelse med minst 200 invånare där avståndet mellan tomterna inte är högre än 200 meter [12]. Till följd av en tidigare strukturanalys förväntas kovariaten tätort korrelera positivt med försäljningspris, då skogen blir lättillgängligare för fler människor. Dessutom antas sannolikheten öka för att tomter ska bildas på fastigheten om den redan ligger i anslutning till en befintlig tätort [13]. 3.1.5 Storstad En indikatorvariabel som antar värdet ett om avståndet mellan fastigheten och en storstad är mindre än fem mil, annars antar den värdet noll. Definitionen av en storstad är i detta fall Stockholm, Göteborg och Malmö. Kovariaten storstad förväntas korrelera positivt med försäljningspris av samma orsaker som för kovariaten tätort. 3.1.6 Befolkningstäthet Beskriver hur hög befolkningstätheten var enligt statistiska centralbyrån den 31:a december 2014 i kommunen som skogsfastigheten ligger i. Anges i enheten invånare per kvadratkilometer. Kovariaten befolkningstäthet förväntas korrelera positivt med försäljningspris av samma orsaker som för kovariaten tätort. 3.1.7 Huggningsklasser Huggningsklasser är en grupp av kovariater som anger den procentuella andelen av en fastighets areal som består av huggningsklasserna kalmark, röjningsskog, gallringsskog eller föryngringsavverkningsskog Kalmark är skogsmark som är obehandlad eller ofullständigt behandlad där åtgärder behövs för att erhålla återväxt av skog. Kovariaten kalmark förväntas korrelera negativt med försäljningspris då det är en ytterligare kostnad för en köpare att plantera skog där. Röjningsskog är plant- eller ungskog där flertalet härskande och medhärskande träd är mindre än 10 cm i brösthöjd. Gallringsskog är skog där flertalet härskande och medhärskande träd är högre än 10 cm i brösthöjd. Beståndsåldern är lägre än lägsta tillåtna ålder för 18

3.2 Data Matematisk Statistik slutavverkning enligt skogsvårdslagen. Föryngringsavverkningsskog är skog där beståndsåldern har uppnått en sådan ålder att slutavverkning åtföljts av att återväxtåtgärder föreslås. Denna förklarande faktor förväntas korrelera positivt med försäljningspris då produktionskostnaden för slutavverkningsskog är lägre jämfört med skog i de andra huggningsklasserna. Huggningsklassen gallringssskog används som benchmark för att undvika fullständig multikolinjäritet [14]. 3.1.8 Tillväxt Kovariaten tillväxt beskriver hur stor virkesvolym per areal som förväntas växa på fastigheten under perioden 2012 till 2024. Anges i enheten kubikmeter skog per hektar och år. Denna förklarande faktor förväntades korrelera positivt med försäljningspris då en högre tillväxt antas möjliggöra en mer omfattande avverkning av skogen, av samma orsak som virkesförråd. 3.1.9 Träslagsfördelning Träslagsfördelningen är en grupp av kovariater som anger den procentuella andelen av virkesförrådet som består av tall, löv, björk eller gran. Trädslaget gran används som benchmark för att undvika fullständig multikolinjäritet. 3.1.10 Skogsmarksareal Beskriver hur stor areal av fastigheten som består av produktiv skogsmark. Här exkluderas exempelvis skogsimpediment och naturreservat. Anges i enheten hektar. Kovariaten skogsmarksareal är den enda kovariaten som uttrycks i en extensiv storhet. 3.2 Data Data som studeras kommer från skogsfastighetsförmedlaren Areal och består av skogsfastigheter sålda under åren 2012 till 2014. Totalt undersöktes 549 fastigheter. Till dessa fastigheter fanns information om dess försäljningspris, virkesförråd, Y-koordinat, areal produktiv skogsmark. För 188 av dessa fastigheter fanns även information om tillväxt, bonitet, träslagsfördelning samt avverkningsklassfördelning. Resterande kovariater erhålls från respektive fastighets position. Med anledning av att olika mycket information finns om olika mängder datapunkter kommer två modeller presenteras i resultatet, en som innehåller alla förklarande faktorer och en som innehåller alla datapunkter. 19

3.3 Tranformation av variabler Matematisk Statistik 3.3 Tranformation av variabler Regressioner kan i vissa fall förbättras om variabler logaritmeras. Logaritmering kan dels höja förklaringsgraden och dels hjälpa en regression att uppfylla Gauss-Markovs antaganden. En prismodell ska aldrig kunna prediktera ett negativt pris, vilket är ett skäl till att logaritmera responsvariabeln i denna studie. Endast strängt positiva kvotskalor kan logaritmeras. 20

Matematisk Statistik 4 Resultat Studien resulterade i två separata modeller med högre förklaringsgrad än andra regressioner. Den första modellen, härifrån benämnd breda modellen, inkluderar fler förklarande faktorer men endast 179 datapunkter. Den andra modellen, härifrån benämnd långa modellen, inkluderade färre förklarande faktorer men 534 datapunkter. Exkluderandet av extremvärden resulterade i att 9 datapunkter från breda modellen och 15 datapunkter från långa modellen inte ingick i regressionerna som respektive modell baseras på. Kovariaterna tillväxt, skogsmarksareal träslagsfördelning och huggningsklasser förutom andel kalmark är inte signifikanta och exkluderas därför ur modellerna. 4.1 Breda modellen Regressionen utfördes enligt modellen specificerad i (22) och försäljningsprices erhålls explicit i (23). Variablerna är angivna i Tabell 1. Kovariaten storstad har exkluderats ur denna modell eftersom den uppvisar fullständig multikolinjäritet med tätort för fastigheterna som ingick i regressionen, vilket diskuteras vidare under sektion 5.2. log(y) = β 0 + β 1 log(x 1 ) + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 log(x 5 ) + β 6 x 6 (22) y = exp(β 0 + β 1 log(x 1 ) + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 log(x 5 ) + β 6 x 6 ) (23) Tabell 1: Breda modellens variabler. y Försäljningspris kr/ha x 1 Virkesförråd m 3 skog/ha x 2 Y-koordinat Intervallskala x 3 Bonitet m 3 skog/ha x 4 Tätort Indikatorvariabel x 5 Befolkningstäthet invånare/km 2 x 6 Kalmark Procent 4.1.1 Tillförlitlighet Modellen har en korrigerad förklaringsgrad på 0.900, vilket innebär att modellen förklarar 90.0 procent av en fastighets försäljningspris. Residualerna följer en normalfördelning tillräckligt bra för att modellen ska 21

4.1 Breda modellen Matematisk Statistik vara användbar, vilket visas i Figur 7. Residualdiagramet i Figur 8 visar att homoskedasticitet råder, då residualerna är jämt fördelade över samtliga predikterade y-värden. Samtliga kovariater som ingår i modellen har V IF < 5 (se Tabell 6 i Appendix), vilket tyder på att multikolinjäriteten är tillräckligt låg för att alla kovariater ska kunna användas. Dock finns en korrelationsgrad på 0.814 mellan kovariaterna logaritmerad bonitet och Y-koordinat (se Tabell 7 i Appendix), vilket diskuteras vidare under sektion 5.2. Figur 7: Breda modellens residualer jämfört med en normalfördelning. 22

4.1 Breda modellen Matematisk Statistik Figur 8: Breda modellens residualdiagram. 4.1.2 Parametervärden I regressionen har parametervärdena β j skattats till värdena enligt Tabell 2 nedan. Där presenteras även parametrarnas standardavvikelser samt deras p-värden. Tabell 2: Breda modellens parametervärden. Parameter ˆβj Standardavvikelse p-värde Intercept 11.367 0.612 < 0.001 Logaritmerat virkesförråd 0.639 0.037 < 0.001 Y-koordinat 6.391 10 7 < 0.001 < 0.001 Logaritmerad bonitet 0.053 0.013 < 0.001 Tätort 0.635 0.095 < 0.001 Logaritmerad befolkningstäthet 0.053 0.013 < 0.001 Kalmark 0.010 0.003 < 0.001 23

4.2 Långa modellen Matematisk Statistik 4.2 Långa modellen Regressionen utfördes enligt modellen specificerad i (24) och försäljnignspriset erhålls explicit i (25). Variablerna är angivna i Tabell 3. log(y) = β 0 + β 1 x 1 + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 x 5 (24) y = exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 x 5 ) (25) Tabell 3: Långa modellens variabler. y Försäljningspris kr/ha x 0 Intercept Konstant = 1 x 1 Virkesförråd m 3 skog/ha x 2 Y-koordinat Intervallskala x 3 Befolkningstäthet invånare/km 2 x 4 Tätort Indikatorvariabel x 5 Storstad Indikatorvariabel Figur 9: Långa modellens residualer jämfört med en normalfördelning. 24

4.2 Långa modellen Matematisk Statistik Figur 10: Långa modellens residualdiagram. 4.2.1 Tillförlitlighet Modellens korrigerade förklaringsgrad är 0.869, vilket innebär att modellen förklarar 86.9 procent av en fastighets försäljningspris. Även i denna modell är residualerna normalfördelade enligt Figur 9. Residualplotten i Figur 10 visar att homoskedasticitet råder. Samtliga kovariater som ingår i modellen uppfyller kravet V IF < 5 (se Tabell 6 i Appendix), vilket åter igen tyder på att multikolinjäriteten är tillräckligt låg för att alla kovariater ska kunna användas. 4.2.2 Parametervärden I regressionen har parametervärdena β j skattats till värdena enligt Tabell 4 nedan. Där presenteras även parametrarnas standardavvikelser samt deras p-värde. 25

4.2 Långa modellen Matematisk Statistik Tabell 4: Långa modellens parametervärden. Parameter ˆβj Standardavvikelse p-värde Intercept 16.145 0.268 < 0.001 Virkesförråd 0.006 < 0.001 < 0.001 Y-koordinat 9.440 10 7 < 0.001 < 0.001 Logaritmerad befolkningstäthet 0.075 0.009 < 0.001 Tätort 0.232 0.057 < 0.001 Storstad 0.501 0.087 < 0.001 26

Matematisk Statistik 5 Diskussion 5.1 Modelljämförelse Båda modellerna uppfyller Gauss-Markovs antaganden och har därmed giltiga parameterskattningar ˆβ j. Den långa respektive breda modellen lyckas förklara försäljningspriset med en förklaringsgrad på 86.9 respektive 90.0 procent. Modellernas skattade parametervärden för gemensamma kovariater skils åt modellerna emellan, se Tabell 2 och Tabell 4. Detta beror på att kovariater som finns i en modell men inte i den andra förklaras med hjälp av alternativa kovariater som absorberar en större del av förklaringsgraden. Det faktum att den breda modellen ger en högre förklaringsgrad än den långa visar på att modellen blev träffsäkrare av att lägga till nya relevanta förklarande faktorer. Den långa modellens residualfördelning är mer lik normalfördelning än den breda modellens residualfördelning, vilket antas bero på fler datapunkter. Men den breda modellens residualer anses följa normalfördelningen tillräckligt bra för att modellen ska kunna anses giltig. Denna studies slutgiltiga prediktionsmodell väljs till den breda modellen eftersom den har en högre förklaringsgrad. 5.2 Multikolinjäriteter Det hypotiserades att kovariaterna bonitet och Y-koordinat skulle uppvisa en hög multikolinjäritet. I Figur 11 ser man att fastigheter med hög bonitet tenderar att ligga i södra Sverige. I Tabell 7 i Appendix kan en korrelationsgrad på 0.814 mellan dessa kovariater avläsas, vilket är en hög korrelation. Denna multikolinjäritet har dock inte gett någon av kovariaterna ett VIF-värde över 5 och deras standardavvikelser är låga nog för att bå- Figur 11: Boniteten hos de undersökta fastigheterna markerade på en Sverigekarta. Gröna fastigheter har hög bonitet och röda har låg bonitet. 27

5.3 Strukturanalys Matematisk Statistik da kovariaterna ska vara signifikanta. Då modellen enbart används till prediktion är denna multikolinjäritet inget problem. I den breda modellen hade kovariaten tätort fullständig multikolinjäritet med kovariaten storstad. Det beror på att samtliga fastigheter som uppfyllde kravet för tätort också uppfyllde kravet för storstad och vice versa. Därför exkluderades kovariaten storstad från modellen och dess inverkan kan förklaras av kovariaten tätort. I den långa modellen är både storstad och tätort signifikanta, vilket tyder på att båda dessa egenskaper har separata bidrag till försäljningspriset. 5.3 Strukturanalys Samtliga signifikanta parameterskattningar stödjer hypotesformuleringarna av kovariaternas inverkan på försäljningspriset från sektion 3.1. Detta stödjer denna studies hypoteser samt resultaten hos tidigare strukturanalyser för dessa kovariater. Det fanns kovariater som hypotiserats ha en inverkan på försäljningspriset men som inte hade någon signifikans i regressionerna där de ingick. Kovariaten tillväxt hade visserligen en signifikans i regressioner där den ingick utan kovariaten bonitet. När bonitet användes försvann dess signifikans, vilket är ett tecken på kraftig multikolinjäritet mellan dessa kovariater. Därför utformades en regression där det geometriska medelvärdet av bonitet och tillväxt definierades som en ny kovariat. Förhoppningen var att bådas inverkan skulle inkluderas i modellen. Regressionen resulterade i en lägre förklaringsgrad än modellen innehållandes enbart bonitet. Eftersom regressionerna med enbart kovariaten bonitet gav en högre förklaringsgrad exkluderades därför kovariaten tillväxt från modellen. Detta skulle kunna tyda på att tillväxt har en inverkan på försäljningspriset, men ingen inverkan som inte kan förklaras bättre av boniteten. Även träslagsfördelning och skogsmarksareal användes som kovariater i försöksregressioner men ingen av dem hade signifikans. Det bryter dock inte mot någon tidigare hypotes då en sådan aldrig formulerades. Regressionerna med huggningsklasser som kovariater ger endast en signifikans för kovariaten kalmark. Den kovariaten ingår i den breda modellen med ett negativt uppskattat parametervärde, vilket ligger i linje med hypotesen. De andra huggningsklasserna uppvisar inte någon signifikans i regressioner där de ingick, tvärtemot hypoteserna om dem. Detta skulle kunna bero på att inverkan på försäljningspriset från huggnignsklasserna förklaras av virkesförråd, då äldre skog har en större virkesvolym. 28

5.4 Felkällor Matematisk Statistik 5.4 Felkällor Den breda modellen lyckades förklara försäljningspriset med en förklaringsgrad på 90.0 procent. De resterande 10.0 procenten kan bero på obehandlade förklarande faktorer, faktorer som är kvalitativa samt slumpmässiga avvikelser. 5.4.1 Obehandlade förklarande faktorer En fallstudie av ett urval av fastigheter med försäljningspriser som avviker kraftigt från prediktionsmodellen visar att över- respektive underpredikterade fastigheter i många fall har gemensamma egenskaper. Detta skulle kunna tyda på att förklarande faktorer saknas i modellen. En gemensam egenskap hos dessa fastigheter är medelskotningsavstånd. Det är ett mått på hur lång sträcka ett fordon måste färdas i ren skogsterräng för att nå en genomsnittlig punkt som ligger inom fastigheten. Ett högt medelskotningsavstånd antas leda till ett lägre försäljningspris eftersom det är kopplat till högre avverkningskostnader. Fallstudierna visade att många av de underpredikterade fastigheterna har ett lågt medelskotningsavstånd, medan de överpredikterade fastigheterna ofta har ett högt medelskotningsavstånd, vilket ligger i linje med denna hypotes. 5.4.2 Kvalitativa förklarande faktorer En fallstidue av fastigheter som exkluderas från modellen på grund av ett för högt Cook s-avstånd visar på ett antal kvalitativa egenskaper som antas beskriva avvikelsen från modellen. Exempelvis beskrivs en fastighet ha en "milsvid utsikt" och "anor från 1200-talet", vilket är egenskaper som antas ha ökat försäljningspriset. Sådana egenskaper bör alltid beaktas då man försöker prediktera ett försäljningspris. 5.4.3 Slumpmässiga avvikelser En viss slumpmässig avvikelse ingår alltid i statistiska modeller. Avvikelsen kan ibland förklaras av tillfälliga omständigheter. Om exempelvis många intressenter finns för en fastighet vid en given tidpunkt kommer försäljningspriset troligen att öka. Skogsfastigheter har ofta få spekulanter och budgivning förekommer inte alltid. Detta leder enligt Ulrik Abelson till att prisspridningen hos fastigheterna kan bli stora [15]. Den förväntade avkastningen på skog är mycket långsiktig och därför osäker [5]. Framtida händelser som påverkar prisbilden, exempelvis stormar, skogsbränder och finanskriser, är svåra att prediktera. Dessutom föreligger ofta andra intressen än rena vinstintressen hos potentiella köpare. I en studie hade endast 20 procent enbart vinstintressen, 30 procent hade endast 29

5.5 Prediktion Matematisk Statistik icke-vinstintressen och 50 procent hade blandade intressen [16]. Dessa faktorer bidrar troligen till slumpmässiga avvikelser hos skogsfastigheters försäljningspriser. 5.5 Prediktion Prediktion antar att förhållandena är likadana som när modellen skapades. Förklarande faktorer, som under tiden data inhämtades var stabila och inte visade någon påverkan, kan mycket väl förändras i ett senare skede och påverka försäljningspriset på ett sätt som gör modellen osäkrare. Som tidigare nämnt har konsumentprisindex varit relativt stabilt under tiden försäljningarna som denna studie bygger på gjordes. Ett predikterat försäljningspris bör därför korrigeras med det aktuella konsumentprisindexet mot 2014 för den tid då försäljningen utförs. 5.6 Förslag på fortsatta studier Förbättringar i den befintliga modellen kan göras för att öka dess förklaringsgrad. Ytterligare kovariater att undersöka i en fortsatt studie med eventuell signifikans föreslås i sektion 5.3, som att inkludera medelskotningsavstånd som kovaiat och betrakta huggningsklasser fördelade på virkesförrådet istället för arealen. Positionen skulle dessutom kunna utnyttjas bättre genom att exempelvis hypotisera om vilka platsrelaterade faktorer som påverkar försäljningspriset på en skogsfastighet. Indikatorvariabeln tätort kan göras om till en kontinuerlig variabel som beskriver logaritmen av avståndet från en tätort. Det logaritmiska beroendet motiveras av att avståndet till en tätort rimligtvis får en mindre inverkan på försäljningspriset vid långa avstånd. Dessutom skulle ett större antal datapunkter förbättra säkerheten i regressionanalysen. Denna studie har utöver prediktionsmodellen funnit intressanta strukturella samband, se sektion 5.3. Detta motiverar till fortsatta strukturanalyser kring ämnet. 30

Matematisk Statistik 6 Slutsats Försäljningspriset på en skogsfastighet i Sverige kan med hjälp av modellen framtagen i denna studie predikteras till en förklaringsgrad på 90.0 procent. Kovariaterna virkesförråd, Y-koordinat, tätort, kalmark, befolkningstäthet och bonitet ingår i den slutgiltiga modellen, vilkas bidrag följer de formulerade hypoteserna. En analys av fastigheter som avviker kraftigt från modellen antyder att några påverkande faktorer saknas i modellen. Övriga avvikelser från modellen får anses bero på kvalitativa och slumpmässiga faktorer. Vi anser att denna studies målsättning är uppfylld. Modellen har en tillräckligt hög förklaringsgrad för att prediktera till vilket pris skogsfastigheter kommer säljas, kompletterat med kvalitativa faktorer som vägs in för varje enskild fastighet. 31

Matematisk Statistik 7 Referenser [1] Skogsstyrelsen. Fakta om skogen. [www]. Hämtad från <http://www.skogsstyrelsen.se/upptackskogen/skog-i-sverige/fakta-om-skogen/>. Hämtat 2015-04-16. [2] Skogsindustrierna. (2011). Skogsindustrin - En faktasamling. Stockholm: Skogsindustrierna. ISSN 1402-6740 [3] Riksdagen. Betänkande 1990/91:JoU26 Ändring i jordförvärvslagen m.m.. [www]. Hämtad från <http://www.riksdagen.se/sv/dokument-lagar/utskottensdokument/betankanden /Arenden/199091/JoU26/>. Hämtat 2015-04-27 [4] Ekwall, H. Skogsskötselns ekonomi. [www]. Hämtat från <http://www.skogsstyrelsen.se/global/pu Skogsskotselns%20ekonomi.pdf>. Publicerat 2009-06-22. Hämtat 2015-05-11 [5] LRF Konsult. Skogsbarometern 2014. [www]. Hämtat från <http://www.lrfkonsult.se/press/varapublikationer/skog1/prisstatistik/den-nedatgaende-trenden-ar-bruten marknadenfor-skogsmark-har-stabiliserats-under-2014/>. Hämtat 2015-04-27 [6] Kleinbaum, David G. (2008). Applied Regression Analysis and Other Multivariable Methods. 4. uppl. Druid Hills, GA: Brooks/Cole Cengage Learning. ISBN 0-495-38498-4 [7] Gujarati, Damodar N. (2009). Basic Econometrics. 5. uppl. New York, NY: McGraw-Hill Education. ISBN-13 978-007-127625-2 [8] SCB. Konsumentprisindex. [www]. Hämtat från <http://www.scb.se/sv / Hitta statistik/statistik amne/priser och konsumtion/konsumentprisindex/konsumentprisindex KPI/33772/33779/Konsu KPI/272151/>. Hämtat 2015-04-27 [9] Swahn, K. (2013). Faktorer som förklarar marknadspriset för skogsfastigheter i Kalmar län. Diss. Umeå: Kandidatarbete. [10] Hägglund, Björn (1987). Handledning i bonitering med Skogshögskolans boniteringssystem. 2. uppl. Jönköping: Skogsstyr. ISBN 91-85-74864-1. [11] Gyllenstierna, L. (2014). Bonitet som värderingsunderlag Virkesproduktionsförmåga översatt till monetära värden. Diss. Umeå: Kandidatarbete. [12] Nationalencyklopedin. Tätort. [www]. Hämtat från <http://www.ne.se/uppslagsverk/encyklopedi /lång/tätort>. Hämtat 2015-04-16 [13] Högberg, J. (2012). Vad påverkar marknadsvärdet på en skogsfastighet? - En statistisk analys av markvärdet. Diss. Uppsala: Masterarbete [14] Christiansen, L. (2014). Skogsstatistik Årsbok 2014. Jönköping: Skogsstyrelsen. ISBN-13 978-91-87535-05-5 [15] Abelson, U. (2014). Fastighetsmarknaden: Tydligt bättre i söder. Skogsvärden, volym 4, 24-25. [16] Bernhardsson, S. (2011). Ickemonetära värdens påverkan på skogsfastighetspriser, för privatpersoner. Diss. Karlstad: C-uppsats. 32

Matematisk Statistik 8 Appendix Tabell 5: Egenskaper Modell Bred Lång R 2 0.903 0.871 Korrigerat R 2 0.900 0.869 Maximalt Cook s-avstånd 0.061 0.094 Tabell 6: VIF-värden Modell Bred Lång Storstad 1.156 Tätort 1.087 1.161 Logaritmerad befolkningstäthet 1.813 1.415 Y-koordinat 3.057 1.367 Virkesförråd 1.168 Logaritmerat virkesförråd 1.304 Logaritmerad bonitet 3.350 Kalmark 1.058 Tabell 7: Korrelationer hos den breda modell Logaritmerat försäljningspris Logaritmerad befolkningstäthet Logaritmerad befolkningstäthet 0.661 Logaritmerat virkesförråd 0.762 0.412 Logaritmerad bonitet 0.751 0.590 Tätort 0.323 0.269 Y-koordinat -0.749-0.557 Kalmark -0.098 0.066 33

Matematisk Statistik Logaritmerat virkesförråd Logaritmerad bonitet Logaritmerad befolkningstäthet 0.412 0.590 Logaritmerat virkesförråd 0.427 Logaritmerad bonitet 0.427 Tätort 0.156 0.096 Y-koordinat -0.360-0.814 Kalmark -0.107 0.111 Tätort Y-koordinat Kalmark Logaritmerad befolkningstäthet 0.269-0.557 0.066 Logaritmerat virkesförråd 0.156-0.360-0.107 Logaritmerad bonitet 0.096-0.814 0.111 Tätort -0.077-0.075 Y-koordinat -0.077-0.049 Kalmark -0.075-0.049 Tabell 8: Korrelationer hos den långa modell Logaritmerat försäljningspris Storstad Tätort Storstad 0.207 0.316 Tätort 0.270 0.316 Logaritmerad befolkningstäthet 0.570 0.204 0.135 Y-koordinat - 0.697-0.015-0.056 Virkesförråd 0.758 0.087 0.221 Logaritmerad befolkningstäthet Y-koordinat Virkesförråd Storstad 0.204-0.015 0.087 Tätort 0.135-0.056 0.221 Logaritmerad befolkningstäthet - 0.486 0.283 Y-koordinat - 0.486-0.286 Virkesförråd 0.283-0.286 34