Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige

Transkript

1 Regressionsanalys av faktorer som påverkar skogsfastighetspriser i Sverige Simon Wallin simwal@kth.se Samuel Jangenstål samjan@kth.se Handledare: Henrik Hult Kurs: SA104X Examensarbete inom Teknisk Fysik, grundnivå. Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan 22 maj 2015

2 Matematisk Statistik Förord Vi vill tacka Martin Lindskog med medarbetare från Areal för den data som projektet grundas på. Utan dem hade arbetet inte varit möjligt. Vi vill även tacka vår handledare Henrik Hult för hans stöd och vägledning samt Simon Wallins morfar Bertil Hovmark för idén till arbetet. 2

3 Matematisk Statistik Sammanfattning I denna studie utformas en prediktionsmodell för försäljningspriser på skogsfastigheter i Sverige. Syftet är att ge marknadsaktörer ett verktyg för att bedöma till vilket pris skogsfastigheter i Sverige förväntas säljas. Modellen bygger på multipel linjär regressionsanalys av skogsfastigheter sålda av fastighetsförmedlaren Areal mellan 2012 och De förklarande faktorerna som ingår i modellen är geografiskt läge, virkesförråd, bonitet, befolkningstäthet och huggningsklasser. Modellen lyckas prediktera försäljningspriset med en förklaringsgrad på 90.0 procent, vilket är tillräckligt högt för att målet ska anses vara uppfyllt. Denna studie har utöver prediktionsmodellen också funnit intressanta strukturella samband. Abstract In this study, a prediction model for selling prices of forest properties in Sweden is constructed. The purpose is to give the market operators a tool for estimating the expected selling prices of properties. The model is based on multiple linear regression analysis of forest properties sold by the real estate company Areal between 2012 and The explanatory factors used in the model are geographical position, standing stock of timber, standing volume fertility, population density and cutting classes. The model succeeds in predicting the selling price with a coefficient of determination at 90.0 percent, which is high enough for the aim to be considered fulfilled. Beyond the prediction model, this study has also found interesting structural relations. 3

4 INNEHÅLL Matematisk Statistik Innehåll 1 Inledning Bakgrund Syfte Tillvägagångssätt Teori Multipel linjär regression Indikatorvariabel Indikatorvariabelfällan Minstakvadratanpassning T-test Förklaringsgrad Extremvärden Gauss-Markovs antaganden Icke normalfördelade residualer Heteroskedasticitet Multikolinjäritet Metod Variabler Virkesförråd Y-koordinat Bonitet Tätort Storstad Befolkningstäthet Huggningsklasser Tillväxt Träslagsfördelning Skogsmarksareal Data Tranformation av variabler Resultat Breda modellen Tillförlitlighet Parametervärden Långa modellen Tillförlitlighet Parametervärden

5 INNEHÅLL Matematisk Statistik 5 Diskussion Modelljämförelse Multikolinjäriteter Strukturanalys Felkällor Obehandlade förklarande faktorer Kvalitativa förklarande faktorer Slumpmässiga avvikelser Prediktion Förslag på fortsatta studier Slutsats 31 7 Referenser 32 8 Appendix 33 5

6 Matematisk Statistik 1 Inledning 1.1 Bakgrund Skogen har historiskt sett utgjort en stark drivkraft för Sveriges ekonomi. Den är en av landets viktigaste naturtillgångar och över 50 procent av Sveriges landareal består av skogsmark [1]. Skogsindustrin omsätter över 200 miljarder årligen och står för ungefär 12 procent av Sveriges varuexport [2]. Tidigare har Lantbruksnämnden reglerat försäljningen av skogsfastigheter och sedan 1990 sker den på en fri marknad [3]. Försäljning sker ofta via en mäklarfirma och ibland förekommer budgivning på fastigheten. En skogsfastighets värde beror dels på produktionsvärden i form av lönsamhet från försäljning av fastighetens virke. Dessutom tillkommer övriga värden exempelvis markvärden, tomtbildningsmöjligheter samt rekreativa värden [4]. Figur 1: Skogsmarksprisers utveckling under 10 år (kr/m 3 sk). Det senaste decenniet har skogsfastighetsmarknaden varit svårförutsägbar och stora prissvängningar har förekommit, se Figur 1 [5]. Prissvängningarna har lett till svårigheter för marknadens aktörer att bedöma fastigheters försäljningspris. Det finns många faktorer som behöver tas med i beräkningen, vilket skapar behov för en träffsäker prediktionsmodell. Denna studies frågeställning lyder: Hur väl kan försäljningspriset på skogsfastigheter predikteras? 6

7 1.2 Syfte Matematisk Statistik 1.2 Syfte Syftet med denna studie är att utforma en modell som predikterar försäljningspriset på skogsfastigheter med hjälp av kvantifierbara förklarande faktorer. Dessa faktorer är sådana som påverkar värdet hos en fastighet och därmed avgör försäljningspriset. Målet är att ge marknadsaktörer ett verktyg för att bedöma till vilket pris en fastighet förväntas säljas. Utöver att skapa prediktionsmodellen diskuteras även de förklarande faktorernas strukturella samband med försäljningspriset. 1.3 Tillvägagångssätt Modellen utformas med hjälp av multipel linjär regressionsanalys på skogsfastigheter i Sverige sålda av förmedlaren Areal under åren 2012 till Prediktionsmodellen baseras därefter på de skattade parametervärdena. Denna studie är avgränsad till skogsfastigheter samt gårdar med skogsmark. Vid försäljning av skogsfastigheter betalar köparen för hela fastigheten med eventuella byggnader och åkermarker inkluderade i försäljningspriset. Dock har Areal fördelat köpeskillingen mellan de ingående komponenterna, bland annat med hjälp av taxeringsvärdet och därför kan skogsmarkens andel av försäljningspriset betraktas separat. Det innebär att inverkan från exempelvis byggnader och åkermarker på en fastighets försäljningspris exkluderas. 7

8 Matematisk Statistik 2 Teori 2.1 Multipel linjär regression I multipel linjär regressionsanalys uppskattas värdet av en beroende variabel y (även benämnd responsvariabel) med hjälp av ett antal förklarande faktorer x j (även benämnda kovariater). Varje kovariat i en datapunkt kommer påverka den beroende variabeln y med en faktor β j (även benämnd parameter) enligt: y = k β j x j. (1) j=0 I (1) är k antalet kovariater som betraktas. Värdet på x 0 sätts till konstant lika med ett och därmed motsvarar värdet på β 0 det värde som den beroende variabeln y antar om alla andra kovariater x j har värdet noll. Ett annat namn för β 0 är intercept Indikatorvariabel Indikatorvariabler är användbara i en modell för att beskriva faktorer som inte är kvantifierbara. En indikatorvariabel är en kovariat som antar värdet ett eller noll beroende på om en given egenskap är närvarande eller frånvarande hos en datapunkt [6]. Exempel på en sådan är huruvida en skogsfastighet ligger nära en tätort (värde ett) eller inte nära en tätort (värde noll). x ij = { 1, om fastigheten ligger nära en tätort. 0, annars. (2) Indikatorvariabelfällan En grupp indikatorvariabler kan vara ömsesidigt exklusiva, vilket innebär att en och endast en av dem får anta värdet ett för varje given datapunkt enligt: x ij = 1, i. (3) j Om en grupp ömsesidigt exklusiva kovariater existerar måste en av indikatorvariablerna i gruppen uteslutas från regressionen [6]. Detta för att undvika fullständig multikolinjäritet, vidare beskrivet under sektion Kovariaten som utesluts benämns hädanefter som benchmark. 8

9 2.1 Multipel linjär regression Matematisk Statistik En grupp kovariater som inte är indikatorvariabler kan också vara ömsesidigt exklusiva om summan av deras värden är samma för varje datapunkt enligt: I (4) är C en godtycklig konstant Minstakvadratanpassning x ij = C, i. (4) j Parametrarna β j uppskattas genom en minstakvadratanpassning av kända observationer till följande modellen enligt: y i = k j=0 ˆβ j x ij + e i. (5) I (5) är ˆβ j minstakvadratskattningen av β j och e i är avvikelsen från modellen i varje datapunkt i, hädanefter benämnd felet eller residualen. Residualerna från minstakvadratanpassningen följer normalekvationerna: k x ji ê i = 0. (6) j=0 Skattningen på residualen beskrivs av: ê i = y i k x ij ˆβj. (7) Om β j är någon annan skattning av β j så definieras denna skattnings residual ẽ i enligt: k ẽ i = y i x ij βj. (8) Skillnaden β j mellan minstakvadratskattningen och någon annan skattning av β j definieras enligt: Ur (7), (8) och (9) erhålls: ẽ i = y i k x ij βj = j=0 j=0 j=0 β j = ˆβ j β j. (9) k x ij ˆβj + ê i j=0 k x ij βj = j=0 k x ij β j + ê i. (10) j=0 9

10 2.1 Multipel linjär regression Matematisk Statistik Från (6) erhålls att erhålls därmed: k x ij β j och ê i är ortogonala. Från Pythagoras sats j=0 ẽ i 2 = x ij β j 2 + ê i 2 ê i 2. (11) Därmed visas det att minstakvadratanpassning ger skattningar av parametrarna med de minsta residualerna. För att detta ska gälla måste dock Gauss-Markovs antaganden vara uppfyllda [6]. Dessa behandlas vidare under sektion 2.2. Ur (5) och (6) erhålls följande uttryck för parametrarna ˆβ j : ˆβ j = (x ji x ij ) 1 x ji y i. (12) T-test T-testet är en hypotesprövningsmetod som används för att kontrollera att värdet hos de förklarande variablernas parametrar är statistiskt signifikanta. Om så inte är fallet bör de plockas bort från regressionsmodellen. För varje parametervärde prövas nollhypotesen H 0, som säger att parametervärdet β j för den förklarande faktorn x j är lika med noll och att responsvariabeln y är oberoende av den kovariaten. Alternativhypotesen H A säger tvärtemot att kovariaten x j har en påverkan på responsvariabeln genom att parametervärdet β j för den förklarande faktorn är skilt från noll. Hypotesprövningen beskrivs enligt: H 0 : β j = 0. (13) H A : β j 0. (14) Hypoteserna prövas genom att beräkna ett t-värde enligt: t j = I (15) är σ den skattade standardavvikelsen. ˆβ j σ( ˆβ j ). (15) Sannolikheten för att en t-distribution ska ge ett högre absolutbelopp än det erhållna t-värdet kallas för p-värde. P-värdet beskriver dessutom sannolikheten för att nollhypotesen gäller. Om p-värdet är mindre än signifikansnivån som väljs, förkastas nollhypotesen till förmån för alternativhypotesen. Dessa kovariater benämns hädanefter som signifikanta kovariater. Signifikansnivån väljs i denna studie till 5 procent [7]. 10

11 2.1 Multipel linjär regression Matematisk Statistik Förklaringsgrad Förklaringsgraden R 2 är ett mått på hur stor del av variationerna hos den beroende variabeln y som förklaras av kovariaterna x j. Alltså är förklaringsgraden ett mått på hur träffsäker modellen är. Linjära samband mellan variablerna följer: k V ar(y) = V ar( x j ˆβj ) + V ar(ê). (16) R 2 definieras då enligt: R 2 = j=0 V ar( k x j ˆβj ) j=0 V ar(y) = 1 V ar(ê) V ar(y). (17) Enligt (17) ökar förklaringsgraden om residualerna minskas. Dock ökar R 2 även då fler förklarande faktorer tas med i modellen. Om många förklarande faktorer inkluderas kan förklaringsgraden överskattas. Därför finns det ett korrigerat R 2 -värde som tar hänsyn till antalet kovariater enligt: R 2 = R 2 (1 R 2 k ) n k 1. (18) I (18) motsvaras antalet datapunkter av n och antalet kovariater av k. I denna studie används den korrigerade förklaringsgraden R 2 som mått på förklaringsgraden [7] Extremvärden Extremvärden är observationer som skiljer sig kraftigt från de övriga observationerna i en regression. För att erhålla en korrekt modell är det viktigt att exkludera extremvärden eftersom de kan förvränga uppskattningen av regressionsparametrarna. För att se hur mycket en observation påverkar modellen kan Cook s-avstånd undersökas. Cook s-avståndet uppskattar till vilken utsträckning de beräknade regressionsparametrarna förändras när den i:te observationen tas bort från modellen enligt: n (ŷ l ŷ l(i) ) 2 l=0 d i = k MSE. (19) Medelkvadratsumman M SE för residualerna definieras som: MSE = 1 n (ŷ i y i ) 2. (20) n Om d i > 1 anses den i:te observationen vara ett extremvärde [6]. i=1 11

12 2.2 Gauss-Markovs antaganden Matematisk Statistik 2.2 Gauss-Markovs antaganden Minstakvadratanpassning av data ger endast den bästa möjliga skattningen av parametrarna om Gauss-Markovs antaganden är uppfyllda. Här beskrivs brott mot dessa antaganden Icke normalfördelade residualer I multipel linjär regressionsanalys antas residualerna e i vara normalfördelade. Om så inte är fallet kan systematiska fel förekomma i modellen. Detta beror på centrala gränsvärdessatsen som visar att summan av många okända fördelningar alltid konvergerar till en normalfördelning. För att undersöka att residualerna är normalfördelade plottas felens distribution och jämförs med en normalfördelning. Om distributionerna följer varandra kan man anta att felen är av slumpmässig karaktär. Om så inte är fallet måste regressionsmodellen omformuleras [7] Heteroskedasticitet När variansen hos residualerna e i inte är konstanta över de predikterade värdena på responsvariabeln råder heteroskedasticitet. Detta innebär att feltermens varians V ar(e i ) kan beskrivas som en funktion av den beroende variablen y i. Motsatsen till detta kallas homoskedacticitet. Heteroskedasticitet kan upptäckas i ett residualdiagram där man plottar residualerna mot predikterade värden på responsvariabeln. Om residualerna inte är jämnt fördelade över de predikterade värdena på responsvariabeln är det en indikation på heteroskedasticitet [7]. Ett grafiskt exempel på heteroskedasticitet presenteras i Figur 2 : 12

13 2.2 Gauss-Markovs antaganden Matematisk Statistik Figur 2: Exempel på residualdiagram med heteroskedasticitet. Ett grafiskt exempel på homoskedasticitet presenteras i Figur 3 : Figur 3: Exempel på residualdiagram med homoskedasticitet. Om heteroskedasticitet råder bör modellen omformuleras. Exempelvis kan variabler införas eller transformeras med hjälp av en funktion [7]. 13

14 2.2 Gauss-Markovs antaganden Matematisk Statistik Multikolinjäritet Multikolinjäritet är ett problem som inträffar då för hög korrelation råder mellan de förklarande variablerna, vilket kan leda till höga standardavvikelser och det kan göra kovariater insignifikanta. Problemet upptäcks genom att studera korrelationen mellan de förklarande variablerna exempelvis genom att plotta variablerna mot varandra enligt Figur 4 : Figur 4: Multikolinjäritet mellan förklarande variablerna X och Y. Ett mått på en kovariats grad av multikolinjäritet är variance of inflation factor, härifrån förkortat VIF. VIF ger ett värde som mäter hur mycket variansen på de skattade parametrarna ökar på grund av multikolinjäritet. För varje förklarande faktor j skapas en ny regressionsmodell där den valda förklarande faktorn är responsvariabel och de övriga förklarande faktorerna är kovariater. Regressionsanalys för de nya modellerna utförs enskilt där förklaringsgraden Rj 2 för den j:te förklarande variabeln kan bestämmas. VIF för det motsvarande parametervärdet ˆβ j beräknas enligt: V IF ( ˆβ 1 j ) = 1 Rj 2 VIF-värden mellan 5-10 tyder på hög multikolinjäritet. (21) 14

15 2.2 Gauss-Markovs antaganden Matematisk Statistik Om för hög multikolinjäritet inträffar behöver modellen omformuleras. Det finns flera tänkbara metoder för att undvika multikolinjäritet. En sådan är att sammanfoga variablerna genom att exempelvis multiplicera eller dividera variablerna med varandra. Multikolinjäritet är dock ett större problem för strukturanalyser än för prediktionsmodeller Fullständig multikolinjäritet uppstår i en regression mellan två förklarande variabler om regression mellan enbart dessa kovariater ger en förklaringsgrad på 1. Multikolinjäritet är till en viss grad acceptabelt men fullständig multikolinjäritet gör att första faktorn i högerledet i (12) blir singulär och parametrarna kan inte skattas. Då måste en av de förklarande variablerna tas bort [6]. 15

16 Matematisk Statistik 3 Metod Modellen som frågeställningen eftersträvar bygger på parameterskattningarna från regressionen med den högsta möjliga förklaringsgraden samtidigt som Gauss-Markovs antaganden är uppfyllda. Regressionen görs i det statistiska analysprogrammet SPSS. Förklarande faktorer som i preliminära regressioner får ett p-värde på över 0.05 förkastas i senare regressioner och ingår därför inte i prediktionsmodellen. För att extremvärden inte ska förvränga modellen exkluderas fastigheter som har Cook s-avstånd större än Variabler Den beroende variabeln heter försäljningspris och avser en fastighets försäljningspris per areal i enheten kronor per hektar skog. Valet motiveras med att modellen blir träffsäkrare när triviala linjära samband som priset gentemot arealen utesluts. Eftersom responsvariabeln mäts per areal kommer samtliga extensiva kovariater vara representerade med intensiva storheter som också anges per areal. De studerade kovariaterna redogörs i sektionerna Där redogörs även hypoteser gällande deras inverkan på modellen. Försäljningspriset justeras varken efter konsumentprisindex eller skogsprisindex eftersom under tiden data är inhämtad har båda legat på en tillräckligt stabil nivå för att inte ha någon inverkan på modellen [5][8]. Figur 5: Konsumentprisindex mellan 2012 och

17 3.1 Variabler Matematisk Statistik Virkesförråd Beskriver hur stor virkesvolym som för närvarande finns på fastigheten. Anges i enheten kubikmeter skog per hektar. Till följd av en tidigare strukturanalys förväntas kovariaten virkesförråd korrelera positivt med försäljningspris då ett större virkesförråd möjliggör en mer omfattande avverkning av skogen [9] Y-koordinat Beskriver hur långt norrut fastigheten ligger med hjälp av Y-koordinaten i det geodetiska referenssystemet SWEREF- 99, där Y-koordinaten är positionen i den syd-nordliga axeln. Kovariaten Y- koordinat förväntas korrelera negativt med försäljningspris då befolkningstätheten samt tillgången till infrastruktur generellt sett är sämre i norra Sverige än i södra Sverige. Dessutom möjliggör klimatet i södra Sverige en högre bördighet än i norra Sverige [5]. I Figur 6 ser man en trend mellan högre försäljningspriser och sydligare läge Bonitet Bonitet är ett mått på skogsmarkens naturliga virkesproducerande förmåga och kallas i vissa sammanhang för bördighet. Enheten är skogskubikmeter per hektar och år [10]. Till följd av en tidigare strukturanalys förväntas kovariaten bonitet korrelera positivt med försäljningspris i och med att en högre bördighet antas ge en bättre tillväxt. Det föreligger dock en risk för multikolinjäritet mellan bonitet och Y-koordinat [11]. Figur 6: Försäljningspriset hos de undersökta fastigheterna markerade på en Sverigekarta. 17

18 3.1 Variabler Matematisk Statistik Tätort En indikatorvariabel som antar värdet ett om avståndet mellan fastigheten och en tätort är mindre än en kilometer, annars antar den värdet noll. Definitionen på en tätort är en sammanhängande bebyggelse med minst 200 invånare där avståndet mellan tomterna inte är högre än 200 meter [12]. Till följd av en tidigare strukturanalys förväntas kovariaten tätort korrelera positivt med försäljningspris, då skogen blir lättillgängligare för fler människor. Dessutom antas sannolikheten öka för att tomter ska bildas på fastigheten om den redan ligger i anslutning till en befintlig tätort [13] Storstad En indikatorvariabel som antar värdet ett om avståndet mellan fastigheten och en storstad är mindre än fem mil, annars antar den värdet noll. Definitionen av en storstad är i detta fall Stockholm, Göteborg och Malmö. Kovariaten storstad förväntas korrelera positivt med försäljningspris av samma orsaker som för kovariaten tätort Befolkningstäthet Beskriver hur hög befolkningstätheten var enligt statistiska centralbyrån den 31:a december 2014 i kommunen som skogsfastigheten ligger i. Anges i enheten invånare per kvadratkilometer. Kovariaten befolkningstäthet förväntas korrelera positivt med försäljningspris av samma orsaker som för kovariaten tätort Huggningsklasser Huggningsklasser är en grupp av kovariater som anger den procentuella andelen av en fastighets areal som består av huggningsklasserna kalmark, röjningsskog, gallringsskog eller föryngringsavverkningsskog Kalmark är skogsmark som är obehandlad eller ofullständigt behandlad där åtgärder behövs för att erhålla återväxt av skog. Kovariaten kalmark förväntas korrelera negativt med försäljningspris då det är en ytterligare kostnad för en köpare att plantera skog där. Röjningsskog är plant- eller ungskog där flertalet härskande och medhärskande träd är mindre än 10 cm i brösthöjd. Gallringsskog är skog där flertalet härskande och medhärskande träd är högre än 10 cm i brösthöjd. Beståndsåldern är lägre än lägsta tillåtna ålder för 18

19 3.2 Data Matematisk Statistik slutavverkning enligt skogsvårdslagen. Föryngringsavverkningsskog är skog där beståndsåldern har uppnått en sådan ålder att slutavverkning åtföljts av att återväxtåtgärder föreslås. Denna förklarande faktor förväntas korrelera positivt med försäljningspris då produktionskostnaden för slutavverkningsskog är lägre jämfört med skog i de andra huggningsklasserna. Huggningsklassen gallringssskog används som benchmark för att undvika fullständig multikolinjäritet [14] Tillväxt Kovariaten tillväxt beskriver hur stor virkesvolym per areal som förväntas växa på fastigheten under perioden 2012 till Anges i enheten kubikmeter skog per hektar och år. Denna förklarande faktor förväntades korrelera positivt med försäljningspris då en högre tillväxt antas möjliggöra en mer omfattande avverkning av skogen, av samma orsak som virkesförråd Träslagsfördelning Träslagsfördelningen är en grupp av kovariater som anger den procentuella andelen av virkesförrådet som består av tall, löv, björk eller gran. Trädslaget gran används som benchmark för att undvika fullständig multikolinjäritet Skogsmarksareal Beskriver hur stor areal av fastigheten som består av produktiv skogsmark. Här exkluderas exempelvis skogsimpediment och naturreservat. Anges i enheten hektar. Kovariaten skogsmarksareal är den enda kovariaten som uttrycks i en extensiv storhet. 3.2 Data Data som studeras kommer från skogsfastighetsförmedlaren Areal och består av skogsfastigheter sålda under åren 2012 till Totalt undersöktes 549 fastigheter. Till dessa fastigheter fanns information om dess försäljningspris, virkesförråd, Y-koordinat, areal produktiv skogsmark. För 188 av dessa fastigheter fanns även information om tillväxt, bonitet, träslagsfördelning samt avverkningsklassfördelning. Resterande kovariater erhålls från respektive fastighets position. Med anledning av att olika mycket information finns om olika mängder datapunkter kommer två modeller presenteras i resultatet, en som innehåller alla förklarande faktorer och en som innehåller alla datapunkter. 19

20 3.3 Tranformation av variabler Matematisk Statistik 3.3 Tranformation av variabler Regressioner kan i vissa fall förbättras om variabler logaritmeras. Logaritmering kan dels höja förklaringsgraden och dels hjälpa en regression att uppfylla Gauss-Markovs antaganden. En prismodell ska aldrig kunna prediktera ett negativt pris, vilket är ett skäl till att logaritmera responsvariabeln i denna studie. Endast strängt positiva kvotskalor kan logaritmeras. 20

21 Matematisk Statistik 4 Resultat Studien resulterade i två separata modeller med högre förklaringsgrad än andra regressioner. Den första modellen, härifrån benämnd breda modellen, inkluderar fler förklarande faktorer men endast 179 datapunkter. Den andra modellen, härifrån benämnd långa modellen, inkluderade färre förklarande faktorer men 534 datapunkter. Exkluderandet av extremvärden resulterade i att 9 datapunkter från breda modellen och 15 datapunkter från långa modellen inte ingick i regressionerna som respektive modell baseras på. Kovariaterna tillväxt, skogsmarksareal träslagsfördelning och huggningsklasser förutom andel kalmark är inte signifikanta och exkluderas därför ur modellerna. 4.1 Breda modellen Regressionen utfördes enligt modellen specificerad i (22) och försäljningsprices erhålls explicit i (23). Variablerna är angivna i Tabell 1. Kovariaten storstad har exkluderats ur denna modell eftersom den uppvisar fullständig multikolinjäritet med tätort för fastigheterna som ingick i regressionen, vilket diskuteras vidare under sektion 5.2. log(y) = β 0 + β 1 log(x 1 ) + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 log(x 5 ) + β 6 x 6 (22) y = exp(β 0 + β 1 log(x 1 ) + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 log(x 5 ) + β 6 x 6 ) (23) Tabell 1: Breda modellens variabler. y Försäljningspris kr/ha x 1 Virkesförråd m 3 skog/ha x 2 Y-koordinat Intervallskala x 3 Bonitet m 3 skog/ha x 4 Tätort Indikatorvariabel x 5 Befolkningstäthet invånare/km 2 x 6 Kalmark Procent Tillförlitlighet Modellen har en korrigerad förklaringsgrad på 0.900, vilket innebär att modellen förklarar 90.0 procent av en fastighets försäljningspris. Residualerna följer en normalfördelning tillräckligt bra för att modellen ska 21

22 4.1 Breda modellen Matematisk Statistik vara användbar, vilket visas i Figur 7. Residualdiagramet i Figur 8 visar att homoskedasticitet råder, då residualerna är jämt fördelade över samtliga predikterade y-värden. Samtliga kovariater som ingår i modellen har V IF < 5 (se Tabell 6 i Appendix), vilket tyder på att multikolinjäriteten är tillräckligt låg för att alla kovariater ska kunna användas. Dock finns en korrelationsgrad på mellan kovariaterna logaritmerad bonitet och Y-koordinat (se Tabell 7 i Appendix), vilket diskuteras vidare under sektion 5.2. Figur 7: Breda modellens residualer jämfört med en normalfördelning. 22

23 4.1 Breda modellen Matematisk Statistik Figur 8: Breda modellens residualdiagram Parametervärden I regressionen har parametervärdena β j skattats till värdena enligt Tabell 2 nedan. Där presenteras även parametrarnas standardavvikelser samt deras p-värden. Tabell 2: Breda modellens parametervärden. Parameter ˆβj Standardavvikelse p-värde Intercept < Logaritmerat virkesförråd < Y-koordinat < < Logaritmerad bonitet < Tätort < Logaritmerad befolkningstäthet < Kalmark <

24 4.2 Långa modellen Matematisk Statistik 4.2 Långa modellen Regressionen utfördes enligt modellen specificerad i (24) och försäljnignspriset erhålls explicit i (25). Variablerna är angivna i Tabell 3. log(y) = β 0 + β 1 x 1 + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 x 5 (24) y = exp(β 0 + β 1 x 1 + β 2 x 2 + β 3 log(x 3 ) + β 4 x 4 + β 5 x 5 ) (25) Tabell 3: Långa modellens variabler. y Försäljningspris kr/ha x 0 Intercept Konstant = 1 x 1 Virkesförråd m 3 skog/ha x 2 Y-koordinat Intervallskala x 3 Befolkningstäthet invånare/km 2 x 4 Tätort Indikatorvariabel x 5 Storstad Indikatorvariabel Figur 9: Långa modellens residualer jämfört med en normalfördelning. 24

25 4.2 Långa modellen Matematisk Statistik Figur 10: Långa modellens residualdiagram Tillförlitlighet Modellens korrigerade förklaringsgrad är 0.869, vilket innebär att modellen förklarar 86.9 procent av en fastighets försäljningspris. Även i denna modell är residualerna normalfördelade enligt Figur 9. Residualplotten i Figur 10 visar att homoskedasticitet råder. Samtliga kovariater som ingår i modellen uppfyller kravet V IF < 5 (se Tabell 6 i Appendix), vilket åter igen tyder på att multikolinjäriteten är tillräckligt låg för att alla kovariater ska kunna användas Parametervärden I regressionen har parametervärdena β j skattats till värdena enligt Tabell 4 nedan. Där presenteras även parametrarnas standardavvikelser samt deras p-värde. 25

26 4.2 Långa modellen Matematisk Statistik Tabell 4: Långa modellens parametervärden. Parameter ˆβj Standardavvikelse p-värde Intercept < Virkesförråd < < Y-koordinat < < Logaritmerad befolkningstäthet < Tätort < Storstad <

27 Matematisk Statistik 5 Diskussion 5.1 Modelljämförelse Båda modellerna uppfyller Gauss-Markovs antaganden och har därmed giltiga parameterskattningar ˆβ j. Den långa respektive breda modellen lyckas förklara försäljningspriset med en förklaringsgrad på 86.9 respektive 90.0 procent. Modellernas skattade parametervärden för gemensamma kovariater skils åt modellerna emellan, se Tabell 2 och Tabell 4. Detta beror på att kovariater som finns i en modell men inte i den andra förklaras med hjälp av alternativa kovariater som absorberar en större del av förklaringsgraden. Det faktum att den breda modellen ger en högre förklaringsgrad än den långa visar på att modellen blev träffsäkrare av att lägga till nya relevanta förklarande faktorer. Den långa modellens residualfördelning är mer lik normalfördelning än den breda modellens residualfördelning, vilket antas bero på fler datapunkter. Men den breda modellens residualer anses följa normalfördelningen tillräckligt bra för att modellen ska kunna anses giltig. Denna studies slutgiltiga prediktionsmodell väljs till den breda modellen eftersom den har en högre förklaringsgrad. 5.2 Multikolinjäriteter Det hypotiserades att kovariaterna bonitet och Y-koordinat skulle uppvisa en hög multikolinjäritet. I Figur 11 ser man att fastigheter med hög bonitet tenderar att ligga i södra Sverige. I Tabell 7 i Appendix kan en korrelationsgrad på mellan dessa kovariater avläsas, vilket är en hög korrelation. Denna multikolinjäritet har dock inte gett någon av kovariaterna ett VIF-värde över 5 och deras standardavvikelser är låga nog för att bå- Figur 11: Boniteten hos de undersökta fastigheterna markerade på en Sverigekarta. Gröna fastigheter har hög bonitet och röda har låg bonitet. 27

28 5.3 Strukturanalys Matematisk Statistik da kovariaterna ska vara signifikanta. Då modellen enbart används till prediktion är denna multikolinjäritet inget problem. I den breda modellen hade kovariaten tätort fullständig multikolinjäritet med kovariaten storstad. Det beror på att samtliga fastigheter som uppfyllde kravet för tätort också uppfyllde kravet för storstad och vice versa. Därför exkluderades kovariaten storstad från modellen och dess inverkan kan förklaras av kovariaten tätort. I den långa modellen är både storstad och tätort signifikanta, vilket tyder på att båda dessa egenskaper har separata bidrag till försäljningspriset. 5.3 Strukturanalys Samtliga signifikanta parameterskattningar stödjer hypotesformuleringarna av kovariaternas inverkan på försäljningspriset från sektion 3.1. Detta stödjer denna studies hypoteser samt resultaten hos tidigare strukturanalyser för dessa kovariater. Det fanns kovariater som hypotiserats ha en inverkan på försäljningspriset men som inte hade någon signifikans i regressionerna där de ingick. Kovariaten tillväxt hade visserligen en signifikans i regressioner där den ingick utan kovariaten bonitet. När bonitet användes försvann dess signifikans, vilket är ett tecken på kraftig multikolinjäritet mellan dessa kovariater. Därför utformades en regression där det geometriska medelvärdet av bonitet och tillväxt definierades som en ny kovariat. Förhoppningen var att bådas inverkan skulle inkluderas i modellen. Regressionen resulterade i en lägre förklaringsgrad än modellen innehållandes enbart bonitet. Eftersom regressionerna med enbart kovariaten bonitet gav en högre förklaringsgrad exkluderades därför kovariaten tillväxt från modellen. Detta skulle kunna tyda på att tillväxt har en inverkan på försäljningspriset, men ingen inverkan som inte kan förklaras bättre av boniteten. Även träslagsfördelning och skogsmarksareal användes som kovariater i försöksregressioner men ingen av dem hade signifikans. Det bryter dock inte mot någon tidigare hypotes då en sådan aldrig formulerades. Regressionerna med huggningsklasser som kovariater ger endast en signifikans för kovariaten kalmark. Den kovariaten ingår i den breda modellen med ett negativt uppskattat parametervärde, vilket ligger i linje med hypotesen. De andra huggningsklasserna uppvisar inte någon signifikans i regressioner där de ingick, tvärtemot hypoteserna om dem. Detta skulle kunna bero på att inverkan på försäljningspriset från huggnignsklasserna förklaras av virkesförråd, då äldre skog har en större virkesvolym. 28

29 5.4 Felkällor Matematisk Statistik 5.4 Felkällor Den breda modellen lyckades förklara försäljningspriset med en förklaringsgrad på 90.0 procent. De resterande 10.0 procenten kan bero på obehandlade förklarande faktorer, faktorer som är kvalitativa samt slumpmässiga avvikelser Obehandlade förklarande faktorer En fallstudie av ett urval av fastigheter med försäljningspriser som avviker kraftigt från prediktionsmodellen visar att över- respektive underpredikterade fastigheter i många fall har gemensamma egenskaper. Detta skulle kunna tyda på att förklarande faktorer saknas i modellen. En gemensam egenskap hos dessa fastigheter är medelskotningsavstånd. Det är ett mått på hur lång sträcka ett fordon måste färdas i ren skogsterräng för att nå en genomsnittlig punkt som ligger inom fastigheten. Ett högt medelskotningsavstånd antas leda till ett lägre försäljningspris eftersom det är kopplat till högre avverkningskostnader. Fallstudierna visade att många av de underpredikterade fastigheterna har ett lågt medelskotningsavstånd, medan de överpredikterade fastigheterna ofta har ett högt medelskotningsavstånd, vilket ligger i linje med denna hypotes Kvalitativa förklarande faktorer En fallstidue av fastigheter som exkluderas från modellen på grund av ett för högt Cook s-avstånd visar på ett antal kvalitativa egenskaper som antas beskriva avvikelsen från modellen. Exempelvis beskrivs en fastighet ha en "milsvid utsikt" och "anor från 1200-talet", vilket är egenskaper som antas ha ökat försäljningspriset. Sådana egenskaper bör alltid beaktas då man försöker prediktera ett försäljningspris Slumpmässiga avvikelser En viss slumpmässig avvikelse ingår alltid i statistiska modeller. Avvikelsen kan ibland förklaras av tillfälliga omständigheter. Om exempelvis många intressenter finns för en fastighet vid en given tidpunkt kommer försäljningspriset troligen att öka. Skogsfastigheter har ofta få spekulanter och budgivning förekommer inte alltid. Detta leder enligt Ulrik Abelson till att prisspridningen hos fastigheterna kan bli stora [15]. Den förväntade avkastningen på skog är mycket långsiktig och därför osäker [5]. Framtida händelser som påverkar prisbilden, exempelvis stormar, skogsbränder och finanskriser, är svåra att prediktera. Dessutom föreligger ofta andra intressen än rena vinstintressen hos potentiella köpare. I en studie hade endast 20 procent enbart vinstintressen, 30 procent hade endast 29

30 5.5 Prediktion Matematisk Statistik icke-vinstintressen och 50 procent hade blandade intressen [16]. Dessa faktorer bidrar troligen till slumpmässiga avvikelser hos skogsfastigheters försäljningspriser. 5.5 Prediktion Prediktion antar att förhållandena är likadana som när modellen skapades. Förklarande faktorer, som under tiden data inhämtades var stabila och inte visade någon påverkan, kan mycket väl förändras i ett senare skede och påverka försäljningspriset på ett sätt som gör modellen osäkrare. Som tidigare nämnt har konsumentprisindex varit relativt stabilt under tiden försäljningarna som denna studie bygger på gjordes. Ett predikterat försäljningspris bör därför korrigeras med det aktuella konsumentprisindexet mot 2014 för den tid då försäljningen utförs. 5.6 Förslag på fortsatta studier Förbättringar i den befintliga modellen kan göras för att öka dess förklaringsgrad. Ytterligare kovariater att undersöka i en fortsatt studie med eventuell signifikans föreslås i sektion 5.3, som att inkludera medelskotningsavstånd som kovaiat och betrakta huggningsklasser fördelade på virkesförrådet istället för arealen. Positionen skulle dessutom kunna utnyttjas bättre genom att exempelvis hypotisera om vilka platsrelaterade faktorer som påverkar försäljningspriset på en skogsfastighet. Indikatorvariabeln tätort kan göras om till en kontinuerlig variabel som beskriver logaritmen av avståndet från en tätort. Det logaritmiska beroendet motiveras av att avståndet till en tätort rimligtvis får en mindre inverkan på försäljningspriset vid långa avstånd. Dessutom skulle ett större antal datapunkter förbättra säkerheten i regressionanalysen. Denna studie har utöver prediktionsmodellen funnit intressanta strukturella samband, se sektion 5.3. Detta motiverar till fortsatta strukturanalyser kring ämnet. 30

31 Matematisk Statistik 6 Slutsats Försäljningspriset på en skogsfastighet i Sverige kan med hjälp av modellen framtagen i denna studie predikteras till en förklaringsgrad på 90.0 procent. Kovariaterna virkesförråd, Y-koordinat, tätort, kalmark, befolkningstäthet och bonitet ingår i den slutgiltiga modellen, vilkas bidrag följer de formulerade hypoteserna. En analys av fastigheter som avviker kraftigt från modellen antyder att några påverkande faktorer saknas i modellen. Övriga avvikelser från modellen får anses bero på kvalitativa och slumpmässiga faktorer. Vi anser att denna studies målsättning är uppfylld. Modellen har en tillräckligt hög förklaringsgrad för att prediktera till vilket pris skogsfastigheter kommer säljas, kompletterat med kvalitativa faktorer som vägs in för varje enskild fastighet. 31

32 Matematisk Statistik 7 Referenser [1] Skogsstyrelsen. Fakta om skogen. [www]. Hämtad från < Hämtat [2] Skogsindustrierna. (2011). Skogsindustrin - En faktasamling. Stockholm: Skogsindustrierna. ISSN [3] Riksdagen. Betänkande 1990/91:JoU26 Ändring i jordförvärvslagen m.m.. [www]. Hämtad från < /Arenden/199091/JoU26/>. Hämtat [4] Ekwall, H. Skogsskötselns ekonomi. [www]. Hämtat från < Skogsskotselns%20ekonomi.pdf>. Publicerat Hämtat [5] LRF Konsult. Skogsbarometern [www]. Hämtat från < marknadenfor-skogsmark-har-stabiliserats-under-2014/>. Hämtat [6] Kleinbaum, David G. (2008). Applied Regression Analysis and Other Multivariable Methods. 4. uppl. Druid Hills, GA: Brooks/Cole Cengage Learning. ISBN [7] Gujarati, Damodar N. (2009). Basic Econometrics. 5. uppl. New York, NY: McGraw-Hill Education. ISBN [8] SCB. Konsumentprisindex. [www]. Hämtat från < / Hitta statistik/statistik amne/priser och konsumtion/konsumentprisindex/konsumentprisindex KPI/33772/33779/Konsu KPI/272151/>. Hämtat [9] Swahn, K. (2013). Faktorer som förklarar marknadspriset för skogsfastigheter i Kalmar län. Diss. Umeå: Kandidatarbete. [10] Hägglund, Björn (1987). Handledning i bonitering med Skogshögskolans boniteringssystem. 2. uppl. Jönköping: Skogsstyr. ISBN [11] Gyllenstierna, L. (2014). Bonitet som värderingsunderlag Virkesproduktionsförmåga översatt till monetära värden. Diss. Umeå: Kandidatarbete. [12] Nationalencyklopedin. Tätort. [www]. Hämtat från < /lång/tätort>. Hämtat [13] Högberg, J. (2012). Vad påverkar marknadsvärdet på en skogsfastighet? - En statistisk analys av markvärdet. Diss. Uppsala: Masterarbete [14] Christiansen, L. (2014). Skogsstatistik Årsbok Jönköping: Skogsstyrelsen. ISBN [15] Abelson, U. (2014). Fastighetsmarknaden: Tydligt bättre i söder. Skogsvärden, volym 4, [16] Bernhardsson, S. (2011). Ickemonetära värdens påverkan på skogsfastighetspriser, för privatpersoner. Diss. Karlstad: C-uppsats. 32

33 Matematisk Statistik 8 Appendix Tabell 5: Egenskaper Modell Bred Lång R Korrigerat R Maximalt Cook s-avstånd Tabell 6: VIF-värden Modell Bred Lång Storstad Tätort Logaritmerad befolkningstäthet Y-koordinat Virkesförråd Logaritmerat virkesförråd Logaritmerad bonitet Kalmark Tabell 7: Korrelationer hos den breda modell Logaritmerat försäljningspris Logaritmerad befolkningstäthet Logaritmerad befolkningstäthet Logaritmerat virkesförråd Logaritmerad bonitet Tätort Y-koordinat Kalmark

34 Matematisk Statistik Logaritmerat virkesförråd Logaritmerad bonitet Logaritmerad befolkningstäthet Logaritmerat virkesförråd Logaritmerad bonitet Tätort Y-koordinat Kalmark Tätort Y-koordinat Kalmark Logaritmerad befolkningstäthet Logaritmerat virkesförråd Logaritmerad bonitet Tätort Y-koordinat Kalmark Tabell 8: Korrelationer hos den långa modell Logaritmerat försäljningspris Storstad Tätort Storstad Tätort Logaritmerad befolkningstäthet Y-koordinat Virkesförråd Logaritmerad befolkningstäthet Y-koordinat Virkesförråd Storstad Tätort Logaritmerad befolkningstäthet Y-koordinat Virkesförråd