Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys

Transkript

1 Estimation av bostadsrättspriser i Stockholms innerstad medelst multipel regressionsanalys Rickard Gunnvald F-09 Patrik Gunnvald F-09 ricgun@kth.se gunnvald@kth.se Kurs SA104X Examensarbete inom teknisk fysik, grundnivå Institutionen för Matematik, inriktning Matematisk Statistik Kungliga Tekniska Högskolan Handledare: Harald Lang 21 Maj 2012

2 Abstract This report aims to study the condominium prices in central Stockholm and the factors that affect these prices. A linear regression model was set up and data about relevant covariates such as floor area, mortgage rates and where the condominium is situated were gathered to assess if and how they influence the price. The raw data was processed and enhanced to gain as much relevant information as possible to the model. To determine the covariates influence on the final price, regressions were ran and various tests were performed on the output data. This lead to that the covariates were either kept or excluded from the original model depending on the outcome of these tests. The above resulted in a model where all remaining covariates are significant for the final price of the condominium. The authors draw the conclusion that, with the models limitations taken into account, the project satisfies one of our purposes to be able to give a correct price on a condominium in central Stockholm to an acceptable degree. The other purpose of giving more specific information about what the individual characteristics of a condominium is regarded as fulfilled. However, the authors also note that there are possibilities for additional model development which would be beneficial for the purposes of this project. Sammanfattning Rapportens syften är att studera dels bostadsrättspriser i Stockholms innerstad och dels de faktorer som påverkar dessa priser. En linjär regressionsmodell införs och data om relevanta kovariater såsom golvyta, bolåneräntor och vart bostadsrätten ligger samlades in för att bedöma om och hur de påverkar priset. Rådata behandlades och förbättrades för att få ut så mycket relevant information som möjligt till modellen. För att bestämma kovariaternas påverkan på slutpriset så kördes regressioner och olika test användes på resulterande data. Detta ledde till att kovariaterna antingen behölls eller uteslöts från originalmodellen beroende på testresultaten. Ovan resulterade i två modeller där alla kvarvarande kovariater är signifikanta för bostadsrättslägenhetens slutpris. Författarna drar slutsatsen att - med modellens giltighetsområden och begräsningar i beaktande - arbetet uppfyller vårt ena syfte om att kunna sätta rätt pris på bostadsrättslägenheter i Stockholms innerstad till en acceptabel grad. Det andra syftet om att kunna ge mer konkret information av vad specifika egenskaper är värda anser författarna vara uppfyllt, men noterar att det finns utrymme för vidare studier som skulle förbättra våra två modeller och till en högre grad uppfylla arbetets syften.

3 Innehåll 1 Inledning och syfte 1 2 Generellt om regressionsanalys Terminologi Matematisk bakgrund Nödvändiga antaganden Linjär regressionsmodell Ordinary Least Square (OLS) Kort om hypotesprövning Test- och mätmetoder F-test p-värden White s robust errors Bayesian information criterion (BIC) R 2 och Radj Fallgropar vid regressionsanalys "The Dummy Variable Trap" Multikollinearitet Heteroskedasticitet Endogenitet Utelämnande av relevanta kovariater Samtidighet Självselektion Metod Allmänt om utförandet Beslutsregler Våra två grundmodeller Log-modell Våra kovariater Datainsamling Rensning och förbättring av erhållen data Slutpris, avgift och rum Våning Sekelskiftes, Nybyggt Områdesdummys OMXS

4 INNEHÅLL INNEHÅLL Bolåneräntor Blandtermsdummys Att transformera oberoende variabler Resultat Tabeller och diagram Log-modellen Våra två slutmodeller Huvudmodellen Alternativmodellen Ytterligare resultat för huvudmodellen Diskussion Resultatens påvisande och diskussion kring dessa Normalfördelningshistogram och residualplot Kort om Log-modellen Uteslutna kovariater Signifikanta kovariater Felkällor Övrigt kring resultaten Slutsatser och kommentarer Förslag för vidare undersökning Referenser 39 4

5 Kapitel 1 Inledning och syfte Priserna på bostäder i Sverige i allmänhet och bostadsrätter i Stockholms innerstad i synnerhet är ständigt i medias rampljus. De som köpt en bostadsrätt i Stockholms innerstad för år sedan har gjort en mycket god affär, då priserna gått stadigt uppåt 1. Ett sänkt bolånetak i kombination med den finansiella krisen som pågått i stort sett sedan 2008 har bidragit till mer stabiliserade priser. Att köpa en bostad är för många den största affär man gör i livet, varför allmänheten har ett stort intresse av att inte göra en dålig affär; särskilt med tanke på den rekordhöga skuldsättning som många hushåll utsätter sig för 2. Således ställer sig den går i köptankar frågan: Vilket pris är rimligt att betala för den här bostadsrätten?. Eftersom det är många parametrar som väger in kan det vara svårt både för köpare/säljare och mäklare att på ett tillförlitligt sätt uppskatta bostadens värde. Syftet med detta arbete är att svara på bl.a. denna fråga, och på ett statistiskt underbyggt sätt ge en vägledning till vad priset bör vara. Ett ytterligare syfte är att kunna beskriva hur mycket de enskilda parametrarna bidrar till slutpriset, så att man som enskild person vet vad det är man betalar för och därigenom kan göra ett bättre övervägande mellan vad man vill ha och vad man är beredd att betala. Detta kan även underlätta investeringsbeslut gällande t.ex. nybygge av balkong eller öppen spis. För att kunna svara på frågorna ovan använder vi oss av en regressionsmodell som vi tagit fram med hjälp av multipel regressionsanalys ekonomi/hushallens skulder/ 1

6 Kapitel 2 Generellt om regressionsanalys 2.1 Terminologi Y i = β 0 + β 1 X i1 + β 2 X i2 + + β k X ik + e i Kovariat: ibland även kallad regressor, oberoende variabel eller endast variabel. Vanlig notation är X eller x i där i är en specifik kovariat i ekvationen. Detta är den som påverkar beroende variabeln. Beta: är den koefficient som multipliceras med respektive kovariat. Beroende variabel: ibland även kallad regressand eller observerad variabel. Vanlig notation Y eller y i. Dummy-variabel: är en kovariat som endast antar värdena 0 eller 1. Residual: eller felterm, är den del vi ej kan förklara med hjälp av vår ekvation. Vanlig notation e i men även andra notationer som ê i, e i, u, û i förekommer för att kunna särskilja feltermer. Som notationen antyder erhålles för varje uppmätt värde y i ett specifikt e i. Strukturtolkning: är när man undersöker huruvida en kovariat påverkar den beroende variabeln. Benchmark: sätts bl.a. av praktiska skäl för att lättare kunna jämföra förändring av vissa kovariater jämfört med ens benchmark eller för att undvika multikollinearitet (se 2.4.2). Instrumentella variabler: införs för att avhjälpa endogenitet (se 2.4.4). Grundidén är att hitta nya kovariater som är väl korrelerade med den endogena kovariaten men okorrelerad med feltermen. När dessa hittas tas den endogena bort och de nya kovariaterna läggs till de gamla exogena kovariaterna. De gamla och nya kovariaterna kallas nu för instrumentella variabler. Ceteris paribus: är latin för allt annat lika. Används bland annat då man diskuterar hur en kovariat, om man endast hade ändrat den och inget annat, eller ceteris paribus påvekar den beroende variabeln. 2

7 2. Generellt om regressionsanalys 2.2. MATEMATISK BAKGRUND 2.2 Matematisk bakgrund Nödvändiga antaganden Då Ordinary Least Square (se 2.2.3) skall ge lämpliga estimatorer för koefficienterna i den linjära regressionsmodellen krävs att vissa grundantaganden är uppfyllda. Givet modellen i ekv. 2.3, i = 1,, n skall följande gälla: 1. Feltermerna e i antas ha ett villkorat medelvärde lika med 0, dvs att: E(e i X 1i, X 2i,..., X ki ) = 0 (2.1) Notera att kravet är att medelvärdet är 0. Alltså tillåts att enskilda Y i är över eller under regressionslinjen (vilket ger upphov till en felterm e i ) så länge det förväntade medelvärdet av dessa feltermer är Feltermerna e i antas oberoende av varandra samt vara homoskedastiska (se 2.4.3) och ha en varians σ 2, alltså: E(e 2 i X 1i, X 2i,..., X ki ) = σ 2 (2.2) där σ 2 är okänd. Observera att homoskedasticitet inte är normalfallet då man behandlar verklig data. Det finns dock sätt att hantera detta problem, vilket kommer diskuteras senare i rapporten. 3. Feltermerna e i antas vara likafördelade. Ofta antas även att de är normalfördelade, vilket kan framstå som ett mer vågat antagande. Detta antagande har undersökts av oss och justifieras av Fig Det får ej förekomma perfekt multikollinearitet (se 2.4.2) Linjär regressionsmodell Den generella linjära regressionmodellen definieras enligt: Y i = β 0 + β 1 X i1 + β 2 X i β k X ik + e i (2.3) där Y i är observationer som beror på kovariaterna X ik. HL i (2.3) kan delas upp i två huvuddelar, den förklarade delen och den oförklarade delen. Modellen kan alltså endast förklara en del av det observerande värdet och resterande är en avvikelse, eller felterm, där modellen och verkligheten skiljer sig åt. Regressionsmodellen (2.3) kan även uttryckas på matrisform enligt: Y = Xβ + e (2.4) där Y = Y 1 Y 2. Y n n 1 X = 1 X 11 X 12 X 1k 1 X 21 X 22 X 2k X n1 X n2 X nk n (k + 1) 3

8 2.3. TEST- OCH MÄTMETODER 2. Generellt om regressionsanalys β = β 0 β 2. β k (k + 1) 1 e = Modellen kräver att antagandena i är uppfyllda Ordinary Least Square (OLS) OLS eller Ordinary Least Square estimationen av Y definieras enligt: som uppfyller normalekvationen e 1 e 2.. e n n 1 Y = X ˆβ + ê (2.5) X t ê = 0 (2.6) OLS estimationen av β är ˆβ och ê är residualerna av OLS:en. ˆβ minimerar kvadratsumman av residualerna 1, dvs. det gäller att ê t ê = ê 2 minimeras Kort om hypotesprövning Vid hypotesprövning ställer man upp en nollhypotes H 0 och en mothypotes H 1. Sedan bestämmer man sig för vilken risknivå man vill ha när man säger att man kan förkasta nollhypotesen till förmån för mothypotesen. Risknivån 5% innebär att vi tar 5% risk att ha fel när vi förkastar nollhypotesen, dvs. säger att nollhypotesen är falsk. Man räknar sedan på observerad data för att se om nollhypotesen går att förkasta till förmån för mothypotesen. Det är detta som ligger till grund för besluten att kasta eller behålla en kovariat i den förklarande regressionsmodellen. Exempelvis kan en nollhypotes vara: Kovariaten x i har ingen påverkan på den förklarande variabeln. Mothypotesen vi väljer blir således att x i har påverkan på den förklarande variabeln. 2.3 Test- och mätmetoder F-test Anta att vi har satt upp en nollhypotes och en mothypotes som exemplet beskrivet i Vi vill alltså testa om en kovariats koefficient β är noll. Testvariabeln ( ( F = ˆβ ) 2 β 0 ) SE( ˆβ) (2.7) följer under nollhypotesen en F (r, n k 1)-fördelning, där r = antal restriktioner och n,k enl. tidigare notation är antal observationer respektive antal kovariater. Om vi vill testa att en koefficient β 1 = 0 har vi en restriktion. Vill vi testa att β 1 = β 2 = 0 så har vi två restriktioner etc. Under H 0 är β 0 = 0 och ˆβ samt SE( ˆβ) kan fås genom att göra en regression. För att kompensera för heteroskedasticitet (se 2.4.3) bör man beräkna White s robus errors (se 2.3.3) innan man beräknar sitt F-värde. För höga F-värden kan vi förkasta nollhypotesen (exakt värde beror på situation). Detta värde kan sedan användas för att antingen förkasta eller behålla nollhypotesen direkt, eller för att beräkna ett p-värde. 1 För bevis, se Lang, H. A Brief Introduction to Econometrics, s 6 4

9 2. Generellt om regressionsanalys 2.3. TEST- OCH MÄTMETODER p-värden En kovariats p-värde säger hur stor risk vi tar att ha fel när vi förkastar H 0 (att kovariaten inte har betydelse för den förklarande variabeln). Det är alltså ett mått på hur stor risk vi tar att ha fel när vi säger att kovariaten har betydelse. Om en godtycklig kovariat har p-värdet 0,023 kan vi alltså säga att kovariaten har inverkan på den förklarande variabeln med 2,3% risk att ha fel. P-värdet är krasst sett den yt-andel under F-distributionen som ligger bortom vårt F-värde. Figur 2.1: Ett F-värde och dess relation till p-värdet. Här på risknivån α = 0, 05 som motsvaras av ett F-värde på 2, White s robust errors Även kallad White s heteroscedasticity-consistent estimator. Används för att beräkna residualer som är konsistenta med observationer som har olika varians (se 2.4.3). Det gäller att White s uppskattade standardavvikelse, även kallad standardfelet (eng: standard error, därav SE-notationen), av koefficienten β 3 ges av: SE( ˆβ (ûi ê i ) 3 ) = 2 2, i = 1,, n (2.8) ûi där β 3 är en koefficient i modellen och û i är felen associerade med denna. Notera skillnaden mellan felen e i och u i, vi har enligt ekv. (2.3): ê i = Y i ( ˆβ 0 + ˆβ 1 X i1 + ˆβ 2 X i ˆβ k X ik ) (2.9) medan felet u i fås genom att köra en regression med de övriga kovariaterna på, i det här fallet, X 3 då vi undersöker β 3. Den beroende variabeln är alltså X 3 och felet fås enligt: û i = X i3 ( ˆβ 0 + ˆβ 1 X i1 + ˆβ 2 X i2 + ˆβ 4 X i ˆβ k X ik) (2.10) Bayesian information criterion (BIC) Under antagandet att modellens residualer är oberoende och likafördelade enligt normalfördelningen (se 2.2.1) gäller att: BIC = n ln(ˆσ 2 e) + k ln(n) (2.11) 5

10 2.3. TEST- OCH MÄTMETODER 2. Generellt om regressionsanalys där n = antal observationer ˆσ 2 = variansen hos residualen k = antal kovariater inklusive interceptet Fler kovariater kan öka förklarandegraden, men också resultera i overfitting, vilket kan leta till svag prediktionsförmåga hos modellen då den kan överdriva små fluktuationer i data 2. BIC löser detta genom att introducera en straffterm för antalet inkluderade kovariater, vilket alltså hjälper till att avgöra om en kovariat bör tas med eller ej. Här skall man välja den modell som minimerar BIC-värdet, dvs. om termen n ln(ˆσ 2 e) minskar mer än k ln(n) då en till kovariat inkluderas så bör denna vara med i regressionsmodellen. Med andra ord har standardfelet alltså minskat så till den grad att den första termen blir mindre än strafftermen då en ytterligare kovariat adderas R 2 och R 2 adj En regressions R 2 är den andel av vår mätnings förändring av Y i som förklaras av våra kovariater och således blir 1 R 2 den andel av förändringen som våra kovariater inte kan förklara. Ett R 2 hyfsat nära 1 är således önskvärt. R 2 är även kvadraten av korrelationskoefficienten mellan Y och X ˆβ. Matematiskt är R 2 = 1 SSR (2.12) SST där SSR = Sum of Squares Residual = n i=1 ê i 2 SST = Sum of Squares Total = n (Y i Ȳ )2 i=1 Generellt blir en uppskattad koefficient ytterst sällan exakt noll (dvs. ytterst sällan ingen som helst förklarandegrad), varför man så fort man lägger till en kovariat i modellen också ökar sitt R 2. Observera att R 2 inte säger något om standardfelet hos koefficienten. Eftersom R 2 alltid ökar när en ny kovariat läggs till, så betyder det att ett högre R 2 inte alltid innebär bättre precision i modellen. Ett sätt att komma till rätta med detta är att reducera R 2 med någon faktor då en ny kovariat läggs till, och detta är precis vad Radj 2 gör. Vidare är Radj 2 = R 2 = 1 n 1 SSR n k 1 SST (2.13) där n = antal observationer och k = antal kovariater i regressionsmodellen. För att Radj 2 skall bli högre måste SSR SST minska mer än n 1 ökar, dvs. den oförklarade andelen måste minska n k 1 mer än den nya större reduceringsfaktorn. Vi kan även notera att n 1 n k 1 > 1 n, k > 0 = R2 adj < R2 Som nämnt ovan måste man ha i åtanke om ett högre R 2 adj respektive R2 verkligen förbättrar modellen. För att komma fram till om en variabel skall inkluderas eller ej kan man bl.a. använda sig av p-värden och BIC enligt tidigare

11 2. Generellt om regressionsanalys 2.4. FALLGROPAR VID REGRESSIONSANALYS 2.4 Fallgropar vid regressionsanalys "The Dummy Variable Trap" Vid användande av flera dummyvariabler finns det risk att man hamnar i the Dummy Variable Trap. Generellt, om det finns n st. dummyvariabler x 1,..., x n där varje observation faller under exakt en och endast en av dessa dummyvariabler och summan av dessa dummyvariabler är lika med ett, allstå att: n x i = 1 i=1 för varje observation i så får vi perfekt multikollinearitet, vilket kan läsas mer om nedan. Ett exempel kan vara om man ska prediktera årsinkomst beroende på om man är (innerstadsbo), (förortsbo) eller (landsbygdsbo). Dessa dummys är ömsesidigt uteslutande och kollektivt uttömmande då varje person alltid hänförs till en och endast en av dessa kategorier, vilket således leder till den nyligen beskrivna situationen Multikollinearitet Multikollinearitet uppstår då en av kovariaterna är en perfekt- eller nästan perfekt linjärkombination av de andra kovariaterna. Ex: Låt x 1 och x 2 vara två godtyckliga kovariater. Om corr(x 1, x 2 ) = 1 corr(x 1, x 2 ) 1 uppstår perfekt multikollinearitet uppstår imperfekt multikollinearitet Imperfekt multikollinearitet förhindrar inte att en prediktion kan göras, men kan innebära att en eller flera av kovariaterna estimeras oprecist. Betrakta situationen där vi använder en persons (ålder), (arbetslivserfarenhet) och (utbildningsnivå) för att uppskatta dennes lön. Räkningen (ålder) (arbetslivserfarenhet) (utbildningsnivå) är relativt konstant, dvs. vet vi två av kovariaterna kan vi med god precision uppskatta den tredje. Således är den tredje en nästan perfekt linjärkombination av de första två och vi får multikollinearitet. Vid perfekt multikollinearitet fås ingen unik lösning till OLS-estimationen, och rent beräkningsmässigt innebär det division med noll 3. I grunden handlar det om ett logiskt fel; koefficienten av, säg, x 1 är effekten på den beroende variabeln då x 1 ändras ceteris paribus. Men förändringen av x 1 är beroende av förändringen av x 2 då de är linjärkombinationer av varandra vilket leder till en motsägelse. Multikollinearitet uppstår ofta som ett rent logiskt fel av de som sätter upp regressionsmodellen, och kan vara olika svårt att upptäcka. Ett varningstecken på att multikollinearitet kan ha uppstått är ofta stora standardavvikelser på vissa kovariater, eller intuitivt felaktiga tecken på kovariaternas koefficienter. Detta som ett resultat av att det blir svårt för Excel att avgöra vilken av kovariaterna det är som egentligen har inverkan på den beroende variabeln. Ofta kan problemen avhjälpas genom att en av de berörda kovariaterna sätts till ett benchmark Heteroskedasticitet Heteroskedasticitet betyder att kovariaternas feltermer e i inte har samma standardavvikelse, vilket är det vanliga fallet då man studerar data från verkliga världen. Det är viktigt att veta att Excel räknar med homoskedasticitet, dvs. att feltermerna har samma standardavvikelse. Detta leder att man lätt får fel standardavvikelse för kovariaternas koefficienter, något som kan avhjälpas genom att använda White s robust errors (se 2.3.3). 3 För närmare beskrivning se Stock,J och Watson,M, Introduction to Econometrics, s

12 2.4. FALLGROPAR VID REGRESSIONSANALYS 2. Generellt om regressionsanalys Endogenitet Endogenitet är ett bredare begrepp som rent matematiskt betyder att feltermen i ekvationen är korrelerad med någon kovariat. Det finns flera olika anledningar till att detta fenomen kan uppstå, som t.ex. samtidighet, mätfel, utelämnande av relevanta variabler, självselektion med mera. Detta betyder att koefficienten för den kovariat som är korrelerad med feltermen kommer att påverkas och få ett annat värde Utelämnande av relevanta kovariater Detta betyder att man har missat att inkludera betydande kovariater. Vi kan alltså lösa en endogenitet, korrelation mellan feltermen och en kovariat, genom att inse vad för kovariat som kan gömma sig i vår okända felterm. Ett tydligt exempel på detta är om man kör en regression med Pris på bil som beroende variabel och bränsleförbrukning som kovariat. Eftersom låg bränsleförbrukning i grunden är en bra sak, borde priset på bilen stiga. Om man hade kört en regression skulle man dock rimligtvis finna att koefficienten är positiv, dvs. att högre bränsleförbrukning ökar priset. I det här fallet så kan det vara kovariaten motoreffekt som finns i feltermen eftersom en hög motoreffekt är något generellt positivt som alltså ökar både bränsleförbrukningen och priset på bilen Samtidighet I vanliga fall har vi att kovariaterna påverkar den beroende variabeln. När samtidighet inträffar betyder det att den beroende variabeln också påverkar en eller flera kovariater. Detta sker exempelvis om vi vill bedöma om en större poliskår (kovariat) minskar antalet brott (beroende variabel), men ett högre antal brott får också följden att myndigheterna ökar poliskårens storlek Självselektion Detta är ett vanligt problem som bland annat försäkringsbolag måste ta hänsyn till. Betrakta t.ex. en drulleförsäkring och dess premie. Priset eller försäkringspremien som någon skall betala för försäkringen skall, tillsammans med övriga försäkringstagare, något förenklat täcka försäkringsbolagets kostnader associerade med de skador som bolaget tvingas ersätta. Om bolaget tar ett slumpvis stickprov ur befolkningen och undersöker hur stora kostnader de kommer behöva betala och prissätter drulleförsäkringen efter det kommer bolaget gå med förlust. Varför? Därför att det sker en självselektion där generellt sett klantigare människor är benägna att skaffa en drulleförsäkring, vilket alltså ger högre kostnader än något slumpvis valt genomsnitt. Ofta kan en självselektion uppstå när individens fria vilja är med och påverkar. 8

13 Kapitel 3 Metod 3.1 Allmänt om utförandet Till att börja med krävs idéer om vilka egenskaper det finns hos en lägenhet som påverkar dess pris. När författarna hade en föreställning om det så kontaktades många mäklarbyråer och statistikföretag i jakt på bästa tillgängliga data om bostadsobjekten. Därefter söktes mer data som inte var direkt relaterad till bostadsobjekten, t.ex. börskurser och räntenivåer. Rådata sammanställdes, kontrollerades och förbättrades vilket kan läsas mer om i 3.4 samt 3.5. Alla tänkbara kovariater som det fanns data om är med i första steget, det vill säga att modellerna var så stora som möjligt från början för att sedan minskas. Detta för att om alla kovariater är med från början finns den sanna/bästamodellen med som någon kombination- eller delmängd av dessa. Skulle regressionsarbetet börja med få kovariater och därefter byggas ut riskerar man att missa den, för vår tillgängliga data, bästa modellen. Således är det därför praxis att man utgår ifrån alla kovariater och kör regressioner, varefter modellen minskas. Nedan kan mer i detalj läsas vilka kovariater som var med från början och på vilka grunder de förkastas. De två slutgiltiga modellerna presenteras i Beslutsregler Vi använder oss som grundregel av risknivå 5% (p-värde 0,05) vid beräknandet om de olika kovariaterna är signifikanta för bostadsrättens slutpris, dvs. vi tar högst 5% risk att ha fel när vi säger att någon specifik kovariat har betydelse. Som ett komplement till denna regel används Bayesian Information Criterion (BIC). Som nämnt tidigare kan fler kovariater öka förklarandegraden, men också resultera i overfitting, vilket kan leta till svag prediktionsförmåga hos modellen då den kan överdriva små fluktuationer i data. Enligt förfarandet i väljer vi alltså den modell som minimerar BIC-värdet. I resultat under 4.1 Tabeller och diagram återfinns värden på BIC, vilket innebär förändringen i BIC då kovariaten utesluts ur den förklarande modellen. Då vi hela tiden vill välja den modellen som minimerar BIC ger detta att om BIC är negativt så kan det vara lämpligt att utesluta kovariaten, medan om det är positivt så är det lämpligt att ha kvar den. 9

14 3.3. VÅRA TVÅ GRUNDMODELLER 3. Metod 3.3 Våra två grundmodeller Som ett första steg gjordes en huvudmodell med syftet att uppskatta en godtycklig bostadsrätts slutpris samt bostadsrättens enskilda faktorers (dvs. kovariaternas) prispåverkan. Vi gjorde även en alternativmodell där den beroende variabeln är kvadratmeterpriset. Alternativmodellen har en lägre förklaringsgrad 1 men trots detta tillför alternativmodellen en del ytterligare förklaringar och insikter för läsaren. Bland annat belyser den tydligare hur totalt antal rum påverkar det slutliga kvadratmeterpriset bättre än huvudmodellen. Detta gör att vi presenterar även denna modell som ett komplement till huvudmodellen. Observationerna av priserna på sålda bostadsrätter antas uppfylla kraven 1 och 4 enligt då vi tagit multikollinearitet i beaktande vid konstruktion av modellerna. Homoskedasticitet förutsätts inte vara uppfyllt utan justeras för m.h.a. White s robust errors. Antagande 3 visar vi att det är uppfyllt i Fig Vad gäller oberoende observationer anser författarna detta antagande rimligt rent logiskt då försäljningspriset på t.ex. en 5:a på Södermalm inte bör påverka priset i märkbar mån på en 1:a i Vasastan. I grunden anser författarna att observationerna är ett slumpmässigt stickprov ur en stor population av bostadsrätter, varför det följer att antaganden om oberoende och identiskt fördelade är uppfyllda 2. Det kan förvisso argumenteras för att om en lägenhet säljs till ett visst pris skapas en referens för övriga aktörer. Vi anser det dock inte rimligt att tro att denna referens bidrar i den omfattningen att den i allmänhet verkligen påverkar slutpriset på en specifik lägenhet bortsett från att den ger lägenhetsspekulanter ytterligare information om marknadspriset. Det är, som kommer visas under 4. Resultat, mängder av faktorer som påverkar en lägenhets pris. Vi anser att för att en tidigare försäljning ska kunna påverka priset på en annan försäljning bör: Lägenheterna vara snarlika i storlek, avgift, renoveringsstandard mm. samt ligga i samma område (helst närliggande hus). Försäljningarna bör ha gjorts inom ett rimligt tidsmässigt intervall så att makrodata och hushållens förväntningar inte ändrats i någon större utsträckning. De två spekulanter som stannar längst i budgivningen bör känna till det faktiskta slutpriset på den liknande lägenheten som nyligen sålts, och ha sådana liknande subjektiva bedömningar att de anser att det priset är en rimlig bedömning och ett riktmärke man bör lägga vikt vid. De bör också ha ungefär lika bråttom att köpa lägenheten så att inte den ena betalar mer för att den är i desperat behov av en lägenhet snarast. Att alla dessa omständigheter är uppfyllda bedömer författarna som osannolikt och därmed anser vi att kravet på oberoende är uppfyllt Log-modell I somliga fall är det lämpligt att transformera sin regressionsekvation genom att logaritmera (naturliga logaritmen) antingen den beroende variabeln, kovariaterna eller båda delarna. Det som skiljer de tre fallen är hur ekvationen sedan skall tolkas. I) Y i = β 0 + β 1 ln(x i ) + e i En 1 % förändring i X ger en förändring i Y på 0, 01β 1. II) ln(y i ) = β 0 + β 1 Xi + e i En förändring i X på en (1, 00) enhet ger en förändring på 100β 1 % i Y. 1 Se Tabell 4.1: Kort regressionsdata 2 Stock,J och Watson,M, Introduction to Econometrics, s

15 3. Metod 3.3. VÅRA TVÅ GRUNDMODELLER III) ln(y i ) = β 0 + β 1 ln(x i ) + e i En 1 % förändring i X ger en β 1 % förändring i Y. Detta beskriver elasticiteten av Y med avseende på X. Genom att logaritmera en modell gör man det lättare att jämföra exempelvis hur ett års volontärarbete påverkar lönen över olika yrken, eftersom procentsatser kan säga mer än absoluta tal. Det gör det också lättare att jämföra över tiden, eftersom pengars reella värde ändras över tid medan en procentsats alltid är en procentsats. Att logaritmera sin ekvation kan också vara ett sätt att få ner variansen på sina kovariat-koefficienter 3. Vi anser att ingen av tolkningarna av de olika tre fallen presenterade ovan till fullo passar syftet med vårt arbete då absoluta siffror är mest relevanta. Att uppskatta hur mycket en lägenhet ökar i pris om man bygger till en balkong görs helt enkelt bäst i kronor istället för en procentsats. Vi har dock valt att i upplysande syfte göra en log-modell enligt fall II. av vår slutgiltiga huvudmodell. Detta för att observera eventuella förändringar i standardfel, R 2, och ge läsaren ytterligare möjlighet att se vilka av kovariaterna som ger de största procentuella förändringarna på slutpriset för de kovariater där det är meningsfullt. Då denna modell ses mest som informativ kuriosa har vi valt att endast presentera värden och resultat men inte diskutera dem vidare. Av samma anledning har vi valt att inte beräkna några heteroskedasticitetskonsistena standardfel Våra kovariater Nedan följer tabeller med information om våra två modeller. X anger att kovariaten finns i modellen och - anger således att den inte finns i modellen. Beroende variabel Enhet Huvudmodell Alternativmodell Info (Slutpris) SEK X - Detta är det värde vi försöker estimera, det är på denna variabel regressionen sker. (KvmSlutpris) SEK/m 2 - X Samma som ovan 3 Lang H, Universitetslektor i matematik, Handledarsamtal

16 3.3. VÅRA TVÅ GRUNDMODELLER 3. Metod Kovariat Enhet I huvudmodell I alternativmodell Info (Avgift) SEK X X Anger bostadsrättens månadsavgift. (Rum) Antal X - Anger totala antalet rum i bostadsrätten, noggrannhet halva rum. (Våning) Antal X X Anger antal våningar från BV, noggrannhet halva våningar. (Yta) m 2 X X Anger totala golvytan i bostadsrätten. (Hiss) Dummy X X Anger om hiss finns eller ej. (Balkong) Dummy X X Anger om balkong finns eller ej. Fransk balkong räknas ej som balkong. (Öppen spis/kakelugn) Dummy X X Anger om det finns öppen spis och/eller kakelugn. Ej noggrannhet kring antal öppna spisar/kakelugnar. (Etage) Dummy X X Anger om bostadsrätten är en etagelägenhet. (Takvåning) Dummy X X Anger om bostadsrätten är en takvåning. (Sekelskiftes) Dummy X X Anger om 1880 byggår 1915 för lägenhetsfastigheten. (Nybyggt) Dummy X X Anger om 2000 byggår 2012 för lägenhetsfastigheten. (Östermalm/Gärdet) Dummy X X Anger att bostadsrätten är såld på det område vi angett som Östermalm/Gärdet, se Figur 3.2. (Ekhagen Hjorthagen Dummy X X Anger att bostadsrätten Frihamnen) är såld på det områ- de vi angett som Ekhagen/Hjorthagen/Frihamnen, se Figur 3.2. (Östra Kungsholmen) Dummy X X Anger att bostadsrätten är såld på det område vi angett som Östra Kungsholmen, se Figur 3.2. (Västra Kungsholmen/Essingen) Dummy X X Anger att bostadsrätten är såld på det område vi angett som Västra Kungsholmen/Essingen, se Figur 3.2. (Södermalm) Dummy X X Anger att bostadsrätten är såld på det område vi angett som Södermalm, se Figur 3.2. (Vasatan/Norrmalm) Benchmark X X För att undvika multikollinearitet används området (Vasastan/Norrmalm) som benchmark, dvs. att alla andra områdesdummies ovan kommer ange prisskillnad jämfört med om bostaden skulle ligga i detta område. Anger att bostadsrätten är såld på det område vi angett som Vasastan/Norrmalm, se Figur

17 3. Metod 3.3. VÅRA TVÅ GRUNDMODELLER Kovariat Enhet I huvudmodell I alternativmodell Info (OMXS30) Punkter X X Skillnad (mätt vid stängning) i punkter mellan OMXS30 vid försäljningsdag av bostadsrätt och OMXS30 en månad före försäljningsdag. För en översikt över hur OMXS30 har ändrats under den för data aktuella perioden, se Fig (Boprisindikatorn) Heltal X X Boprisindikatorn anger skillnad i procent mellan antal hushåll som tror på stigande bostadspriser och antal hushåll som tror på sjunkande bostadspriser, således anger negativa tal att marknaden tror på sjunkande priser och positiva tal indikerar stigande priser. Bygger på en undersökning om 1000 hushåll som utförs av SEB. Undersökning med 30 dagars intervall. (Industriproduktionsindex) Index X X Ihopslagning av de tre separata undersökningarna order och leveranser, lager samt kapacitetsutnyttjande ihop till en undersökning, Konjunkturstatistik för industrin. Härifrån tas Industriproduktionsindex, IPI, som ett mått på konjunktur. IPI är ett kalenderkorrigerat kedjeindex, där 2005 = index 100. Månatlig undersökning/beräkning. (Bolåneränta 3-mån) Procent - - Mappas med säljdatum. Viktat medelvärde av de fyra storbankerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum. (Bolåneränta 1 år) Procent - - Mappas med säljdatum. Viktat medelvärde av de fyra storbankerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum. (Bolåneränta 2 år) Procent - - Mappas med säljdatum. Viktat medelvärde av de fyra storbankerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum. (Bolåneränta 3 år) Procent X* X* Mappas med säljdatum. Viktat medelvärde av de fyra storbankerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum. (Bolåneränta 5 år) Procent - - Mappas med säljdatum. Viktat medelvärde av de fyra storbankerna Handelsbanken, Nordea, SEB och Swedbank vid givet datum. 13

18 3.4. DATAINSAMLING 3. Metod Kovariat Enhet I huvudmodell I alternativmodell Info (Balkong)*(Takvåning) Dummy X X Denna kovariat tas bara med då bostadsrätten i fråga är både en takvåning och har balkong (följer ur definiton på Dummy-variabel). (Hiss)*(>2 våningar) Dummy X X Denna kovariat tas bara med då bostadsrätten i fråga är både en takvåning och är belägen på minst 3:e våningen. Kovariaten (>2 våningar) är bara med i denna blandterm och förekommer alltså ej enskilt. (Avgift)/(Yta) SEK/m 2 - X Anger hur många kronor per kvadratmeter bostadsrättsföreningen tar ut i avgift från sina medlemmar. (Yta)/(Rum) m 2 - X Anger hur många kvadratmeter lägenheten har per rum (dvs. det blir ett snittvärde). (1rum) Dummy - X Anger om bostadsrätten har 1 rum (1,5rum) Dummy - X Anger om bostadsrätten har 1,5 rum (2-2,5rum) Dummy - X Anger om bostadsrätten har 2 eller 2,5 rum (3-3,5rum) Benchmark - X Satt som benchmark av samma anledning som områdesdummyn (Vasastan/Norrmalm). Anger om bostadsrätten har 3 eller 3,5 rum. ( 4rum) Dummy - X Anger om bostadsrätten har 4 eller fler rum *Räntorna testades först för att avgöra vilken som hade lägst p-värde och kontrollerade därefter med BIC. Den bästa valdes ut och sattes in i modellen. Figur 3.1: OMXS30 s stängningspunkter under perioden till Datainsamling För att kunna göra estimat har vi använt data från försäljningar av bostadsrätter i Stockholms innerstad under perioden Data kommer från Slutpris.se 4 och omfat

19 3. Metod 3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA tar efter viss gallring ca 2630 observationer. Till detta kommer ytterligare data och statistik, t.ex. har banker kontaktats för att insamla data om deras bolåneräntor samt data för SEB s boprisindikator. Slutligen har även data för Industriproduktionsindex hämtats från SCB, data för OMXS30 från OMXNasdaq och variationer i kvadratmeterpriser beroende på område från SBAB. Nedan följer en beskrivning av hur vi behandlat dessa data för att få så god information som möjligt. 3.5 Rensning och förbättring av erhållen data Slutpris, avgift och rum Sortering och kontroll att inga orimliga värden fanns. Bland annat fick två mätningar kastas då slutpris saknades, en avgift som var noterad som -1"kunde räknas ut då en lägenhet i samma bostadsförening och såld vid ungefär samma tidpunkt hittades. En 5-rummare med 18 kvm bostadsyta justerades till 1 rum då t.ex. försäljningspris m.m antydde att det var frågan om en en-rummare. Även själva försäljningen av en bostad kunde spåras via andra internetsidor för att kontrollera värden. Väldigt få, cirka 10 korrigeringar behövde göras Våning 280 mätningar saknade data om vilken våning de fanns på. Sökning efter gamla mäklarannonser ledde till att 175 mätningar kunde räddas medan övriga 105 fick kastas. Då insamling av viss data sker automatiskt hos ursprungskällan finns en risk att några inläsningar blir fel. Vissa våningar var uppenbart fel (t.ex. våning 55), medan andra inte var lika klara. Återigen genom att leta igenom gamla annonser kunde våning 55 rättas till 5,5, våning 32 till våning 1,5 etc. Våningar ned t.o.m. våning 8 kollades igenom. Då inga fel hittades på våning 9 samt 8 antogs slutpris.se:s datainsamlingsprogram inte ha problem med ensiffriga våningsplan Sekelskiftes, Nybyggt Dessa två dummy-variabler skapades utifrån informationen om byggår. Uppdelningen efter byggår är gjord efter vad vi anser bör kunna ha en påverkan på slutpriset, då t.ex. (Sekelskiftes) kan vara korrelerad med, säg, takhöjd eller andra värdeskapande/värdeminskande variabler som ej finns med i tillgänglig data. När byggårsdata kontrollerades saknades det information på uppemot 750 observationer. Av dessa lyckades cirka 250 återskapas genom att tidigare försäljningar fanns på exakt samma adress. För övrig data användes Hitta.se s gatuvy för att se hur huset såg ut och därefter kunna göra bedömningar huruvida lägenheten befann sig i ett hus som var från sekelskiftet eller om det var nybyggt. Definitioner på årtal för respektive dummy-variabel återfinns i tabellerna med våra kovariater (se 3.3.2). Vidare användes information om området och närliggande bostadshus som stöd, vilket dock främst hjälpte för att avgöra om det var nybyggt eller ej. En mängd exempelbostäder med redan känt byggår betraktades även och användes som stöd. Bedömningar gjordes i huvudsak av båda författarna samt även vid lite svårbedömda tillfällen av tredje person med viss kunskap på området. Om klassificeringen fortfarande kändes osäker så fick objektet tillhöra återstoden, dvs. inte till sekelskiftes- eller nybyggt-kategorin. Detta för att huvuddelen av objekten fanns där samt att dummy-variablernas påverkan skulle hållas så säkra som möjligt. 15

20 3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA Metod Områdesdummys I originaldata fanns tillgång till adress och postnummer, genom detta kunde objekten placeras i sina respektive områden. En noggrann genomgång av samtliga objekt gjordes här för att tillse att objekten hamnade i rätt område. Uppdelningen av områden är gjord med hänsyn tagen till områden med betydande skillnad i prisnivå5 och/eller andra karaktäristika. Detta eftersom de områdeskaraktäristika (närhet till city m.m.) som gäller för t.ex. Östermalm inte gäller för Hjorthagen eller Ekhagen. Uppdelningen är inspirerad av SBABs Storstadsguide, Hemnet.se samt Mäklarstatistik.se. Figur 3.2: Gjord områdesindelning av Stockholms innerstad ( )

21 3. Metod 3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA OMXS30 Dessa data testades av författarna på olika sätt, både att punkter vid stängning matchades mot försäljning samma dag men även att OMXS30-kursen försköts för att vi ville undersöka om t.ex. höga eller låga stängningskurser för en månad sedan gav en möjlighet att spendera mer eller mindre pengar på en bostad. Slutligen valdes OMXS30 enligt tabellen över våra kovariater (se 3.3.2) Bolåneräntor Bolåneräntorna med olika löptid som användes är samtliga baserade på storbankernas, SEB, Handelsbanken, Nordea samt Swedbanks räntor. Dessa fyra banker får representera aktuell marknadsränta då de tillsammans har ca 80% av hushållens totala lånestock per den Det är alltså rimligt att använda just dessa räntenivåer då sannolikheten är hög att köparen av bostaden lånar från någon av just dessa banker. Trots att räntenivåerna för bankerna följer varandra någorlunda används här ett viktat medelvärde. Viktningen är gjord med avseende på respektive banks marknadsandel så att en ränta vars banks marknadsandel är större får större inflytande. Viktning har skett med hänsyn till respektive banks marknadsandel per den Varje mätning, försäljning av bostad, får räntan för det aktuella säljdatumet. Detta för att det är först då sluter det riktiga avtalet om lånet sluts, innan har de flesta spekulanter bara ett lånelöfte och räntan kan ha ändrats sedan dess Blandtermsdummys Syftet med (Balkong)*(Takvåning) är som följer: Givet ett antagande om att en balkong med högt, fritt läge och vidsträckt utsikt är mer värd än en balkong nära bottenvåning eller väg har vi skapat denna blandterm. Då relevant information som sjöutsikt, högt fritt läge, eller våningsplan av det totala antalet våningsplan saknas är detta ett substitut för att försöka påvisa bl.a. utsiktens inverkan på balkongens värde. Takvåningar har även en tendens att kunna ha större mer spektakulära balkonger, t.ex. som takterasser eller en balkong som sträcker sig runt hela lägenheten. Alla balkonger måste givetvis inte vara av denna typ, men det prisas ändå in karaktäristiska drag hos balkonger som är specifika hos just takvåningar. (Avgift)/(Yta): Substitut för avgift i alternativmodellen. Denna kovariat blir även ett mått på hur hög avgift per yta bostadsrättsföreningen måste hålla, och därmed i viss mån ett mått på bostadsrättsföreningens ekonomiska situation. (Yta)/(Rum): Denna blandtermsdummy är medtagen i alternativmodellen där den visade sig vara mest lämplig. Den är även intressant då den ev. kan ge en fingervisning om svaret på frågor som: Är en trång femma mindre värd än en spatiös fyra? Blir det mer värt med en planlösning som gör att man får en sovalkov och förvandlar en 1:a till en 1,5:a? Olika kombinationer av yta, avgift och rum har testats för att få högsta förklarandegrad och lägst standardfel. De kovariater som är förkryssade i tabellen för våra kovariater är således de som gav bäst resultat i dessa hänseenden för respektive modell. 6 tappar stort pa bolanen_ svd ( ) 7 Ibid 17

22 3.5. RENSNING OCH FÖRBÄTTRING AV ERHÅLLEN DATA 3. Metod Att transformera oberoende variabler Vissa kovariater kanske inte anses vara linjära i sin påverkan av den beroende variabeln, då kan det vara relevant att transformera dessa för att bättre passa kovariatens beteende. Betrakta t.ex. ett jordbruk där man vill modellera förändringen i produktion m.a.p. antal anställda. Låt Y vara produktionen av exempelvis sockerbetor i enheten ton och x vara antalet anställda. Då jordarealen och antal maskiner är fix lönar det sig till slut inte att anställa fler. Då kan man tänka sig att ha både x och x 2 som kovariater där regressionen rimligtvis resulterar i olika tecken på koefficienterna. Detta är ett exempel på den ekonomiska lagen om avtagande marginalavkastning (eng: (law of) diminishing marginal returns). Betrakta illustrationen nedan: Figur 3.3: Graf med produktion sockerbetor [ton] på Y-axeln och antal anställda på x-axeln. Detta är endast ett tänkt exempel i illustrativt syfte som följer funktionen Y = 100x x 2 för 0 x 50, därefter Y = 2500 = konstant. 18

23 Kapitel 4 Resultat 4.1 Tabeller och diagram Tabell 4.1: Kort regressionsdata Huvudmodell Alternativmodell R 2 0,9048 0,5465 R 2 adj 0,9042 0,5430 ˆσ Nedan återfinns en kort beskrivning av vad efterföljande tabeller innehåller: Tabell 4.2 och 4.3 : Här återfinns värden på de beslutsparametrar som räknats fram för kovariaterna, samt vilka kovariater som uteslutits ur/tagits med till slutmodellen. Vilka kovariater som var minst respektive mest signifikanta framgår tydligt i dessa tabeller. Tabell 4.4 och 4.5 : Av regressionen uträknade värden på de kvarvarande kovariaternas koeffecienter, samt standardfel och heteroskedasticitets-konsistenta standardfel till dessa. Hur stora faktiska bidrag som varje kovariat ger till slutpris/kvmslutpris kan ses här. T.ex. att i huvudmodellen estimeras varje våningsplan som lägenheten ligger från BV ge = SEK extra i slutpris, med ett robust standardfel på 5338 SEK. Tabell 4.6 och 4.7 : Observerade snittvärden på kovariaterna fördelade på antal rum hos lägenheterna. Dessa tabeller ger en bättre överblick över hur insamlad data är fördelad på olika egenskaper, t.ex. hur stor andel har balkong av 1:or, 2:or osv. Tabellerna ger även en fingervisning om lägenheter av olika rumsstorlek i snitt är över- eller undervärderade av regressionsmodellen - och i så fall med hur mycket de i snitt är felvärderade. 19

24 4.1. TABELLER OCH DIAGRAM 4. Resultat Tabell 4.2: Huvudmodellen med F,p- och BIC-värden för varje kovariat. Det anges även om kovariaten är medtagen (J) eller inte (N) i den slutgiltiga förklarande modellen. 20

25 4. Resultat 4.1. TABELLER OCH DIAGRAM Tabell 4.3: Alternativmodellen med F,p- och BIC-värden för varje kovariat. Det anges även om kovariaten är medtagen (J) eller inte (N) i den slutgiltiga förklarande modellen. 21

26 4.1. TABELLER OCH DIAGRAM 4. Resultat Tabell 4.4: Huvudmodellen med estimerade betavärden och deras respektive standardfel (eng: standard error, därav notationen SE) för varje kovariat. Tabell 4.5: Alternativmodellen med estimerade betavärden och deras respektive standardfel (eng: standard error, därav notationen SE) för varje kovariat. 22

27 4. Resultat 4.1. TABELLER OCH DIAGRAM Tabell 4.6: Data för huvudmodellen och dess kovariater uppdelad efter de sålda bostadsrätternas antal rum. En mängd information går att utläsa ur denna tabell; den beskriver i stort karakteristika för vår erhållna datamängd. Tabell 4.7: Samma som ovan men för Alternativmodellen. Många kovariater är gemensamma men data om en del nya återfinns här. 23

28 4.2. LOG-MODELLEN 4. Resultat 4.2 Log-modellen Nedan följer en tabell på värden för den logaritmerade huvudmodellen. Denna modell har värdena R 2 = och ett standardfel på Tabell 4.8: Betavärden och deras standardfel för den logaritmerade modellen. Kovariaternas betavärden påverkar den beroende variabeln i enlighet med

29 4. Resultat 4.3. VÅRA TVÅ SLUTMODELLER 4.3 Våra två slutmodeller Nedan presenteras våra två slutgiltiga modeller utskrivna i enlighet med ekv För den som är familjär med denna formel är det lätt att själv sätta in rätt beta-värde ur tabellerna 4.4 och 4.5 vid respektive kovariat, här fås för enkelhets skull modellerna med alla beta-värden redan insatta vid respektive kovariat Huvudmodellen Påminnelse: benchmark är satt som området (Vasastan/Norrmalm) vilket gör att koefficienter framför områdesdummys skall ses relativt detta område. (Slutpris) anges enl. tidigare i SEK. (Slutpris) = (Avgift) (Rum) (V ȧning) (Y ta) (Balkong) (Öppenspis/Kakelugn) (T akvȧning) (Sekelskiftes) (Nybyggt) (Östermalm/Gärdet) (Ekhagen/Hjorthagen/F rihamnen) (Östra Kungsholmen) (V ästra Kungsholmen/Essingen) (Södermalm) (Boprisindikatorn) (Bolȧnernta3ȧr) (Balkong) (T akvȧning) Alternativmodellen Påminnelse: benchmark är satt som området (Vasastan/Norrmalm) samt rumskovariaten (3-3,5rum) vilket gör att koefficienter framför områdesdummys skall ses relativt detta område och koefficienter framför rumsdummys ses relativt en 3 eller 3,5-rummare. (KvmSlutpris) anges enl. tidigare i SEK/m 2. (KvmSlutpris) = (V ȧning) 123 (Avgift)/(Y ta) 720 (Y ta/rum) (Balkong) (Öppenspis/Kakelugn) (T akvȧning) (Sekelskiftes) (Nybyggt) (Östermalm/Gärdet) (Ekhagen/Hjorthagen/F rihamnen) (Östra Kungsholmen) (V ästra Kungsholmen/Essingen) (Södermalm) (Boprisindikatorn) (Bolȧnernta3ȧr) (Balkong) (T akvȧning) (1rum) (1, 5rum) (2 2, 5rum) ( 4rum) 25

30 4.4. YTTERLIGARE RESULTAT FÖR HUVUDMODELLEN 4. Resultat 4.4 Ytterligare resultat för huvudmodellen Figur 4.1: Graf över residualernas spridning Figur 4.2: Diagram över residualerna i anknytning till nödvändigt matematiskt antagande 3. 26

31 Kapitel 5 Diskussion 5.1 Resultatens påvisande och diskussion kring dessa Normalfördelningshistogram och residualplot Normalfördelningshistogrammet i Figur 4 visar hur residualerna liknar en normalfördelning kring e = 0. Detta justifierar vårt antagande om att feltermerna är likafördelade och normalfördelade, vilket i sin tur (kombinerat med övriga antaganden) leder till att vår regression ger en riktig OLS-skattning. Residualplotten i Figur 3 ger även den intressant information om hur felen är fördelade beroende på slutpriset på lägenheten. Ett generellt drag vi kan se är att residualerna tenderar att öka desto högre slutpriset blir. Vi kan också se att riktigt dyra lägenheter har de största residualerna, och att dessa lägenheter tenderar att bli undervärderade av vår modell (positiv felterm). Att betrakta residualplotten kan vara viktigt då man vill värdera någon dyr lägenhet Kort om Log-modellen Enligt tidigare utsago (se 3.3.1) anser vi att tolkningen av denna modell inte passar våra syften. Vi noterar därför endast kort att R 2 blev något sämre än i huvudmodellen samt att standardfelet fortfarande är i samma härad Uteslutna kovariater Räntor: Betrakta beslutsparametrarna för boräntorna. Ur deras F- och p-värden kan utläsas att alla olika bindningstider var signifikanta i sig, men att den med bindningstid 3 år var den mest signifikanta. Ytterligare diskussion kring 3års-boräntan finns under OMXS30 : Man brukar säga att bopriserna följer med börsutvecklingen 1, varför vi valde att ha med OMXS30 som en makrokovariat. Genom att titta på OMXS30s förändring de senaste 30 dagarna innan lägenhetsköpet gick igenom var tanken att en börsnedgång skulle kunna påverka slutpriset negativt och en uppgång skulle kunna påverka positivt, eftersom det till viss mån styr hur mycket pengar gemene man har att röra sig med samt dennes eventuella köplust. I Figur 3.1 visas hur OMXS30 har rört sig under den period vi betraktat. Resultatet var dock tydligt:

32 5.1. RESULTATENS PÅVISANDE OCH DISKUSSION KRING DESSA 5. Diskussion förändringen i OMXS30 har med stor sannolikhet ingen inverkan på slutprisen hos lägenheterna. En möjlig tolkning kan dels vara att gemene man inte är exponerad i så stor grad mot börsen att det spelar roll åtminstone inte då man planerar ett lägenhetsköp. Om köparen av lägenheten inte är en förstagångsköpare är det även rimligt att anse att lejonparten av kapitalet kommer från försäljningen av köparens tidigare lägenhet och inte från börsen. Vidare kan tänkas att det pga. vår begränsade tidsperiod var svårt att fånga upp de stora makrorörelserna på börsen och hänföra dem till lägenhetspriserna, ett perspektiv på 5 års sikt kanske hade gett ett annorlunda resultat. Industriproduktionsindex (IPI): Denna kovariat är ett index som enl. tidigare beskrivning är en sorts konjunkturindikator. Vi valde att ta med denna kovariat för att se om allmän hög- eller lågkonjunktur kan påverka köptrycket och därmed priserna på lägenheterna. Indexet har fluktuerat mellan 85 och 103 under mätperioden, men hade som resultaten visar ingen vidare effekt på slutpriserna. IPI som var tänkt att fånga upp den mer industriella delen av konjunkturen (jmf med OMXS30 som mer är en finansiell indikator). Att IPI inte visade sig vara signifikant kan också här tänkas bero på vårt något korta tidsintervall. Återigen hade det varit intressant att se utfallet om data hade funnits över ett par år. Hiss och (Hiss)*(>2våningar): I ursprungsdata fanns information om hiss fanns eller ej. Hiss kanske inte är det första en lägenhetsspekulant tänker på, men om man under flera års tid ska bära matkassar/möbler flera trappor varje gång kanske man inte har lust att betala fullt lika mycket? Med detta i åtanke skapade vi blandtermen (Hiss)*>(2våningar). Resultaten visar dock (p-värde 0,20 0,40 och negativa BIC) att dessa kovariater inte är signifikanta. Att inte ens blandtermen var signifikant var lite förvånande i våra ögon. Tankar kring varför det blev så kan vara att det antingen finns tillräckligt med spekulanter på varje objekt som inte bryr sig om det finns hiss eller inte, eller att de som inte brydde sig oftast var bland de två som var kvar och bjöd högst i slutet. Om de två som ignorerade faktumet att hiss saknades var kvar i slutet och de som brydde sig redan hoppat av budgivningen så har således inte hiss betydelse för slutpriset. Till syvende och sist kvarstår i alla fall faktumet att dessa kovariater var så pass insignifikanta att de uteslöts. Etage: Som namnet antyder anger denna kovariat om lägenheten var en etagevåning eller ej. Kovariaten blev utesluten, trots att man kanske hade förväntat sig att något lite speciellt som etage skulle vara en prisdrivande faktor. Spontant kanske man tänker sig en etagetakvåning med utsikt högt upp i huset, men det är också viktigt att komma ihåg att etagelägenheter också finns i källarplan eller mitt i bostadsrättshus. En etagevåning tar också golvyta från lägenheten. Sedan kan man tänka sig att vissa tycker att etage är häftigt medan de som har barn och äldre människor kanske föredrar att bo på ett plan. Man kan möjligtvis tänka sig att mer spektakulära etagevåningar ökar priset medan källaretagevåningar etc. drar ned priset. Eftersom vi inte har information om exakt hur etagevåningarna såg ut finns här alltså en risk för utsläckning av priseffekterna mellan olika sorters etage. Detta är något man som insamlare av data kan tänka på i framtiden. Avgift (OBS! Endast i alternativmodell): Att avgiften är signifikant och har en inverkan på slutpriset förstår nog de flesta. Avgiftskovariaten var en rest från huvudmodellen, som vi sedan kunde förkasta eftersom vi lagt till en kovariat (Avgift/yta). (Avgift/yta) hade högre förklarandegrad än bara avgift ensam, varför (Avgift/yta) blev den som var kvar. Som tidigare nämnts har det manipulerats med kovariater yta, avgift, rum bl.a. för att få fram de som gav bäst resultat i vår modell. 28

33 5. Diskussion 5.1. RESULTATENS PÅVISANDE OCH DISKUSSION KRING DESSA Signifikanta kovariater Våning: Regressionen visar att varje våning från BV gav i huvudmodellen ungefär SEK extra i slutpris och i alternativmodellen ungefär 550 SEK/m 2 extra i kvmslutpris. Det finns även ett fåtal sålda lägenheter på nedre botten, vars våning alltså skall vara -1 då den förs in i regressionen. Det finns dock vissa begränsningar i data, t.ex. vet vi inte hur högt det aktuella huset var. Att bo högst upp eller att precis nå över grannhuset utsiktsmässigt bör rimligtvis påverka också. Resultaten kan dock vara bra att utgå från som tumregel, och sedan är det upp till den som använder modellen att själv tänka på de specifika attribut som en enskild lägenhet har. Balkong: I huvudmodellen skattas tillgång till balkong vara värd SEK och i alternativmodellen ge ett tillskott på 1840 SEK/m 2. Även här kan vi notera att det inte finns någon information om hur omgivningen/utsikten från balkongen är, och inte heller storleken eller väderstrecket på balkongen. Det finns också en möjlighet att det finns fler än en balkong. Franska balkonger ingår dock inte i denna kovariat. Förslag till förbättringar inför framtida datainsamling och vidareutveckling av modellen tas upp under rubrik 5.5. Vi anser att vi åtminstone har rimliga värden som kan vara bra att utgå ifrån om man funderar på att skaffa en balkong. Ligger balkongen fritt i sydvästläge eller liknande är det givetvis värd mer. Denna kovariat kan vara ett exempel då huvudmodellen estimerar värdet bättre än alternativmodellen. Detta då huvudmodellen ger ett engångsbidrag till slutpriset medan alternativmodellens koefficient berättar hur mycket balkongens värde ökar per kvadratmeter. Frågan man kan ställa sig är då: är det rimligt att balkongens värde ökar (i absoluta tal) för en större lägenhet? Är det helt plötsligt värt, säg kr mer, med balkong för att lägenheten har ett extra sovrum eller en stor hall? När man använder sig av respektive modell bör man alltså ha i åtanke hur de fungerar vid värderingar av lägenheter eller dess egenskaper. Öppen spis/kakelugn: Vår regression anger att värdet på att öppen spis eller kakelugn finns är ca SEK (huvudmodell) eller 2820 SEK/m 2 i alternativmodellen. I en lägenhet på t.ex. 55 kvm skulle således slutpriset höjas med ungefär SEK enligt alternativmodellen. Vi noterar även att denna kovariat är en dummy, och vi kan således bara veta att det öppen spis/kakelugn finns, men inte exakt hur många som finns. Betraktar vi tabell 8 och tabell 9 så kan vi se att ungefär hälften av de lägenheter som hade öspis/kakelugn var 2:or och ungefär hälften 3:or-5:or, vilket rimligtvis kan innebära att dessa kan ha haft flera öppna spisar och/eller kakelugnar som drog upp värdet på denna koefficient i huvudmodellen. Om man är intresserad av värdet av denna koefficient för en mindre lägenhet kan det därför vara rimligt att justera ned påverkan någon, eftersom SEK för en enda öppen spis i en liten lägenhet låter något i överkant av vad författarna anser trovärdigt mot bakgrund av att observationernas tyngdpunkt låg i större lägenheter. Kvaliteten och utseendet av t.ex. kakelugnar finns givetvis inte heller med i data, varför detta också är något man som spekulant/mäklare bör tänka på vid värdering. Takvåning: Att lägenheten är en takvåning är givetvis inte bara associerat med att den befinner sig högst upp, utan också andra attribut som hör till. Dessa kan vara synliga takbjälkar, ofta fönster i flera väderstreck, högt fritt läge med god utsikt och inte minst det subjektiva värdet av att äga just en takvåning. Det är också värt att poängtera att denna kovariat är den enda som med säkerhet bekräftar att lägenheten ligger högst upp i huset. Data stöder en värdering på SEK i huvudmodellen 6750 SEK/m 2 i alternativmodellen. Huruvida detta känns som en bra estimerad siffra kan vara svårt för någon som inte är i mäklarbranschen att avgöra, men enligt författarnas är estimationen i alla fall inte orimlig. Det kan tilläggas att snittpriset på lägenheterna som var takvåningar var strax över 5,1 MSEK med en snittyta på ca 75 kvm där de 29

34 5.1. RESULTATENS PÅVISANDE OCH DISKUSSION KRING DESSA 5. Diskussion allra flesta lägenheter ligger mellan just 50 och 100 kvm. I alternativmodellen skulle en yta på 75 kvm ge ett ökat slutpris på ca SEK vilket skiljer sig ganska rejält från huvudmodellens estimat. Eftersom huvudmodellen har klart bättre R 2 anser vi att det är den man i allmänhet bör hålla sig till, om det inte finns någon uppenbar anledning att titta på någon annan modell. Log-modellen anger att takvåning ger en 14,6 %-ig ökning av priset, vilket kan tas som generellt. Sekelskiftes: Denna kovariat en som vi själv har valt att ta fram från data på byggår. Anledningen är att lägenheter byggda under denna tidsperiod har vissa egenskaper människor är villiga att betala för. Det kan vara t.ex. rejäl takhöjd, stukaturer, vacker utsida och vackert trapphus med mycket genomarbetade detaljer. Enligt huvudmodellen (Hm) är en sekelskifteslägenhet värd ca SEK mer än vårt benchmark, och enligt alternativmodellen (Am) ger en sekelskifteslägenhet 4850 SEK/m 2 mer. Vårt benchmark är alltså alla lägenheter som inte faller under rubrikerna Sekelskiftes eller Nybyggt som förklarat tidigare. Dessa resultat kan givetvis vara bra att tänka på om man funderar på lägenheter inom samma område där byggnaderna är uppförda vid skilda tidpunkter. Vi kan också notera att enligt Am skulle SEK motsvara en lägenhet på ca 61 kvm, så de bedöms ha relativt lika värderingar (betrakta t.ex. Tabell 4.6 för snittytor). Detta innebär att det kan vara värt att använda alternativmodellens siffra om man ska värdera en lägenhet vars storlek klart skiljer sig från 61 kvm alternativt justera huvudmodellens resultat därefter. Nybyggt: Detta var den andra kovariaten vi konstruerade med hjälp av byggår. Återigen valde vi något som vi tror kan ha inverkan på priset. När det kommer till nybyggen måste vi ha i åtanke att nybyggen inte har plats att uppföras vart som helst, här kommer alltså geografiskt läge på dessa nybyggen ha en inverkan på värderingen av den relaterade koefficienten. Områden i Stockholms innerstad där nybyggen uppförts sedan år 2000 är främst västra delarna av Kungsholmen och i Hammarby Sjöstad. Vid genomgång av data ser vi att de allra flesta hör till området Södermalm (knappt 80%) varav majoriteten ligger i just Hammarby Sjöstad. Regressionen anger nybyggt-koefficientens inverkan i Hm till ca SEK, och till SEK/m 2 i Am. För att komma upp till en inverkan på SEK i Am krävs en lägenhet på ca 76 kvm, vilket är något större än en genomsnittlig lägenhet (för alla observationer är genomsnittsytan ca 57 kvm). Koefficienten i Am är alltså något lägre (absoluta tal) värderat, vilket man bör tänka på om man vill värdera lägenheter vars yta skiljer sig från genomsnittet. Anledningar till att en nybyggt lägenhet innebär ett lägre slutpris kan vara att de ofta har relativt höga avgifter, där en del av den inverkan har tilldelats nybyggt-koefficienten istället för avgiftskoefficienten. Vi måste också ta hänsyn till en klar övervikt av lägenheter mäklade i Hammarby Sjöstad. Även om flera lägenheter bedöms kunna ha sjöutsikt som driver upp pris så är det långt ifrån alla lägenheter i sjöstaden som har sjöutsikt. Alla lägenheter har dock ett relativt långt pendlingsavstånd in till stan, där tvärbanan eller bussar till Gullmarsplan/Slussen är alternativen när man ska in mot city. Ett långt och något besvärligt pendlingsavstånd är givetvis något som överlag drar ned slutpris. Områdeskovariater: För en lite bättre överblick sammanställer vi här resultaten (avrundade) från tabell 4.5 och 4.4 under resultatdelen, med uträknad vilken storlek på lägenhet som behövs för att Am:s värdering skall motsvara Hm:s. Värden på estimat är SEK för Hm och SEK/m2 för Am i vanlig ordning. 30

35 5. Diskussion 5.1. RESULTATENS PÅVISANDE OCH DISKUSSION KRING DESSA Tabell 5.1: Områdes påverkan på slutpris, angett i SEK (Hm) och SEK/kvm (Am). Anledningen till att vi räknat ut en motsvarande storlek på lägenhet är precis som tidigare att vi vill kunna se hur pass värderingen i Am skiljer sig från Hm, då vi har vetskapen att en lägenhet i snitt ungefär är 57 kvm stor. Detta är alltså inga nya resultat, utan bara till för att inte belasta läsaren med dessa räkningar. Värderingarna i tabellen ovan anger alltså hur värdet på en lägenhet förändras då den placeras i ett av ovan områden, jämfört med en lägenhet med identiska (data)egenskaper placerad i vårt benchmarkområde Vasastan/Norrmalm. Vi kan konstatera att alla områden utom Östermalm/Gärdet är billigare än benchmarket, vilket ligger i intuitionens riktning. Alternativmodellens värdering skiljer sig ganska rejält, varför vi vidhåller vår grundrekommendation att hålla sig till huvudmodellens resultat. Här kan man återigen skala upp eller ned värdet beroende på storlek på lägenhet man är intresserad av. Områdena är ganska grovt indelade och naturligtvis finns det variation inom dem, men det ger en bra handledning för t.ex. spekulanter där de kan se vad samma lägenhetsstandard skulle ge dem pengamässigt i ett annat område. Boprisindikatorn: Vi letade upp denna indikator som ett mått på vilka förväntningar på framtiden spekulanter har när de går på visning. Förväntar man sig att priser skall gå upp i framtiden är det troligt att man är villig att betala lite mer nu, medan om man tror att de ska gå ner kanske man är något mer avvaktande med plånboken. Det är viktigt att notera att denna undersökning görs av SEB på 1000 personer, som då får representera hela den svenska befolkningen. Dessa personer är bosatta i slumpmässiga delar av Sverige varför de inte nödvändigtvis tänker på bostadspriserna i Stockholms innerstad utan snarare på utvecklingen i stort. Kovariaten har visat sig högst signifikant med ett p-värde på ungefär Resultaten visar att i huvudmodellen är koefficienten värd ca 4170 SEK per enhet och i alternativmodellen 67 SEK/m2 per enhet. I förhållande till genomsnittsytan på våra observationer är värderingarna relativt lika inom de båda modellerna. Senaste publikationen av boprisindikatorn ( ) visar att den steg till högsta nivån på elva månader med ett värde på plus 20 enheter. I dagsläget skulle boprisindikatorn öka slutpriset med SEK enl. Hm vilket inte alls är en obetydlig summa. Detta är givetvis ett verktyg som kan vara bra att använda både som spekulant och mäklare. Det kan nog vara lätt att glömma hur förväntningarna är precis för stunden när man gör ett lägenhetsköp och bedömt ännu svårare att veta hur man skulle prissätta eventuella förväntningar, vilket förhoppningsvis avhjälps med denna rapport. Bolåneränta 3år: Bolåneräntan är givetvis en av de allra viktigaste parametrarna för den som går i köptankar. Har man en maxkostnad per månad man är beredd att betala avgör ränteläget ofta hur mycket man kan låna och därigenom hur mycket man kan betala. Regressionen anger värdet på denna koefficient till ca SEK per procentenhet i Hm och ca SEK/m 2 per procentenhet i Am. Återigen ger Hm och Am relativt lika värderingar. I dagsläget ( ) ligger boräntan med 3 års bindningstid på ca 3,8 procent, men det är egentligen inte själva absoluta talet som är intressant för spekulanter etc. utan snarare informationen att en en-procentig förändring av 3års-räntan påverkar slutpriset med ca SEK/4 100 SEK per m 2 åt respektive håll. En viktig notis är att regressionen har gjorts på listpriset på den viktade 31

Visa mer